Data Science Archives

Machine Learning for Beginners in Python: How to Find Best Preprocessing Steps During Model Selection

By SETScholars Team on Monday, May 24, 2021

Find Best Preprocessing Steps During Model Selection We have to be careful to properly handle preprocessing when conducting model selection. First, GridSearchCV uses cross-validation to determine which model has the highest performance. However, in cross-validation we are in effect pretending that the fold held out as the test set is not seen, and thus not part of …

Data Science Python for Business Analyst Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Calculate Recall

By SETScholars Team on Monday, May 24, 2021

Recall Preliminaries /* Load libraries */ from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification Generate Features And Target Data /* Generate features matrix and target vector */ X, y = make_classification(n_samples = 10000, n_features = 3, n_informative = 3, n_redundant = 0, n_classes = 2, random_state = 1) Create Logistic Regression …

Data Science Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Calculate Precision

By SETScholars Team on Monday, May 24, 2021

Precision Preliminaries /* Load libraries */ from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification Generate Features And Target Data /* Generate features matrix and target vector */ X, y = make_classification(n_samples = 10000, n_features = 3, n_informative = 3, n_redundant = 0, n_classes = 2, random_state = 1) Create Logistic Regression …

Data Science Python Example for Beginners Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Plot The Validation Curve

By SETScholars Team on Monday, May 24, 2021

Plot The Validation Curve Preliminaries /* Load libraries */ import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import load_digits from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import validation_curve Load Digits Dataset /* Load data */ digits = load_digits() /* Create feature matrix and target vector */ X, y = digits.data, digits.target Plot Validation …

Data Analytics Data Science Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Plot The Receiving Operating Characteristic Curve

By SETScholars Team on Monday, May 24, 2021

Plot The Receiving Operating Characteristic Curve Preliminaries /* Load libraries */ from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_curve, roc_auc_score from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt Generate Features And Target /* Create feature matrix and target vector */ X, y = make_classification(n_samples=10000, n_features=10, n_classes=2, n_informative=3, random_state=3) Split Data Intro …

Data Science Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Plot The Learning Curve

By SETScholars Team on Monday, May 24, 2021

Plot The Learning Curve Preliminaries /* Load libraries */ import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import load_digits from sklearn.model_selection import learning_curve Load Digits Dataset /* Load data */ digits = load_digits() /* Create feature matrix and target vector */ X, y = digits.data, digits.target Plot Learning …

Applied Data Science Explained Classification Data Analytics Data Science IRIS Dataset - Machine Learning Classification in Python Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to Generate Text Reports On Performance

By SETScholars Team on Monday, May 24, 2021

Generate Text Reports On Performance Preliminaries /* Load libraries /* from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report Load Iris Flower Data /* Load data */ iris = datasets.load_iris() /* Create feature matrix */ X = iris.data /* Create target vector */ y = iris.target /* Create …

Data Science Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: F1 Score

By SETScholars Team on Monday, May 24, 2021

F1 Score Preliminaries /* Load libraries */ from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification Generate Features And Target Data /* Generate features matrix and target vector */ X, y = make_classification(n_samples = 10000, n_features = 3, n_informative = 3, n_redundant = 0, n_classes = 2, random_state = 1) Create Logistic …

Data Science Python for Business Analyst Python for Data Analyst Python Machine Learning

Machine Learning for Beginners in Python: Custom Performance Metric

By SETScholars Team on Monday, May 24, 2021

Custom Performance Metric Preliminaries /* Load libraries */ from sklearn.metrics import make_scorer, r2_score from sklearn.model_selection import train_test_split from sklearn.linear_model import Ridge from sklearn.datasets import make_regression Create Feature /* Generate features matrix and target vector */ X, y = make_regression(n_samples = 100, n_features = 3, random_state = 1) /* Create training set and test set */ …

Applied Data Science Explained Data Science Python for Citizen Data Scientist Python Machine Learning

Machine Learning for Beginners in Python: How to do Cross Validation With Parameter Tuning Using Grid Search

By SETScholars Team on Monday, May 24, 2021

Cross Validation With Parameter Tuning Using Grid Search In machine learning, two tasks are commonly done at the same time in data pipelines: cross validation and (hyper)parameter tuning. Cross validation is the process of training learners using one set of data and testing it using a different set. Parameter tuning is the process to selecting …

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30