Feature Engineering

This project demonstrates how to perform feature engineering on various datasets using Python. Feature engineering is the process of transforming raw data into features that are suitable for machine learning models. It involves techniques such as data cleaning, imputation, encoding, scaling, normalization, feature selection, and feature extraction. It involves applying domain knowledge, statistical techniques, and creativity to extract relevant information from the data and create new variables that capture the underlying patterns or relationships.

Installation/Prerequisites

To run this project, you need to have the following installed:

Python 3.7 or higher
Jupyter Notebook
Pandas
Numpy
Scikit-learn
Matplotlib
Seaborn

You can install these packages using pip or conda.

References

The datasets used in this project are from the following sources:

FAQ

Q: What is the purpose of feature engineering?

A: Feature engineering is a crucial step in machine learning, as it can improve the performance and interpretability of the models. By creating features that capture the underlying patterns and relationships in the data, feature engineering can help the models learn more effectively and generalize better to new data.

Q: What are some common feature engineering techniques?

A: Some common feature engineering techniques are:

Data cleaning: removing or correcting invalid, missing, duplicate, or inconsistent data.
Imputation: filling in missing values with reasonable estimates, such as mean, median, mode, or a constant value.
Encoding: converting categorical variables into numerical values, such as one-hot encoding, label encoding, or ordinal encoding.
Scaling: changing the range or distribution of numerical variables, such as standardization, normalization, min-max scaling, or log transformation.
Normalization: making the data follow a standard distribution, such as Gaussian or uniform distribution.
Feature selection: reducing the number of features by removing irrelevant, redundant, or noisy features.
Feature extraction: creating new features from existing features by applying mathematical operations, such as polynomial features, interaction features, or principal component analysis.

Q: How to evaluate the quality of features?

A: There are several ways to evaluate the quality of features, such as:

Visualizing the features using plots, such as histograms, boxplots, scatterplots, or correlation matrices.
Calculating statistics and metrics, such as mean, standard deviation, skewness, kurtosis, variance inflation factor, or mutual information.
Testing hypotheses and assumptions, such as normality test, independence test, or homoscedasticity test.
Comparing the performance of different models using different sets of features.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
BaiscAboutDataFrame.ipynb		BaiscAboutDataFrame.ipynb
BasicPlotting.ipynb		BasicPlotting.ipynb
Column-transformer		Column-transformer
Handling-mixed-variables		Handling-mixed-variables
Imputing-numerical-data		Imputing-numerical-data
Json&SQL.ipynb		Json&SQL.ipynb
Normalization.ipynb		Normalization.ipynb
OverviewData.ipynb		OverviewData.ipynb
SeaboarnPlots.ipynb		SeaboarnPlots.ipynb
Standardization		Standardization
WorkingWithCSV.ipynb		WorkingWithCSV.ipynb
binning-and-binarization		binning-and-binarization
complete-case-analysis		complete-case-analysis
feature-construction-and-feature-splitting		feature-construction-and-feature-splitting
function-transformer		function-transformer
handling-date-and-time		handling-date-and-time
handling-missing-categorical-data		handling-missing-categorical-data
missing-indicator		missing-indicator
one-hot-encoding.ipynb		one-hot-encoding.ipynb
ordinal-encoding.ipynb		ordinal-encoding.ipynb
outlier-detection-using-percentiles		outlier-detection-using-percentiles
outlier-removal-using-iqr-method		outlier-removal-using-iqr-method
outlier-removal-using-zscore		outlier-removal-using-zscore
power-transformer		power-transformer
sklearn-pipelines		sklearn-pipelines
Feature Engineering- Handling Categorical Feature- Day 3.ipynb		Feature Engineering- Handling Categorical Feature- Day 3.ipynb
Feature Engineering- Handling Categorical Feature- Day 4.ipynb		Feature Engineering- Handling Categorical Feature- Day 4.ipynb
Feature Engineering- MeanMedianDay 1.ipynb		Feature Engineering- MeanMedianDay 1.ipynb
Feature Engineering- Missing Values Day 2.ipynb		Feature Engineering- Missing Values Day 2.ipynb
Feature Engineering- Missing Values Day 3.ipynb		Feature Engineering- Missing Values Day 3.ipynb
Feature Engineering- Normalization And Standardization- Day 5.ipynb		Feature Engineering- Normalization And Standardization- Day 5.ipynb
Outliers.ipynb		Outliers.ipynb
README.md		README.md
aboutme.png		aboutme.png
featureeng.jpg		featureeng.jpg
mercedes.csv		mercedes.csv
ml22.gif		ml22.gif
mleng.gif		mleng.gif
mobile_dataset.csv		mobile_dataset.csv
monthly-milk-production-pounds.csv		monthly-milk-production-pounds.csv
titanic.csv		titanic.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Feature Engineering

Installation/Prerequisites

References

FAQ

About

Releases

Packages

Languages

Zaheer-10/Feature-Engineering

Folders and files

Latest commit

History

Repository files navigation

Feature Engineering

Installation/Prerequisites

References

FAQ

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages