Skip to content

Datasets e nooteboks com exemplos de aplicação do algoritmo Naive Bayes

Notifications You must be signed in to change notification settings

daianeklein/naive-bayes-algorithm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

NOTEBOOK'S E DATASETS PARA ESTUDOS/CONSULTA DO ALGORITMO NAIVE BAYES

💻 Sobre o projeto

Com o intuito de organizar os materiais de estudo, fixar os conceitos aprendidos, consultar métodos e funções e ainda disponibilizar exemplos deste modelo de classificação para estudantes e entusiastas de Machine Learning, este repositório contêm datasets e notebooks com aplicações do algoritmo Naive Bayes.

⚙️ O algoritmo Naive Bayes

Em estatística, os classificadores Naive Bayes são uma família de "classificadores probabilísticos" simples, baseados na aplicação do teorema de Bayes com fortes pressupostos de independência entre os recursos. Eles estão entre os modelos de rede bayesianos mais simples. (Wikipedia - fonte: https://en.wikipedia.org/wiki/Naive_Bayes_classifier)

Em outras palavras, o algoritmo Naive Bayes utiliza os dados históricos para realizar classificações. Talvez o exemplo mais claro (e um dos mais pouplares quando pesquisamos na internet) é a classificação de e-mails em SPAM ou não SPAM. Note que neste exemplo temos uma classificação bastante clara e simples: é ou não é SPAM.


🎲 Dados e métodos

🚀 RiscoCredito

Este modelo foi desenvolvido no curso "Data Science com Python de A a Z do Jones Granatyr (você pode acessar o curso clicando aqui

O folder RiscoCredito possui três datasets:

  1. risco_credito.csv Este dataset é apenas para teste e entendimento do algoritmo. Há apenas 14 linhas. Também não houve tratamento de nenhuma feature para o treinamento.

  2. credit_data.csv Este dataset possui 2 mil registros e 5 colunas. Com ele, já foi possível treinar o algoritmo Naive Bayes, bem como realizar todas as etapas anteriores, como tratamento de dados e feature engineering.

  3. census.csv Dataset com 32.561 linhas e 15 colunas.

  4. Naive-Bayes.ipynb Notebook com todos os métodos e treinamentos

🚀 income-Classifier

Neste folder, foi feito o treinamento para classificar se determinados cidadão ganhavam mais ou menos que 50k. O tutorial foi retirado do Kaggle, você pode consultar clicando aqui (em inglês)

O arquivo contém:

  1. df.csv Trata-se do dataset para treinamento. Contém 32.561 linhas e 15 colunas (mesmos dados do census.csv)

  2. Naive-Bayes-Classifier.ipynb Notebook com os métodos e treinamentos.


🛠 Tecnologias

Os modelos neste repositório foram desenvolvidos na linguagem Python, utilizando o Jupyter Notebook.


👨‍💻 Contribuição

Sinta-se a vontade para contribuir com sugestões, dicas, melhores práticas, etc. Toda ajuda é bem-vinda 💜

💪 Como contribuir para o projeto

  1. Faça um fork do projeto.
  2. Crie uma nova branch com as suas alterações: git checkout -b my-feature
  3. Salve as alterações e crie uma mensagem de commit contando o que você fez: git commit -m "feature: My new feature"
  4. Envie as suas alterações: git push origin my-feature

Caso tenha alguma dúvida confira este guia de como contribuir no GitHub


💡Arquivo "README" disponibilizado por tgmarinho Acesse aqui: https://github.com/tgmarinho/README-ecoleta/blob/master/README.md

About

Datasets e nooteboks com exemplos de aplicação do algoritmo Naive Bayes

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published