Com o intuito de organizar os materiais de estudo, fixar os conceitos aprendidos, consultar métodos e funções e ainda disponibilizar exemplos deste modelo de classificação para estudantes e entusiastas de Machine Learning, este repositório contêm datasets e notebooks com aplicações do algoritmo Naive Bayes.
Em estatística, os classificadores Naive Bayes são uma família de "classificadores probabilísticos" simples, baseados na aplicação do teorema de Bayes com fortes pressupostos de independência entre os recursos. Eles estão entre os modelos de rede bayesianos mais simples. (Wikipedia - fonte: https://en.wikipedia.org/wiki/Naive_Bayes_classifier)
Em outras palavras, o algoritmo Naive Bayes utiliza os dados históricos para realizar classificações. Talvez o exemplo mais claro (e um dos mais pouplares quando pesquisamos na internet) é a classificação de e-mails em SPAM ou não SPAM. Note que neste exemplo temos uma classificação bastante clara e simples: é ou não é SPAM.
Este modelo foi desenvolvido no curso "Data Science com Python de A a Z do Jones Granatyr (você pode acessar o curso clicando aqui
O folder RiscoCredito possui três datasets:
-
risco_credito.csv Este dataset é apenas para teste e entendimento do algoritmo. Há apenas 14 linhas. Também não houve tratamento de nenhuma feature para o treinamento.
-
credit_data.csv Este dataset possui 2 mil registros e 5 colunas. Com ele, já foi possível treinar o algoritmo Naive Bayes, bem como realizar todas as etapas anteriores, como tratamento de dados e feature engineering.
-
census.csv Dataset com 32.561 linhas e 15 colunas.
-
Naive-Bayes.ipynb Notebook com todos os métodos e treinamentos
Neste folder, foi feito o treinamento para classificar se determinados cidadão ganhavam mais ou menos que 50k. O tutorial foi retirado do Kaggle, você pode consultar clicando aqui (em inglês)
O arquivo contém:
-
df.csv Trata-se do dataset para treinamento. Contém 32.561 linhas e 15 colunas (mesmos dados do census.csv)
-
Naive-Bayes-Classifier.ipynb Notebook com os métodos e treinamentos.
Os modelos neste repositório foram desenvolvidos na linguagem Python, utilizando o Jupyter Notebook.
Sinta-se a vontade para contribuir com sugestões, dicas, melhores práticas, etc. Toda ajuda é bem-vinda 💜
- Faça um fork do projeto.
- Crie uma nova branch com as suas alterações:
git checkout -b my-feature
- Salve as alterações e crie uma mensagem de commit contando o que você fez:
git commit -m "feature: My new feature"
- Envie as suas alterações:
git push origin my-feature
Caso tenha alguma dúvida confira este guia de como contribuir no GitHub
💡Arquivo "README" disponibilizado por tgmarinho Acesse aqui: https://github.com/tgmarinho/README-ecoleta/blob/master/README.md