fonte: https://pixabay.com/vectors/heart-blood-donation-bag-donate-5724137/
Esse repositório contém os notebooks, base de dados e demais tipos de documentos necessários utilizados para o trabalho de conclusão de curso da DS SCholl MJV.
O desafio em tela consiste em identificar a probabilidade de cada doador fazer uma doação em março de 2007, utilizando uma base de dados de coletas de sangue em universidades feitas por veículo móvel em Taiwan. A resolução passou por um processo de análise, limpeza e normalização dos dados seguida de divesos testes envolvendo sete modelos (Árvore de Decisão, Ada Booster, Floresta Aleatória, KNN, Regressão Logística, Rede Neural e SVM); partindo de algumas métricas (Acurácia, Precisão, Revocação, F1 Macro e Área sobre a Curva) além do tempo de teste, optou-se pela escolha do modelo Floresta Aleatória, dados seus resultados consistentes em todas as métricas, principalmente a revocação, com os dados de treino e validação; bem como seu tempo razoável (dada a complexidade do modelo) de realizar previsões com os dados de teste.
- Alexandre de Souza
- Arthur Battisaco
- Felipe Navarro
- Mariana Ogawa
- Matheus Schiehll
O respositório consiste em cinco pastas:
- Base de dados: contendo os dados utilizados na sua versão bruta e modificada.
- Canvas: contendo o Machine Learning Canvas.
- Grid Search: no qual se encontram os notebooks utilizados no processo de Grid Search para pesquisa de melhores hiperparâmetros dos modelos.
- Resultados: contém os notebooks definitivos com os resultados, além da base de dados em conjunto com as previsões.
- Unindo os modelos: contém o notebook utilizado para testar os modelos de modo unificado.