Repositórios do GitHub possuem um espaço dedicado às Issues. Issues são tópicos submetidos por usuários e pessoas que contribuem com um repositório, e servem para reportar problemas encontrados, fazer perguntas, reportar vulnerabilidades e etc.
Um exemplo que podemos analisar é a página de issues do Repositório do React. Note que algumas issues estão rotuladas com um label (exemplo: 'Type: Bug'), porém, muitas vezes, esse label precisa ser colocado manualmente pelo usuário que está submetendo a issue. Uma vez que as issues não são rotuladas da forma correta, muitos dos bugs reportados pelos usuários e contribuidores não são identificados pelos mantenedores do repositório.
O objetivo deste projeto é criar um mecanismo que identifique se uma issue reporta um bug ou não, para que futuramente, possam ser classificadas automaticamente. Deste modo, os desenvolvedores responsáveis pelo repositório serão capazes de filtrar de forma mais eficaz os bugs reportados.
Para realização do projeto, utilizaremos uma amostra pré-processada do dataset GitHub Bugs Prediction, disponibilizado na plataforma da comunidade Kaggle.
O dataset é composto por três colunas:
- Title - O título da Issue do GitHub
- Body - O corpo da Issue do GitHub
- Label - Representa o rótulo daquela issue (Bug; Feature; Question)
No arquivo disponibilizado no repositório, encontra-se o arquivo:
- task_sample.csv - contendo 15000 linhas e 3 colunas
Este arquivo contém a amostra do dataset que deverá ser utilizada para a realização desta tarefa.