Skip to content

LucasRotsen/tcc_case_study_tasks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

49 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Classificação de issues de repositórios do GitHub

Introdução


Repositórios do GitHub possuem um espaço dedicado às Issues. Issues são tópicos submetidos por usuários e pessoas que contribuem com um repositório, e servem para reportar problemas encontrados, fazer perguntas, reportar vulnerabilidades e etc.

Um exemplo que podemos analisar é a página de issues do Repositório do React. Note que algumas issues estão rotuladas com um label (exemplo: 'Type: Bug'), porém, muitas vezes, esse label precisa ser colocado manualmente pelo usuário que está submetendo a issue. Uma vez que as issues não são rotuladas da forma correta, muitos dos bugs reportados pelos usuários e contribuidores não são identificados pelos mantenedores do repositório.

O objetivo deste projeto é criar um mecanismo que identifique se uma issue reporta um bug ou não, para que futuramente, possam ser classificadas automaticamente. Deste modo, os desenvolvedores responsáveis pelo repositório serão capazes de filtrar de forma mais eficaz os bugs reportados.

Dataset


Para realização do projeto, utilizaremos uma amostra pré-processada do dataset GitHub Bugs Prediction, disponibilizado na plataforma da comunidade Kaggle.

O dataset é composto por três colunas:

  • Title - O título da Issue do GitHub
  • Body - O corpo da Issue do GitHub
  • Label - Representa o rótulo daquela issue (Bug; Feature; Question)

No arquivo disponibilizado no repositório, encontra-se o arquivo:

  • task_sample.csv - contendo 15000 linhas e 3 colunas

Este arquivo contém a amostra do dataset que deverá ser utilizada para a realização desta tarefa.

Etapas


About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published