🪧 Vitrine.Dev | |
---|---|
✨ Nome | Projeto Estatísticas com Python |
🏷️ Tecnologias | Python, Pandas, matplotlib |
🚀 URL | https://github.com/yurialcant/Projeto-Estatisticas-com-Python |
🤿 Desafio | https://cursos.alura.com.br/course/estatistica-distribuicoes-e-medidas |
Este projeto foi desenvolvido durante o curso de Estatísticas com Python I, nossa intenção é aprender os conceitos fundamentais aplicados na estatística utilizada por um profissional de Ciência de Dados.
A base de dados escolhida para esse projeto, foi o relatório do PNAD (Pesquisa Nacional por Amostra de Domicílios) de 2015, as variáveis utilizadas nesse projeto, foram a renda, idade, altura, UF, Sexo, Anos de Estudo e cor/raça. Importamos a nossa base de dados e ao abrir encontramos, a seguinte distribuição em nosso DataFrame.Seguimos para a análise dos tipos de dados, dividimos eles em Variáveis Qualitativas Ordinais (que podem ser ordenadas ou hierarquizardas), Variáveis Qualitativas nominais (que não podem ser ordenadas ou hierarquizardas), Variáveis Quantitativas Discretas (que representam uma contagem, onde os valores possíveis formam um conjunto finito ou enumerável), Variáveis Quantitativas Contínuas (que representam uma contagem ou mensuração, que assumem valores em uma escala contínua) e encontramos a seguinte distribuição.
Nesta etapa, buscamos conhecer o comportamento das variáveis envolvidas no projeto, primeiro começamos pelas variáveis qualitativas e utilizamos 2 métodos. O primeiro método foi atribuir cada coluna das nossas variáveis qualitativas, para uma nova variável tanto da frenquência como do percentual e assim criar um DataFrame para cada variável.Nosso segundo método, se baseou em utilizar um método do pandas chamado crosstab, para criar um DataFrame que cruzasse as informações da cor com o sexo e depois criamos outro DataFrame com o mesmo método, mas dessa vez adicionando a aggfunc, para distribuir a média da Renda em nosso DataFrame.
Agora iremos realizar a distribuição de frenquência para as variáveis quantitativas, o primeiro passo para realizar isso é especificar os limites de cada classe, neste exemplo iremos usar a renda, portanto dividimos a nossa classe com base nos limites de renda.O segundo passo consiste em criar a tabela de frequência, para isso usaremos a função cut do pandas passando como parâmetros as classes e os labels que criamos, incluido o comando "include_lowest" para incluir na nossa tabela o número 0, então após criarmos as tabelas de frequência e de percentual, passaremos as duas para um novo Data Frame e depois usamos o parâmetro ascending como falso, para ordenar o nosso Data Frame.
Nesta etapa, criaremos um histograma que é a representação gráfica de uma distribuição de frequências, para isso importaremos a biblioteca seaborn, onde através dela conseguiremos montar nosso histograma usando a função histplot e passando a coluna de nosso DataFrame que desejamos criar no histograma.
Podemos criar a gráficos com a biblioteca pandas, mas perdemos algumas funções e nossos gráficos ficam mais simples, para criar um gráfico de barras, basta usar a função plot.bar e passar os parâmetros desejados no gráfico.
Nesta etapa, usaremos a biblioteca seaborn novamente, para avaliarmos as medias de tendência central e as funções mode, median e mean para obtermos as medidas de algumas variáveis, o resultado pode ser visto nas imagens abaixo.Podemos ver que as medidas, são extremamente bem representadas nos gráficos, nos dando uma visualização extremamente fiel aos resultados obtidos pelas funções mode median e mean.