Skip to content

yurialcant/Projeto-Estatisticas-com-Python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

Projeto Estatísticas com Python

🪧 Vitrine.Dev
✨ Nome Projeto Estatísticas com Python
🏷️ Tecnologias Python, Pandas, matplotlib
🚀 URL https://github.com/yurialcant/Projeto-Estatisticas-com-Python
🤿 Desafio https://cursos.alura.com.br/course/estatistica-distribuicoes-e-medidas

Estatísticas com Python I

Este projeto foi desenvolvido durante o curso de Estatísticas com Python I, nossa intenção é aprender os conceitos fundamentais aplicados na estatística utilizada por um profissional de Ciência de Dados.

Conhecendo a Base de Dados

Dataset do projeto

A base de dados escolhida para esse projeto, foi o relatório do PNAD (Pesquisa Nacional por Amostra de Domicílios) de 2015, as variáveis utilizadas nesse projeto, foram a renda, idade, altura, UF, Sexo, Anos de Estudo e cor/raça. Importamos a nossa base de dados e ao abrir encontramos, a seguinte distribuição em nosso DataFrame.

Captura de Tela (206)

Seguimos para a análise dos tipos de dados, dividimos eles em Variáveis Qualitativas Ordinais (que podem ser ordenadas ou hierarquizardas), Variáveis Qualitativas nominais (que não podem ser ordenadas ou hierarquizardas), Variáveis Quantitativas Discretas (que representam uma contagem, onde os valores possíveis formam um conjunto finito ou enumerável), Variáveis Quantitativas Contínuas (que representam uma contagem ou mensuração, que assumem valores em uma escala contínua) e encontramos a seguinte distribuição.

Captura de Tela (207) Captura de Tela (208)

Distribuição de Frequências

Distribuição de Frequências para Variáveis Qualitativas

Nesta etapa, buscamos conhecer o comportamento das variáveis envolvidas no projeto, primeiro começamos pelas variáveis qualitativas e utilizamos 2 métodos. O primeiro método foi atribuir cada coluna das nossas variáveis qualitativas, para uma nova variável tanto da frenquência como do percentual e assim criar um DataFrame para cada variável.

Captura de Tela (209)Captura de Tela (210)

Nosso segundo método, se baseou em utilizar um método do pandas chamado crosstab, para criar um DataFrame que cruzasse as informações da cor com o sexo e depois criamos outro DataFrame com o mesmo método, mas dessa vez adicionando a aggfunc, para distribuir a média da Renda em nosso DataFrame. Captura de Tela (211)Captura de Tela (212)

Distribuição de Frequências

Variáveis quantitativas

Agora iremos realizar a distribuição de frenquência para as variáveis quantitativas, o primeiro passo para realizar isso é especificar os limites de cada classe, neste exemplo iremos usar a renda, portanto dividimos a nossa classe com base nos limites de renda.

Captura de Tela (213)

O segundo passo consiste em criar a tabela de frequência, para isso usaremos a função cut do pandas passando como parâmetros as classes e os labels que criamos, incluido o comando "include_lowest" para incluir na nossa tabela o número 0, então após criarmos as tabelas de frequência e de percentual, passaremos as duas para um novo Data Frame e depois usamos o parâmetro ascending como falso, para ordenar o nosso Data Frame.

Captura de Tela (214)

Distribuição de Frequências

Histograma

Nesta etapa, criaremos um histograma que é a representação gráfica de uma distribuição de frequências, para isso importaremos a biblioteca seaborn, onde através dela conseguiremos montar nosso histograma usando a função histplot e passando a coluna de nosso DataFrame que desejamos criar no histograma.

Captura de Tela (215)

Podemos criar a gráficos com a biblioteca pandas, mas perdemos algumas funções e nossos gráficos ficam mais simples, para criar um gráfico de barras, basta usar a função plot.bar e passar os parâmetros desejados no gráfico.

Captura de Tela (216)

Medidas de Tendência Central

Relação entre média, mediana e moda

Nesta etapa, usaremos a biblioteca seaborn novamente, para avaliarmos as medias de tendência central e as funções mode, median e mean para obtermos as medidas de algumas variáveis, o resultado pode ser visto nas imagens abaixo.

Captura de Tela (217)

Captura de Tela (218)

Captura de Tela (219)

Podemos ver que as medidas, são extremamente bem representadas nos gráficos, nos dando uma visualização extremamente fiel aos resultados obtidos pelas funções mode median e mean.

Releases

No releases published

Packages

No packages published