Nesse projeto, o objetivo foi realizar uma análise exploratória de um Dataset que contém dados da série histórica de incêndios florestais no Brasil entre 1998 e 2017. O foco dessa análise exploratória foi buscar compreender esses incêndios que afetam a mata brasileira, analisando diversos fatores como:
- Região dos estados afetados pelos incêndios;
- Em qual período de qual governante os incêndios ocorreram e com qual intensidade;
- Análise dos incêndios com um olhar focado nas estações do ano.
Em mais detalhes, outro objetivo é concluir essa análise seguindo alguns passos:
-
🎲 Checar as características gerais dos dados, como formato, tipo dos dados, quantidade de valores nulos e outliers (se existirem), etc;
-
🧹 Realizar a limpeza e tratamento necessários dos dados;
-
📊 Utilizar de visualizações gráficas para gerar insights acerca dos dados;
Também criei um Dashboard no PowerBI utilizando os dados limpos no Python, com o objetivo de criar uma visualização dinâmica dos dados encotrados na análise exploratória.
Neste repositório, você vai encontrar:
Uma pasta chamada data que possui o arquivo csv da base de dados utilizado para a análise;
Uma pasta chamada dashboard que contém prints do Dasboard e o arquivo .pbix em si;
Um Notebook chamado relatorio.ipynb que contém o projeto de EDA em si.
Como um resumo de todo o processo de desenvolvimento do projeto:
- Primeira Etapa: Coleta e Descrição
O primeiro passo foi coletar os dados do Kaggle e trazê-los para o VScode, onde foi criado o Jupyter Notebook para as análises. Essa primeira etapa foi onde realizei as primeiras análises descritivas dos dados, buscando compreender as características gerais deles como:
- Dimensões, tipos de dados, quantidade de nulos, outliers, distribuição dos dados.
Enfim, a primeira etapa foi de reconhecimento, para que eu pudesse conhecer os dados na qual estava trabalhando.
- Segunda Etapa: Limpeza, Tratamento e Adições
Nessa segunda etapa o objetivo era tratar os dados e corrigir características que não achei ideal no Dataset, além disso, foi aqui que inseri novas colunas com novos dados ao Dataset original. Em mais detalhes, adicionei quatro novas variáveis aos dados:
UF > Uma coluna que contém a Unidade da Federação de cada estado dos dados (SP, RJ, BA, etc). O objetivo dessa coluna era de proporcionar uma padronização para a identificação dos estados, tando para a análise exploratória tanto para a criação do Dashboard no Power BI.
Region > Uma coluna que contém a região em que cada estado pertence no Brasil. A criação dessa coluna foi realizada para dar mais profundidade as análises possíveis com os dados.
President > A coluna mais relevante criada para esse dataset, ela armazena o nome e mandato do presidente em vigência no ano em que os incêndios ocorreram. Essa coluna proporciona muita dinâmica e profundidade para a análise, sendo ela a responsável pela maior parte das análises e insights históricos retirados dos dados.
Season > Uma coluna que informa em qual estação do ano cada incêndio ocorreu. Essa coluna proporciona uma visão mais aprofundada das relações entre estação do ano e incêndios florestais e também foi muito útil durante as análises.
Com a limpeza dos dados e criação de novas variáveis, a próxima (e principal) etapa vem a seguir.
- Terceira Etapa: Análises, Insights e Visualizações
Como o próprio nome sugere, foi nessa etapa que o trabalho central de análise ocorreu. Nela, busquei utilizar da melhor forma possível todas as variáveis disponíveis nos dados (tanto originais quanto as criadas por mim posteriormente), com o objetivo de responder a 4 perguntas centrais:
- Quais os estados e regiões mais e menos afetados por incêndios durante toda a série histórica?
- Durante qual período de qual governante brasileiro tivemos mais e menos incêndios no Brasil?
- Como o número de incêndios nas diferentes regiões e estados se comportam ao longo da série histórica?
- Qual a estação do ano em que se houve mais e menos incêndios no Brasil?
Ao responder essas perguntas, pude desenvolver análises e estabelecer relações entre as colunas e dados fornecidos pelo Dataset.
- Quarta Etapa: Criação de um Dashboard no Power BI
Utilizando o Power BI, subi os dados para a plataforma e tive que realizar pequenas mudanças nos dados importados:
- Junção das colunas
Year
eMonth
em uma única coluna no estilo Datetime. Para essa modificação, foi utilizada a linguagem DAX.Com essas alterações, foram criados dois relatórios:
- Estados e Regiões: Visão acerca dos incêndios florestais com um foco nos estados e regiões do Brasil;
- Governos e Estações do Ano: Visão dos incêndios florestais com um enfoque nos diferentes governantes brasileiros e estações do ano.
Abaixo, seguem imagens do Dashboard.
Quer me mandar uma mensagem? Tem dicas e conselhos de melhoria e aprimoramento do projeto? Você pode entrar em contato comigo por e-mail ou acessando meu perfil do LinkedIn, estou sempre por lá!
e-mail: jl_ferreira_16@hotmail.com