Skip to content

gmandolesi/ap532

Repository files navigation

AULA 1

  • INFORMAÇÕES GERAIS SOBRE O CURSO (ementa, metodologia, avaliação dos alunos).

  • ESPECIAL – Dicas sobre revisão de artigos científicos.

  • Definição de artigo para revisão.

  • Panorama geral sobre mineração de dados.

AULA 2

  • MÉTODOS UTILIZADOS NA PREPARAÇÃO DE DADOS:

  • Aspectos relevantes na fase de preparação de dados.

  • Procedimentos para limpeza dos dados (qualidade dos dados):

· Técnicas para substituição de valores faltantes.

· Técnicas para reduzir o ruído nos dados.

· Técnicas para eliminar a redundância nos dados.

  • Integração de dados de múltiplas fontes.

AULA 3

  • PREPARAÇÃO DE DADOS PARA REGRAS DE ASSOCIAÇÃO:

· Conceitos básicos

· Geração de regras de associação

· O Algoritmo Apriori.

· Efeitos da distribuição do suporte nos datasets.

· Problemas na seleção de regras.

· Medidas de avaliação de regras de associação.

· Tipos de dados usados em associação.

· Exemplos de geração de regras no Weka.

AULA 4

  • CLUSTERIZAÇÃO OU AGRUPAMENTO DE DADOS

  • Clusterizaçãoou análise de agrupamentos:

    · Conceitos básicos e aplicações.

  • Tipos de dadosem clusterização.

  • Avaliando a qualidade de clusters gerados.

  • Similaridadeentre objetos.

  • Métodos de Clusterização:

    · Particionamento, Hierárquico, EM, Baseados em densidade, etc.

  • Medidaspara avaliação de clusters:

    · Internas(Coesão e Separação), Externas (Entropia e Pureza).

  • Exemplos de geraçãodeClusters no Weka.

AULA 5

  • AULA PRÁTICA – LABIN – WEKA e R

  • Aula em laboratório cobrindo os tópicos sobre transformação de dados, regras de associação e agrupamento de dados, apresentados em sala de aula. Serão utilizados os softwares WEKA e R para solução dos exercícios apresentados em laboratório.

AULA 6

  • Regressão Linear, Logística e Penalizada

AULA 7

  • INTRODUÇÃO AO APRENDIZADO DE MÁQUINA + ÁRVORE DE DECISÃO

  • Aprendizado de Máquina:

Motivação. Hierarquiza do aprendizado. Paradigmas de aprendizado. Conceitos e definições.

  • Classificação de Dados:

O processo de classificação. Características de um bom classificador. Principais métodos de classificação. Principais algoritmos existentes.

  • Árvores de Decisão:

Conceitos básicos. Algoritmos mais conhecidos. Mecanismos de poda. Escolha do atributo “split”.

AULA 8

  • INTRODUÇÃO AO APRENDIZADO DE MÁQUINA

  • Arcabouço probabilístico:

     a) Naïve Bayes.
    
  • Métodos de Comitê:

    a) RandomForest;
    
    b) Bagging;
    
    c) Boosting.
    
  • AVALIAÇÃO DE MODELOS PREDITIVOS

  • Medidas de Avaliação de Modelos:

    a) Hold-out, cross-validation, percentage split;
    
    b) Ajustes de hiperparâmetros;
    
    c) Medidas Clássicas;
    
  • Exercícios.

AULA 9

APRENDIZADO COM CLASSES DESBALANCEADAS:

· Classes desbalanceadas: problema e desafios;

· O algoritmo k-vizinhos mais próximos;

· Precisão, taxa de erro e classes desbalanceadas;

· Técnicas para medir desempenho de classificadores;

· Tratamentopara classes desbalanceadas;

· Qual proporção de classes é melhor para aprender;

· Como descartar ou duplicar exemplos;

· Resultados da avaliaçãodos tratamentos em diversos conjuntos de dados.

AULA 10

  • REDUÇÃO DE DIMENSIONALIDADE:

    · Aspectos relevantes:
    
             a)    Necessidades, motivação e aplicações.
    
    ·  Principais abordagens:
    
             a)    Extração de atributos (não-Supervisionada);
    
             b)    Seleção de atributos (Supervisionada).
    
    ·  Métodos para extração de atributos:
    
             a)    Análise de Componentes Principais (PCA).
    
  • MÉTODOS SUPERVISIONADOS PARA SELEÇÃO DE ATRIBUTOS:

    · Filtros;
    
    · Força Bruta (Brute-Force);
    
    · Métodos Embedded;
    
    · Métodos Wrappers;
    
    · Método baseado no teste do Qui-quadrado;
    
    · Método baseado na correlação de atributos (CFS).
    
    · Estudo de caso – comparação dos métodos acima.
    

AULA 11

  • AULA PRÁTICA – LABIN – WEKA e R

  • Aula em laboratório cobrindo os tópicos sobre redução de dimensionalidade (PCA), métodos de seleção de atributos e aprendizado com classes desbalanceadas. Serão utilizados os softwares WEKA e R para solução dos exercícios apresentados em laboratório.

  • Algoritmo Random Forest em R (para atributo-meta numérico e categórico).

AULA 12

Ordem dos arquivos para a aula 12:

  • Os 7 PDFs (00 a 06) referem-se ao conteúdo elaborado pelo Dr. Thiago dos Santos
  • Os artigos da Nature 518125a.pdf e 514151.pdf (anexos)
  • O link para as SciPy Lectures: http://www.scipy-lectures.org/

AULA 13

Aprendizado de Maquina com Python

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published