universidade de são paulo - leste programa de pós

Propaganda
UNIVERSIDADE DE SÃO PAULO - LESTE
PROGRAMA DE PÓS GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO
SYLABUS DA DISCIPLINA:MINERAÇÃO DE DADOS
1.
2.
DADOS INFORMATIVOS
1.2. Semestre
1.3. Horas semanais
1.4. Docentes
:
:
:
1.5. Código
1.6. Sala
:
:
II - 2015
3 horas semanais (180h – 12 créditos)
Prof. Dr. Clodoaldo A. M. Lima ([email protected])
Profa. Dra. Sarajane Marques Peres ([email protected])
SIN5017 - 1
Sala 235 (Prédio I1)
DESCRIÇÃO
Objetivos: Entende-se por mineração de dados a capacidade de exploração e a análise, por meio
automático ou semi-automático, de grandes quantidades de dados, a fim de descobrir padrões e regras
significativos. Os principais objetivos da mineração de dados são descobrir relacionamentos entre dados e
fornecer subsídios para, por exemplo, fazer uma previsão de tendências futuras baseada no passado. Este
curso tem como objetivo fornecer embasamento teórico sobre técnicas de análise e exploração de grandes
bases de dados.
Justificativa: Os grandes avanços na área de tecnologia de informação têm possibilitado a geração
e o armazenamento de grandes bases de dados. Esses dados produzidos e armazenados em larga escala são
difíceis de serem analisados, interpretados e relacionados por métodos tradicionais. No entanto, tais dados
podem esconder conhecimentos valiosos e úteis para tomada de decisões. Nesse contexto, é necessária a
aplicação de técnicas e ferramentas que transformem os dados disponíveis, de maneira inteligente e
automática, em informações úteis que representem conhecimento. Pesquisadores das mais variadas áreas têm
se dedicado a estudar métodos e desenvolver ferramentas para mineração de dados. Logo, o entendimento
destas técnicas torna-se imprescindível nos dias atuais.
Conteúdo: Os tópicos abordados são: natureza dos dados e conceitos estatísticos: probabilidade,
amostragem, distribuições, covariâncias, inferência estatística e predição. Métodos estatísticos e bayesianos.
Armazenagem, mineração e descoberta de conhecimento em banco de dados (data warehousing, mining and
knowledge discovery). Ambiente de descoberta de conhecimento: seleção, preparação, enriquecimento,
codificação e mineração dos dados. Técnicas de redução da dimensionalidade. Paradigmas de Aprendizado.
Classificação: conceitos básicos, k-vizinhos mais próximos, árvores de decisão, redes neurais, classificadores
baseados em regras, classificadores bayesianos. Avaliação de desempenho de um classificador. Métodos de
comparação de classificadores. Análise de associação: conceitos básicos e algoritmos, geração de Itemsets
frequentes, geração de regras, representação compacta de Itemsets, avaliação de padrões de associação,
padrões sequenciais. Análise de agrupamentos: conceitos básicos e algoritmos, algoritmos hierárquico,
aglomerativo, agrupamento baseado em protótipo, agrupamento baseado em densidade, agrupamento baseado
em grafo. Detecção de anomalia: abordagens estatísticas, detecção de outlier baseado em proximidade,
detecção baseada em densidade, técnicas baseadas em agrupamento. Análise e descoberta de padrões
periódicos em séries temporais. Exemplos de aplicações de teste e casos reais.
4. PROGRAMAÇÃO
1
2
3
4
Data
6 de agosto
13 de agosto
20 de agosto
27 de agosto
Conteúdo / atividade prevista
Apresentação da Disciplina
Pré-processamento de dados
Pré-processamento de dados
Pré-processamento de dados / Padrões Periódicos
5
6
7
3 de setembro
17 de setembro
24 de setembro
Padrões Periódicos
Paradigmas de Aprendizado - Classificação com K-NN e Árvores de Decisão
Classificação com Redes Neurais Artificiais
8
9
10
11
12
1 de outubro
8 de outubro
15 de outubro
22 de outubro
29 de outubro
Classificação com Redes Neurais Artificiais
Avaliação de classificadores / Estratégias de testes para classificadores
Agrupamento de dados
Agrupamento de dados
Agrupamento de dados
13
14
15
14
15
5 de novembro
12 de novembro
26 de novembro
12 de novembro
19 de novembro
Prova
Regras de Associação
Regras de Associação – apresentação de exercício
Estratégias de avaliação de modelos de classificação e de agrupamento
Regras de associação
10 de dezembro
Entrega dos trabalhos
Entrega dos trabalhos (TI e T2)
Alunos que desejarem entregar o trabalho antes, é possível também
10 de dezembro
Programação preliminar e sujeita a mudanças no decorrer da disciplina, conforme necessário para adequação
didática e devido a compromissos eventuais na USP ou pela USP.
5. BIBLIOGRAFIA GERAL
Witten, I. H.; Frank, E. Data Mining: Practical Machine Learning Tools and Techniques, Morgan
Kaufmann, 2nd Ed, 2005.
Berthold, M. & Hand, D. J. Intelligent Data Analysis: An Introduction, Springer-Verlag, 2nd Ed,
2003.
Duda, R. O., Hart, P. E. & Stork, D. G. Pattern Classification.John Wiley & Sons, 2nd Ed., 2001.
Tan, P.-N.; Steinbach, M.; Kumar,V. Introduction to Data Mining. Adilson Wesley Longman
Publishing Co., 1st Ed., 2005
Kimball, R.; Ross, M..The Data Warehouse Toolkit: The Complete Guide to Dimensional
Modeling. John Wiley & Sons, 2nd Ed., 2002
Inmon, W. H. Building the Data Warehouse. John Wiley & Sons, 4th Ed., 2005.
Han, J.; Kamber, M., Pei, J. Data Mining: Concepts and Technique. Series Editor Morgan
KaufmannPublishers, 2nd Ed., 2005
Periódicos da área de Mineração de dados:
•
•
•
•
•
•
IEEE Transactions on Knowledge and Data Engineering
IEEE Transactions on Pattern Analysis and Machine Intelligence
IEEE Intelligent Systems
ACM Transactions on Knowledge Discovery from Data
ACM Transactionson Internet Technology
ACM Transactionsonthe Web
6. METODOLOGIA
•
•
•
•
•
•
Exposição em aula pelo docente dos temas do curso.
Realização de avaliações escrita (teóricas) e de implementações e análise (práticas).
Atendimento de dúvidas dos alunos pelo professor: agendamento prévio pessoalmente
durante as aulas ou via email.
Utilização do sistema de gestão de cursos e-Tidiaparadiponibilização de documentos e para
comunicação de recados gerais para turma (do professor aos alunos).
Realização de trabalhosindividualmente, conforme especificações disponibilizadas pelos
professores.
o Os trabalhos versarão sobre a implementação da Mineração de Dados sobre
conjuntos de dados indicados pelos professores da disciplina.
A avaliação dostrabalhos pode exigir uma apresentação do mesmo para os professores e/ou
para a turma. Essa apresentação influenciará na nota final do trabalho.
7. MATERIAIS E MÉTODOS
•
•
8.
Aulas expositivas.
Realização de trabalhos práticos
AVALIAÇÃO DO APRENDIZADO
A avaliação do aprendizado será feita utilizando as seguintes diretrizes:
•
O aluno deve alcançar a frequência mínima de 75% das aulas;
•
Avaliação:
o
O aluno realizará uma prova escrita (P)referente ao conteúdo ministrado pelo professor
durante o semestre.
Haverá a oportunidade de realização de uma prova substitutiva escritae
individual, apenas para os alunos que perderem a prova.
o
O aluno deverá realizar dois trabalhos práticos durante a disciplina (T1 e T2).
o
A média final (MF) do aluno obedecerá à seguinte regra:
MF = ((P + T1)+ T2)/2
o
O mapeamento da MF para conceitos se dará da seguinte forma:
Média Final (MF)
8,5 ≤ MF ≤ 10,0
6,5 ≤ MF < 8,5
5,0 ≤ MF < 6,5
0,0 < MF < 5,0
MF = 0,0
Conceito
A
B
C
D
E
9.
POLÍTICAS
•
•
•
•
•
A programação de aulas é preliminar e está sujeita a mudanças.
A programação de prova será alterada apenas por motivos consequentes de ações ou
determinações da universidade.
Não serão admitidos atrasos na entrega do trabalho, sendo que o aluno que não entregar em dia
receberá nota 0na respectiva avaliação.
Não existe abono de faltas – procure “guardar” os 25% de possibilidades de falta para quando
REALMENTE for necessário faltar.
Eventuais problemas referentes à disciplina deverão ser tratados PESSOALMENTE junto ao(s)
professor(es), em horário previamente agendado ou logo após o término das aulas.
Download