UNIVERSIDADE DE SÃO PAULO - LESTE PROGRAMA DE PÓS GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO SYLABUS DA DISCIPLINA:MINERAÇÃO DE DADOS 1. 2. DADOS INFORMATIVOS 1.2. Semestre 1.3. Horas semanais 1.4. Docentes : : : 1.5. Código 1.6. Sala : : II - 2015 3 horas semanais (180h – 12 créditos) Prof. Dr. Clodoaldo A. M. Lima ([email protected]) Profa. Dra. Sarajane Marques Peres ([email protected]) SIN5017 - 1 Sala 235 (Prédio I1) DESCRIÇÃO Objetivos: Entende-se por mineração de dados a capacidade de exploração e a análise, por meio automático ou semi-automático, de grandes quantidades de dados, a fim de descobrir padrões e regras significativos. Os principais objetivos da mineração de dados são descobrir relacionamentos entre dados e fornecer subsídios para, por exemplo, fazer uma previsão de tendências futuras baseada no passado. Este curso tem como objetivo fornecer embasamento teórico sobre técnicas de análise e exploração de grandes bases de dados. Justificativa: Os grandes avanços na área de tecnologia de informação têm possibilitado a geração e o armazenamento de grandes bases de dados. Esses dados produzidos e armazenados em larga escala são difíceis de serem analisados, interpretados e relacionados por métodos tradicionais. No entanto, tais dados podem esconder conhecimentos valiosos e úteis para tomada de decisões. Nesse contexto, é necessária a aplicação de técnicas e ferramentas que transformem os dados disponíveis, de maneira inteligente e automática, em informações úteis que representem conhecimento. Pesquisadores das mais variadas áreas têm se dedicado a estudar métodos e desenvolver ferramentas para mineração de dados. Logo, o entendimento destas técnicas torna-se imprescindível nos dias atuais. Conteúdo: Os tópicos abordados são: natureza dos dados e conceitos estatísticos: probabilidade, amostragem, distribuições, covariâncias, inferência estatística e predição. Métodos estatísticos e bayesianos. Armazenagem, mineração e descoberta de conhecimento em banco de dados (data warehousing, mining and knowledge discovery). Ambiente de descoberta de conhecimento: seleção, preparação, enriquecimento, codificação e mineração dos dados. Técnicas de redução da dimensionalidade. Paradigmas de Aprendizado. Classificação: conceitos básicos, k-vizinhos mais próximos, árvores de decisão, redes neurais, classificadores baseados em regras, classificadores bayesianos. Avaliação de desempenho de um classificador. Métodos de comparação de classificadores. Análise de associação: conceitos básicos e algoritmos, geração de Itemsets frequentes, geração de regras, representação compacta de Itemsets, avaliação de padrões de associação, padrões sequenciais. Análise de agrupamentos: conceitos básicos e algoritmos, algoritmos hierárquico, aglomerativo, agrupamento baseado em protótipo, agrupamento baseado em densidade, agrupamento baseado em grafo. Detecção de anomalia: abordagens estatísticas, detecção de outlier baseado em proximidade, detecção baseada em densidade, técnicas baseadas em agrupamento. Análise e descoberta de padrões periódicos em séries temporais. Exemplos de aplicações de teste e casos reais. 4. PROGRAMAÇÃO 1 2 3 4 Data 6 de agosto 13 de agosto 20 de agosto 27 de agosto Conteúdo / atividade prevista Apresentação da Disciplina Pré-processamento de dados Pré-processamento de dados Pré-processamento de dados / Padrões Periódicos 5 6 7 3 de setembro 17 de setembro 24 de setembro Padrões Periódicos Paradigmas de Aprendizado - Classificação com K-NN e Árvores de Decisão Classificação com Redes Neurais Artificiais 8 9 10 11 12 1 de outubro 8 de outubro 15 de outubro 22 de outubro 29 de outubro Classificação com Redes Neurais Artificiais Avaliação de classificadores / Estratégias de testes para classificadores Agrupamento de dados Agrupamento de dados Agrupamento de dados 13 14 15 14 15 5 de novembro 12 de novembro 26 de novembro 12 de novembro 19 de novembro Prova Regras de Associação Regras de Associação – apresentação de exercício Estratégias de avaliação de modelos de classificação e de agrupamento Regras de associação 10 de dezembro Entrega dos trabalhos Entrega dos trabalhos (TI e T2) Alunos que desejarem entregar o trabalho antes, é possível também 10 de dezembro Programação preliminar e sujeita a mudanças no decorrer da disciplina, conforme necessário para adequação didática e devido a compromissos eventuais na USP ou pela USP. 5. BIBLIOGRAFIA GERAL Witten, I. H.; Frank, E. Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2nd Ed, 2005. Berthold, M. & Hand, D. J. Intelligent Data Analysis: An Introduction, Springer-Verlag, 2nd Ed, 2003. Duda, R. O., Hart, P. E. & Stork, D. G. Pattern Classification.John Wiley & Sons, 2nd Ed., 2001. Tan, P.-N.; Steinbach, M.; Kumar,V. Introduction to Data Mining. Adilson Wesley Longman Publishing Co., 1st Ed., 2005 Kimball, R.; Ross, M..The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. John Wiley & Sons, 2nd Ed., 2002 Inmon, W. H. Building the Data Warehouse. John Wiley & Sons, 4th Ed., 2005. Han, J.; Kamber, M., Pei, J. Data Mining: Concepts and Technique. Series Editor Morgan KaufmannPublishers, 2nd Ed., 2005 Periódicos da área de Mineração de dados: • • • • • • IEEE Transactions on Knowledge and Data Engineering IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE Intelligent Systems ACM Transactions on Knowledge Discovery from Data ACM Transactionson Internet Technology ACM Transactionsonthe Web 6. METODOLOGIA • • • • • • Exposição em aula pelo docente dos temas do curso. Realização de avaliações escrita (teóricas) e de implementações e análise (práticas). Atendimento de dúvidas dos alunos pelo professor: agendamento prévio pessoalmente durante as aulas ou via email. Utilização do sistema de gestão de cursos e-Tidiaparadiponibilização de documentos e para comunicação de recados gerais para turma (do professor aos alunos). Realização de trabalhosindividualmente, conforme especificações disponibilizadas pelos professores. o Os trabalhos versarão sobre a implementação da Mineração de Dados sobre conjuntos de dados indicados pelos professores da disciplina. A avaliação dostrabalhos pode exigir uma apresentação do mesmo para os professores e/ou para a turma. Essa apresentação influenciará na nota final do trabalho. 7. MATERIAIS E MÉTODOS • • 8. Aulas expositivas. Realização de trabalhos práticos AVALIAÇÃO DO APRENDIZADO A avaliação do aprendizado será feita utilizando as seguintes diretrizes: • O aluno deve alcançar a frequência mínima de 75% das aulas; • Avaliação: o O aluno realizará uma prova escrita (P)referente ao conteúdo ministrado pelo professor durante o semestre. Haverá a oportunidade de realização de uma prova substitutiva escritae individual, apenas para os alunos que perderem a prova. o O aluno deverá realizar dois trabalhos práticos durante a disciplina (T1 e T2). o A média final (MF) do aluno obedecerá à seguinte regra: MF = ((P + T1)+ T2)/2 o O mapeamento da MF para conceitos se dará da seguinte forma: Média Final (MF) 8,5 ≤ MF ≤ 10,0 6,5 ≤ MF < 8,5 5,0 ≤ MF < 6,5 0,0 < MF < 5,0 MF = 0,0 Conceito A B C D E 9. POLÍTICAS • • • • • A programação de aulas é preliminar e está sujeita a mudanças. A programação de prova será alterada apenas por motivos consequentes de ações ou determinações da universidade. Não serão admitidos atrasos na entrega do trabalho, sendo que o aluno que não entregar em dia receberá nota 0na respectiva avaliação. Não existe abono de faltas – procure “guardar” os 25% de possibilidades de falta para quando REALMENTE for necessário faltar. Eventuais problemas referentes à disciplina deverão ser tratados PESSOALMENTE junto ao(s) professor(es), em horário previamente agendado ou logo após o término das aulas.