Universidade Federal do ABC Rua Santa Adélia, 166 - Bairro Bangu - Santo André - SP - Brasil CEP 09.210-170 - Telefone/Fax: +55 11 4996-3166 1. CÓDIGO E NOME DA DISCIPLINA MC5003 - MINERAÇÃO DE DADOS 2. DISCIPLINA REQUISITO (RECOMENDAÇÃO) Interliência Artificial 3. INDICAÇÃO DE CONJUNTO(BCC) Opção Limitada 4. CURSO 5. CRÉDITOS BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO T P I: 3-1-4 6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA TEORIA: 60 LABORATÓRIO: 30 9. OBJETIVOS - Assimilar conceitos de mineração de dados e descoberta de conhecimento em bases dados Apresentar/experimentar técnicas de mineração de dados e descoberta de conhecimento de bases de dados para a modelagem de problemas em áreas científicas e tecnológicas 10. COMPETÊNCIAS Ao final da disciplina o aluno deverá ser capaz de aplicar os conceitos e técnicas de Mineração de Dados, dando ênfase ao projeto e à construção de sistemas de relacionados à extração de informações e conhecimento de bases de dados 11. PROGRAMA RESUMIDO (EMENTA) Introdução. Preparação e pré-processamento dos dados. Modelagem: o processo de mineração de dados. Pós-processamento do conhecimento adquirido. Ferramentas. 12. PROGRAMA 1. Introdução (4 h/a) - Contextualização no processo de descoberta de conhecimento em banco de dados - Aplicações práticas da descoberta de conhecimento 2. Seleção, preparação e pré-processamento dos dados (8 h/a) - Caracterização e importância da preparação de dados - Tarefas de pré-processamento de dados 3. Modelagem: o processo de mineração (16 h/a) - Etapas da modelagem - Principais algoritmos de mineração de dados 4. Pós-processamento do conhecimento adquirido (12 h/a) - Validação do conhecimento - Interpretação e uso do conhecimento - Comparação de modelos 5. Algumas ferramentas (8 h/a) - Progol: uma ferramenta de mineração de regras da 1a ordem - Weka: uma caixa de ferramenta Java para associação, classificação, previsão e clustering - DBMiner: um ambiente integrado para OLAM 13. MÉTODOS UTILIZADOS Os conteúdos serão apresentados em aulas expositivas, com uso de recursos audiovisuais (slides) e lousa para a resolução de exercícios. Em seguida, eles serão trabalhados em exercícios e demonstrações de ferramentas, através da aplicação de cada técnica na resolução de um dado problema. Os alunos desenvolverão um projeto computacional em grupo, que consistirá na aplicação de técnicas de mineração de dados. Os alunos também apresentarão seminários sobre novas técnicas, ferramentas ou aplicações inovadoras. 14. ATIVIDADES DISCENTES Os alunos resolverão listas de exercícios, leitura de artigos e material bibliográfico complementar e a experimentos com ferramentas de mineração de dados disponíveis na internet. Como trabalho final da disciplina, os alunos desenvolveram um projeto computacional selecionando conjuntos de dados para aplicação de técnicas de mineração de dados. Os alunos também apresentarão seminário em grupo de até três alunossobre novas técnicas e tecnologias, ferramentas e aplicações. 15. CARGA HORÁRIA AULAS TEÓRICAS: 36 AULAS PRÁTICAS: 12 TOTAL:48hs RECOMENDADO PARA DEDICAÇÃO INDIVIDUAL: 48 16. CRITÉRIOS DE AVALIAÇÃO DE APRENDIZAGEM Média ponderada de prova, trabalho e seminário. 17. NORMAS DE RECUPERAÇÃO (CRITÉRIOS DE APROVAÇÃO E ÉPOCAS DE REALIZAÇÃO DAS PROVAS OU TRABALHOS) As notas serão dadas por conceito, conforme estabelecido pelas normas internas da UFABC. Alunos que não atingiram um nível de aprendizado adequado, e sem reprovação por presença, poderão fazer uma prova de exame para mais uma oportunidade de avaliação. A prova de exame será realizada após as provas normais, no final do trimestre. 18. BIBLIOGRAFIA RECOMENDADA BIBLIOGRAFIA BÁSICA: 1. Fayyad, U. M., Shapiro, G. P., Uthurusamy, R. Advances in Knowledge Discovery and Data Mining 2. WITTEN, Ian H; FRANK, Eibe. Data mining: pratical machine learning tools and techniques. 2 ed. New York: Elsevier; Morgan Kaufmann, 2005. 524 p. ISBN 9780120884070. 3. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia prático. Rio de Janeiro: Elsevier; Campus, 2005. ix, 253 p. ISBN 9788535218770. BIBLIOGRAFIA COMPLEMENTAR: 4. Berger, James. Statistical Decision Theory and Bayesian AnalysisLehmann, E. L.; Romano, Joseph P. Testing Statistical Hypotheses 5. Wasserman, L. All of Statistics: A Concise Course in Statistical InferenceAlpaydin, E. Introduction to Machine Learning (Adaptive Computation and Machine Learning) 6. Hastie, Trevor; Tibshirani, Robert; Friedman, Jeromebert Tibshirani (Author), Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction 7. Dunham, Margaret H. Data Mining: Introductory and Advanced 8. TopicsTan, Pang-Ning; Steinbach, Michael; Kumar, Vipin. Introduction to Data Mining 9. TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao DATA MINING: mineração de dados. Rio de Janeiro: Editora Ciência moderna, 2009. 900 p. ISBN 9788573937619. 19. PLANO SUGERIDO PARA AS AULAS (em semanas letivas) 1a. semana Apresentação do curso Introdução: o processo de descoberta de conhecimento em bases de dados 2a. semana Classificação (K-vizinhos mais próximos) Classificação (Árvore de decisão e naivebayes 3a. semana Aula prática: introdução à ferramenta weka Avaliação de modelos, curvas ROC 4a. semana Aula prática: Classificação Agrupamento 5a. semana Aula prática: Agrupamento Regras de associação 6a. semana Padrões sequencias Aula prática: regras de associação 7a. semana Preparação de dados e pré-processamento Aula prática de pré-processamento 8a. semana Web Mining/Text Mining PCA/Seleção de atributos 9a. semana Aula prática: text mining/seleção de atributos Avaliação escrita 10a. semana Seminários 11a. semana Seminários 12a. semana Apresentação de projetos 20. PROFESSOR(A) RESPONSÁVEL Ronaldo Cristiano Prati