Universidade Federal de Santa Catarina Centro Tecnológico Departamento de Informática e Estatística Plano de Ensino 1) Identificação Disciplina: Turma(s): Carga horária: Período: INE5644 - Data Mining 08238 72 horas-aula Teóricas: 64 1º semestre de 2012 Práticas: 8 2) Cursos - Ciências da Computação (208) - Sistemas de Informação (238) 3) Requisitos - Ciências da Computação (208) • INE5423 - Banco de Dados I - Sistemas de Informação (238) • INE5606 - Probabilidade e Estatística • INE5633 - Sistemas Inteligentes • INE5643 - Data Warehouse • INE5606 - Probabilidade e Estatística • INE5633 - Sistemas Inteligentes • INE5643 - Data Warehouse 4) Ementa Considerações iniciais da área e aplicações. Processos de descoberta do conhecimento (KDD) em base de dados. Análise exploratória de dados. Tipos de variáveis, Técnicas de Data Mining para classificação, estimação, predição, análise de agrupamentos, análise de associação: redes neurais, árvores de decisão, regras de decisão, análise discriminante, regressão linear, regressão logística, análise de cluster, análise de componentes principais. Uso de softwares de data mining. Exercícios. Data Mining de caso. 5) Objetivos Geral: Apresentar e aplicar as principais técnicas de mineração de dados, o processo de KDD com vistas à identificação de padrões importantes e não óbvios em grandes bancos de dados. Específicos: - Assimilar os principais conceitos acerca de Mineração de Dados (MD); - Compreender os passos do processo de descoberta de conhecimento em base de dados (KDD); - Realizar a análise exploratória dos dados; - Compreender as principais tarefas da mineração de dados e relacionar as respectivas técnicas; - Conhecer e saber aplicar as principais técnicas de mineração de dados (classificação, agrupamentos, estimação, predição e associação); - Utilizar ferramenta para uso de algoritmos de mineração de dados. 6) Conteúdo Programático 6.1) Introdução e Conceitos [6 horas-aula] - O que é KDD - Tarefas, processos e técnicas 6.2) Processo KDD [6 horas-aula] - As etapas do processo KDD 6.3) Análise Estatística de Dados [8 horas-aula] - Estatística descritiva dos dados - Normalização de dados - Transformação de dados 6.4) Classificação [12 horas-aula] - Abordagem simbólica Plano de Ensino - INE5644 - Data Mining - 28/05/2017 - Página: 1/3 6.5) 6.6) 6.7) 6.8) • Algoritmo ID3 • Algoritmo C45 - Abordagem estatística • Algoritmo de Naive-Bayes - Abordagem conexionista • Redes Neurais artificiais (MLP e RBF) - Uso de ferramenta - Trabalho prático Agrupamento [10 horas-aula] - Algoritmos de clustering convencionais (Kmeans) - Algoritmos hierárquicos (Dendogramas) - Trabalho prático Associação [10 horas-aula] - Algoritmo apriori (regras de associação) - Trabalho prático Tópicos Avançados [10 horas-aula] - Seminários sobre tópicos atuais Projeto[10 horas-aula] 7) Metodologia Aulas expositivas, realização de quatro atividades práticas sobre as tarefas de mineração de dados e entrega de relatórios, apresentação de seminários de tópicos avançados e avaliação individual. 8) Avaliação Será realizada através de duas provas escritas, 4 trabalhos práticos e apresentação de seminário. A Nota Final será calculada pela fórmula: Nota Final = (P1*2+ P2*2 + T1 + T2 + T3 + SE + TF*2) / 10 Onde: P1 = Prova 1 (individual) P2 = Prova 2 (individual) SE = Apresentação de seminário (em grupo) T1, T2 e T3 = Trabalhos práticos (individuais) TF = Trabalho Final (em grupo) Os alunos com Nota Final igual ou superior a 5,75 estão aprovados e os alunos com Nota Final inferior a 5,75 estarão reprovados. Não é prevista atividade de recuperação para esta turma, nos termos previstos no art. 70, parágrafo 2o, da Resolução 17/CUn/97, uma vez que cumpre pelo menos um dos seguintes requisitos: · ter pelo menos 50% de carga prática; · ter pelo menos 50% do peso da média final originado de trabalho prático; · ter a inadequação da aplicação de avaliação de recuperação reconhecida pelo colegiado do curso, a partir da avaliação de solicitação fundamentada de dispensa de avaliação de recuperação, encaminhada pelo(s) professor(es) autor(es) do respectivo plano de ensino, para disciplinas com carga prática prevista no programa da disciplina, com nota de trabalho prático considerada no cálculo da média final e que não tenham cumprido um dos requisitos anteriores. 9) Cronograma As datas das provas e as entregas dos trabalhos serão aproximadamente: 11/04 - prova 1 24/04 - entrega do Trabalho 1 09/05 - entrega do Trabalho 2 23/05 - entrega do Trabalho 3 22 a 30/5 - apresentação dos seminários 05/06 - prova 2 20/06 - entrega do relatório do Trabalho Final 26 e 27/06 - apresentação do Trabalho Final Plano de Ensino - INE5644 - Data Mining - 28/05/2017 - Página: 2/3 O cronograma definitivo estará no site da disciplina: www.inf.ufsc.br/~alvares/INE5644/INE5644.html 10) Bibliografia Básica - Material disponível para os alunos no moodle: http://moodle.inf.ufsc.br 11) Bibliografia Complementar - AMARAL,F.C.N. Data Mining: Técnicas e Aplicações para o Marketing Direto. São Paulo: Editora Berkeley, 2001. - BUSSAB,W.O. , MORETTIN,P.A. Estatística Básica. 5.ed. São Paulo: Editora Saraiva, 2002. - BERRY,M.J.A., LINOFF,G. Data Mining Techniques For Marketing, Sales and Customer Support. 2a ed. New York: John Wiley & Sons, Inc., 2004. - CARVALHO,L.A.V. Datamining A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. São Paulo: Editora Érica, 2001. - DINIZ,C.A.R. , NETOF.L. Data Mining: Uma Introdução. São Paulo: XIV Simpósio Nacional de Probabilidade e Estatística. IME-USP, 2000. - FERNADEZ,G. Data Mining Using SAS Applications. New York: Editora Chapman & Hall/CRC, 2003. - HAN, J., KAMBER, M. Data Mining: Concepts and Techniques. New York: Editora Morgan Kaufmann Publisher, 2001. - MANLY,B.F.J. Multivariate Statistical Methods: A primer. 3a.ed. New York: Chapman & Hall, 2005. Plano de Ensino - INE5644 - Data Mining - 28/05/2017 - Página: 3/3