Descobrindo Conhecimento no Mundo Real Fabio Augusto Faria [email protected] Pesquisador de Pós-Doutorado RECOD - Instituto de Computação - UNICAMP 1 Sobre 2 Agenda ● Introdução ● Mineração de Dados ● Etapas da Mineção de Dados ● Mineração de Dados no Mundo Real ● Pesquisas no IC-UNICAMP ● Conclusões 3 Introdução ● Avanço das tecnologias de aquisição e armazenamento de dados ● Acesso ao dispositivos móveis (e.g., celular e tablet) ● Necessidade de novas ferramentas para análise ● Área de Mineração de Dados 4 Introdução 5 Introdução 6 Dados, Informação e Conhecimento (Rezende et al. 2003) 7 Dados, Informação e Conhecimento (Rezende et al. 2003) “Elemento puro, quantificável sobre um determinado evento (e.g., fatos, números, texto8ou multimídia) que pode ser processado.” Dados, Informação e Conhecimento (Rezende et al. 2003) “Envolve a interpretação de um conjunto de dados, considerando padrões, associações9 ou relações que todos aqueles dados acumulados podem proporcionar.” Dados, Informação e Conhecimento (Rezende et al. 2003) “Informação pode gerar conhecimento que ajude na análise de padrões históricos para conseguir uma previsão dos fatos futuros.” 10 Dados, Informação e Conhecimento (Rezende et al. 2003) 11 “A compreensão, análise e síntese, necessárias para a tomada de decisões inteligentes, são realizadas a partir do nível do conhecimento.” Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) 12 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Dados: repositório de dados do domínio da aplicação alvo que serão analisados. 13 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Padrões: Denota alguma abstração de um subconjunto dos dados em alguma linguagem descritiva de conceitos. 14 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Processo: Uma atividade que envolve diversas etapas. 15 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Válidos: padrões descobertos devem possuir algum grau de certeza (validade). 16 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Novos: padrão encontrado deve fornecer novidades sobre os dados. 17 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Úteis: padrões descobertos devem ser utilizado. 18 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Compreensível: usuários devem entender os padrões descobertos e poder analisá-los mais a fundo 19 Mineração de Dados ● Segundo Fayyad et al. 1996 “Extração de Conhecimento de Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados.” (Rezende et al. 2003) Conhecimento: relacionados com medidas de utilidade, originalidade e compreensão do domínio aplicado (resultado final). 20 Mineração de Dados ● Multidisciplinar: – Banco de Dados – Estatística – Inteligência Artificial ● ● Aprendizagem de máquina Reconhecimento de padrões – Aquisição de Conhecimento – Visualização de dados – Computação de Alto Desempenho – Processamento de Imagens e Vídeos... *Áreas de interesse. 21 Mineração de Dados ● Descoberta de Conhecimento x Mineração de Dados 22 Mineração de Dados ● Descoberta de Conhecimento == Mineração de Dados 23 Etapas da Mineração de Dados (Rezende et al. 2003) 24 Etapas da Mineração de Dados (Rezende et al. 2003) 25 Conhecimento do Domínio ● Identificação do problema ● Definição de objetivos e metas ● Participação dos especialistas (essencial em todas as fases!) 26 Etapas da Mineração de Dados (Rezende et al. 2003) 27 Pré-processamento ● Formatação dos dados (e.g., entrada de algum algoritmo) ● Redução do volume ● Transformação de dados (e.g., tipos dos dados) ● Seleção de dados (e.g., filtros) ● Extração dos dados (e.g., descritores de imagens) Identificação da representatividade das amostras para o problema. Os dados são suficientes para representar o Mundo Real? 28 Etapas da Mineração de Dados (Rezende et al. 2003) 29 Extração de Padrões ● Escolher a tarefa (e.g., classificação, regressão e regras de associação) ● Escolher o algoritmo (e.g., kNN, SVM, DT, Bayes, etc) ● Executar a extração dos padrões 30 Extração de Padrões ● Escolher a tarefa – ● De acordo com os objetivos (e.g., clientes de um banco) Tipo de tarefas – Classificação: rotular um cliente em alguma classe (bom ou mau pagador) – Regressão: predizer se um cliente é bom ou mau pagador – Regras de Associação: associar movimentação de um cliente X ● ● Se CASA > R$ 500.000,00 & CARRO > R$ 200.000,00 Logo, RENDA > R$ 30.000,00 31 Extração de Padrões ● Escolher do algoritmo – De acordo com a tarefa escolhida – Complexidade do problema – Não existe um algoritmo ótimo para resolver todo problema Buscar na literatura ● Testar diferentes técnicas ● Analisar os resultados no pós-processamento Extração de padrões ● ● – Aplicação dos algoritmos escolhidos nos dados 32 Etapas da Mineração de Dados (Rezende et al. 2003) 33 Pós-processamento ● Análise dos padrões descobertos ● Descoberta de possíveis soluções para o problema alvo ● Avaliação de conhecimentos (e.g., desempenho e qualidade) Se existirem conhecimentos novos e úteis então serão aplicados; Caso contrário, repete-se parte ou todo processo com deferentes ajustes. 34 Dados Complexos ● Textuais ● Multimídia (e.g., imagem, vídeo e som) ● Séries temporais ● Geográficos ● Heterogêneos ● Outros 35 MD no Mundo Real ● Serviço de Recomendação (e.g., Amazon, Nike e Walmart) ● Análise de Sentimento (e.g., twitter, orkut e facebook) ● Detecção de Anomalias (e.g., fraudes bancárias) ● Sistema de Previsões (e.g., desatres, mercado financeiro e atentados) ● Identificação de Perfis (e.g., bancos e financeiras) ● Sistema Biométrico (e.g., face, digitais, iris e voz) 36 MD no Mundo Real ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 37 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 38 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 39 Técnicas de Aprendizagem para Classificação de Imagens Nuclearesde Células da Medula Óssea Fabio Augusto Faria [email protected] Supervisores: Ricardo da Silva Torres e Anderson Rocha {rtorres,rocha}@ic.unicamp.br Parceiros: Joyce Rico Vido, Irene Metze e Konradin Metze [email protected], [email protected] e [email protected] 40 Aquisição de Imagens - equipamento 41 Aquisição de Imagens 42 Pré-Processamento ● Recorte Manual 43 Pré-Processamento ● Segmentação interativa 44 Grau de Maturação (tipos) MieloBlasto (BLA) Promielócito (PRO) Célula Atípica (ATP) 45 Extração de padrões (classificação) 46 Pós-processamento ● ● ● Análise de eficácia dos métodos testados Com grau elevado de confiança (aceitável), método será utilizado na prática Dado uma célula do novo paciente: ● ● Se classificado como classe + (positiva), o paciente será encaminhado para tratamento Caso contrário, tratamento não será indicado 47 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 48 Identificação Automática de Moscas-de-frutas (Diptera: Tephritidae) Fabio Augusto Faria [email protected] Supervisores: Ricardo da Silva Torres e Anderson Rocha {rtorres,rocha}@ic.unicamp.br Parceiros: Paula Perre, Roberto Zucchi, Leonardo Jorge, Tomasz Lewinsohn 49 Identificação de Moscas-de-frutas 50 Mosca-de-fruta (Diptera: Tephritidae) Mosca colocando ovos no fruto desenho Armadilha *Tamanho: 2.5 - 10 mm 51 Identificação de Moscas-de-frutas O que é? 52 Pré-processamento 53 Identificação de Moscas-de-frutas O que é? 54 Pré-processamento 55 Pré-processamento 56 Extração de padrões (classificação) 57 Pós-processamento ● ● ● Análise de eficácia dos métodos testados Com grau elevado de confiança (aceitável), método será utilizado na prática Dado uma asa ou acúleo de uma nova mosca encontrada em algum container: ● ● Se classificado como classe + (positiva), a carga inteira será queimada Caso contrário, exportação/importação é realizada 58 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 59 Reconhecimento de Regiões em Imagens de Sensoriamento Remoto (Plantações de Café) Fabio Augusto Faria e Jefersson Alex dos Santos [email protected], Supervisores: Ricardo da Silva Torres e Anderson Rocha {rtorres,rocha}@ic.unicamp.br Parceiros: Rubens Lamparelli 60 Reconhecimento de Regiões de Cultivo (Pré-processamento) 61 Reconhecimento de Regiões de Cultivo (Pré-processamento) Original Máscara (Manualmente criada) 62 Extração de padrões (classificação) 63 Pós-processamento ● ● ● Análise de eficácia dos métodos testados Com grau elevado de confiança (aceitável), método será utilizado na prática Dado uma nova imagem de satélite, o usuário (e.g., EMBRAPA) poderá identificar café ou outro cultivo. 64 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 65 Detecção e Identificação de Splicing Fabio Augusto Faria e Tiago Carvalho [email protected] e [email protected] Supervisores: Ricardo da Silva Torres, Hélio Pedrini e Anderson Rocha {rtorres,pedrini,anderson.rocha}@ic.unicamp.br 66 Falsificações Inofensivas (brincadeiras) 67 Falsificações Ofensivas (Criminosas) Caso Dimitri de Angeli que falsificou fotos para ganhar a confiança de investidores. Investigação da PF sobre uma quatrilha de Rosemary Novoa de Noronha. 68 Etapas de Detecção e Identificação de Splicing (.) Domínio da aplicação (a) Pré-processamento (b) e (c) Reconhecimento de Padrões (d) Pós-processamento e Tomada de Decisão 69 Minhas Pesquisas! ● Auxílio ao Diagnóstico Médico (e.g., câncer) ● Identificação de Pragas/Insetos (e.g., moscas-de-frutas) ● Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha) ● Sistema Forense (e.g., copy-paste e composition) ● Monitoramento de Vegetação (e.g., aquecimento global) 70 Time Series Correlation and Fusion Analysis for Plant Identification in Phenology Studies Fabio A. Faria Jurandy Almeida Bruna Alberton Patricia Morellato Anderson Rocha Ricardo da S. Torres Projeto ePhenology (Computação e Biologia) http://www.fapesp.br/eventos/2011/08/latam/Ricardo_Torres.pdf 72 Monitoramento de Vegetação (Domínio da Aplicação) 73 Monitoramento de Vegetação (Pré-Processamento) A.tomentosum, C.brasiliensis, M.guianensis, M.rubiginosa, P.ramiflora e P.torta. 74 Monitoramento de Vegetação (Pré-Processamento) Extração de séries temporais 75 Monitoramento de Vegetação (Reconhecimento de padrões) ● Avaliação das técnicas de classificação ● Correlação entre os canais RGB 76 Avaliando Classificadores (kNN) k=1 77 Avaliando Classificadores (kNN) 78 Avaliando Classificadores (kNN) Canal Vermelho (R) consegue melhores resultados. 79 Avaliando Classificadores (kNN) Hora nos extremos (06, 07, 17, and 18) conseguiram melhores resultados. 80 Análise de Correlação 81 Análise de Correlação Canais RBG 82 Análise de Correlação Canais RBG 83 Análise de Correlação Alta Baixa 84 Análise de Correlação High Low Lower COR values have greater degree of complementarity and are more likely to get better results when combined. 85 Análise de Correlação por Classe (Espécie) 86 Monitoramento de Vegetação (Pós-Processamento) ● ● Combinação dos canais RGB para melhorar os resultados de eficácia (~3%) Seleção e combinação dos canais RGB (redução de 39 para 6 classificadores) 87 Combinação de Classificadores 88 Seleção e Combinação de Classificadores 89 Ferramentas ● Weka – Biblioteca mais famosa de MD ● R – Software estatístico ● OpenCV – Biblioteca para Visão Computacional ● Matlab – Software de cálculo numérico (PI) ● LIBSVM – Biblioteca mais famosa de SVM http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm 90 Conclusões ● Grande quantidade de Dados ● Popularização dos dispositivos eletrônicos e internet ● Necessidade de novas tecnologias para análise ● Uma solução está na área de Mineração de Dados 91 Referências 1) Fayyad et al. From data mining to knowledge discovery: an overview. In Advances in Knowledge Discovery & Data Mining, pp. 1–34, 1996. 2) Rezende et al. Sistemas inteligentes: fundamentos e aplicações, 2003. 3) Zaki and Meira. Data Mining and Analysis: Fundamental Concepts and Algorithms, May 2014. [2] [3] 92 Minhas Referências Site: http://www.ic.unicamp.br/~ffaria Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4266712J6 93 Muito Obrigado! Mais detalhes sobre mim. 94