Rezende et al. 2003 - IC

Propaganda
Descobrindo Conhecimento no Mundo Real
Fabio Augusto Faria
[email protected]
Pesquisador de Pós-Doutorado
RECOD - Instituto de Computação - UNICAMP
1
Sobre
2
Agenda
●
Introdução
●
Mineração de Dados
●
Etapas da Mineção de Dados
●
Mineração de Dados no Mundo Real
●
Pesquisas no IC-UNICAMP
●
Conclusões
3
Introdução
●
Avanço das tecnologias de aquisição e armazenamento de
dados
●
Acesso ao dispositivos móveis (e.g., celular e tablet)
●
Necessidade de novas ferramentas para análise
●
Área de Mineração de Dados
4
Introdução
5
Introdução
6
Dados, Informação e Conhecimento
(Rezende et al. 2003)
7
Dados, Informação e Conhecimento
(Rezende et al. 2003)
“Elemento puro, quantificável sobre um determinado evento (e.g., fatos, números, texto8ou
multimídia) que pode ser processado.”
Dados, Informação e Conhecimento
(Rezende et al. 2003)
“Envolve a interpretação de um conjunto de dados, considerando padrões, associações9 ou
relações que todos aqueles dados acumulados podem proporcionar.”
Dados, Informação e Conhecimento
(Rezende et al. 2003)
“Informação pode gerar conhecimento que ajude na análise de padrões históricos
para conseguir uma previsão dos fatos futuros.”
10
Dados, Informação e Conhecimento
(Rezende et al. 2003)
11
“A compreensão, análise e síntese, necessárias para a tomada de decisões inteligentes,
são realizadas a partir do nível do conhecimento.”
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
12
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Dados: repositório de dados do domínio da aplicação alvo que serão analisados.
13
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Padrões: Denota alguma abstração de um subconjunto dos dados em alguma
linguagem descritiva de conceitos.
14
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Processo: Uma atividade que envolve diversas etapas.
15
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Válidos: padrões descobertos devem possuir algum grau de certeza (validade).
16
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Novos: padrão encontrado deve fornecer novidades sobre os dados.
17
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Úteis: padrões descobertos devem ser utilizado.
18
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Compreensível: usuários devem entender os padrões descobertos e poder
analisá-los mais a fundo
19
Mineração de Dados
●
Segundo Fayyad et al. 1996
“Extração de Conhecimento de Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e
compreensíveis embutidos nos dados.”
(Rezende et al. 2003)
Conhecimento: relacionados com medidas de utilidade, originalidade e
compreensão do domínio aplicado (resultado final).
20
Mineração de Dados
●
Multidisciplinar:
–
Banco de Dados
–
Estatística
–
Inteligência Artificial
●
●
Aprendizagem de máquina
Reconhecimento de padrões
–
Aquisição de Conhecimento
–
Visualização de dados
–
Computação de Alto Desempenho
–
Processamento de Imagens e Vídeos...
*Áreas de interesse.
21
Mineração de Dados
●
Descoberta de Conhecimento x Mineração de Dados
22
Mineração de Dados
●
Descoberta de Conhecimento == Mineração de Dados
23
Etapas da Mineração de Dados
(Rezende et al. 2003)
24
Etapas da Mineração de Dados
(Rezende et al. 2003)
25
Conhecimento do Domínio
●
Identificação do problema
●
Definição de objetivos e metas
●
Participação dos especialistas (essencial em todas as fases!)
26
Etapas da Mineração de Dados
(Rezende et al. 2003)
27
Pré-processamento
●
Formatação dos dados (e.g., entrada de algum algoritmo)
●
Redução do volume
●
Transformação de dados (e.g., tipos dos dados)
●
Seleção de dados (e.g., filtros)
●
Extração dos dados (e.g., descritores de imagens)
Identificação da representatividade das amostras para o
problema.
Os dados são suficientes para representar o Mundo Real?
28
Etapas da Mineração de Dados
(Rezende et al. 2003)
29
Extração de Padrões
●
Escolher a tarefa (e.g., classificação, regressão e regras de
associação)
●
Escolher o algoritmo (e.g., kNN, SVM, DT, Bayes, etc)
●
Executar a extração dos padrões
30
Extração de Padrões
●
Escolher a tarefa
–
●
De acordo com os objetivos (e.g., clientes de um banco)
Tipo de tarefas
–
Classificação: rotular um cliente em alguma classe (bom ou
mau pagador)
–
Regressão: predizer se um cliente é bom ou mau pagador
–
Regras de Associação: associar movimentação de um cliente
X
●
●
Se CASA > R$ 500.000,00 & CARRO > R$ 200.000,00
Logo, RENDA > R$ 30.000,00
31
Extração de Padrões
●
Escolher do algoritmo
–
De acordo com a tarefa escolhida
–
Complexidade do problema
–
Não existe um algoritmo ótimo para resolver todo problema
Buscar na literatura
● Testar diferentes técnicas
● Analisar os resultados no pós-processamento
Extração de padrões
●
●
–
Aplicação dos algoritmos escolhidos nos dados
32
Etapas da Mineração de Dados
(Rezende et al. 2003)
33
Pós-processamento
●
Análise dos padrões descobertos
●
Descoberta de possíveis soluções para o problema alvo
●
Avaliação de conhecimentos (e.g., desempenho e qualidade)
Se existirem conhecimentos novos e úteis então serão
aplicados;
Caso contrário, repete-se parte ou todo processo com
deferentes ajustes.
34
Dados Complexos
●
Textuais
●
Multimídia (e.g., imagem, vídeo e som)
●
Séries temporais
●
Geográficos
●
Heterogêneos
●
Outros
35
MD no Mundo Real
●
Serviço de Recomendação (e.g., Amazon, Nike e Walmart)
●
Análise de Sentimento (e.g., twitter, orkut e facebook)
●
Detecção de Anomalias (e.g., fraudes bancárias)
●
Sistema de Previsões (e.g., desatres, mercado financeiro e atentados)
●
Identificação de Perfis (e.g., bancos e financeiras)
●
Sistema Biométrico (e.g., face, digitais, iris e voz)
36
MD no Mundo Real
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
37
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
38
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
39
Técnicas de Aprendizagem para Classificação
de Imagens Nuclearesde Células da Medula Óssea
Fabio Augusto Faria
[email protected]
Supervisores: Ricardo da Silva Torres e Anderson Rocha
{rtorres,rocha}@ic.unicamp.br
Parceiros: Joyce Rico Vido, Irene Metze e Konradin Metze
[email protected], [email protected] e [email protected]
40
Aquisição de Imagens - equipamento
41
Aquisição de Imagens
42
Pré-Processamento
●
Recorte Manual
43
Pré-Processamento
●
Segmentação interativa
44
Grau de Maturação (tipos)
MieloBlasto (BLA)
Promielócito (PRO)
Célula Atípica (ATP)
45
Extração de padrões (classificação)
46
Pós-processamento
●
●
●
Análise de eficácia dos métodos testados
Com grau elevado de confiança (aceitável), método será
utilizado na prática
Dado uma célula do novo paciente:
●
●
Se classificado como classe + (positiva), o paciente será
encaminhado para tratamento
Caso contrário, tratamento não será indicado
47
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
48
Identificação Automática de Moscas-de-frutas
(Diptera: Tephritidae)
Fabio Augusto Faria
[email protected]
Supervisores: Ricardo da Silva Torres e Anderson Rocha
{rtorres,rocha}@ic.unicamp.br
Parceiros: Paula Perre, Roberto Zucchi, Leonardo Jorge, Tomasz Lewinsohn
49
Identificação de Moscas-de-frutas
50
Mosca-de-fruta (Diptera: Tephritidae)
Mosca colocando ovos no fruto
desenho
Armadilha
*Tamanho: 2.5 - 10 mm
51
Identificação de Moscas-de-frutas
O que é?
52
Pré-processamento
53
Identificação de Moscas-de-frutas
O que é?
54
Pré-processamento
55
Pré-processamento
56
Extração de padrões (classificação)
57
Pós-processamento
●
●
●
Análise de eficácia dos métodos testados
Com grau elevado de confiança (aceitável), método será
utilizado na prática
Dado uma asa ou acúleo de uma nova mosca encontrada em
algum container:
●
●
Se classificado como classe + (positiva), a carga inteira será
queimada
Caso contrário, exportação/importação é realizada
58
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
59
Reconhecimento de Regiões em Imagens
de Sensoriamento Remoto
(Plantações de Café)
Fabio Augusto Faria e Jefersson Alex dos Santos
[email protected],
Supervisores: Ricardo da Silva Torres e Anderson Rocha
{rtorres,rocha}@ic.unicamp.br
Parceiros: Rubens Lamparelli
60
Reconhecimento de Regiões de Cultivo
(Pré-processamento)
61
Reconhecimento de Regiões de Cultivo
(Pré-processamento)
Original
Máscara (Manualmente criada)
62
Extração de padrões (classificação)
63
Pós-processamento
●
●
●
Análise de eficácia dos métodos testados
Com grau elevado de confiança (aceitável), método será
utilizado na prática
Dado uma nova imagem de satélite, o usuário (e.g.,
EMBRAPA) poderá identificar café ou outro cultivo.
64
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
65
Detecção e Identificação de Splicing
Fabio Augusto Faria e Tiago Carvalho
[email protected] e [email protected]
Supervisores: Ricardo da Silva Torres, Hélio Pedrini e Anderson Rocha
{rtorres,pedrini,anderson.rocha}@ic.unicamp.br
66
Falsificações Inofensivas (brincadeiras)
67
Falsificações Ofensivas (Criminosas)
Caso Dimitri de Angeli
que falsificou fotos para ganhar
a confiança de investidores.
Investigação da PF sobre
uma quatrilha de
Rosemary Novoa de Noronha.
68
Etapas de Detecção e Identificação de Splicing
(.) Domínio da aplicação
(a) Pré-processamento
(b) e (c) Reconhecimento de Padrões
(d) Pós-processamento e Tomada de Decisão
69
Minhas Pesquisas!
●
Auxílio ao Diagnóstico Médico (e.g., câncer)
●
Identificação de Pragas/Insetos (e.g., moscas-de-frutas)
●
Reconhecimento de Regiões de Cultivo (e.g., café, soja e maconha)
●
Sistema Forense (e.g., copy-paste e composition)
●
Monitoramento de Vegetação (e.g., aquecimento global)
70
Time Series Correlation and Fusion Analysis for
Plant Identification in Phenology Studies
Fabio A. Faria
Jurandy Almeida
Bruna Alberton
Patricia Morellato
Anderson Rocha
Ricardo da S. Torres
Projeto ePhenology (Computação e Biologia)
http://www.fapesp.br/eventos/2011/08/latam/Ricardo_Torres.pdf
72
Monitoramento de Vegetação
(Domínio da Aplicação)
73
Monitoramento de Vegetação
(Pré-Processamento)
A.tomentosum, C.brasiliensis, M.guianensis,
M.rubiginosa, P.ramiflora e P.torta.
74
Monitoramento de Vegetação
(Pré-Processamento)
Extração de séries temporais
75
Monitoramento de Vegetação
(Reconhecimento de padrões)
●
Avaliação das técnicas de classificação
●
Correlação entre os canais RGB
76
Avaliando Classificadores (kNN)
k=1
77
Avaliando Classificadores (kNN)
78
Avaliando Classificadores (kNN)
Canal Vermelho (R) consegue melhores resultados.
79
Avaliando Classificadores (kNN)
Hora nos extremos (06, 07, 17, and 18) conseguiram melhores resultados.
80
Análise de Correlação
81
Análise de Correlação
Canais
RBG
82
Análise de Correlação
Canais
RBG
83
Análise de Correlação
Alta
Baixa
84
Análise de Correlação
High
Low
Lower COR values have greater degree of complementarity and are more likely
to get better results when combined.
85
Análise de Correlação por Classe (Espécie)
86
Monitoramento de Vegetação
(Pós-Processamento)
●
●
Combinação dos canais RGB para melhorar os
resultados de eficácia (~3%)
Seleção e combinação dos canais RGB (redução de
39 para 6 classificadores)
87
Combinação de Classificadores
88
Seleção e Combinação de Classificadores
89
Ferramentas
●
Weka – Biblioteca mais famosa de MD
●
R – Software estatístico
●
OpenCV – Biblioteca para Visão Computacional
●
Matlab – Software de cálculo numérico (PI)
●
LIBSVM – Biblioteca mais famosa de SVM
http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm
90
Conclusões
●
Grande quantidade de Dados
●
Popularização dos dispositivos eletrônicos e internet
●
Necessidade de novas tecnologias para análise
●
Uma solução está na área de Mineração de Dados
91
Referências
1) Fayyad et al. From data mining to knowledge discovery: an overview. In
Advances in Knowledge Discovery & Data Mining, pp. 1–34, 1996.
2) Rezende et al. Sistemas inteligentes: fundamentos e aplicações, 2003.
3) Zaki and Meira. Data Mining and Analysis: Fundamental Concepts and
Algorithms, May 2014.
[2]
[3]
92
Minhas Referências
Site:
http://www.ic.unicamp.br/~ffaria
Lattes:
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4266712J6
93
Muito Obrigado!
Mais detalhes sobre mim.
94
Download