Mineração de Dados Baseada em Grafos

Propaganda
State of the Art of Graph-based Data
Mining
Takashi Washio e Hiroshi Motoda
Delane P. O. Dias
Sumário
•
•
•
•
•
•
Introdução
As 5 bases teóricas
Estratégias de mineração
Visual graph mining
Exemplos
Conclusões
Introdução
Com o crescimento de dados gerados, buscaram-se
formas de extrair informações destes dados,
primeiramente com mineração de dados e há pouco
tempo com mineração de dados baseada em grafos.
A primeira visa extrair regras de conhecimento,
enquanto a segunda visa a topologia dos dados.
Possíveis áreas de aplicações de Graph mining:
biologia, química e comunicações.
As 5 bases teóricas
•
•
•
•
•
Categorias dos subgrafos
Isomorfismo
Graph invariants
Medidas de mineração
Métodos de solução
Categorias dos subgrafos
•
•
•
•
•
•
Geral
Induzido
Conexo
Árvore ordenada
Árvore desordenada
Caminho
G (V , E , f)
Subgrafo geral
Vs  V , Es  E, vi, vj Vs para todas as arestas f(eh)  (vi,vj) Es.
v5
v6
e1
e1
v1
e2
v5
v6
e5
e3
v4
e6
v2
v3
e4
(a)Um grafo
v1
v4
e5
e2
e6
v2
v3
e4
e7
(b)subgrafo geral
G (V , E , f)
Subgrafo induzido
vi,vj Vs, eh  (vi, vj) Es  f(eh)  (vi,vj) E
v5
v6
v5
e1
v1
e2
e5
e3
v4
e6
v2
v3
e4
(a)Um grafo
v1
e2
e5
e3
v4
e6
v2
v3
e4
e7
(c)subgrafo induzido
e7
Subgrafo conexo
v5
v1
e2
e5
e3
v4
e6
v2
v3
e4
(c)subgrafo induzido
v1
e2
e5
e3
v4
e6
v2
v3
e4
e7
e7
(d)subgrafo conexo
Árvore ordenada
v5
v6
v6
e1
e1
v1
e2
e5
e3
v4
e6
v2
v3
v1
e2
v4
e5
e6
v2
e4
(a)Um grafo
e7
(e)árvore ordenada
v3
Árvore desordenada
v6
v6
e1
v1
e2
v4
v4
e5
e6
v2
(e)árvore ordenada
v3
v2
v3
(f)árvore desordenada
Caminho
v1
e2
v6
v6
e1
e1
v4
e5
v1
e5
e6
e6
v2
(e)árvore ordenada
v4
v3
v3
(g)caminho
Isomorfismo de (sub)grafos
Mesmo dispostos de formas diferentes, dois
grafos podem ser idênticos, i.e., isomorfos.
O problema com grafos tem complexidade
desconhecida. Já saber se um grafo está contido
em outro é NP-completo.
Encontre-me
nos outros grafos
Problema:
Sejam dois grafos Gx(Vx,Ex,fx) e Gy(Vy,Ey,fy),
encontrar Gsx(Vsx,Esx,fsx) e Gsy(Vsy,Esy,fsy)
e a bijeção gxy entre os vértices de Vsx e Vsy,
tal que Gsx e Gsy sejam idênticos, i.e.,
fx(exh)  (vxi,vxj) Esx  fy(eyh)  (vyi,vyj) Esy,
onde vyi = gxy(vxi) e vyj = gxy(vxj). A existência
de gxy assegura a existência da identidade
topológica entre Gsx e Gsy.
Representação por matrizes
Se dois grafos são isomorfos então alguma
permutação de linhas e colunas das matrizes será
igual.
Graph Invariants
• Valores do grafo que ajudam no problema de
isomorfismo, e.g. número de vértices, grau dos
vértices e o número de laços no grafo.
• Se dois grafos são isomorfos então têm valores de
invariantes idênticos.
• Reduz o espaço da busca
• Mckay (NAUTY)
NAUTY
1
4
5
5
1
4
2
2
3
3
NAUTY
1
3
5
4
5
1
4
5
1
2
2
3
4
2
3
NAUTY
3
5
1
3
4
5
1
4
5
1
5
1
2
2
3
4
2
4
2
3
NAUTY
3
5
1
3
4
5
1
4
5
1
5
1
2
2
3
4
2
4
2
3
Medidas de mineração
As medidas dependem dos objetivos e da limitação
da estratégia de busca.
support
sup (Gs) 
número de grafos que contêm Gs em D
número total de graf os em D
Medidas de mineração
Minimum support - minsup
Maximum support – maxsup
Outras usadas em machine learning: information
entropy, information gain, gini-index e minimum
descripition length(MDL).
Métodos de solução
São classificados em métodos de busca heurísticos e
completos  com relação à completude da busca.
Matching direto e indireto  com relação ao
casamento de subgrafos isomorfos.
Estratégias de mineração
•
•
•
•
•
Busca gulosa
Programação Indutiva Lógica (ILP)
Base de dados indutiva
Teoria matemática dos grafos
Função kernel
Busca gulosa
• Busca heurística e casamento direto
• Pode ser DFS ou BFS
• Trabalhos pioneiros: Cook e Holder (SUBDUE) e
Yoshida e Motoda (GBI)
GBI – Graph-Based Induction
• Subgrafos rotulados orientados ou não
• Divide grafo em subgrafos
GBI
1
1
4
3
3
2
2
8
7
7
1
3
5
5
2
4
6
9
GBI
1
3
10
11
2
2
GBI
4
11
11
8
7
7
11
5
5
4
6
9
Programação Indutiva Lógica (ILP)
• Primeiro a tentar busca completa
• Vantagem: conhecimento prévio
• Desvantagem: espaço de busca
• Pode ser heurístico, completo, direto ou indireto
• Utilizado para predição de carcinogênese
• Dehaspe e Toivonen (WARMR)
• Nijssen e Kok (FARMER)
Base de dados indutiva
• Regras indutivas, relações ou padrões são gerados
previamente
• Armazenados numa base de dados
• Vantagem: rápida mineração
• Desvantagem: memória e processamento gastos
• De Raedt e Kramer (MolFea)
Teoria matemática dos grafos
• Minera todas as categorias de subgrafos
• Inokuchi et al (AGM), FSG(2001), gSpan(2002)
Função kernel
• Define uma similaridade entre dois grafos
• Muitas invariantes são coletadas
• Delas criam-se os vetores característica
• Quando a dimensão é muito grande aplica-se uma
função kernel
• Não é computada eficientemente
Mineração visual em grafos
minha visão
Como o grafo é uma estrutura com informações
topológicas, o pensamento de visualização ocorre
quase que imediatamente.
Com o estudo da mineração em grafos bem
fundamentada, a tendência será voltar as atenções
para as formas de visualizações.
Exemplos
Exemplos
Exemplos
Exemplos
Conclusões
É uma área que está em franco desenvolvimento,
pois está claro que as técnicas têm sofrido grandes
melhoras em pouco tempo.
Além disso, muitos dados de problemas reais
podem ser facilmente mapeados em grafos,
principalmente em química e biologia.
E o que antes era impossível devido as limitações
de memória e processamento, hoje já não é mais.
Bibliografia
• Takashi Washio and Hiroshi Motoda et al. State of the art
of graph-based data mining. SIGKDD Explor. Newsl.,
5(1):59–68, 2003.
• Xifeng Yan and Jiawei Han et al. gspan: Graph-based
substructure pattern mining. In ICDM’02: 2nd IEEE Conf.
Data Mining, 2002.
Download