State of the Art of Graph-based Data Mining Takashi Washio e Hiroshi Motoda Delane P. O. Dias Sumário • • • • • • Introdução As 5 bases teóricas Estratégias de mineração Visual graph mining Exemplos Conclusões Introdução Com o crescimento de dados gerados, buscaram-se formas de extrair informações destes dados, primeiramente com mineração de dados e há pouco tempo com mineração de dados baseada em grafos. A primeira visa extrair regras de conhecimento, enquanto a segunda visa a topologia dos dados. Possíveis áreas de aplicações de Graph mining: biologia, química e comunicações. As 5 bases teóricas • • • • • Categorias dos subgrafos Isomorfismo Graph invariants Medidas de mineração Métodos de solução Categorias dos subgrafos • • • • • • Geral Induzido Conexo Árvore ordenada Árvore desordenada Caminho G (V , E , f) Subgrafo geral Vs V , Es E, vi, vj Vs para todas as arestas f(eh) (vi,vj) Es. v5 v6 e1 e1 v1 e2 v5 v6 e5 e3 v4 e6 v2 v3 e4 (a)Um grafo v1 v4 e5 e2 e6 v2 v3 e4 e7 (b)subgrafo geral G (V , E , f) Subgrafo induzido vi,vj Vs, eh (vi, vj) Es f(eh) (vi,vj) E v5 v6 v5 e1 v1 e2 e5 e3 v4 e6 v2 v3 e4 (a)Um grafo v1 e2 e5 e3 v4 e6 v2 v3 e4 e7 (c)subgrafo induzido e7 Subgrafo conexo v5 v1 e2 e5 e3 v4 e6 v2 v3 e4 (c)subgrafo induzido v1 e2 e5 e3 v4 e6 v2 v3 e4 e7 e7 (d)subgrafo conexo Árvore ordenada v5 v6 v6 e1 e1 v1 e2 e5 e3 v4 e6 v2 v3 v1 e2 v4 e5 e6 v2 e4 (a)Um grafo e7 (e)árvore ordenada v3 Árvore desordenada v6 v6 e1 v1 e2 v4 v4 e5 e6 v2 (e)árvore ordenada v3 v2 v3 (f)árvore desordenada Caminho v1 e2 v6 v6 e1 e1 v4 e5 v1 e5 e6 e6 v2 (e)árvore ordenada v4 v3 v3 (g)caminho Isomorfismo de (sub)grafos Mesmo dispostos de formas diferentes, dois grafos podem ser idênticos, i.e., isomorfos. O problema com grafos tem complexidade desconhecida. Já saber se um grafo está contido em outro é NP-completo. Encontre-me nos outros grafos Problema: Sejam dois grafos Gx(Vx,Ex,fx) e Gy(Vy,Ey,fy), encontrar Gsx(Vsx,Esx,fsx) e Gsy(Vsy,Esy,fsy) e a bijeção gxy entre os vértices de Vsx e Vsy, tal que Gsx e Gsy sejam idênticos, i.e., fx(exh) (vxi,vxj) Esx fy(eyh) (vyi,vyj) Esy, onde vyi = gxy(vxi) e vyj = gxy(vxj). A existência de gxy assegura a existência da identidade topológica entre Gsx e Gsy. Representação por matrizes Se dois grafos são isomorfos então alguma permutação de linhas e colunas das matrizes será igual. Graph Invariants • Valores do grafo que ajudam no problema de isomorfismo, e.g. número de vértices, grau dos vértices e o número de laços no grafo. • Se dois grafos são isomorfos então têm valores de invariantes idênticos. • Reduz o espaço da busca • Mckay (NAUTY) NAUTY 1 4 5 5 1 4 2 2 3 3 NAUTY 1 3 5 4 5 1 4 5 1 2 2 3 4 2 3 NAUTY 3 5 1 3 4 5 1 4 5 1 5 1 2 2 3 4 2 4 2 3 NAUTY 3 5 1 3 4 5 1 4 5 1 5 1 2 2 3 4 2 4 2 3 Medidas de mineração As medidas dependem dos objetivos e da limitação da estratégia de busca. support sup (Gs) número de grafos que contêm Gs em D número total de graf os em D Medidas de mineração Minimum support - minsup Maximum support – maxsup Outras usadas em machine learning: information entropy, information gain, gini-index e minimum descripition length(MDL). Métodos de solução São classificados em métodos de busca heurísticos e completos com relação à completude da busca. Matching direto e indireto com relação ao casamento de subgrafos isomorfos. Estratégias de mineração • • • • • Busca gulosa Programação Indutiva Lógica (ILP) Base de dados indutiva Teoria matemática dos grafos Função kernel Busca gulosa • Busca heurística e casamento direto • Pode ser DFS ou BFS • Trabalhos pioneiros: Cook e Holder (SUBDUE) e Yoshida e Motoda (GBI) GBI – Graph-Based Induction • Subgrafos rotulados orientados ou não • Divide grafo em subgrafos GBI 1 1 4 3 3 2 2 8 7 7 1 3 5 5 2 4 6 9 GBI 1 3 10 11 2 2 GBI 4 11 11 8 7 7 11 5 5 4 6 9 Programação Indutiva Lógica (ILP) • Primeiro a tentar busca completa • Vantagem: conhecimento prévio • Desvantagem: espaço de busca • Pode ser heurístico, completo, direto ou indireto • Utilizado para predição de carcinogênese • Dehaspe e Toivonen (WARMR) • Nijssen e Kok (FARMER) Base de dados indutiva • Regras indutivas, relações ou padrões são gerados previamente • Armazenados numa base de dados • Vantagem: rápida mineração • Desvantagem: memória e processamento gastos • De Raedt e Kramer (MolFea) Teoria matemática dos grafos • Minera todas as categorias de subgrafos • Inokuchi et al (AGM), FSG(2001), gSpan(2002) Função kernel • Define uma similaridade entre dois grafos • Muitas invariantes são coletadas • Delas criam-se os vetores característica • Quando a dimensão é muito grande aplica-se uma função kernel • Não é computada eficientemente Mineração visual em grafos minha visão Como o grafo é uma estrutura com informações topológicas, o pensamento de visualização ocorre quase que imediatamente. Com o estudo da mineração em grafos bem fundamentada, a tendência será voltar as atenções para as formas de visualizações. Exemplos Exemplos Exemplos Exemplos Conclusões É uma área que está em franco desenvolvimento, pois está claro que as técnicas têm sofrido grandes melhoras em pouco tempo. Além disso, muitos dados de problemas reais podem ser facilmente mapeados em grafos, principalmente em química e biologia. E o que antes era impossível devido as limitações de memória e processamento, hoje já não é mais. Bibliografia • Takashi Washio and Hiroshi Motoda et al. State of the art of graph-based data mining. SIGKDD Explor. Newsl., 5(1):59–68, 2003. • Xifeng Yan and Jiawei Han et al. gspan: Graph-based substructure pattern mining. In ICDM’02: 2nd IEEE Conf. Data Mining, 2002.