8º Congresso de Pós-Graduação DESENVOLVIMENTO DE UM METAMODELO BASEADO EM ONTOLOGIAS PARA O DOMÍNIO DE MINERAÇÃO DE DADOS Autor(es) EDMAR AUGUSTO YOKOME Orientador(es) FLÁVIA LINHALIS ARANTES 1. Introdução Nos últimos anos as bases de dados têm crescido de forma bem significativa além de se tornarem heterogêneas. Fazer uma análise manual nestas bases de dados é praticamente impossível, havendo assim a necessidade de desenvolverem meios mais eficientes e rápidos para realizar análises nos dados. A mineração de dados foi desenvolvida como uma maneira de analisar um grande volume de dados e encontrar padrões que possam servir a algum propósito. A esta tarefa é dado o nome de Descoberta do Conhecimento em Base de Dados (KDD – Knowledge Discovery in Databases), onde seu processo consiste de várias etapas como pré-processamento, mineração de dados e pós-processamento (Tan, Steinbach e Kumar, 2009). Para desenvolver um projeto de mineração de dados, é comum seguir alguma metodologia, a fim de disciplinar o seu processo. Entre as metodologias mas utilizadas, podemos citar a CRISP-DM. Esta metodologia tem como função ajudar a definir, desenvolver e implementar um projeto de mineração de dados (Chapman, 2008). A metodologia CRISP-DM é orientada a dados e enxerga o processo de mineração como algo autônomo e baseado em tentativa e erro, dessa forma questões relacionadas ao negócio e objetivos da mineração têm pouco ou quase nenhum apoio no processo. Como forma de buscar uma mineração mais interativa e eficiente, novas metodologias estão sendo propostas, como metodologias orientada ao domínio do negócio, por exemplo, a D3M (Domain Driven Dataminig(Cao &Zhang,2006)). O objetivo da metodologia D3M é diminuir a distância entre a mineração de dados realizada na academia e na indústria, retratando partes do mundo real (Cao & Zhang, 2006). Entre os elementos chaves desta metodologia estão: restrições de contexto, integração do conhecimento do domínio do negócio, cooperação entre humanos e máquinas durante o processo de mineração e refinamento interativo dos resultados. Para possibilitar a utilização de conhecimento humano ou conhecimento de domínio, é preciso representar formalmente a terminologia do domínio. O conceito de ontologia se adequa bem a esse propósito. Uma ontologia é uma especificação explícita de uma conceituação, ou seja, uma representação de um determinado conhecimento de maneira formal (Gruber, 1993). Ela é comumente utilizada como uma estrutura que representa o conhecimento sobre uma determinada área (ou domínio) por meio de conceitos relevantes e relacionamentos entre eles. Portanto, as ontologias podem ser peças fundamentais para viabilizar metodologias de mineração de dados orientadas ao domínio, com a D3M, e inserir conhecimento humano no processo de mineração. Dessa forma a proposta deste trabalho é propor um metamodelo baseado em ontologias para guiar o processo de mineração de dados considerando as fases do KDD e também a semântica do domínio do problema. Com isso, pretende-se ajudar a inserir conhecimento humano no processo de mineração de dados realizado por ferramentas de mineração em geral. 2. Objetivos O objetivo deste trabalho é propor uma ontologia de alto nível que irá servir como metamodelo para ferramentas de mineração de dados em geral, e para a ferramenta Kira (Mendes, 2009), em específico. O metamodelo deverá levar em consideração não apenas o processo de KDD seguido pelas metodologias tradicionais, mas também a metodologia orientada ao domínio D3M. Como resultados deste trabalho, espera-se contribuir com relação aos seguintes aspectos: • Possibilitar o desenvolvimento de competências para entender e empregar as técnicas das metodologias CRISP-DM e D3M; • Fazer um estudo da ferramenta Kira e verificar em quais pontos o metamodelo pode ajudar no processo de mineração realizado por ela; • Ajudar a guiar o processo de mineração de dados com conhecimento de domínio. 3. Desenvolvimento Para o desenvolvimento do metamodelo, a metodologia descrita a seguir está sendo adotada: • Estudo das principais etapas do processo de KDD e da metodologia CRISP-DM; • Estudo das etapas do processo de KDD na ferramenta Kira; • O metamodelo está sendo desenvolvido de acordo com a metodologia de Noy e McGuiness (2001) para construção de ontologias. A primeira etapa deste trabalho é, portanto, desenvolver o metamodelo considerando as fases do KDD. A partir do momento que o metamodelo inicial estiver desenvolvido, será feita sua validação. Para isto, serão levantadas as questões de competência (Grüninger e Fox, 1995), onde será verificado se o metamodelo está respondendo ao processo de KDD. A segunda etapa deste trabalho consiste em estudar a metodologia D3M e inserir informações semânticas no metamodelo. Mais uma vez, essa fase virá acompanhada da definição de questões de competência com o objetivo de validar o metamodelo. Depois que o metamodelo estiver pronto, ele poderá ser representado em uma linguagem apropriada para a representação de ontologias e, em seguida, poderá ser utilizado por ferramentas de mineração de dados em geral para guiar o processo de mineração, considerando informações de domínio. Pretende-se no futuro realizar testes com a ferramenta de mineração Kira, desenvolvida pelo grupo de mestrado da UNIMEP. Para o desenvolvimento deste trabalho está sendo feito um estudo bibliográfico de artigos, livros e trabalhos acadêmicos sobre o assunto (Cao, 2006; Chapman, 2008; Gruber, 1993; Noy & McGuinness, 2001; Tan, Steinbach e Kumar, 2009) e também a realização de testes em algumas ferramentas de mineração de dados, entre elas a Weka (www.cs.waikato.ac.nz) e a Kira (Mendes 2009). Para desenvolver as duas etapas abordada está sendo utilizada a metodologia de Noy e McGuines em que consiste nas seguintes etapas: 1) Determinar o domínio e o escopo da ontologia 2) Considerar a reutilização de outras ontologias 3) Enumerar termos importante para a ontologia 4) Definir as classes e a hierarquia entre elas 5) Definir as propriedade das classes 6) Definir as facetas das propriedades 7) Criar instâncias Ao seguir está metodologia tem-se uma forma de se disciplinar o desenvolvimento de uma ontologia. De acordo com a metodologia de desenvolvimento de ontologias de Noy e McGuiness (2001) está sendo feito um estudo sobre as ontologias já desenvolvidas e testadas para então estar reutilizando algumas de suas partes. 4. Resultado e Discussão A partir da metodologia de desenvolvimento apresentada foi desenvolvida a primeira versão do metamodelo, conforme apresentado na Figura 1: Figura 1: Diagrama do metamodelo proposto Este metamodelo foi desenvolvido a partir do processo KDD e da metodologia CRISP-DM e tendo as ferramentas de mineração de dados Weka e Kira como suporte para um melhor entendimento de como se realizar uma tarefa de mineração de dados. Este metamodelo está em fase de testes com o levantamento de suas questões de competência e poderá passar por refinamentos. Até o presente momento, o metamodelo abrange as fases do KDD, a saber: • “ Problem Understanding” consiste na fase de entendimento do problema, onde é definido o objetivo a ser alcançado com a mineração de dados; • “ Data” é um conceito que representa a base de dados em si, isto é, a fonte de dados, sua estrutura em tabelas, seus valores de colunas, etc; • “ Data Preparation” é um conceito que representa a fase onde os dados são preparados para a mineração; • “Selection” consiste na seleção dos dados que serão minerados; • “ Task” é um conceito que representa a tarefa para a mineração de dados, que pode ser clusterização, associação ou classificação; • “ Model” representa o modelo de dados sobre o qual será realizada a mineração; • “ Algorithm” é um conceito para representar os vários algoritmos existentes para cada tarefa de mineração de dados; e • “ Pattern” são os padrões gerados, que são tidos como resultados da tarefa de mineração de dados. 5. Considerações Finais Como principal contribuição deste trabalho, espera-se ter um metamodelo que servirá de base para ferramentas de mineração. Ao seguir o metamodelo, as ferramentas poderão inserir conhecimento de domínio e humano no processo de mineração de dados, que atualmente é feito automaticamente e, muitas vezes, produz resultados pouco relevantes. Como resultados já alcançados, o metamodelo consegue representar as etapas para a realização da mineração de dados (KDD). Nosso próximo passo será avaliá-lo com questões de competência. Após testar e avaliar todas as etapas do metamodelo serão inseridas informações semânticas ao metamodelo e formas de representar conhecimento de domínio e interação entre usuários e o processo de mineração de dados. Referências Bibliográficas CAO, L.; ZHANG, C. Domain-Driven Data Mining: A Practical Methodology. International Journal of Data Warehousing & Mining, v. 2, n. 4, p. 49-65, 2006. CHAPMAN, P.; CLINTON, J.; KERBER, R.; KHABAZA, T.; REINARTZ, T.; SHEARER, C. CRISP-DM 1.0 Step-by-step Data Mining Guide. 2000. Disponível em: Anexos