Panorama da Mineração de Dados no Brasil Alberto Sulaiman 1,2 Jano Moreira de Souza 1,3 1. Introdução O desenvolvimento das Tecnologias da Informação, principalmente no que se refere à geração e armazenamento de dados, possibilita às corporações registrar qualquer transação realizada, em grandes bases de dados sempre crescentes. Governos possuem bases de dados demográficas, previdenciárias e de contribuintes, entre outras. Laboratórios de pesquisa armazenam mais e mais dados sobre meteorologia, qualidade do solo e rastreamento de imagens por satélite. Sabe-se que existe informação escondida nestes dados: o seu registro assumiu um valor estratégico. O enorme crescimento destas bases, sejam empresariais, governamentais ou científicas vem ultrapassando a habilidade técnica e a capacidade humana na sua interpretação. A automação no processo de armazenamento dos dados não foi acompanhada no que se refere à sua análise. Isto se deve ao fato de que interpretação e análise são atividades essencialmente humanas: envolvem raciocínio e heurísticas complexas, nem sempre evidentes ou facilmente programáveis em um sistema de computador. A capacidade de interpretação de grandes quantidades de dados pode ser aumentada através da automação parcial destes processos. Uma nova geração de ferramentas e técnicas para análise em bancos de dados está auxiliando nesta tarefa. Neste trabalho estão descritas breve e genericamente as principais características da mineração de dados inserida no contexto da prospeção de conhecimento em banco de dados. São apresentados uma definição, objetivos geral e específico e a finalidade da técnica. É apresentada a metodologia para o estabelecimento deste “panorama”, são realizados comentários e conclusões. Palavras chave: data mining, knowledge discovery in databases, databases, decision support systems, competitive intelligence. 2. Definição Data Mining (DM) ou Mineração de Dados é a tarefa do estabelecimento de novos padrões de “conhecimento”, geralmente imprevistos, partindo-se de uma massa de dados previamente coletada e preparada para este fim. 3. Objetivo Geral O “conhecimento” passível de ser gerado por um algoritmo de mineração de dados é aquele citado na literatura da Ciência da Computação, representado por grafos, quadros e roteiros, lógica matemática ou regras de produção (ou alguma combinação ou variação destas técnicas de representação do conhecimento). 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 A Mineração de Dados não se dá de maneira isolada em um sistema de informação. É necessário que sejam realizadas uma série de etapas de preparação dos dados, antes desta tarefa, bem como a consolidação e o armazenamento do conhecimento obtido após a sua conclusão. O processo que contém todas estas etapas é o processo chamado de Knowledge Discovery in Databases (KDD – ou Prospecção de Conhecimento em Banco de Dados). Este termo foi inventado em 1989 para se referir ao processo de encontrar conhecimento em dados, e para enfatizar as aplicações de métodos de mineração de dados em particular. Pode-se dizer que a mineração de dados é uma etapa do processo KDD, usada para auxiliar os especialistas em uma determinada área a atualizar suas bases de conhecimento na busca de alguma vantagem competitiva em seu negócio. 4. Objetivo específico O objetivo específico da mineração de dados é o uso de algoritmos e estruturas de dados para alcançar uma das seguintes categorias de solução de problemas (Elmasri & Navathe, 2000): predição, identificação, classificação ou otimização. A predição se refere à possibilidade de previsão do comportamento de determinados atributos ao longo do tempo, tal como o impacto que a descontinuidade da venda de um produto pode causar na venda de outro. Determinados padrões podem ser usados no reconhecimento de um item, evento ou atividade. Este reconhecimento pode se dar na identificação de fraudes, no uso de cartões de crédito. Grandes redes de varejo precisam estabelecer categorias de consumidores. A classificação é usada neste caso. A otimização é um problema típico da pesquisa operacional que pode ser abordado na mineração de dados, na busca do melhor uso de recursos limitados, tal como o espaço nas prateleiras das lojas do varejo. 5. Finalidade Os sistemas de mineração de dados existentes geram conhecimento em pelo menos 5 formas: regras associativas, hierarquias de classificação, padrões seqüenciais, padrões em séries temporais, bem como categorização e segmentação. O propósito na mineração de ... (Elmasri e Navathe, 2000) (IBM, 1998) • ...Regras associativas é encontrar itens em uma transação que determinem a presença de outros itens na mesma transação . Exemplo: sempre que se compra pão e leite, compra-se manteiga. Observação: regras associativas possuem formato semelhante ao de regras de produção. A regra anterior pode ser representada como segue: pão, leite => manteiga ; • ...Hierarquias de classificação é a criação de um modelo baseado em dados conhecidos. É possível utilizar-se deste modelo para analisar o porque de uma dada classificação, ou mesmo classificar novos dados partindo-se de uma classificação existente. O objetivo é trabalhar a partir de um conjunto de eventos ou transações para criar uma hierarquia de classes. Exemplo: uma população pode ser dividida em 5 categorias de limite de crédito confiável, baseado no histórico de 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 transações de crédito anteriores. Observação: qualquer classificação pode ser representada visualmente no formato de árvore (uma árvore é um caso particular de grafo); • ...Padrões Seqüenciais é encontrar padrões ou comportamento previsível em um período de tempo. Isto significa que um comportamento particular em um dado momento pode ter como conseqüência outro comportamento ou seqüência de comportamentos dentro de um período de tempo. Trata-se de uma situação parecida com a das regras associativas, porém com um componente temporal. Exemplo: sempre que uma mulher jovem compra sapatos de couro, comprará cinto(s) e bolsa(s) nos próximos 30 dias. Observação: trata-se de mais um exemplo do uso de regras; • ...Padrões em Séries Temporais é obter todas as ocorrências de subseqüências similares em uma base de dados. Exemplo: bolsas e sapatos fechados de couro possuem padrão de vendas similar no inverno, o que não ocorre no verão, quando o padrão de similaridade ocorre entre bolsas e sandálias de couro; e • ...Categorização e Segmentação é agrupar registros que contenham características similares. Exemplo: os consumidores podem ser categorizados por estilo e ter estas categorias segmentadas para a compra de um novo produto entre “pouco”, “medianamente” ou “muito” compradores. 6. Metodologia Este trabalho foi desenvolvido levando-se em consideração a observação e a contagem de artigos aceitos e publicados em congressos recentes, particularmente nas áreas de Inteligência Artificial e Banco de Dados, acontecidos no Brasil. Para o congresso “Simpósio Brasileiro de Inteligência Artificial”, SBIA, de 1998 e 2000, bem como o “Simpósio Brasileiro de Banco de Dados”, SBBD, de 1999 e 2000, por se tratar de uma coleção pequena de títulos, foi realizada um inspeção exaustiva nos títulos e abstracts. Particularmente no SBIA de 1998 foram utilzados os termos “mining”, relativo à “data mining” e “discovery”, relativo à “knowledge discovery”, para uma primeira identificação de artigos na área, apenas para confirmar o fato destes termos ainda não serem usados naquela ocasião. Também foi feita uma análise sobre artigos submetidos e aceitos em um congresso específico da área de Data Mining, no mesmo período, o: “International Conference on Data Mining”, ICDM, de 1998 e 2000. Em uma próxima abordagem espera-se utilizar uma metodologia mais abrangente, uma vez que as publicações e aplicações estão crescendo em número e qualidade. São considerados trabalhos de brasileiros todos aqueles em que há participação de brasileiros, para efeito de contagem neste texto. 6.1. Simpósio Brasileiro de Inteligência Artificial, SBIA No SBIA de 1998, foram aceitos artigos nos seguintes assuntos: Multi-agent Systems (4) , Intelligent Tutoring Systems(3), Natural Language(3), Machine Learning and Neural Networks(4), Logic Programming(3), Knowledge Representation(6), AI Applications(3), num total de 26 trabalhos. 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 Como o assunto específico não foi contemplado, foi utilizada a técnica de busca de termos e palavras-chave. Não foram detectados os termos “mining” e “discovery” (relativos à “data mining”e “knowledge discovery”,respectivamente), porém o termo “learn” (de “machine learning”) foi identificado em cinco trabalhos: 2 sobre o assunto “natural language” e 3 sobre o assunto “machine learning and neural networks”, o que sugere que, apesar dos termos não estarem bem disseminados no Brasil na época, este tipo de aplicação foi contemplada. No SBIA de 2000, foram aceitos artigos nos seguintes assuntos: Knowledge Enginnering and Case Based Reasoning, Planning and Scheduling, Distributed AI and Multi-Agent Systems, AI in Education and Intelligent Tutoring Systems, Knowledge Representation and Reasoning, Machine Learning and Knowledge Acquisition, Knowledge Discovery and Data Mining, Natural Language Processing, Robotics, Computer Vision, Uncertainty and Fuzzy Systems, Genetic Algorithms and Neural Networks, Foundations (economics, philosophy, etc.) Neste congresso foram aceitos 48 trabalhos para publicação no “Lecture Notes in Computer Science”, cinco dos quais foram aceitos no tópico Knowledge Discovery and Data Mining. Destes 2 são de autoria de brasileiros. Também foram aceitos 39 trabalhos para o “open track”, dos quais cinco são da área, dos quais três são de brasileiros. 6.2. Simpósio Brasileiro de Banco de Dados, SBBD Nos SBBDs de 1999 e 2000 foram aceitos artigos nos seguintes assuntos: algoritmos e teoria de banco de dados, interfaces com o usuário para banco de dados, aspectos de implementação de Sistemas de Gerência de Banco de Dados, bancos de dados orientados a objetos e objeto-relacionais,bancos de dados ativos, dedutivos, temporais e espaciais, bancos de dados cooperativos, bancos de dados multimídia e hipermídia, sistemas estensíveis, bancos de dados distribuídos e paralelos, descoberta de conhecimento em banco de dados e mineração de dados, data warehouse, workflow, técnicas de modelagem e projeto de banco de dados, suporte de banco de dados a aplicações avançadas, bancos de dados textuais e semi-estruturados. Tanto em 1999 quanto em 2000 foram aceitos um total de 26 artigos dos quais 3 são da área e de autores brasileiros. 6.3. International Conference on Data Mining, ICDM Nos ICDMs a abordagem é diferente: trata-se de um congresso em que o assunto predominante é Data Mining e, portanto, todos os artigos publicados são da área. Trata-se de um congresso cuja primeira edição aconteceu no Rio de Janeiro em setembro de 1998 e a segunda em Cambridge, U.K., em julho de 2000. Na primeira versão, em 1998, foram publicados 30 trabalhos, dos quais 19 de brasileiros. Na segunda versão, em 2000, foram publicados 61 artigos, dos quais 10 de brasileiros. 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 6.4. Quadro resumido dos congressos Congresso Ano Edição Artigos aceitos TOTAL de mineração de dados e prospecção de conhecimento 0 10 3 3 30 61 Brasileiros SBIA 1998 14o 26 0 o SBIA 2000 15 87 5 o SBBD 1999 14 26 3 SBBD 2000 15o 26 3 o ICDM 1998 1 30 19 ICDM 2000 2o 61 10 Observações: 1. No SBIA de 1998 não houve nenhum artigo específico na área, porém muitas das técnicas expostas são utilizados em data mining; 2. O SBIA de 2000 foi realizado em conjunto com o IBERAMIA'2000 (the IberoAmerican AI Conference); 3. Nos ICDMs foram registrados trabalhos de brasileiros das regiões nordeste, sudeste e sul ou de pesquisadores brasileiros no estrangeiro; 4. O ICDM 2000 é chamado de Data Mining II. 6.4. Comentários Uma iniciativa relevante para a área no Brasil é o Curso de Especialização em Inteligência Competitiva (CEIC), resultado de um trabalho conjunto entre o Ministério da Ciência e Tecnologia (MCT), Instituto Nacional de Tecnologia (INT) através da Divisão de Informação Tecnológica e do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) através do Departamento de Ensino e Pesquisa (DEP), em convênio com a Universidade Federal do Rio de Janeiro (UFRJ)/Escola de Comunicação Social (ECO), através do Programa de Pósgraduação em Ciência da Informação. Cabe salientar que neste curso (http://www.ceic.com.br/) o enfoque principal é a gestão da informação para a tomada de decisão. Deste modo a concepção de modelos, algoritmos e estruturas de dados para data mining não é o objetivo principal. A cadeira de Data Mining é ministrada dentro da disciplina de Gestão do Conhecimento, que contém também as cadeiras de Datawarehousing e Gestão de Bases de Dados. Na aplicação de métodos e técnicas de bibliometria, infometria e cientometria são utilizados sistemas desenvolvidos especialmente para esta finalidade pela Université Aix Marseille III/CRRM. Cabe destacar o trabalho do professor Luc Quoniam (http://src.univ-tln.fr/~quoniam/ e http://www.cendotec.com.br ). Também é digno de nota o livro publicado pelo professor Alex Freitas (Freitas A. e Lavington, S., 1998). Um panorama mais geral sobre a área pode ser encontrado em (Sulaiman, A. e Souza, J., 2000). 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 7. Conclusões Muitas referências de autores brasileiros podem ser encontradas em (Ebecken, 1998) e (Ebecken e Brebbia, 2000). Atualmente o Simpósio Brasileiro de Banco de Dados (SBBD) e o Simpósio Brasileiro de Inteligência Artificial (SBIA), ambos da Sociedade Brasileira de Computação (SBC), publicam trabalhos na área. A inclusão dos termos “data mining” e “knowledge discovery in databases” é relativamente recente nos congressos nacionais, porém muitas técnicas utilizadas para este fim já são plenamente conhecidas dos pesquisadores brasileiros. As iniciativas de pesquisa na concepção de algoritmos, estruturas de dados e modelos de data mining ainda estão dissociadas de aplicações reais, porém este quadro está sendo alterado passo a passo, como por exemplo no ICDM 2000, onde se encontra em sua seção 1 artigos sobre aplicações em ciência, engenharia, negócios, indústria e medicina. O Curso de Especialização em Inteligência Competitiva (CEIC), é um exemplo de curso onde a prioridade da cadeira de data mining é o uso de ferramentas de mineração de dados para a obtenção de vantagens competitivas nas empresas. 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3 Referências 1. Ebecken, N. e Brebbia, C. ed. Data Mining II DMII’2000, Cambridge (WIT Press, Southampton, U.K.) 2. Ebecken, N. ed. International Conference on Data Mining ICDM'1998. Rio de Janeiro: COPPE/UFRJ, setembro de 1998. (Computational Mechanics Publications, WIT Press, U.K.) 3. Elmasri, R. e Navathe, S. Fundamentals of Database Systems 3 rd ed. Reading, Massachusetts, Addison-Wesley, 2000. 4. Freitas, A. e Lavington, S. Mining Very Large Databases with Parallel Processing Norwell, Massachussets, Kluwer Academic Publishers, 1998. 5. IBM Using the Intelligent Miner for Data 3rd. Ed. 1998 (version 2, release, 1 - SH12-6325-02). 6. Oliveira, F. ed. Advances in Artificial Intelligence, 14th Brazilian Symposium on Artificial Intelligence, SBIA '98, Porto Alegre, Brazil, November 4-6, 1998, Proceedings. Lecture Notes in Computer Science, Vol. 1515, Springer, 1998, ISBN 3-540-65190-X 7. Sulaiman, A. e Souza, J. Mineração de Dados in Tarapanoff, K. et al, Inteligência Organizacional e Competitiva, no prelo. 8. SBC www.sbc.org.br (disponível em outubro de 2000). 9. SBIA – 2000 http://www.pcs.usp.br/~sbia2000/ (disponível em outubro de 2000). 10. SBBD – 2000 www.gi.cefetpb.br/sbbd2000/ (disponível em outubro de 2000). 1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br 2 Departamento de Ensino e Pesquisa, IBICT/MCT Instituto de Matemática - UFRJ 3