Visualizar/Abrir

Propaganda
Panorama da Mineração de Dados no Brasil
Alberto Sulaiman 1,2
Jano Moreira de Souza 1,3
1. Introdução
O desenvolvimento das Tecnologias da Informação, principalmente no que se
refere à geração e armazenamento de dados, possibilita às corporações registrar
qualquer transação realizada, em grandes bases de dados sempre crescentes.
Governos possuem bases de dados demográficas, previdenciárias e de
contribuintes, entre outras. Laboratórios de pesquisa armazenam mais e mais
dados sobre meteorologia, qualidade do solo e rastreamento de imagens por
satélite. Sabe-se que existe informação escondida nestes dados: o seu registro
assumiu um valor estratégico.
O enorme crescimento destas bases, sejam empresariais, governamentais ou
científicas vem ultrapassando a habilidade técnica e a capacidade humana na sua
interpretação. A automação no processo de armazenamento dos dados não foi
acompanhada no que se refere à sua análise.
Isto se deve ao fato de que interpretação e análise são atividades essencialmente
humanas: envolvem raciocínio e heurísticas complexas, nem sempre evidentes ou
facilmente programáveis em um sistema de computador.
A capacidade de interpretação de grandes quantidades de dados pode ser
aumentada através da automação parcial destes processos. Uma nova geração de
ferramentas e técnicas para análise em bancos de dados está auxiliando nesta
tarefa.
Neste trabalho estão descritas breve e genericamente as principais características
da mineração de dados inserida no contexto da prospeção de conhecimento em
banco de dados. São apresentados uma definição, objetivos geral e específico e a
finalidade da técnica. É apresentada a metodologia para o estabelecimento deste
“panorama”, são realizados comentários e conclusões.
Palavras chave: data mining, knowledge discovery in databases, databases,
decision support systems, competitive intelligence.
2. Definição
Data Mining (DM) ou Mineração de Dados é a tarefa do estabelecimento de novos
padrões de “conhecimento”, geralmente imprevistos, partindo-se de uma massa de
dados previamente coletada e preparada para este fim.
3. Objetivo Geral
O “conhecimento” passível de ser gerado por um algoritmo de mineração de dados
é aquele citado na literatura da Ciência da Computação, representado por grafos,
quadros e roteiros, lógica matemática ou regras de produção (ou alguma
combinação ou variação destas técnicas de representação do conhecimento).
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
A Mineração de Dados não se dá de maneira isolada em um sistema de
informação. É necessário que sejam realizadas uma série de etapas de preparação
dos dados, antes desta tarefa, bem como a consolidação e o armazenamento do
conhecimento obtido após a sua conclusão.
O processo que contém todas estas etapas é o processo chamado de Knowledge
Discovery in Databases (KDD – ou Prospecção de Conhecimento em Banco de
Dados). Este termo foi inventado em 1989 para se referir ao processo de encontrar
conhecimento em dados, e para enfatizar as aplicações de métodos de mineração
de dados em particular.
Pode-se dizer que a mineração de dados é uma etapa do processo KDD, usada
para auxiliar os especialistas em uma determinada área a atualizar suas bases de
conhecimento na busca de alguma vantagem competitiva em seu negócio.
4. Objetivo específico
O objetivo específico da mineração de dados é o uso de algoritmos e estruturas de
dados para alcançar uma das seguintes categorias de solução de problemas
(Elmasri & Navathe, 2000): predição, identificação, classificação ou otimização.
A predição se refere à possibilidade de previsão do comportamento de
determinados atributos ao longo do tempo, tal como o impacto que a
descontinuidade da venda de um produto pode causar na venda de outro.
Determinados padrões podem ser usados no reconhecimento de um item, evento
ou atividade. Este reconhecimento pode se dar na identificação de fraudes, no
uso de cartões de crédito. Grandes redes de varejo precisam estabelecer
categorias de consumidores. A classificação é usada neste caso. A otimização é
um problema típico da pesquisa operacional que pode ser abordado na mineração
de dados, na busca do melhor uso de recursos limitados, tal como o espaço nas
prateleiras das lojas do varejo.
5. Finalidade
Os sistemas de mineração de dados existentes geram conhecimento em pelo
menos 5 formas: regras associativas, hierarquias de classificação, padrões
seqüenciais, padrões em séries temporais, bem como categorização e
segmentação.
O propósito na mineração de ...
(Elmasri e Navathe, 2000) (IBM, 1998)
•
...Regras associativas é encontrar itens em uma transação que
determinem a presença de outros itens na mesma transação . Exemplo: sempre
que se compra pão e leite, compra-se manteiga. Observação: regras associativas
possuem formato semelhante ao de regras de produção. A regra anterior pode ser
representada como segue: pão, leite => manteiga ;
•
...Hierarquias de classificação é a criação de um modelo baseado em
dados conhecidos. É possível utilizar-se deste modelo para analisar o porque de
uma dada classificação, ou mesmo classificar novos dados partindo-se de uma
classificação existente. O objetivo é trabalhar a partir de um conjunto de eventos ou
transações para criar uma hierarquia de classes. Exemplo: uma população pode
ser dividida em 5 categorias de limite de crédito confiável, baseado no histórico de
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
transações de crédito anteriores. Observação: qualquer classificação pode ser
representada visualmente no formato de árvore (uma árvore é um caso particular
de grafo);
•
...Padrões Seqüenciais é encontrar padrões ou comportamento previsível
em um período de tempo. Isto significa que um comportamento particular em um
dado momento pode ter como conseqüência outro comportamento ou seqüência de
comportamentos dentro de um período de tempo. Trata-se de uma situação
parecida com a das regras associativas, porém com um componente temporal.
Exemplo: sempre que uma mulher jovem compra sapatos de couro, comprará
cinto(s) e bolsa(s) nos próximos 30 dias. Observação: trata-se de mais um exemplo
do uso de regras;
•
...Padrões em Séries Temporais é obter todas as ocorrências de
subseqüências similares em uma base de dados. Exemplo: bolsas e sapatos
fechados de couro possuem padrão de vendas similar no inverno, o que não ocorre
no verão, quando o padrão de similaridade ocorre entre bolsas e sandálias de
couro; e
•
...Categorização e Segmentação é agrupar registros que contenham
características similares. Exemplo: os consumidores podem ser categorizados por
estilo e ter estas categorias segmentadas para a compra de um novo produto entre
“pouco”, “medianamente” ou “muito” compradores.
6. Metodologia
Este trabalho foi desenvolvido levando-se em consideração a observação e a
contagem de artigos aceitos e publicados em congressos recentes, particularmente
nas áreas de Inteligência Artificial e Banco de Dados, acontecidos no Brasil.
Para o congresso “Simpósio Brasileiro de Inteligência Artificial”, SBIA, de 1998 e
2000, bem como o “Simpósio Brasileiro de Banco de Dados”, SBBD, de 1999 e
2000, por se tratar de uma coleção pequena de títulos, foi realizada um inspeção
exaustiva nos títulos e abstracts.
Particularmente no SBIA de 1998 foram utilzados os termos “mining”, relativo à
“data mining” e “discovery”, relativo à “knowledge discovery”, para uma primeira
identificação de artigos na área, apenas para confirmar o fato destes termos ainda
não serem usados naquela ocasião.
Também foi feita uma análise sobre artigos submetidos e aceitos em um congresso
específico da área de Data Mining, no mesmo período, o: “International Conference
on Data Mining”, ICDM, de 1998 e 2000.
Em uma próxima abordagem espera-se utilizar uma metodologia mais abrangente,
uma vez que as publicações e aplicações estão crescendo em número e qualidade.
São considerados trabalhos de brasileiros todos aqueles em que há participação de
brasileiros, para efeito de contagem neste texto.
6.1. Simpósio Brasileiro de Inteligência Artificial, SBIA
No SBIA de 1998, foram aceitos artigos nos seguintes assuntos:
Multi-agent Systems (4) , Intelligent Tutoring Systems(3), Natural Language(3),
Machine Learning and Neural Networks(4), Logic Programming(3), Knowledge
Representation(6), AI Applications(3), num total de 26 trabalhos.
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
Como o assunto específico não foi contemplado, foi utilizada a técnica de busca de
termos e palavras-chave. Não foram detectados os termos “mining” e “discovery”
(relativos à “data mining”e “knowledge discovery”,respectivamente), porém o termo
“learn” (de “machine learning”) foi identificado em cinco trabalhos: 2 sobre o
assunto “natural language” e 3 sobre o assunto “machine learning and neural
networks”, o que sugere que, apesar dos termos não estarem bem disseminados
no Brasil na época, este tipo de aplicação foi contemplada.
No SBIA de 2000, foram aceitos artigos nos seguintes assuntos:
Knowledge Enginnering and Case Based Reasoning, Planning and Scheduling,
Distributed AI and Multi-Agent Systems, AI in Education and Intelligent Tutoring
Systems, Knowledge Representation and Reasoning, Machine Learning and
Knowledge Acquisition, Knowledge Discovery and Data Mining, Natural Language
Processing, Robotics, Computer Vision, Uncertainty and Fuzzy Systems, Genetic
Algorithms and Neural Networks, Foundations (economics, philosophy, etc.)
Neste congresso foram aceitos 48 trabalhos para publicação no “Lecture Notes in
Computer Science”, cinco dos quais foram aceitos no tópico Knowledge Discovery
and Data Mining. Destes 2 são de autoria de brasileiros. Também foram aceitos 39
trabalhos para o “open track”, dos quais cinco são da área, dos quais três são de
brasileiros.
6.2. Simpósio Brasileiro de Banco de Dados, SBBD
Nos SBBDs de 1999 e 2000 foram aceitos artigos nos seguintes assuntos:
algoritmos e teoria de banco de dados, interfaces com o usuário para banco de
dados, aspectos de implementação de Sistemas de Gerência de Banco de Dados,
bancos de dados orientados a objetos e objeto-relacionais,bancos de dados ativos,
dedutivos, temporais e espaciais, bancos de dados cooperativos, bancos de dados
multimídia e hipermídia, sistemas estensíveis, bancos de dados distribuídos e
paralelos, descoberta de conhecimento em banco de dados e mineração de dados,
data warehouse, workflow, técnicas de modelagem e projeto de banco de dados,
suporte de banco de dados a aplicações avançadas, bancos de dados textuais e
semi-estruturados. Tanto em 1999 quanto em 2000 foram aceitos um total de 26
artigos dos quais 3 são da área e de autores brasileiros.
6.3. International Conference on Data Mining, ICDM
Nos ICDMs a abordagem é diferente: trata-se de um congresso em que o assunto
predominante é Data Mining e, portanto, todos os artigos publicados são da área.
Trata-se de um congresso cuja primeira edição aconteceu no Rio de Janeiro em
setembro de 1998 e a segunda em Cambridge, U.K., em julho de 2000. Na primeira
versão, em 1998, foram publicados 30 trabalhos, dos quais 19 de brasileiros. Na
segunda versão, em 2000, foram publicados 61 artigos, dos quais 10 de brasileiros.
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
6.4. Quadro resumido dos congressos
Congresso
Ano
Edição
Artigos
aceitos
TOTAL
de mineração
de dados e
prospecção
de
conhecimento
0
10
3
3
30
61
Brasileiros
SBIA 1998
14o
26
0
o
SBIA 2000
15
87
5
o
SBBD 1999
14
26
3
SBBD 2000
15o
26
3
o
ICDM 1998
1
30
19
ICDM 2000
2o
61
10
Observações:
1. No SBIA de 1998 não houve nenhum artigo específico na área, porém
muitas das técnicas expostas são utilizados em data mining;
2. O SBIA de 2000 foi realizado em conjunto com o IBERAMIA'2000 (the IberoAmerican AI Conference);
3. Nos ICDMs foram registrados trabalhos de brasileiros das regiões nordeste,
sudeste e sul ou de pesquisadores brasileiros no estrangeiro;
4. O ICDM 2000 é chamado de Data Mining II.
6.4. Comentários
Uma iniciativa relevante para a área no Brasil é o Curso de Especialização em
Inteligência Competitiva (CEIC), resultado de um trabalho conjunto entre o
Ministério da Ciência e Tecnologia (MCT), Instituto Nacional de Tecnologia (INT)
através da Divisão de Informação Tecnológica e do Instituto Brasileiro de
Informação em Ciência e Tecnologia (IBICT) através do Departamento de Ensino e
Pesquisa (DEP), em convênio com a Universidade Federal do Rio de Janeiro
(UFRJ)/Escola de Comunicação Social (ECO), através do Programa de Pósgraduação em Ciência da Informação.
Cabe salientar que neste curso (http://www.ceic.com.br/) o enfoque principal é a
gestão da informação para a tomada de decisão. Deste modo a concepção de
modelos, algoritmos e estruturas de dados para data mining não é o objetivo
principal. A cadeira de Data Mining é ministrada dentro da disciplina de Gestão do
Conhecimento, que contém também as cadeiras de Datawarehousing e Gestão de
Bases de Dados.
Na aplicação de métodos e técnicas de bibliometria, infometria e cientometria são
utilizados sistemas desenvolvidos especialmente para esta finalidade pela
Université Aix Marseille III/CRRM. Cabe destacar o trabalho do professor Luc
Quoniam (http://src.univ-tln.fr/~quoniam/ e http://www.cendotec.com.br ).
Também é digno de nota o livro publicado pelo professor Alex Freitas (Freitas A. e
Lavington, S., 1998).
Um panorama mais geral sobre a área pode ser encontrado em (Sulaiman, A. e
Souza, J., 2000).
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
7. Conclusões
Muitas referências de autores brasileiros podem ser encontradas em (Ebecken,
1998) e (Ebecken e Brebbia, 2000). Atualmente o Simpósio Brasileiro de Banco de
Dados (SBBD) e o Simpósio Brasileiro de Inteligência Artificial (SBIA), ambos da
Sociedade Brasileira de Computação (SBC), publicam trabalhos na área.
A inclusão dos termos “data mining” e “knowledge discovery in databases” é
relativamente recente nos congressos nacionais, porém muitas técnicas utilizadas
para este fim já são plenamente conhecidas dos pesquisadores brasileiros.
As iniciativas de pesquisa na concepção de algoritmos, estruturas de dados e
modelos de data mining ainda estão dissociadas de aplicações reais, porém este
quadro está sendo alterado passo a passo, como por exemplo no ICDM 2000, onde
se encontra em sua seção 1 artigos sobre aplicações em ciência, engenharia,
negócios, indústria e medicina.
O Curso de Especialização em Inteligência Competitiva (CEIC), é um exemplo de
curso onde a prioridade da cadeira de data mining é o uso de ferramentas de
mineração de dados para a obtenção de vantagens competitivas nas empresas.
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
Referências
1. Ebecken, N. e Brebbia, C. ed. Data Mining II DMII’2000, Cambridge (WIT
Press, Southampton, U.K.)
2. Ebecken, N. ed. International Conference on Data Mining ICDM'1998. Rio
de Janeiro: COPPE/UFRJ, setembro de 1998. (Computational Mechanics
Publications, WIT Press, U.K.)
3. Elmasri, R. e Navathe, S. Fundamentals of Database Systems 3 rd ed.
Reading, Massachusetts, Addison-Wesley, 2000.
4. Freitas, A. e Lavington, S. Mining Very Large Databases with Parallel
Processing Norwell, Massachussets, Kluwer Academic Publishers, 1998.
5. IBM Using the Intelligent Miner for Data 3rd. Ed. 1998 (version 2, release,
1 - SH12-6325-02).
6. Oliveira, F. ed. Advances in Artificial Intelligence, 14th Brazilian
Symposium on Artificial Intelligence, SBIA '98, Porto Alegre, Brazil,
November 4-6, 1998, Proceedings. Lecture Notes in Computer Science, Vol.
1515, Springer, 1998, ISBN 3-540-65190-X
7. Sulaiman, A. e Souza, J. Mineração de Dados in Tarapanoff, K. et al,
Inteligência Organizacional e Competitiva, no prelo.
8. SBC www.sbc.org.br (disponível em outubro de 2000).
9. SBIA – 2000 http://www.pcs.usp.br/~sbia2000/ (disponível em outubro de
2000).
10. SBBD – 2000 www.gi.cefetpb.br/sbbd2000/ (disponível em outubro de
2000).
1 -Coordenação dos Programas de Pós-graduação em Engenharia, COPPE/UFRJ {sulaiman, jano}@cos.ufrj.br
2
Departamento de Ensino e Pesquisa, IBICT/MCT
Instituto de Matemática - UFRJ
3
Download