Artigo

Propaganda
ANÁLISE DE LOGS DA WEB POR MEIO DE TÉCNICAS DE DATA MINING
Mabel Pereira da Silva
UNIOESTE – Universidade Estadual do Oeste do Paraná
Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR
CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546
e-mail: [email protected]
Clodis Boscarioli
UNIOESTE – Universidade Estadual do Oeste do Paraná
Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR
CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546
e-mail: [email protected]
Sarajane Marques Peres
UNIOESTE – Universidade Estadual do Oeste do Paraná
Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR
CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546
e-mail: [email protected]
Resumo
A crescente informatização dos meios produtivos vem possibilitando um aumento considerável do
volume de dados nas organizações. Manipular esses dados e, a partir deles, extrair informações que
auxiliem nos processos decisórios, é cada vez mais indispensável para as empresas que desejam
manter-se no mercado de maneira competitiva. Concomitantemente, o crescimento exponencial da
Internet e o acesso aos seus recursos vêm atingindo mais pessoas a cada dia, fazendo com que
muitas organizações invistam e exponham seus produtos e serviços na rede mundial com a intenção
de gerar mais negócios e aumentar sua rentabilidade. Este artigo descreve um estudo sobre o uso de
Data Mining (mineração de dados) em um ambiente Web. Técnicas de processo de descoberta de
conhecimento foram aplicadas com o intuito de investigar a relevância das informações obtidas por
meio da análise dos padrões de navegação de usuários em web sites de uma empresa provedora de
acesso à Internet, descritos em arquivos de log de um servidor Web. A partir disto, medidas foram
sugeridas para um melhor aproveitamento e eficácia do processo.
Palavras-chave: Descoberta de Conhecimento, Personalização, Data Mining.
1. Introdução
Cada vez mais a informação tem-se tornado fator fundamental para as organizações que
desejam se manter no mercado de forma competitiva e inovadora. Aqueles que detêm informações
sobre seus negócios podem utilizá-las para determinar o perfil e preferências de seus clientes,
definir estratégias de marketing e reduzir riscos ao ingressar em novas áreas de negócios.
O acesso às informações relevantes de uma organização se torna imprescindível para que
os dirigentes possam decidir a melhor maneira de direcionar os negócios e fazer com que a
organização atinja seus objetivos mercadológicos. Entretanto, essas informações normalmente não
são fáceis de serem conseguidas.
A dificuldade em obter conhecimento útil de grandes volumes de dados faz com que haja
a necessidade de se ter meios para o devido tratamento e extração de informações que possam vir a
ter utilidade para uma organização. Essa necessidade vem fazendo com que técnicas e ferramentas
sejam criadas e aprimoradas com o intuito de facilitar essa tarefa.
No ambiente Web, a extração de informações relevantes de padrões de navegação que
descrevam o comportamento dos clientes ao navegar nos web sites de uma organização pode vir a
ser potencialmente útil para a personalização dos serviços oferecidos a seus clientes, melhorando o
atendimento e propiciando a fidelização destes clientes.
Este artigo descreve um estudo que tem por finalidade investigar o uso e aplicabilidade de
um processo de descoberta de conhecimento em banco de dados na obtenção de informações em
uma base de dados composta de arquivos de logs em servidores Web gerados pelos acessos de
internautas ao web site de uma empresa e está organizado da seguinte forma: A Seção 2 traz os
conceitos principais sobre o processo de descoberta de conhecimento em banco de dados; A Seção
3 introduz mineração de dados na Web; O estudo de caso realizado está descrito na Seção 4 e,
finalmente, na Seção 5 estão descritas as conclusões e propostas de trabalhos futuros.
2. KDD (Knowledge Discovery in Databases)
KDD (Knowledge Discovery in Databases) – ou de Descoberta de Conhecimento em
Bases de Dados, é o ramo da computação que utiliza ferramentas e técnicas computacionais com a
finalidade de sistematizar o processo de extração de conhecimento útil de grandes volumes de
dados. Essa extração se baseia essencialmente na detecção e descrição de padrões nos dados
analisados de um domínio.
Figura 1 - Etapas do processo de KDD (FAYYAD et al, 1996)
Como ilustrado na Figura 1, o KDD envolve duas grandes áreas de atividades com
objetivos e metas bem definidas: Preparação de Dados e Mineração de Dados. A Preparação de
Dados diz respeito ao entendimento da área de aplicação e da definição do conjunto de dados a
serem submetidos à mineração e é composto das seguintes etapas1:
•
Definição do objetivo do problema;
•
Criação de um conjunto de dados;
•
Limpeza e pré-processamento dos dados;
•
Redução e projeção de dados.
A Mineração de Dados (ou Data Mining) é a área específica do KDD que trata das
técnicas e algoritmos utilizados na detecção dos padrões de dados. As etapas a seguir são abordadas
nesta fase:
•
Escolha das tarefas de mineração de dados;
•
Escolha dos algoritmos de mineração de dados;
•
Mineração de dados;
•
Interpretação de padrões de exploração;
•
Consolidação do conhecimento descoberto.
No contexto deste trabalho, a tarefa de mineração de dados foi enfocada por descoberta de
regras de associação. O algoritmo mais usado na implementação de regras de associação é o
algoritmo Apriori2 (AGRAWAL et al., 1994), que faz uma varredura no conjunto de dados
procurando por subconjuntos que tenham relacionamentos que sejam freqüentes. Mais
especificamente, utilizou-se o algoritmo Apriori, o qual é brevemente comentado nas Seção 2.1.
A escolha deste algoritmo deveu-se à sua constante utilização em trabalhos realizados
nesta área , como por exemplo, os descritos em (TERRA et al., 2000), (COLLAZOS et al., 2000),
(BRUSSO et. al, 2001), (BRUSSO, 2002), (REATEGUI, E.; 2002 ), e por este adequar-se ao
domínio de aplicação estudado.
1
2
Detalhamento sobre as etapas de preparação e mineração de dados podem ser encontrados em (FAYYAD et al, 1996).
Detalhes sobre o algoritmo Apriori podem ser encontrados em (AGRAWAL et al., 1994).
Regras de associação podem ser utilizadas em Web Mining com o intuito de descobrir um
padrão de navegação de determinados usuários como, por exemplo, quais as páginas ou conjunto de
páginas que um certo usuário mais visita ou quais os serviços do site que ele mais acessa.
2.1 Regras de Associação
Regras de associação é uma técnica de mineração de dados utilizada para encontrar
relacionamentos ou padrões freqüentes em conjuntos de dados. Um algoritmo que implementa essa
técnica procura identificar relações entre os itens de um conjunto de dados, que são descritas em
forma de regras do tipo “Se X então Y”, ou “X → Y”, onde X e Y são conjuntos de itens e X ∩ Y =
∅ (AGRAWAL et al., 1994; BRUSSO, 2000; FREITAS et al., 2001).
O objetivo de um algoritmo para descoberta de regras de associação é identificar
todas aquelas que tenham suporte (Sup) e confiança (Conf) maiores do que os valores mínimos
estipulados, onde o suporte é um número mínimo de ocorrências e a confiança é o percentual das
transações que satisfazem X e Y (FREITAS et al, 2001). Assim, Sup ≥ Supmínimo e Conf ≥
Confmínima devem ser satisfeitos. Na regra X → Y, o suporte é dado por sup (XY) e a confiança é dada
por sup (XY) / sup (X) (AGRAWAL, 1996 apud BRUSSO, 2000).
O algoritmo Apriori faz a mineração de dados em duas etapas (FREITAS et al., 2001):
♦ Geração: faz-se uma varredura na base de dados com o intuito de gerar todos os
conjuntos de possíveis combinações de campos das colunas que tenham uma freqüência
superior ao suporte mínimo estipulado.
♦ Poda: considera-se somente os conjuntos que possuam o grau de confiança mínimo e
descartam-se os demais.
Ao executar as diversas varreduras na base de dados, o algoritmo gera primeiramente um
conjunto de itens “candidatos” e, em seguida, verifica se os “candidatos” satisfazem o suporte
mínimo estipulado.
Um exemplo prático da aplicação da regra seria constatar que, em um determinado
conjunto de dados, N% dos registros em que constam os atributos A e B, constam também o
atributo C. A porcentagem de ocorrência expressa em N% representa o fator de confiança da regra e
é utilizado para eliminar tendências fracas e manter as regras que descrevem as tendências mais
fortes.
3. Mineração de Dados na Web
Desde que foi criada, a Web vem transformando os conceitos de manipulação de
informação de maneira revolucionária e atingindo, sobretudo, as empresas e seus negócios. Para
muitas organizações, estar conectada à Internet significa competir e manter-se no mercado.
Por outro lado, a disseminação do uso da Internet vem modificando o modo como pessoas
e organizações interagem. Essa interação fez surgir uma forma de tratamento especial às pessoas,
pois cada usuário da Internet pode vir a ser um cliente em potencial, considerando-se que as
organizações cada vez mais expõem e comercializam seus produtos e serviços na Web.
Projetar web sites e servidores de acesso à Web se tornam tarefas mais complexas à
medida que pretende-se extrair destes, dados para posteriormente descobrir informações úteis para a
organização. Portanto, faz-se necessário o uso de técnicas e ferramentas adequadas, para que se
possa extrair e analisar os dados que descrevem o comportamento dos usuários ao visitar web sites
e, com isso, obter informações que auxiliem na identificação do perfil dos usuários, a fim de que
possam vir a se tornar clientes, bem como garantir a fidelização dos clientes que acessam o web
site.
A Mineração de Dados na Web é a aplicação das técnicas de Mineração de Dados no
ambiente Web. É utilizada para extrair conhecimento útil do conteúdo disponibilizado na Web, da
estrutura dos web sites ou dos dados relativos à navegação dos usuários. As técnicas e algoritmos
aplicados são os mesmos da mineração convencional. O Quadro 1 (FLORESCU et al., 1998)
apresenta as principais categorias e fontes de dados provenientes da Web, bem como os métodos
para a extração desses dados.
Quadro 1 - Quadro demonstrativo de Web Mining
Visão de
Dados
-
Dados
Principais
-
Representa- ção
-
Mineração na Web
Mineração do Conteúdo da Web
Mineração da
Estrutura da
Recuperação de
Base de Dados
Web
Informação
- Estruturas de
Não estruturados - SemiSemiestruturados
links
- Site Web com
estruturados
BD
Documentos de - Documentos de - Estruturas de
textos
hipertexto
links
Documentos de
hipertexto
- Grafos (OEM)
- Grafos
Conjunto de
palavras, frases, - Relacional
termos
Conceitos ou
Mineração do Uso
da Web
-
Interatividade
-
Registros de
servidor
Registro de
browser
Tabela
relacional
Grafos
-
-
Método
-
Categorias
de
Aplicação
-
ontologias
Relacional
Heurísticas
TFIDF e
variantes
Aprendizagem
automática
Estatística
Categorização
Segmentação
Extração de
regras
Padrões
encontrados nos
textos
-
-
-
Algoritmos
proprietários
Regras de
Associação
modificadas
-
Encontrar subestruturas
freqüentes
Descobrir
esquemas de
sites Web
-
Algoritmos
proprietários
-
Categorização Segmentação
-
Aprendizagem
automática
Estatísticas,
Regras de
Associação
modificadas
Construção,
adaptação e
gerência de sites
Marketing
Modelos de
usuários
Fonte: Adaptado de (FLORESCU et al., 1998)
4. Estudo de Caso
Para o estudo de caso foram considerados os logs de acesso ao web site de um provedor
de internet. Pretendeu-se demonstrar a aplicabilidade de técnicas de KDD para a identificação do
comportamento dos internautas ao acessar os serviços oferecidos pelo web site para com isso,
possibilitar a personalização dos serviços, produtos e atendimento oferecidos aos clientes.
A empresa escolhida, um provedor de acesso à Internet, tem necessidade de obter
informações objetivas, que auxiliem no processo de tomada de decisões, direcionando os
investimentos de acordo com a demanda e o perfil de sua clientela. A falta de informações faz com
que oportunidades de negócios sejam desperdiçadas e que o atendimento ao cliente tenha falhas em
aspectos como, por exemplo, dificuldades em oferecer serviços de acordo com as reais necessidades
e preferências de seus clientes.
Foi realizada a mineração em dados aplicáveis ao ambiente Web e analisou-se sua eficácia
na identificação de comportamentos, tendências e relacionamentos entre os dados. Com isso,
pretendeu-se extrair informações úteis sobre o perfil dos usuários que navegam no web site da
empresa, tais como páginas e serviços do web site mais acessados e horários de maior acesso ao
web site. O processo de mineração foi modelado e executado seguindo as fases descritas nas subseções seguintes (SILVA, 2003).
4.1 Definição de Requisitos
Antes de iniciar o processo de descoberta de conhecimento no ambiente em estudo, alguns
requisitos tiveram que ser atendidos para que o web site da empresa pudesse fornecer informações
quanto à sua utilização. Foi utilizado o mecanismo de cookie para gerar um identificador (ID) para
cada usuário que visitasse o web site, independentemente dele ser cliente ou não da empresa. Ao
acessar o web site, o internauta receberia um cookie em sua máquina com um ID que o identificaria
de maneira única nos logs de acesso do servidor. O valor armazenado no cookie seria gravado nos
arquivos de log, após configuração prévia feita no gerenciador do servidor Web.
Além de configurar o servidor Web para que fosse registrado nos logs o conteúdo dos
cookies, houve a necessidade de configurar o armazenamento de variáveis como o referer, por
exemplo, que indicaria de que web site o internauta estaria vindo (caso houvesse) ao entrar no web
site da empresa. Essa informação é particularmente interessante para analisar a eficiência de
banners de propaganda da empresa, exibidos em outros web sites.
Como parte do web site da empresa se encontrava hospedado em outro servidor Web de
arquitetura distinta do servidor principal, foi utilizado um mecanismo para que os acessos feitos ao
servidor Web secundário fossem registrados nos arquivos de log do servidor Web principal. O
mecanismo utilizado foi o uso de strings de consulta implementadas no código das páginas
hospedadas no servidor Web secundário que, ao serem solicitadas pelo internauta, ativavam a
execução do código gerador do ID hospedado no servidor Web principal e, conseqüentemente, a
gravação destes acessos nos arquivos de log.
Outro requisito observado foi a sincronização dos dois servidores Web, problema
resolvido com a implantação de um servidor de sincronização (Servidor NTP – Network Time
Protocol).
4.2 Definição dos Dados para Análise
Foram utilizados os logs de acesso semanal para obter um padrão de comportamento dos
internautas. Optou-se por este intervalo de tempo devido à grande quantidade de entradas nos
arquivos de log, já que haveria um aumento de tempo na execução do processo caso o intervalo de
tempo considerado fosse maior, o que não seria viável em relação à capacidade de processamento
do hardware disponível.
Para efetuar a análise dos dados, foi escolhida a ferramenta WEKA (Waikato Environment
for Knwoledge Analysis), desenvolvida pela Universidade de Waikato, Nova Zelândia. O WEKA,
descrito em (WITTEN & FRANK, 2000), é um pacote implementado em Java, segundo o
paradigma de orientação a objetos, e é composto de uma série de algoritmos de aprendizagem para
solucionar problemas de Mineração de Dados. Para a realização deste estudo, foi utilizado o
algoritmo Apriori, implementado pela ferramenta e que faz uso de regras de associação.
4.3 Preparação dos Dados
Primeiramente os arquivos de logs foram convertidos do formato de texto para tabelas do
Microsoft SQL Server® para que pudessem ser processados de maneira estruturada. A conversão
resultou num total de sete tabelas, cada uma referindo-se a um dia da semana. Com os logs
convertidos em tabelas do SQL Server, aplicou-se scripts implementados em ASP (Active Server
Page), para limpeza e tratamento dos dados, a fim de eliminar inconsistências e registros de objetos
que não se referissem a páginas do web site (como arquivos gif, jpg, swf, css, irrelevantes para a
análise), além da conversão do formato de alguns dados (como datas, por exemplo) para formatos
que pudessem ser manipulados.
Para obter dados referentes aos “cliques” dos usuários no web site, foram criadas várias
tabelas3 a partir dos logs. Por meio de scripts em ASP, estas foram geradas, de forma independente,
com os dados relativos a Cliente, Referer, Host, Hora, Data, Sessão, Acesso e Página e, a partir
destas, gerou-se a tabela de “cliques” (FatoClick), contendo tuplas com chaves referentes a todas as
tabelas geradas anteriormente. Cada registro de FatoClick representava um único “clique” de um
determinado internauta.
Para que a ferramenta WEKA pudesse ser utilizada, foram escolhidos os atributos
relativos a período, página do web site e tipo de internauta, que assumiriam valores com estados
fixos. No caso do atributo Página, pelo fato do web site conter uma grande quantidade de páginas,
optou-se por escolher alguns serviços e seções do web site considerados os mais importantes para
uma avaliação do acesso por período e por tipo de internauta. Em relação ao tipo de internauta,
resolveu-se analisar o acesso ao web site por clientes do provedor e não-clientes, estes últimos
denominados visitantes. Para descobrir se determinado internauta era cliente ou não, foi feita uma
análise do seu número de IP registrado nos logs.
No SQL Server, foi gerada uma tabela CliquesTeste a partir das tabelas FatoClick,
Cliente, Página e Hora, contendo os atributos escolhidos (Período, Tipo de Internauta e Página). O
passo a seguir foi converter CliquesTeste do formato SQL Server para um arquivo no formato Excel
e, em seguida, convertê-lo novamente para o formato CSV, que é um formato de arquivo texto onde
os atributos são separados por vírgulas. O arquivo de extensão CSV foi renomeado para a extensão
ARFF e editado para a inclusão das cláusulas de relacionamento e definição de atributos. Como,
nesta fase do projeto, optou-se por utilizar a ferramenta WEKA para extração das regras, o trabalho
de pré-processamento foi acentuado.
3
Por restrições de espaço, não foi possível desenvolver um detalhamento maior dos dados utilizados no processo.
Qualquer informação extra sobre este trabalho, pode ser obtida com o primeiro autor deste trabalho, via e-mail.
4.4 Mineração dos Dados
O arquivo ARFF, devidamente preparado, foi carregado no WEKA, para iniciar a
mineração de dados e verificar a correlação dos atributos período, página e tipo de internauta.
Ao carregar o arquivo ARFF, o WEKA constatou a ocorrência de 7242 tuplas. A seguir,
aplicou-se sobre os dados o algoritmo Apriori e, dessa forma, obteve-se um conjunto de regras de
associação para os dados, conforme Figura 2.
suporte
1. Periodo=Noite 1986 ==> TipoInternauta=cliente 1270
conf:(0.64)
2. Periodo=Tarde TipoInternauta=visitante 1579 ==> Pagina=Busca 991
conf:(0.63)
3. Periodo=Noite 1986 ==> Pagina=Busca 1228
conf:(0.62)
4. TipoInternauta=visitante 3385 ==> Pagina=Busca 2012
conf:(0.59)
5. Periodo=Tarde 3020 ==> Pagina=Busca 1759
conf:(0.58)
6. Pagina=Webmail 1467 ==> TipoInternauta=cliente 830
conf:(0.57)
7. Periodo=Tarde Pagina=Busca 1759 ==> TipoInternauta=visitante 991
conf:(0.56)
8. TipoInternauta=cliente 3857 ==> Pagina=Busca 2045
conf:(0.53)
9. Periodo=Manha 1851 ==> TipoInternauta=visitante 969
conf:(0.52)
10. Periodo=Tarde 3020 ==> TipoInternauta=visitante 1579
conf:(0.52)
11. Pagina=Busca 4057 ==> TipoInternauta=cliente 2045
conf:(0.5)
12. Pagina=Busca 4057 ==> TipoInternauta=visitante 2012
conf:(0.5)
13. Pagina=Busca TipoInternauta=visitante 2012 ==> Periodo=Tarde 991
conf:(0.49)
14. Periodo=Tarde 3020 ==> TipoInternauta=cliente 1441
conf:(0.48)
15. Periodo=Manha 1851 ==> TipoInternauta=cliente 882
conf:(0.48)
16. TipoInternauta=visitante 3385 ==> Periodo=Tarde 1579
conf:(0.47)
17. Periodo=Manha 1851 ==> Pagina=Busca 851
conf:(0.46)
18. Pagina=Busca 4057 ==> Periodo=Tarde 1759
conf:(0.43)
19. TipoInternauta=cliente 3857 ==> Periodo=Tarde 1441
conf:(0.37)
20. TipoInternauta=cliente 3857 ==> Periodo=Noite 1270
conf:(0.33)
21. Periodo=Tarde 3020 ==> Pagina=Busca TipoInternauta=visitante 991
conf:(0.33)
22. Pagina=Busca 4057 ==> Periodo=Noite 1228
conf:(0.3)
23. TipoInternauta=visitante 3385 ==> Periodo=Tarde Pagina=Busca 991
conf:(0.29)
24. TipoInternauta=visitante 3385 ==> Periodo=Manha 969
conf:(0.29)
25. Pagina=Busca 4057 ==> Periodo=Tarde TipoInternauta=visitante 991
conf:(0.24)
26. TipoInternauta=cliente 3857 ==> Periodo=Manha 882
conf:(0.23)
27. TipoInternauta=cliente 3857 ==> Pagina=Webmail 830
conf:(0.22)
28. Pagina=Busca 4057 ==> Periodo=Manha 851
conf:(0.21)
Figura 2 – Regras obtidas com a aplicação do algoritmo Apriori
Com valores de suporte e de confiança padrões da ferramenta não foram geradas regras, o
que significa que os valores de suporte e confiança estavam muito altos para o universo dos dados
em análise. Segundo (DUNHAM, 2002), é prática comum estabelecer valores de suporte mais
baixos, já que o suporte representa o número de ocorrências em um subconjunto de dados e, quando
seu valor é alto, pode-se obter regras muito triviais, não possibilitando a aquisição de novos
conhecimentos. Além disso, o suporte é estabelecido de acordo com as regras de negócio e pela
natureza do domínio da aplicação. A confiança teve seu valor reduzido até um valor considerado
aceitável pelo especialista do domínio e que não comprometesse a validade do experimento.
4.5 Análise dos Resultados Obtidos
Considerando-se a mineração de dados realizada sobre os dados de acessos ao web site
registrados no período analisado e tendo como atributos de análise o período, tipo de internauta e
páginas acessadas, a aplicação do algoritmo Apriori, por meio da ferramenta WEKA, permitiu
extrair várias regras de associação. Levando-se em conta as regras que obtiveram pelo menos um
mínimo de 50% de confiança (ver Figura 2), pode-se observar que:
•
A regra 1 indica que há uma tendência de que os internautas que acessam o web site
da empresa no período da noite seja de clientes com um fator de confiança de 64%.
•
As regras 3 e 5 indicam que há uma tendência dos internautas acessarem a página de
busca do web site com mais freqüência nos períodos da tarde e da noite.
•
A regra 6 indica que o webmail foi mais acessado por clientes conectados pelo
provedor, já que o fato do webmail ser acessado por visitantes (regra 27) implica que
nem todos os clientes estavam conectados pelo provedor ao acessá-lo.
•
As regras como um todo indicam que nos períodos da manhã e tarde, os acessos mais
registrados foram de visitantes, com uma pequena diferença para acessos de clientes.
Ao se observar a quantidade e os tipos de regras de associação geradas, verifica-se que,
para se obter outras tendências significativas de comportamento dos usuários quanto a sua
navegação pelo web site, haveria a necessidade de efetuar uma análise sobre logs de acesso
correspondentes a um período maior de tempo. Contudo, os arquivos de logs tendem a ser
demasiadamente grandes, e o processo de limpeza e preparo dos dados requer um hardware mais
robusto para que não haja perda de desempenho na execução das etapas de preparação e mineração
de dados.
5. Conclusões e Trabalhos Futuros
Este estudo, ainda que preliminar, demonstrou como uma ferramenta de Mineração de
Dados pode ser poderosa no apoio ao processo de tomada de decisões, com a extração de
conhecimento útil tendo por base os dados provenientes de arquivos de logs de acesso a servidores
Web. Ao ter conhecimento da freqüência com que determinadas seções do web site são acessadas e
quais são os serviços mais procurados, a gerência da empresa pôde descobrir o perfil de seus
usuários e, com base nisso, ofertar serviços e atendimento personalizado.
A utilização de regras de associação para o desenvolvimento do estudo foi motivada por
estas serem aplicadas freqüentemente, segundo a literatura pesquisada, na descoberta e
representação de padrões freqüentes em conjuntos de dados, o que propiciou a identificação de
padrões de comportamento de internautas ao navegarem pelo web site da empresa.
Uma extensão deste trabalho é a realização de análises dos logs gerados durante um
período maior de tempo fazendo uso de processamento paralelo para a execução do processo, o que
melhoraria o desempenho nas fases de preparação e limpeza dos dados. Com isso podem ser obtidas
mais regras com a descrição de novas tendências de comportamento dos internautas. Além disso,
outras ferramentas de mineração podem ser aplicadas, visando aumentar a flexibilidade de
manipulação dos atributos específicos para o ambiente Web.
Outra sugestão de trabalho é a de se fazer um estudo, levando-se em conta os dados
obtidos nos logs de acesso associados às bases do sistema de gerenciamento de usuários da
empresa. Dessa forma, é possível extrair informações mais úteis que auxiliem na definição de
estratégias para melhorar o atendimento prestado aos clientes.
Vislumbra-se também que, a aplicação contínua desta ferramenta, em janelas de tempo
pequenas (como uma semana), pode fornecer informações interessantes sobre o padrão de
comportamento temporal dos usuários do site. Com uma técnica de previsão de séries temporais,
por exemplo, tem-se a possibilidade de obter informações suficientes para a utilização em
planejamentos estratégicos. Um estudo em relação a esta questão está sob investigação.
Referências Bibliográficas
AGRAWAL, R.; SRIKANT, R.; 1994. Fast Algorithms for Mining Association Rules. In
PROCEEDINGS OF THE 20TH INTERNATIONAL CONFERENCE ON VERY LARGE
DATABASES (1994: Santiago, Chile).
AMARAL, F. C. N.; 2001. Data Mining – Técnicas e Aplicações para o Marketing Direto. 1. ed.
São Paulo - SP : Berkeley.
BRUSSO, M. J.; NAVAUX, P. O. A.; GEYER, C. F. R.; 2001. Um modelo para a Mineração de
Regras de Associação Aplicado ao Uso da Web. In ENCONTRO NACIONAL DE
INTELIGÊNCIA ARTIFICIAL (2001: Fortaleza – CE). Anais do XXI Congresso da
Sociedade Brasileira de Computação. v.1. p.210.
BRUSSO, M. J.; 2000. Access Miner: Uma Proposta para Extração de Regras de Associação
Aplicada à Mineração do Uso da Web. Porto Alegre. Dissertação (Mestrado em Ciência da
Computação) – Instituto de Informática, Universidade Federal do Rio Grande do Sul.
COLLAZOS L., K.; BARRETO, J. M.; PELLEGRINI, G. F.; 2000. Análise do Prontuário Médico
para a Utilização com KDD. In CONGRESSO BRASILEIRO DE INFORMÁTICA EM
SAÚDE – CBIS’2000 (7.: Out. 2000: São Paulo – SP). Anais.
DUNHAM, M. H.; 2002. Data Mining Introductory and Advanced Topics. 1. ed. USA: Prentice
Hall.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; 1996b. The KDD Process for Extracting
Useful Knowledge from Volumes of Data. Communications of the ACM, USA, v. 39, n. 11
(Nov.), p. 27-34.
FLORESCU, D. ; LEVY, A. ; MENDELZON, A.; 1998. Database Techniques for the World-Wide
Web: A Survey. In SIGMOD Record, 27(3), p. 59-74.
FREITAS, O. G.; et al.; 2001. Sistema de Apoio à Decisão usando a Tecnologia Data Mining com
Estudo de Caso da Universidade Estadual de Maringá. In I CONGRESSO BRASILEIRO DE
COMPUTAÇÃO – CBComp 2001. Anais.
GSI, Grupo de Sistemas Inteligentes. Introdução à Mineração de Dados. Departamento de
Informática,
Universidade
Estadual
de
Maringá.
http://www.din.uem.br/ia/
mineracao/introducao/introducao.html. Consultado na INTERNET em 10 de nov. 2002.
KIMBALL, R.; MERZ, R.; 2000. Data Webhouse – Construindo o Data Warehouse para a Web. 1.
ed. Rio de Janeiro - RJ: Campus.
MACHADO, L. S.; 2001. Um Estudo das Aplicações da Mineração de Dados Web. Trabalho de
pesquisa (Mestrado em Ciência da Computação) – Faculdade de Informática, Pontifícia
Universidade Católica do Rio Grande do Sul.
NAVEGA, S. ; 2002. Princípios Essenciais do Data Mining. In INFOIMAGEM 2002, CENADEM
(Nov. 2002: São Paulo – SP). Anais.
REATEGUI, E.; 2002. Data Mining e Personalização Dinâmica. In ESCOLA DE INFORMÁTICA
DA SBC-SUL (Caxias do Sul/RS, Criciúma/SC e Cascavel/PR). Anais. p.139-165.
SILVA, M. P.; 2003. Uso de KDD para Análise de Logs da Web. Monografia (Especialização em
Ciência da Computação), – Universidade Estadual do Oeste do Paraná.
SWEIGER, M.; et al; 2002. Clickstream Data Warehousing. 1. ed. USA: Wiley.
TERRA, E. L.; BECKER, K.; GHEDINI, C.; 1999. Uso de KDD para Análise do Impacto de
Revisões Curriculares. In CONFERÊNCIA LATINO AMERICANA DE INFORMÁTICA
(XXV.: 1999: Assunção, Paraguai). Anais.
WITTEN, I. H.; FRANK, E.; 2000. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. USA: Morgan Kaufmann Publishers.
Download