ANÁLISE DE LOGS DA WEB POR MEIO DE TÉCNICAS DE DATA MINING Mabel Pereira da Silva UNIOESTE – Universidade Estadual do Oeste do Paraná Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546 e-mail: [email protected] Clodis Boscarioli UNIOESTE – Universidade Estadual do Oeste do Paraná Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546 e-mail: [email protected] Sarajane Marques Peres UNIOESTE – Universidade Estadual do Oeste do Paraná Rua Universitária, 2069 – Bairro Faculdade – Cascavel – PR CEP: 85819-110 – Fone: (045) 220-3159 – Fax: (045) 326-3546 e-mail: [email protected] Resumo A crescente informatização dos meios produtivos vem possibilitando um aumento considerável do volume de dados nas organizações. Manipular esses dados e, a partir deles, extrair informações que auxiliem nos processos decisórios, é cada vez mais indispensável para as empresas que desejam manter-se no mercado de maneira competitiva. Concomitantemente, o crescimento exponencial da Internet e o acesso aos seus recursos vêm atingindo mais pessoas a cada dia, fazendo com que muitas organizações invistam e exponham seus produtos e serviços na rede mundial com a intenção de gerar mais negócios e aumentar sua rentabilidade. Este artigo descreve um estudo sobre o uso de Data Mining (mineração de dados) em um ambiente Web. Técnicas de processo de descoberta de conhecimento foram aplicadas com o intuito de investigar a relevância das informações obtidas por meio da análise dos padrões de navegação de usuários em web sites de uma empresa provedora de acesso à Internet, descritos em arquivos de log de um servidor Web. A partir disto, medidas foram sugeridas para um melhor aproveitamento e eficácia do processo. Palavras-chave: Descoberta de Conhecimento, Personalização, Data Mining. 1. Introdução Cada vez mais a informação tem-se tornado fator fundamental para as organizações que desejam se manter no mercado de forma competitiva e inovadora. Aqueles que detêm informações sobre seus negócios podem utilizá-las para determinar o perfil e preferências de seus clientes, definir estratégias de marketing e reduzir riscos ao ingressar em novas áreas de negócios. O acesso às informações relevantes de uma organização se torna imprescindível para que os dirigentes possam decidir a melhor maneira de direcionar os negócios e fazer com que a organização atinja seus objetivos mercadológicos. Entretanto, essas informações normalmente não são fáceis de serem conseguidas. A dificuldade em obter conhecimento útil de grandes volumes de dados faz com que haja a necessidade de se ter meios para o devido tratamento e extração de informações que possam vir a ter utilidade para uma organização. Essa necessidade vem fazendo com que técnicas e ferramentas sejam criadas e aprimoradas com o intuito de facilitar essa tarefa. No ambiente Web, a extração de informações relevantes de padrões de navegação que descrevam o comportamento dos clientes ao navegar nos web sites de uma organização pode vir a ser potencialmente útil para a personalização dos serviços oferecidos a seus clientes, melhorando o atendimento e propiciando a fidelização destes clientes. Este artigo descreve um estudo que tem por finalidade investigar o uso e aplicabilidade de um processo de descoberta de conhecimento em banco de dados na obtenção de informações em uma base de dados composta de arquivos de logs em servidores Web gerados pelos acessos de internautas ao web site de uma empresa e está organizado da seguinte forma: A Seção 2 traz os conceitos principais sobre o processo de descoberta de conhecimento em banco de dados; A Seção 3 introduz mineração de dados na Web; O estudo de caso realizado está descrito na Seção 4 e, finalmente, na Seção 5 estão descritas as conclusões e propostas de trabalhos futuros. 2. KDD (Knowledge Discovery in Databases) KDD (Knowledge Discovery in Databases) – ou de Descoberta de Conhecimento em Bases de Dados, é o ramo da computação que utiliza ferramentas e técnicas computacionais com a finalidade de sistematizar o processo de extração de conhecimento útil de grandes volumes de dados. Essa extração se baseia essencialmente na detecção e descrição de padrões nos dados analisados de um domínio. Figura 1 - Etapas do processo de KDD (FAYYAD et al, 1996) Como ilustrado na Figura 1, o KDD envolve duas grandes áreas de atividades com objetivos e metas bem definidas: Preparação de Dados e Mineração de Dados. A Preparação de Dados diz respeito ao entendimento da área de aplicação e da definição do conjunto de dados a serem submetidos à mineração e é composto das seguintes etapas1: • Definição do objetivo do problema; • Criação de um conjunto de dados; • Limpeza e pré-processamento dos dados; • Redução e projeção de dados. A Mineração de Dados (ou Data Mining) é a área específica do KDD que trata das técnicas e algoritmos utilizados na detecção dos padrões de dados. As etapas a seguir são abordadas nesta fase: • Escolha das tarefas de mineração de dados; • Escolha dos algoritmos de mineração de dados; • Mineração de dados; • Interpretação de padrões de exploração; • Consolidação do conhecimento descoberto. No contexto deste trabalho, a tarefa de mineração de dados foi enfocada por descoberta de regras de associação. O algoritmo mais usado na implementação de regras de associação é o algoritmo Apriori2 (AGRAWAL et al., 1994), que faz uma varredura no conjunto de dados procurando por subconjuntos que tenham relacionamentos que sejam freqüentes. Mais especificamente, utilizou-se o algoritmo Apriori, o qual é brevemente comentado nas Seção 2.1. A escolha deste algoritmo deveu-se à sua constante utilização em trabalhos realizados nesta área , como por exemplo, os descritos em (TERRA et al., 2000), (COLLAZOS et al., 2000), (BRUSSO et. al, 2001), (BRUSSO, 2002), (REATEGUI, E.; 2002 ), e por este adequar-se ao domínio de aplicação estudado. 1 2 Detalhamento sobre as etapas de preparação e mineração de dados podem ser encontrados em (FAYYAD et al, 1996). Detalhes sobre o algoritmo Apriori podem ser encontrados em (AGRAWAL et al., 1994). Regras de associação podem ser utilizadas em Web Mining com o intuito de descobrir um padrão de navegação de determinados usuários como, por exemplo, quais as páginas ou conjunto de páginas que um certo usuário mais visita ou quais os serviços do site que ele mais acessa. 2.1 Regras de Associação Regras de associação é uma técnica de mineração de dados utilizada para encontrar relacionamentos ou padrões freqüentes em conjuntos de dados. Um algoritmo que implementa essa técnica procura identificar relações entre os itens de um conjunto de dados, que são descritas em forma de regras do tipo “Se X então Y”, ou “X → Y”, onde X e Y são conjuntos de itens e X ∩ Y = ∅ (AGRAWAL et al., 1994; BRUSSO, 2000; FREITAS et al., 2001). O objetivo de um algoritmo para descoberta de regras de associação é identificar todas aquelas que tenham suporte (Sup) e confiança (Conf) maiores do que os valores mínimos estipulados, onde o suporte é um número mínimo de ocorrências e a confiança é o percentual das transações que satisfazem X e Y (FREITAS et al, 2001). Assim, Sup ≥ Supmínimo e Conf ≥ Confmínima devem ser satisfeitos. Na regra X → Y, o suporte é dado por sup (XY) e a confiança é dada por sup (XY) / sup (X) (AGRAWAL, 1996 apud BRUSSO, 2000). O algoritmo Apriori faz a mineração de dados em duas etapas (FREITAS et al., 2001): ♦ Geração: faz-se uma varredura na base de dados com o intuito de gerar todos os conjuntos de possíveis combinações de campos das colunas que tenham uma freqüência superior ao suporte mínimo estipulado. ♦ Poda: considera-se somente os conjuntos que possuam o grau de confiança mínimo e descartam-se os demais. Ao executar as diversas varreduras na base de dados, o algoritmo gera primeiramente um conjunto de itens “candidatos” e, em seguida, verifica se os “candidatos” satisfazem o suporte mínimo estipulado. Um exemplo prático da aplicação da regra seria constatar que, em um determinado conjunto de dados, N% dos registros em que constam os atributos A e B, constam também o atributo C. A porcentagem de ocorrência expressa em N% representa o fator de confiança da regra e é utilizado para eliminar tendências fracas e manter as regras que descrevem as tendências mais fortes. 3. Mineração de Dados na Web Desde que foi criada, a Web vem transformando os conceitos de manipulação de informação de maneira revolucionária e atingindo, sobretudo, as empresas e seus negócios. Para muitas organizações, estar conectada à Internet significa competir e manter-se no mercado. Por outro lado, a disseminação do uso da Internet vem modificando o modo como pessoas e organizações interagem. Essa interação fez surgir uma forma de tratamento especial às pessoas, pois cada usuário da Internet pode vir a ser um cliente em potencial, considerando-se que as organizações cada vez mais expõem e comercializam seus produtos e serviços na Web. Projetar web sites e servidores de acesso à Web se tornam tarefas mais complexas à medida que pretende-se extrair destes, dados para posteriormente descobrir informações úteis para a organização. Portanto, faz-se necessário o uso de técnicas e ferramentas adequadas, para que se possa extrair e analisar os dados que descrevem o comportamento dos usuários ao visitar web sites e, com isso, obter informações que auxiliem na identificação do perfil dos usuários, a fim de que possam vir a se tornar clientes, bem como garantir a fidelização dos clientes que acessam o web site. A Mineração de Dados na Web é a aplicação das técnicas de Mineração de Dados no ambiente Web. É utilizada para extrair conhecimento útil do conteúdo disponibilizado na Web, da estrutura dos web sites ou dos dados relativos à navegação dos usuários. As técnicas e algoritmos aplicados são os mesmos da mineração convencional. O Quadro 1 (FLORESCU et al., 1998) apresenta as principais categorias e fontes de dados provenientes da Web, bem como os métodos para a extração desses dados. Quadro 1 - Quadro demonstrativo de Web Mining Visão de Dados - Dados Principais - Representa- ção - Mineração na Web Mineração do Conteúdo da Web Mineração da Estrutura da Recuperação de Base de Dados Web Informação - Estruturas de Não estruturados - SemiSemiestruturados links - Site Web com estruturados BD Documentos de - Documentos de - Estruturas de textos hipertexto links Documentos de hipertexto - Grafos (OEM) - Grafos Conjunto de palavras, frases, - Relacional termos Conceitos ou Mineração do Uso da Web - Interatividade - Registros de servidor Registro de browser Tabela relacional Grafos - - Método - Categorias de Aplicação - ontologias Relacional Heurísticas TFIDF e variantes Aprendizagem automática Estatística Categorização Segmentação Extração de regras Padrões encontrados nos textos - - - Algoritmos proprietários Regras de Associação modificadas - Encontrar subestruturas freqüentes Descobrir esquemas de sites Web - Algoritmos proprietários - Categorização Segmentação - Aprendizagem automática Estatísticas, Regras de Associação modificadas Construção, adaptação e gerência de sites Marketing Modelos de usuários Fonte: Adaptado de (FLORESCU et al., 1998) 4. Estudo de Caso Para o estudo de caso foram considerados os logs de acesso ao web site de um provedor de internet. Pretendeu-se demonstrar a aplicabilidade de técnicas de KDD para a identificação do comportamento dos internautas ao acessar os serviços oferecidos pelo web site para com isso, possibilitar a personalização dos serviços, produtos e atendimento oferecidos aos clientes. A empresa escolhida, um provedor de acesso à Internet, tem necessidade de obter informações objetivas, que auxiliem no processo de tomada de decisões, direcionando os investimentos de acordo com a demanda e o perfil de sua clientela. A falta de informações faz com que oportunidades de negócios sejam desperdiçadas e que o atendimento ao cliente tenha falhas em aspectos como, por exemplo, dificuldades em oferecer serviços de acordo com as reais necessidades e preferências de seus clientes. Foi realizada a mineração em dados aplicáveis ao ambiente Web e analisou-se sua eficácia na identificação de comportamentos, tendências e relacionamentos entre os dados. Com isso, pretendeu-se extrair informações úteis sobre o perfil dos usuários que navegam no web site da empresa, tais como páginas e serviços do web site mais acessados e horários de maior acesso ao web site. O processo de mineração foi modelado e executado seguindo as fases descritas nas subseções seguintes (SILVA, 2003). 4.1 Definição de Requisitos Antes de iniciar o processo de descoberta de conhecimento no ambiente em estudo, alguns requisitos tiveram que ser atendidos para que o web site da empresa pudesse fornecer informações quanto à sua utilização. Foi utilizado o mecanismo de cookie para gerar um identificador (ID) para cada usuário que visitasse o web site, independentemente dele ser cliente ou não da empresa. Ao acessar o web site, o internauta receberia um cookie em sua máquina com um ID que o identificaria de maneira única nos logs de acesso do servidor. O valor armazenado no cookie seria gravado nos arquivos de log, após configuração prévia feita no gerenciador do servidor Web. Além de configurar o servidor Web para que fosse registrado nos logs o conteúdo dos cookies, houve a necessidade de configurar o armazenamento de variáveis como o referer, por exemplo, que indicaria de que web site o internauta estaria vindo (caso houvesse) ao entrar no web site da empresa. Essa informação é particularmente interessante para analisar a eficiência de banners de propaganda da empresa, exibidos em outros web sites. Como parte do web site da empresa se encontrava hospedado em outro servidor Web de arquitetura distinta do servidor principal, foi utilizado um mecanismo para que os acessos feitos ao servidor Web secundário fossem registrados nos arquivos de log do servidor Web principal. O mecanismo utilizado foi o uso de strings de consulta implementadas no código das páginas hospedadas no servidor Web secundário que, ao serem solicitadas pelo internauta, ativavam a execução do código gerador do ID hospedado no servidor Web principal e, conseqüentemente, a gravação destes acessos nos arquivos de log. Outro requisito observado foi a sincronização dos dois servidores Web, problema resolvido com a implantação de um servidor de sincronização (Servidor NTP – Network Time Protocol). 4.2 Definição dos Dados para Análise Foram utilizados os logs de acesso semanal para obter um padrão de comportamento dos internautas. Optou-se por este intervalo de tempo devido à grande quantidade de entradas nos arquivos de log, já que haveria um aumento de tempo na execução do processo caso o intervalo de tempo considerado fosse maior, o que não seria viável em relação à capacidade de processamento do hardware disponível. Para efetuar a análise dos dados, foi escolhida a ferramenta WEKA (Waikato Environment for Knwoledge Analysis), desenvolvida pela Universidade de Waikato, Nova Zelândia. O WEKA, descrito em (WITTEN & FRANK, 2000), é um pacote implementado em Java, segundo o paradigma de orientação a objetos, e é composto de uma série de algoritmos de aprendizagem para solucionar problemas de Mineração de Dados. Para a realização deste estudo, foi utilizado o algoritmo Apriori, implementado pela ferramenta e que faz uso de regras de associação. 4.3 Preparação dos Dados Primeiramente os arquivos de logs foram convertidos do formato de texto para tabelas do Microsoft SQL Server® para que pudessem ser processados de maneira estruturada. A conversão resultou num total de sete tabelas, cada uma referindo-se a um dia da semana. Com os logs convertidos em tabelas do SQL Server, aplicou-se scripts implementados em ASP (Active Server Page), para limpeza e tratamento dos dados, a fim de eliminar inconsistências e registros de objetos que não se referissem a páginas do web site (como arquivos gif, jpg, swf, css, irrelevantes para a análise), além da conversão do formato de alguns dados (como datas, por exemplo) para formatos que pudessem ser manipulados. Para obter dados referentes aos “cliques” dos usuários no web site, foram criadas várias tabelas3 a partir dos logs. Por meio de scripts em ASP, estas foram geradas, de forma independente, com os dados relativos a Cliente, Referer, Host, Hora, Data, Sessão, Acesso e Página e, a partir destas, gerou-se a tabela de “cliques” (FatoClick), contendo tuplas com chaves referentes a todas as tabelas geradas anteriormente. Cada registro de FatoClick representava um único “clique” de um determinado internauta. Para que a ferramenta WEKA pudesse ser utilizada, foram escolhidos os atributos relativos a período, página do web site e tipo de internauta, que assumiriam valores com estados fixos. No caso do atributo Página, pelo fato do web site conter uma grande quantidade de páginas, optou-se por escolher alguns serviços e seções do web site considerados os mais importantes para uma avaliação do acesso por período e por tipo de internauta. Em relação ao tipo de internauta, resolveu-se analisar o acesso ao web site por clientes do provedor e não-clientes, estes últimos denominados visitantes. Para descobrir se determinado internauta era cliente ou não, foi feita uma análise do seu número de IP registrado nos logs. No SQL Server, foi gerada uma tabela CliquesTeste a partir das tabelas FatoClick, Cliente, Página e Hora, contendo os atributos escolhidos (Período, Tipo de Internauta e Página). O passo a seguir foi converter CliquesTeste do formato SQL Server para um arquivo no formato Excel e, em seguida, convertê-lo novamente para o formato CSV, que é um formato de arquivo texto onde os atributos são separados por vírgulas. O arquivo de extensão CSV foi renomeado para a extensão ARFF e editado para a inclusão das cláusulas de relacionamento e definição de atributos. Como, nesta fase do projeto, optou-se por utilizar a ferramenta WEKA para extração das regras, o trabalho de pré-processamento foi acentuado. 3 Por restrições de espaço, não foi possível desenvolver um detalhamento maior dos dados utilizados no processo. Qualquer informação extra sobre este trabalho, pode ser obtida com o primeiro autor deste trabalho, via e-mail. 4.4 Mineração dos Dados O arquivo ARFF, devidamente preparado, foi carregado no WEKA, para iniciar a mineração de dados e verificar a correlação dos atributos período, página e tipo de internauta. Ao carregar o arquivo ARFF, o WEKA constatou a ocorrência de 7242 tuplas. A seguir, aplicou-se sobre os dados o algoritmo Apriori e, dessa forma, obteve-se um conjunto de regras de associação para os dados, conforme Figura 2. suporte 1. Periodo=Noite 1986 ==> TipoInternauta=cliente 1270 conf:(0.64) 2. Periodo=Tarde TipoInternauta=visitante 1579 ==> Pagina=Busca 991 conf:(0.63) 3. Periodo=Noite 1986 ==> Pagina=Busca 1228 conf:(0.62) 4. TipoInternauta=visitante 3385 ==> Pagina=Busca 2012 conf:(0.59) 5. Periodo=Tarde 3020 ==> Pagina=Busca 1759 conf:(0.58) 6. Pagina=Webmail 1467 ==> TipoInternauta=cliente 830 conf:(0.57) 7. Periodo=Tarde Pagina=Busca 1759 ==> TipoInternauta=visitante 991 conf:(0.56) 8. TipoInternauta=cliente 3857 ==> Pagina=Busca 2045 conf:(0.53) 9. Periodo=Manha 1851 ==> TipoInternauta=visitante 969 conf:(0.52) 10. Periodo=Tarde 3020 ==> TipoInternauta=visitante 1579 conf:(0.52) 11. Pagina=Busca 4057 ==> TipoInternauta=cliente 2045 conf:(0.5) 12. Pagina=Busca 4057 ==> TipoInternauta=visitante 2012 conf:(0.5) 13. Pagina=Busca TipoInternauta=visitante 2012 ==> Periodo=Tarde 991 conf:(0.49) 14. Periodo=Tarde 3020 ==> TipoInternauta=cliente 1441 conf:(0.48) 15. Periodo=Manha 1851 ==> TipoInternauta=cliente 882 conf:(0.48) 16. TipoInternauta=visitante 3385 ==> Periodo=Tarde 1579 conf:(0.47) 17. Periodo=Manha 1851 ==> Pagina=Busca 851 conf:(0.46) 18. Pagina=Busca 4057 ==> Periodo=Tarde 1759 conf:(0.43) 19. TipoInternauta=cliente 3857 ==> Periodo=Tarde 1441 conf:(0.37) 20. TipoInternauta=cliente 3857 ==> Periodo=Noite 1270 conf:(0.33) 21. Periodo=Tarde 3020 ==> Pagina=Busca TipoInternauta=visitante 991 conf:(0.33) 22. Pagina=Busca 4057 ==> Periodo=Noite 1228 conf:(0.3) 23. TipoInternauta=visitante 3385 ==> Periodo=Tarde Pagina=Busca 991 conf:(0.29) 24. TipoInternauta=visitante 3385 ==> Periodo=Manha 969 conf:(0.29) 25. Pagina=Busca 4057 ==> Periodo=Tarde TipoInternauta=visitante 991 conf:(0.24) 26. TipoInternauta=cliente 3857 ==> Periodo=Manha 882 conf:(0.23) 27. TipoInternauta=cliente 3857 ==> Pagina=Webmail 830 conf:(0.22) 28. Pagina=Busca 4057 ==> Periodo=Manha 851 conf:(0.21) Figura 2 – Regras obtidas com a aplicação do algoritmo Apriori Com valores de suporte e de confiança padrões da ferramenta não foram geradas regras, o que significa que os valores de suporte e confiança estavam muito altos para o universo dos dados em análise. Segundo (DUNHAM, 2002), é prática comum estabelecer valores de suporte mais baixos, já que o suporte representa o número de ocorrências em um subconjunto de dados e, quando seu valor é alto, pode-se obter regras muito triviais, não possibilitando a aquisição de novos conhecimentos. Além disso, o suporte é estabelecido de acordo com as regras de negócio e pela natureza do domínio da aplicação. A confiança teve seu valor reduzido até um valor considerado aceitável pelo especialista do domínio e que não comprometesse a validade do experimento. 4.5 Análise dos Resultados Obtidos Considerando-se a mineração de dados realizada sobre os dados de acessos ao web site registrados no período analisado e tendo como atributos de análise o período, tipo de internauta e páginas acessadas, a aplicação do algoritmo Apriori, por meio da ferramenta WEKA, permitiu extrair várias regras de associação. Levando-se em conta as regras que obtiveram pelo menos um mínimo de 50% de confiança (ver Figura 2), pode-se observar que: • A regra 1 indica que há uma tendência de que os internautas que acessam o web site da empresa no período da noite seja de clientes com um fator de confiança de 64%. • As regras 3 e 5 indicam que há uma tendência dos internautas acessarem a página de busca do web site com mais freqüência nos períodos da tarde e da noite. • A regra 6 indica que o webmail foi mais acessado por clientes conectados pelo provedor, já que o fato do webmail ser acessado por visitantes (regra 27) implica que nem todos os clientes estavam conectados pelo provedor ao acessá-lo. • As regras como um todo indicam que nos períodos da manhã e tarde, os acessos mais registrados foram de visitantes, com uma pequena diferença para acessos de clientes. Ao se observar a quantidade e os tipos de regras de associação geradas, verifica-se que, para se obter outras tendências significativas de comportamento dos usuários quanto a sua navegação pelo web site, haveria a necessidade de efetuar uma análise sobre logs de acesso correspondentes a um período maior de tempo. Contudo, os arquivos de logs tendem a ser demasiadamente grandes, e o processo de limpeza e preparo dos dados requer um hardware mais robusto para que não haja perda de desempenho na execução das etapas de preparação e mineração de dados. 5. Conclusões e Trabalhos Futuros Este estudo, ainda que preliminar, demonstrou como uma ferramenta de Mineração de Dados pode ser poderosa no apoio ao processo de tomada de decisões, com a extração de conhecimento útil tendo por base os dados provenientes de arquivos de logs de acesso a servidores Web. Ao ter conhecimento da freqüência com que determinadas seções do web site são acessadas e quais são os serviços mais procurados, a gerência da empresa pôde descobrir o perfil de seus usuários e, com base nisso, ofertar serviços e atendimento personalizado. A utilização de regras de associação para o desenvolvimento do estudo foi motivada por estas serem aplicadas freqüentemente, segundo a literatura pesquisada, na descoberta e representação de padrões freqüentes em conjuntos de dados, o que propiciou a identificação de padrões de comportamento de internautas ao navegarem pelo web site da empresa. Uma extensão deste trabalho é a realização de análises dos logs gerados durante um período maior de tempo fazendo uso de processamento paralelo para a execução do processo, o que melhoraria o desempenho nas fases de preparação e limpeza dos dados. Com isso podem ser obtidas mais regras com a descrição de novas tendências de comportamento dos internautas. Além disso, outras ferramentas de mineração podem ser aplicadas, visando aumentar a flexibilidade de manipulação dos atributos específicos para o ambiente Web. Outra sugestão de trabalho é a de se fazer um estudo, levando-se em conta os dados obtidos nos logs de acesso associados às bases do sistema de gerenciamento de usuários da empresa. Dessa forma, é possível extrair informações mais úteis que auxiliem na definição de estratégias para melhorar o atendimento prestado aos clientes. Vislumbra-se também que, a aplicação contínua desta ferramenta, em janelas de tempo pequenas (como uma semana), pode fornecer informações interessantes sobre o padrão de comportamento temporal dos usuários do site. Com uma técnica de previsão de séries temporais, por exemplo, tem-se a possibilidade de obter informações suficientes para a utilização em planejamentos estratégicos. Um estudo em relação a esta questão está sob investigação. Referências Bibliográficas AGRAWAL, R.; SRIKANT, R.; 1994. Fast Algorithms for Mining Association Rules. In PROCEEDINGS OF THE 20TH INTERNATIONAL CONFERENCE ON VERY LARGE DATABASES (1994: Santiago, Chile). AMARAL, F. C. N.; 2001. Data Mining – Técnicas e Aplicações para o Marketing Direto. 1. ed. São Paulo - SP : Berkeley. BRUSSO, M. J.; NAVAUX, P. O. A.; GEYER, C. F. R.; 2001. Um modelo para a Mineração de Regras de Associação Aplicado ao Uso da Web. In ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL (2001: Fortaleza – CE). Anais do XXI Congresso da Sociedade Brasileira de Computação. v.1. p.210. BRUSSO, M. J.; 2000. Access Miner: Uma Proposta para Extração de Regras de Associação Aplicada à Mineração do Uso da Web. Porto Alegre. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal do Rio Grande do Sul. COLLAZOS L., K.; BARRETO, J. M.; PELLEGRINI, G. F.; 2000. Análise do Prontuário Médico para a Utilização com KDD. In CONGRESSO BRASILEIRO DE INFORMÁTICA EM SAÚDE – CBIS’2000 (7.: Out. 2000: São Paulo – SP). Anais. DUNHAM, M. H.; 2002. Data Mining Introductory and Advanced Topics. 1. ed. USA: Prentice Hall. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; 1996b. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, USA, v. 39, n. 11 (Nov.), p. 27-34. FLORESCU, D. ; LEVY, A. ; MENDELZON, A.; 1998. Database Techniques for the World-Wide Web: A Survey. In SIGMOD Record, 27(3), p. 59-74. FREITAS, O. G.; et al.; 2001. Sistema de Apoio à Decisão usando a Tecnologia Data Mining com Estudo de Caso da Universidade Estadual de Maringá. In I CONGRESSO BRASILEIRO DE COMPUTAÇÃO – CBComp 2001. Anais. GSI, Grupo de Sistemas Inteligentes. Introdução à Mineração de Dados. Departamento de Informática, Universidade Estadual de Maringá. http://www.din.uem.br/ia/ mineracao/introducao/introducao.html. Consultado na INTERNET em 10 de nov. 2002. KIMBALL, R.; MERZ, R.; 2000. Data Webhouse – Construindo o Data Warehouse para a Web. 1. ed. Rio de Janeiro - RJ: Campus. MACHADO, L. S.; 2001. Um Estudo das Aplicações da Mineração de Dados Web. Trabalho de pesquisa (Mestrado em Ciência da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul. NAVEGA, S. ; 2002. Princípios Essenciais do Data Mining. In INFOIMAGEM 2002, CENADEM (Nov. 2002: São Paulo – SP). Anais. REATEGUI, E.; 2002. Data Mining e Personalização Dinâmica. In ESCOLA DE INFORMÁTICA DA SBC-SUL (Caxias do Sul/RS, Criciúma/SC e Cascavel/PR). Anais. p.139-165. SILVA, M. P.; 2003. Uso de KDD para Análise de Logs da Web. Monografia (Especialização em Ciência da Computação), – Universidade Estadual do Oeste do Paraná. SWEIGER, M.; et al; 2002. Clickstream Data Warehousing. 1. ed. USA: Wiley. TERRA, E. L.; BECKER, K.; GHEDINI, C.; 1999. Uso de KDD para Análise do Impacto de Revisões Curriculares. In CONFERÊNCIA LATINO AMERICANA DE INFORMÁTICA (XXV.: 1999: Assunção, Paraguai). Anais. WITTEN, I. H.; FRANK, E.; 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. USA: Morgan Kaufmann Publishers.