Web mining - Artigos.com

Web mining
Quintino Izidio S. Neto1, Ricardo Romão2, Bruno de Abreu Cárceres
1
Departamento de Ciência e Tecnologia
Ledes – Laboratório de Desenvolvimento de Software
Universidade Federal de Mato Grosso do Sul (UFMS) – Campo Grande , MS – Brasil
2
[email protected] , {ricardoromao.as,brunocarceres}@gmail.com
Abstract. With the explosive growth of the World Wide Web, it also brought the
necessity of automatized use processes for discovery of knowledge in the Web
documents and user´s models of the site. These factors, bring the needs to create, in
both side client/server, efficient systems that can effectively search this knowledge. Web
mining is a technique of mining data knowledge extraction in the Web, using Web
documents , Hyperlinks, Web sites “logs”, etc.
Resumo. Com o explosivo crescimento da World Wide Web, veio também a
necessidade da utilização de processos automatizados para descoberta de conhecimento
nos documentos Web e modelos de usuários do site. Esses fatores levam à necessidade
de criar, no lado cliente e no lado servidor, sistemas eficientes que podem efetivamente
minerar esse conhecimento. Web mining é uma técnica de mineração de dados para
extração de conhecimento de dados da Web, usando documentos da Web, Hyperlinks,
Logs de Web sites no servidor, etc.
1. Introdução
Mineração na Web mostra padrões de comportamento no uso da Web, para isso,
são aplicadas técnicas de Data Mining no conteúdo Web. A análise pode ser feita sobre
páginas visitadas, tempo gasto em cada uma, quais as mais freqüentadas, associações
entre páginas e padrões transversos (páginas não ligadas diretamente por Hyperlinks, e
sim por meio de outras páginas).
Estão sendo discutidas estratégias para analisar seqüências de páginas para
definir comportamento de usuários. Identificar certos tipos de usuários, comparar
padrões de compradores e não compradores, identificar diferenças entre usuários
visitantes rápidos, usuários investigadores e usuários compradores. O conhecimento
obtido com essa investigação pode servir para projetar páginas com o objetivo de
maximizar a eficiência de contato com o cliente.
Web Mining é freqüentemente associado com “Recuperação de Informação”,
mas na verdade trata-se de um processo mais amplo, interdisciplinar, envolvendo
técnicas de Recuperação de Informação, estatística, inteligência artificial e mineração de
dados.
Em geral, as tarefas principais de Web Mining são as seguintes:
•
Busca de documentos: consiste em se encontrar sites Web contendo documentos
especificados por palavras-chave. É o processo de se extrair dados a partir de
fontes de textos disponíveis na Internet, tais como conteúdos de textos de
documentos HTML obtidos removendo-se as tags HTML, textos extraídos de
grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas
de Recuperação de Informação.
•
Seleção e pré-processamento da informação: consiste em selecionar e préprocessar automaticamente informações obtidas na Internet. O préprocessamento envolve qualquer tipo de transformação da informação obtida na
busca, como, por exemplo, corte de textos, transformação da representação da
informação em outros formalismos.
•
Generalização: consiste em descobrir automaticamente padrões gerais em sites
Web ou entre vários sites Web. Esta tarefa envolve a utilização de técnicas de
inteligência artificial e de mineração de dados.
•
Análise: validação e interpretação dos padrões minerados.
2. As categorias de Web Mining
Web Mining normalmente é subdividido em três categorias principais, que constituem
as áreas de interesse onde minerar informação:
Web Content Mining ou Mineração do Conteúdo de Documentos na Web.
Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web.
Web Structure Mining ou Mineração da Estrutura de Documentos na Web.
Mineração
na Web
Mineração
do conteúdo
da Web
Mineração do
conteúdo da
página Web
Mineração da
estrutura da
Web
Mineração nos
resultados da
pesquisa
Mineração
do uso da
Web
Rastreamento
nos padrões
gerais de acesso
Estrutura da Web Mining
Rastreamento
de uso
customizado
2.1. Mineração do conteúdo da Web
Mineração de conteúdo da Web é o processo de extração do máximo de
informações do conteúdo de um documento Web. Conteúdo dos dados corresponde a
fatos que uma página Web foi designada para informar aos usuários. Isto pode consistir
de textos, imagens, áudio, vídeo ou registros estruturados, tais como, listas ou tabelas.
Text mining e suas aplicações para conteúdo da Web foram extensamente pesquisadas.
Algumas pesquisas foram direcionadas para Text Mining, que é a retirada de
conhecimento ocultos em textos da Web, descoberta de tópicos (topic discovery),
extração de modelos associados (extracting association patterns), agrupamento de
documentos da Web (custering of web documents) e classificação de páginas da Web
(classification of Web Pages).
Existem dois pontos de vista principais quando se fala de Mineração do
Conteúdo da Web: o ponto de vista da “Recuperação de Informação” (RI) e o ponto de
vista de “Banco de Dados” (BD).
O objetivo, sob o ponto de vista de RI, é auxiliar o usuário no processo de busca
ou filtragem de informação. É o que realiza os principais mecanismos de busca na
Internet ao procurar atender da melhor maneira possível as solicitações feitas por
usuários através de palavras-chave.
O objetivo, sob o ponto de vista de BD, é modelar os dados da Web e integrá-los
de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em
palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas
dos documentos na Web, construindo-se Web Warehouses ou uma base de
conhecimento de documentos. A pesquisa nesta área lida, sobretudo, com dados semiestruturados (XML). Dados semi-estruturados se referem a dados que possuem alguma
estrutura, mas não esquemas rígidos como é o caso dos bancos de dados.
Quando se trata em obter conhecimento de uma imagem, nesse campo de
processamento de imagem e visão computacional, aplicação da técnica de mineração de
conteúdo não é muito rápida.
Na mineração de dados na Web, os dados podem ser coletados:
• Do lado do servidor
• No lado do cliente
• No proxy dos servidores
• Banco de dados das organizações
Cada tipo de dado difere não só pela localização, mas também nos tipos de dados.
Existem vários tipos de dados que podem ser usados na mineração na Web:
Categorias de dados:
• Conteúdo:
Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender
ao usuário. Esta geralmente constitui-se de textos e gráficos.
• Estrutura:
Dados os quais descrevem a organização dos conteúdos. A estrutura interna das páginas
inclui o conjunto de tags HTML ou XML. A principal estrutura de informação entre
páginas se constitui nos hiperlinks que conectam uma página a outra.
• Uso:
Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas
acessadas e a data e hora de acesso.
• Perfil do usuário:
Constitui-se em dados que fornecem informações sobre usuários de um site Web.
Quanto às fontes que originam estes dados:
- Coleção no lado do servidor:
O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de
informações para a realização de mineração do uso da Web. Isto pode ser explicado pelo
fato destes arquivos apresentarem registros da navegação dos visitantes do site.
Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser
inteiramente confiáveis, por exemplo, as views de páginas (número de vezes que a
página foi requisitada, e não recarregada ou atualizada) não são gravadas no arquivo de
log do servidor.
- Coleção no lado do cliente:
As informações também podem ser coletadas do lado do cliente, esta coleta de
informações pode ser implementada usando programas remotos como os
implementados com a linguagem baseada em objetos – javascript ou com os applets da
linguagem orientada a objetos – Java. As implementações de applets podem ser uma
ótima solução para coleta de informações do lado do cliente, mas o overhead causado,
principalmente, na sua execução inicial pode causar uma inibição em seu uso como uma
solução. O uso do javascript aparentemente é uma melhor solução pelo fato de sua
interpretação exigir menor tempo, mas as implementações com javascript não podem
capturar todos os clicks que o usuário realiza.
- No proxy dos servidores
O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor
Web. O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web. A
atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis
para facilitar no momento de cópia, proporcionando que a realização desta atividade
seja feita de forma mais rápida. Através deste tipo de informação é possível identificar
as páginas mais requisitadas por um grupo de usuários anônimos.
2.2. Mineração da Estrutura de Documentos na Web
A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo
subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks.
Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar
informações tais como a similaridade ou relacionamentos entre diferentes sites Web.
Esta categoria de mineração na Web pode ser utilizada para se descobrir, por exemplo,
os sites de autoridade (authority sites), isto é, sites cujos links aparecem freqüentemente
em outros sites.
É bom ressaltar que a distinção entre estas três categorias não é totalmente clara,
isto é, uma das categorias (por exemplo, Mineração do Conteúdo) pode utilizar links
(objeto principal da Mineração de Estrutura) e mesmo perfis de usuário (um dos objetos
centrais da Mineração do Uso).
2.3. Minerando do Uso da Web
A Mineração do uso da Web tenta descobrir regularidades nos caminhos
percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do
Conteúdo e a mineração da Estrutura utilizam os dados reais presentes nos documentos
da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do
usuário com a Web. Tais dados secundários incluem registros de log de servidores de
acesso a Web (daí o nome alternativo “Web Log Mining”), registros de log de servidores
proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos
“Bookmarks” (Favoritos), etc.
3. Conclusão
Este artigo apresentou uma visão geral da mineração de dados da Web. Foi
apresentada uma visão geral da técnica de mineração de dados em páginas web.
Também foram apresentadas as principais tarefas de mineração de dados na web: busca
de documentos, seleção e pré-processamento da informação, generalização e análise.
Foi descrita a estrutura do processo de mineração: mineração de conteúdo da
web, mineração na estrutura da web e mineração do uso da web.
O que dificulta o estudo da mineração da Web é a delimitação de seu escopo por
se tratar de uma área multidisciplinar vinculada a outras áreas, como a recuperação de
informação, a aprendizagem de máquina e os agentes da informação.
Este trabalho procurou, de uma forma concisa, caracterizar e definir o alcance da
mineração da Web; estabelecer seu relacionamento com outras disciplinas e oferecer
indicações para o aprofundamento no estudo dos diferentes tópicos da área.
Bibliografia
João Paulo da Costa Cordeiro. Extracção de Elementos Relevantes em Texto/Páginas da
World Wide Web
Sandra de Amo. Curso de Data Mining
Sílvio César Cazella. Tópicos Especiais IV, Recuperação e extração de informação na
web
Stanley Loh, Ramiro Saldaña Garin. Web Intelligence – Inteligência Artificial Para
Descoberta de Conhecimento Na Web
Leandro Balby Marinho, Rosario Girardi. Mineração na Web
Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey
Lívia Maria Rocha de Vasconcelos, Cedric Luiz de Carvalho. Aplicação de Regras de
Associação para Mineração de Dados na Web
R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern Discovery
on the World Wide Web