MineracaoDeDados

Propaganda
Mineração de Dados
Web Mining
Felipe Carvalho – UFES 2009/2
Motivação
• Devido à grande quantidade de informação disponível na Internet, a Web é
um campo fértil para a pesquisa de mineração de dados. Podemos entender
Web Mining como uma extensão de Data Mining aplicado a dados da
Internet. A pesquisa em Web Mining envolve diversos campos de pesquisa
em computação tais como: bancos de dados, recuperação de informação e
inteligência artificial (aprendizado de máquina e linguagem natural
sobretudo).
O que é Web Mining?
• Web Mining é o uso de técnicas de data mining para descobrir e extrair
automaticamente informações relevantes dos documentos e serviços
ligados a Internet. Este campo de pesquisa é extremamente extenso e por
isso, muita confusão surge quando se discute sobre as tarefas centrais de
Web Mining. Web Mining é frequentemente associado a “Recuperação de
Informação”, mas na verdade trata-se de um processo mais amplo,
interdisciplinar, envolvendo técnicas de Recuperação de Informação,
estatística, inteligência artificial e mineração de dados.
Web Mining – Tarefas Principais
• Busca de documentos: consiste em se encontrar sites Web contendo
documentos especificados por palavras-chave. É o processo de se extrair dados a
partir de fontes de textos disponíveis na Internet, tais como conteúdos de textos
de documentos HTML obtidos removendo-se os tags HTML, textos extraídos de
grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas
de Recuperação de Informação.
• Seleção e pré-processamento da informação: consiste em selecionar e préprocessar automaticamente informações obtidas na Internet. O préprocessamento envolve qualquer tipo de transformação da informação obtida na
busca, como por exemplo, podagem de textos, transformação da representação
da informação em outros formalismos, tais como fórmulas da Lógica de Primeira
Ordem.
• Generalização: consiste em descobrir automaticamente padrões gerais em sites
Web ou entre vários sitesWeb. Esta tarefa envolve a utilização de técnicas de
inteligência artificial e de mineração de dados.
• Análise: validação e interpretação dos padrões minerados.
As categorias do Web Mining
• Web Content Mining ou Mineração do Conteúdo de Documentos na Web.
• Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web.
• Web Structure Mining ou Mineração da Estrutura de Documentos na
Web.
Web Content Mining
• Text Mining
• Existem dois pontos de vistas principais quando se fala de Mineração do
Conteúdo da Web:
• “Recuperação de Informação” (RI): auxiliar o usuário no processo de
busca ou filtragem de informação. É o que realiza os principais
mecanismos de busca na Internet, ao procurar atender da melhor maneira
possével as solicitações feitas por usuários através de palavras-chave.
• “Banco de Dados” (BD): modelar os dados da Web e integrá-los de tal
modo que consultas mais sofisticadas do que simplesmente consultas
baseadas em palavras-chave possam ser feitas. Isto pode ser realizado
descobrindo-se os esquemas dos documentos na Web, construindo-se
Web Warehouses ou uma base de conhecimento de documentos.
Web Log Mining
• A Mineração do uso da Web tenta descobrir regularidades nos caminhos
percorridos pelos usuários quando estão navegando pela Web. Enquanto a
Mineração do Conteúdo e a Mineração da Estrutura utilizam os dados reais
presentes nos documentos da Internet, a Mineração do Uso utiliza dados
secundários derivados da interação do usuário com a Web. Tais dados
secundários incluem registros de log de servidores de acesso a Web (daí o
nome: “Web Log Mining”), registros de log de servidores proxy, perfis de
usuários, transações do usuário, consultas do usuário, dados de arquivos
“Bookmarks” (Favoritos), etc.
Web Structure Mining
• A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo
subjacente à estrutura de links da Web. O modelo é baseado na topologia
dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web
e é útil para gerar informações tais como a similaridade ou relacionamentos
entre diferentes sites Web. Esta categoria de mineração na Web pode ser
utilizada para se descobrir por exemplo os sites de autoridade (authority
sites), isto é, sites cujos links aparecem frequentemente em outros sites.
Download