Mineração de Dados Web Mining Felipe Carvalho – UFES 2009/2 Motivação • Devido à grande quantidade de informação disponível na Internet, a Web é um campo fértil para a pesquisa de mineração de dados. Podemos entender Web Mining como uma extensão de Data Mining aplicado a dados da Internet. A pesquisa em Web Mining envolve diversos campos de pesquisa em computação tais como: bancos de dados, recuperação de informação e inteligência artificial (aprendizado de máquina e linguagem natural sobretudo). O que é Web Mining? • Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações relevantes dos documentos e serviços ligados a Internet. Este campo de pesquisa é extremamente extenso e por isso, muita confusão surge quando se discute sobre as tarefas centrais de Web Mining. Web Mining é frequentemente associado a “Recuperação de Informação”, mas na verdade trata-se de um processo mais amplo, interdisciplinar, envolvendo técnicas de Recuperação de Informação, estatística, inteligência artificial e mineração de dados. Web Mining – Tarefas Principais • Busca de documentos: consiste em se encontrar sites Web contendo documentos especificados por palavras-chave. É o processo de se extrair dados a partir de fontes de textos disponíveis na Internet, tais como conteúdos de textos de documentos HTML obtidos removendo-se os tags HTML, textos extraídos de grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas de Recuperação de Informação. • Seleção e pré-processamento da informação: consiste em selecionar e préprocessar automaticamente informações obtidas na Internet. O préprocessamento envolve qualquer tipo de transformação da informação obtida na busca, como por exemplo, podagem de textos, transformação da representação da informação em outros formalismos, tais como fórmulas da Lógica de Primeira Ordem. • Generalização: consiste em descobrir automaticamente padrões gerais em sites Web ou entre vários sitesWeb. Esta tarefa envolve a utilização de técnicas de inteligência artificial e de mineração de dados. • Análise: validação e interpretação dos padrões minerados. As categorias do Web Mining • Web Content Mining ou Mineração do Conteúdo de Documentos na Web. • Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web. • Web Structure Mining ou Mineração da Estrutura de Documentos na Web. Web Content Mining • Text Mining • Existem dois pontos de vistas principais quando se fala de Mineração do Conteúdo da Web: • “Recuperação de Informação” (RI): auxiliar o usuário no processo de busca ou filtragem de informação. É o que realiza os principais mecanismos de busca na Internet, ao procurar atender da melhor maneira possével as solicitações feitas por usuários através de palavras-chave. • “Banco de Dados” (BD): modelar os dados da Web e integrá-los de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas dos documentos na Web, construindo-se Web Warehouses ou uma base de conhecimento de documentos. Web Log Mining • A Mineração do uso da Web tenta descobrir regularidades nos caminhos percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do Conteúdo e a Mineração da Estrutura utilizam os dados reais presentes nos documentos da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do usuário com a Web. Tais dados secundários incluem registros de log de servidores de acesso a Web (daí o nome: “Web Log Mining”), registros de log de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos “Bookmarks” (Favoritos), etc. Web Structure Mining • A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar informações tais como a similaridade ou relacionamentos entre diferentes sites Web. Esta categoria de mineração na Web pode ser utilizada para se descobrir por exemplo os sites de autoridade (authority sites), isto é, sites cujos links aparecem frequentemente em outros sites.