WEB USAGE MINING APLICADA NA CONSTRUÇÃO DE UM MESSENGER LIMA, Claudinei de 1; PASCHOAL, Leo Natan2; MOZZAQUATRO, Patrícia Mariotto3 Resumo Com o aumento da popularidade da Web, um grande volume de dados e informações foi gerado e publicado em inúmeras páginas da internet. A mineração web é uma técnica de extração de informações utilizada para capturar o conteúdo, estruturação de relacionamento das páginas que são os links e também as informações de navegação dos usuários. Ela é dividida em três partes que são: mineração de conteúdo, mineração de estrutura e mineração de uso. O artigo proposto visa implementar um Messenger que utiliza a técnica de mineração de uso. Como resultado, o software captura o total de mensagens envidas e recebidas, ip (Internet Protocol), o tempo logado e o assunto mais abordado na conversação. Palavras- Chave: Messenger. Mineração web Mineração de uso. Abstract With the increasing popularity of the Web, a large amount of data and information was generated and published in numerous Web pages. The web mining is an information extraction technique used to capture the content, structure relationship of the pages are the links and also the navigation information of users. It is divided into three parts which are: content mining, mining structure and mining use. The article proposed aims to implement a technique that uses Messenger mining use. As a result, the software captures the total number of messages sent and received, ip, time logged and the matter discussed in more conversation. Key words: Messenger. Mining web. Mining use. Introdução Com o aumento da popularidade da Web, um grande volume de dados e informações foi gerado e publicado em inúmeras páginas da internet. Grande parte dessas informações está aglomerada em diversos sítios na rede onde o usuário não tem acesso devido ao enorme volume de dados disponíveis, e o que se encontra nem sempre é informação exata e precisa [Magalhães 2008]. 1 Aluno de graduação do curso de Ciência da Computação da Universidade de Cruz Alta (e-mail: [email protected]) 2 Aluno de graduação do curso de Ciência da Computação da Universidade de Cruz Alta (e-mail: [email protected]) 3 Orientadora, Mestre em Ciência da Computação pela Universidade Federal de Santa Maria. (e-mail: [email protected]) Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 81 Na Ciência da Computação existem técnicas computacionais que permitem a extração de informações relevantes aos usuário. Uma área muito utilizada é a Mineração de dados, mais especificamente a Mineração Web (extração e recuperação de informações da Web). A mineração de dados envolve diversos campos como extração de informação, inteligência artificial, banco de dados, dentre outros. Conforme Magalhaes (2008): “A mineração Web pode ser descrita como um segmento da mineração de dados que visa o desenvolvimento de técnicas e ferramentas para obtenção de conteúdo relevante e útil na web, isso possibilita detectar padrões de navegação, obtendo características, interesses, ações, e padrões de navegação dos usuários.” A mineração web é dividida em algumas áreas, sendo elas: Mineração de conteúdo, Mineração de estrutura e Mineração de uso. Com a aplicação das técnicas de Mineração web pode-se: extrair informações pessoais de usuários como sexo, idade, religião, estado civil, classe social, endereço, lugares onde frequenta, instituição onde estuda, produtos que mais costuma comprar, interesses futuros; Coletar informações sobre a máquina do usuário, assim, pode-se usar estas informações para uma pesquisa de mercado ou para verificar se a ferramenta utilizada para a extração das informações está em perfeito funcionamento; Comportamento dos usuários como data e hora dos acessos, duração de acessos, links requisitados, de onde ele veio e qual foram suas atitudes até o termino da pesquisa, e assim gerar um histórico do usuário com todas as informações desejadas; Do design de uma página, para o melhor posicionamento de seus links, banner, texto, fotos e vídeos; Nas técnicas de marketing, para capturar informações referentes a preferência de produtos e serviços, e assim possibilitando uma visão automática de conteúdos para seus interesses financeiros. O artigo proposto irá abordar a implementação de um Messenger que utiliza a técnica de mineração de uso, integrante da mineração web. No próximo subtítulo veremos algumas definições de Mineração Web e suas aplicações nos dias atuais. Mineração web Pesquisas vêm sendo desenvolvidas com o intuito de incrementar o processo de classificação da informação e melhorar o processo de extração das mesmas em base dos dados, destacando-se a descoberta de conhecimento em base de dados com a utilização da técnica de Mineração de dados. A mineração de dados consiste na utilização de técnicas e Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 82 algoritmos para identificar padrões e modelos em grandes bases de dados, extraindo informações relevantes e organizadas ao contexto aplicado. A aplicação da mineração de dados na web denomina se Mineração de Dados Web, que busca descobrir informações relevantes à web, tais como características, comportamentos e padrões de navegação dos usuários [Boullosa 2002] and [Machado 2002]. Ou seja, é a extração de informações para capturar o conteúdo, estruturação de relacionamento das páginas que são os links e também as informações de navegação dos usuários. A mineração Web divide-se em três categorias: Mineração do Conteúdo da Web (Web Content Mining), Mineração da Estrutura da Web (Web Structure Mining) e Mineração do Uso da Web (Web Usage Mining) [Machado 2002]. Na Mineração de conteúdo são analisados conteúdos que estão presentes em uma página web como as imagens e textos, isso possibilitara classificação de conteúdo aos usuários. Segundo Machado (2002) a mineração do conteúdo da web descreve a descoberta de informações úteis de conteúdos, dados e documentos da web pela busca automática das informações. O conteúdo da web é formado por diversos tipos de dados, como textos, imagens, vídeos, hiperlinks e metadados, que não se encontram de maneira estruturada e também não estão completamente não estruturados, denominados então de semi-estruturados. Voltada essencialmente para usuários finais da internet. [Boullosa 2002]. A mineração do conteúdo da web pode se dar de duas maneiras: baseada em agentes ou baseada em banco de dados. A mineração baseada em agentes busca melhorar a busca e organização de informações para o usuário baseando-se em seu perfil, utilizando sistemas de inteligência artificial agindo de forma autônoma ou semi-autônoma. já a mineração baseada em banco de dados (utilizada no trabalho proposto) busca transformar os dados desestruturados ou semi-estruturados da web em dados estruturados, que podem ser utilizados por mecanismos de consulta como, por exemplo, a linguagem SQL. [Marinho, Girardi 2003]. A Mineração de estrutura analisa os links das páginas e com isso se pode capturar informações como páginas visitadas, de onde vieram, melhor posição para os objetos em uma página. Segundo Machado (2002), mineração da estrutura da web visa descobrir um modelo de estrutura dos links da web, agindo diretamente nos hyperlinks, buscando organizar e categorizar as páginas de diversos sites que possuam conteúdos similares. Destinada principalmente para projetistas de sites. [Boullosa 2002]. Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 83 A web pode ser definida como um grafo orientado, onde as páginas são representadas pelos nós e os links entre elas pelas setas. Estrutura esta muito semelhante as redes sociais. Pesquisadores estudam continuamente a semelhança entre a web e as redes sociais, buscando melhorar a qualidade de motores de busca e sistemas de gerenciamento de conhecimento. Links apontando para uma página podem indicar sua importância, assim como links saindo dela podem indicar o complemento do seu conteúdo [Marinho, Girardi 2003]. A Mineração de uso captura os dados de navegação dos usuários, com a análise de comportamento dos mesmos também é possível descobrir padrões de navegação na Web. A mineração do uso da web busca, através da analise dos logs de acesso dos servidores web, identificar os padrões de navegação do usuário num sistema web. Pode ser dividida em duas categorias: identificar o perfil do usuário ou de grupos de usuários e identificar o padrão de navegação do usuário. [Machado 2002]. Metodologia A pesquisa envolvida neste artigo classifica-se como pesquisa aplicada, destinada a integrar o estudo sobre recuperação inteligente de informação. O experimento consistiu na construção de um Messenger utilizando técnicas de Mineração de web, mais especificamente a Mineração de Uso. O processo foi desenvolvido nas seguintes etapas: definição do tema a ser explorado (Mineração Web); realização de pesquisa bibliográfica sobre o tema (Mineração de Uso); seleção dos recursos tecnológicos a serem utilizados; Definição dos objetivos da aprendizagem; Modelagem e apresentação do protótipo da aplicação; Desenvolvimento da modelagem conceitual e Visual; implementação da aplicação; reflexão e análise para geração de conhecimento teórico. Para o desenvolvimento da aplicação foram utilizados os seguintes recursos de software: Macromedia Dreamweaver MX, Linguagem de programação PHP, Css, Javascript, Html e banco de dados MYSQL. A seguir, consta-se o processo da aplicação desenvolvida. Aplicação desenvolvida No presente artigo, foi desenvolvido um Messenger e nele foi utilizada a técnica de mineração web – Mineração de uso. A aplicação permite extração das seguintes informações: Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 84 Informações pessoais dos usuários: podem-se capturar informações como localização, sexo, estado civil, idade, religião, e classe social. Sobre a máquina utilizada pelo usuário: extrai-se informações como navegador e sua versão, ip (Internet Protocol), tempo de execução de suas páginas no navegador utilizado, permite saber se suas páginas tem alguma falha, se funcionam ou não no navegador escolhido. Comportamento do usuário: informações relacionadas ao comportamento dos usuários tais como: páginas visitadas, o horário em que os usuários mais acessam, a quantidade de acessos por dia, mês e ano, o tempo gasto em cada página, de qual site vieram anteriormente, links requisitados, fotos ou vídeos visualizados, palavras-chave utilizadas em buscas e se o acesso foi através de banners. Histórico sobre os usuários: Podem-se coletar informações como visitas, compras, horários de acesso, páginas visitadas, arquivo baixado ou visualizado, tempo gasto no processo, opiniões, criticas e comentários. Design dos sites: permite encontrar a melhor maneira de posicionar algum objeto baseado em onde estão tendo mais acesso. A criação de maneiras mais rápidas para os conteúdos em que os usuários mais acessam, ou seja, proporcionar uma recomendação de informações, tornando a mesma personalizada ao usuário. Estratégias de marketing: permite melhorar estratégias de marketing tornando mais acessíveis produtos ou serviços em que o usuário se identifica, assim dando a possibilidade do mesmo encontrar itens conforme seu interesse. Possibilita aumento dos lucros dos prestadores desses serviços e também para o desenvolvimento de produtos e serviços baseados nas informações obtidas com a captura de seu perfil. A Figura 1, a seguir, apresenta a interface inicial do Messenger desenvolvido. Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 85 Figura 1- Tela Login e Cadastro Conforme ilustra a Figura 1, no primeiro momento o usuário efetua um cadastro obtendo assim seu login e senha, neste já está sendo aplicada a técnica de Mineração de Uso. De um modo fácil e ágil os usuários podem adicionar novos amigos, e interagir com eles mandando mensagens e também emotions. O aplicativo de Messenger foi criado com o intuito de ser disponibilizado na web livremente. A Figura 2 ilustra as funcionalidades da aplicação. Figura 2- Tela do Messenger Conforme ilustra a Figura 2, os usuários poderão trocar mensagens, adicionar novos amigos, interagir com os emotions e assim, de forma “invisível” está sendo aplicada a técnica Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 86 de Mineração de uso a fim de capturar as informações relevantes já citadas na metodologia de aplicações. Resultados e Discussão A aplicação deste software desenvolvido foi validada utilizando uma abordagem do tipo caixa branca (métodos de testes realizados pelo programador) [Pressman 2002]. Ao iniciar os testes, o desenvolvedor iniciou a interação com o aplicativo. Foi criada uma interface amigável para uma fácil interação com outros usuários. O software conta com várias funcionalidades como: Envio de mensagens, procura de novos amigos, alteração de cadastro, quantidade de mensagens enviadas, limitação de caracteres, bloqueio de mensagens ofensivas e captura de ip. O aplicativo desenvolvido é compatível com os navegadores de internet: Internet Explorer 8 ou superior, Opera 11 ou superior, Chrome 25 ou superior, Safari 5, Firefox 20 ou superior. Também pode ser executado através de navegadores para dispositivos moveis como Opera Mini 6.1 ou superior. Buscou-se avaliar os seguintes aspectos: adequação, apreensibilidade, eficiência e usabilidade. Os resultados obtidos foram positivos. Em relação ao nível da dificuldade na interação com o aplicativo (usabilidade) e legibilidade da aplicação, constatou-se que o mesmo foi eficiente para o objetivo proposto. Na figura abaixo (Figura 3) pode ser visualizada a quantidade de mensagens enviadas diariamente. Figura 3- Quantidade das mensagens já enviadas Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 87 Figura 4- Assuntos mais abordados A Figura 4 mostra os assuntos mais abordados com alguns dados como: Telefone para coletar as marcas e modelos mais utilizados pelos usuários, jogos preferidos e também as suas opiniões sobre eles. Ainda extrai informações sobre o relacionamento entre os usuários como: seu comportamento, se ele é uma pessoa mal humorada, feliz, inteligente, educação, gostos e preferencias para uma possível recomendação. A Figura 5 mostra informações sobre o tempo em que o usuário ficou logado no aplicativo. Figura 5- Tempo do usuário logado no sistema Considerações Finais Este artigo buscou desenvolver um aplicativo “Messenger” integrando técnicas de Mineração web, mais especificamente a Mineração de Uso. Atualmente, devido a crescente quantidade de informações disponíveis no meio digital, formou-se o fenômeno conhecido como “sobrecarga de informação” aos usuários. A Mineração Web pode ser vista como uma técnica para auxiliar nos processos de busca, Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 88 permitindo um tratamento individualizado dos dados, tornando possível o conhecimento de características e preferências dos usuários. Para a construção deste artigo foram analisados alguns trabalhos que contribuíram positivamente com a pesquisa e desenvolvimento do estudo sobre mineração de uso, os quais fizeram parte das premissas teóricas utilizadas para o aprimoramento do embasamento do presente trabalho Boullosa (2002), Rocha (2003) e Neto (2012). A importância deste artigo está em contribuir para o avanço da pesquisa em desenvolvimento em Sistemas de Recomendação e Personalização auxiliando nos ambientes de pesquisa informatizados, agregando novas fontes de dados para sugerir características afins. Como trabalho futuro será desenvolvido um módulo de recomendação de informações aos usuários, ou seja, por meio da captura de informações sobre os assuntos mais tratados serão disponibilizados links e conteúdos conforme o perfil do usuário capturado. Referências Boullosa, José Roberto de Freitas. Um Ambiente Para Mineração de Utilização da Web. Dissertação de Mestrado em Ciências em Engenharia de Sistemas e Computação, Universidade Federal do Rio de Janeiro – UFRJ, 2002. Machado, Leticia dos Santos. Mineração do uso da Web Na educação à distância: Propostas para a condução de um Processo a partir de um estudo de caso. Dissertação de mestrado em Ciência da Computação, Pontifícia Universidade Católica do Rio Grande do Sul – PUC, 2002. Magalhães, Lúcia Helena de. Uma Análise de Ferramentas para Mineração de Conteúdo de Páginas Web. Dissertação de Mestrado em Engenharia Civil, Universidade Federal do Rio de Janeiro – UFRJ, 2008. Marinho, Leandro Balby; Girardi, Rosario. Mineração na Web. Revista Eletrônica de Iniciação Científica, ISSN 15198219, vol. 2, 2003. Neto, Gerson da Penha. Uso de Algoritmos de Mineração de Dados para Agrupamento e Busca de Erros em Séries Temporais Coletadas a partir de Geossensores: Um Estudo de Caso na Mata Atlântica. Dissertação de Mestrado em Computação Aplicada, Instituto Nacional de Pesquisas Espaciais – INPE, 2012. Pressman, S. R. Engenharia do Software. Edição 5, São Paulo: McGraw-Hill, 2002. Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 89 Rocha, Catarina Carneiro. Recdoc: Um Sistema de Recomendação para uma Biblioteca Digital na Web. Dissertação de Mestrado em Ciências em Engenharia de Sistemas e Computação, Universidade Federal do Rio de Janeiro – UFRJ, 2003. R. Kosala & H. Blockeel, “Web mining research: a survey”. SIG KDD Explorations, vol.2, pp.1-15, 2000. Sankar K. Pal, Varum Talwar, Pabitra Mitra, “Web Mining in Soft Computing Framework: Relevant, State of the Art and Future Directions”, 2000. G. Salton. An Introduction to Modern Information Retrieval. New York: McGraw-Hill, 1983. M. Spilopoulon, “Data mining for the Web”. In: Principles of data mining and knowledge discovery, Second European Symposium, 1999. J. Srivastava, R.Cooley, M. Deshpande & P.N.Tan., “Web usage mining: Discovery and applications of usage patterns from Web data”. SIG KDD Explorations, 2000. S. Soderland, “Learning Information Extraction Rules for Semi-structured and Free Text”. Machine Learning 1-44. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands, 1999. K. Sycara, K. Decker, A. Pannu, M. Williamson & D. Zeng, “Distributed Intelligent Agents”. The robotics institute, Carnegie Mellon University, 1996. O. R. Zaiane, J. Han, Z. –N. Li, S.H. Chee, & J.Chiang, “Multimidia data miner: a system prototype for multimedia data miner”. In Proc. ACM SIGMOD Intl. Conf. on Management of Data, pages 581-583, 1998”. N. Zhong, J. Liu, Y. Yao, “In Search of the Wisdom Web”. IEEE Computer, vol.35, no.11, 2002, pp.27-31. Revista Interdisciplinar de Ensino, Pesquisa e Extensão, vol.1 n°1 90