Universidade Federal de Santa Catarina ­ UFSC Departamento de Informática e Estatística ­ INE Sistemas de Informação ­ Data Mining Data Mining em Redes Sociais Augusto Pacheco dos Santos ­ 10101169 Felipe Duarte Silveira ­ 10103190 Mateus Maso ­ 10101199 Vanoir Guarezi Zacaron ­ 10101212 1 Sumário 1. INTRODUÇÃO 2. DATA MINING 3. REDES SOCIAIS 4. MINERAÇÃO EM REDES SOCIAIS 4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS 5. PROBLEMAS DE MINERAÇÃO EM REDES SOCIAIS 5.1 ANÁLISE COMUNITÁRIA 5.2 ANÁLISE SUBJETIVA 5.3 RECOMENDAÇÃO SOCIAL 5.4 MODELAGEM INFLUENCIAL 5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO 5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE 6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS 7. CONCLUSÃO 8. REFERÊNCIAS 2 1. INTRODUÇÃO Qualquer organização precisa saber qual o seu público alvo e como ele se comporta, o que pensa, quais os seus interesses, seus desinteresses, informações que possam ajudar a empresa a traçar um perfil que auxilie no direcionamento de qual produto deve ser desenvolvido ou qual abordagem deve ser adotada para se chegar ao cliente e com isso conquistá­lo a ponto de se tornar um cliente ativo. Coletar e avaliar esses dados, geralmente, demanda um certo esforço. Se for de forma manual demanda um esforço cansativo, que exige um investimento considerável, um tempo considerável e um alcance um tanto quanto limitado. Automatizar o processo de coleta seria mais do que o ideal nesses casos. As redes sociais estão ai para isso. Um ambiente no qual o usuário dispõe suas informações de maneira natural, por vontade própria na maioria das vezes, sem ter que necessariamente passar por um questionário por exemplo. Conseguir a informação por meio das redes sociais é uma tarefa relativamente simples, guardar e analisar apresentam com um grau de dificuldade maior. As técnicas de mineração de dados possuem uma extensa gama de casos em que podem ser utilizadas, um desses casos seria analisar o perfil de públicos. O objetivo desse trabalho é explorar um pouco de como as técnicas de mineração de dados aliadas as informações dispostas pelas redes sociais, fornecem um material de grande interesse para qualquer empresa que esteja interessada em analisar e descobrir o comportamento do público e com base nelas tomar medidas para evoluir. 3 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões e relacionamento entre dados que são gerados pelos diversos setores de uma empresa e se agrupadas por algum tipo de relacionamento podem gerar novos grupos de dados. Esses novos grupos de dados são submetidos a algoritmos baseados em sistemas de redes neurais resultando em uma nova informação que está associada a outro grupo de dados que pode ser totalmente independente e gerado em um contexto diferente, gerando comparações estatísticas entre eles. O resultado deve mostrar que separados são apenas dados, mas depois da utilização de alguma técnica de mineração de dados, a junção e comparação desses dois grupos gera uma informação que talvez nunca fosse notada e que pode ser utilizado pelo usuário para auxiliar no processo de tomadas de decisão pois com essas informações se tem o subsídio necessário para determinar um padrão, um comportamento de certos grupos de dados. 4 3. REDES SOCIAIS Uma mídia social é uma aplicação para a internet construída com tecnologias da Web 2.0, que permitem a criação e troca de conteúdo entre os usuários. A mídia social como um todo é um conglomerado de diferentes tipos, incluindo meios tradicionais como jornal, rádio, televisão e meios não tradicionais como Facebook, Linkedin, Twitter, etc. As mídias sociais fornecem aos usuários uma forma fácil de se comunicar e se conectar com os outros usuários, em uma escala e frequência sem precedentes nos meios tradicionais. A expansão das mídias sociais é constante, resultando na evolução das redes sociais, blogs, microblogs, e demais gerenciadores de conteúdo. O Facebook, um site de rede social, registra mais de 1.11 bilhão de usuários ativos, segundo dados de Março de 20131 . Existem alguns tipos de mídias sociais, sendo as principais: ● Rede social online: São serviços web que permitem aos indivíduos e comunidades se conectarem com amigos do mundo real e virtuais. Os usuários interagem uns com os outros através de atualizações, comentários, compartilhamento de mídia, mensagens, participação em grupos de discussão, etc. Exemplos: Facebook, Linkedin. ● Blog: São websites ao estilo de jornais que permitem aos usuários (autores do blog) contribuírem de forma textual (multimídia). ● Microblog: Possuem as mesmas características dos blogs, mas com limitação de conteúdo. Exemplos: Twitter, Tumblr. ● Wiki: São portais colaborativos que permitem que os usuários contribuam com o conteúdo. Exemplos: Wikipedia, Wikihow. ● Respostas: São sites que fornecem uma plataforma para usuários que busquem por conselhos, sugestões, conhecimento, etc. possam realizar perguntas. Os outros usuários da comunidade podem responder estas questões baseando­se em suas próprias experiências ou em bases mais concretas. Exemplos: Yahoo! Respostas, StackOverflow, WikiAnswers 4. MINERAÇÃO EM REDES SOCIAIS 1 Dados retirados de http://news.yahoo.com/number­active­users­facebook­over­230449748.html 5 Enormes quantidades de conteúdo são geradas diariamente pelos usuários de mídias sociais. Como esta quantidade tende a crescer, é essencial que os produtores, consumidores, e fornecedores de serviços descubram maneiras de gerenciar e utilizar todos estes dados. O crescimento das mídias sociais é guiado pelas seguintes questões: Como um usuário pode ser ouvido? Qual fonte de informação um usuário deve usar? Como a experiência do usuário pode ser aprimorada? As respostas para estas questões estão escondidas nos dados da mídia social. Todos estes desafios e questões pendentes representam uma grande oportunidade para a mineração de dados, visando o desenvolvimento de novos algoritmos e métodos com o foco nas mídias sociais. Os dados gerados nas mídias sociais são diferentes do tradicional formato de dados na mineração de dados clássica. Estes dados são em sua maioria gerados por usuário de sites de mídia social. Portanto, estes dados são extensos, distribuídos, não estruturados e dinâmicos. Estas características fomentam o desafio para a criação de novas técnicas e algoritmos para a mineração de dados voltada a este contexto. Dependendo da mídia social, os dados podem ser bastante ruidosos. Remover este ruído dos dados é essencial antes de executar a mineração em si. Os dados em mídias sociais são distribuídos porque não existe uma autoridade central que retém os dados de todas os sites de mídias sociais. Existe uma grande dificuldade, portanto, na identificação do fluxo desta informação. Os dados das mídias sociais também não são estruturadas, fazendo com que se torne um grande desafio realizar observações significativas quando estes dados, além de não estruturados, vem de tantas fontes diferentes. Esta dificuldade fica ainda maior, quando se leva em conta que os diferentes sites de mídias sociais podem possuir propósitos e públicos extremamente diferentes. Além disto, estes dados podem ajudar a entender o comportamento humano, e também auxiliar empresas na divulgação de seus produtos ou serviços, fornecendo formas de encontrar seu público alvo e maximizar o alcance de seus produtos. 4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS Para a realização desta mineração de dados em mídias sociais, um dos focos que 6 podem ser abordados é referente a identificação de relacionamentos entre os usuários destas mídias sociais. Desta forma, é possível calcular o nível de relacionamento entre estas pessoas, levando em conta, por exemplo, o número de mensagens que estas pessoas trocam entre si. Todo este processo pode ser realizado de forma automatizada, respeitando as seguintes etapas: ● Descobertas de nós: Identificar as relações entre as pessoas analisando as referências entre elas, como citações em textos do nome ou e­mail. A comparação pode ser feita termo a termo, identificando similaridades para localizar estas referências dentro dos textos. ● Identificação de coreferências: Possui o objetivo de identificar todas as formas nas quais uma pessoa é referenciada, criando assim uma identidade pessoal para cada pessoa. Esta técnica ajuda a diferenciar duas pessoas que possuem o mesmo nome, por exemplo. Para tal, utiliza­se de técnica de aprendizagem de máquina, que buscam por sintagmas nominais nos textos que possam “individualizar” o nome de cada pessoa, identificando nomes de organizações e objetos que teoricamente são particulares de cada pessoa. Também podem ser analisadas semelhanças léxicas, semânticas, e outras características que ajudem a criar esta identidade. Outra abordagem, seria analisar o contexto em que os nomes das pessoas estão inseridos, partindo da premissa que pessoas diferentes terão seus nomes citados em contextos diferentes. ● Descoberta de conexões: Após a descoberta dos nós e a resolução de pseudônimos (separação em nós únicos para cada pessoa), é realizada a descoberta das reais conexões sociais entre cada uma destas pessoas (nós). Para este objetivo, existem dois algoritmos principais e amplamente utilizados: similaridade dos perfis e similaridade semântica. ○ Similaridade dos perfis: É uma comparação básica entre os pontos em comum de cada perfil. Assim, são contabilizados os pontos em comum entre cada nó, dando um “grau de afinidade” para cada relacionamento. ○ Similaridade semântica: É uma análise dos termos e frases existentes em cada perfil. Dado um certo nível pré­definido de similaridade semântica, duas pessoas podem estar relacionadas quando a similaridade semântica entre elas estiver acima deste nível. Ou seja, os perfis são analisados textualmente de forma semântica, buscando 7 semelhanças entre estas informações. Quanto maior o número de semelhanças entre os textos, maior o nível de similaridade semântica. 5. QUESTÕES DE MINERAÇÃO EM REDES SOCIAIS 5.1 ANÁLISE COMUNITÁRIA De acordo com a definição, uma comunidade é formada por indivíduos que interagem frequentemente entre si, criando assim um circulo de interesses. Comunidades ou grupos podem ser observadas através de conexões em redes sociais, uma vez que o foco destas redes é permitir ao máximo esta expansão entre os usuários. É possível conectar com amigos e encontrar novos usuários similares, além de outros grupos de pessoas. Estes grupos podem ser classificados em implícitos e explícitos. Um grupo explícito possui identidade e pode ser administrado de várias maneiras (público, moderado, privado). Já grupos implícitos emergem naturalmente através de interações, ou seja, nem sempre possuem algum tipo de "rótulo". Detecção, formação e evolução são problemas comuns durante a análise de um grupo. Outro grande desafio está relacionado a subjetividade de uma comunidade, uma vez que a falta de confiança pode dificultar na avaliação. Há 4 métodos para detecção de comunidades e que permitem a análise de redes com diferentes resoluções: ● Centrado ao nó: onde cada nó satisfaz certas propriedades como um mutualidade completa, alcançabilidade, grau de nó e frequência de ligações entre eles. ● Centrado ao grupo: onde cada grupo precisa satisfazer certas propriedades. ● Centrado a rede: onde grupos são formados baseado na partição da rede em conjuntos disjuntos. ● Centrado a hierarquia: onde o objetivo é criar uma estrutura hierárquica de comunidade. Redes sociais são altamente dinâmicas e seus grupos podem expandir, encolher e até se dissolver. Desta forma, foi possível perceber padrões ao longo do tempo durante a evolução 8 de comunidades. Um exemplo é em relação aos seus relacionamentos na rede. Quanto mais amigos você tem em um grupo que não o pertence, mais propenso estará de entrar nele. Além de grupos casuais crescem mais lentamente que aquelas que já estão altamente conectados. 5.2 ANÁLISE SUBJETIVA Analise subjetiva tem como objetivo extrair automaticamente opiniões expressadas em um conteúdo gerado pelo um usuário. Ferramentas de análise subjetiva permitem que organizações entendam o feedback dos produtos, percepção de logo, percepção de um novo produto, assim como reputação da própria empresa. Essas ferramentas ajudam a compreender a opinião ou sentimento do usuário sobre os produtos em uma escala global. Há vários sites de rede social exportando opiniões de usuários sobre produtos em diferentes formatos. Monitorar essas opiniões relacionado a uma companhia em particular ou produto em redes sociais é um novo desafio. Este tipo de análise é difícil porque as linguagens usadas para criar conteúdo podem ser ambiguas. Por isso, para se iniciar este tipo de análise é preciso: ● Encontrar documentos relevantes. ● Encontrar seções relevantes. ● Encontrar opiniões em comum. ● Quantificar as opiniões. ● Formar uma visão global. Objetos podem ser alvo de opiniões, estes são geralmente representados como um conjunto finito de características, onde cada uma representa um grupo finito de sinônimos entre palavras e frases. Podemos executar a mineração em vários níveis deste objeto, como o de documento, sentença ou característica. Extrair opiniões expressadas em sentenças comparativas pode ser uma tarefa difícil. Já a avaliação de performance durante a análise de um conteúdo onde a veracidade não é comprovada pode causar complicações também. 9 5.3 RECOMENDAÇÃO SOCIAL Sistemas tradicionais de recomendação tentam recomendar produtos baseado na classificação de produtos anteriores comprados pelos usuários. Um sistema de recomendação social faz uso das informações sociais baseando­se na hipótese de que pessoas estão socialmente conectadas e propensas a compartilhar interesses similares. Estes usuários podem ser influenciados por amigos, onde preferem seguir as recomendações no seu "newsfeed" ao invés de algo gerado randômico pelo site sem nenhum algoritmo de afinidade. Os objetivos de uma recomendação social é melhorar a qualidade e eliminar o problema de bombardeio de informações irrelevantes. Um exemplo de sistema de recomendação social é a recomendação de livros baseado na preferência dos seus amigos. Quais livros já leram? Quais estão lendo? Quais não gostaram? Estas informações podem ser encontradas através de compartilhamentos no Twitter ou Facebook referenciando produtos da Amazon. 5.4 MODELAGEM INFLUENCIAL Pesquisadores estiveram explorando a influência de interesses em comum entre usuários de uma rede social. É importante saber a diferença entre uma rede social que é dirigido por influência ou homofilia. Por exemplo, na indústria de propaganda, se uma rede social é influente, então os usuários influentes deverão ser identificados e incentivados a promover produtos ou serviços de membros da rede social. Entretanto, se a rede social é baseado em homofilia, então estes grupos de usuários com o mesmo interesse deveriam ser diretamente focado a promover vendas. A maioria das redes sociais tem a mistura dos dois. Por isso, distinguir eles é desafiador. 5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO Pesquisadores estudaram como a informação é difundida e exploraram diferentes modelos de difusão de informação. Dentre eles há o modelo independente de cascata, limiar, suscetível, contagiado, entre outros. Todos estes modelos foram estudados e aplicados para analisar a propagação de rumores e vírus de computador por exemplo. Dois importantes problemas do ponto de vista das redes sociais são como as informações propagam na rede e quais fatores afetam sua dispersão. O primeiro problema continua aberto e é reconhecido como 10 chave para diferenciar rumores da verdade. 5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE Barreiras fracas e o uso exagerado das mídias sociais trouxeram o aumento da preocupação relacionada a privacidade e problemas de segurança entre os usuários. Com esses desafios, novos perfis de usuários começaram a surgir: ● Usuário liberal: gostaria de ter vários amigos e compartilhar o máximo possível para se tornar influente na rede. ● Usuário ideal: usa a rede apenas entre um circulo pequeno de usuários e não se importa muito com a privacidade, mas também não se expõem na rede de forma frequente. ● Usuário radical: não gostaria que ninguém acessasse seus conteúdos e se limita a interagir com pessoas desconhecidas. Cada rede social tenta encorajar e facilitar que seus usuários encontrem uns aos outros e expandam seus relacionamentos. Por isso que estas medidas geram novas ameaças a segurança dessas empresas, pois para alcançar estes relacionamentos as pessoas precisam expor diversas informações pessoais sucessivas a ataques. Estas informações podem ser usadas para ataques indesejados feitos pelos próprios usuários como stalking, cyberbulling, phishing, spamming, scamming, clickjacking, entre outros. Outro fato interessante sobre o Facebook é que poucos usuários mudam a configuração padrão de privacidade. Vários perfis de usuários estão completamente públicos sem os mesmo os donos saberem disso. Confiança social depende de vários fatores que não podem ser facilmente modelados em um sistema computacional. Foi observado a confiança entre duas pessoas e concluiu fatores como experiências passadas, opiniões expressadas e motivos de ganhar algo extra influenciaram no resultado. Outro aspecto de confiabilidade está relacionado ao conteúdo produzido pelo o usuário. 11 6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS Com o crescimento das redes sociais e de suas aplicações cada vez mais informações valiosas estão “escondidas” nos dados das redes sociais, estes se apresentam de forma vasta, ruidosa, desestruturada, distribuída e dinâmica, portanto somente com uma mineração eficiente é possível aproveitar ao máximo estas informações. A análise dos dados das redes sociais possui meios/modelagens diferentes dependendo de qual domínio na rede social está sendo explorado. O uso tradicional da mineração em redes sociais está associado a campanhas publicitarias, onde é estudado o perfil do usuário afim de se obter maior sucesso na oferta de um produto ou serviço. Entretanto também é possível usar as redes sociais para outros fins, um dos novos usos das redes sociais são as campanhas políticas, onde é buscado entender o perfil dos eleitores e suas opiniões, dados chaves para o desenvolvimento de uma campanha. Redes sociais também vem sendo usadas para organizar e promover movimentos sociais em todo o mundo, analisando os dados é possível entender melhor estes movimentos, prever quando acontecerão manifestações e até mesmo identificar elementos chaves dos movimentos. Outro uso interessante de redes sociais é para recolher informações durante e depois de crises ou desastres naturais, ferramentas como ASU Coordination Tracker e TweetTracker se baseiam em palavras­chave, hashtags e na localização dos usuários para minerar a rede, assim entendendo melhor o que está acontecendo em cada região e por exemplo, identificando recursos que estão em falta e regiões mais afetadas. 12 7. CONCLUSÃO As redes sociais vem se tornando cada vez mais importantes e populares no dia a dia da sociedade, toda nova funcionalidade e aplicação das redes sociais criam um novo mar de informações e interações que podem ser aproveitados de diversas maneiras. Neste trabalho analisamos a mineração de dados aplicada a obtenção de conhecimento das redes sociais, apresentando seus principais conceitos, métodos, problemas e diferenças. Apesar das adversidades, a mineração de dados em redes sociais é uma area consolidada que já gerou muitos resultados positivos, conforme as redes sociais vão se desenvolvendo, as metodologias de mineração tendem a acompanhar o ritmo trazendo resultados mais precisos e analises diferenciadas, como é o caso do ASU Coordination Tracker e TweetTracker, que utilizam os dados das redes sociais de forma humanitária e não para fins restritamente comerciais. 13 8. REFERÊNCIAS http://pead.ucpel.tche.br/revistas/index.php/colabora/article/viewFile/132/115 http://www.public.asu.edu/~pgundech/book_chapter/smm.pdf 14