Data Mining em Redes Sociais - Departamento de Informática e

Propaganda
Universidade Federal de Santa Catarina ­ UFSC
Departamento de Informática e Estatística ­ INE
Sistemas de Informação ­ Data Mining
Data Mining em Redes Sociais
Augusto Pacheco dos Santos ­ 10101169
Felipe Duarte Silveira ­ 10103190
Mateus Maso ­ 10101199
Vanoir Guarezi Zacaron ­ 10101212
1
Sumário
1. INTRODUÇÃO
2. DATA MINING
3. REDES SOCIAIS
4. MINERAÇÃO EM REDES SOCIAIS
4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS
5. PROBLEMAS DE MINERAÇÃO EM REDES SOCIAIS
5.1 ANÁLISE COMUNITÁRIA
5.2 ANÁLISE SUBJETIVA
5.3 RECOMENDAÇÃO SOCIAL
5.4 MODELAGEM INFLUENCIAL
5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO
5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE
6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS
7. CONCLUSÃO
8. REFERÊNCIAS
2
1. INTRODUÇÃO
Qualquer organização precisa saber qual o seu público alvo e como ele se comporta, o
que pensa, quais os seus interesses, seus desinteresses, informações que possam ajudar a
empresa a traçar um perfil que auxilie no direcionamento de qual produto deve ser desenvolvido
ou qual abordagem deve ser adotada para se chegar ao cliente e com isso conquistá­lo a ponto
de se tornar um cliente ativo.
Coletar e avaliar esses dados, geralmente, demanda um certo esforço. Se for de forma
manual demanda um esforço cansativo, que exige um investimento considerável, um tempo
considerável e um alcance um tanto quanto limitado. Automatizar o processo de coleta seria
mais do que o ideal nesses casos.
As redes sociais estão ai para isso. Um ambiente no qual o usuário dispõe suas
informações de maneira natural, por vontade própria na maioria das vezes, sem ter que
necessariamente passar por um questionário por exemplo.
Conseguir a informação por meio das redes sociais é uma tarefa relativamente simples,
guardar e analisar apresentam com um grau de dificuldade maior.
As técnicas de mineração de dados possuem uma extensa gama de casos em que
podem ser utilizadas, um desses casos seria analisar o perfil de públicos.
O objetivo desse trabalho é explorar um pouco de como as técnicas de mineração de
dados aliadas as informações dispostas pelas redes sociais, fornecem um material de grande
interesse para qualquer empresa que esteja interessada em analisar e descobrir o
comportamento do público e com base nelas tomar medidas para evoluir.
3
2. DATA MINING
A mineração de dados percorre uma grande quantidade de dados e busca verificar
padrões e relacionamento entre dados que são gerados pelos diversos setores de uma
empresa e se agrupadas por algum tipo de relacionamento podem gerar novos grupos de
dados.
Esses novos grupos de dados são submetidos a algoritmos baseados em sistemas de
redes neurais resultando em uma nova informação que está associada a outro grupo de dados
que pode ser totalmente independente e gerado em um contexto diferente, gerando
comparações estatísticas entre eles.
O resultado deve mostrar que separados são apenas dados, mas depois da utilização
de alguma técnica de mineração de dados, a junção e comparação desses dois grupos gera
uma informação que talvez nunca fosse notada e que pode ser utilizado pelo usuário para
auxiliar no processo de tomadas de decisão pois com essas informações se tem o subsídio
necessário para determinar um padrão, um comportamento de certos grupos de dados.
4
3. REDES SOCIAIS
Uma mídia social é uma aplicação para a internet construída com tecnologias da Web
2.0, que permitem a criação e troca de conteúdo entre os usuários. A mídia social como um
todo é um conglomerado de diferentes tipos, incluindo meios tradicionais como jornal, rádio,
televisão e meios não tradicionais como Facebook, Linkedin, Twitter, etc.
As mídias sociais fornecem aos usuários uma forma fácil de se comunicar e se
conectar com os outros usuários, em uma escala e frequência sem precedentes nos meios
tradicionais. A expansão das mídias sociais é constante, resultando na evolução das redes
sociais, blogs, microblogs, e demais gerenciadores de conteúdo. O Facebook, um site de rede
social, registra mais de 1.11 bilhão de usuários ativos, segundo dados de Março de 20131 .
Existem alguns tipos de mídias sociais, sendo as principais:
●
Rede social online: São serviços web que permitem aos indivíduos e
comunidades se conectarem com amigos do mundo real e virtuais. Os usuários
interagem uns com os outros através de atualizações, comentários,
compartilhamento de mídia, mensagens, participação em grupos de discussão,
etc. Exemplos: Facebook, Linkedin.
●
Blog: São websites ao estilo de jornais que permitem aos usuários (autores do
blog) contribuírem de forma textual (multimídia).
●
Microblog: Possuem as mesmas características dos blogs, mas com limitação
de conteúdo. Exemplos: Twitter, Tumblr.
●
Wiki: São portais colaborativos que permitem que os usuários contribuam com o
conteúdo. Exemplos: Wikipedia, Wikihow.
●
Respostas: São sites que fornecem uma plataforma para usuários que
busquem por conselhos, sugestões, conhecimento, etc. possam realizar
perguntas. Os outros usuários da comunidade podem responder estas questões
baseando­se em suas próprias experiências ou em bases mais concretas.
Exemplos: Yahoo! Respostas, StackOverflow, WikiAnswers
4. MINERAÇÃO EM REDES SOCIAIS
1
Dados retirados de
http://news.yahoo.com/number­active­users­facebook­over­230449748.html
5
Enormes quantidades de conteúdo são geradas diariamente pelos usuários de mídias
sociais. Como esta quantidade tende a crescer, é essencial que os produtores, consumidores,
e fornecedores de serviços descubram maneiras de gerenciar e utilizar todos estes dados. O
crescimento das mídias sociais é guiado pelas seguintes questões: Como um usuário pode ser
ouvido? Qual fonte de informação um usuário deve usar? Como a experiência do usuário pode
ser aprimorada? As respostas para estas questões estão escondidas nos dados da mídia
social. Todos estes desafios e questões pendentes representam uma grande oportunidade para
a mineração de dados, visando o desenvolvimento de novos algoritmos e métodos com o foco
nas mídias sociais.
Os dados gerados nas mídias sociais são diferentes do tradicional formato de dados na
mineração de dados clássica. Estes dados são em sua maioria gerados por usuário de sites de
mídia social. Portanto, estes dados são extensos, distribuídos, não estruturados e dinâmicos.
Estas características fomentam o desafio para a criação de novas técnicas e algoritmos para a
mineração de dados voltada a este contexto.
Dependendo da mídia social, os dados podem ser bastante ruidosos. Remover este
ruído dos dados é essencial antes de executar a mineração em si. Os dados em mídias sociais
são distribuídos porque não existe uma autoridade central que retém os dados de todas os sites
de mídias sociais. Existe uma grande dificuldade, portanto, na identificação do fluxo desta
informação. Os dados das mídias sociais também não são estruturadas, fazendo com que se
torne um grande desafio realizar observações significativas quando estes dados, além de não
estruturados, vem de tantas fontes diferentes. Esta dificuldade fica ainda maior, quando se leva
em conta que os diferentes sites de mídias sociais podem possuir propósitos e públicos
extremamente diferentes.
Além disto, estes dados podem ajudar a entender o comportamento humano, e também
auxiliar empresas na divulgação de seus produtos ou serviços, fornecendo formas de encontrar
seu público alvo e maximizar o alcance de seus produtos.
4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS
Para a realização desta mineração de dados em mídias sociais, um dos focos que
6
podem ser abordados é referente a identificação de relacionamentos entre os usuários destas
mídias sociais. Desta forma, é possível calcular o nível de relacionamento entre estas pessoas,
levando em conta, por exemplo, o número de mensagens que estas pessoas trocam entre si.
Todo este processo pode ser realizado de forma automatizada, respeitando as seguintes
etapas:
●
Descobertas de nós: Identificar as relações entre as pessoas analisando as
referências entre elas, como citações em textos do nome ou e­mail. A
comparação pode ser feita termo a termo, identificando similaridades para
localizar estas referências dentro dos textos.
●
Identificação de coreferências: Possui o objetivo de identificar todas as formas
nas quais uma pessoa é referenciada, criando assim uma identidade pessoal
para cada pessoa. Esta técnica ajuda a diferenciar duas pessoas que possuem
o mesmo nome, por exemplo. Para tal, utiliza­se de técnica de aprendizagem de
máquina, que buscam por sintagmas nominais nos textos que possam
“individualizar” o nome de cada pessoa, identificando nomes de organizações e
objetos que teoricamente são particulares de cada pessoa. Também podem ser
analisadas semelhanças léxicas, semânticas, e outras características que
ajudem a criar esta identidade. Outra abordagem, seria analisar o contexto em
que os nomes das pessoas estão inseridos, partindo da premissa que pessoas
diferentes terão seus nomes citados em contextos diferentes.
●
Descoberta de conexões: Após a descoberta dos nós e a resolução de
pseudônimos (separação em nós únicos para cada pessoa), é realizada a
descoberta das reais conexões sociais entre cada uma destas pessoas (nós).
Para este objetivo, existem dois algoritmos principais e amplamente utilizados:
similaridade dos perfis e similaridade semântica.
○
Similaridade dos perfis: É uma comparação básica entre os pontos em
comum de cada perfil. Assim, são contabilizados os pontos em comum
entre cada nó, dando um “grau de afinidade” para cada relacionamento.
○
Similaridade semântica: É uma análise dos termos e frases existentes
em cada perfil. Dado um certo nível pré­definido de similaridade
semântica, duas pessoas podem estar relacionadas quando a
similaridade semântica entre elas estiver acima deste nível. Ou seja, os
perfis são analisados textualmente de forma semântica, buscando
7
semelhanças entre estas informações. Quanto maior o número de
semelhanças entre os textos, maior o nível de similaridade semântica.
5. QUESTÕES DE MINERAÇÃO EM REDES SOCIAIS
5.1 ANÁLISE COMUNITÁRIA
De acordo com a definição, uma comunidade é formada por indivíduos que interagem
frequentemente entre si, criando assim um circulo de interesses. Comunidades ou grupos
podem ser observadas através de conexões em redes sociais, uma vez que o foco destas
redes é permitir ao máximo esta expansão entre os usuários. É possível conectar com amigos
e encontrar novos usuários similares, além de outros grupos de pessoas. Estes grupos podem
ser classificados em implícitos e explícitos. Um grupo explícito possui identidade e pode ser
administrado de várias maneiras (público, moderado, privado). Já grupos implícitos emergem
naturalmente através de interações, ou seja, nem sempre possuem algum tipo de "rótulo".
Detecção, formação e evolução são problemas comuns durante a análise de um grupo.
Outro grande desafio está relacionado a subjetividade de uma comunidade, uma vez que a falta
de confiança pode dificultar na avaliação.
Há 4 métodos para detecção de comunidades e que permitem a análise de redes com
diferentes resoluções:
●
Centrado ao nó: onde cada nó satisfaz certas propriedades como um mutualidade
completa, alcançabilidade, grau de nó e frequência de ligações entre eles.
●
Centrado ao grupo: onde cada grupo precisa satisfazer certas propriedades.
●
Centrado a rede: onde grupos são formados baseado na partição da rede em
conjuntos disjuntos.
●
Centrado a hierarquia: onde o objetivo é criar uma estrutura hierárquica de
comunidade.
Redes sociais são altamente dinâmicas e seus grupos podem expandir, encolher e até
se dissolver. Desta forma, foi possível perceber padrões ao longo do tempo durante a evolução
8
de comunidades.
Um exemplo é em relação aos seus relacionamentos na rede. Quanto mais amigos
você tem em um grupo que não o pertence, mais propenso estará de entrar nele. Além de
grupos casuais crescem mais lentamente que aquelas que já estão altamente conectados.
5.2 ANÁLISE SUBJETIVA
Analise subjetiva tem como objetivo extrair automaticamente opiniões expressadas em
um conteúdo gerado pelo um usuário. Ferramentas de análise subjetiva permitem que
organizações entendam o feedback dos produtos, percepção de logo, percepção de um novo
produto, assim como reputação da própria empresa. Essas ferramentas ajudam a
compreender a opinião ou sentimento do usuário sobre os produtos em uma escala global. Há
vários sites de rede social exportando opiniões de usuários sobre produtos em diferentes
formatos. Monitorar essas opiniões relacionado a uma companhia em particular ou produto em
redes sociais é um novo desafio.
Este tipo de análise é difícil porque as linguagens usadas para criar conteúdo podem ser
ambiguas. Por isso, para se iniciar este tipo de análise é preciso:
●
Encontrar documentos relevantes.
●
Encontrar seções relevantes.
●
Encontrar opiniões em comum.
●
Quantificar as opiniões.
●
Formar uma visão global.
Objetos podem ser alvo de opiniões, estes são geralmente representados como um
conjunto finito de características, onde cada uma representa um grupo finito de sinônimos entre
palavras e frases. Podemos executar a mineração em vários níveis deste objeto, como o de
documento, sentença ou característica.
Extrair opiniões expressadas em sentenças comparativas pode ser uma tarefa difícil. Já
a avaliação de performance durante a análise de um conteúdo onde a veracidade não é
comprovada pode causar complicações também.
9
5.3 RECOMENDAÇÃO SOCIAL
Sistemas tradicionais de recomendação tentam recomendar produtos baseado na
classificação de produtos anteriores comprados pelos usuários. Um sistema de recomendação
social faz uso das informações sociais baseando­se na hipótese de que pessoas estão
socialmente conectadas e propensas a compartilhar interesses similares. Estes usuários
podem ser influenciados por amigos, onde preferem seguir as recomendações no seu
"newsfeed" ao invés de algo gerado randômico pelo site sem nenhum algoritmo de afinidade.
Os objetivos de uma recomendação social é melhorar a qualidade e eliminar o problema de
bombardeio de informações irrelevantes. Um exemplo de sistema de recomendação social é a
recomendação de livros baseado na preferência dos seus amigos. Quais livros já leram? Quais
estão lendo? Quais não gostaram? Estas informações podem ser encontradas através de
compartilhamentos no Twitter ou Facebook referenciando produtos da Amazon.
5.4 MODELAGEM INFLUENCIAL
Pesquisadores estiveram explorando a influência de interesses em comum entre
usuários de uma rede social. É importante saber a diferença entre uma rede social que é
dirigido por influência ou homofilia. Por exemplo, na indústria de propaganda, se uma rede social
é influente, então os usuários influentes deverão ser identificados e incentivados a promover
produtos ou serviços de membros da rede social. Entretanto, se a rede social é baseado em
homofilia, então estes grupos de usuários com o mesmo interesse deveriam ser diretamente
focado a promover vendas. A maioria das redes sociais tem a mistura dos dois. Por isso,
distinguir eles é desafiador.
5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO
Pesquisadores estudaram como a informação é difundida e exploraram diferentes
modelos de difusão de informação. Dentre eles há o modelo independente de cascata, limiar,
suscetível, contagiado, entre outros. Todos estes modelos foram estudados e aplicados para
analisar a propagação de rumores e vírus de computador por exemplo. Dois importantes
problemas do ponto de vista das redes sociais são como as informações propagam na rede e
quais fatores afetam sua dispersão. O primeiro problema continua aberto e é reconhecido como
10
chave para diferenciar rumores da verdade.
5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE
Barreiras fracas e o uso exagerado das mídias sociais trouxeram o aumento da
preocupação relacionada a privacidade e problemas de segurança entre os usuários. Com
esses desafios, novos perfis de usuários começaram a surgir:
●
Usuário liberal: gostaria de ter vários amigos e compartilhar o máximo possível para se
tornar influente na rede.
●
Usuário ideal: usa a rede apenas entre um circulo pequeno de usuários e não se
importa muito com a privacidade, mas também não se expõem na rede de forma
frequente.
●
Usuário radical: não gostaria que ninguém acessasse seus conteúdos e se limita a
interagir com pessoas desconhecidas.
Cada rede social tenta encorajar e facilitar que seus usuários encontrem uns aos outros
e expandam seus relacionamentos. Por isso que estas medidas geram novas ameaças a
segurança dessas empresas, pois para alcançar estes relacionamentos as pessoas precisam
expor diversas informações pessoais sucessivas a ataques.
Estas informações podem ser usadas para ataques indesejados feitos pelos próprios
usuários como stalking, cyberbulling, phishing, spamming, scamming, clickjacking, entre outros.
Outro fato interessante sobre o Facebook é que poucos usuários mudam a configuração
padrão de privacidade. Vários perfis de usuários estão completamente públicos sem os mesmo
os donos saberem disso.
Confiança social depende de vários fatores que não podem ser facilmente modelados
em um sistema computacional. Foi observado a confiança entre duas pessoas e concluiu
fatores como experiências passadas, opiniões expressadas e motivos de ganhar algo extra
influenciaram no resultado. Outro aspecto de confiabilidade está relacionado ao conteúdo
produzido pelo o usuário.
11
6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS
Com o crescimento das redes sociais e de suas aplicações cada vez mais informações
valiosas estão “escondidas” nos dados das redes sociais, estes se apresentam de forma vasta,
ruidosa, desestruturada, distribuída e dinâmica, portanto somente com uma mineração eficiente
é possível aproveitar ao máximo estas informações. A análise dos dados das redes sociais
possui meios/modelagens diferentes dependendo de qual domínio na rede social está sendo
explorado.
O uso tradicional da mineração em redes sociais está associado a campanhas
publicitarias, onde é estudado o perfil do usuário afim de se obter maior sucesso na oferta de
um produto ou serviço. Entretanto também é possível usar as redes sociais para outros fins,
um dos novos usos das redes sociais são as campanhas políticas, onde é buscado entender o
perfil dos eleitores e suas opiniões, dados chaves para o desenvolvimento de uma campanha.
Redes sociais também vem sendo usadas para organizar e promover movimentos sociais em
todo o mundo, analisando os dados é possível entender melhor estes movimentos, prever
quando acontecerão manifestações e até mesmo identificar elementos chaves dos
movimentos. Outro uso interessante de redes sociais é para recolher informações durante e
depois de crises ou desastres naturais, ferramentas como ASU Coordination Tracker e
TweetTracker se baseiam em palavras­chave, hashtags e na localização dos usuários para
minerar a rede, assim entendendo melhor o que está acontecendo em cada região e por
exemplo, identificando recursos que estão em falta e regiões mais afetadas.
12
7. CONCLUSÃO
As redes sociais vem se tornando cada vez mais importantes e populares no dia a dia
da sociedade, toda nova funcionalidade e aplicação das redes sociais criam um novo mar de
informações e interações que podem ser aproveitados de diversas maneiras. Neste trabalho
analisamos a mineração de dados aplicada a obtenção de conhecimento das redes sociais,
apresentando seus principais conceitos, métodos, problemas e diferenças.
Apesar das adversidades, a mineração de dados em redes sociais é uma area
consolidada que já gerou muitos resultados positivos, conforme as redes sociais vão se
desenvolvendo, as metodologias de mineração tendem a acompanhar o ritmo trazendo
resultados mais precisos e analises diferenciadas, como é o caso do ASU Coordination Tracker
e TweetTracker, que utilizam os dados das redes sociais de forma humanitária e não para fins
restritamente comerciais.
13
8. REFERÊNCIAS
http://pead.ucpel.tche.br/revistas/index.php/colabora/article/viewFile/132/115
http://www.public.asu.edu/~pgundech/book_chapter/smm.pdf
14
Download