ferramentas de web mining e seu uso na extração de informação

Propaganda
UNIVERSIDADE POTIGUAR – UNP
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM ADMINISTRAÇÃO - PPGA
MESTRADO PROFISSIONAL EM ADMINISTRAÇÃO - MPA
NICHOLLAS RENNAH ADELINO DE ALMEIDA
FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO
DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES
ESTRATÉGICAS
NATAL/RN
2012
NICHOLLAS RENNAH ADELINO DE ALMEIDA
FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO
DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES
ESTRATÉGICAS
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação
Stricto
Sensu em Administração da Universidade
Potiguar, como requisito para obtenção do
título de Mestre em Administração na área
de concentração em Estratégia e
Competitividade.
ORIENTADOR: Prof. Dr. Alípio Ramos
Veiga Neto
NATAL/RN
2012
NICHOLLAS RENNAH ADELINO DE ALMEIDA
FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO
DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES
ESTRATÉGICAS
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação
Stricto
Sensu em Administração da Universidade
Potiguar, como requisito parcial para
obtenção do título de Mestre em
Administração. Área de concentração:
Estratégia e Competitividade.
Aprovado em: 14/11/2012
BANCA EXAMINADORA
________________________________________________
Prof. Dr. Alípio Ramos Veiga Neto
Orientador
Universidade Potiguar- UnP
________________________________________________
Profª. Drª. Tereza de Souza
Membro Examinador
Universidade Potiguar- UnP
________________________________________________
Prof. Dr. Samuel Xavier de Souza
Membro Examinador Externo
Universidade Federal do Rio Grande do Norte - UFRN
AGRADECIMENTOS
Ao meu Deus, Jesus Cristo, pela sua misericórdia em está me concedendo
mais uma vitória na minha vida acadêmica e profissional. Sem Ele nada disso estaria
acontecendo.
À minha família, minha mãe Lucilene, minhas irmãs Niédja, Jéssica e Heloisa,
e, meu sobrinho Felipe que me deram estrutura para que eu pudesse me dedicar a
esse trabalho por inteiro.
À minha querida noiva e companheira Cibele Murinelli que amorosamente
esteve comigo durante todos os momentos nesse mestrado, dividindo, quando
possível, todas as situações alegres e difíceis nessa jornada, juntamente com sua
maravilhosa família que me propiciaram um convívio saudável e momentos de
relaxamento em meio a tantas tribulações.
Ao professor e orientador Dr. Alípio Veiga, meus sinceros agradecimentos,
pela orientação e confiança depositada.
Aos meus colegas da UFERSA nesse mestrado: Gilmar, Gilberto, Dairone,
Wilton, Daiane e Vanessa pela convivência e compartilhamento de muitos bons
momentos em nossas viagens.
Agradeço a todos que, direta ou indiretamente contribuíram para a realização
deste trabalho.
RESUMO
É cada vez mais frequente o surgimento de novas metodologias e instrumentos que
possibilitam a extração das informações de forma automatizada de grandes bases
de dados como as redes sociais. Dentre eles, encontram-se as ferramentas de
mineração Web (web mining) que possibilitam coletar, processar, analisar e
visualizar os dados dentre os comentários disponíveis nas redes sociais. Este estudo
teve o objetivo de investigar as ferramentas de mineração Web existentes no
mercado e quais informações elas oferecem aos gestores de marketing para tomada
de decisão estratégica em PMEs. Para tanto, foi realizada uma descrição das
características mercadológicas e das funcionalidades dos sistemas de mineração
Web encontrados, tais como as ferramentas de monitoramento de redes sociais
(MRS) e software de mineração de textos (MT) disponíveis na Internet em Junho de
2012. Como resultado, constatou-se que as ferramentas de MRS se mostraram mais
adequadas para a realização de coleta e análise dos dados, enquanto os software
de MT oferecem vantagem somente na etapa de processamento estatístico dos
textos, sendo necessária a utilização conjunta dos dois tipos de sistemas para uma
quantidade maior de dados. As informações mais disponibilizadas pelas ferramentas
de MRS são relacionadas a segmentação de usuários ou comentários, tais como a
análise de sentimento e a análise de tópico e temas. As informações sobre as ações
do concorrente foram pouco satisfatórias, pois as ferramentas não ofereciam
funções para que as suas marcas e as dos concorrentes fossem analisadas
paralelamente. É possível considerar que as ferramentas disponíveis de mineração
Web podem fornecer informações para tomadas de decisões estratégicas, no
entanto será necessária a presença de profissional de análise de redes sociais para
realizar os procedimentos de forma satisfatória.
Palavras-Chave: web mining, monitoramento de redes sociais, Sistema de
Informação de Marketing, mineração de texto, informações estratégicas.
ABSTRACT
It is increasingly common the appearance of new methodologies and tools that
enable the automatic extraction of information from large databases such as social
networks. Among them, there are web mining tools that enable to collect, process,
analyze and visualize data from comments available in social networks. This study
aimed to investigate the Web mining tools available in the market and what
information they provide to marketing managers for strategic decision making in
SMEs. Therefore, we described the market characteristics and functionalities of the
Web mining tools found, such as social networking monitoring tools (SNM) and text
mining software (TM) available on the Internet in June 2012. As a result, it was found
that the SNM tools were more suitable to perform the collection data analysis, while
the TM software offers advantage only in the stage of statistical processing of texts,
requiring the combined use of both types of systems for a larger amount of data. The
most of the information provided by SNM tools were related to users or comments,
such as sentiment analysis and analysis of themes and topic. The information about
the actions of competitor were unsatisfactory because the tools do not offer the
companies functions for their brands and the brands of the competitors to be
analyzed in parallel. It is possible to consider that the tools available for web mining
can provide information for strategic decision making, however it will require the
presence of a social network analysis professional to perform the procedures
satisfactorily.
Keywords: web mining, social network monitoring, Marketing Information Systems,
text mining, strategic information.
LISTA DE QUADROS
Quadro 1: Conceitos de Sistemas de Informação de Marketing............................... 18
Quadro 2: Modelos de SIM ....................................................................................... 20
Quadro 3: Atributos da qualidade da informação propostos por O´Brien (2004) ...... 28
Quadro 4: Tipos de informações estratégicas para as empresas............................. 32
Quadro 5: Técnicas e etapas da Mineração de texto................................................ 53
Quadro 6: Funcionalidades das ferramentas de MRS .............................................. 67
Quadro 7: Variáveis e Categorias Pertinentes aos Aplicativos de Análise de
Informações Sociais.................................................................................................. 68
Quadro 8: Lista de métricas de desempenho das ferramentas Web Analytics......... 69
Quadro 9: Características das ferramentas de MRS ................................................ 70
Quadro 10: Lista de funcionalidades das ferramentas de web mining...................... 74
Quadro 11: Lista de ferramentas de MRS ................................................................ 81
Quadro 12 - Lista de ferramentas de Mineração de Texto investigadas................... 85
Quadro 13: Relação entre as funcionalidades análise de dados com o formato de
visualização ............................................................................................................ 101
LISTA DE TABELAS
Tabela 1: Custo da ferramentas de MRS brasileiras ................................................ 82
Tabela 2: Custo da ferramentas de MRS internacionais........................................... 83
Tabela 3: Lista de ferramentas de MRS com disponibilidade de contas gratuitas .... 84
Tabela 4 - Menores valores cobrados pelas ferramentas de MT .............................. 86
Tabela 5: Maiores valores cobrados pelas ferramentas de MT ................................ 87
Tabela 6: Funcionalidades de coleta de dados nos software de MRS...................... 88
Tabela 7: Funcionalidades de processamento de dados nos software de MRS....... 91
Tabela 8: Funcionalidades de análise de dados nos software de MRS.................... 92
Tabela 9: Funcionalidades de visualização de dados nos software de MRS.......... 100
Tabela 10: Processamento de dados nos software de mineração de textos .......... 102
Tabela 11: Itens coletados para exemplificar o uso dos software de MT................ 102
Tabela 12: Redução de termos por técnica de processamento de texto ................ 105
Tabela 13: Lista de termos e clusters gerados no exemplo.................................... 106
LISTA DE FIGURAS
Figura 1: Tripé do Sistema de Informação de Marketing .......................................... 17
Figura 2: Modelo de SIM proposto por Chiusoli (2005)............................................. 21
Figura 3: Dimensões das especificidades de gestão da pequena empresa ............. 35
Figura 4: Categorias da Mineração Web .................................................................. 38
Figura 5: Exemplo de aplicação de Case Folding..................................................... 42
Figura 6: Exemplo da aplicação de stoplist............................................................... 42
Figura 7: Exemplo de aplicação de Stemming.......................................................... 43
Figura 8: Processo de indexação automática ........................................................... 45
Figura 9: Tipos de agrupamentos ............................................................................. 49
Figura 10: Modelo de classificação de documentos ................................................. 50
Figura 11: Demonstração do cálculo de precisão e cobertura .................................. 53
Figura 12: A evolução das ferramentas na Internet ................................................. 55
Figura 13: Cronologia do ano de lançamento das rede social entre 1997 a 2008. ... 57
Figura 14: Página principal do Facebook - Perfil do criador Mark Zuckerberg ......... 59
Figura 15: Tela do Twitter ........................................................................................ 60
Figura 16: Fases da pesquisa................................................................................... 72
Figura 17: Exemplo de tela de coleta e resgate dos dados ...................................... 89
Figura 18- Exemplo de gráfico de estatística de mídia ............................................. 93
Figura 19: Exemplo de Tela de filtragem de dados................................................... 93
Figura 20: Tipos de gráficos gerados a partir da filtragem de dados ........................ 94
Figura 21: Exemplo de comentário com classificação de sentimento errada .......... 95
Figura 22: Exemplo de um gráfico de análise de sentimento ................................... 95
Figura 23: Exemplo de gráfico de análise de tópicos e temas .................................. 96
Figura 24: Exemplo de lista e nuvem de palavras .................................................... 97
Figura 25: Exemplo de lista de usuários influenciadores .......................................... 97
Figura 26: Exemplo de gráfico de análise de concorrentes ...................................... 99
Figura 27: Exemplo de interface pipeline utilizada nos software MT ...................... 103
Figura 28: Exemplo do fluxo de normalização dos dados....................................... 104
Figura 29: Exemplo da visualização de cluster em gráfico de rede ........................ 107
Figura 30 - Exemplo de lista de palavras por cluster .............................................. 108
LISTA DE ABREVIATURAS E SIGLAS
AMA
CRM
CSV
FIPE
HTML
IBGE
IC
MT
MRS
PME
RI
SCIP
SEBRAE
SIM
SVM
TF
TF-IDF
TI
XML
WWW
American Marketing Association
Customer Relationship Management
Comma-separated values
Fundação Instituto de Pesquisas Econômicas
HyperText Markup Language
Instituto Brasileiro de Geografia e Estatística
Inteligência Competitiva
Mineração de textos
Monitoramento de redes sociais
Pequenas e médias empresas
Recuperação da informação
Society of Competitive Intelligence of Professionals
Serviço de Apoio às Micro e Pequenas Empresas
Sistema de Informação de Marketing
Support Vector Machine
Term Frequency
Term Frequency – Inverse Document Frequency
Tecnologia da Informação
eXtensible Markup Language
World Wide Web
SUMÁRIO
1 INTRODUÇÃO ..................................................................................................... 11
1.1 QUESTÃO DE PESQUISA................................................................................. 13
1.2 OBJETIVOS ....................................................................................................... 13
1.2.1 Objetivo Geral............................................................................................... 13
1.2.2 Objetivos Específicos .................................................................................. 13
1.3 JUSTIFICATIVA ................................................................................................. 14
2 SISTEMA DE INFORMAÇÃO DE MARKETING.................................................. 15
2.1 CONCEITO......................................................................................................... 16
2.2 MODELOS DE SISTEMAS DE INFORMAÇÃO DE MARKETING ..................... 19
2.2.1 Subsistema de Pesquisa de Marketing ...................................................... 21
2.2.2 Subsistema de Inteligência Competitiva .................................................... 24
2.3 INFORMAÇÃO NO PROCESSO DE TOMADA DE DECISÃO .......................... 27
2.3.1 Fontes dos dados e informações ............................................................... 29
2.3.2 Coleta de dados na internet ........................................................................ 35
3 MINERAÇÃO WEB .............................................................................................. 37
3.1 CATEGORIAS DA MINERAÇÃO WEB .............................................................. 38
3.2 ETAPAS DA MINERAÇÃO DE CONTEÚDO NA WEB ...................................... 39
3.2.1 Etapa de Pre-processamento ...................................................................... 40
3.2.2 Etapa de Processamento (Tarefas da Mineração de texto) ...................... 44
3.2.3 Etapa de Pós-processamento ..................................................................... 52
4 MINERAÇÃO WEB NAS REDES SOCIAIS......................................................... 54
4.1 REDES SOCIAIS................................................................................................ 54
4.1.1 Facebook....................................................................................................... 58
4.1.2 Twitter ........................................................................................................... 59
4.2 O COMPORTAMENTO DOS USUÁRIOS NAS REDES SOCIAIS..................... 61
4.3 PROCESSO DE MINERAÇÃO WEB NAS REDES SOCIAIS ............................ 63
4.3.1 Monitoramento das redes sociais............................................................... 63
4.3.2 Processo de monitoramento de redes sociais .......................................... 65
4.3.3 Pesquisas sobre monitoramento de redes sociais ................................... 66
5 METODOLOGIA................................................................................................... 71
5.1 TIPO DE PESQUISA .......................................................................................... 71
5.2 FASES DA PESQUISA ...................................................................................... 71
5.3 PARÂMETROS PARA ESCOLHA DAS FERRAMENTAS DE MINERAÇÃO WEB
72
5.3.1 Universo e Amostra ..................................................................................... 73
5.3.2 Seleção de variáveis .................................................................................... 73
5.4 TRATAMENTO DOS DADOS ............................................................................ 79
6 RESULTADOS ..................................................................................................... 81
6.1 DESCRIÇÃO DAS CARACTERÍSTICAS MERCADOLÓGICAS DAS
FERRAMENTAS....................................................................................................... 81
6.1.1 Ferramentas de Monitoramento de Redes Sociais (MRS) ........................ 81
6.1.2 Ferramentas de Mineração de Texto (MT).................................................. 84
6.2 DESCRIÇÃO FUNCIONAL DAS FERRAMENTAS SELECIONADAS ............... 88
6.2.1 Ferramentas de Monitoramento de redes sociais (MRS).......................... 88
6.2.2 Ferramentas de Mineração de textos (MT)............................................... 101
7 CONSIDERAÇÕES FINAIS ............................................................................... 110
REFERÊNCIAS ...................................................................................................... 113
11
1
INTRODUÇÃO
O cenário atual do mundo corporativo tem se pautado em um ambiente
bastante competitivo, no qual se torna necessário o uso de informações adequadas
para tomar decisões estratégicas. A informação como apoio para tomadas de
decisões é um assunto muito explorado na literatura de estratégia de marketing, no
entanto, a necessidade de decidir com rapidez leva vários gestores a tomar suas
decisões baseadas somente em sua própria experiência. Encontrar a informação
pontual e adequada pode ser um problema frente a quantidade de dados que são
disponibilizados nos mais diversos meios de armazenamento eletrônico. A
informação existe, porém, percebe-se que poucos executivos estão amparados por
técnicas apropriadas para coletá-las e processá-las de modo rápido e prático que
possibilite a manutenção de sua posição competitiva no mercado. Evidencia-se a
necessidade de um sistema que avalie as necessidades de informação dos gestores
e as obtenha de maneira oportuna para melhorar a eficácia da tomada de decisão.
Para as pequenas e médias empresas (PME) que apresentam características
específicas de decisão, direção e organização em relação às grandes empresas,
precisando se adaptar às práticas estratégicas contemporâneas para sobreviver no
mundo competitivo, a utilização de sistemas automatizados de coleta de informação
pode fazer diferença para o sucesso.
As PME’s contribuem de forma relevante no desenvolvimento e na economia
de uma região, no entanto, assim como nas grandes empresas, gerir um pequeno
negócio exige uma série de desafios que precisam ser vencidos. As soluções para
resolução de problemas e tomadas de decisão, embora se pareçam comuns entre
esses tipos de empresas, têm caminhos diferentes para serem solucionados. É
constante encontrar ferramentas que originalmente foram desenvolvidas para as
grandes empresas, sendo aplicadas às PMEs. A literatura sobre estratégia para
pequenas empresa é muito influenciada por duas abordagens: uma de perspectiva
econômica e outra empreendedora. Ao longo do tempo, a abordagem de natureza
econômica tem predominado, no entanto, a de natureza empreendedora surge
atualmente com forte influência do comportamento individual sobre o processo de
formação da estratégia na prática. Nesse contexto, a informação surge como um
subsídio importante na estratégia empresarial e no auxílio das tomadas de decisões.
O desafio é tornar as informações que estão dispersas dentro e fora da organização
12
úteis para a execução de práticas estratégicas mais próximas do cotidiano das
PME’s.
Atualmente, a Internet surge como um ambiente democrático no qual a
informação pode ser gerada, armazenada, distribuída e coletada de diversas
maneiras. Novas ferramentas possibilitam que usuários criem gratuitamente seus
próprios conteúdos digitais, o que contribui para o aumento da quantidade de
informações disponíveis. Esse crescimento exige que torne cada vez mais
necessário o uso mecanismos eficazes e eficientes para recuperação de
conhecimentos úteis da web. Um exemplo do crescimento da internet é o surgimento
das redes sociais digitais, no qual seus usuários geram e disseminam suas opiniões,
comportamentos e desejos sobre os mais variados assuntos. Por querer saber
“como as pessoas pensam” a respeito de suas marcas, produtos e serviços, as
empresas passaram a dar maior atenção para o que os seus clientes estão
relatando nas redes sociais, resolvendo críticas e coletando elogios e sugestões
para seus negócios.
As redes sociais digitais podem mostrar como determinado grupo de
seguidores reage a uma ação de marketing. A postura dos consumidores frente ao
comportamento das empresas pode surgir como um sinalizador de mudanças de
cenários e, neste caso, os empresários procurariam posicionar melhor seus
negócios no mercado para atrair consumidores mais exigentes (PORTER, 2005). Os
dados coletados e processados das redes sociais digitais podem constituir uma fonte
de vantagem competitiva, proporcionando às empresas mais informações para uma
estratégia mais próxima dos desejos desse segmento de consumidores. Com o
avanço tecnológico por meio da Internet e o desenvolvimento de sistemas
específicos para gestão de informações, a área de marketing passou a contar com
uma estrutura tecnológica para extrair dados da Web e definir estratégias de
mercado de acordo com o processamento desses dados. Grandes empresas, devido
a seu bom aporte financeiro e tecnológico, são capazes de coletar e processar
informações por meio de sistemas mais robustos, no entanto, para as pequenas e
médias empresas esse papel ainda se restringe a processamentos manuais de
coleta de dados (CHIUSOLI, 2010). Apesar das informações poderem ser obtidas de
forma manual na Internet, devido a sua grande quantidade, a forma mais adequada
de extrair essas informações seria por meio de procedimentos automatizados de
13
mineração de dados na Internet, conhecida como Web Mining. O objetivo desta
técnica no marketing é vasculhar grandes bases de dados na Internet pela busca de
padrões escondidos, extraindo informações ocultas dos consumidores e úteis para a
tomada de decisões de negócios.
1.1
QUESTÃO DE PESQUISA
A partir das considerações anteriores buscou-se responder a seguinte
questão:
●
Quais as ferramentas de mineração Web existentes no mercado e quais
informações elas oferecem aos gestores de marketing para tomada de
decisão estratégica em PMEs?
1.2
OBJETIVOS
1.2.1 Objetivo Geral
Investigar as ferramentas de mineração Web existentes no mercado e quais
informações elas oferecem aos gestores de marketing para tomada de decisão
estratégica em PMEs.
1.2.2 Objetivos Específicos
Como objetivos específicos foram propostos:
●
Levantar as principais ferramentas de mineração Web disponíveis até
junho de 2012;
●
Descrever e comparar as características mercadológicas de cada
ferramenta;
●
Descrever e comparar as funcionalidades de cada ferramenta;
●
Identificar possíveis tratamentos estatísticos a que os dados coletados
possam ser submetidos.
14
1.3
JUSTIFICATIVA
As informações e opiniões disponibilizadas a cada momento na Internet pelos
consumidores despertam o interesse das empresas em coletá-las e utilizá-las como
fonte de vantagem competitiva. Diante dessa crescente forma de obter
conhecimento, surgem a cada ano novas metodologias e ferramentas que consigam
extrair as informações de forma inteligente de grandes bases de dados, como as
redes sociais digitais na Internet. Elicitar dados da Internet de forma manual pode
ser um trabalho muito custoso e demorado para quem o realiza, principalmente
quando se trata de pesquisas feitas por meio de questionários, no qual o
pesquisador fica na dependência da dedicação dos indivíduos alvo da pesquisa.
Existem poucas pesquisas sobre a coleta de dados inteligentes da Internet, no
entanto, abordagens sobre mineração de texto e mineração Web se apresentam
como meios alternativos para coleta e analise de texto em forma de opinião nas
redes sociais.
Esta pesquisa se justifica pela crescente utilização das redes sociais por parte
dos consumidores e pelo surgimento de ferramentas de mineração de dados na
Internet como alternativa para extrair informações oriundas da fonte de informação
externa dos Sistemas de Informação de Marketing (SIM), no qual o objetivo é auxiliar
os gestores de empresas na obtenção de informação que possa servir de base para
tomadas de decisões estratégicas. Para a ciência, esse trabalho pode significar um
caminho alternativo ao questionário convencional para coletar informações para
pesquisas científicas. Para a área do marketing, assinala como um meio
complementar
de
extrair
informações
sobre
mercados
e
especificadamente os usuários internautas das redes sociais digitais.
consumidores,
15
2
SISTEMA DE INFORMAÇÃO DE MARKETING
A informação pode ser considerada o insumo principal para o planejamento
de marketing no processo de tomada de decisão estratégica. Em suas
argumentações, Porter (2005) defende que a informação é uma fonte de vantagem
competitiva para as empresas, pois as que detêm conhecimento sobre sua cadeia
de valor, concorrente e sobre o mercado, podem tomar decisões baseadas em
estratégias menos abstratas e mais tangíveis, resultando em um desempenho mais
sólido no mercado competitivo. No entanto, Chiusoli (2005) argumenta que nem
todas as empresas conseguem encontrar informações em tempo hábil para tomada
de decisão rápida. O resultado disso são deliberações baseadas somente na
experiência do empresário. Como alternativa para sanar esse problema, Gounaris,
Panigyrakis e Chatzipanagiotou (2007) sugerem que as empresas monitorem
constantemente o ambiente de marketing para obter proveito das informações
disponibilizadas. Chiusoli (2005) acrescenta que as empresas que mais se
adequarem a essa nova estrutura de informação de marketing, antecipando o
quadro de mudanças de cenários, se posicionarão no mercado de forma mais
favorável.
Segundo Mattar (2008), a problemática da informação de marketing foi
abordada no período que antecedeu a primeira metade da década de 1960 através
da pesquisa de mercado, que estava voltada para o ambiente externo à empresa,
mais especificamente para o mercado. No entanto, o autor ressalta que a
necessidade de informação para o planejamento e controle de marketing é muito
mais ampla e implica a busca de informações em inúmeras outras fontes, inclusive
no próprio ambiente interno à empresa. Ele critica as pesquisas da época por
produzir dados irrelevantes, preocupando-se apenas com problemas não repetitivos,
que considerava um ato falho na promoção de informações de marketing. Na
segunda metade da década de 1960 com o advento da teoria dos sistemas, a
problemática da informação de marketing passou a ser tratada de forma mais ampla,
integrada e sistemática pelos autores de marketing. O controle do fluxo da
informação foi defendido também por Fletcher e Wheeler (1989) que argumentavam
que era necessário obter os dados de forma sistemática em um formato padronizado
apropriado para que os gestores tomem decisões em tempo real. Na década de
1980, apesar de ter havido um processo de valorização da informação de mercado,
16
Miniotti (1992) notava que no Brasil os gestores ainda utilizavam as informações de
forma inadequada, pois eram poucos que após a coleta sistemática de dados
conseguiam armazená-los e transformá-los em informações importantes. Além
disso, Chiusoli (2005) acreditava que mesmo após 20 anos, provavelmente ainda
poucas empresas conseguiam tomar decisões gerenciais baseadas em informações
coletadas por meio de procedimentos estruturados. Divergindo dessa posição, Star e
Reynolds (2006) argumentam que depois dos trabalhos originais de Michael Porter,
houve um amadurecimento no uso sistemático da informação por parte das
empresas (PORTER, 2005). Elas compreenderam como os sistemas de informações
podem ser usados para melhorar a efetividade organizacional e dar suporte à
estratégia fundamental do negócio.
A definição de sistemas de informação de marketing (SIM) foi ao longo do
tempo caminhando do contexto tecnológico e técnico para conceitos mais
gerenciais, relacionadas a objetivos e resultados organizacionais (WIERENGA;
BRUGGEN, 2000). O autor afirma ainda que a busca por novas tecnologias da
informação (TI) é uma forma alternativa para se adaptar à nova realidade do
mercado que necessita de informações rápidas e precisas. Corroborando com essa
afirmação, Khauaja e Campomar (2007) argumentam que para lidar com o aumento
do fluxo de informação, interno e externo, as organizações precisam tirar proveito
das oportunidades oferecidas pela TI. Elas devem identificar de que forma a
tecnologia da informação pode criar vantagem competitiva, visto que TI afeta todas
as camadas da cadeia de valor, integrando o fornecedor ao cliente, percorrendo as
unidades estratégicas da empresa, incluindo o marketing. Daniel, Wilson e
McDonald (2003) enfatizam que o suporte de TI ao planejamento de marketing pode
ajudar no uso das ferramentas de marketing e facilitar o planejamento contínuo.
Percebe-se que a TI pode oferecer recursos capazes de auxiliar no processo de
obtenção de informação de valor nas decisões estratégicas, independente se as
fontes de dados são internas ou externas à empresa.
2.1
CONCEITO
Antes de apresentar os conceitos sobre Sistemas de Informação de Marketing
(SIM) encontrados na literatura, vale ressaltar o significado das três sentenças
17
separadas que compõem esse termo: sistema, informação e marketing. Mayros e
Werner (1982) foram os primeiros a designar esse tripé como base para o
entendimento global do SIM, como ilustrado na Figura 1.
Figura 1: Tripé do Sistema de Informação de Marketing
Sistema de Informação de Marketing
Sistema
Unifica o processo de troca
de informações entre os
departamentos e as três
áreas funcionais da
empresa: Estratégia, tática
e operacional.
Informação
Consiste em dados
selecionados e
processados utilizados na
tomada de decisões.
Marketing
Decisões sobre
consumidores, mercado,
produto, força de vendas.
Fonte: Adaptado de Mayros e Werner (1982)
O primeiro elemento do tripé é o sistema, que segundo Stair e Reynolds
(2008) é um conjunto de elementos interrelacionados e interdependentes que visam
atingir um objetivo comum. O´Brien (2004) cita as organizações empresariais como
exemplo de sistemas, no qual é composto por três componentes básicos: entrada,
processamento e saída. As entradas alimentam o processador do sistema que
armazena e transforma a entrada em uma saída. Assim, as empresas como
sistemas organizacionais podem utilizar os seus recursos econômicos (entradas)
transformando-os por vários processos (processamento) e gerando resultados em
forma de bens e serviços (saídas).
O segundo elemento do tripé do SIM é a informação, que Laudon e Laudon
(2007) definem como dados apresentados em uma forma significativa e útil para os
seres humanos. Para Robic (2003), a informação torna-se um recurso cada vez mais
importante no dia a dia das empresas, principalmente para a área de marketing.
O terceiro e último elemento do SIM é o marketing, que para a American
Marketing Association (AMA) é uma função organizacional e um conjunto de
processos para a criação, comunicação e entrega de valor aos consumidores e para
administração do relacionamento com os consumidores de forma que beneficie a
organização e seus stakeholders (AMA, 2012).
18
Para Campomar e Ikeda (2006), nesse tripé o sistema mantém a estrutura
dos componentes utilizados (dados, informações, modelos estatísticos, relatórios
gerenciais), a informação é decorrente da transformação desses dados e o
marketing gera novas demandas de análises de mercado que são trabalhados pelo
SIM. Com os conceitos independentes do sistema, informação e marketing expostos,
a literatura aborda definições semelhantes e complementares sobre os sistemas de
informação de marketing (SIM). Para facilitar a visualização elaborou-se um quadro
contendo a evolução dos principais conceitos a respeito do SIM (Quadro 1).
Quadro 1: Conceitos de Sistemas de Informação de Marketing
Autor
Conceito
Cox e Good
(1967)
Um campo de procedimentos e métodos formal de um plano de coleta de
dados, análise e apresentação das informações para tomada de decisões de
marketing.
Mayros e Werner
(1982)
Um conjunto de dados organizados que é analisado por meio de modelos
estatísticos.
Semenik e
Bamossy (1995)
Um complexo estruturado de pessoas e máquinas, projetado para gerar
informações relevantes a partir de fontes externas e internas da empresa para
dar suporte ao processo decisório de marketing.
McCarthy (1997)
Um modo organizado de reunir e analisar continuamente dados para serem
oferecidos aos gerentes de marketing, na forma de informações para a tomada
de decisões.
Sandhussen
(1998)
Uma estrutura contínua e em interação de pessoas, equipamentos e
procedimentos para juntar, classificar, avaliar e distribuir informações
pertinentes, oportunas e precisas para o uso por tomadores de decisão de
marketing para melhorar o planejamento, a execução e o controle de marketing.
Mattar e Santos
(1999) e
Kotler (2000)
É a constituição de pessoas e empresas, equipamentos e procedimentos para
coleta, classificação, análise, avaliação e distribuição de informações
necessárias de maneira precisa e oportuna para os que necessitam tomar
decisões de marketing.
Wierenga e
Bruggen (2000)
São sistemas de suporte à decisão de marketing, combinando tecnologia da
informação, capacidades analíticas, dados de marketing e conhecimento de
marketing, de modo a tornar possível aos tomadores de decisão de marketing
um incremento da qualidade na gestão do marketing.
Malhotra (2001)
Um conjunto formalizado de procedimentos que geram, analisam, armazenam e
distribuem, de modo permanente, informações aos executivos responsáveis
pelas tomadas de decisões de marketing.
“Um modelo de interface entre pessoas com uso de equipamentos sofisticados
que obtêm informações relevantes por meio de tratamento de dados
estatísticos, oriundo de dados de pesquisa de marketing, da inteligência de
Chiusoli (2005, p. marketing e dos registros internos da empresa, cuja execução e coleta de dados
43)
é realizada de forma sistemática e planejada, com posterior processamento e
formatação dos dados transformados em informações que geram relatórios
analíticos auxiliando o responsável a tomar decisões de marketing de maneira
mais adequada e acertada.”
Fonte: Elaborado pelo autor
19
Percebe-se que os elementos envolvidos nos conceitos de sistemas de
informação de marketing são as pessoas, equipamentos e procedimentos. A entrada
desse sistema é composta pelos dados coletados sobre o ambiente de marketing
(interno e externo), no qual são processados e resultam em informação como saída
do sistema. O objetivo comum é centrado no suporte ao plano de marketing e no
auxílio do gerenciamento das informações da empresa, permitindo que os gestores
tenham um suporte nas suas tomadas decisões.
2.2
MODELOS DE SISTEMAS DE INFORMAÇÃO DE MARKETING
Existem diversos modelos de sistemas de informação de marketing e Chiusoli
(2005) aborda em seu trabalho 22 extraídos da literatura. Ao final da sua pesquisa, o
autor sugere seu próprio modelo. Buscando apresentar de forma suscinta esses
modelos, optou-se por ilustrar em forma de quadro (Quadro 2) um resumo contendo
as contribuições dos autores de marketing apresentados por Chiusoli (2005) quanto
aos modelos de sistemas de informação de marketing e suas principais
características.
Chiusoli (2005) apresenta uma proposta de um modelo de SIM aplicado às
atividades estratégicas que engloba as principais características dos modelos
estudados. O modelo apresenta as fontes de dados provenientes do ambiente
externo e interno de marketing. As entradas podem ter informações originadas a
partir dos dados internos da empresa, pesquisa de marketing e inteligência
competitiva. Posteriormente os dados são processados e ficam dispostos na etapa
de tomada de decisão, dividido em uma estrutura de marketing (planejamento,
segmentação e posicionamento do produto ou serviço) e subsistemas de saída
(decisões de produto ou serviço, preço, canal e comunicação). O foco é transformar
os dados, outrora sem sentido, para uma estrutura capaz de prover informações
adequadas para os executivos se basearem nas tomadas de decisões estratégicas.
A Figura 2 mostra a diagramação desse modelo proposto por Chiusoli (2005).
20
Quadro 2: Modelos de SIM
MODELOS/ AUTORES
CARACTERÍSTICA
KOTLER, 1968
Um dos primeiros modelos de SIM na literatura que visa melhorar a
qualidade da informação.
KOTLER, 1998
Um dos modelos mais conhecidos, obtem informações do ambiente
de marketing (mercado-alvo, canais, concorrência e forças macro
ambientais).
McCARTHY, 1997
Elementos do sistema de informação de marketing.
BRIEN & STAFFORD, 1968
Processo gerencial de marketing e fluxo de informações
SCHOENBACHLER &
O'BRIEN & GORDON, 1995
Processo de avaliação de um SIM.
SISODIA, 1992
SIM voltado para serviços
AMARAVADI & SAMADDAR
& DUTTA, 1995
Relaciona o SIM com oito fontes informacionais.
LI & MCLEOD & ROGERS,
2001
Estrutura do SIM
KIMBAL, 1996
Componentes básicos de um SIM.
UHL, 1974
Modelo em forma de espiral com três subsistemas.
MATTAR E SANTOS, 1999
Componentes dos SIM.
MINCIOTTI, 1992
O SIM é composto por fluxos de informações.
ROCHAS E COQUARD,
1972
Relação entre SIM e plano de marketing
HALLOWAY E HANCOCK,
1973
Relação entre SIM e funções gerenciais.
MAYROS E WERNER, 1982
Relação entre o SIM e o gerente de marketing.
TALVINEN, 1995
Relação entre vários sistemas de informação voltados para
processar informações de marketing.
SEMENIK E BAMOSSY,
1995
Utiliza as pesquisas de mercado e dados internos como fontes
básicas para a entrada do SIM.
LITTLE, 1979
Componentes do SIM
LAMBIN, 2000
Estrutura do SIM
SANDHUSSEN, 1998
SIM e Gerente de Marketing
MONTGOMERY E URBAN,
1969
O SIM como um elo entre o administrador e o ambiente.
TULL & HAWKINS, 1993
A natureza do SIM
Fonte: Adaptado de Chiusoli (2005)
O destaque na Figura 2 para as fontes de dados externas compostas do
subsistema de pesquisa de marketing e do subsistema de inteligência competitiva se
dá pelo fato desta dissertação abordar os aspectos das fontes oriundas do ambiente
21
da Internet, neste caso, as fontes externas do SIM. Essas fontes podem ser
subdivididas em Subsistema de Pesquisa de Marketing e Subsistema de Inteligência
de Marketing. O primeiro consiste nos esforços de coleta e análise de dados por
meio de estudos de levantamento de campo junto aos atuais clientes e potenciais
consumidores com a finalidade de descobrir informações relevantes sobre uma
situação específica de marketing da empresa. O Subsistema de Inteligência de
Marketing ou Inteligência Competitiva tem o objetivo de transformar dados coletados
do ambiente competitivo em elementos de inteligência estratégica para suporte da
tomada de decisões (Grisi et al, 2001).
Figura 2: Modelo de SIM proposto por Chiusoli (2005)
Fontes de
dados
Subsistemas de
entradas
Processamento dos
dados de entradas
Decisões de marketing
Subsistema
base de dados
internos
Decisões de
produto e
serviço
Ambiente
Externo
Subsistema
de
Inteligência
de marketing
Segmentação e Posicionamento
Subsistema
de pesquisa
de marketing
Sistema de
apoio a
decisões de
marketing
Planejamento e Estrutura
Ambiente
interno
Tomador
de decisão
Decisões de
canal
Executivo
de
marketing
Decisões de
preço
Decisões de
comunicação
Fonte: Adaptado de Chiusoli (2005)
2.2.1 Subsistema de Pesquisa de Marketing
A maioria dos modelos de SIM apresentados no Quadro 2 aponta o elemento
pesquisa de marketing com grande relevância. A pesquisa de marketing é uma das
formas mais utilizadas de se obter informações para tomadas de decisões. Mattar
22
(2008) a considera como uma ferramenta importante na alimentação de dados e
monitoramento do ambiente de marketing. O objetivo da pesquisa de marketing,
segundo o autor, é descobrir fatos, atitudes e opiniões por meio de uma investigação
sistemática, controlada e crítica dos dados. É possível também identificar e
solucionar problemas e oportunidades de marketing, ligando o consumidor, cliente e
o público com o homem de marketing por meio da informação (MALHOTRA, 2001).
Geralmente as grandes empresas contam com um setor estruturado para a
realização das pesquisas de marketing, enquanto outras podem contratar empresas
terceirizadas para realizar esse serviço.
A primeira etapa para a realização de uma pesquisa de marketing é definir o
problema e os objetivos da pesquisa. Definir corretamente o problema significa
entender e explicitar quais os problemas ou oportunidades de marketing que geram
a necessidade de informação para tomada de decisão. Chiusoli (2001) julga essa
etapa como a mais difícil, pois o gerente pode perceber algo errado sem saber o que
exatamente está causando essa situação.
A segunda etapa é o desenvolvimento do plano de pesquisa para a coleta das
informações. Este plano deve conter as fontes de informação, o detalhamento das
abordagens específicas da pesquisa e forma de contato. A coleta de dados
necessários que o gerente de marketing precisa obter pode ser realizada por meio
de dados primários, secundários ou de ambas as formas de coletas. De acordo com
Mattar (2008), os dados primários têm a característica de não terem sido coletados
antes e tem o objetivo de atender as necessidades específicas da pesquisa em
andamento. Já os dados secundários, se caracterizam por terem sido coletados
antes, tabulados, ordenados e muitas vezes até analisados e que estão catalogados
à disposição dos interessados, como por exemplo, os dados oriundos de órgãos
governamentais como o IBGE, SEBRAE, FIPE ou fontes de negócio como guias,
anuários, Internet etc. (KOTLER; ARMSTRONG, 2003).
Diferentemente da abordagem para coletar dados secundários que já existem,
os dados primários exige um esforço maior, pois será necessário realizar uma série
de procedimentos para coletá-los, como mostrado por Kotler e Armstrong (2003).
Para levantar esse tipo de dado é preciso definir: a) abordagem da pesquisa
(observação, levantamento, pesquisa experimental); b) métodos de contato (Correio,
telefone, pessoal, Internet); c) plano de amostragem (unidade de amostragem,
23
tamanho da amostra e procedimentos de amostragem); e d) procedimentos de
pesquisa (Questionário ou instrumentos mecânicos).
Como visto, é possível coletar dados primários e secundários do ambiente da
Internet. Kotler e Armstrong (2003) argumentam que o método de contato pela
Internet tem como ponto forte a economia de tempo e dinheiro, pois proporciona
uma rapidez na coleta dos dados e muitas vezes a custo zero. Como ponto fraco o
autor cita a falta de controle sobre a amostra que é deficitária. Como pontos que
precisam ainda ser levados em conta, a Internet proporciona uma boa flexibilidade
na coleta dos dados, quantidade de dados que podem ser coletados e a taxa de
resposta. Malhotra (2001) corrobora com algumas afirmações de Kloter e Armstrong
(2003), mas discorda quanto à taxa de respostas. Ele afirma que a maior
desvantagem de coletar dados primários na Internet por meio de pesquisa de
marketing é a baixo índice de respostas aos questionários enviados aos indivíduos.
Um dos motivos para esse baixo índice é a falta de interesse do indivíduo, que ao
ser abordado por meio de e-mail para acessar um questionário online lhe falta
estímulo para respondê-lo naquele momento, deixando pra depois até “cair no
esquecimento”. Esse fator pode ser minimizado utilizando as redes sociais para
aproximar o pesquisador do público-alvo escolhido. Segundo Ribeiro (2009), as
estabilidades encontradas no desenvolvimento das pesquisas, associadas aos
dados coletados por questionários, mostram que a utilização dos sites de redes
sociais está intensamente relacionada com as práticas sociais cotidianas. Pesquisas
de ótica psicossocial também atestam estas afirmações, ao observar como algumas
dinâmicas de interação social observadas na comunicação face-a-face são
reproduzidas e outras são reconfiguradas nos ambientes online.
A terceira etapa para a pesquisa de marketing é a implementação do plano de
pesquisa por meio da coleta e análise dos dados que pode ser feita pelo próprio
departamento de marketing ou por empresas especializadas em pesquisa de
marketing. Pelo fator tempo e custo, a utilização da Internet como ambiente para
coleta de dados é mais adequada para as situações das pequenas e médias
empresas. Nessas empresas, nem sempre é possível ter um setor para tratar
exclusivamente de pesquisas de marketing devido a sua pouca alocação de
recursos, estruturas e pessoal. Nesse caso, as atividades de operacionalização da
coleta de dados são feita por equipes contratas temporariamente para tal finalidade
24
ou por funcionários que agregam multi-funções dentro da empresa (SARQUIS,
2003).
A quarta e última etapa é de interpretação e apresentação dos resultados. Nela
o gestor pode interpretar e apresentar os resultados da pesquisa à equipe como um
todo e, principalmente, à direção da empresa, fornecendo as informações mais
importantes. A partir de então, os dados poderão alimentar o Sistema de Informação
de Marketing para futuras análises ou mesmo serem utilizadas como entradas
quantitativas de procedimentos estatístico tais como: análise de regressão múltipla,
análise discriminante, análise conjunta, análise de cluster, análise fatorial e escala
multidimensional (MALHOTRA, 2001; HAIR et al, 2005).
2.2.2 Subsistema de Inteligência Competitiva
Apesar de Chiusoli (2005) utilizar o termo “Subsistema de Inteligência de
marketing” em seu modelo, optou-se por utilizar nessa dissertação a expressão
“subsistema de Inteligência competitiva” por considerá-la mais adequada para a
aplicação na coleta de dados na Internet.
O surgimento do conceito de Inteligência Competitiva (IC) é datado na década
de 80 e definido como uma integração entre as áreas de planejamento estratégico,
marketing e informação, tendo como principal objetivo o constante monitoramento do
ambiente externo, principalmente os movimentos do mercado com rapidez e
precisão (BATTAGLIA, 1999). Segundo Telma (2011), a IC é um resultado do
consórcio das ciências da Informação, tecnologia da informação e administração.
Enquanto a ciência da informação se responsabiliza pelo gerenciamento da
informação, a TI enfatiza as suas ferramentas de gerenciamento de redes e
mineração de dados e, a administração é representada por suas áreas de estratégia,
marketing e gestão. A SCIP (Society of Competitive Intelligence of Professionals)
define Inteligência Competitiva como um sistema de coleta, análise e gerenciamento
legal de informação externa que pode afetar planos, decisões e operações de uma
empresa (SCIP, 2012).
De acordo com Battaglia (1999), a informação e a velocidade de seu uso é a
fundamentação da inteligência competitiva. Isso se justifica pelo fato da inteligência
competitiva fazer uso de diversos tipos e fontes de informações em uma velocidade
muito grande com o objetivo de monitorar desenvolvimentos e pesquisa de produtos,
25
processos, serviços e posições de mercado. A Internet é considerada aqui como
ambiente de informação externa e como ferramenta no processo de inteligência
competitiva, já que oferece a baixo custo facilidades e vantagens por possibilitar
acesso rápido, global e interativo em tempo integral.
Diferentemente da mídia tradicional, na Internet o consumidor tem a
possibilidade de ter uma participação mais ativa na produção do conteúdo midiático
sobre marcas ou produtos. Telma (2011) aborda essa questão em sua pesquisa,
citando o trabalho sobre marketing digital de Kotler, Kartajaya e Setiawan (2010):
Cada meio de comunicação tem sua característica, tais como os meios
tradicionais TV, rádio e mídia impressa. Mas é na Internet que o consumidor
tem a possibilidade de “gritar” para outras pessoas o que sente, pensa ou
percebe sobre determinado assunto. É neste canal que a interação do
consumidor com marcas ou produtos ocorre com maior proximidade frente
aos demais, com troca de informações, contato individualizado, e respostas
mais rápidas. (TELMA, 2011 apud KOTLER; KARTAJAYA; SETIAWAN,
2010, p. 26).
O monitoramento do ambiente competitivo na Internet não só analisa dados
objetivos como a publicidade planejada (compra de espaço e aparição pelos
anunciantes), mas também coleta e analisa os dados subjetivos de publicidade
espontânea, gerada a partir de comentários dos consumidores nos sites, blogs e
redes sociais (SILVA, 2011). Neste segundo caso, o consumidor pode assumir um
papel muito importante, podendo atuar de duas formas: quando ele tem uma boa
experiência de compra e se identifica com a empresa passa a propagar a marca
positivamente. Doutro modo, quando está insatisfeito com a marca passa a
disseminar comentários negativos que antes poderiam ficar ocultos ou menos
expressivos no cotidiano não virtual.
Com o surgimento da Web 2.0, onde diversos aplicativos são criados para
atender variadas demandas dos usuários, abrolharam também as redes sociais,
mecanismos que unem o poder da Web 2.0 aliado ao poder da colaboração oriunda
de todas as partes do planeta, oferecendo aos usuários a possibilidade de
compartilhar conhecimento com qualquer outro usuário da rede (AFONSO, 2009). As
empresas podem se utilizar dessa “febre” entre os internautas para extrair
informações relevantes de consumidores e empresas, disseminando feitos das
marcas e conceitos que queiram transmitir aos seus consumidores. Telma (2011)
afirma também que as empresas devem ouvir o que seus consumidores estão
falando nas redes sociais. Neste caso, o monitoramento das redes sociais é crucial
26
para entender a repercussão de uma marca ou produto e entender o padrão de
comportamento de determinado grupo de consumidores.
Boa parte dos estudos acerca de inteligência competitiva focaliza em
empresas de grande porte pelo fato delas terem desenvolvidos sistemas sofisticados
nessa esfera. Por isso, pouco se conhece a respeito de como executivos e
profissionais de pequenas empresas lidam com essa questão. Silva (2003) acredita
que a proposta de considerar a Internet como ambiente de fontes de informação
pode ser um processo alcançável por qualquer organização e aplicável
principalmente às empresas de pequeno e médio porte, tenham elas fins lucrativos
ou sociais.
O processo de Inteligência Competitiva compreende três etapas de acordo
com Afonso (2009). A primeira etapa é a de planejamento e organização, no qual
são feitas as estruturas organizacionais para a realização da inteligência competitiva
com estabilidade ao longo do tempo. Wives (2002) ressalta que esta primeira etapa
pode ser dispensada caso a empresa já saiba qual a necessidade da informação. A
segunda etapa é a de busca de informações que trata da exploração de informações
a cerca do ambiente externo. As atividades englobam primeiramente a identificação
de todas as fontes potenciais de informação e, em seguida é realizada a pesquisa e
coleta os dados certos de forma legal e ética a partir de todas as fontes disponíveis e
posteriormente são listadas em ordem (BOSE, 2008). A última etapa do processo de
inteligência competitiva é a de interpretação dos resultados que tem o objetivo de
traduzir as informações coletadas do ambiente externo para as necessidades
estratégicas da empresa.
As principais características das fases dos processos de Inteligência
Competitiva apresentados por Miller (2001) são: identificação das necessidades dos
responsáveis pelas tomadas de decisões da empresa, obtenção de informações
relevantes a partir de fontes de informações, tais como: balanços patrimoniais,
publicações internas, relatórios gerenciais, jornais, revistas, rumores, Internet ou
fornecedores. Por fim, na identificação e análise de padrões significativos com base
nas informações coletadas gerando subsídios para tomadas de decisões.
27
2.3
INFORMAÇÃO NO PROCESSO DE TOMADA DE DECISÃO
Após a apresentação dos conceitos sobre os sistemas de informação de
marketing e definir as características dos dois subsistemas de informações oriundas
do ambiente externo – Pesquisa de Marketing e Inteligência Competitiva – vale
ressaltar o que os autores consideram como informação importante para tomada de
decisão estratégica. Tendo ciência disso, é possível reconhecer se o resultado da
saída do SIM está de acordo com as necessidades dos gestores nas tomadas de
decisões nas empresas. De acordo com Laudon e Laudon (2007), para utilizar o SIM
de maneira adequada, a empresa precisa, a curto e longo prazo, ter a noção clara
de quais dados são necessários coletar para sua operação. Wierenga e Bruggen
(2000) colaboram afirmando que um SIM eficiente deve ser aquele que coleta e
armazena dados que contribuem de fato para a tomada de decisão de marketing da
empresa.
Segundo Grisi et al. (2001), para uma tomada de decisão mais assertiva, os
executivos necessitam de informações sobre o ambiente de marketing, tais como,
informações sobre o consumidor, dos concorrentes e das forças macro ambientais
que possam interagir com as empresas e seus produtos, cujo papel era atribuído à
pesquisa de mercado, registros internos à empresa e fontes de inteligência de
marketing. Para Mattar (2008), as principais informações que um gerente de
marketing necessita precisa incluir elementos sobre os consumidores (desejos,
necessidades, motivações e hábitos), ações e atividades da concorrência, evolução
do mercado, evolução das vendas e lucros da empresa, recursos disponíveis da
empresa e comportamento das variáveis ambientais (legislações, economia, grupos
de interesse, etc.). Percebe-se entre os autores uma unanimidade em subdividir as
informações em fontes internas e externas à empresa, ou seja, tanto os dados de
entrada do SIM como as informações resultantes do processamento desses têm sua
origem e destino o ambiente interno e externo.
Para Chiusoli (2005), é necessário conhecer a importância de determinado
tipo informação para selecionar a melhor estratégia para coletá-la, no entanto o
autor relaciona três problemas comumente encontrados nas empresas a esse
respeito. No primeiro é apresentado que muitas vezes a empresa dispõe de grande
quantidade de informações, no entanto, ela é de baixa qualidade, o que compromete
todo o processo de tomada de decisão. O segundo problema é que mesmo
28
dispondo de muitas informações de boa qualidade, o gestor não percebe a
importância de seu uso e toma decisões baseadas apenas em sua intuição ou
experiência própria. E por último, mesmo que o gestor veja a necessidade de utilizar
a boa informação armazenada, utiliza de forma incorreta, seja por incapacidade de
coletar os dados certos ou mesmo interpretá-los erroneamente. O autor conclui
argumentando que os gestores se queixam que as informações estão muitas vezes
dispersas ou em documentos sem clareza analítica.
O´Brien (2004) ressalta a importância da qualidade da informação no
processo de tomada de decisão. Ele alerta aos gestores que informações
antiquadas, inexatas ou difíceis de entender não seriam muito úteis ou valiosas, pois
as pessoas desejam informações de alta qualidade, ou seja, produtos de informação
cujas características, atributos ou qualidade ajudam a torná-los valiosos para elas. A
seguir o autor sugere alguns atributos que as informações de qualidade devem ter,
subdivididas em três dimensões, como mostrado no Quadro 3.
Quadro 3: Atributos da qualidade da informação propostos por O´Brien (2004)
Dimensão
Tempo
Conteúdo
Forma
Atributo
Informação
Prontidão
Deve ser fornecida quando for necessária.
Aceitação
Deve estar atualizada quando for fornecida.
Frequência
Deve ser fornecida tantas vezes quantas forem necessárias.
Período
Pode ser fornecida sobre períodos passados, presentes e
futuros.
Precisão
Deve estar isentas de erros.
Relevância
Deve estar relacionada com as necessidades de informação de
um receptor específico para uma situação específica.
Integridade
Toda informação que for necessária deve ser fornecida
Concisão
Apenas a informação que for necessária deve ser fornecida.
Amplitude
Pode ter um alcance amplo ou estreito, ou um foco interno ou
externo.
Desempenho
Pode revelar desempenho pela mensuração das atividades
concluídas, do progresso realizado ou dos recursos
acumulados.
Clareza
Deve ser fornecida de uma forma que seja fácil de
compreender.
Detalhe
Pode ser fornecida em forma detalhada ou resumida
Ordem
Pode ser organizada em uma sequência predeterminada
Apresentação
Pode ser apresentada em forma narrativa, numérica, gráfica ou
outras.
Mídia
Pode ser fornecida em midias documentais de papel impresso,
monitores, vídeos e outros.
Fonte: O’Brien (2004)
29
Diante da necessidade de informação adequada, o marketing desponta como
a área funcional da empresa que mais se integra com as demais do ambiente
interno, como também se relaciona com as variáveis ambientais externas
(CHUISOLI, 2005). Percebe-se assim que muitas organizações entendem que a
forma mais adequada de prover informações de marketing para os tomadores de
decisão é a partir da estruturação de um sistema de informação de marketing (SIM),
mesmo que a prática, muitas vezes, não condiz com a teoria.
2.3.1 Fontes dos dados e informações
Como já foram mostrados, os autores de marketing concordam que os dados
e informações mais comuns do SIM se originam dos ambientes internos e externos à
organização (MATTAR, 2008; GRISI et al, 2001; WIERENGA E BRUGGEN, 2000,
CHIUSOLI, 2005). Em sua maioria defendem como fontes internas as áreas que
fazem parte da organização, enquanto as externas são as demais fontes.
(CRESCITELLI, OLIVEIRA e BARRETO, 2007).
A origem das informações do ambiente interno é apresentada por Wierenga
(2000) como sendo os departamentos de Marketing, Contabilidade, Vendas e
Operações. Para Kotler (2000), os departamentos responsáveis pelas informações
internas são o da contabilidade, marketing e atendimento ao cliente. Para o autor, a
maior vantagem das fontes internas é a rapidez e o baixo custo no acesso à
informação, no entanto, ela pode está desatualizada ou serem inadequadas aos
objetivos pretendidos. Para Crescitelli, Oliveira e Barreto (2007), as principais fontes
externas são a Internet, feiras do setor, concorrentes, funcionários dos concorrentes
ou até mesmo o lixo dos concorrentes.
As fontes de informação podem ser classificadas, segundo Dou (1995 apud
Periotto, 2010), em quatro tipos:
• Formal – composta de informações estruturadas, essas fontes são
encontradas geralmente em bancos de dados internos e utilizadas em
sistemas
inteligentes
para
processar
informações.
Periotto
(2010)
exemplifica que as fontes de informação formais podem ser: anais de
congressos, artigos, base de dados, catálogos e manuais, clipping,
30
institutos de pesquisa, jornais, legislação, livros especializados, normas
técnicas, patentes, relatórios técnicos, revistas especializadas e teses e
dissertações.
• Informal – geralmente textos ou conversas informais obtidas de clientes,
fornecedores e concorrentes. Por se tratar de dados não estruturados é
necessário realizar um tratamento adequado para serem utilizadas. Como,
por exemplo, Periotto (2010) cita: blogs, congressos e seminários, clientes,
empresas, especialistas, fornecedores, e-mail, funcionários, exposições e
feiras, fóruns e discussão, Internet, prestadores de serviços e redes
pessoais.
• Especializada – trata-se de informações personalizadas e úteis para a
empresa oriundas das pessoas internas à organização. Os dados obtidos
precisam ser analisados e processados para serem utilizados;
• Externa - referente a informações oriundas de eventos externos à
organizações, como por exemplo feiras, congressos e conferências. Os
dados precisam ser explicitados e analisados.
Quanto aos tipos de informações, Valentim (2006) classifica em nove
tipologias informacionais que atendem de forma específica as necessidades das
empresas para tomadas de decisões ou para operações cotidianas. São elas:
• Informação Estratégica: São utilizadas para auxiliar na alta administração
da empresa para formulação de estratégicas de médio e longo prazo.
Miranda (1999) reforça que esse tipo de informação é aquela obtida do
monitoramento do ambiente empresarial, a qual subsidia a formulação de
estratégias pelos tomadores de decisão nos níveis gerenciais da
organização.
• Informação de Negócio: Utilizadas para observar oportunidades e
ameaças no ambiente do negócio corporativo e também para os níveis
gerenciais da empresa definir ações de curto prazo.
• Informação Financeira: Auxilia os profissionais da área financeira nas
atividades de custo, lucro, riscos e controle.
• Informação comercial: auxilia os profissionais da área do comércio nos
processos relacionais à importação ou exportação de materiais, produtos
ou serviços.
31
• Informação Estatística: apresentam dados estatísticos que ajudam a
identificar padrões por meios estudos comparativos e séries históricas com
percentuais e números relacionados aos negócios da empresa.
• Informação sobre gestão: voltada aos gerentes e executivos no
planejamento e gestão dos projetos, gestão de pessoas etc.
• Informação tecnológica: auxiliam os profissionais de P&D fornecendo
dados de inovação tecnológica no desenvolvimento de novos produtos,
materiais e processos por meio do monitoramento da concorrência e do
mercado tecnológico.
• Informação Geral: são informações que não foram classificadas nas
outras tipologias e que ajudam nas tomadas de decisões em todo o âmbito
organizacional.
• Informação ‘Cinzenta’: Caracterizada pelo grau de dificuldade de obtê-la,
são informações não convencionais e desestruturadas. Por não ter um
formato bem definindo, esse tipo de informação geralmente é obtido
informalmente por meio de redes de relacionamentos.
No contexto desta pesquisa, ao retratar a importância de informações para
tomadas de decisões estratégicas, principalmente no uso de coleta de dados
automatizados da Internet, será necessário se aprofundar nas informações do tipo
estratégicas, defendida por Miranda (1999) como cruciais para o amadurecimento da
organização a longo prazo. O autor destaca treze (13) tipos de informações
estratégicas que as empresas precisam estar atentas para utilizá-las em suas
tomadas de decisões. O Quadro 4 relaciona os tipos de informação estratégica
apresentada por Miranda (1999).
32
Quadro 4: Tipos de informações estratégicas para as empresas
Tipo de Informação
estratégica
Descrição
Cliente
Informações sobre tendências de comportamentos de consumo, às
demandas não atendidas, ao nível de qualidade requerida, ao perfil, ao
potencial de crescimento, à resistência a inovações, a nichos
mercadológicos etc.;
Concorrente
Informações sobre tendências quanto ao perfil dos concorrentes, à imagem
no mercado, a preços praticados e prazos concedidos, a faturamento, à
lucratividade, ao endividamento a curto, médio e longo prazos, à estrutura
gerencial, ao perfil dos executivos, à qualidade dos produtos/serviços
ofertados etc.;
Cultural
Informações sobre tendências quanto ao acesso da população à educação
(grau de alfabetização, níveis de escolaridade), ao acesso da população
aos meios de comunicação (TV, rádio, periódicos, Internet) e sua influência,
a hábitos culturais etc.
Demográfica
Informações sobre tendências quanto à densidade e à mobilidade
populacional, à distribuição da população, a índices de natalidade e de
mortalidade, à expectativa de vida da população etc.
Ecológica
Informações sobre tendências de conservação ambiental (áreas verdes,
matas, recursos hídricos etc.), ações de ecologistas, índices (e tendências
de evolução) de poluição (sonora, atmosférica, hídrica e nuclear) etc.
Econômica/
financeira
Informações sobre tendências quanto à conjuntura econômica nacional e
mundial, à atuação de blocos econômicos e segmentos de mercado, à
balança comercial e de pagamentos, a taxas de juros, a tarifas de
prestação de serviços, aos planos econômicos, aos incentivos fiscais,
creditícios e tributários etc.
Fornecedor
Informações sobre o perfil, atitudes, localização, opções de fontes de
fornecimento, condições de transporte, preços, prazos de pagamento,
descontos, entrega, tendências quanto à formação de parcerias etc.;
Governamental/
política
Informações sobre tendências quanto a diretrizes do Poder Executivo, a
regulamentações e desregulamentações, a campanhas e programas de
integração nacional e de ação social, habitacional, salarial e de
privatizações, às relações internacionais, a planos de governo etc.
Legal
Informações sobre tendências quanto a ações dos Poderes Legislativo e
Judiciário no que se refere à legislação tributária, fiscal, trabalhista, sindical,
de uso de recursos, comercial, de propriedade autoral e tecnológica
(marcas e patentes) etc.;
Sindical
Informações sobre capacidade de mobilização, poder de arregimentação,
atuação em acordos trabalhistas, integração com outros sindicatos ou
outras entidades (por exemplo, partidos políticos), representação
parlamentar, tendências ideológicas etc.;
Social
Informações sobre tendências quanto à distribuição dos segmentos
socioeconômicos, às diferenças entre as classes (sistema de valores, nível
cultural, poder aquisitivo, estrutura política e ideológica, influência na
sociedade), à atuação de organizações não governamentais (ONGs),
associações de bairro e entidades religiosas etc.;
Tecnológica
Informações sobre pesquisas realizadas e em andamento, tendências
quanto à política de pesquisa e desenvolvimento nacional e internacional
(investimentos, entidades patrocinadoras etc.), aos impactos de mudanças
tecnológicas, às possibilidades de transferência de tecnologia, a acesso a
fontes produtoras de tecnologia etc.
Fonte: Adaptado de Miranda (1999 p. 289)
33
Quanto ao formato de apresentação da informação estratégica, Freitas, Lesca
e Cunha Jr. (1996) revela que precisa ser apresentada de forma resumida por meio
de quadros, tabelas e gráficos. Pelo fato da necessidade de tomar decisões a nível
global da empresa, o gerente estratégico precisa do entendimento do contexto em
que a organização está inserida, principalmente as informações de origem do
ambiente.
Conhecer o tipo de fonte de informação estratégica adequada à empresa é
importante, mas não é suficiente para realizar um planejamento subsidiado por
informações importantes. Após as etapas de identificar as necessidades, coletar e
tratar as informações, é necessário realizar uma das etapas mais críticas no
processo que é a análise da informação, que tem o objetivo de criar a inteligência
para a tomada de decisão (PERIOTTO, 2010). Para realizar a análise das
informações os gestores têm o auxilio de métodos que favorecem a utilização de
informações analisadas tais como: benchmarking, cenários, fatores críticos de
sucesso, forças de Porter, análise SWOT, análise de patentes, bibliometria, método
Delphi, além de ferramentas estatísticas como as análises de correlação e variância.
Barbosa (2002) apresenta um estudo sobre o processo de monitoramento do
ambiente organizacional externo sob a ótica de 91 empresários. Dentre os pontos
pesquisados foram os tipos de informação que os gestores utilizam para gerar uma
vantagem competitiva. Os resultados mostraram que as fontes de informação
eletrônicas são as mais utilizadas em decorrência do aumento do grau de
informatização das empresas, contudo nem sempre são mais confiáveis ou
relevantes. Em contrapartida, as fontes pessoais são menos utilizadas, entretanto
são mais confiáveis.
O mesmo autor, em 2006 realizou uma comparação entre os profissionais de
empresas de pequeno porte e as de grande porte. Foram avaliadas as fontes de
informação a respeito do ambiente organizacional. O autor revela que os dados
apresentados sugerem certa pobreza de dados informacionais das empresas de
pequeno porte em relação às grandes empresas, ou seja, os profissionais de
empresas de grande porte tem um maior acesso aos dados informacionais que os
de pequeno porte. Além disso, o nível de confiabilidade dos dados adquiridos é
menor em pequenas empresas (BARBOSA, 2006).
34
Em sua pesquisa, Krakauer (2011) procurou identificar como os empresários
brasileiros e americanos de pequenas e médias empresas utilizam as informações
do ambiente durante o processo de tomada de decisão estratégica. Foi detectado
que os empresários americanos trabalham com uma abordagem mais racional,
usando a informação formal do ambiente no processo do negócio. Já o brasileiro
procura utilizar mais a experiência, a intuição e o compartilhamento com a família
sobre suas decisões empresariais. Esse utiliza as fontes de informação informal e
com pouco auxílio de recursos tecnológicos.
Leone (1999) retrata que as empresas de pequeno e médio porte têm muitas
especificidades que as diferenciam das grandes corporações. A autora categoriza as
diferenças em três construtos: organizacionais, decisionais e individuais dos
gestores. Sobre as especificidades organizacionais essas empresas apresentam
pobreza
de
recursos,
gestão
centralizada,
situação
extra
organizacional
incontrolável, fraca maturidade organizacional, estrutura simples e leve, ausência de
planejamento formal, fraca especialização, estratégia intuitiva, pouca formalidade e
sistema de informações simples. Sobre as especificidades decisionais as PMEs
apresentam tomadas de decisão baseada na intuição, horizonte temporal de curto
prazo, inexistência de dados quantitativos, alto grau de autonomia decisional,
racionalidade econômica, política e familiar. E por último, quanto às características
individuais das empresas elas apresentam onipotência do proprietário-dirigente,
identidade entre pessoa física e pessoa jurídica, dependência por parte dos
empregados, influência pessoal do proprietário-dirigente, simbiose entre patrimônio
social e patrimônio pessoal, propriedade dos capitais e propensão a riscos
calculados.
Ricci (2011) retrata as especificidades das pequenas empresas sob a
perspectiva de três dimensões ilustrada na Figura 3. Relacionados ao dirigente, as
principais características são: centralizador, baixo nível de especialização, pouco
conhecimento sobre ferramentas administrativas, exerce várias atividades e se
responsabiliza pela formulação da estratégica. As características relacionadas à
organização, as pequenas empresas são empresas pouco sofisticadas, com
estrutura simples, baixa complexidade nas estruturas organizacionais, dependem
dos interesses e anseios do seu dirigente, poder de decisão centralizada no
proprietário e pouca formalização. O ambiente organizacional caracteriza-se pela
35
falta de capital para investimento como tecnologia, impostos elevados, pouco acesso
à informação, falta de controle sobre variáveis ambientais, apoio governamental
escasso, carência de treinamento e falta de conhecimento sobre o ambiente interno
e externo por parte do gestor.
Figura 3: Dimensões das especificidades de gestão da pequena empresa
Dirigente
Gestão da
Pequena
Empresa
Organização
Contexto
Fonte: Ricci (2011, p. 8)
2.3.2 Coleta de dados na internet
Coletar dados primários e secundários com rapidez e custo baixo pode ser
considerado um grande desafio na busca de uma informação relevante para uma
tomada de decisão. Encontrar um ambiente que tenha capacidade de fornecer uma
coleção de dados grande o suficiente para extrair informações a qualquer momento
se torna necessário para tomar decisões que estejam mais alinhadas com os
desejos dos consumidores (YAMASHITA, 2003). A Internet é considerada um
veículo que fornece os mais diversos conteúdos com um fluxo contínuo de
informações que podem ser coletadas a qualquer momento e muitas vezes de graça.
Crescitelli, Oliveira e Barreto (2007) considera a Internet um fator de impacto para os
Sistemas de Informação de Marketing, trazendo uma velocidade sem precedentes
para o acesso aos dados que as empresas procuram tais como as opiniões de
consumidores, empresas, concorrentes, indústria, governo dentre outros. Para os
autores, o problema reside no reconhecimento da autoria desse conteúdo
disponibilizado, tornando mais difícil a avaliação da sua confiabilidade, apesar dos
inúmeros sistemas de segurança da informação atualmente existentes.
36
A Internet é um repositório de informações de hipermídia e banco de dados
que é apresentada por Magalhães T. (2009) como uma fonte de matéria-prima
amplamente distribuída e heterogênea. Com a democratização deste canal na última
década, a informação disponibilizada na Web deixou de ser estritamente alimentada
por empresas e indivíduos especializados em divulgação de conteúdo e passou a
ser alimentada por usuários comuns, muitas vezes sem muito entendimento do
linguajar técnico que outrora era utilizado pelos webmasters. Os usuários passaram
então a se preocupar somente com o conteúdo das informações e não com o seu
layout. Com a Web notam-se avanços na aproximação das pessoas, agregadas em
comunidades com interesses comuns e vínculos de socialização da informação, não
apenas para compartilhamento de conhecimento, mas também na execução de
atividades efetivamente laborais (PEDOTT, 2001).
A obtenção de informações na Web sobre consumidores e concorrentes pode
trazer alguma vantagem competitiva para a empresa. Wives (2002) afirma que os
empresários precisam estar sempre informados, diminuindo assim os riscos,
antecipando as crises e obtendo informações antes de seus concorrentes. O autor
afirma que é preciso monitorar sempre os elementos internos e externos à empresa,
tais como, clientes, fornecedores, concorrentes, produtos, tecnologias e mercados.
Apesar de haver um consenso da necessidade de integração de coleta de dados em
fontes internas e externas, percebe-se que a maior parte da informação não está
armazenada em banco de dados internos, mas em fontes externas às empresas.
Percebe-se que dinamismo com que a informação é disponibilizada pelos
usuários aumenta a quantidade de dados armazenados no repositório da Internet,
no entanto, esses dados estão dispersos, ocultando uma quantidade ilimitada de
informações que podem auxiliar no processo de tomada de decisão. Para que haja
um real aproveitamento de toda a quantidade de dados é necessário transformá-lo
em informação. Obter informações manualmente da Internet pode não ser uma
tarefa simples, pois exige habilidade em pesquisar os termos corretos, no lugar e no
momento certo. Pelo fato dos dados na Internet estarem espalhadas de forma não
estruturada,
coletar
as
opiniões
que
os
usuários
estão
constantemente
compartilhando na rede se faz necessário a utilização de algum mecanismo
automatizado de coleta de dados.
37
3
MINERAÇÃO WEB
A mineração Web ou Web mining é um ambiente de mineração de textos, que
por sua vez é um processo de obtenção de conhecimento originados a partir de
bases de dados textuais, ou seja, documentos que possuem pouca ou nenhuma
estrutura de dados (ARANHA, 2007). Mineração Web é referenciada quando o foco
é a coleta de informações no ambiente da Internet, no qual o objetivo é utilizar as
técnicas de mineração de texto para extrair conhecimento útil do conteúdo
disponibilizado em documentos não estruturados ou semiestruturados (LAU et al.,
2004). Os autores argumentam que, embora a mineração Web possa extrair dados
estruturados (mineração de dados ou data mining), a maior parte do conteúdo
encontrado na Internet é composta por dados textuais, gerando assim a
necessidade de explorar mais o processo de mineração de texto ao invés da
mineração de dados.
Scotto, Silliti e Vernazza (2004) definem mineração Web como um processo
de descoberta e analise de informações úteis em documentos na Internet,
envolvendo técnicas e aproximação baseadas na mineração de dados orientados ao
descobrimento e extração automática de informações em documentos e serviços na
Internet, considerando o comportamento e preferência do usuário. Em contrapartida,
Lau et al (2004) definem mineração Web como um processo de recuperação e
conversão de informação de texto (text mining) contido nas páginas em uma base de
dados organizada contendo variáveis chave de interesse para melhor entender
clientes.
Para Fernandes (2007), as empresas tem utilizado a mineração Web não
somente para analisar a estrutura de suas páginas, mas principalmente para
detectar as características das pessoas que as visitam, de forma a descobrir
interesses e poder oferecer produtos e serviços adequados aos desejos de seus
clientes. Para Koblitz (2010), a mineração Web pode poupar que as empresas
gastem tempo e dinheiro fazendo pesquisas sobre pontos de seus interesses, extrair
opiniões de pessoas que influenciam outras através de redes sociais e fazer uma
análise em tempo real do que as pessoas pensam. Guedes, Afonso e Magalhães
(2010) compartilham esse mesmo pensamento, pois “o que os outros pensam” pode
38
ser uma importante fonte para a maioria dos tomadores de decisão quando filtradas
e analisadas de forma adequada na Internet.
3.1
CATEGORIAS DA MINERAÇÃO WEB
De acordo com Kosala e Blockeel (2000), a mineração Web pode ser dividida
em três sub-áreas: Mineração de estrutura (Web Structure Mining), Mineração de
uso (Web usage mining) e mineração de conteúdo (Web content mining), como
observado na Figura 4.
Figura 4: Categorias da Mineração Web
Mineração Web
(Web mining)
Mineração de Estrutura
Web
(Web Structure Mining)
Mineração de uso na
Web
(Web Usage Mining)
Mineração de Conteúdo
na Web
(Web Content Mining)
Fonte: Kosala e Blockeel (2000)
De acordo com Liu (2007), a mineração de estrutura procura descobrir
conhecimento útil de hiperlinks, que representa a estrutura dos sites. O autor
exemplifica, mostrando que é possível encontrar importantes páginas na Web por
meio dos links, que incidentemente, é a tecnologia fundamental para os motores de
busca, como o Google e descobrir também comunidades virtuais, onde os usuários
compartilham interesses comuns, como o Orkut e Facebook. Segundo Shi, Ma e He
(2009), a mineração de estrutura Web procura descobrir o modelo subjacente das
estruturas dos links da Web, pois é baseado na característica de hyperlinks, que
pode ser usado para categorizar páginas Web e ser útil na geração de informações
similares e relacionadas entre diferentes sites. Ainda de acordo com a autora, esse
tipo de abordagem é interessante, pois a Internet tem mais informações
armazenadas sobre a estrutura dos dados do que mesmo sobre seu conteúdo em si.
Esta categoria, portanto, é o processo que tenta descobrir o modelo que está por
39
trás dessa estrutura de links, ou seja, o processo de inferir conhecimento através da
topologia, organização e estrutura de links da Web entre referências de páginas.
Essa categoria refere-se à descoberta de padrões de acesso de usuários na
Web, que registra todo o clique feito por cada usuário (LIU, 2007). Para isso são
utilizados arquivos de log, no qual são coleções de dados bem estruturados que
registra cada passo do usuário nos sites e que ficam armazenados nos servidores
de Internet (LAU et al, 2004). Para a autora, a descoberta de padrões de acesso é
realizada através de análise de interação do usuário com páginas Web e está focada
em técnicas que possam descrever e predizer o comportamento do usuário no
momento de interação com o site. Um exemplo de utilização dessa técnica é a
descoberta do perfil do usuário que pode ser útil na personalização da interface ou
do conteúdo, de forma a ajudar o site a atingir seu objetivo. Também pode ser
utilizado no marketing para saber quem frequenta determinado site e qual o
comportamento e interesse deste.
A mineração de conteúdo é uma categoria bastante utilizada na mineração
Web, pois a maior parte do conteúdo da Web se encontra no formato com pouca ou
sem estrutura, como documentos HTML, tabelas e etc. (LAU et al., 2004). Esta
técnica procura descobrir informações úteis de conteúdo, dados e documentos da
Web, através da busca automática de informações. Para Cooley (2000), a mineração
de conteúdo na Web pode ser descrita como sendo a busca automática de recursos
e recuperação das informações disponíveis na Internet, como por exemplo, as
ferramentas de busca como a Google, Yahoo, Bing entre outros. Para Liu (2007), a
mineração de conteúdo permite encontrar mais facilmente o conteúdo localizado nas
páginas, podendo realizar um processo de coleta, mineração e integração de dados
úteis, informações e conhecimento de conteúdo nas páginas Web.
3.2
ETAPAS DA MINERAÇÃO DE CONTEÚDO NA WEB
Os autores sobre a mineração Web ainda não são consensuais em definir as
etapas desse procedimento. Os modelos propostos são baseados nas etapas da
mineração de texto tradicional, ficando na responsabilidade do analista da
informação aplicar as tarefas necessárias para cada mineração. A mineração de
conteúdo na Web é composta de três etapas: pré-processamento, processamento e
40
pós-processamento (PINHEIRO, 2009). O autor alerta que não necessariamente é
obrigado seguir todas as etapas, pois o processo de mineração de texto é feito e
refeito de forma cíclica e pode ser utilizado de acordo com o que se deseja alcançar
como objetivo da mineração.
3.2.1 Etapa de Pré-processamento
Essa etapa corresponde à preparação dos dados para serem processados
com as técnicas de mineração de texto. Para isso, será necessário realizar a coleta
e limpeza dos dados.
3.2.1.1 Coleta da informação
A busca por opinião funciona como os algoritmos de Recuperação de
Informação (RI) na Web, no qual se deseja encontrar uma opinião sobre um
determinado objeto, por exemplo, um notebook, uma empresa, um evento, etc.
Dessa forma, a recuperação sobre esse assunto seria, por exemplo, opiniões sobre
a marca, as características e a relação custo/benefício sobre este objeto
(PINHEIRO, 2009). Segundo Manning, Raghavan e Schütze (2009), o objetivo da
etapa de RI é encontrar documentos de natureza não estruturada que satisfaz uma
necessidade de informação armazenada em computadores. Magalhães L. (2009)
apresenta que o objetivo da RI é recuperação documentos usando um critério
booleano simples que busca pela presença ou ausência de determinadas palavraschave ou termos nos documentos, não se preocupando com o formato como as
opiniões estão dispostas. Palavras-chave podem ser combinadas de disjunções
(OU) e conjunções (E), proporcionando, assim, mais expressividade nas consultas.
O resultado da consulta pelas palavras-chave é um volume grande e estruturado de
textos, chamado de corpus1. Segundo Koblitz (2010), o corpus pode ser utilizado
para posterior análise estatística, verificação de ocorrências e validação de regras
linguísticas considerando o universo específico.
1
O plural de corpus é denominado corpora.
41
3.2.1.2 Conversão de arquivos
O corpus normalmente pode ser exportado para um arquivo em formato texto
(HTML, DOC, PDF) ou mesmo pode ser transferido em forma de planilha eletrônica
(XML, CSV). No entanto, de acordo com Ticom (2007), os dados coletados
originalmente são convertidos para o formato XML (eXtensible Markup Language)
que tem uma estrutura bastante adequada para tratar dados não estruturados como
texto para facilitar a sua manipulação.
3.2.1.3 Tokenização
A tarefa de tokenização (tokenize) é transformar grandes textos em mínimas
unidades possíveis, chamada de tokens. Segundo Miranda (2009), esse processo é
importante por que um texto, para ter sentido para o leitor, precisa possuir um fluxo
ordenado de palavras que seguem as normas linguísticas de um idioma, entretanto,
o computador não as entende assim. Para conseguir extrair características do texto,
a máquina precisa manipular pequenos fragmentos de texto. O autor afirmar que na
maioria das vezes, o token corresponde a uma palavra do texto, podendo também
estar relacionado a mais de uma palavra, símbolo ou caractere de pontuação. O que
diferencia um token do outro são os espaços entre eles e frequentemente os
algoritmos que executam a divisão do texto em tokens utilizam o espaço como
delimitador. Esse procedimento requer cuidado na execução da tarefa, pois na
língua portuguesa existem palavras compostas que ao serem separadas possam a
ter significados diferentes. As tarefas realizadas na tokenização são as seguintes, de
acordo com Ticom (2007):
o Case Folding (Transformação de letras): É um procedimento que
padroniza todas as palavras do texto em maiúscula ou minúscula.
Palavras idênticas diferenciadas pelo formato da letra pode confundir a
máquina na separação dos tokens. Transformando as palavras em um só
formato possibilita maior rapidez no processo de comparação de
caracteres (ver exemplo na Figura 5). Essa tarefa é muito importante para a
etapa de tratamento estatístico, no qual palavras com o mesmo nome,
diferenciando-se somente pela presença ou ausência de palavras
maiúscula, pode causar erro na interpretação do resultado.
42
Figura 5: Exemplo de aplicação de Case Folding
Em geral, as reações dos
consumidores às apelações
VERDES das empresas ocorrem em
detrimento do oferecimento de
Vantagens desejadas de custos
menores e desempenhos Melhores.
em geral, as reações dos
consumidores às apelações verdes
das empresas ocorrem em
detrimento do oferecimento de
vantagens desejadas de custos
menores e desempenhos melhores.
Fonte: Autoria própria
o Stopword/Stoplist
(Retirada
de
palavras
desnecessárias):
As
stopwords são palavras de maior aparição no texto e, normalmente,
correspondem
aos
artigos,
preposições,
pontuação,
conjunções,
pronomes e numerais de um idioma. A identificação e remoção desta
classe de palavras reduzem de forma considerável o tamanho final do
texto léxico, tendo como consequência benéfica o aumento de
desempenho do sistema como um todo (MAGALHÃES L., 2008). No
entanto, com a remoção de certos termos gramaticais causa uma perda no
sentido semântico do texto. Se a análise feita no texto for uma análise
qualitativa esta técnica não será útil, caso o objetivo é realizar uma análise
quantitativa (estatística) esta técnica poderá ser aplicada. O conjunto de
stopwords é denominado stoplist. Pinheiro (2009) apresenta em sua
pesquisa uma stoplist voltada para a língua portuguesa, que incluir
expressões regulares para remoção de email, datas, tempo, números,
valores financeiros e caracteres especiais. A Figura 6 mostra um exemplo
da aplicação da remoção de uma stoplist em um texto.
Figura 6: Exemplo da aplicação de stoplist
Em geral, as reações dos
consumidores às apelações verdes
das empresas ocorrem em
detrimento do oferecimento de
vantagens desejadas de custos
menores e desempenhos melhores.
geral reações consumidores
apelações verdes empresas ocorrem
detrimento oferecimento vantagens
desejadas custos menores
desempenhos melhores
Fonte: Autoria própria
o Stemming (redução ao menor radical de cada palavra): Essa tarefa é
responsável por reduzir as diversas formas de um termo a uma forma
43
comum (raiz) denominada stem (MORGADO JÚNIOR, 2008). Um stem é
um grupo natural de termos que compartilham interpretações semânticas
iguais ou similares (ver Figura 7). Além da eliminação dos prefixos e
sufixos, características de gênero, número e grau das palavras são
eliminadas. Isso significa que várias palavras acabam sendo reduzidas
para um único termo, o que pode reduzir o tamanho de um índice em até
50%, segundo Miranda (2009). Da mesma forma da tarefa de remoção de
stopword, com a aplicação do stemming, o texto perde seu sentido
semântico, entretanto, reduz-se bastante a quantidade dos tokens, sendo
possível realizar uma análise estatística com menos dados redundantes.
Figura 7: Exemplo de aplicação de Stemming
RECICLAGEM
RECICLANDO
RECICLADO
RECICLAR
RECICLO
RECICLA
Seis termos
RECICL
Um termo
Fonte: Autoria própria
o Dicionário de dados (Thesaurus): É uma alternativa para melhorar os
resultados da aplicação, diminuindo também a quantidade de tokens
gerados. Esta tarefa utiliza-se de um dicionário de sinônimos que
correlaciona palavras diferentes e comuns a uma única palavra em todo o
texto. O objetivo, de acordo com Morgado Júnior (2008) é montar uma
relação de várias palavras para uma única palavra que possa substituí-la
sem alterar o contexto. Um exemplo seria a palavra “planta”, “árvore”,
“vegetal” poderiam ser padronizada em uma única palavra.
o N-grama (n-gram): É um método alternativo utilizado principalmente para
detectar erros ortográficos (MIRANDA, 2009). A ideia consiste em
identificar as sub-cadeias de tamanho n dos tokens encontrados no texto.
Por exemplo, a partir da palavra “poluir” e considerando n = 5, obtêm-se
as seguintes 5-grams: “_polu”, “polui”, “oluir” e “luir_”, onde “_” é usado
para indicar o início ou fim da palavra. Os erros ortográficos mais comuns
só afetam poucos constituintes de n-grama, então, é possível buscar pela
44
palavra correta através daqueles que compartilham a maior parte dos ngramas com a palavra errada. O objetivo é manter uma lista de n-gramas
que apontam para as palavras que o contém. Quando a palavra é
procurada, os n-gramas são processados e procurados no índice. A
palavra que apresentar o maior número de n-gramas associado será a de
maior relevância, indicando um possível candidato para correção
(ARANHA, 2006).
3.2.2 Etapa de Processamento (Tarefas da Mineração de texto)
A etapa de processamento contém tarefas que permitem extrair conhecimento
na forma de regras (por mecanismos de indução) e na forma de informação (por
dedução). Magalhães L. (2009) argumenta que a mineração de conteúdo na Web
utiliza as técnicas de mineração de texto, tais como a indexação, extração de
informações, lexicometria, clustering e classificação.
3.2.2.1 Indexação
O objetivo principal da indexação dos textos é facilitar a identificação de
similaridade de significado entre suas palavras, considerando as variações
morfológicas e problemas com sinônimos (TICOM, 2007). Indexar significa identificar
as características de um documento e colocá-las em uma estrutura denominada
índice. De acordo com Miranda (2009), o processo de indexação pode ser manual,
no qual o analista fica encarregado de analisar o conteúdo de cada documento e
identificar as palavras-chave que o caracterizem, e o segundo é o processo
automático que passa por uma série de etapas de processamento para gerar um
arquivo de índice.
Segundo Miranda (2009), a primeira etapa da indexação automática procura
identificar as palavras ou as fronteiras das palavras feitas frequentemente por um
caractere em branco (espaço). A segunda elimina as palavras desnecessárias de um
texto (stopwords), em seguida, a terceira executa um procedimento de redução dos
termos ao seu menor radical, o stemming. A quarta é responsável pela detecção de
termos compostos, isto é, termos com mais de uma palavra. E por fim, esses termos
45
em formado de tokens são armazenados em uma estrutura invertida que é
associada aos documentos de origem, como visto na Figura 8.
Figura 8: Processo de indexação automática
Documentos
Identificar palavras
Remoção de Stopwords
Stemming
Apontadores
Formação de Frases-termo
Termos
simples
Termos compostos
Arquivo de índice
Fonte: Miranda (2009, p. 36)
3.2.2.2 Extração de informações
Carenini, Ng e Zwart (2005) ressaltam que o processo de extração de
informações pode ocorrer de duas maneiras: o primeiro é a transformação de fatos
identificados no texto em campos estruturados dentro de uma base de dados e o
segundo é a extração de texto que podem ser usados para sintetizar um documento,
chamado de sumarização. No primeiro caso, apenas um subconjunto dos fatos
importantes em um item pode ser identificado e extraído. Na sumarização, todos os
principais conceitos no documento devem ser representados na forma de resumo.
O processo de extração de informações consiste em transformar dados
semiestruturados ou desestruturados (textos) em dados estruturados (pequenas
variáveis com dados sobre o conteúdo do texto) para serem armazenados em banco
de dados (SIQUEIRA, 2010). O processo de extração é semelhante com o processo
de indexação, no entanto, a diferença se encontra no resultado obtido dos dois
processos. Enquanto a indexação procura identificar palavras capazes de
caracterizar o documento e coloca-las em um índice, a extração tem o objetivo de
identificar dentro do texto tipos de informações importantes que possam ser
armazenadas dentro de um banco de dados estruturado (WIVES, 2002).
46
O primeiro passo para a realização da extração é a definição de palavras que
devem ser extraídas. A identificação dessas palavras é feita através de marcadores
(tags) sintáticos ou semânticos que indicam a presença de uma informação
importante e que deve ser extraída.
Quanto à sumarização, Wives (2002) define como uma técnica que identifica
as palavras e frases mais importantes de um documento ou conjunto de documentos
com o objetivo de gerar um resumo ou sumário. Esse sumário proporciona uma
visão geral do conjunto de documentos e destaca as partes mais importantes e
interessantes. Desta forma o usuário pode identificar rapidamente o assunto
abordado por um documento ou conjunto de documentos sem ter que lê-lo(s) na
íntegra.
Os dados extraídos podem resultar nos seguintes objetos: (1) sumarização:
geração de um resumo; (2) centróide: lista de palavras que indica os temas ou
centros de interesse em torno de uma mesma informação. Esse centróide é
geralmente utilizado para representar o grupo. Essas palavras mais importantes
dariam para o usuário uma visão geral do assunto tratado no documento ou conjunto
de documentos. Esse formato de apresentação dos dados só ocorre após a
aplicação da técnica de clustering. (3) Passagem: identificação de trechos
relevantes.
3.2.2.3 Análise Lexicométrica
A análise lexicométrica é uma técnica para tratamento estatístico de dados
qualitativos sob a ótica quantitativa para a caracterização topológica e combinatória
de elementos léxicos de um conjunto de dados textuais. Permite descobrir corelacionamentos e dados implícitos nos registros de um conjunto de documentos
pelo estudo e desenvolvimento de um processo de extração. Dentre as técnicas de
descoberta de conhecimento em bases textuais mais utilizadas no processo
lexicométrico existe a identificação de palavras mais frequentes presentes no
documento (WIVES, 2002). Esse tipo de análise serve para identificar o conteúdo
tratado em um documento ou um corpus. A identificação de palavras mais relevantes
de um texto é conseguida por meio da listagem das palavras ordenadas da mais
47
para a menos frequente. Assim, é possível identificar o assunto mais importante
dentro do conteúdo textual.
Para diferenciar as características mais relevantes de um texto utiliza-se a
atribuição de pesos. Esta técnica possibilita que as aplicações de mineração de
texto façam previsões utilizando vetores com uma quantidade grande de palavras ou
características (MANNING; RAGHAVAN; SCHÜTZE, 2009). Os três pesos mais
utilizados são:
•
Binário – Esta medida de peso é a mais simples. O termo t recebe o valor
unitário true quando o mesmo é encontrado no documento d. De mesmo
modo, t recebe false caso não seja encontrado em d. Esta representação
é muito simples e deve ser utilizada dependendo do domínio.
•
TF (Term Frequency): Essa medida probabilística define o número de
vezes que o termo t é encontrado no documento d. Os termos passam a
não fornecer informação relevante para a diferenciação de documentos
quando aparecem com frequência alta na maioria dos documentos.
•
TF-IDF (Term Frequency – Inverse Document Frequency): Esta medida
probabilística atribui pesos que favorecem termos que ocorrem em
poucos documentos de uma seleção. O objetivo é computar a frequência
de um termo em um documento, levando em consideração sua
importância. Este efeito de importância se consegue através do fator idf,
cuja finalidade é a de inverter a escala de um termo na medida em que a
sua presença nos documentos aumenta ou diminui.
A aplicação prática desse método nas pesquisas de marketing e inteligência
competitiva é a identificação de novos concorrentes que apareçam nas listagens, ou
mesmo o aparecimento de centros de interesse, tópicos mais relevantes, pessoas,
empresas, marcas mais comentadas (TELMA, 2011). É possível também obter uma
análise de tendência, caso seja aplicado determinados períodos de tempos para
verificar se determinada marca ou concorrente está sendo mais ou menos
frequentes nas postagens. Nas redes sociais, essa técnica é utilizada para identificar
as palavras mais frequentes em determinado período de tempo, tal como o Trending
Topic do Twitter (CUNHA, 2006).
48
3.2.2.4 Clustering
O clustering (agrupamento ou conglomeração) é um método de descoberta de
conhecimento utilizado para classificar objetos ou casos em grupo relativamente
homogêneos, facilitando assim a identificação de classes semelhantes entre si, mas
diferentes de objetos em outras classes (MALHOTRA, 2001; WIVES, 2002). No caso
de documentos, o clustering identifica os documentos de assuntos similares e os
agrupam, gerando conjuntos de documentos semelhantes. Esse método é útil
quando não se tem uma ideia dos assuntos (das classes) tratados em cada
documento e deseja-se separá-los por assunto (WIVES, 2002).
Malhotra (2001) ressalta a importância desse método na pesquisa de
marketing, pois poderá ser utilizada para vários propósitos como a segmentação do
mercado. O autor exemplifica:
“Os consumidores podem ser agrupados com base nas vantagens que
esperam da compra de um produto. Cada cluster consistiria em
consumidores relativamente homogêneos quanto ás vantagens que
procuram.” (MALHOTRA, 2001, p. 573)
Geralmente utilizada antes de um processo de classificação ou categorização,
o processo de clustering facilita a definição de classes, proporcionando ao analista
os co-relacionamentos entre os elementos de um conjunto de documentos e a
identificação de uma melhor distribuição de classes para os objetos selecionais. Ou
seja, não é necessário ter conhecimento prévio sobre os assuntos dos documentos
ou do contexto dos mesmos. Os assuntos e as classes dos documentos são
descobertos automaticamente pelo processo de agrupamento (WIVES, 2002).
O processo de agrupamento é precedido pela etapa de pré-processamento,
tais como transformações das letras para o formato minúsculo (case folding), a
retirada de termos desnecessários (stopwords) e a redução da palavra ao menor
radical (stemming).
Os agrupamentos em documentos de textos podem ser visualizados de duas
formas de agrupamento: partição disjunta ou grupos hierárquicos (TICOM, 2007). No
primeiro caso, um algoritmo de partição (k-means ou k-medoid) é aplicado à coleção
de documentos e estes são colocados em grupos distintos, geralmente não havendo
espécie alguma de relacionamento entre os grupos identificados. No segundo caso,
o processo aplica recursivamente os algoritmos hierárquicos (single-link ou averagelink) para a identificação de cluster e acaba gerando uma espécie de árvore, no qual
49
as folhas compreendem os grupos mais específicos e os nós intermediários
representam os grupos mais abrangentes. A Figura 9 mostra as representações
gráficas resultantes dos dois processos de agrupamento.
Figura 9: Tipos de agrupamentos
Partição disjunta
Partição hierárquica
Fonte: Adaptado de Wives (2002)
Wives (2002) aborda as vantagens e desvantagens dessas duas topologias. A
topologia de partição disjunta não proporciona estruturas que indiquem corelacionamento entre grupos, não sendo possível identificar os assuntos mais
específicos e os mais abrangentes. Na segunda topologia, esse problema é
solucionado, pois oferece estruturas de navegação hierárquica entre os grupos,
facilitando a localização da informação. A desvantagem desse formato é a
necessidade de maior processamento dos dados e a complexidade da manutenção
dos clusters.
A análise de agrupamentos pode ter diversas aplicações em processamentos
de textos. Primeiro, a recuperação da informação textual é facilitada porque o
método desenvolvido consegue processar grande quantidade de documentos e
agrupá-los em clusters de documentos semelhantes. Podem também ser aplicados
no processo de descoberta de associações entre palavras, facilitando o
desenvolvimento de dicionários e thesaurus, que podem ser utilizados em
ferramentas de busca, expandindo consultas ou sistematizando a lista de palavraschave mais adequadas para coletar os dados. Outra aplicação é a utilização dos
grupos identificados em alguns processos de identificação de características
relevantes, capazes de identificar o padrão e, em diferentes períodos de tempo, as
tendências dos grupos (CAVALCANTI, 2011).
50
3.2.2.5 Classificação ou categorização
A área de aplicação denominada como classificação tem por objetivo
identificar, por semelhança, cada novo documento como um dos tipos de categorias
(classes)
previamente
definidas
(MATSUNAGA,
2007).
A
classificação
de
documentos textuais, à priori, é uma técnica tipicamente realizada por humanos, que
leem o documento e classificam em categorias temáticas pré-definidas. Na Internet,
com o crescente número de documentos textuais sendo acrescentados e atualizados
fica impraticável a técnica manual, necessitando de automatização desse processo.
Ticom (2007) explica que a classificação de documentos pode ser dividida em
linear e não linear. Os classificadores lineares são mais simples e tem um modelo de
treinamento mais fácil de ser interpretado do que os modelos não lineares. Segundo
Morgado Júnior (2008), as categorias podem ser escolhidas para corresponder aos
tópicos ou temas dos documentos. Para o autor, alguns sistemas categorizadores
retornam uma única categoria para documento, enquanto outros retornam múltiplas
categorias. Nos dois casos, o resultado pode ser nenhuma categoria ou algumas
categorias com baixa confiabilidade. Nestes casos, o documento é rotulado como
categoria “desconhecida”, para posterior classificação manual. A Figura 10 retrata o
processo de uma classificação automática de documentos proposta por Morgado
Júnior (2008).
Figura 10: Modelo de classificação de documentos
Cat 2
Cat 1
?
Cat 3
Categorizador
Treinamento
Cat 1
Fonte: Adaptado de Morgado Júnior (2008)
Cat 2
Cat 3
51
Verifica-se que existe uma etapa de treinamento, no qual a máquina detecta
os padrões de cada categoria e posteriormente, ao apresentar um documento novo,
o sistema categorizador o classificará em uma categoria pré-estabelecida.
Os tipos de classificação mais utilizados na mineração de textos, de acordo
com Ticom (2007); Matsunaga (2007); Morgado Júnior (2008) são:
o Classificador bayesiano (Naive Bayes): É um método probabilístico, no
qual se assume que todas as variáveis são independentes da variável de
classificação. Esse classificador assume que as características são
independentes para uma dada classe. Essa classificação é feita utilizando
dados de treinamento para estimar a probabilidade de um documento
pertencente a cada classe. São utilizados os termos do documento com
seus respectivos pesos para realizar a classificação. Para cada termo do
documento é calculada a probabilidade de o mesmo pertencer à categoria.
É feita uma combinação das probabilidades levando em consideração o
peso dos termos. Se o resultado for maior que determinado coeficiente, o
documento é incluído na categoria.
o Classificador SVM (Support Vector Machine): Esse classificador é o
mais utilizado em mineração de texto e se mostra mais eficiente que o
restante (MATSUNAGA, 2007). Essas técnicas utilizam uma função
chamada kernel para mapear um espaço de pontos de dados, os quais
não são linearmente separáveis em um novo espaço que é linearmente
separável (CAVALCANTI, 2011). Os documentos são divididos em dois
conjuntos definidos como base de treinamento e de teste. A base de
treinamento é usada para o algoritmo de classificação obter as
características das categorias da coleção. A base de teste valida o
desempenho do classificador, determinando as categorias as quais os
novos documentos pertencem. O SVM implementa a ideia de que seja
construído um hiperplano com base no mapeamento dos vetores de
entrada em um espaço de características com uma grande quantidade de
dimensões.
o K-NN (k vizinhos mais próximos): Dentre as técnicas de classificação,
esta é a que apresenta efetividade competitiva às técnicas SVMs. O
algoritmo k-NN calcula a similaridade entre documentos de teste e de
52
todos os documentos do conjunto de treinamento para decidir se um
documento pertence a uma determinada categoria, por fim são
selecionados os k documentos de treinamento mais similares ao
documento de teste (os k vizinhos mais próximos). Esse método exige
mais processamento computacional do que o modelo SVM, como também
é mais sensível à presença de termos não relevantes (MATSUNAGA,
2007).
o Árvore de decisão: é uma árvore em que os nós internos são rotulados
pelos termos, os ramos que partem dos nós são definidos pelos testes,
levando-se em consideração o peso que o termo tem no teste do
documento e as folhas pelas categorias. A maioria dos classificadores
utiliza a forma binária para representar os documentos gerando
consequentemente uma árvore binária.
o Redes neurais: É uma rede de unidades onde as unidades de entrada
representam os termos, as unidades de saída significam as categorias de
interesse e os pesos nas conexões representam as relações de
dependências. O classificador SVM é uma subclasse de redes neurais.
o Outros Modelos: Existem outros métodos para classificar um documento
de acordo com suas características, porém menos utilizados devido à sua
complexidade computacional, como também o desempenho ser muito
similar a outros métodos mais conhecidos. São eles: regressão linear,
regressão logística, método linear por ordenação (scoring), indução de
regras e algoritmos online (TICOM, 2007).
3.2.3 Etapa de Pós-processamento
Ticom (2007) apresenta que na mineração de texto sempre são usadas
medidas matemáticas que podem servir para mensurar a aplicação dos métodos
utilizados, tais como: classificação, clusterização, extração de características, entre
outras. As medidas de avaliação de desempenho mais utilizadas são, segundo
Pinheiro (2009) o índice de precisão (precision) que é a medida analisada no âmbito
de cada classe. É a razão entre o número de documentos corretamente classificados
e o número total de documentos associados à classe. Outra métrica utilizada é a
cobertura (recall) definida pela razão entre o número de previsões corretas positivas
sobre o número de documentos da classe positivos. Por fim, a Medida F (f-measure),
53
que pode ser definida em função da precisão da cobertura. A Figura 11 ilustra um
gráfico explicativo sobre o cálculo de cobertura e precisão.
Figura 11: Demonstração do cálculo de precisão e cobertura
Cobertura
Precisão
Y
Documentos da
Classe C
Z
X
documentos
classificados
Documentos da
classe C e não
classificados
Y
documentos
classificados,
não associados
á classe C
Documentos associados
a classe c e selecionados
Fonte: Adaptado de Ticom (2007)
O Quadro 5 relaciona as técnicas apresentadas por Wives (2002), Ticom(2007)
e Pinheiro (2009) na mineração de texto e que podem ser utilizadas para
processamento de dados textuais coletados da Internet.
Quadro 5: Técnicas e etapas da Mineração de texto
ETAPAS
FASES
ATIVIDADES
Coleta
Pré-processamento
Limpeza dos dados
Recuperação
Indexação
Recuperação
Vocabulário
Classificação
Processamento
Mineração de texto
Clustering
Normalização
Lexicometria
Filtragem
Disseminação
Palavras
Documentos
Centróide
Extração
Sumarização
Passagem
Pós-processamento
Avaliação dos
resultados
Índices de precisão
Avaliação de desempenho
Índices de cobertura
Medida-f
Fonte: Adaptado de Wives (2002); Ticom (2007 e Pinheiro (2009)
54
4
4.1
MINERAÇÃO WEB NAS REDES SOCIAIS
REDES SOCIAIS
Com o advento da Internet, uma miríade de ferramentas tecnológicas
surgiram como novas formas de comunicação, relacionamento e organização das
atividades humanas, dentre elas as redes sociais virtuais (AFONSO, 2009), também
chamada de redes sociais digitais (HASGALL; SHOHAM, 2007) ou redes sociais
online (SOUZA, 2010). Dentre as principais características observadas nessas
ferramentas
é
o
comportamento
colaborativo
de
seus
participantes,
que
ultimamente, tem se tornado foco de muitas discussões. Segundo Costa (2003), a
chamada “cultura digital” tem se tornado um marco na cultura ocidental por meio das
atividades colaborativas cuja a essência é a troca de informação, conhecimento e
comunicação.
Kaufman (2010) retrata a evolução da relação indivíduo versus internet ao
longo do tempo, conforme pode ser visualizado na Figura 12, subdividindo em três
grades fases: meio de comunicação e informação, comércio eletrônico e, por fim, o
fenômeno da colaboração. Na primeira era, correspondente de 1994 a 1998, a
Internet era palco de grandes empresas concentradoras de publicação de
informações e de ferramentas de comunicação instantâneas, os famosos batepapos. De 1998 a 2005, surgiu o comércio eletrônico como uma alternativa para
compras de produtosou serviços através do computador. E por último, a partir de
2006 surge o fenômeno da colaboração online, no qual os internautas compartilham
a criação e o desenvolvimento de informações, ativos comerciais, culturais e sociais.
O efeito do surgimento da era da colaboração gera uma grande quantidade
de informação online compartilhada entre os indivíduos. Kalfman (2010) afirma que
esse “estoque digital” é fundamental no processo de consulta e tomada de decisão,
podendo estar vinculada a um consumo imediato de um bem ou serviço ou fazendo
parte de um espaço público de colaboração, no qual os resultados não são
imediatos e os benefícios são coletivos.
55
Figura 12: A evolução das ferramentas na Internet
QUANTIDADE
DE USUÁRIOS
1994
77 Mi
400 Mi
500 Mi
1 Bi
1,4 Bi
1998
2000
2003
2006
2008
ERA DA INFORMAÇÃO
ERA DO COMÉRCIO
E COMUNICAÇÃO
ELETRÔNICO
Fonte: AgenciaClick apud Kaufman, 2010
ERA DA
COLABORAÇÃO
A maior parte das ferramentas de uso colaborativo é formada pelas redes
sociais digitais, onde cada indivíduo tem sua função e identidade cultural (TOMAEL;
ALCARÁ; CHIARA, 2005). Simplificando o conceito, rede social digital é geralmente
utilizada para descrever um grupo de pessoas que interagem primariamente através
de qualquer mídia de comunicação (SOUZA, 2010). Tecnicamente falando, trata-se
de uma representação grafológica no qual os “nós” são os atores (geralmente
pessoas) e as arestas são os relacionamentos entre eles. Esses grafos, estudados
pela área das ciências exatas, podem apresentar desde conexões esparsas (árvores
genealógicas) até conexões muito densas, como as redes de contatos na Internet
(BOYD e ELLISON, 2007). No campo da sociologia, as redes sociais podem ser
definidas, segundo Marteleto (2001, p.72), como um “[...] conjunto de participantes
autônomos, unindo ideias e recursos em torno de valores e interesses
compartilhados”. O foco principal seriam os estudos das estruturas das redes e o
caráter de identidade social e os padrões de relacionamentos dos indivíduos em si,
de acordo com sua posição dentro do grupo a que pertence (BOYD e ELLISON,
56
2007). Portanto, uma rede social pode ser denominada como a forma representativa
de grupos com mesmos interesses e objetivos, sejam eles de amizade,
conhecimentos profissionais, culturais, religiosos ou afetivos que estão reunidos por
causa própria ou visam algum tipo de alteração na realidade do coletivo (RECUERO,
2008).
Os sites de redes sociais oferecem serviços na Web que permitem aos seus
usuários (1) construir um perfil público ou semipúblico dentro de um sistema
conectado, (2) articular uma lista de outros usuários com os quais eles compartilham
uma conexão e (3) ver e mover-se pela sua lista de conexões e pela dos outros
usuários (BOYD e ELLISON, 2007. p.211). Geralmente o que se encontra nas redes
sociais são páginas de apresentação do perfil do usuário, lista de amigos ou
membros do grupo, ferramentas de interação, tais como fórum, enquetes,
comentários, vídeos, chats, hipertextos (textos ou imagens que levam a outras
mensagens por meio de links) e outros. Recuero (2008) relata que o objetivo das
pessoas entrarem nas redes sociais é ganhar popularidade através da formação de
um grande número de amigos ou seguidores, no entanto, muitas vezes essas
pessoas entre si não se conhecem, não tendo como mensurar a quantidade exata
de verdadeiros relacionamentos entre os usuários. A autora ressalta que não é
apenas a lista de perfis associados que caracteriza uma rede, mas a interação entre
os indivíduos.
Segundo Malini (2008), o sucesso das redes sociais se dá por meio de três
forças: a democratização das ferramentas de produção de conteúdo com a
popularização dos computadores, a redução do custo de distribuição através da
internet e a ligação cada vez mais próxima entre oferta e procura amplamente
utilizado pelas ferramentas de busca. Recuero (2009) observa que cada vez mais as
empresas estão atentas ao cenário das redes sociais para obter vantagem
competitiva e explorar suas potencialidades para divulgar suas marcas.
Existem centenas de redes sociais espalhadas na Internet, reunindo pessoas
em torno dos mais diversos interesses. Boyd e Ellison (2007) propuseram uma revisão
histórica dos sites de redes sociais desde 1997, com o lançamento da primeira rede
social, o SixDegrees, até 2006 com a chegada das mais recentes ideias nesse ramo. A
Figura 13 ilustra essa evolução em forma de linha do tempo, acrescentando algumas
atualizações até 2008 (contribuição própria).
57
Figura 13: Cronologia do ano de lançamento das rede social entre 1997 a 2008.
1997 1998 1999 2000 2001 2002
Fonte: Adaptado de Boyd e Ellison (2007)
2003
2004
2005
2006
2007
2008
58
Segundo Ibope (2011), as três maiores redes sociais ativas no Brasil é o
Facebook, Orkut e Twitter. Em agosto de 2011, o Facebook atingiu a marca de 30,9
milhões de usuários únicos, ou 68,2% dos internautas no trabalho e em domicílios,
equiparando-se ao Orkut, até então o maior site social no Brasil, que registrara
alcance de 64%, ou 29 milhões de usuários, ou seja, mantendo-se em decadência
em relação aos demais. O Twitter manteve tendência de crescimento no Brasil e
marcou 14,2 milhões de usuários únicos, ou 31,3%. Com esses resultados, o Brasil
se consolida como um mercado com elevada utilização de sites sociais digitais em
relação aos outros países, com uso diversificado, refletindo o interesse dos
brasileiros pela Internet. Apesar do Orkut ainda estar em segundo lugar em número
de usuários no Brasil, a realidade mostra que os seus clientes estão cada vez mais
migrando para outras plataformas, portanto esta rede social não será objeto alvo
desta pesquisa, restando somente o Facebook e Twitter para análise.
4.1.1 Facebook
O Facebook (www.facebook.com) atualmente é o site de relacionamento com
maior número de usuários cadastrados. Seu fundador foi o ex-estudante de Havard,
Mark Zuckerberg, em 2004, nos Estados Unidos. De início, a função deste sistema
era restrita para universitários daquela faculdade, depois se expandiu para outras,
até que atingiu o grupo secundarista, ganhou a adesão de empresas e hoje possui,
segundo informa a própria página de estatística do site, cerca de 750 milhões de
usuários no mundo e, no Brasil, 30 milhões (FACEBOOK, 2012).
Cada usuário no Facebook possui uma página (ver Figura 14) onde pode
publicar textos, imagens e vídeos. Seus recursos são: o mural que é um espaço para
postar mensagens; News feed, que são postagens que não estão no mural,
Mensagens privadas, enviadas pelos visitantes pela caixa de entrada - só visíveis
para o dono da página; Classificados, local para anunciar imóveis, vagas de
emprego entre outras coisas; Jogos, forma de interação com amigos por meio de
animações de diversos significados como chamar atenção; Status, informações
referentes ao usuário; Eventos, próximos encontros sociais; Aplicativos, software
internos que executam tarefas específicas dentro do Facebook; Vídeos, que são
59
enviados do computador ou celular e comentários, para que os amigos deixem
recados.
Figura 14: Página principal do Facebook - Perfil do criador Mark Zuckerberg
Fonte: www.facebook.com/zuck
No site, os temas dos textos em geral falam sobre a vida pessoal e social dos
indivíduos ou revelam a admiração do usuário por algum tema cultural, artístico ou
musical. Seus amigos e seguidores podem interagir e complementar com opiniões
sobre o que foi dito. Segundo COMBÈS e KOCERGIN (2009), no novo modelo
editorial que se constrói o controle da qualidade da informação não é feito a priori
por um sistema de seleção editorial certificado, mas por um controle a posteriori da
seleção feita pelos leitores que passam ou não a diante o material produzido.
4.1.2 Twitter
O Twitter foi criado em outubro de 2006 por Jack Dorsey e é uma das redes
sociais que mais ganhou notabilidade nos últimos anos e poderia ser descrito como
o SMS da internet ou um microblog. De acordo com Twitter (2011), em setembro de
2011 existiam 175 milhões de contas registradas no site, no entanto, somente 100
milhões a mantinham ativas, a outra parcela apenas criou uma conta e não utilizou
com frequência.
60
O Twitter permite que seus usuários tenham uma página própria (ilustrada na
Figura 15) onde possam escrever mensagens, conhecidas como tweets, sobre o que
estão fazendo no momento, por isso o slogan, What are you doing right now? (O que
você está fazendo agora?). Há dois tipos de grupos de amigos que podem estar
conectados a um twitter: os seguidores (followers), a quem se está seguindo
(following). Ao adicionar um amigo, o indivíduo vira um follower, enquanto o amigo
entra para a sua rede na categoria following. Caso deseje, o usuário pode optar por
receber todos os tweets que os amigos seguidos escrevem na própria página. As
atualizações pessoas dos contatos podem ser lidas e enviadas por meio de SMS via
celular, pela Web ou por aplicativos específicos instalados em alguns aparelhos
móveis. Segundo RIOS e SPECK (2009), a plataforma supõe mais que um simples
suporte tecnológico, mas um espaço onde ocorre a interação entre sujeitos,
deixando de ser intermediário para tornar-se intermediador.
Figura 15: Tela do Twitter
Fonte: www.twitter.com/twitter
Os tweets tem se tornado um mecanismo para divulgar eventos, fazer
propaganda, espalhar notícias e mobilizar pessoas. Segundo Lemos (2002), a
sociabilidade na rede valoriza as manifestações do cotidiano e, por isso mesmo, não
pretende tanto ineditismo. Mas, o conteúdo do tweets não se restringe a notícias
sobre o que um amigo está fazendo na sua privacidade. Existem perfis
especializados em enviar notícias e informações sobre os mais diversos temas.
Segundo AMORIM et al (2009, p. 18),
61
[...] muita gente que começa a usar o Twitter reclama da banalidade do
conteúdo que circula. Isso não tem a ver com o serviço em si, mas com as
pessoas que se está seguindo. Siga quem você admira e a qualidade das
mensagens tende a aumentar. Uma das diferenças do Twitter em relação a
outros sites de rede social é que, além de promover relacionamentos, o
serviço também estimula a troca de informações entre seus participantes. O
ato de repassar conteúdo é tão natural que os usuários adotaram um nome
para isso: retuitar ou RT. A primeira motivação para se retuitar é retransmitir
uma informação que você considera relevante para o seu grupo de
seguidores. Com pouco esforço - na verdade, quase nada - você pode
prestar um serviço importante para eles.
Teixeira (2010) ressalta que a proposta do Twitter não é criar textos
complexos, mas, o envio de breves manchetes sobre a vida pessoal ou notícias de
um determinado assunto a quem interessar dentro da rede. Tendo em vista esse
objetivo, muitas empresas possuem seus perfis oficiais a fim de fazer parte da rede
de seus clientes e receber as reclamações e sugestões dos mesmos de maneira
gratuita e rápida. Segundo a agência EFE (2009), para multinacionais como
Starbucks, Dell e Amazon, o Twitter se tornou uma ferramenta fundamental em suas
relações públicas e fonte de informação sobre as opiniões de seus clientes, cada
vez mais engajados no serviço. Quando um líder com milhares de seguidores
dispara uma informação sobre algum problema enfrentado com uma empresa este
pode levantar a viralização da informação.
4.2
O COMPORTAMENTO DOS USUÁRIOS NAS REDES SOCIAIS
Os sites de redes sociais (SRS) acabam gerando duas situações inéditas, que
não acontecem no viver cotidiano dos usuários que a utilizam. A primeira é o
aumento da tendência em publicar informações de comportamentos rotineiros nas
redes sociais. Como por exemplo, no Facebook, a frase que a ferramenta utiliza pra
estimular a postagem de novas mensagens é: “No que você está pensando?”, já no
Twitter a frase é “O que está acontecendo?”. Esses sites demonstram traços
comportamentais e ações que até então não se encontravam no viver fora da rede.
A segunda situação é a possibilidade de quantificar e processar os seus dados
através do ambiente online ou com recursos adicionais (RAMIREZ, 2009).
Sobre a primeira situação explorada por Ramirez (2009) demonstra que o
usuário é estimulado nos sistemas de redes sociais a realizar ações reflexivas sobre
seus
atos
e
comportamentos
cotidianos,
e
principalmente,
demonstrá-los
publicamente. Herbert Blumer em seus trabalhos sobre o interacionismo simbólico
62
abordou que o homem é um ator social que pode interagir consigo mesmo,
analisando suas ações e as dos outros continuamente, indicando a si mesmo como
agir a partir da projeção da perspectiva dos seus pares (BLUMER, 2001). Baseado
nos estudos do interacionismo simbólico, ele propõe uma compreensão dos
processos sociais envolvendo o relacionamento de três entidades: sociedade, mente
e self (base para compreender como o indivíduo se vê, e pressupõe o que os outros
veem). Essas reações podem realçadas pelas facilidades técnicas que as
ferramentas de redes sociais digitais propiciam, no qual o conteúdo exposto passa a
ter dentre outras acentuações convergentes reflexividade (PAPACHARISSI, 2011).
Outra característica comportamental dos usuários nas redes sociais é a
construção da identidade e pode ser encontrada nas pesquisas de Simon (2004).
Dentre os tipos de identidade na sociedade moderna, o autor revela que as pessoas
possuem múltiplas identidades. Isso significa que um mesmo usuário poderá se
comportar e realizar ações e reações diferentes de acordo com o tipo de
relacionamento que ele tenha com os outros usuários nos sites de redes sociais.
Além da multiplicidade, o comportamento identitário dos indivíduos englobam
características
de
variabilidade,
flexibilidade,
fragmentação
e
até
mesmo
contradição. Ribeiro (2009) atribui a acentuação dessas características às
potencialidades sociotécnicas que os ambientes digitais proporcionam. Apesar
dessa possibilidade de exposição multivariada do comportamento dos indivíduos nos
SRS, Kennedy (2006) afirma que as identidades online e off-line ficaram mais
expostas com os diversos tipos de informações sendo publicadas pelo mesmo
usuário em redes sociais diferentes, gerando uma maior reflexividade sobre os
assuntos inconsistentes com a realidade.
Ainda de acordo com a característica identitária dos indivíduos, o pesquisador
e sociólogo Erving Goffman comparou o relacionamento entre pessoas como uma
peça de teatro, no qual as pessoas são os atores sociais que procuram oferecer uma
imagem idealizada de si que se encaixe nos padrões reconhecidos e valorizados
pela sociedade. O autor explica que há uma divergência entre o que é
conscientemente apresentado e o que é apenas emitido. Assim como no teatro, a
representação dos indivíduos pode ser distinta de acordo com o ambiente onde ele
esteja atuando, seja no palco ou nos bastidores. Todos os atos ocorridos nesse
evento são gerenciados para manter uma linha de conduta de acordo com a
63
situação atual. Para gerenciar o self é necessário ter um conjunto de recursos para
manter a aparência, ter uma consciência das interpretações realizadas pelos outros,
ter um desejo de manter aprovação social e ter uma vontade de usar esse conjunto
de táticas de gerenciamento de impressões (GOFFMAN, 2010). Nesse sentido,
percebe-se que nem tudo que os usuários comentam nas redes sociais estão
relacionados com a sua realidade e seu desejo. O ato de imaginar antecipadamente
a reação do seu público nas redes sociais pode incitar ou inibir determinadas ações,
que no viver cotidiano não teriam como ser contidos.
Descobrir o comportamento dos indivíduos que utilizam as redes sociais
permite entender até que ponto as informações colhidas para tomada de decisão
estratégica pode ser eficaz. Apesar das pesquisas apontarem essa dualidade de
comportamentos distintos nas redes sociais pela mesma pessoa, é importante
perceber que nesses ambientes a totalidade do conteúdo dos assuntos comentados
é mais válida do que a análise individual do comentário postado por cada usuário. O
comportamento em grupo poderá deixar escapar informações importantes para a
escolha de determinada decisão estratégica que só serão percebidas se forem
coletadas por ferramentas adequadas para tal finalidade.
4.3
PROCESSO DE MINERAÇÃO WEB NAS REDES SOCIAIS
A predominância de elementos textuais em forma de comentários, opiniões,
conversas dentre outros estão entre os tipos de materiais publicados nas redes
sociais, inclusive os conteúdos baseados em vídeos, imagens e mapas precisam de
comentários de texto tais como tags (etiquetas) e descrições para serem melhor
visualizados na Web (SILVA, 2012). Devido a grande quantidade de elementos
textuais sendo publicado nas redes sociais, ferramentas foram desenvolvidas com o
objetivo de coletar esses dados por meio de uma gama de sistemas de mineração
Web conhecidos como ferramentas de monitoramento de redes sociais.
4.3.1 Monitoramento das redes sociais
As redes sociais digitais tem ultrapassado seu status de modismo ou
utilização passageira e se consolidam na Internet como um grande palco, no qual os
64
seus usuários são os atores. Calcular o efeito gerado nesse interrelacionamento
entre pessoas nas redes sociais e medir o seu comportamento torna-se
demasiadamente importantes. Segundo Telma (2011), a principal vantagem de
monitorar o ambiente das redes sociais está na sua capacidade de coletar
conversas, sentimentos e menções da marca por meio de atividades multiformes
realizadas na Internet.
O monitoramento nas redes sociais (MRS) para fins comerciais podem ser
realizados
da
forma
manual.
Utilizando-se
das
ferramentas
de
buscas
disponibilizadas em cada rede, o analista poderá coletar suas informações por meio
de palavras-chave previamente selecionadas para monitorar produtos, marcas ou
entidades concorrentes. Em seguida, realiza-se manualmente a cópia de textos e
imagens importantes, armazenando-os em documentos de texto, planilhas
eletrônicas para, por fim, cruzar as informações para gerar relatórios satisfatórios
sobre o ambiente competitivo. Esse processo manual pode ser mais habitual do que
se imagina e também oferece um custo zero na sua aplicabilidade, no entanto, se
limita pelo grau de processamento da grande quantidade de dados oferecidas pelas
redes na Web (SILVA, 2012). Outro fator negativo é a atribuição de valores que
podem ser inconsistentes, caso seja feita manualmente e por analistas diferentes.
Percebe-se a necessidade de processar um maior número de dados coletados e que
tenham confiabilidade no seu processamento. As ferramentas capazes de coletar,
armazenar, analisar e disseminar informações são chamadas de ferramentas de
monitoramento de mídias sociais (SILVA, 2010).
O monitoramento das redes sociais pode acontecer de duas formas: coleta de
dados quantitativos e a coleta de dados qualitativos. A primeira utiliza a mineração
de estrutura Web e a mineração de uso Web (LIU, 2007) e tem o objetivo de coletar
dados objetivos e quantitativos para gerar relatórios analíticos e sintéticos sobre os
usuários, grupos de usuários, tendências, dados sociodemográficos dentre outros.
Esse tipo de monitoramento Telma (2011) chama de sistemas Web Analytics e
fornece infomações específicas sobre as redes sociais. O segundo tipo de
monitoramento é chamado de “buzz monitoring”, “monitoramento de mídias sociais
pleno”, “monitoramento de marcas e conversações” entre outros (SILVA e SANTOS,
2010). Baseados na mineração de conteúdo na Web, este tipo de monitoramento
busca coletar, armazenar, classificar, categorizar, adicionar informação e analisar
65
menções online públicas a determinados termos previamente definidos e seus
emissores (SILVA, 2011). Com um foco mais qualitativo, o objetivo desse formato de
coleta é identificar e analisar reações, sentimentos e desejos relativos a produtos,
entidades e campanhas (eventos), como também conhecer melhor o público
pertinente e realizar ações reativas e pro-ativas para alcançar os objetivos da
organização ou pessoa de forma ética e sustentável (SILVA, 2010).
A maior parte dessas ferramentas tem uma interface interativa e amigável que
facilita o seu uso por pessoas que não têm muitas habilidades tecnológicas, no
entanto, Silva e Santos (2010) constata que a maioria das empresas contratam
agências para realizar esse serviço.
4.3.2 Processo de monitoramento de redes sociais
Para iniciar um monitoramento, a maior exigência é selecionar um conjunto
finito de palavras-chave e informar o local donde ocorrerá a coleta. A maior parte
desses locais são as redes sociais mais conhecidas, como o Facebook, Twitter,
Youtube, Blogs dentre outros. Cada plataforma tem sua forma diferenciada de
disponibilizar os seus dados para essas ferramentas. Silva e Santos (2010)
apresentam duas maneiras que os sites de redes sociais disponibilizam seus dados
para coleta. O primeiro caso é a indexação do conteúdo em formatos que podem ser
acessados por meio de mecanismos de busca. O segundo caso é por meio das APIs
(Application Programming Interfaces) que são códigos padronizados disponibilizados
pelos construtores das redes sociais para que desenvolvedores externos criem
aplicações para acessar os dados e integrar serviços dentro das redes sociais. O
segundo caso fornece mais formatos de dados do que o primeiro.
Após o resgate dos dados, outra característica das ferramentas de
monitoramento de redes sociais é o armazenamento para processamento dos
dados. O armazenamento permite que o conteúdo resgatado fique a disposição para
que o analista adicione algumas informações extras ao conteúdo coletado, tais
como: tags, classificação, categorias etc. O processamento oferecido permite
agrupar o conteúdo por período de tempo, emissor, ambiente e por métricas de
alcance e visitação. A pesquisa de Telma (2011) apresenta doze métricas utilizadas
66
por essas ferramentas no processamento dos dados para monitorar os ambientes
internos e externos às empresas.
As medições quantitativas oferecidas pelas redes sociais e coletadas pelas
ferramentas se restringem a informações da presença de alguma marca, como
número de fãs no Facebook, ou o número de seguidores no Twitter ou tráfego de
referência nas redes sociais. Já as informações qualitativas podem ser analisadas
por meio do buzz gerado na rede. Buzz é um termo originário do marketing digital,
principalmente nas mídias digitais, que representa a repercussão de uma marca nas
mídias sociais. Salzman, Matathia e O´reilly (2003) exemplifica buzz da seguinte
forma:
Se algo é bom e seus amigos o mandam para você por que é bom, eis aí o
buzz marketing. Mas se você recebe o comunicado de uma empresa que
quer se passar por boa, isso é simples propaganda e não buzz marketing.
Assim, o truque consiste em gerar buzz para a companhia sem que esse
marketing pareça originar-se dela. (p. 14).
O resultado do processamento dos dados coletados pode ser visualizado por
meio de relatórios com gráficos de diversos formatos com informações sobre as
citações dos usuários, principais usuários que propagam comentários positivos
sobre o que está sendo monitorado ou mesmo usuários que proferem palavras
negativas. Os relatórios também oferecem a opção de mapas informando os dados
geográficos dos usuários, gráfico de palavras-chaves mais utilizadas (nuvem de
tags), índices de palavras positivas, negativas e neutras dentre outras.
4.3.3 Pesquisas sobre monitoramento de redes sociais
Dentre os trabalhos científicos mais recentes sobre o monitoramento de redes
sociais estão relacionados também com os trabalhos de monitoramento de mídias
sociais e ferramentas Web Analytics.
Stavrakantonakis at al (2012) apresentaram uma abordagem de avaliação de
ferramentas de monitoramento de mídia social sob a ótica de três perspectivas: o
conceito que eles implementam; a tecnologia que eles empregam; e a interface
(Quadro 6). No grupo de características conceituais, os autores abordam a
capacidade de coletar e analisar dados significativos (Análise), a capacidade que
permitem se achegar aos clientes (engajamento) e determinar os influenciadores
(influência), bem como a característica que permite que diferentes funcionários da
67
empresa utilizem a ferramenta para realizar tarefas distintas (gerenciamento de fluxo
de trabalho). No segundo grupo são definidas as características tecnológicas que
essas ferramentas devem conter para determinar a extensão do efeito das
mensagens nas redes sociais em relação às variáveis do construto anterior. A
tecnologia utilizada pelas ferramentas é a base necessária para que a coleta e
análise dos dados sejam satisfatórias. Por fim, são analisadas as características de
interface fornecidas para facilitar o utilizador na manipulação e visualizar os dados
por meio de relatórios, gráficos, planilhas dentre outros.
Quadro 6: Funcionalidades das ferramentas de MRS
Grupo
Funcionalidade
Análise
Engajamento
Conceito
Gerenciamento de fluxo de trabalho
Influência
Cobertura
Processamento em tempo real
Tecnologia
Integração com aplicações de terceiros (API)
Análise de sentimento
Histórico de dados
Painel de controle
Interface com o usuário
Exportação de dados
Fonte: Stavrakantonakis et al (2012)
Silva (2012), por sua vez, busca caracterizar e analisar os aplicativos de
análise de informações sociais quanto a sua utilização em processos interacionais
online. A pesquisa buscou compreender como tais aplicativos podem exercer papéis
nas dinâmicas interacionais online e utilizou como metodologia o mapeamento e
classificação dos aplicativos quanto a variáveis relacionadas às suas Práticas
Prescritas, Manejo dos Dados, Visualização, Motivação e Compartilhamento. Como
resultado verificou-se a importância de aspectos desses aplicativos que podem
condicionar as práticas de busca por informação social e auto-monitoramento, com
consequências para os processos de vigilância, memória, gerenciamento de
impressões e construção identitária. O Quadro 7 apresenta a lista de variáveis
estudadas por Silva (2012) para categorizar as ferramentas de análise de
informações sociais.
68
Quadro 7: Variáveis e Categorias Pertinentes aos Aplicativos de Análise de Informações Sociais
Fatores
Características
Autoconhecimento
Exploração
Práticas prescritas
Comparação
Publicação
Retórica da Influência
Resgate
Manejo dos dados
Processamento
Classificação
Unidade de conteúdo
Quantificações Simples
Gráficos de Volume e Tempo
Visualização dos
Infográfico
dados
Linha do Tempo
Redes
Mapas
Experimentação/Pesquisa
Motivação
Divulgação/publicidade
Análise Profissional
Utilização Privada
Compartilhamento
Compartilhamento Direcionado
Compartilhamento Público nos SRS
Fonte: Silva (2012, p. 117)
Na pesquisa de Telma (2011) é possível encontrar uma avaliação de
ferramentas de pesquisa com abordagem específica para mídias digitais com foco
nas práticas de Inteligência Competitiva nas organizações. A autora procura
demonstrar um determinado conjunto de ferramentas de Web Analytics disponíveis
no mercado, propondo uma metodologia de aplicação para os três níveis da
organização: estratégico, tático e operacional. As análises mostraram como as
referidas práticas podem auxiliar na identificação de padrões comportamentais e
quanto às especificidades de uma comunidade on-line, além de identificar possíveis
insights para ações e tendências de consumo. O trabalho também procurou mostrar
uma metodologia adaptada à realidade brasileira, para categorização das métricas
de acordo com quatro conjuntos de objetivos propostos por Lovett e Owyang (2010):
provocar o diálogo entre os usuários, promover defensores da marca ou da
organização, oferecer facilidade no suporte e estimular a inovação do conteúdo. O
Quadro 8 apresenta a lista de métricas utilizada para medir o desempenho
das ferramentas de monitoramento de redes sociais ou Web Analytics.
69
Quadro 8: Lista de métricas de desempenho das ferramentas Web Analytics
Objetivo do
Métricas de
Descrição
negócio
desempenho
Participação na
Percentagem relativa da marca mencionada em mídias
mídia
sociais entre um conjunto competitivo.
Proporção de visitantes que participam de um mercado
Provocar
Engajamento
específico com iniciativa, contribuindo com comentários,
diálogo
compartilhamento do assunto ou indicações do link.
Número de visitantes únicos que participam de uma
Alcance
determinada marca, questão ou tema de conversa em
um ou mais canais de mídia sociais.
Número de indivíduos que geram conteúdo com
Defensores ativos
sentimento positivo em relação à marca ou assunto, em
um dado período de tempo.
Promover
Defensores
Número de pessoas que reverberam empatia sobre os
defensores
influentes
produtos perante uma base consistente de clientes
Mede a contribuição direta ou indireta das conversões
Impacto
que os defensores irão obter em nome da organização.
Percentual de pedidos de clientes de serviços resolvidos
Taxa de resolução
de forma satisfatória.
Quantidade de minutos, horas ou dias necessários para
Facilidade no
Tempo de resolução
produzir uma resposta humana para atendimento ao
suporte
cliente nos canais disponíveis no ambiente virtual.
métrica que envolve cálculo de qualidade, entrega, valor
Pontuação da
percebido, desempenho global, dentre outras específicas
satisfação
a cada negócio.
Tópicos e assuntos mais comentados em conversas e
Tendências
manifestações em mídias sociais.
Percentual de impressões positivas, neutras ou negativas
Estimular à
Afinidade/sentimento sobre menções a produtos ou serviços em determinado
inovação
período de tempo.
Taxa de participação, interação e sentimento positivo
Impacto
gerado a partir de um novo produto ou ideia, apresentado
ao público consumidor nas mídias sociais.
Fonte: Telma (2011)
A agência de consultoria de mídia digital europeia Ideya Business and
Marketing Consultancy lança anualmente um relatório com a lista das ferramentas
de análise e monitoramento de redes sociais mais utilizadas no mundo (Quadro 9). Na
versão 2012 foram elencadas 250, sendo a maior parte de nacionalidade americana
com coleta somente de dados na língua inglesa. Somente uma das ferramentas
avaliadas era brasileira. A pesquisa procurou avaliar as ferramentas sob a
perspectiva de quatro grupos de característica: gestão de dados; análise e
visualização dos dados; gestão de processos e interface com o usuário; e outros
fatores (IDEYA, 2012).
70
Quadro 9: Características das ferramentas de MRS
Grupo
Característica
Coleta
Alertas
Gestão de dados
Exportação de dados
API – Application Programming Interface Integration
Arquivamento de dados
Estatística de mídia
Filtragem e classificação dos resultados
Análise de sentimento
Análise de influenciadores
Análise e rastreamento de conteúdo viral
Análise e visualização dos dados
Análise de tendências
Análise de tópicos e temas
Nuvem de palavras/termos
Análise e monitoramento competitivo
Monitoramento e Métrica de campanhas
Painel de controle
Gestão de processos e interface com
Gestão de fluxo de trabalho
o usuário
CRM – Custumer Relationship Management
Preço
Outros fatores
Ano de lançamento
Clientes
Fonte: Ideya (2012)
Apesar
das
pesquisas
apresentadas
abordarem
as
ferramentas
de
monitoramento de redes sociais de forma ampla, os resultados demonstram que o
objetivo de cada trabalho é apresentar uma abordagem para avaliar e comparar
ferramentas. Diferentemente desse enfoque, a presente dissertação busca avaliar as
ferramentas de monitoramento de redes sociais sob a ótica das informações
disponibilizadas para tomadas de decisões estratégicas por parte dos pequenos e
médios empresários.
71
5
METODOLOGIA
Este capítulo apresenta o tipo de pesquisa utilizado, as fases realizadas, os
parâmetros para a escolha das ferramentas avaliadas e a processamento dos dados
para obtenção dos resultados.
5.1
TIPO DE PESQUISA
Entendeu-se esta pesquisa como exploratória e descritiva. A pesquisa foi
exploratória porque há pouco conhecimento acumulado e sistematizado a respeito
da mineração de dados na Web voltada para o SIM - Sistema de Informação de
Marketing. A pesquisa foi descritiva porque visou descrever os software de
mineração Web disponíveis para utilização pelas PMEs (Pequenas e Médias
Empresas), apresentando suas particularidades, facilidades de uso, forma de
apresentação dos dados coletados, assim como os tratamentos estatísticos que
porventura oferecem.
Segundo Mattar (2008), os estudos exploratórios tem o objetivo de abastecer
o pesquisador com um maior conhecimento sobre o tema ou problema de pesquisa
em questão. De acordo com Boyd Jr. e Westfall (1973), a flexibilidade é a
característica principal desta metodologia e deve ser pautada em procurar novas
ideias e relações, sem a preocupação de seguir um padrão formal de pesquisa.
Quanto à pesquisa descritiva, Chiusoli et al. (2010) revelam que essa abordagem
necessita de um planejamento que reduza o viés e que a precisão da prova obtida
seja ampliada, cujos objetivos tratam-se especificadamente de uma apresentação
das características de uma situação, um grupo ou um indivíduo específico.
5.2
FASES DA PESQUISA
Esta pesquisa está dividida em três fases, cada qual incluindo procedimentos
e técnicas que buscou alcançar os objetivos finais do projeto, conforme pode ser
observado na Figura 16.
72
Figura 16: Fases da pesquisa
Fundamentação teórica
Sistema de Informação de
Marketing
Mineração Web
Redes sociais Digitais
Levantamento das características das ferramentas de Mineração Web
Ferramentas de Monitoramento das redes sociais
Ferramentas de Mineração de texto
Descrição das características das ferramentas e avaliação das suas funcionalidades
Fonte: Autoria própria
A proposta foi levantar as principais características e parâmetros das
ferramentas de mineração Web que coletam dados do ambiente externo (internet e
redes sociais) do sistema de informação de marketing: os sistemas de
monitoramento de redes sociais e as ferramentas de mineração de texto. Foram
apresentados os fatores e variáveis dispostas na literatura sobre esses dois tipos de
sistemas.
A última fase teve como objetivo realizar a descrição dos dados obtidos sobre
as ferramentas coletadas e elencar as funcionalidades oferecidas para gerar
informações baseada nos dados coletados das redes sociais.
5.3
PARÂMETROS PARA ESCOLHA DAS FERRAMENTAS DE MINERAÇÃO
WEB
Esta pesquisa se limitou a estudar a coleta de dados do ambiente externo do
Sistema de Informação de Marketing. Pelo fato do processamento dos dados da
mineração de conteúdo na Web utilizar as técnicas de processamento de texto
73
encontrados na mineração de texto, foi realizada também uma análise nas
ferramentas de Mineração de texto.
Para fazer o levantamento das ferramentas de MRS e mineração de texto
foram realizadas buscas na Internet utilizando palavras-chaves, tais como:
“Monitoramento de redes sociais”, “monitoraçãor redes sociais”, “monitoramento de
mídias sociais” e “monitorar mídias sociais” juntamente com as ferramentas de
mineração de texto divulgadas pela KDnuggets2, site de uma comunidade de
pesquisadores especializada em Data Mining, Text Mining e Web Mining.
5.3.1 Universo e Amostra
Sendo o universo as ferramentas de mineração Web disponíveis na Internet,
a amostra foi formada pelos sistemas capazes de processar dados no idioma
português do Brasil. Procurou-se limitar nas ferramentas disponibilizadas para o
público brasileiro na página de busca da Google (www.google.com.br). Foram
selecionadas as ferramentas que apareceram nas primeiras 10 páginas de consulta
do sistema de busca da google.com até junho de 2012. Escolheu-se esse método
pelo fato dos 10 primeiros resultados da busca nesse site trazer os resultados mais
relevantes para o país de origem e idioma, neste caso o Brasil e a língua
portuguesa.
5.3.2 Seleção de variáveis
Os parâmetros utilizados para mapear as ferramentas de mineração Web
coletadas foram explorados nas pesquisas de Silva (2012), Telma (2011),
Stavrakantonakis et al (2012) e Ideya (2012). Os dois primeiros autores se limitaram
a pesquisar sobre as ferramentas de monitoramento de redes sociais e análise de
informações
sociais,
contribuindo
com
as
funcionalidades
descritivas
das
ferramentas e dados quatintativos oferecidos pelos aplicativos. Wives (2002)
pesquisou sobre as tecnologias de descoberta de conhecimento em texto (Text
mining) e ofereceu as características para medir a capacidade que a ferramenta
oferece no processamento de informações textuais e quais resultados elas
2
http://www.kdnuggets.com/software/index.html
74
oferecem. Além dos autores citados, algumas funcionalidades foram detectadas no
decorrer da análise e foram inclusas como autoria própria (Quadro 10).
Quadro 10: Lista de funcionalidades das ferramentas de mineração Web
Etapa
Funcionalidade
Autores
Busca por palavra-chave
Silva (2012); Ideya (2012)
Importação de dados de planilhas
Autoria própria
Coleta
Stavrakantonakis et al
Exportação de dados para planilhas
(2012); Ideya (2012)
Limpeza dos dados – controle de SPAM Autoria própria
Cruzamento de dados
Ideya (2012)
Classificação ou categorização
Wives (2002)
Indexação
Wives (2002)
Processamento
Normalização
Wives (2002)
Lexicometria
Wives (2002)
Clustering
Wives (2002)
Estatística de Mídia
Ideya (2012)
Filtros e Organização dos resultados
Ideya (2012)
Stavrakantonakis et al
Análise de sentimento manual
(2012); Ideya (2012)
Stavrakantonakis et al
Análise de sentimento automático
(2012); Ideya (2012)
Análise de tópicos e temas
Ideya (2012)
Análise de tendências
Telma (2011)
Análise
Telma (2011);
Análise de influenciadores
Stavrakantonakis et al
(2012); Ideya (2012)
Monitoramento e mensuração de
Ideya (2012)
campanhas
Gestão de Relacionamento com o cliente Ideya (2012)
(CRM)
Análise de monitoramento competitivo
Ideya (2012)
Análise de conteúdo
Ideya (2012)
Unidade de Conteúdo
Silva (2012)
Gráfico de volume e tempo
Silva (2012)
Definir partes de um todo (gráfico pizza) Autoria própria
Visualização
Comparação de valores
Autoria própria
Análise de texto (Termos mais citados e Ideya (2012)
nuvem de tags)
Mapas
Silva (2012)
Fonte: Dados da pesquisa
Aplicação
MRS e MT
MRS
MRS e MT
MRS
MRS
Na etapa de coleta de dados foram utilizadas as funcionalidades de busca por
meio de palavras-chave previamente escolhidas para extrair somente os
comentários
que
interessam.
Para
diminuir
a
quantidade
de
menções
desnecessárias eram dispionibilizados opções de filtragem por termos booleanos
(E/OU) nas expressões de busca. Verificou-se outra forma de eliminar comentários
errados tal como o uso de mensagens SPAMS (enviados por robôs e não por
pessoas) nas redes sociais. Por fim, foi verificado a presença da tarefa de
exportação os dados coletados em forma de arquivos de texto ou planilhas.
75
Foram utilizadas as formas de processamento de dados sugeridas por
Ideya(2012) como o cruzamento de dados e Wives (2002) com as técnicas de
classificação, indexação, normalização, lexicometria e clustering, visto que as
ferramentas de MRS trabalham também com as mesmas características das
ferramentas de mineração de texto.
Na etapa de análise de dados foram avaliadas somente nas ferramentas de
MRS com as características apresentadas por Telma (2011), Ideya (2012),
Stavrakantonakis et al (2012). As funcionalidades avaliadas foram: estatística de
mídia, filtro e organização dos resultados, análise de sentimento, análise de tópico e
temas, análise de tendências, análise de influenciadores, monitoramento de
campanhas, CRM, análise competitiva e análise de conteúdo.
Conhecida também por Share of Voice, a estatística de mídia é a
percentagem relativa da marca mencionada em mídias sociais entre um conjunto
competitivo. Telma (2011) compara essa métrica ao Market Share, que é a fatia de
participação da empresa em um determinado mercado. Enquanto esta compara a
receita média conquistada em relação a outras empresas, o share of voice busca
saber a sua participação nas fontes de informação das redes sociais. Essas
estatísticas apresentam a porcentagem de participação nas mídias ao longo de um
determinado período de tempo para o acompanhamento de históricos de
comparação. Quando apresentadas em gráficos no formato pizza, esta métrica pode
oferecer uma visão comparativa de qual mídia social tem um maior impacto dentre
os usuários.
A filtragem de informações após a coleta é importante para selecionar a
melhor coleção de dados e eliminar os ruídos trazidos pelo processo de busca por
palavra-chave. De acordo com Morgado Júnior (2009), é comum aparecer dados
não desejados dentre os itens coletados por causa da taxa de erro que ocorre ao
selecionar textos por palavras-chave. Esse ruído, de alguma forma, precisa ser
eliminado do corpus para não interferir na análise e interpretação dos dados.
Quanto maior o número de opções de filtragem melhor é a capacidade de organizar
e interpretar os dados coletados.
Sobre a característica de analisar de sentimento, Koblitz (2010) explica que o
objetivo dessa funcionalidade é entender como o leitor pode interpretar uma emoção
em um texto. Pang e Lee (2008) definem como um tratamento computacional de
76
dados textuais em forma de opinião, sentimento ou subjetividade. A emoção
detectada pode ser classificada atribuindo aos textos uma orientação, a qual pode
ser positiva, negativa ou neutra. Com a filtragem de um conteúdo pelo grau de
sentimento pode ser possível segmentar os usuários em categorias. Os usuários que
apresentam uma maior tendência em falar positivamente da marca são chamados
de advogados, defensores (SILVA, 2010; TELMA, 2011) ou evangelizadores da
marca (IDEYA, 2012). Aqueles que apresentam padrões que expressam muitos
comentários negativos sobre a marca são chamados de detratores ou destruidores
da marca. Silva (2010) alerta para analisar esses usuários de perto, pois os
detratores precisam ser convertidos em torno da marca com a resolução de seus
problemas e os defensores precisam ser estimulados a defender a marca em
determinadas situações de alta repercussão negativa nas redes sociais.
Referente à análise de tópicos e temas, os textos coletados na rede social
Twitter não trazem o tópico ou tema que está sendo comentado, sendo necessária
uma intervenção humana para definir que categoria esse texto se encaixa. Adição
de trechos informativos, chamados também de tags nas menções permite organizar
os comentários de acordo com as demandas de informação do analista. As
categorias podem identificar parâmetros ou variáveis que se pretende medir. Da
mesma maneira da análise de sentimento manual, a análise de tópicos e temas
exige a presença humana para classificar todos os itens coletados. Com essas
informações foi possível segmentar a coleção de comentários em diversos grupos ou
padrões. Uma prática muito comum no monitoramento de redes sociais é classificar
o comentário pelo tipo de emissor, categorizando-o como Institucional, Imprensa,
Cliente, Usuário comum etc (SILVA, 2010). Dessa forma, por exemplo, é possível
prospectar novos clientes, identificar usuários insatisfeitos, monitorar o que está
saindo na impressa online ou mesmo o que está sendo publicado pelas instituições
governamentais.
As análises de tendências são definidas por Telma (2011) como tópicos e
temas mais comentados em conversas e manifestações em redes sociais sobre
determinadas marcas de empresas, produtos ou serviços. Nas redes sociais os
usuários expressaram suas preferências, desejos, hábitos em forma de opinião.
Esses sentimentos fornecem informações que predizem alguma possível tendência.
Apesar de muitos dados, as tendências nascem de gestos isolados, sendo
77
necessária a intervenção de um analista para identificar a partir de uma filtragem e
organização do conteúdo quais são os grupos com o perfil de inovação e formadores
de opinião, pois serão eles que irão difundir práticas e/ou pensamentos que podem
evoluir e influenciar outras pessoas (SIQUEIRA, 2010). Deve ser levada em
consideração a influência que cada usuário tem nas mídias sociais para analisar
uma possível tendência.
Conhecida também pela métrica de alcance e reputação, a análise de
influência procurou identificar padrões entre os indivíduos das redes sociais que
estão propensos a falar muitas vezes sobre a marca, independente se o teor do
conteúdo seja positivo (defensores) ou negativo (detratores). A forma mais comum
apresentada pelas ferramentas estudadas para identificar as pessoas influentes nas
mídias sociais é por meio da métrica Klout, que mede a influência baseada na
habilidade dos usuários gerarem ações (SILVA, 2012). Essa métrica é gerada a
partir de diversos dados coletados dos perfis dos usuários e pode ser medida pela
escala de 0 a 100, ou seja, quanto maior o Klout maior a influência do usuário nas
redes sociais. O tamanho da influência interfere diretamente na análise da
repercussão de algo nas redes sociais. Quando um assunto é muito comentado
sobre a marca que está sendo monitorada e os usuários que estão comentando tem
uma influência alta existe uma tendência para gerar uma repercussão positiva ou
negativa sobre a marca. É importante a empresa ter o maior número de
influenciadores positivos ou defensores para poder aumentar o número de buzz
positivo da marca.
O monitoramento de campanhas tem a função de gerenciar e medir o
desempenho de eventos externos (SILVA e SANTOS, 2010). Essas campanhas são
temporárias e precisam ser monitoradas separadamente para não interferir no
monitoramento contínuo da marca.
Outra característica apresentada pelas ferramentas de monitoramento de
redes sociais é a Gestão de Relacionamento com o Cliente, conhecido pela sigla em
inglês CRM (Customer Relationship Management), que de acordo com Silva e
Santos (2010) são ferramentas que gerenciam as funções de contato com o cliente
com o objetivo de manter o melhor relacionamento possível entre a empresa e o
consumidor. As funções de gestão de relacionamento procuram armazenar as
78
informações mais importantes sobre o cliente, relacionando-o com outros dados
coletados.
Outra característica analisada nas ferramentas mapeadas foi a capacidade de
monitorar o mercado competitivo. Rastrear os passos de empresas concorrentes por
meio das redes sociais é um grande desafio, visto que as informações
disponibilizadas são controlados pelo usuário emissor. No entanto, saber o que os
usuários das redes sociais estão comentando sobre o concorrente, quais suas
experiências de consumo, críticas, opiniões, elogios, reações positivas e negativas
sobre as marcas e produtos do concorrente são algumas das análises que podem
ser feitas pelas ferramentas de monitoramento nas redes sociais. Sartori e Reis
(2010) ressaltam que antes de monitorar os passos do concorrente, em se tratando
de vantagem competitiva, primeiramente as empresas precisam gerenciar a sua
própria reputação nas redes sociais digitais e, posteriormente, se preocupar em
monitorar a reputação de empresas competidoras. O posicionamento da empresa no
próprio canal de mídia social, aumentando os laços relacionais com os clientes,
respondendo proativamente as suas manifestações e minimizando o impacto
negativo na imagem da empresa. Essas ações, segundo os autores, poderão
resultar em inovação do valor percebido pelo cliente. Wives (2002, p. 17) adverte
sobre o monitoramento competitivo:
Como os concorrentes também podem coletar as mesmas informações, já
que muitas fontes são públicas, eles e outros possíveis concorrentes
(empresas distantes, mas do mesmo ramo ou de ramos similares que
podem mudar de ramo em busca de um novo nicho de mercado) devem ser
constantemente monitorados para que possíveis ataques (invasões de
mercado) sejam prevenidos ou, similarmente ao que eles fariam, para que
novos nichos de mercado possam ser identificados.
Em relação à funcionalidade de análise de conteúdo procurou encontrar
elementos relevantes dentro de elementos textuais. Como a informação presente
nas redes sociais é representada em sua maior parte por textos foi necessário
entender como as ferramentas de monitoramento oferecem opções de analisar
sintático, léxico, semântico os comentários contidos nas redes sociais. Como
relatado por Wives (2002), a análise de conteúdo de texto extraídos da Web é
conhecido por usar as técnicas de mineração de textos para encontrar padrões em
meio às informações contidas nos documentos. Devido suas características
subjetivas, a análise de conteúdo precisa seguir um rigoroso processo de
manipulação de dados, começando com a filtragem correta dos comentários,
79
eliminando os ruídos normalmente coletados. Para a análise de conteúdo, Wives
(2002) sugere que o clustering é mais adequado para detectar padrões de grupos e
separar uma coleção de textos em subcoleções, juntamente com as técnicas de
extração e categorização. Essa funcionalidade poderá oferecer opções de
segmentação de usuários e comentários. Além disso, pode-se utilizar a análise no
decorrer histórico de suas postagens para a detecção de alguma tendência de
mudança de uma época para a outra.
Sobre a etapa de visualização de dados optou-se por utilizar os formatos
apresentados por Silva (2012) tais como a unidade de conteúdo, que mostra o
comentário da mesma forma que é visualizada nas redes sociais, gráfico de volume
e tempo que mostra em formato de linhas ou barras os quantitativos de volume de
comentário versus o tempo. Os gráficos em formato pizza apresentam informações
para entender seções de um conjunto ou população para permitir entender partes de
um todo. Esse tipo de visualização pode ser útil para comparar dados em formato de
porcentagem, que no final somem 100%. A comparação de valores permite ao
analista confrontar dados contidos em duas ou mais valores. Esse tipo de
visualização, geralmente mostrado através de gráficos em barra ou em linha retrata,
por exemplo, a divisão de tipos de público-alvo, comparação de repercussão da
marca da empresa com a do concorrente, comparação de campanhas publicitárias,
histórico de citações em um período de tempo por polaridade de sentimento etc. As
análises de textos geralmente são visualizadas por meio de relatórios com o ranking
de termos (tags) mais citadas nos comentários coletados ou por meio de gráfico de
nuvem de palavras. Este último apresenta uma lista de palavras, no qual as que
forem mais citadas aparecem com o tamanho maior do que as que forem menos
mencionadas. Esse tipo de visualização ajuda no entendimento de aparecimento de
tendências entre os termos coletados. É importante utilizar esse tipo de visualização
juntamente com os gráficos temporais para entender a presença ou ausência de
tendências no decorrer do tempo.
5.4
TRATAMENTO DOS DADOS
A busca pelas ferramentas na Internet e a avaliação dos dados ocorreram de
forma simultânea. Ao mesmo tempo que a ferramenta era encontrada no site de
80
busca, esta era avaliada primeiramente sob a ótica das informações disponibilizadas
no site da ferramenta, no qual foram coletadas os dados descritivos. Depois era
verificado se a ferramenta disponibilizava uma versão gratuita para teste. Caso
positivo, era solicitado uma conta gratuita para realizar uma avaliação mais
aprofundada na ferramenta. Para facilitar a organização dos resultados, foram
comparadas separadamente as funcionalidades encontradas nas ferramentas de
monitoramento de redes sociais (MRS) e as oferecidas pelos software de mineração
de textos (MT).
A pesquisa por ferramentas de MRS foi realizada no período de 02 a 30 de
maio de 2012. Já a pesquisa por ferramentas de MT foi realizada no período de 01 a
30 de junho de 2012. Com a lista de todas as ferramentas com disponibilidade de
teste ou licença acadêmica na lingua portuguesa foi possível realizar uma coleta de
comentários nas redes sociais para testar o uso das ferramentas e poder avaliar as
funcionalidades. Para exemplificar as funcionalidades foram extraídos comentários
nas redes sociais Facebook e Twitter sobre uma marca de uma universidade
particular no mesmo período da coleta dos dados. O objetivo desse procedimento
era disponibilizar imagens dos formatos de informações geradas por essas
ferramentas.
Após a extração de comentários pelas ferramentas de MRS foi possível
exportá-los em forma de planilha para serem utilizados como entrada nos software
de MT. Apesar das quantidades de comentários coletados terem sido suficiente para
avaliar as funcionalidades das ferramentas de MRS, os softwares de mineração de
texto exigiram uma quantidade maior, sendo impossibilitado pelo curto espaço de
tempo para coleta gratuita. Entretanto, realizou-se uma segunda coleta de exemplo
utilizando não uma marca, mas dados sobre o meio ambiente, com o objetivo de
coletar mais itens. Dessa forma foi possível utilizá-los como dados de entradas para
testar as ferramentas de MT.
Vale frisar que o objetivo do trabalho não foi analisar e discutir os comentários
coletados nas ferramentas de MRS e sim verificar as funcionalidades que essas
ferramentas oferecem, sendo necessário exemplificar por meio de uma coleta teste.
81
6
RESULTADOS
6.1
DESCRIÇÃO
DAS
CARACTERÍSTICAS
MERCADOLÓGICAS
DAS
FERRAMENTAS
6.1.1 Ferramentas de Monitoramento de Redes Sociais (MRS)
A busca pelas ferramentas de MRS disponível para o público brasileiro
resultaram em 22 (vinte e dois) aplicativos. Em primeira análise verificou-se a
existência de três que não se enquadravam no quesito de ferramenta de
monitoramento de redes sociais. Dentre elas, a “Cision” utilizava a mesma
ferramenta fornecida pela “Radian6”. As outras possíveis duas ferramentas, “Drivus”
e “E.life” eram agências especializadas em mídias sociais que realizavam o trabalho
de monitoramento das redes sociais utilizando outras ferramentas de suporte, sendo
também retiradas do rol de aplicações investigadas nesta pesquisa, restando
somente 19 (dezenove) aplicativos.
Para apresentação das ferramentas de MRS optou-se pela criação de um
quadro (Quadro 11) no qual relacionou-se o nome da ferramenta, o endereço do
site, a empresa criadora ou mantenedora da aplicação e os idiomas disponíveis.
Quadro 11: Lista de ferramentas de MRS
Nº Ferramenta
Site
1 Aceita
aceita.com.br
2 Alterian
alterian.com
3 Argyle Social
argylesocial.com
4 BrandViewer
brandviewer.com.br
5 BrandChats
brandchats.com
Empresa
Aceita
Alterian Inc.
Argyle Social
Adeptsys
Tinval Sistemes
Exclusive Access
Trading
Idiomas
PT
IN, FR, AL, ES
IN
PT
IN, ES
6
BrandsEye
brandseye.com
7
BrandWatch
brandwatch.com
Runtime Collective
lithium.com
livebuzz.com
logio.com.br
planetay.com.br
postx.com.br
radian6.com
scup.com.br
Lithium Technologies
Dinamize
Igio Tecnologia
Cadsoft
Miti
Salesforce.com
Grupo Direct
IN, FR, AL, IT,
ES, HL, SU, DN
IN
PT
PT
PT
PT
IN
IN, ES, PT
socialmediamonitor.com.br
Chleba Agência Digital
IN, ES, PT
Seekr.com.br
sysomos.com
trackur.com
ubervu.com.br
Seekr
Sysomos Inc
Trackur
uberVU Ltd
PT
IN
IN, PT
IN, PT
8
9
10
11
12
13
14
Lithium
LiveBuzz
Logio
Planeta Y
PostX
Radian6
SCUP
Social Media
15
Monitor
16 Seekr
17 Sysomos
18 Trackur
19 Ubervu
Fonte: Dados da pesquisa
IN, PT
82
Das dezenove aplicações investigadas, a maior parte (doze) tem o inglês
como idioma padrão, seguidos de dez na língua portuguesa, cinco oferecendo
suporte à língua espanhola. Percebe-se que alguns oferecem mais de um idioma
para escolha. A ferramenta que oferece um maior número de línguas é o
“Brandwatch” com alemão, francês, italiano, holandês, sueco e dinamarquês além do
inglês, português e espanhol. Todas as ferramentas pesquisadas que trabalham
com a língua portuguesa são de nacionalidade brasileira. Por esse fato, elas
conseguem identificar palavras e comentários das redes sociais de forma mais
correta. O “Brand Viewer” consegue classificar de forma automática o sentimento de
cada texto em positivo, neutro ou negativo. Essa funcionalidade só é possível por
meio de um processamento de linguagem natural ou pela filtragem de algumas
palavras portuguesas que denotam sentimento negativo ou positivo nas frases. As
ferramentas de outros países conseguem classificar os textos de idiomas nativos.
Com relação ao custo das ferramentas de monitoramento redes sociais, os
valores cobrados não ofereceram um padrão pelo fato das aplicações serem
destinadas a públicos de países distintos e também pelos diferentes serviços
oferecidos nos pacotes. Apesar de serem listados os menores e os maiores custos,
cada aplicativo oferece opções de personalização de pacotes com valores
diferenciados. Para melhor entender os valores cobrados, foi subdividido em dois
grupos: um nacional e outro internacional.
Tabela 1: Custo da ferramentas de MRS brasileiras
Ferramenta
Aceita
Brand Viewer
LiveBuzz
Logio
Planeta Y
PostX
SCUP
Seekr
Social Media Monitor
Ubervu
Média
Fonte: Dados da pesquisa
Custo (R$)
Mínimo
Máximo
28,99
1.459,99
250,00
4.500,00
29,90
5.500,00
0,00
500,00
299,00
999,00
350,00
6.000,00
500,00
4.000,00
600,00
4.000,00
400,00
3.200,00
600,00
1.000,00
339,76
3.115,90
Das ferramentas destinadas ao público brasileiro, identificou-se que o valor
mínimo cobrado foi R$ 28,99 pelo aplicativo “Aceita”. Para cálculo médio dos valores
83
dos produtos desconsiderou-se os gratuitos. A média de menores preços foi
calculada em R$ 339,76. Quanto aos maiores valores praticados foi encontrado uma
média de R$ 3.115,90, em uma amplitude entre R$ 500,00 a R$ 6.000,00. Os
detalhes dos custos das ferramentas nacionais podem ser conferidos na Tabela 1.
Os sistemas internacionais apresentaram custo mais elevado que as
nacionais. A média do menor custo foi R$ 1.066,57 e o maior valor ficou em média
de R$ 6.846,42 depois da conversão da moeda dólar e euro para o real brasileiro.
Os dois itens fora da série foram o sistema “Trackur” com um valor iniciando de R$
36,36 e a ferramenta “Radian6” com maior valor em R$ 20.200,00 mensais. O
motivo do valor discrepante ocorre devido aos serviços oferecidos por cada plano.
As funcionalidades podem diminuir ou aumentar de acordo com os serviços
contratados. A Tabela 2 mostra os custos das ferramentas de MRS de origem
internacional.
Tabela 2: Custo da ferramentas de MRS internacionais
Ferramenta
Custo (R$)
Mínimo
3
Máximo
Alterian
ArgyleSocial
Brandchats
BrandsEye
Brandwatch
Lithium
Radian6
Sysomos
Trackur
ND
606,00
ND
401,98
1.270,68
2.828,00
1.212,00
1.111,00
36,36
ND
2.222,00
ND
4.040,00
4.765,05
9.090,00
20.200,00
ND
761,54
Média
1.066,57
6.846,43
Fonte: Dados da pesquisa
Pelo fato da característica financeira restrita das PME’s apresentada por
Leone (1999) e com baixa capacidade de investimento em tecnologia discutida por
Ricci (2011), as ferramentas de baixo custo se apresentam como mais prováveis de
serem utilizadas. No entanto, é preciso entender quais as informações fornecidas
por cada uma delas para que não se esteja coletando dados acima ou abaixo do
necessário, evitando assim, desgaste financeiro.
3
Os valores dos pacotes oferecidos em dólar americano foram convertidos para a moeda nacional
cotado a R$ 2,02 no dia 15/08/2012. Fonte: Thomson Reuters (www.thomsonreuters.com)
84
Dos tipos de contas apresentadas, somente a “Aceita”, “Livebuzz”, “Scup” e
“UberVU” ofereceram contas acadêmicas de 2 a 6 meses para auxiliar na pesquisa.
Essas empresas oferecem também contas testes em média de 7 a 14 dias para
testar a ferramenta por outros usuários. Além delas, a “BrandViewer”, “BrandEye”,
“Trackur”, “Seekr” e “Ubervu” também oferecem contas para testes. Das ferramentas
coletadas apenas a “Logio” oferece conta grátis para os usuários iniciarem seus
trabalhos de monitoramento de redes sociais. Apesar da disponibilidade de contas
grátis para testes e pesquisas, vale salientar que cada uma oferece uma quantidade
limitada de buscas (por palavra-chave), itens coletados por mês e tempo de coleta
gratuita, conforme ilustrado na Tabela 3.
Tabela 3: Lista de ferramentas de MRS com disponibilidade de contas gratuitas
Qtde de buscas por
Palavra-chave
Itens coletados por
mês
Aceita
10
30.000
Brand Viewer
BrandsEye
LiveBuzz
Logio
20
200
5
1
Ferramenta
Trackur
Seekr
Ilimitado
4
15.000
Não informado
5.000
500
500 (teste) e
1000 (acadêmica)
ilimitado
1.000
Ubervu
30
Não informado
SCUP
4
Tempo de coleta
7 dias (conta teste)
6 meses (acadêmica)
14 dias
14 dias
6 meses (acadêmica)
Ilimitado
7 dias (teste)
2 a 6 meses (acadêmica)
10 dias
7 dias
7 dias (teste)
6 meses (acadêmica)
Fonte: Dados da pesquisa
6.1.2 Ferramentas de Mineração de Texto (MT)
Na busca pelas ferramentas de mineração de texto foram encontradas 50
(cinquenta). Após investigar cada uma delas, chegou-se a conclusão que apenas 38
se encaixavam nas características de ferramentas de mineração de texto, excluindo
na sua maior parte as ferramentas de simples busca de informação na Internet e não
ofereciam nenhuma forma de processamento de informações textuais. Para
apresentação das ferramentas de MT optou-se pela criação de um quadro (Quadro
12) relacionando o nome da ferramenta, o endereço do site, a empresa criadora ou
mantenedora do software e a identificação dos que processam dados no idiomas
português.
85
Quadro 12 - Lista de ferramentas de Mineração de Texto investigadas
Nº
Ferramenta
Endereço do Site
1
2
3
4
5
Aiaioo
Alceste
Attensity
Basis Technology
Clarabridge
aiaioo.com
image-zafar.com
attensity.com
basistech.com
clarabridge.com
Empresa
Desenvolvedora
Aiaioo
Image
Attensity
Basis Technology Corp
Clarabridge
6
7
8
9
10
11
12
ClearForest
Clustify
Cogito Categorizer
Connexor Machinese
Crossminder
Dhiti
DiscoverText
clearforest.com
cluster-text.com
expertsystem.net
connexor.com/nlplib
crossminder.com
dhiti.com/api
discovertext.com
Thomson Reuters
Hot Neuron LLC
Expert System
Connexor Machinese
Crossminder BVBA
Dhiti
Texifter, LLC
Não
Não
Não
Não
Não
Não
Multi
13
14
15
16
17
18
Eaagle text mining
Enkata
Gate
I2E
Intellexer
Intext mining
eaagle.com
enkata.com
gate.ac.uk
linguamatics.com
categorizer.intellexer.com
intext.com.br
Triviumsoft S.A.
Enkata
University of Sheffield
Linguamatics
EffectiveSoft
Intext
Não
Não
Não
Não
Não
Sim
19
20
ISYS Search Software
Knime
isys-search.com
knime.org
ISYS Search Software
KNIME.com AG
Não
Sim
21
22
23
KXEN Text Coder (KTC)
Leximancer
Lextek
kxen.com
leximancer.com
lextek.com
KXEN
Leximancer
Lextek international
Não
Sim
Sim
24
25
Lingpipe
PolyAnalystic
alias-i.com/lingpipe
megaputer.com
Alias-i
Megaputer Intelligence
Não
Sim
26
27
28
Odin Text
Quenza
Rapidminer
odintext.com
xanalys.com
rapid-i.com
Não
Não
Sim
29
ReVerb
reverb.cs.washington.edu
30
31
32
Salience Engine
SAS Text miner
SPSS LexiQuest
lexalytics.com
sas.com
ibm.com
33
TextQuest
textquest.de
34
35
36
37
38
Semantic Indexing Proj
Ureveal
VantagePoint
VisualText
Weka
knowledgesearch.org
ixreveal.com
thevantagepoint.com
textanalysis.com
cs.waikato.ac.nz/ml/weka
Anderson Analytics LLC
Xanalyz Ltd
Rapid-I
University of
Washington
Lexalytics
SAS
IBM
Social Science
Consulting
NITLE
IxReveal
Search Technology, Inc
Text Analysis Internat.
University of Waikato
Fonte: Dados da Pesquisa
Idioma
PT
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Não
Sim
86
Com relação ao idioma, somente o software “InText Mining” é de
nacionalidade brasileira. A maior parte é composta de aplicativos de origem
americana, seguido de países europeus, como a França, Inglaterra, Alemanha e
Espanha.
Os valores de custo cobrados pelos softwares de MT se diferem dos cobrados
nas ferramentas de MRS. Devido a sua maior complexidade de processamento de
informações, os software de MT tem um custo superior, conforme ilustrado na Tabela
4.
Dos itens avaliadas, somente nove revelaram os valores cobrados pelas licenças
dos seus respectivos sistemas. “Lextek” e “Aiaioo” foram as que apresentaram suas
versões de entrada mais baratas, pois não cobram pelo uso inicial do sistema.
“Intellexer”, “DiscoveryText”, “TextQuest” e “Intext Mining” apresentaram valores de
partida abaixo de R$ 1.000,00. Os maiores valores cobrados de entrada foram os
software “VantagePoint”, “Clustify” e “Basis Technology”.
Tabela 4 - Menores valores cobrados pelas ferramentas de MT
Ferramenta
Lextek
Aiaioo
Intellexer
DiscoverText
TextQuest
Intext mining
VantagePoint
Clustify
Basis Technology
Fonte: Dados da pesquisa
Menor custo (R$)
0,00
0,00
26,16
200,00
747,00
1.000,00
15.150,00
40.400,00
60.000,00
Quanto ao maior custo, a ferramenta “Intellexer” apresentou o teto mais baixo
no valor de R$ 402,00. As mais onerosas foram a “Clustify” e “Basis Technology”.
“DiscoveryText” e “VantagePoint” não disponibilizaram os valores maiores cobrados,
pois podem ser customizados. Dependendo da versão ou da funcionalidade
acrescentada na licença, o valor pode ser alterado (Tabela 5).
87
Tabela 5 - Maiores valores cobrados pelas ferramentas de MT
Ferramenta
DiscoverText
VantagePoint
Intellexer
Intext mining
Lextek
Aiaioo
TextQuest
Basis Technology
Clustify
Fonte: Dados da pesquisa
Maior custo (R$)
Customizado
Customizado
402,00
3.000,00
4.040,00
8.080,00
18.675,00
377.740,00
505.000,00
Da mesma forma que as ferramentas de monitoramento de redes sociais, os
software de mineração de texto precisam ser adequados à realidade das PMEs. Vale
frizar que o valor pago nesse tipo de sistema é a licença permanente, diferente das
ferramentas de MRS que é preciso pagar uma mensalidade. As funcionalidades
também se diferenciam de acordo com a licença escolhida.
Quanto à disponibilidade do software para testes ou pesquisas acadêmicas,
verificou-se que 63,1% (24 ferramentas) disponibilizam versões de testes para os
seus usuários. Metade delas oferece a ferramenta completa por um tempo limitado,
geralmente 30 dias. Das ferramentas para teste restantes, seis oferecem recursos
limitados por tempo indeterminado e as outras seis disponibilizam o software
completo sem limites de tempo, visto que são software livres e foram desenvolvidas
com um propóstito de fomentar as pesquisas acadêmicas, tais como o Weka, Knime,
Gate e o Rapid Miner.
Quanto ao tipo de software, 31 são ferramentas que são instaladas nos
computadores denominadas de standalone. Para isso é necessário baixar, instalar e
utilizar em um computador. O restante (oito) são executadas diretamente na Internet
por meio de navegadores. Utilizar aplicações standalone tem uma grande
desvantagem, pois exige que o computador tenha capacidade de processamento
elevado, dependendo da quantidade de dados que tenha pra analisar. Muitas vezes
é necessário ter um computador muito sofisticado e caro para obter informações
rápidas.
88
6.2
DESCRIÇÃO FUNCIONAL DAS FERRAMENTAS SELECIONADAS
Dentre as ferramentas mapeadas, foram escolhidas 9 de monitoramento de
redes sociais e 9 de mineração de textos, totalizando 18 ferramentas selecionadas
para descrever e comparar as funcionalidades. O critério para a escolha foi a
disponibilidade gratuita ou com versão acadêmica para testes e também a
capacidade de processar documentos na língua portuguesa. Por se tratar de
sistemas online, as ferramentas de MRS disponibilizavam contas para a coleta e
processamentos dos dados diretamente na Internet por um determinado período de
tempo. Neste caso, foi possível avaliá-las dentro do período permitido. Dentre as
ferramentas de mineração de texto, a maior parte das informações foi obtida dentro
do site do desenvolvedor, visto que era necessária a instalação de todos eles para
analisá-los no computador. Outros dados foram obtidos por meio de mensagens de
e-mail com o desenvolvedor da ferramenta.
6.2.1 Ferramentas de Monitoramento de redes sociais (MRS)
Para melhor entendimento do fluxo de trabalho utilizado nas ferramentas de
MRS, foram relacionadas as funcionalidades encontradas nos sistemas avaliados
subdivididas em em quatro etapas principais: coleta, processamento, análise e
visualização de dados.
6.2.1.1 Etapa de coleta de dados
Esta
fase
procurou
destacar
a
caracterização
das ferramentas de
monitoramento de redes sociais de acordo com suas funcionalidades de coleta de
dados, visto que este passo foi necessário para que o processamento, análise e
visualização da informação fossem possíveis (Tabela 6).
Brands Eye
LiveBuzz
SCUP
Trackur
Seekr
Ubervu
F
Logio
Busca por palavra-chave
Exportação de dados para planilhas
Limpeza dos dados – controle de SPAM
Fonte: Dados da pesquisa
Brand Viewer
Funcionalidades de coleta de dados
Aceita
Tabela 6: Funcionalidades de coleta de dados nos software de MRS
X
X
-
X
X
-
X
X
-
X
X
X
X
X
-
X
X
-
X
X
-
X
X
-
X
X
-
9
9
1
%
100
100
11
89
Verificou-se que todas as ferramentas mapeadas utilizam as buscas
booleanas por palavras-chave como padrão para resgatar textos publicados pelos
usuários das redes sociais. Os sistemas também permitem coletar dados com datas
retroativas, possibilitando assim resgatar menções (comentários) com mais de um
mês de antecedência da data da coleta. Também oferecem a possibilidade de filtrar
os resultados obtidos por palavras para restringir o número de comentários
redundantes. As ferramentas de MRS limitam o uso do número de buscas por
palavras-chave de acordo com o plano escolhido para o uso do aplicativo, ou seja,
quanto maior o número de buscas, mais elevado é o custo da ferramenta.
Conforme ilustra a Figura 17, a ferramenta “Aceita” oferece uma tela com os
campos disponíveis para realizar a busca por palavras-chave e a ferramenta “Scup”
apresenta três comentários coletados, cada um com um teor de sentimento
diferente: positivo, negativo e neutro. A forma de visualização da informação é por
unidade de conteúdo (SILVA, 2012) que mostra o conteúdo do texto na íntegra da
forma que foi originalmente postado nas redes sociais. Esse formato de
apresentação foi encontrado em todas as ferramentas mapeadas.
Figura 17: Exemplo de tela de coleta e resgate dos dados
Aceita
Scup
Fonte: Ferramentas “Aceita” e “Scup”
Dentre os dados coletados, algumas informações puderam ser detectadas,
tais como: nome do usuário, rede social utilizada, sexo, nacionalidade, idioma, data
e hora, número de seguidores que provavelmente visualizaram o comentário
publicado e quantas vezes a publicação foi replicada. Individualmente esse tipo de
dado pode não significar muita coisa, mas no conjunto da coleção pode revelar
90
padrões de segmento que podem ser explorados, tais como: qual a rede social que
mais fala a marca da empresa, ou mesmo dados demográficos como média de
idade, localização dos usuários, sexo etc.
A maior parte dos tipos de arquivos exportados são CSV e PDF. O CSV é um
arquivo de texto, que contém dados tabulados como uma planilha eletrônica. Este
tipo de arquivo pode ser utilizado como arquivo de entrada em sistemas de
processamento de dados textuais, como as ferramentas de mineração de texto. Ou
seja, caso o usuário deseje processar os dados para obter mais informações além
das oferecidas, pode utilizar os arquivos exportados para serem utilizados em outros
aplicativos.
Durante a análise detectou-se uma funcionalidade na ferramenta “Livebuzz”
que tem tarefa de diminuir o número de comentários SPAMS (a quantidade de itens
coletados que são enviados por robôs e não por pessoas). Mesmo assim, ela exige
a presenta do fator humano para identificar pessoalmente as mensagens
indesejadas ou que estejam impedindo a análise dos dados. Outras funcionalidades
para evitar problemas com mensagens consideradas lixo não foram identificadas nas
outras ferramentas.
6.2.1.2 Etapa de Processamento de dados
A etapa de processamento os dados das ferramentas de MRS oferece aos
gestores basicamente as funções de cruzamento de dados coletados com algumas
informações adicionais fornecidas manualmente. O objetivo é transformar os dados,
que outrora coletados não são úteis, em informações importantes para tomadas de
decisão. A maior parte dos cruzamentos de dados tem a ver com a relação de
quantidade de itens coletados versus o tempo. A variável de tempo é importante
dentro dos software de MRS, pois permite conhecer o histórico da coleta de itens
específicos, identificando o volume de conteúdo publicado ao longo do tempo.
A funcionalidade de classificação ou categorização automática de texto foi
encontrada em somente duas (2) das ferramentas de MRS monitoradas. O processo
de classificação utiliza a frequência de algumas palavras para categorizar
automaticamente os comentários pelo seu grau de sentimento como positivo,
negativo e neutro. Vale salientar que o restante das ferramentas que não
apresentam classificação automática oferece a forma manual como alternativa,
91
exigindo a presença de um analista para classificar cada comentário de acordo com
o grau de sentimento. Isso confirma o que apresentou Magalhães L. (2009), que a
manipulação manual dos dados coletados poderia até diminuir a taxa de erro ao
classificar corretamente um item, mas por conter grande quantidade de dados
demanda muito tempo em relação ao processo automatizado.
As ferramentas de MRS não apresentaram a indexação, normalização,
lexicometria e clustering como forma de processamento de dados. Isso evidencia
que os procedimentos de análises estatísticas são escassos nesse tipo de sistema,
conforme demonstrado na Tabela 7.
BrandsEye
LiveBuzz
SCUP
Trackur
Seekr
Ubervu
F
Logio
Cruzamento de dados
Classificação ou categorização
Indexação
Normalização
Lexicometria
Clustering
Fonte: Dados da pesquisa
BrandViewer
Funcionalidades de processamento de dados
Aceita
Tabela 7: Funcionalidades de processamento de dados nos software de MRS
X
-
X
X
-
X
X
-
X
-
X
-
X
-
X
-
X
-
X
-
9
2
0
0
0
0
%
100
22
0
0
0
0
6.2.1.3 Etapa de Análise de Dados
As funcionalidades de análise de dados oferecidas pelas ferramentas de
monitoramento de redes sociais foram classificadas de acordo com as métricas
utilizadas pela Ideya (2012). Cada função pode fornecer informações úteis para
tomadas de decisões de acordo com o objetivo da coleta: as estatísticas de mídia
fornecem dados sobre a audiência; filtro e organização dos dados podem ser
utilizados para selecionar somente os dados necessários; análise de sentimento
classifica o comentário como positivo, negativo ou neutro; análise de tópicos e temas
servem para segmentar em grupos os comentários coletados; análise de tendências
buscam identificar termos mais comentados para detectar mudanças no ambiente
externo; análise de influenciadores verifica os usuários mais influentes sobre o
assunto pesquisado; monitoramento e mensuração de campanhas acompanham
comentários acerca de campanhas de marketing; gestão de relacionamento com o
92
cliente procura identificar os clientes mais propensos à marca ou produto
monitorado; a análise competitiva visa monitorar ações de concorrentes nas redes
sociais; e, por fim, a análise de conteúdo que tem a função de identificar dentro do
texto padrões estatísticos que podem gerar informação relevante (Tabela 8).
BrandsEye
LiveBuzz
SCUP
Trackur
Seekr
Ubervu
F
Logio
Estatística de Mídia
Filtros e Organização dos resultados
Análise de sentimento manual
Análise de sentimento automático
Análise de tópicos e temas
Análise de tendências
Análise de influenciadores
Monitoramento e mensuração de campanhas
Gestão de Relacionamento com o cliente (CRM)
Análise de monitoramento competitivo
Análise de conteúdo
Fonte: Dados da pesquisa
BrandViewer
Funcionalidade de análise de dados
Aceita
Tabela 8: Funcionalidades de análise de dados nos software de MRS
X
X
X
X
X
-
X
X
X
X
X
-
X
X
X
X
X
X
-
X
X
X
X
X
X
X
X
-
X
X
X
X
X
-
X
X
X
X
X
X
-
X
-
X
X
X
X
X
X
-
X
X
X
X
X
X
X
-
7
7
9
2
8
5
4
4
2
1
0
%
78
78
100
22
89
55
44
55
22
11
0
6.2.1.3.1 Estatística de mídia
Das
nove
ferramentas
estudadas,
sete
(7)
delas
apresentaram
a
característica de estatística de mídia. Vale frisar que, pelo fato de somente as
ferramentas “Ubervu” e “Brandviewer” coletaram dados em mais de uma rede social
sem cobrança de taxas adicionais, a informação de participação da mídia nessas
ferramentas são mais reais que as outras que limitam as buscas por tipo de rede
social. A ferramenta “Ubervu” apresenta um gráfico de partic
ipação da marca
nas mídias sociais, possibilitando também monitorar o histórico de crescimento ou
declínio de participação por meio do gráfico em linha em cada mídia (Figura 18).
93
Figura 18- Exemplo de gráfico de estatística de mídia
Fonte: Dados da pesquisa. Ferramenta SCUP.
6.2.1.3.2 Filtro e organização dos resultados
Das 9 ferramentas avaliadas, sete (7) apresentaram alguma opção de
filtragem de dados com a opção de diversos campos para filtrar os itens que possam
gerar informações mais específicas, como ilustrado no exemplo da Figura 19
apresentados pelas ferramentas “Aceita”, “Livebuzz” e “Brandviewer”.
Figura 19: Exemplo de Tela de filtragem de dados
Aceita
Livebuzz
Brandviewer
Fonte: Ferramentas “Aceita”, “Livebuzz” e “Brandviewer”
A forma de visualização dos dados coletados e filtrados pode ser por meio de
unidade de conteúdo. Também é possível comparar variáveis em gráficos em barra
ou em linha, projetar os dados em formato temporal em um gráfico de volume versus
tempo para identificar padrões históricos que possam gerar alguma informação de
tendência. As informações podem ser cruzadas com dados sociodemográficos
94
coletados dos indivíduos, tais como sexo, localização, idade etc. Na Figura 20 é
ilustrado o exemplo de um gráfico de volume e tempo visualizado na ferramenta
“Ubervu” que mostra o histórico das visualizações diárias da marca coletada e a
localização da origem dos comentários em um mapa geográfico.
Figura 20: Tipos de gráficos gerados a partir da filtragem de dados
Fonte: Ferramenta “UberVU”
6.2.1.3.3 Análise de sentimento
Todas as ferramentas oferecem a opção de análise de sentimento manual,
com a atribuição positiva, neutra ou negativa. A “BrandsEye” apresenta uma escala
mais complexa com dez opções de classificação (de -5 a -1 e de +1 a +5). A
ferramenta “Aceita” apresenta além das três opções tradicionais o atributo
“oportunidade” para identificar comentários que identifiquem insights sobre novas
marcas de produtos, serviços ou empresas.
Dos
sistemas
avaliados
verificou-se
que
somente
“BrandsEye”
e
“Brandviewer” fornecem capacidade de atribuir um sentimento automático nos
comentários.
A
ferramenta
“BrandsEye”
exige
que
o
usuário
classifique
manualmente no mínimo 170 comentários de cada categoria para que o sistema
“aprenda” qual o padrão a ser seguido na classificação automática. Para realizar
essa tarefa com uma maior precisão será necessário o trabalho de um analista que
compreenda o conteúdo dos dados e possa classificar manualmente cada um deles.
A “Brandviewer” não determina um treinamento prévio para detectar o padrão de
95
mensagens negativas, neutras ou positivas. Nesse sistema é realizado um filtro de
palavras comumente usadas na linguagem de origem para denotar o sentimento do
texto, no entanto, a taxa de erro é muito alta. Dos 2768 itens coletados como
exemplo, o sistema atribuiu o sentimento corretamente somente a 61,3% dos dados,
apresentando uma taxa de erro de 38,7%. De qualquer forma, para corrigir as
discrepâncias e diminuir a taxa de erro torna-se necessária a presença de um
analista, como foi defendido por Silva (2010). A Figura 21 esboça um exemplo do
“Brandviewer” que atribuiu um sentimento negativo em um comentário no Twitter que
era pra ser neutra. Possivelmente a atribuição errada tenha ocorrido pela aparição
da palavra “doida” dentro do comentário, na qual conota outro significado que não
seja negativo.
Figura 21: Exemplo de comentário com classificação de sentimento errada
Fonte: Ferramenta “Brandviewer”
O formato de apresentação da informação sobre o sentimento geralmente é
mostrado através de gráficos que fornecem a visão do todo, tais como gráfico em
pizza. A Figura 22 fornecida pela ferramenta “Seekr” ilustra um exemplo que revela a
porcentagem de usuários evangelizadores (defensores), agressores (detratores) e
neutros.
Figura 22: Exemplo de um gráfico de análise de sentimento
Fonte: Ferramenta “Seekr”
96
6.2.1.3.4 Análise de tópicos e temas
Dentre as ferramentas selecionadas somente a “Trackur” não apresentou a
função de classificação do conteúdo pelo tópico ou tema. A ferramenta “Livebuzz”
oferece a opção de selecionar uma determinada amostra dos dados coletados para
facilitar a classificação manual dos tópicos do conteúdo analisado. Essa função é
necessária, visto que a quantidade de dados é muito grande para classificar
manualmente. A forma de visualização dos dados é por gráfico de barras, pizza ou
em linha. Para exemplificar um gráfico de análise de tópicos e temas, é possível
visualizar na Figura 23 os dados classificados manualmente na ferramenta
“Brandviewer” de acordo com o tema.
Figura 23: Exemplo de gráfico de análise de tópicos e temas
Fonte: Ferramenta “Brandviewer”
6.2.1.3.5 Análise de tendências
A visualização mais comum de tendências encontradas nas ferramentas de
monitoramento de redes sociais são os termos mais citados e a nuvem de palavras
(tags) presentes em metade dos sistemas investigados. Outros gráficos podem
ajudar na informação temporal da tendência, como os gráficos em linha que
denotam o histórico das palavras mais comentadas num determinado espaço de
tempo. A Figura 24 ilustra o exemplo de duas visualizações sobre a tendência nas
ferramentas “SCUP” e “Seekr”. O exemplo mostra que muitas tags aparecem
desnecessariamente, tais como, conjunções, numerais e outros termos que não
denotam tendências, pelo contrário, confunde o analista. Esse problema foi
identificado por Pinheiro (2009), que sugeriu a utilização de stopwords para eliminar
termos desnecessários e corrigir o problema, no entanto, nenhuma ferramenta
97
analisada apresentou essa correção. Isso faz com que a informação disponibilizada
nos gráficos contenha falhas, podendo gerar interpretações errôneas.
Figura 24: Exemplo de lista e nuvem de palavras
Fonte: Ferramentas “SCUP” e “Seekr”
6.2.1.3.6 Análise de influenciadores
Dentre as ferramentas mapeadas, quatro dos nove apresentaram a opção de
gerenciar os usuários mais influentes com a opção de gerar informações a partir
deles. O exemplo da Figura 25 revela os usuários mais influentes dentre os que
realizaram comentários dos itens coletados na ferramenta “Livebuzz”. Os usuários
são marcados em verde (defensores), os vermelhos (detratores) e os amarelos
(neutros).
Figura 25: Exemplo de lista de usuários influenciadores
Fonte: Ferramenta “Livebuzz”
98
6.2.1.3.7 Monitoramento e mensuração de campanhas
A capacidade de monitorar e medir o desempenho de eventos exógenos
como campanhas podem ser encontrada em mais da metade das ferramentas em
análise. A principal característica identificada foi a opção de vincular o volume de
menções coletadas, associação de palavras e análise de sentimento com as
campanhas previamente cadastradas no sistema. Geralmente, essa funcionalidade é
utilizada por agências de propaganda e comunicação que tem o desafio de
coordenar ofertas e demandas de informação com os setores internos da empresa,
como o marketing e vendas, por exemplo.
6.2.1.3.8 Gestão de Relacionamento com o cliente (CRM)
Somente as ferramentas “Livebuzz” e “Ubervu” apresentaram alguma forma
de gerenciar o relacionamento com os clientes. A maior parte dos sistemas
examinados oferece a opção de classificar o usuário quanto à sua influência, não
sendo considerada uma funcionalidade de gestão de informações dos usuários. A
ferramenta “Livebuzz” apresenta a opção de resolução de problemas, que permite os
gestores atenderem de forma pontual as reclamações dos clientes. A ferramenta
“Ubervu” disponibiliza a opção de designar tarefas para outras pessoas da equipe
resolver problemas junto ao usuário da rede social.
6.2.1.3.9 Análise competitiva
Dentre as ferramentas mapeadas, a maior parte não oferece a opção clara de
análise competitiva. Para que isso ocorra é necessário criar monitoramentos
paralelos de marcas ou produtos concorrentes para que possa ocorrer uma
comparação de resultados. Isso aumenta ainda mais a carga de trabalho manual
exercido por um profissional de análise de mídias sociais ou por agências de
comunicação especializadas. Sobre os possíveis trabalhos dos analistas, Silva
(2010) afirma que:
Relatórios aprofundados, análises pontuais ou alertas são alguns dos
produtos de informação competitiva que podem ser redigidos pelos
analistas. É preciso entregar diferenciadamente as informações relevantes
apresentadas em formato usável e pertinente aos diferentes setores,
diretores ou profissionais da organização. (p. 45)
99
A única ferramenta analisada (11%) que oferece função de monitorar os
concorrentes é a “Brandseye”. Ao realizar a pesquisa sobre a própria marca ou
produto, a ferramenta oferece a opção de incluir três concorrentes para serem
monitorados ao mesmo tempo. O resultado dessa coleta pode ser mostrado em
gráficos comparativos entre as empresas, como ilustrado na Figura 26. O gráfico
mostra o grau de sentimento nos comentários coletados sobre sua própria marca
(verde) e sobre as marcas concorrentes (azul e vermelho). Percebe-se que a própria
marca está sendo mais comentada que as do concorrente. Todos os relatórios do
“Brandseye” apresentam a opção de visualizar seus dados como também das
empresas competidoras.
Figura 26: Exemplo de gráfico de análise de concorrentes
Fonte: Ferramenta Brandseye
6.2.1.3.10
Análise de conteúdo
As ferramentas de MRS não apresentaram nenhuma característica de análise
de conteúdo automatizado utilizando técnicas de mineração de texto. A
funcionalidade que mais se aproximou foi a análise de tendências que utiliza a
relação de termos mais utilizados na coleção, no entanto, estatísticas mais apuradas
e informações de conglomerados ou categorias não foram encontradas.
6.2.1.4 Etapa de Visualização dos dados
As formas de visualização de dados oferecidos pelos sistemas de
monitoramento de redes sociais são mostradas por meio de gráficos e relatórios
100
nominais. Os gráficos são formados em sua grande maioria do tipo unidade de
conteúdo e gráfico de volume e tempo, conforme visualizado na Tabela 9. É possível
identificar em cada funcionalidade de análise de dados um tipo de visualização mais
comum. O Quadro 13 ilustra a relação entre a análise de dados com o formato de
visualização mais utilizada nas ferramentas mapeadas.
Aceit/a
Brand Viewer
Brands Eye
LiveBuzz
SCUP
Trackur
Seekr
Ubervu
F
Logio
Tabela 9: Funcionalidades de visualização de dados nos software de MRS
Unidade de Conteúdo
X
X
X
X
X
X
X
X
X
9
100
Gráfico de volume e tempo
X
X
X
X
X
X
X
X
X
9
100
Definir partes de um todo
(gráfico pizza)
X
X
-
X
X
X
X
X
X
8
89
Comparação de valores
X
-
X
X
-
X
-
X
X
6
67
Análise de texto
(Termos mais citados e nuvem de tags)
-
X
-
X
X
X
-
X
X
6
67
Mapas
-
-
-
-
-
-
-
X
X
2
22
Funcionalidades de visualização de dados
%
Fonte: Dados da pesquisa
Somente o aplicativo “Brandeye” não apresentou a visualização em formato
de gráfico de pizza, o restante oferece alguma forma de visualização para definir as
partes analisadas como um todo. A respeito de gráficos de comparação de valores,
seis das nove ferramentas mapeadas ofereciam essa opção de visualização,
enquanto seis apresentam a visualização por meio de análise de texto em forma de
nuvem de tags ou lista de termos mais utilizados nos comentários coletados. Por fim,
a forma de visualizar dados por meio de mapas geográficos foi encontrada somente
em duas ferramentas: “Ubervu” e “Seekr”. Isso demonstra que ainda precisa haver
uma integração entre os serviços de localização geográfica dos sistemas de redes
sociais com os usuários.
101
Quadro 13: Relação entre as funcionalidades análise de dados com o formato de visualização
VISUALIZAÇÃO DOS DADOS
Relação
Definir
Gráfico
Análise de
Análise de dados
Unidade
entre pontos partes de
de
Comparação
texto
Nas ferramentas de
de
de dados
um todo
volume Mapas
de valores
(nuvem de
MRS
Conteúdo
(gráfico de
(gráfico
e
tags)
redes)
pizza)
tempo
Cruzamento de dados
X
X
X
Estatística de Mídia
Filtros e Organização
dos resultados
Análise de sentimento
X
X
X
X
X
X
X
X
X
X
Análise de
influenciadores
X
Análise de conteúdo
X
Análise de tendências
X
Análise de tópicos e
temas
Análise de
monitoramento
competitivo
Monitoramento e
mensuração de
campanhas
X
X
X
X
X
X
X
X
X
X
X
Fonte: Dados da pesquisa
A visualização por gráficos em formato de pizza foram utilizados por 70% das
análises de dados mapeados, seguidos de gráficos de volume e tempo e
comparação de valores. A visualização de termos mais citados ou nuvem de tags é
utilizada nas fases de análise de texto, tendências e monitoramento competitivo.
Gráficos em forma de Mapas e visualização por unidade de conteúdo foram as duas
formas de visualizar dados em cruzamento e filtragem e organização dos resultados.
O gráfico de rede só foi utilizado na análise de influenciadores mostrando a ligação
entre um influenciador e os influenciados na rede.
6.2.2 Ferramentas de Mineração de textos (MT)
Diferentemente das ferramentas de monitoramento de redes sociais, os
software de mineração de textos tem o objetivo de coletar e processar dados
textuais. Para melhor entendimento do fluxo de trabalho utilizado nos softwares de
MT, foram relacionadas as funcionalidades disponibilizadas no Quadro 10
102
encontradas nos sistemas avaliados subdivididas em duas etapas principais: coleta
e processamento de dados (Tabela 10).
Importação de dados
x
F
x
x
x
x
x
x
2
22
9
100
0
0
x
6
67
x
5
55
x
5
55
x
9
100
x
7
78
x
Limpeza dos dados
x
Indexação
Processamento de
dados
x
Normalização
Lexicometria
Classificação
Clustering
Fonte: Dados da pesquisa
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
%
Weka
x
x
SPSS LexiQuest
x
x
Rapidminer
Leximancer
Poly Analystic
Coleta de dados
x
Lextek
Busca por palavra-chave
Knime
Funcionalidades
Intext mining
Etapa
DiscoverText
Tabela 10: Processamento de dados nos software de mineração de textos
6.2.2.1 Etapa de coleta dos dados
Diferentemente das ferramentas de MRS, sete dos nove softwares de
mineração de textos avaliados não realizam coleta de dados diretamente nas redes
sociais. A forma mais comum de inserir dados é através de um arquivo de texto,
planilhas contendo uma relação de textos, banco de dados textuais ou uma
coleção de arquivos de texto. Devido o fato das ferramentas de MRS exportarem
suas coletas em formato de arquivo CSV, foi coerente utilizar esses arquivos como
forma de entrada nos aplicativos de mineração de texto para possíveis tratamentos
e descoberta de informações relevantes. No exemplo de coleta realizado nas
ferramentas de MRS sobre questões ambientais, detectou-se 12.733 comentários
que continham as palavras “meio ambiente”, “ecológico”, “reciclagem” e
“sustentabilidade”. As ferramentas utilizadas para coleta de dados foram a
“Livebuzz” e “Brandviewer”, conforme ilustra os quantitativos na Tabela 11.
Tabela 11: Itens coletados para exemplificar o uso dos software de MT
Ferramenta de MRS
Livebuzz
Brandviewer
Total
Fonte: Dados da pesquisa
Comentários coletados
8958
3775
%
70,35
29,65
12733
100
103
6.2.2.2 Etapa de processamento dos dados
Nessa fase foram verificadas as funcionalidades de processamento de dados
disponibilizado pelas ferramentas avaliadas sob a ótica das técnicas de mineração
de texto apresentados por Wives (2002) que são a indexação, normalização,
lexicometria, classificação, extração e clustering.
As interfaces gráficas dos sistemas mapeados, em sua grande maioria
oferecem o formato de pipeline (tubulação) para facilitar o entendimento do
processo. A Figura 27 esboça um exemplo da apresentação do processo de clustering
e classificação de documentos no software “Rapidminer”. Percebem-se a utilização
de caixas que são os processos e as linhas que indicam o fluxo dos dados. Na caixa
de coleta foram informados os arquivos com os comentários coletados sobre meio
ambiente, na caixa pré-processamento foram utilizadas as técnicas de indexação,
normalização e lexicometria. Após esse procedimento foi realizado o processamento
de clustering e classificação. Esse mesmo tipo de interface pipeline é encontrado
nas ferramentas “Knime” e “SAS text mining”. Apesar da apresentação didática
dessas ferramentas, as terminologias referentes a mineração de texto estão
presentes em todas as ferramentas e é necessário o conhecimento técnico
especializado nesse assunto para manipulação do software pelo analista.
Figura 27: Exemplo de interface pipeline utilizada nos software MT
Fonte: Software “Rapidminer”
6.2.2.2.1 Indexação, normalização e lexicometria
O objetivo da indexação é listar as palavras-chaves mais comuns a cada
documento (comentário). Para isso se utiliza das funções de normalização e
lexicometria para gerar um índice contendo a lista de documentos com seus
104
respectivos termos indexados. Essa funcionalidade foi encontrada em seis softwares
avaliados.
Referente à funcionalidade de normalização de dados cinco dos nove
sistemas verificados apresentaram maneiras para diminuir os ruídos encontrados
nos dados coletados. Nem todo o conteúdo coletado corresponde com o objetivo da
pesquisa, resgatando também além dos dados corretos, muita informação
desnecessária. Para tanto, fez-se necessário realizar um procedimento de
normalização para diminuir essa quantidade de comentários sem ligação com o
objetivo da coleta. Os procedimentos utilizados foram tokenização (tokenize),
transformação de tokens em caracteres minúsculos (case fold), filtrar tokens
desnecessárias (stopwords) e a redução para o menor radical da palavra (stemmin).
Para ilustrar o fluxo utilizado de normalização, a Figura 28 apresenta a lista de tarefas
utilizadas pela ferramenta “Rapidminer”.
Figura 28: Exemplo do fluxo de normalização dos dados
Fonte: Software “Rapidminer”
Das ferramentas de mineração de texto avaliadas, cinco ofereciam o
processamento lexicométrico dos dados por meio da atribuição de pesos. Os pesos
utilizados para gerar a lista de palavras mais frequentes eram o binário, TF (term
frequency) e o TF-IDF (term frequency – Inverse Document Frequency). Esta última
métrica é a mais utilizada nos software mapeados.
Como exemplo, foram selecionados os 12.733 comentários coletados sobre o
meio ambiente e aplicados no software “Rapidminer”, que após a aplicação das
técnicas de normalização (Figura 28) resultou na redução 48,87% dos ruídos. Com a
geração das palavras mais frequentes de acordo com TF-IDF e retirando as menos
105
frequentes, o corpus teve uma redução final de 94%, gerando 6% de termos
relevantes (Tabela 12).
Tabela 12: Redução de termos por técnica de processamento de texto
Tokenização
Termos
447.350
(tokens)
Redução de
termos
Fonte: Dados da pesquisa
Normalização
Case folding
Remover
(minúsculo)
Stopwords
Stemming
Lexicometria
446.718
239.762
228.710
26.795
0,14%
46,40%
48,87%
94,01%
6.2.2.2.2 Clustering
A funcionalidade de clustering ou agrupamento de documentos foi encontrada
em 78% dos software investigados. Apesar da presença desse tipo de
processamento na maioria dos sistemas listados, sua execução não ocorre de
maneira trivial. É necessário esforço humano especializado em tratamento
estatístico de dados textuais e poder computacional para gerar informações de
agrupamentos de comentários nas redes sociais.
As técnicas de clustering encontradas foram relacionadas ao agrupamento de
documentos por meio da distância encontrada entre os termos de cada documento.
As ferramentas apresentaram a medida euclidiana e a similaridade por cosseno
como o cálculo da distância entre termos. As técnicas de agrupamento k-means e kmedoids foram utilizadas para gerar partições disjuntas, colocando os documentos
em grupos distintos e sendo visualizado por meio de gráficos de partição disjunta.
Os agrupamentos hierárquicos que geram a similaridade de clusters, agrupando-os
de acordo com os graus de semelhanças utilizaram-se a visualização em gráficos de
dendogramas ou gráficos de árvores.
Utilizando-se dos dados obtidos e processados (Tabela 12) foi realizada uma
análise de cluster para gerar uma lista de documentos semelhantes. Para teste
foram utilizados os sistemas “Leximancer” e “Rapidminer”. O processo de clustering
no software “Rapidminer” ofereceu uma lista de palavras mais significativas
separadas por clusters subdivididos pela medida TF-IDF mais significativa (Tabela
13). No primeiro grupo constata-se a presença dos termos: “país”, “polít”,
“desenvolv”, “conferent”, “econôm”, “sustent” e “govern” significando que este grupo
106
está voltado a comentários relacionados a questões ambientais, economia e
governo. O segundo grupo destaca-se pelas palavras “mei” e “ambient”, gerando
assim um grupo de comentários com o termo “meio ambiente”, não sendo
considerado um cluster significativo, pelo fato de toda a pesquisa o cerne principal
ser as questões ambientais. O terceiro grupo encontram-se as palavras “ating”,
“empres”, “incend” e “recicl”. É visível neste cluster o grupo dos comentários a
respeito das empresas de reciclagem. Verificando o motivo para o aparecimento do
termo incêndio percebeu-se que existiram muitas citações na época da colheita de
dados a respeito de incêncios que estavam acontecendo a empresas de reciclagem,
gerando assim uma alta repercução nas redes sociais sobre o tema. No último grupo
identificado, encontram-se os termos “ambiental”, “amig”, “árvor” e “verd”. Ao
analisar os comentários desse grupo, identificou-se uma tendência para mencionar
questões relacionados à práticas de defesa do meio ambiente, como as menções
relacionadas a empresas amigas do ambiente, a preservação das árvores e do
verde.
Tabela 13: Lista de termos e clusters gerados no exemplo
TERMO
Cluster0
ambient
0,0537
ambiental
0,0551
amig
0,0010
árvor
0,0043
ating
0,0190
0,0949
brasil
0,1315
conferent
0,2156
desenvolv
0,1407
econôm
empres
0,0056
0,1051
govern
incêndi
0,0029
mei
0,0644
0,1289
mund
0,2322
país
0,1243
polít
reciclag
0,0010
0,0925
sociedad
0,1635
sustent
verd
0,0394
Fonte: dados da pesquisa
Cluster1
0,2749
0,0106
0,0040
0,0015
0,0010
0,0153
0,0147
0,0444
0,0066
0,0666
0,0080
0,0000
0,2107
0,0097
0,0073
0,0083
0,0133
0,0081
0,0812
0,0062
Cluster2
0,0029
0,0031
0,0010
0,0023
0,1398
0,0138
0,0000
0,0018
0,0000
0,1161
0,0010
0,1665
0,0055
0,0040
0,0000
0,0042
0,4165
0,0010
0,0077
0,0036
Cluster3
0,0170
0,0606
0,0588
0,0421
0,0012
0,0128
0,0013
0,0114
0,0023
0,0745
0,0073
0,0010
0,0055
0,0102
0,0048
0,0045
0,0019
0,0033
0,0361
0,0605
Para ilustrar o formato da informação gerada pela análise de cluster, a Figura
29
mostra o gráfico fornecido pela ferramenta “Leximancer” que apresenta as
palavras mais comentadas em forma de rede de palavras. Percebe-se a divisão dos
clusters por cores ou por círculos.
107
Figura 29: Exemplo da visualização de cluster em gráfico de rede
Fonte: Software “Leximancer”
Outra forma de analisar os clusters é por meio das palavras mais comentadas
em cada grupo, conforme é visualizado na Figura 30 o exemplo fornecido pela
ferramenta “Leximancer”.
108
Figura 30 - Exemplo de lista de palavras por cluster
Fonte: Software “Leximancer”
6.2.2.2.3 Classificação ou categorização
O processo de classificação nas ferramentas de mineração de texto é mais
frequente que nos sistemas de MRS. Para realizar a classificação de conteúdo, a
maioria dos sistemas verificados utilizam os dados lexicométricos para medir a
importância de cada termo no texto e poder categorizar de acordo com o padrão
detectado. Para que o computador reconhecesse o padrão existente em uma
categoria foi necessário realizar um treinamento com uma amostra supervisionada
da coleta, que anteriormente ao processamento precisou ser categorizada
manualmente e informada ao sistema. Cada categoria precisou ter uma quantidade
mínima de dados treinados para que o reconhecimento automatizado fosse
satisfatório. Apesar de todos os softwares avaliados apresentaram funcionalidades
de classificação de conteúdo, o grau de dificuldade para processar esses dados foi
alto, principalmente nas ferramentas com foco nas pesquisas acadêmicas, pois elas
exigem conhecimento avançado nas técnicas de mineração de texto.
Outro fator importante encontrado na categorização por meio de ferramentas
de mineração de texto é relacionado à quantidade de dados. Essas ferramentas
109
demandam um grau elevado de processamento computacional quando existem
muitos itens para serem analisados, aumentando o tempo de processamento e
exigindo que se utilizem máquinas robustas para realizar esse trabalho. Isso
corrobora com o que foi frisado por Magalhães T. (2009, p. 61). A principal
desvantagem da técnica de categorização de documentos
é o fato de essa abordagem não poder, todavia, ser ajustada para grandes
documentos e / ou coleções de documentos, tais como a Web, devido ao
custo computacional elevado e tempo de processamento. Vale lembrar que,
para os fins da pesquisa, pequenos documentos e coleções como sites de
opiniões, digitalização direta de texto pode funcionar bem.
No entanto, se forem utilizadas poucas quantidades de dados é possível
recorrer em outro problema: a falta de dados suficientes para encontrar padrões
satisfatórios. Quanto menor o número de dados, menor o grau de confiabilidade na
classificação dos comentários (MORGADO JÚNIOR, 2008).
O procedimento para exemplificar a classificação foi testado na ferramenta
“Rapidminer”. Foi utilizada a técnica supervisionada, no qual são conhecidas
previamente as categorias que se deseja rotular. Foi informada uma lista de
comentários previamente categorizada manualmente de acordo com o sentimento
do texto (positivo, negativo e neutro) para a realização de um treinamento utilizando
o SVM (Support Machine Vector), procedimento este considerado mais rápido e
eficiente
para
classificação
de
texto
(MAGALHÃES
L.,
2009).
O
tempo
computacional para calcular a matriz de distâncias entre os termos dos 12.733
comentários foi maior que 24 horas, necessitando abortar o procedimento e realizar
com um número menor de itens. Morgado Júnior (2008) não recomenda diminuir
muito a quantidade de dados na fase de treinamento do software, visto que a
acurácia dos resultados é afetada negativamente. Portanto, a eficácia do
procedimento de categorização de conteúdo nos software investigados não foi
comprovada devido aos problemas de tempo computacional para processar uma
quantidade satisfatória dos dados.
110
7
CONSIDERAÇÕES FINAIS
Atualmente surgem novas metodologias e instrumentos que possibilitam a
extração das informações de forma automatizada de grandes bases de dados como
as redes sociais. Dentre elas encontram-se as ferramentas de mineração Web que
possibilitam coletar, processar, analisar e visualizar os dados dentre os comentários
disponíveis nas redes sociais.
Este trabalho atingiu seu objetivo geral ao informar quais são as ferramentas
de mineração Web existentes no mercado e mostrar as informações disponibilizadas
por elas aos gestores de marketing para tomada de decisão estratégica em
pequenas e médias empresas. As funcionalidades que as ferramentas de mineração
Web apresentaram podem ser utilizadas para resgatar dados das redes sociais e
disponibilizá-las para auxiliar os gestores nas tomadas de decisões.
Em relação ao objetivo de levantar as principais ferramentas de mineração
Web disponíveis no mercado até junho de 2012 constatou-se a presença de 19
ferramentas de monitoramento de redes sociais e 38 de mineração de textos. Desse
total 18 (9 de MRS e 9 de MT) são direcionadas para o público brasileiro por
oferecerem funcionalidades de processamento de dados na lingua portuguesa do
Brasil.
Para o objetivo de descrever e comparar as características mercadológicas de
cada ferramenta constatou-se a presença de aplicativos de origem nacionais e
internacionais de MRS, mas somente as nacionais puderam realizar buscas mais
precisas no idioma brasileiro com menor custo e com pacotes voltados para
pequenas empresas. Já as principais ferramentas de MT disponíveis para
processamento de textos em português eram voltadas para fins acadêmicos e
exigiam conhecimentos avançados de mineração de texto para utilizá-las. Com
relação ao custo das ferramentas chegou-se a conclusão que apesar da
disponibilidade do material na internet ser de baixo custo, a forma de coletá-lo e
processá-lo pode acarretar em um alto custo. Primeiramente, as ferramentas de
monitoramento de redes sociais oferecem pacotes com valores variando de acordo
com o plano escolhido e com pagamento mensal. Segundo, os softwares de
mineração de textos oferecem licenças anuais e exigem um conhecimento acerca
das técnicas de mineração de textos, exigindo que o gestor realize treinamentos
111
sobre essa tecnologia ou contrate um profissional sabedor das técnicas de
monitoramento de redes sociais e mineração de texto.
Para o objetivo de descrever e comparar as funcionalidades de cada
ferramenta obteve-se como resultado que as ferramentas de MRS se mostraram
mais adequadas para a realização de coleta e análise dos dados, enquanto os
softwares de MT oferecem vantagem somente na etapa de processamento
estatístico dos textos. Sendo necessária a utilização conjunta dos dois tipos de
sistemas para uma quantidade maior de dados para utilizar como informação. As
informações mais disponibilizadas pelas ferramentas de MRS foram relacionadas à
segmentação de usuários ou comentários, tais como a análise de sentimento e a
análise de tópico e temas. Esse tipo de informação propõe oferecer dados
necessários para agrupar os usuários que falam positivamente ou negativamente
sobre sua marca ou mesmo classificando os comentários por categorias de acordo
com a necessidade do gestor. As informações sobre as ações do concorrente foram
pouco satisfatórias, pois as ferramentas não ofereciam funções para que as suas
marcas e as do concorrentes fossem analisadas paralelamente. Para realizar essa
tarefa o gestor precisa monitorar em separado as suas próprias marcas, como
também as marcas do concorrente, gerando um aumento no tempo para conseguir a
informação necessária e no custo, que aumentaria no final do monitoramento.
Com relação ao objetivo de identificar possíveis tratamentos estatísticos a que
os dados coletados possam ser submetidos, percebeu-se que o processamento
oferecido pelas ferramentas de MRS se concentra apenas no cruzamento dos dados
coletados com os elementos informados pelo agente que analisa as informações. Ao
considerar o tratamento estatístico ou mesmo cálculo que exija um alto poder
computacional para gerar inteligência, além dos dados já oferecidos, ainda é
deficiente nesse tipo de sistema. Entretanto, caso seja necessário realizar esse
trabalho, os sistemas oferecem uma forma de exportar as informações coletadas
para arquivos tabulados em planilhas eletrônicas, formato esse que são utilizados
como entradas em sistemas de análise textual, tais como os software de mineração
de textos que realizam tratamentos estatísticos de análise de cluster.
Convém salientar que, apesar de apresentar os software de mineração Web
no mercado, o presente trabalho procurou avaliar somente as ferramentas nacionais
ou que oferecessem possibilidade de tratamento de textos na lingua portuguesa.
112
Além disso, algumas limitações da pesquisa puderam ser detectadas, tal como o
tempo disponibilizado pela maioria das ferramentas ser insuficiente para realizar
uma coleta mais abrangente, e a lentidão dos testes dos software de mineração de
texto, pois utilizou-se um computador laptop resultando em um processamento lento
na realização da análise de cluster e impossibilitando a realização de testes de
categorização com uma quantidade maior de dados.
Esse trabalho procurou contribuir com a área de estratégia de marketing
mostrando a mineração Web como um meio complementar de extrair informações
sobre mercados e consumidores, especificadamente os usuários das redes sociais
digitais. Acredita-se que as informações que circulam nas redes sociais podem se
tornar uma fonte de vantagem competitiva se utilizadas de maneira adequada e a
forma de extraí-la por meio de sistemas de informação podem trazer benefícios aos
médios e pequenos empresários. Para a área da computação, essa pesquisa
demonstrou que existe uma lacuna nas ferramentas de MRS que precisa ser
preenchida, a saber, o uso de tratamento estatístico dentre suas funcionalidades.
A finalização desse estudo leva ao entendimento de que outras pesquisas
podem vir a ser realizadas com o objetivo de analisar novos elementos relacionados
à aplicabilidade de ferramentas de mineração Web nas empresas. Entre eles (1):
realizar uma pesquisa de levantamento em empresas de pequeno e médio porte
para analisar cada funcionalidade das ferramentas de mineração Web apresentada
neste trabalho por meio de uma aplicação prática utilizando uma ferramenta e
confrontá-la com as necessidades dos gestores; (2) estabelecer métricas para
escolha de ferramentas de mineração Web pelas pequenas e médias empresas; (3)
definir quais os tipos de informações eletrônicas são mais utilizadas pelos tomadores
de decisões nas empresas.
113
REFERÊNCIAS
AFONSO, A.S. Uma análise da utilização das redes sociais em ambientes
corporativos. 2009, dissertação (mestrado em Tecnologia da Inteligência e Design
Digital), PUC. São Paulo, SP.
AMORIM, F.; FERLA, L.A.; PAIVA, M.; SPYER, J. Tudo o que você precisa saber
sobre Twitter, 2009. Disponível em: http://www.talk2.com.br/evento/em-portuguese-gratis-tudo-o-que-voce-precisa-saber-sobre-twitter/ Acesso em: 1 set. 2012.
ARANHA, C.N. Uma abordagem de pré-processamento automático para
mineração de textos em português: sob o enfoque da inteligência computacional,
Tese. (Doutorado em Engenharia Elétrica), Departamento de Engenharia Elétrica,
PUCRio. 2007.
BARBOSA, R.R. Uso de fontes de informação para a inteligência competitiva: um
estudo da influência do porte das empresas sobre o comportamento informacional.
Encontros Bibli. p. 91-102. 2006.
BARBOSA, R.R. Inteligência empresarial: uma avaliação de fontes de informação
sobre o ambiente organizacional externo. Datagrama Zero - Revista de Ciência da
Informação v.3 n.6, dez. 2002.
BATTAGLIA, M.G.B. A inteligência competitiva modelando o Sistema de Informação
de Clientes – FINEP. Ciência da Informação, Brasília, v. 29, n. 2, p. 200-214,
maio/ago. 1999.
BLUMMER, H. The nature of symbolic interactionism. In: Conflict, Order and
action: Readings in Sociology. Canada: Canadian Scholar’s Press. p 100-103.
2001.
BOYD, D.; ELLISON, N. Social network sites: Definition, history, and scholarship.
Journal of Computer-Mediated Communication, v.13. p.1-2. 2007.
BOYD JR., H.W.; WESTFALL, R. Pesquisa mercadológica. Rio de Janeiro:
Fundação Getúlio Vargas, 1973.
BOSE, R. Competitive intelligence process and tools for intelligence analysis,
Industrial Management & Data Systems, Vol. 108 Iss: 4, pp.510 – 528. 2008.
CAMPOMAR, M.C.; IKEDA, A.A. O planejamento de marketing e a confecção de
planos: dos conceitos a um novo modelo. São Paulo: Saraiva, 2006.
CARENINI, G.; NG, R.T.; ZWART, E. Extracting knowledge from evaluative text.
In K-CAP ’05: Proceedings of the 3rd international conference on Knowledge
capture, p. 11–18, Nova Iorque, NY, EUA, 2005.
CAVALCANTI, D.C. “Uma abordagem não supervisionada para classificação de
opinião usando o recurso léxico SentiWordNet”, 2011. Dissertação (mestrado em
Ciência da Computação) – Centro de Informática, Universidade Federal de
Pernambuco, Recife.
CHIUSOLI, C.L. Dorminhoco ou guerreiro? Perfis e atitudes dos gestores mediante o
uso de sistema de inteligência de marketing. Revista Brasileira de Pesquisa de
Marketing Opinião e Mídia. V. 5, p. 2-13, set, 2010.
114
CHIUSOLI, C.L. Um estudo exploratório sobre tipologia e sistema de
informação de marketing. São Paulo: Faculdade de Economia, Administração e
Contabilidade (FEA), 2005. (Tese, Doutorado, Administração de Empresas).
COMBÈS, Y.; KOCERGIN, S. A intermediação na internet: um objeto de
questionamento para as indústrias culturais. Revista Líbero, São Paulo – v. 12,
n. 23, p. 43-52, jun. de 2009.
COOLEY, R.W. “Web usage mining: Discovery and application of Interesting
Patterns from Web data”. PhD thesis, Dept. of Computer Science, University of
Minesota, 2000.
COSTA, R. A cultura digital. 2. ed. São Paulo: Publifolha, 2003.
COX, D.; GOOD, R. E. How to build a marketing information system. Harvard
Business Review, Boston, v.45, n.3, Mai/Jun. 1967.
CRESCITELLI, E.; OLIVEIRA, E.C.; BARRETO, I.F. A internet como fonte
informacional para o SIM: os processos de captação e as formas de avaliação.
JISTEM J.Inf.Syst. Technol. Manag. (Online) [online], v.3, n.3, p. 347-369. 2006.
CUNHA, J.C. Inteligência competitiva desenvolvida por meio de redes sociais.
Dissertação (mestrado em Administração) Faculdade de Economia, Administração,
Contabilidade e Ciência da Informação e Documentação. Universidade de Brasilía –
UNP, Brasília, DF.
DANIEL, E., WILSON, H. e McDONALD, M. Towards a map of marketing information
systems: An inductive study. European Journal of Marketing, Bradford, Vol. 37, N°.
5/6; p. 821- 851, 2003.
EFE. Empresas usam Twitter como ferramenta de relações públicas e fonte de
informações sobre clientes. O Globo Online, Tecnologia, Caderno Digital, 21 abril.
2009. Disponível em: http://oglobo.globo.com/tecnologia/mat/2009/04/21/empresasusam-twitter-como-ferramenta-de-relacoes-publicas-fonte-de-informacoes-sobreclientes-755366147.asp. Acesso em: 17 set. 2012.
FACEBOOK.
Facebook.
[S.l.]:
Facebook,
2012.
<http://www.facebook.com>. Acesso em 10 setembro 2012.
Disponível
em:
FERNANDES, M.P. Descoberta de conhecimento em bases de dados e
estratégias de relacionamento com clientes: Um estudo no setor de serviços.
2007. Dissertação (mestrado em administração de empresas) – Universidade
Presbiteriana Mackenzie, São Paulo, SP.
FLETCHER, K.; WHEELER, C. Marketing intelligence for international markets.
Marketing Intelligence & Planning, v. 7, n. 5, 1989.
FREITAS, H.M.R.; LESCA, H.; CUNHA JR., V.M. Como dar um senso útil às
informações dispersas para facilitar as decisões e ações dos dirigentes: o problema
crucial da inteligência competitiva através da construção de um ‘PUZZLE' (‘quebracabeça')®. Revista Eletrônica de Administração, São Paulo, vol 2, no. 2.
novembro de 1996.
GOFFMAN, E. Comportamentos em lugares públicos – Nota sobre a organização
social dos ajuntamentos. Petrópolis: Editora Vozes. 2010.
115
GOOGLE. Orkut. [S.l.]: Google, 2011. Disponível em: <http://www.orkut.com>.
Acesso em: 10 setembro 2012.
GOUNARIS, S.P.; PANIGYRAKIS, G.G.; CHATZIPANAGIOTOU, K.C, Measuring
the effectiveness of marketing information systems: An empirically validated
instrument. 2007
GRISI, C.C.H.; LOURES, C.A.; SAZAKI, C.K.; ALMEIDA, L.O. Sistema de
informação em marketing e a pesquisa de produto: uma nova perspectiva V
SEMEAD – seminários em administração São Paulo: FEA – USP, 2001.
Disponível em http://www.ead.fea.usp.br/semead/5semead/MKT. Acesso em 12 de
setembro de 2012.
GUEDES, R.; AFONSO, D.; MAGALHÃES, L.H. Mineração de opiniões de usuários
na busca de conhecimento. Revista Vianna Sapiens. v. 1, edição especial, out.
2010. Juiz de Fora. MG.
HAIR, I.F.J.; ANDERSON, R.E.; TATHAM, R.L.; BLACK, W.C. Análise Multivariada
de Dados. 5ª ed. Porto Alegre: Bookman. 2005.
HASGALL, A.; SHOHAM, S. Digital social network technology and the complex
organizational systems, VINE, Vol. 37 Iss: 2, pp.180 – 191. 2007.
IBOPE NIELSEN, Total de pessoas com acesso à internet atinge 77,8 milhões.
Nov. 2011, disponível em http://www.ibope.com.br, acessado em 18/03/2012.
IDEYA, Market Report. Social Media Monitoring Tools and Services. Market
Report. 2012, disponível em http://www.ideya.eu.com
KAUFMAN, D. Processo de tomada de decisão no ciberespaço, o papel das
redes sociais no jogo das escolhas individuais. Tese (mestrado em
Comunicação e Semiótica, Signo e Significação nas Mídias). Pontifícia universidade
Católica de São Paulo – PUC-SP. São Paulo, SP, 2010.
KENNEDY, H. Beyond anonymity, or future directions for internet identity research.
New Media Society, v.11, n.6, p.943-946, 2009.
KHAUAJA, D.M., CAMPOMAR, M.C. O sistema de informações no planejamento de
marketing: uma busca de vantagem competitiva. Revista de Gestão da Tecnologia
e Sistemas de Informação/Journal of Information Systems and Technology
Management (JISTEM), São Paulo, v. 04, n. 01, p.23-46, jan./abr. 2007.
KOBLITZ, L.F. Ambiente de análise de sentimento baseado em domínio. 2010.
Tese (doutorado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pósgraduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio
de Janeiro, RJ.
KOSALA R.; BLOCKEEL H. Web mining research: a survey. ACM SIGKDD
Explorations, v.2, n.1, p.1-15. Jul, 2000.
KOTLER, P. Administração de marketing: a edição do milênio. Prentice Hall: São
Paulo, 2000.
KOTLER, P.; ARMSTRONG, G. Princípios de marketing. 9. ed. Tradução de:
Arlete Simille Marques e Sabrina Cairo. São Paulo: Prentice Hall, 2003.
116
KRAKAUER, P.V.C. A utilização das informações do ambiente no processo de
decisão estratégica: estudo com empresários brasileiros e americanos de
pequenas e médais empresas. Dissertação (Mestrado em administração).
Departamento de Administração da Faculdade de Economia, Administração e
contabilidade, Universidade de São Paulo, São Paulo, 2011.
LAU, K. ; LEE, K. ; HO, Y. ; LAM, P. Mining the web for business intelligence:
Homepage analysis in the internet era. Journal of Database Marketing and
Customer Strategy Management. Vol. 12, n. 1, p. 32-54, 2004.
LAUDON, K. C.; LAUDON, J. P. Sistemas de informação gerenciais. 7. ed. São
Paulo: Pearson Pretince Hall, 2007.
LEMOS, André. A arte da vida: diários pessoais e webcams na Internet. XI
COMPÓS. Rio de Janeiro: ECO/UFRJ, 2002.
LEONE, N. M. de C. P. G. As especificidades das pequenas e médias empresas.
Revista de Administração, São Paulo, v. 34, n. 2, p. 91-94, abr./jun. 1999.
LOVETT, J.; OWYANG, J. Social Marketing Analytics: A New Framework for
Measuring Results in Social Media. Altimeter Report. Retrieved. Abr., 2010.
Disponível em http://www.slideshare.net/jeremiah_owyang/altimeter-report-socialmarketing-analytics.
LIU, B. Web Data Mining. Exploring Hiperlinks, Contents, and Usage Data. Springer,
Chigago, 2007.
MAGALHÃES L., H. Uma análise de ferramentas para mineração de conteúdo de
páginas Web. 2008. Dissertação de Mestrado. Instituto Alberto Luiz Coimbra de
Pós-graduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro,
Rio de Janeiro, RJ.
MAGALHÃES T., M. Uma metodologia de mineração de opiniões na web. 2009.
Tese (doutorado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pósgraduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio
de Janeiro.
MALHOTRA, N.K. Introdução a pesquisa de marketing: uma orientação
aplicada. Porto Alegre: Bookman, 2001.
MALINI, F. Modelos de colaboração nos meios sociais da internet: Uma análise
a partir dos portais de jornalismo participativo. Intercom – Sociedade Brasileira
de Estudos Interdisciplinares da Comunicação. XXXI Congresso Brasileiro de
Ciências da Comunicação, RN, 6 de set. 2008.
MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE; H. Term frequency and weighting. In:
______ An Introduction to Information Retrieval. Inglaterra: Cambridge University
Press,
2009.
p
117-120.
Disponível
em:
http://nlp.stanford.edu/IRbook/pdf/irbookonlinereading.pdf. Acesso em: 17 set. 2011.
MARSHALL, K.P. Marketing information systems: creating competitive advantage
in the information age. Danvers: Boyd & Fraser, 1996.
MARTELETO, R.M. Análise de redes sociais: aplicação nos estudos de transferência
da informação. DICI – Diálogo Científico, Rio de Janeiro, v. 30, n. 1, p. 71-81,
jan./abr. 2001.
117
MATTAR, F. N. Pesquisa de marketing. São Paulo: Atlas, 2008.
MATTAR, F.N.; SANTOS, D.G. Gerência de produtos: como tornar seu produto um
sucesso. São Paulo: Atlas, 1999.
MAYROS, V.; WERNER, D. Marketing information systems: design and
applications for marketers. Radnor: Chilton Book Company, 1982.
McCARTHY, E. J. Marketing essencial: uma abordagem gerencial e global. São
Paulo: Atlas, 1997.
MILLER, S.H., Competitive Intelligence – An Overview, Society of Competitive
Intelligence Professionals, Alexandria, VA. 2001.
MIRANDA, R.C.R. O uso da informação na formulação de ações estratégicas pelas
empresas. Ciência da Informação, Brasília, v. 28, n. 3, p. 286-292, set./dez. 1999.
MORGADO JÚNIOR, J.C. Modelo computacional para mineração de texto e
análise de questões de concursos. 2008. Dissertação (mestrado em Engenharia
Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de engenharia,
Universidade Federal do Rio de Janeiro, Rio de Janeiro.
O’BRIEN, J. Sistemas de informações e as decisões gerenciais na era da
Internet. São Paulo: Saraiva, 2004.
PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and Trends
in Information Retrieval, v.2, n.1-2, pp. 1-135, 2008.
PAPACHARISSI, Z. (org.). A Networked Self: Identity, community, and culture on
Social Network Sites. Nova York (Estados Unidos): Routledge, 2011.
PEDOTT, P.R. Publicidade na internet: a internet como ferramenta de
comunicação de marketing. 2001. Dissertação (Mestrado em administração) –
Universidade Federal do Rio Grande do Sul – UFRGS, Porto Alegre, RS.
PERIOTTO, C. Análise e uso da informação em pequenas empresas de base
tecnológica incubadas no polo tecnológico de São Carlos-SP. Dissertação
(Mestrado em Ciência, Tecnologia e Sociedade) – Universidade Federal de São
Carlos – UFSCAR, São Carlos, SP, 2010.
PINHEIRO, M.S. Uma abordagem usando sintagmas nominais como
descritores no processo de mineração de opiniões. 2009. Tese (doutorado em
Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de
engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
PORTER, M.E. Estratégia competitiva: técnicas para análise de indústrias e da
concorrência. 2. ed. Rio de Janeiro: Campus, 2005.
RECUERO, R.C. Diga-me com quem falas e dir-te-ei quem és: a conversação
mediada pelo computador e as redes sociais na internet. Revista Famecos, Vol.
1, No 38, 2009.
RECUERO, R.C.. Information flows and social capital in weblogs: a case study in the
brazilian blogosphere. In Proceedings of the nineteenth ACM conference on
Hypertext and hypermedia, p. 97-106, New York, NY, EUA, 2008.
RIBEIRO, J.C. The increase of the experiences of the self through the practice of
multiple virtual identities. PsychNology Journal, vol. 7, n. 3, p.291-302, 2009.
118
RICCI, G.L. Estudo sobre as especificidades das pequenas e médias empresas
hoteleiras da região central do estado de São Paulo. XXXI Encontro Nacional de
Engenharia de Produção. ENEGEP 2011. Belo Horizonte, MG, out. 2011.
RIOS, N.; SPECK, F. O que você está fazendo? - um estudo da socialidade no
twitter. XXXII Congresso Brasileiro de Ciências da Comunicação. Sociedade
Brasileira de Estudos Interdisciplinares da Comunicação. Revista Iniciacom. Vol 2.
Nº 1. Curitiba, PR. 2010.
ROBIC, A. R. O comportamento informacional nos sistema de informações de
marketing: um estudo exploratório no setor do varejo de moda. 2003. Dissertação
(Mestrado em Administração) – Faculdade de Economia e Administração,
Universidade de São Paulo, São Paulo.
SALZMAN, M.; MATATHIA, I.; O´REILLY, A.. A era do marketing viral: como
aumentar o poder da influência e criar demanda. São Paulo: Editora Cultrix,
2003.
SANDHUSSEN, R.L. Marketing básico. São Paulo: Saraiva, 1998.
SARQUIS, A.B. Marketing para pequenas empresas: a indústria da confecção.
São Paulo: SENAC, 2003.
SCIP. Society of Competitive Intelligence Of Professionals. Disponível em:
<http://www.scip.org/>. Acesso em: 22 ago. 2012.
SCOTTO, M.; SILLITTI, A.; VERNAZZA, T.G. “Managing Web-Based Information”,
International Conference on Enterprise Information Systems (ICEIS 2004), Porto,
Portugal, p. 1-3, Abr, 2004.
SEMENIK, R.J.; BAMOSSY, G. J. Princípios de marketing: uma perspectiva global.
São Paulo: Makron Books, 1995.
SHI, Z; MA, H; HE, Q. Web Mining: Extracting Knowledge from the World Wide
Web, chapter XIV, p. 197–208. Springer, 2009.
SIMON, B. Identity in Modern Society. A Social Psychological Perspective. Oxford:
Blackwell Publishing Ltd, 2004.
SILVA, T.R. Monitoramento de Marcas e Conversações: alguns pontos para
discussão. In: DOURADO, Danila; SILVA, Tarcízio; CERQUEIRA, Renata; AYRES,
Marcel (orgs.). #MidiasSociais: Perspectivas, Tendências e Reflexões.
Florianópolis: Bookess, 2010.
SILVA, T.R.. Web 2.0, Vigilância e Monitoramento: entre funções pós-massivas e
classificação social. In: Anais do Congresso Luso Afro Brasileiro de Ciências
Sociais, 2011, Salvador (BA).
SILVA, T.R. Aplicativos de análise de informações sociais: mapeamento e
dinâmicas interacionais. Dissertação (mestrado em Comunicação). Universidade
Federal da Bahia – UFBA, Salvador, BA, 2012.
SIQUEIRA, H.B.A. WhatMatter: Extração e visualização de características em
opiniões sobre serviços. 2010. Dissertação (mestrado em Ciência da Computação) –
Centro de Informática, Universidade Federal de Pernambuco, Recife.
119
SOUZA, F.B. Uma análise empírica de interações em redes sociais. Tese
(doutorado em Ciência da Computação). Instituto de Ciências Exatas da
universidade Federal de Minas Gerais – UFMG. Belo Horizonte, MG, 2010.
STAIR, R.M; REYNOLDS, G.W. Princípios de sistemas de informação: uma
abordagem gerencial. Trad. Flávio Soares Corrêa da Silva (coord.) Giuliano Mega,
Igor Ribeiro Sucupira. 6ª ed. São Paulo: Cengage Learning, 2008.
STANTON, W.J. Fundamentos de marketing. São Paulo: Pioneira, 1980.
STAVRAKANTONAKIS, I.; GAGIU, A.E.; KASPER, H.; TOMA, I.; THALHAMMER, A.
An approach for evaluation of social media monitoring tools. In: Common Value
Management. 1st International Workshop on Common Value Management
CVM2012. Heraklion, Grécia, p. 52-64. 2012.
TELMA, M.F.P. Uso das ferramentas de Web Analytics no processo de
inteligência competitiva das organizações. 2011. Dissertação (mestrado em
Ciência, Gestão e Tecnologia da Informação). Programa de Pós-Graduação em
Gestão da Informação. Universidade Federal do Paraná, Paraná.
TICOM, A.A.M. Aplicação de Mineração de Textos e Sistemas Especialistas na
Liquidação de Processos Trabalhistas Especialistas. 2007. Dissertação
(mestrado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e
pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
TOMAEL, M.I.; ALCARÁ, A.R.; CHIARA, I.G. Das redes sociais à inovação. Ci. Inf.,
Brasília, v. 34, n. 2, p. 93-104, maio/ago. 2005.
TWITTER. Twitter Inc. Disponível em http://www.twitter.com. Acesso em 20 de
Agosto de 2011.
VALENTIM, M.L.P. Processo de inteligência competitiva organizacional. In:
VALENTIM, M.L.P. (Org.). Informação, conhecimento e inteligência
organizacional. Marília: Fundepe Editora, 2006. 282 p. 9-24 p.
WIERENGA, B.; BRUGGEN, G. V. Marketing management support systems:
principles, tools and implementation. Boston: Kluwer Academic Publishers, 2000.
WIVES, L.K. Tecnologias de descoberta de conhecimento em textos aplicadas
à inteligência competitiva. 2002. Dissetação (Mestrado em Ciência da
Computação) – Instituto de Informática, UFRGS, Porto Alegre.
YAMASHITA, S.S. Internet e marketing de relacionamento: impactos em
empresas que atuam no mercado consumidor. 2003. Dissertação (mestrado em
administração) – Faculdade de Economia, Administração e Contabilidade,
Universidade de São Paulo – USP, São Paulo.
Download