UNIVERSIDADE POTIGUAR – UNP PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM ADMINISTRAÇÃO - PPGA MESTRADO PROFISSIONAL EM ADMINISTRAÇÃO - MPA NICHOLLAS RENNAH ADELINO DE ALMEIDA FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES ESTRATÉGICAS NATAL/RN 2012 NICHOLLAS RENNAH ADELINO DE ALMEIDA FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES ESTRATÉGICAS Dissertação de Mestrado apresentada ao Programa de Pós-Graduação Stricto Sensu em Administração da Universidade Potiguar, como requisito para obtenção do título de Mestre em Administração na área de concentração em Estratégia e Competitividade. ORIENTADOR: Prof. Dr. Alípio Ramos Veiga Neto NATAL/RN 2012 NICHOLLAS RENNAH ADELINO DE ALMEIDA FERRAMENTAS DE WEB MINING E SEU USO NA EXTRAÇÃO DE INFORMAÇÃO DAS REDES SOCIAIS DIGITAIS PARA TOMADAS DE DECISÕES ESTRATÉGICAS Dissertação de Mestrado apresentada ao Programa de Pós-Graduação Stricto Sensu em Administração da Universidade Potiguar, como requisito parcial para obtenção do título de Mestre em Administração. Área de concentração: Estratégia e Competitividade. Aprovado em: 14/11/2012 BANCA EXAMINADORA ________________________________________________ Prof. Dr. Alípio Ramos Veiga Neto Orientador Universidade Potiguar- UnP ________________________________________________ Profª. Drª. Tereza de Souza Membro Examinador Universidade Potiguar- UnP ________________________________________________ Prof. Dr. Samuel Xavier de Souza Membro Examinador Externo Universidade Federal do Rio Grande do Norte - UFRN AGRADECIMENTOS Ao meu Deus, Jesus Cristo, pela sua misericórdia em está me concedendo mais uma vitória na minha vida acadêmica e profissional. Sem Ele nada disso estaria acontecendo. À minha família, minha mãe Lucilene, minhas irmãs Niédja, Jéssica e Heloisa, e, meu sobrinho Felipe que me deram estrutura para que eu pudesse me dedicar a esse trabalho por inteiro. À minha querida noiva e companheira Cibele Murinelli que amorosamente esteve comigo durante todos os momentos nesse mestrado, dividindo, quando possível, todas as situações alegres e difíceis nessa jornada, juntamente com sua maravilhosa família que me propiciaram um convívio saudável e momentos de relaxamento em meio a tantas tribulações. Ao professor e orientador Dr. Alípio Veiga, meus sinceros agradecimentos, pela orientação e confiança depositada. Aos meus colegas da UFERSA nesse mestrado: Gilmar, Gilberto, Dairone, Wilton, Daiane e Vanessa pela convivência e compartilhamento de muitos bons momentos em nossas viagens. Agradeço a todos que, direta ou indiretamente contribuíram para a realização deste trabalho. RESUMO É cada vez mais frequente o surgimento de novas metodologias e instrumentos que possibilitam a extração das informações de forma automatizada de grandes bases de dados como as redes sociais. Dentre eles, encontram-se as ferramentas de mineração Web (web mining) que possibilitam coletar, processar, analisar e visualizar os dados dentre os comentários disponíveis nas redes sociais. Este estudo teve o objetivo de investigar as ferramentas de mineração Web existentes no mercado e quais informações elas oferecem aos gestores de marketing para tomada de decisão estratégica em PMEs. Para tanto, foi realizada uma descrição das características mercadológicas e das funcionalidades dos sistemas de mineração Web encontrados, tais como as ferramentas de monitoramento de redes sociais (MRS) e software de mineração de textos (MT) disponíveis na Internet em Junho de 2012. Como resultado, constatou-se que as ferramentas de MRS se mostraram mais adequadas para a realização de coleta e análise dos dados, enquanto os software de MT oferecem vantagem somente na etapa de processamento estatístico dos textos, sendo necessária a utilização conjunta dos dois tipos de sistemas para uma quantidade maior de dados. As informações mais disponibilizadas pelas ferramentas de MRS são relacionadas a segmentação de usuários ou comentários, tais como a análise de sentimento e a análise de tópico e temas. As informações sobre as ações do concorrente foram pouco satisfatórias, pois as ferramentas não ofereciam funções para que as suas marcas e as dos concorrentes fossem analisadas paralelamente. É possível considerar que as ferramentas disponíveis de mineração Web podem fornecer informações para tomadas de decisões estratégicas, no entanto será necessária a presença de profissional de análise de redes sociais para realizar os procedimentos de forma satisfatória. Palavras-Chave: web mining, monitoramento de redes sociais, Sistema de Informação de Marketing, mineração de texto, informações estratégicas. ABSTRACT It is increasingly common the appearance of new methodologies and tools that enable the automatic extraction of information from large databases such as social networks. Among them, there are web mining tools that enable to collect, process, analyze and visualize data from comments available in social networks. This study aimed to investigate the Web mining tools available in the market and what information they provide to marketing managers for strategic decision making in SMEs. Therefore, we described the market characteristics and functionalities of the Web mining tools found, such as social networking monitoring tools (SNM) and text mining software (TM) available on the Internet in June 2012. As a result, it was found that the SNM tools were more suitable to perform the collection data analysis, while the TM software offers advantage only in the stage of statistical processing of texts, requiring the combined use of both types of systems for a larger amount of data. The most of the information provided by SNM tools were related to users or comments, such as sentiment analysis and analysis of themes and topic. The information about the actions of competitor were unsatisfactory because the tools do not offer the companies functions for their brands and the brands of the competitors to be analyzed in parallel. It is possible to consider that the tools available for web mining can provide information for strategic decision making, however it will require the presence of a social network analysis professional to perform the procedures satisfactorily. Keywords: web mining, social network monitoring, Marketing Information Systems, text mining, strategic information. LISTA DE QUADROS Quadro 1: Conceitos de Sistemas de Informação de Marketing............................... 18 Quadro 2: Modelos de SIM ....................................................................................... 20 Quadro 3: Atributos da qualidade da informação propostos por O´Brien (2004) ...... 28 Quadro 4: Tipos de informações estratégicas para as empresas............................. 32 Quadro 5: Técnicas e etapas da Mineração de texto................................................ 53 Quadro 6: Funcionalidades das ferramentas de MRS .............................................. 67 Quadro 7: Variáveis e Categorias Pertinentes aos Aplicativos de Análise de Informações Sociais.................................................................................................. 68 Quadro 8: Lista de métricas de desempenho das ferramentas Web Analytics......... 69 Quadro 9: Características das ferramentas de MRS ................................................ 70 Quadro 10: Lista de funcionalidades das ferramentas de web mining...................... 74 Quadro 11: Lista de ferramentas de MRS ................................................................ 81 Quadro 12 - Lista de ferramentas de Mineração de Texto investigadas................... 85 Quadro 13: Relação entre as funcionalidades análise de dados com o formato de visualização ............................................................................................................ 101 LISTA DE TABELAS Tabela 1: Custo da ferramentas de MRS brasileiras ................................................ 82 Tabela 2: Custo da ferramentas de MRS internacionais........................................... 83 Tabela 3: Lista de ferramentas de MRS com disponibilidade de contas gratuitas .... 84 Tabela 4 - Menores valores cobrados pelas ferramentas de MT .............................. 86 Tabela 5: Maiores valores cobrados pelas ferramentas de MT ................................ 87 Tabela 6: Funcionalidades de coleta de dados nos software de MRS...................... 88 Tabela 7: Funcionalidades de processamento de dados nos software de MRS....... 91 Tabela 8: Funcionalidades de análise de dados nos software de MRS.................... 92 Tabela 9: Funcionalidades de visualização de dados nos software de MRS.......... 100 Tabela 10: Processamento de dados nos software de mineração de textos .......... 102 Tabela 11: Itens coletados para exemplificar o uso dos software de MT................ 102 Tabela 12: Redução de termos por técnica de processamento de texto ................ 105 Tabela 13: Lista de termos e clusters gerados no exemplo.................................... 106 LISTA DE FIGURAS Figura 1: Tripé do Sistema de Informação de Marketing .......................................... 17 Figura 2: Modelo de SIM proposto por Chiusoli (2005)............................................. 21 Figura 3: Dimensões das especificidades de gestão da pequena empresa ............. 35 Figura 4: Categorias da Mineração Web .................................................................. 38 Figura 5: Exemplo de aplicação de Case Folding..................................................... 42 Figura 6: Exemplo da aplicação de stoplist............................................................... 42 Figura 7: Exemplo de aplicação de Stemming.......................................................... 43 Figura 8: Processo de indexação automática ........................................................... 45 Figura 9: Tipos de agrupamentos ............................................................................. 49 Figura 10: Modelo de classificação de documentos ................................................. 50 Figura 11: Demonstração do cálculo de precisão e cobertura .................................. 53 Figura 12: A evolução das ferramentas na Internet ................................................. 55 Figura 13: Cronologia do ano de lançamento das rede social entre 1997 a 2008. ... 57 Figura 14: Página principal do Facebook - Perfil do criador Mark Zuckerberg ......... 59 Figura 15: Tela do Twitter ........................................................................................ 60 Figura 16: Fases da pesquisa................................................................................... 72 Figura 17: Exemplo de tela de coleta e resgate dos dados ...................................... 89 Figura 18- Exemplo de gráfico de estatística de mídia ............................................. 93 Figura 19: Exemplo de Tela de filtragem de dados................................................... 93 Figura 20: Tipos de gráficos gerados a partir da filtragem de dados ........................ 94 Figura 21: Exemplo de comentário com classificação de sentimento errada .......... 95 Figura 22: Exemplo de um gráfico de análise de sentimento ................................... 95 Figura 23: Exemplo de gráfico de análise de tópicos e temas .................................. 96 Figura 24: Exemplo de lista e nuvem de palavras .................................................... 97 Figura 25: Exemplo de lista de usuários influenciadores .......................................... 97 Figura 26: Exemplo de gráfico de análise de concorrentes ...................................... 99 Figura 27: Exemplo de interface pipeline utilizada nos software MT ...................... 103 Figura 28: Exemplo do fluxo de normalização dos dados....................................... 104 Figura 29: Exemplo da visualização de cluster em gráfico de rede ........................ 107 Figura 30 - Exemplo de lista de palavras por cluster .............................................. 108 LISTA DE ABREVIATURAS E SIGLAS AMA CRM CSV FIPE HTML IBGE IC MT MRS PME RI SCIP SEBRAE SIM SVM TF TF-IDF TI XML WWW American Marketing Association Customer Relationship Management Comma-separated values Fundação Instituto de Pesquisas Econômicas HyperText Markup Language Instituto Brasileiro de Geografia e Estatística Inteligência Competitiva Mineração de textos Monitoramento de redes sociais Pequenas e médias empresas Recuperação da informação Society of Competitive Intelligence of Professionals Serviço de Apoio às Micro e Pequenas Empresas Sistema de Informação de Marketing Support Vector Machine Term Frequency Term Frequency – Inverse Document Frequency Tecnologia da Informação eXtensible Markup Language World Wide Web SUMÁRIO 1 INTRODUÇÃO ..................................................................................................... 11 1.1 QUESTÃO DE PESQUISA................................................................................. 13 1.2 OBJETIVOS ....................................................................................................... 13 1.2.1 Objetivo Geral............................................................................................... 13 1.2.2 Objetivos Específicos .................................................................................. 13 1.3 JUSTIFICATIVA ................................................................................................. 14 2 SISTEMA DE INFORMAÇÃO DE MARKETING.................................................. 15 2.1 CONCEITO......................................................................................................... 16 2.2 MODELOS DE SISTEMAS DE INFORMAÇÃO DE MARKETING ..................... 19 2.2.1 Subsistema de Pesquisa de Marketing ...................................................... 21 2.2.2 Subsistema de Inteligência Competitiva .................................................... 24 2.3 INFORMAÇÃO NO PROCESSO DE TOMADA DE DECISÃO .......................... 27 2.3.1 Fontes dos dados e informações ............................................................... 29 2.3.2 Coleta de dados na internet ........................................................................ 35 3 MINERAÇÃO WEB .............................................................................................. 37 3.1 CATEGORIAS DA MINERAÇÃO WEB .............................................................. 38 3.2 ETAPAS DA MINERAÇÃO DE CONTEÚDO NA WEB ...................................... 39 3.2.1 Etapa de Pre-processamento ...................................................................... 40 3.2.2 Etapa de Processamento (Tarefas da Mineração de texto) ...................... 44 3.2.3 Etapa de Pós-processamento ..................................................................... 52 4 MINERAÇÃO WEB NAS REDES SOCIAIS......................................................... 54 4.1 REDES SOCIAIS................................................................................................ 54 4.1.1 Facebook....................................................................................................... 58 4.1.2 Twitter ........................................................................................................... 59 4.2 O COMPORTAMENTO DOS USUÁRIOS NAS REDES SOCIAIS..................... 61 4.3 PROCESSO DE MINERAÇÃO WEB NAS REDES SOCIAIS ............................ 63 4.3.1 Monitoramento das redes sociais............................................................... 63 4.3.2 Processo de monitoramento de redes sociais .......................................... 65 4.3.3 Pesquisas sobre monitoramento de redes sociais ................................... 66 5 METODOLOGIA................................................................................................... 71 5.1 TIPO DE PESQUISA .......................................................................................... 71 5.2 FASES DA PESQUISA ...................................................................................... 71 5.3 PARÂMETROS PARA ESCOLHA DAS FERRAMENTAS DE MINERAÇÃO WEB 72 5.3.1 Universo e Amostra ..................................................................................... 73 5.3.2 Seleção de variáveis .................................................................................... 73 5.4 TRATAMENTO DOS DADOS ............................................................................ 79 6 RESULTADOS ..................................................................................................... 81 6.1 DESCRIÇÃO DAS CARACTERÍSTICAS MERCADOLÓGICAS DAS FERRAMENTAS....................................................................................................... 81 6.1.1 Ferramentas de Monitoramento de Redes Sociais (MRS) ........................ 81 6.1.2 Ferramentas de Mineração de Texto (MT).................................................. 84 6.2 DESCRIÇÃO FUNCIONAL DAS FERRAMENTAS SELECIONADAS ............... 88 6.2.1 Ferramentas de Monitoramento de redes sociais (MRS).......................... 88 6.2.2 Ferramentas de Mineração de textos (MT)............................................... 101 7 CONSIDERAÇÕES FINAIS ............................................................................... 110 REFERÊNCIAS ...................................................................................................... 113 11 1 INTRODUÇÃO O cenário atual do mundo corporativo tem se pautado em um ambiente bastante competitivo, no qual se torna necessário o uso de informações adequadas para tomar decisões estratégicas. A informação como apoio para tomadas de decisões é um assunto muito explorado na literatura de estratégia de marketing, no entanto, a necessidade de decidir com rapidez leva vários gestores a tomar suas decisões baseadas somente em sua própria experiência. Encontrar a informação pontual e adequada pode ser um problema frente a quantidade de dados que são disponibilizados nos mais diversos meios de armazenamento eletrônico. A informação existe, porém, percebe-se que poucos executivos estão amparados por técnicas apropriadas para coletá-las e processá-las de modo rápido e prático que possibilite a manutenção de sua posição competitiva no mercado. Evidencia-se a necessidade de um sistema que avalie as necessidades de informação dos gestores e as obtenha de maneira oportuna para melhorar a eficácia da tomada de decisão. Para as pequenas e médias empresas (PME) que apresentam características específicas de decisão, direção e organização em relação às grandes empresas, precisando se adaptar às práticas estratégicas contemporâneas para sobreviver no mundo competitivo, a utilização de sistemas automatizados de coleta de informação pode fazer diferença para o sucesso. As PME’s contribuem de forma relevante no desenvolvimento e na economia de uma região, no entanto, assim como nas grandes empresas, gerir um pequeno negócio exige uma série de desafios que precisam ser vencidos. As soluções para resolução de problemas e tomadas de decisão, embora se pareçam comuns entre esses tipos de empresas, têm caminhos diferentes para serem solucionados. É constante encontrar ferramentas que originalmente foram desenvolvidas para as grandes empresas, sendo aplicadas às PMEs. A literatura sobre estratégia para pequenas empresa é muito influenciada por duas abordagens: uma de perspectiva econômica e outra empreendedora. Ao longo do tempo, a abordagem de natureza econômica tem predominado, no entanto, a de natureza empreendedora surge atualmente com forte influência do comportamento individual sobre o processo de formação da estratégia na prática. Nesse contexto, a informação surge como um subsídio importante na estratégia empresarial e no auxílio das tomadas de decisões. O desafio é tornar as informações que estão dispersas dentro e fora da organização 12 úteis para a execução de práticas estratégicas mais próximas do cotidiano das PME’s. Atualmente, a Internet surge como um ambiente democrático no qual a informação pode ser gerada, armazenada, distribuída e coletada de diversas maneiras. Novas ferramentas possibilitam que usuários criem gratuitamente seus próprios conteúdos digitais, o que contribui para o aumento da quantidade de informações disponíveis. Esse crescimento exige que torne cada vez mais necessário o uso mecanismos eficazes e eficientes para recuperação de conhecimentos úteis da web. Um exemplo do crescimento da internet é o surgimento das redes sociais digitais, no qual seus usuários geram e disseminam suas opiniões, comportamentos e desejos sobre os mais variados assuntos. Por querer saber “como as pessoas pensam” a respeito de suas marcas, produtos e serviços, as empresas passaram a dar maior atenção para o que os seus clientes estão relatando nas redes sociais, resolvendo críticas e coletando elogios e sugestões para seus negócios. As redes sociais digitais podem mostrar como determinado grupo de seguidores reage a uma ação de marketing. A postura dos consumidores frente ao comportamento das empresas pode surgir como um sinalizador de mudanças de cenários e, neste caso, os empresários procurariam posicionar melhor seus negócios no mercado para atrair consumidores mais exigentes (PORTER, 2005). Os dados coletados e processados das redes sociais digitais podem constituir uma fonte de vantagem competitiva, proporcionando às empresas mais informações para uma estratégia mais próxima dos desejos desse segmento de consumidores. Com o avanço tecnológico por meio da Internet e o desenvolvimento de sistemas específicos para gestão de informações, a área de marketing passou a contar com uma estrutura tecnológica para extrair dados da Web e definir estratégias de mercado de acordo com o processamento desses dados. Grandes empresas, devido a seu bom aporte financeiro e tecnológico, são capazes de coletar e processar informações por meio de sistemas mais robustos, no entanto, para as pequenas e médias empresas esse papel ainda se restringe a processamentos manuais de coleta de dados (CHIUSOLI, 2010). Apesar das informações poderem ser obtidas de forma manual na Internet, devido a sua grande quantidade, a forma mais adequada de extrair essas informações seria por meio de procedimentos automatizados de 13 mineração de dados na Internet, conhecida como Web Mining. O objetivo desta técnica no marketing é vasculhar grandes bases de dados na Internet pela busca de padrões escondidos, extraindo informações ocultas dos consumidores e úteis para a tomada de decisões de negócios. 1.1 QUESTÃO DE PESQUISA A partir das considerações anteriores buscou-se responder a seguinte questão: ● Quais as ferramentas de mineração Web existentes no mercado e quais informações elas oferecem aos gestores de marketing para tomada de decisão estratégica em PMEs? 1.2 OBJETIVOS 1.2.1 Objetivo Geral Investigar as ferramentas de mineração Web existentes no mercado e quais informações elas oferecem aos gestores de marketing para tomada de decisão estratégica em PMEs. 1.2.2 Objetivos Específicos Como objetivos específicos foram propostos: ● Levantar as principais ferramentas de mineração Web disponíveis até junho de 2012; ● Descrever e comparar as características mercadológicas de cada ferramenta; ● Descrever e comparar as funcionalidades de cada ferramenta; ● Identificar possíveis tratamentos estatísticos a que os dados coletados possam ser submetidos. 14 1.3 JUSTIFICATIVA As informações e opiniões disponibilizadas a cada momento na Internet pelos consumidores despertam o interesse das empresas em coletá-las e utilizá-las como fonte de vantagem competitiva. Diante dessa crescente forma de obter conhecimento, surgem a cada ano novas metodologias e ferramentas que consigam extrair as informações de forma inteligente de grandes bases de dados, como as redes sociais digitais na Internet. Elicitar dados da Internet de forma manual pode ser um trabalho muito custoso e demorado para quem o realiza, principalmente quando se trata de pesquisas feitas por meio de questionários, no qual o pesquisador fica na dependência da dedicação dos indivíduos alvo da pesquisa. Existem poucas pesquisas sobre a coleta de dados inteligentes da Internet, no entanto, abordagens sobre mineração de texto e mineração Web se apresentam como meios alternativos para coleta e analise de texto em forma de opinião nas redes sociais. Esta pesquisa se justifica pela crescente utilização das redes sociais por parte dos consumidores e pelo surgimento de ferramentas de mineração de dados na Internet como alternativa para extrair informações oriundas da fonte de informação externa dos Sistemas de Informação de Marketing (SIM), no qual o objetivo é auxiliar os gestores de empresas na obtenção de informação que possa servir de base para tomadas de decisões estratégicas. Para a ciência, esse trabalho pode significar um caminho alternativo ao questionário convencional para coletar informações para pesquisas científicas. Para a área do marketing, assinala como um meio complementar de extrair informações sobre mercados e especificadamente os usuários internautas das redes sociais digitais. consumidores, 15 2 SISTEMA DE INFORMAÇÃO DE MARKETING A informação pode ser considerada o insumo principal para o planejamento de marketing no processo de tomada de decisão estratégica. Em suas argumentações, Porter (2005) defende que a informação é uma fonte de vantagem competitiva para as empresas, pois as que detêm conhecimento sobre sua cadeia de valor, concorrente e sobre o mercado, podem tomar decisões baseadas em estratégias menos abstratas e mais tangíveis, resultando em um desempenho mais sólido no mercado competitivo. No entanto, Chiusoli (2005) argumenta que nem todas as empresas conseguem encontrar informações em tempo hábil para tomada de decisão rápida. O resultado disso são deliberações baseadas somente na experiência do empresário. Como alternativa para sanar esse problema, Gounaris, Panigyrakis e Chatzipanagiotou (2007) sugerem que as empresas monitorem constantemente o ambiente de marketing para obter proveito das informações disponibilizadas. Chiusoli (2005) acrescenta que as empresas que mais se adequarem a essa nova estrutura de informação de marketing, antecipando o quadro de mudanças de cenários, se posicionarão no mercado de forma mais favorável. Segundo Mattar (2008), a problemática da informação de marketing foi abordada no período que antecedeu a primeira metade da década de 1960 através da pesquisa de mercado, que estava voltada para o ambiente externo à empresa, mais especificamente para o mercado. No entanto, o autor ressalta que a necessidade de informação para o planejamento e controle de marketing é muito mais ampla e implica a busca de informações em inúmeras outras fontes, inclusive no próprio ambiente interno à empresa. Ele critica as pesquisas da época por produzir dados irrelevantes, preocupando-se apenas com problemas não repetitivos, que considerava um ato falho na promoção de informações de marketing. Na segunda metade da década de 1960 com o advento da teoria dos sistemas, a problemática da informação de marketing passou a ser tratada de forma mais ampla, integrada e sistemática pelos autores de marketing. O controle do fluxo da informação foi defendido também por Fletcher e Wheeler (1989) que argumentavam que era necessário obter os dados de forma sistemática em um formato padronizado apropriado para que os gestores tomem decisões em tempo real. Na década de 1980, apesar de ter havido um processo de valorização da informação de mercado, 16 Miniotti (1992) notava que no Brasil os gestores ainda utilizavam as informações de forma inadequada, pois eram poucos que após a coleta sistemática de dados conseguiam armazená-los e transformá-los em informações importantes. Além disso, Chiusoli (2005) acreditava que mesmo após 20 anos, provavelmente ainda poucas empresas conseguiam tomar decisões gerenciais baseadas em informações coletadas por meio de procedimentos estruturados. Divergindo dessa posição, Star e Reynolds (2006) argumentam que depois dos trabalhos originais de Michael Porter, houve um amadurecimento no uso sistemático da informação por parte das empresas (PORTER, 2005). Elas compreenderam como os sistemas de informações podem ser usados para melhorar a efetividade organizacional e dar suporte à estratégia fundamental do negócio. A definição de sistemas de informação de marketing (SIM) foi ao longo do tempo caminhando do contexto tecnológico e técnico para conceitos mais gerenciais, relacionadas a objetivos e resultados organizacionais (WIERENGA; BRUGGEN, 2000). O autor afirma ainda que a busca por novas tecnologias da informação (TI) é uma forma alternativa para se adaptar à nova realidade do mercado que necessita de informações rápidas e precisas. Corroborando com essa afirmação, Khauaja e Campomar (2007) argumentam que para lidar com o aumento do fluxo de informação, interno e externo, as organizações precisam tirar proveito das oportunidades oferecidas pela TI. Elas devem identificar de que forma a tecnologia da informação pode criar vantagem competitiva, visto que TI afeta todas as camadas da cadeia de valor, integrando o fornecedor ao cliente, percorrendo as unidades estratégicas da empresa, incluindo o marketing. Daniel, Wilson e McDonald (2003) enfatizam que o suporte de TI ao planejamento de marketing pode ajudar no uso das ferramentas de marketing e facilitar o planejamento contínuo. Percebe-se que a TI pode oferecer recursos capazes de auxiliar no processo de obtenção de informação de valor nas decisões estratégicas, independente se as fontes de dados são internas ou externas à empresa. 2.1 CONCEITO Antes de apresentar os conceitos sobre Sistemas de Informação de Marketing (SIM) encontrados na literatura, vale ressaltar o significado das três sentenças 17 separadas que compõem esse termo: sistema, informação e marketing. Mayros e Werner (1982) foram os primeiros a designar esse tripé como base para o entendimento global do SIM, como ilustrado na Figura 1. Figura 1: Tripé do Sistema de Informação de Marketing Sistema de Informação de Marketing Sistema Unifica o processo de troca de informações entre os departamentos e as três áreas funcionais da empresa: Estratégia, tática e operacional. Informação Consiste em dados selecionados e processados utilizados na tomada de decisões. Marketing Decisões sobre consumidores, mercado, produto, força de vendas. Fonte: Adaptado de Mayros e Werner (1982) O primeiro elemento do tripé é o sistema, que segundo Stair e Reynolds (2008) é um conjunto de elementos interrelacionados e interdependentes que visam atingir um objetivo comum. O´Brien (2004) cita as organizações empresariais como exemplo de sistemas, no qual é composto por três componentes básicos: entrada, processamento e saída. As entradas alimentam o processador do sistema que armazena e transforma a entrada em uma saída. Assim, as empresas como sistemas organizacionais podem utilizar os seus recursos econômicos (entradas) transformando-os por vários processos (processamento) e gerando resultados em forma de bens e serviços (saídas). O segundo elemento do tripé do SIM é a informação, que Laudon e Laudon (2007) definem como dados apresentados em uma forma significativa e útil para os seres humanos. Para Robic (2003), a informação torna-se um recurso cada vez mais importante no dia a dia das empresas, principalmente para a área de marketing. O terceiro e último elemento do SIM é o marketing, que para a American Marketing Association (AMA) é uma função organizacional e um conjunto de processos para a criação, comunicação e entrega de valor aos consumidores e para administração do relacionamento com os consumidores de forma que beneficie a organização e seus stakeholders (AMA, 2012). 18 Para Campomar e Ikeda (2006), nesse tripé o sistema mantém a estrutura dos componentes utilizados (dados, informações, modelos estatísticos, relatórios gerenciais), a informação é decorrente da transformação desses dados e o marketing gera novas demandas de análises de mercado que são trabalhados pelo SIM. Com os conceitos independentes do sistema, informação e marketing expostos, a literatura aborda definições semelhantes e complementares sobre os sistemas de informação de marketing (SIM). Para facilitar a visualização elaborou-se um quadro contendo a evolução dos principais conceitos a respeito do SIM (Quadro 1). Quadro 1: Conceitos de Sistemas de Informação de Marketing Autor Conceito Cox e Good (1967) Um campo de procedimentos e métodos formal de um plano de coleta de dados, análise e apresentação das informações para tomada de decisões de marketing. Mayros e Werner (1982) Um conjunto de dados organizados que é analisado por meio de modelos estatísticos. Semenik e Bamossy (1995) Um complexo estruturado de pessoas e máquinas, projetado para gerar informações relevantes a partir de fontes externas e internas da empresa para dar suporte ao processo decisório de marketing. McCarthy (1997) Um modo organizado de reunir e analisar continuamente dados para serem oferecidos aos gerentes de marketing, na forma de informações para a tomada de decisões. Sandhussen (1998) Uma estrutura contínua e em interação de pessoas, equipamentos e procedimentos para juntar, classificar, avaliar e distribuir informações pertinentes, oportunas e precisas para o uso por tomadores de decisão de marketing para melhorar o planejamento, a execução e o controle de marketing. Mattar e Santos (1999) e Kotler (2000) É a constituição de pessoas e empresas, equipamentos e procedimentos para coleta, classificação, análise, avaliação e distribuição de informações necessárias de maneira precisa e oportuna para os que necessitam tomar decisões de marketing. Wierenga e Bruggen (2000) São sistemas de suporte à decisão de marketing, combinando tecnologia da informação, capacidades analíticas, dados de marketing e conhecimento de marketing, de modo a tornar possível aos tomadores de decisão de marketing um incremento da qualidade na gestão do marketing. Malhotra (2001) Um conjunto formalizado de procedimentos que geram, analisam, armazenam e distribuem, de modo permanente, informações aos executivos responsáveis pelas tomadas de decisões de marketing. “Um modelo de interface entre pessoas com uso de equipamentos sofisticados que obtêm informações relevantes por meio de tratamento de dados estatísticos, oriundo de dados de pesquisa de marketing, da inteligência de Chiusoli (2005, p. marketing e dos registros internos da empresa, cuja execução e coleta de dados 43) é realizada de forma sistemática e planejada, com posterior processamento e formatação dos dados transformados em informações que geram relatórios analíticos auxiliando o responsável a tomar decisões de marketing de maneira mais adequada e acertada.” Fonte: Elaborado pelo autor 19 Percebe-se que os elementos envolvidos nos conceitos de sistemas de informação de marketing são as pessoas, equipamentos e procedimentos. A entrada desse sistema é composta pelos dados coletados sobre o ambiente de marketing (interno e externo), no qual são processados e resultam em informação como saída do sistema. O objetivo comum é centrado no suporte ao plano de marketing e no auxílio do gerenciamento das informações da empresa, permitindo que os gestores tenham um suporte nas suas tomadas decisões. 2.2 MODELOS DE SISTEMAS DE INFORMAÇÃO DE MARKETING Existem diversos modelos de sistemas de informação de marketing e Chiusoli (2005) aborda em seu trabalho 22 extraídos da literatura. Ao final da sua pesquisa, o autor sugere seu próprio modelo. Buscando apresentar de forma suscinta esses modelos, optou-se por ilustrar em forma de quadro (Quadro 2) um resumo contendo as contribuições dos autores de marketing apresentados por Chiusoli (2005) quanto aos modelos de sistemas de informação de marketing e suas principais características. Chiusoli (2005) apresenta uma proposta de um modelo de SIM aplicado às atividades estratégicas que engloba as principais características dos modelos estudados. O modelo apresenta as fontes de dados provenientes do ambiente externo e interno de marketing. As entradas podem ter informações originadas a partir dos dados internos da empresa, pesquisa de marketing e inteligência competitiva. Posteriormente os dados são processados e ficam dispostos na etapa de tomada de decisão, dividido em uma estrutura de marketing (planejamento, segmentação e posicionamento do produto ou serviço) e subsistemas de saída (decisões de produto ou serviço, preço, canal e comunicação). O foco é transformar os dados, outrora sem sentido, para uma estrutura capaz de prover informações adequadas para os executivos se basearem nas tomadas de decisões estratégicas. A Figura 2 mostra a diagramação desse modelo proposto por Chiusoli (2005). 20 Quadro 2: Modelos de SIM MODELOS/ AUTORES CARACTERÍSTICA KOTLER, 1968 Um dos primeiros modelos de SIM na literatura que visa melhorar a qualidade da informação. KOTLER, 1998 Um dos modelos mais conhecidos, obtem informações do ambiente de marketing (mercado-alvo, canais, concorrência e forças macro ambientais). McCARTHY, 1997 Elementos do sistema de informação de marketing. BRIEN & STAFFORD, 1968 Processo gerencial de marketing e fluxo de informações SCHOENBACHLER & O'BRIEN & GORDON, 1995 Processo de avaliação de um SIM. SISODIA, 1992 SIM voltado para serviços AMARAVADI & SAMADDAR & DUTTA, 1995 Relaciona o SIM com oito fontes informacionais. LI & MCLEOD & ROGERS, 2001 Estrutura do SIM KIMBAL, 1996 Componentes básicos de um SIM. UHL, 1974 Modelo em forma de espiral com três subsistemas. MATTAR E SANTOS, 1999 Componentes dos SIM. MINCIOTTI, 1992 O SIM é composto por fluxos de informações. ROCHAS E COQUARD, 1972 Relação entre SIM e plano de marketing HALLOWAY E HANCOCK, 1973 Relação entre SIM e funções gerenciais. MAYROS E WERNER, 1982 Relação entre o SIM e o gerente de marketing. TALVINEN, 1995 Relação entre vários sistemas de informação voltados para processar informações de marketing. SEMENIK E BAMOSSY, 1995 Utiliza as pesquisas de mercado e dados internos como fontes básicas para a entrada do SIM. LITTLE, 1979 Componentes do SIM LAMBIN, 2000 Estrutura do SIM SANDHUSSEN, 1998 SIM e Gerente de Marketing MONTGOMERY E URBAN, 1969 O SIM como um elo entre o administrador e o ambiente. TULL & HAWKINS, 1993 A natureza do SIM Fonte: Adaptado de Chiusoli (2005) O destaque na Figura 2 para as fontes de dados externas compostas do subsistema de pesquisa de marketing e do subsistema de inteligência competitiva se dá pelo fato desta dissertação abordar os aspectos das fontes oriundas do ambiente 21 da Internet, neste caso, as fontes externas do SIM. Essas fontes podem ser subdivididas em Subsistema de Pesquisa de Marketing e Subsistema de Inteligência de Marketing. O primeiro consiste nos esforços de coleta e análise de dados por meio de estudos de levantamento de campo junto aos atuais clientes e potenciais consumidores com a finalidade de descobrir informações relevantes sobre uma situação específica de marketing da empresa. O Subsistema de Inteligência de Marketing ou Inteligência Competitiva tem o objetivo de transformar dados coletados do ambiente competitivo em elementos de inteligência estratégica para suporte da tomada de decisões (Grisi et al, 2001). Figura 2: Modelo de SIM proposto por Chiusoli (2005) Fontes de dados Subsistemas de entradas Processamento dos dados de entradas Decisões de marketing Subsistema base de dados internos Decisões de produto e serviço Ambiente Externo Subsistema de Inteligência de marketing Segmentação e Posicionamento Subsistema de pesquisa de marketing Sistema de apoio a decisões de marketing Planejamento e Estrutura Ambiente interno Tomador de decisão Decisões de canal Executivo de marketing Decisões de preço Decisões de comunicação Fonte: Adaptado de Chiusoli (2005) 2.2.1 Subsistema de Pesquisa de Marketing A maioria dos modelos de SIM apresentados no Quadro 2 aponta o elemento pesquisa de marketing com grande relevância. A pesquisa de marketing é uma das formas mais utilizadas de se obter informações para tomadas de decisões. Mattar 22 (2008) a considera como uma ferramenta importante na alimentação de dados e monitoramento do ambiente de marketing. O objetivo da pesquisa de marketing, segundo o autor, é descobrir fatos, atitudes e opiniões por meio de uma investigação sistemática, controlada e crítica dos dados. É possível também identificar e solucionar problemas e oportunidades de marketing, ligando o consumidor, cliente e o público com o homem de marketing por meio da informação (MALHOTRA, 2001). Geralmente as grandes empresas contam com um setor estruturado para a realização das pesquisas de marketing, enquanto outras podem contratar empresas terceirizadas para realizar esse serviço. A primeira etapa para a realização de uma pesquisa de marketing é definir o problema e os objetivos da pesquisa. Definir corretamente o problema significa entender e explicitar quais os problemas ou oportunidades de marketing que geram a necessidade de informação para tomada de decisão. Chiusoli (2001) julga essa etapa como a mais difícil, pois o gerente pode perceber algo errado sem saber o que exatamente está causando essa situação. A segunda etapa é o desenvolvimento do plano de pesquisa para a coleta das informações. Este plano deve conter as fontes de informação, o detalhamento das abordagens específicas da pesquisa e forma de contato. A coleta de dados necessários que o gerente de marketing precisa obter pode ser realizada por meio de dados primários, secundários ou de ambas as formas de coletas. De acordo com Mattar (2008), os dados primários têm a característica de não terem sido coletados antes e tem o objetivo de atender as necessidades específicas da pesquisa em andamento. Já os dados secundários, se caracterizam por terem sido coletados antes, tabulados, ordenados e muitas vezes até analisados e que estão catalogados à disposição dos interessados, como por exemplo, os dados oriundos de órgãos governamentais como o IBGE, SEBRAE, FIPE ou fontes de negócio como guias, anuários, Internet etc. (KOTLER; ARMSTRONG, 2003). Diferentemente da abordagem para coletar dados secundários que já existem, os dados primários exige um esforço maior, pois será necessário realizar uma série de procedimentos para coletá-los, como mostrado por Kotler e Armstrong (2003). Para levantar esse tipo de dado é preciso definir: a) abordagem da pesquisa (observação, levantamento, pesquisa experimental); b) métodos de contato (Correio, telefone, pessoal, Internet); c) plano de amostragem (unidade de amostragem, 23 tamanho da amostra e procedimentos de amostragem); e d) procedimentos de pesquisa (Questionário ou instrumentos mecânicos). Como visto, é possível coletar dados primários e secundários do ambiente da Internet. Kotler e Armstrong (2003) argumentam que o método de contato pela Internet tem como ponto forte a economia de tempo e dinheiro, pois proporciona uma rapidez na coleta dos dados e muitas vezes a custo zero. Como ponto fraco o autor cita a falta de controle sobre a amostra que é deficitária. Como pontos que precisam ainda ser levados em conta, a Internet proporciona uma boa flexibilidade na coleta dos dados, quantidade de dados que podem ser coletados e a taxa de resposta. Malhotra (2001) corrobora com algumas afirmações de Kloter e Armstrong (2003), mas discorda quanto à taxa de respostas. Ele afirma que a maior desvantagem de coletar dados primários na Internet por meio de pesquisa de marketing é a baixo índice de respostas aos questionários enviados aos indivíduos. Um dos motivos para esse baixo índice é a falta de interesse do indivíduo, que ao ser abordado por meio de e-mail para acessar um questionário online lhe falta estímulo para respondê-lo naquele momento, deixando pra depois até “cair no esquecimento”. Esse fator pode ser minimizado utilizando as redes sociais para aproximar o pesquisador do público-alvo escolhido. Segundo Ribeiro (2009), as estabilidades encontradas no desenvolvimento das pesquisas, associadas aos dados coletados por questionários, mostram que a utilização dos sites de redes sociais está intensamente relacionada com as práticas sociais cotidianas. Pesquisas de ótica psicossocial também atestam estas afirmações, ao observar como algumas dinâmicas de interação social observadas na comunicação face-a-face são reproduzidas e outras são reconfiguradas nos ambientes online. A terceira etapa para a pesquisa de marketing é a implementação do plano de pesquisa por meio da coleta e análise dos dados que pode ser feita pelo próprio departamento de marketing ou por empresas especializadas em pesquisa de marketing. Pelo fator tempo e custo, a utilização da Internet como ambiente para coleta de dados é mais adequada para as situações das pequenas e médias empresas. Nessas empresas, nem sempre é possível ter um setor para tratar exclusivamente de pesquisas de marketing devido a sua pouca alocação de recursos, estruturas e pessoal. Nesse caso, as atividades de operacionalização da coleta de dados são feita por equipes contratas temporariamente para tal finalidade 24 ou por funcionários que agregam multi-funções dentro da empresa (SARQUIS, 2003). A quarta e última etapa é de interpretação e apresentação dos resultados. Nela o gestor pode interpretar e apresentar os resultados da pesquisa à equipe como um todo e, principalmente, à direção da empresa, fornecendo as informações mais importantes. A partir de então, os dados poderão alimentar o Sistema de Informação de Marketing para futuras análises ou mesmo serem utilizadas como entradas quantitativas de procedimentos estatístico tais como: análise de regressão múltipla, análise discriminante, análise conjunta, análise de cluster, análise fatorial e escala multidimensional (MALHOTRA, 2001; HAIR et al, 2005). 2.2.2 Subsistema de Inteligência Competitiva Apesar de Chiusoli (2005) utilizar o termo “Subsistema de Inteligência de marketing” em seu modelo, optou-se por utilizar nessa dissertação a expressão “subsistema de Inteligência competitiva” por considerá-la mais adequada para a aplicação na coleta de dados na Internet. O surgimento do conceito de Inteligência Competitiva (IC) é datado na década de 80 e definido como uma integração entre as áreas de planejamento estratégico, marketing e informação, tendo como principal objetivo o constante monitoramento do ambiente externo, principalmente os movimentos do mercado com rapidez e precisão (BATTAGLIA, 1999). Segundo Telma (2011), a IC é um resultado do consórcio das ciências da Informação, tecnologia da informação e administração. Enquanto a ciência da informação se responsabiliza pelo gerenciamento da informação, a TI enfatiza as suas ferramentas de gerenciamento de redes e mineração de dados e, a administração é representada por suas áreas de estratégia, marketing e gestão. A SCIP (Society of Competitive Intelligence of Professionals) define Inteligência Competitiva como um sistema de coleta, análise e gerenciamento legal de informação externa que pode afetar planos, decisões e operações de uma empresa (SCIP, 2012). De acordo com Battaglia (1999), a informação e a velocidade de seu uso é a fundamentação da inteligência competitiva. Isso se justifica pelo fato da inteligência competitiva fazer uso de diversos tipos e fontes de informações em uma velocidade muito grande com o objetivo de monitorar desenvolvimentos e pesquisa de produtos, 25 processos, serviços e posições de mercado. A Internet é considerada aqui como ambiente de informação externa e como ferramenta no processo de inteligência competitiva, já que oferece a baixo custo facilidades e vantagens por possibilitar acesso rápido, global e interativo em tempo integral. Diferentemente da mídia tradicional, na Internet o consumidor tem a possibilidade de ter uma participação mais ativa na produção do conteúdo midiático sobre marcas ou produtos. Telma (2011) aborda essa questão em sua pesquisa, citando o trabalho sobre marketing digital de Kotler, Kartajaya e Setiawan (2010): Cada meio de comunicação tem sua característica, tais como os meios tradicionais TV, rádio e mídia impressa. Mas é na Internet que o consumidor tem a possibilidade de “gritar” para outras pessoas o que sente, pensa ou percebe sobre determinado assunto. É neste canal que a interação do consumidor com marcas ou produtos ocorre com maior proximidade frente aos demais, com troca de informações, contato individualizado, e respostas mais rápidas. (TELMA, 2011 apud KOTLER; KARTAJAYA; SETIAWAN, 2010, p. 26). O monitoramento do ambiente competitivo na Internet não só analisa dados objetivos como a publicidade planejada (compra de espaço e aparição pelos anunciantes), mas também coleta e analisa os dados subjetivos de publicidade espontânea, gerada a partir de comentários dos consumidores nos sites, blogs e redes sociais (SILVA, 2011). Neste segundo caso, o consumidor pode assumir um papel muito importante, podendo atuar de duas formas: quando ele tem uma boa experiência de compra e se identifica com a empresa passa a propagar a marca positivamente. Doutro modo, quando está insatisfeito com a marca passa a disseminar comentários negativos que antes poderiam ficar ocultos ou menos expressivos no cotidiano não virtual. Com o surgimento da Web 2.0, onde diversos aplicativos são criados para atender variadas demandas dos usuários, abrolharam também as redes sociais, mecanismos que unem o poder da Web 2.0 aliado ao poder da colaboração oriunda de todas as partes do planeta, oferecendo aos usuários a possibilidade de compartilhar conhecimento com qualquer outro usuário da rede (AFONSO, 2009). As empresas podem se utilizar dessa “febre” entre os internautas para extrair informações relevantes de consumidores e empresas, disseminando feitos das marcas e conceitos que queiram transmitir aos seus consumidores. Telma (2011) afirma também que as empresas devem ouvir o que seus consumidores estão falando nas redes sociais. Neste caso, o monitoramento das redes sociais é crucial 26 para entender a repercussão de uma marca ou produto e entender o padrão de comportamento de determinado grupo de consumidores. Boa parte dos estudos acerca de inteligência competitiva focaliza em empresas de grande porte pelo fato delas terem desenvolvidos sistemas sofisticados nessa esfera. Por isso, pouco se conhece a respeito de como executivos e profissionais de pequenas empresas lidam com essa questão. Silva (2003) acredita que a proposta de considerar a Internet como ambiente de fontes de informação pode ser um processo alcançável por qualquer organização e aplicável principalmente às empresas de pequeno e médio porte, tenham elas fins lucrativos ou sociais. O processo de Inteligência Competitiva compreende três etapas de acordo com Afonso (2009). A primeira etapa é a de planejamento e organização, no qual são feitas as estruturas organizacionais para a realização da inteligência competitiva com estabilidade ao longo do tempo. Wives (2002) ressalta que esta primeira etapa pode ser dispensada caso a empresa já saiba qual a necessidade da informação. A segunda etapa é a de busca de informações que trata da exploração de informações a cerca do ambiente externo. As atividades englobam primeiramente a identificação de todas as fontes potenciais de informação e, em seguida é realizada a pesquisa e coleta os dados certos de forma legal e ética a partir de todas as fontes disponíveis e posteriormente são listadas em ordem (BOSE, 2008). A última etapa do processo de inteligência competitiva é a de interpretação dos resultados que tem o objetivo de traduzir as informações coletadas do ambiente externo para as necessidades estratégicas da empresa. As principais características das fases dos processos de Inteligência Competitiva apresentados por Miller (2001) são: identificação das necessidades dos responsáveis pelas tomadas de decisões da empresa, obtenção de informações relevantes a partir de fontes de informações, tais como: balanços patrimoniais, publicações internas, relatórios gerenciais, jornais, revistas, rumores, Internet ou fornecedores. Por fim, na identificação e análise de padrões significativos com base nas informações coletadas gerando subsídios para tomadas de decisões. 27 2.3 INFORMAÇÃO NO PROCESSO DE TOMADA DE DECISÃO Após a apresentação dos conceitos sobre os sistemas de informação de marketing e definir as características dos dois subsistemas de informações oriundas do ambiente externo – Pesquisa de Marketing e Inteligência Competitiva – vale ressaltar o que os autores consideram como informação importante para tomada de decisão estratégica. Tendo ciência disso, é possível reconhecer se o resultado da saída do SIM está de acordo com as necessidades dos gestores nas tomadas de decisões nas empresas. De acordo com Laudon e Laudon (2007), para utilizar o SIM de maneira adequada, a empresa precisa, a curto e longo prazo, ter a noção clara de quais dados são necessários coletar para sua operação. Wierenga e Bruggen (2000) colaboram afirmando que um SIM eficiente deve ser aquele que coleta e armazena dados que contribuem de fato para a tomada de decisão de marketing da empresa. Segundo Grisi et al. (2001), para uma tomada de decisão mais assertiva, os executivos necessitam de informações sobre o ambiente de marketing, tais como, informações sobre o consumidor, dos concorrentes e das forças macro ambientais que possam interagir com as empresas e seus produtos, cujo papel era atribuído à pesquisa de mercado, registros internos à empresa e fontes de inteligência de marketing. Para Mattar (2008), as principais informações que um gerente de marketing necessita precisa incluir elementos sobre os consumidores (desejos, necessidades, motivações e hábitos), ações e atividades da concorrência, evolução do mercado, evolução das vendas e lucros da empresa, recursos disponíveis da empresa e comportamento das variáveis ambientais (legislações, economia, grupos de interesse, etc.). Percebe-se entre os autores uma unanimidade em subdividir as informações em fontes internas e externas à empresa, ou seja, tanto os dados de entrada do SIM como as informações resultantes do processamento desses têm sua origem e destino o ambiente interno e externo. Para Chiusoli (2005), é necessário conhecer a importância de determinado tipo informação para selecionar a melhor estratégia para coletá-la, no entanto o autor relaciona três problemas comumente encontrados nas empresas a esse respeito. No primeiro é apresentado que muitas vezes a empresa dispõe de grande quantidade de informações, no entanto, ela é de baixa qualidade, o que compromete todo o processo de tomada de decisão. O segundo problema é que mesmo 28 dispondo de muitas informações de boa qualidade, o gestor não percebe a importância de seu uso e toma decisões baseadas apenas em sua intuição ou experiência própria. E por último, mesmo que o gestor veja a necessidade de utilizar a boa informação armazenada, utiliza de forma incorreta, seja por incapacidade de coletar os dados certos ou mesmo interpretá-los erroneamente. O autor conclui argumentando que os gestores se queixam que as informações estão muitas vezes dispersas ou em documentos sem clareza analítica. O´Brien (2004) ressalta a importância da qualidade da informação no processo de tomada de decisão. Ele alerta aos gestores que informações antiquadas, inexatas ou difíceis de entender não seriam muito úteis ou valiosas, pois as pessoas desejam informações de alta qualidade, ou seja, produtos de informação cujas características, atributos ou qualidade ajudam a torná-los valiosos para elas. A seguir o autor sugere alguns atributos que as informações de qualidade devem ter, subdivididas em três dimensões, como mostrado no Quadro 3. Quadro 3: Atributos da qualidade da informação propostos por O´Brien (2004) Dimensão Tempo Conteúdo Forma Atributo Informação Prontidão Deve ser fornecida quando for necessária. Aceitação Deve estar atualizada quando for fornecida. Frequência Deve ser fornecida tantas vezes quantas forem necessárias. Período Pode ser fornecida sobre períodos passados, presentes e futuros. Precisão Deve estar isentas de erros. Relevância Deve estar relacionada com as necessidades de informação de um receptor específico para uma situação específica. Integridade Toda informação que for necessária deve ser fornecida Concisão Apenas a informação que for necessária deve ser fornecida. Amplitude Pode ter um alcance amplo ou estreito, ou um foco interno ou externo. Desempenho Pode revelar desempenho pela mensuração das atividades concluídas, do progresso realizado ou dos recursos acumulados. Clareza Deve ser fornecida de uma forma que seja fácil de compreender. Detalhe Pode ser fornecida em forma detalhada ou resumida Ordem Pode ser organizada em uma sequência predeterminada Apresentação Pode ser apresentada em forma narrativa, numérica, gráfica ou outras. Mídia Pode ser fornecida em midias documentais de papel impresso, monitores, vídeos e outros. Fonte: O’Brien (2004) 29 Diante da necessidade de informação adequada, o marketing desponta como a área funcional da empresa que mais se integra com as demais do ambiente interno, como também se relaciona com as variáveis ambientais externas (CHUISOLI, 2005). Percebe-se assim que muitas organizações entendem que a forma mais adequada de prover informações de marketing para os tomadores de decisão é a partir da estruturação de um sistema de informação de marketing (SIM), mesmo que a prática, muitas vezes, não condiz com a teoria. 2.3.1 Fontes dos dados e informações Como já foram mostrados, os autores de marketing concordam que os dados e informações mais comuns do SIM se originam dos ambientes internos e externos à organização (MATTAR, 2008; GRISI et al, 2001; WIERENGA E BRUGGEN, 2000, CHIUSOLI, 2005). Em sua maioria defendem como fontes internas as áreas que fazem parte da organização, enquanto as externas são as demais fontes. (CRESCITELLI, OLIVEIRA e BARRETO, 2007). A origem das informações do ambiente interno é apresentada por Wierenga (2000) como sendo os departamentos de Marketing, Contabilidade, Vendas e Operações. Para Kotler (2000), os departamentos responsáveis pelas informações internas são o da contabilidade, marketing e atendimento ao cliente. Para o autor, a maior vantagem das fontes internas é a rapidez e o baixo custo no acesso à informação, no entanto, ela pode está desatualizada ou serem inadequadas aos objetivos pretendidos. Para Crescitelli, Oliveira e Barreto (2007), as principais fontes externas são a Internet, feiras do setor, concorrentes, funcionários dos concorrentes ou até mesmo o lixo dos concorrentes. As fontes de informação podem ser classificadas, segundo Dou (1995 apud Periotto, 2010), em quatro tipos: • Formal – composta de informações estruturadas, essas fontes são encontradas geralmente em bancos de dados internos e utilizadas em sistemas inteligentes para processar informações. Periotto (2010) exemplifica que as fontes de informação formais podem ser: anais de congressos, artigos, base de dados, catálogos e manuais, clipping, 30 institutos de pesquisa, jornais, legislação, livros especializados, normas técnicas, patentes, relatórios técnicos, revistas especializadas e teses e dissertações. • Informal – geralmente textos ou conversas informais obtidas de clientes, fornecedores e concorrentes. Por se tratar de dados não estruturados é necessário realizar um tratamento adequado para serem utilizadas. Como, por exemplo, Periotto (2010) cita: blogs, congressos e seminários, clientes, empresas, especialistas, fornecedores, e-mail, funcionários, exposições e feiras, fóruns e discussão, Internet, prestadores de serviços e redes pessoais. • Especializada – trata-se de informações personalizadas e úteis para a empresa oriundas das pessoas internas à organização. Os dados obtidos precisam ser analisados e processados para serem utilizados; • Externa - referente a informações oriundas de eventos externos à organizações, como por exemplo feiras, congressos e conferências. Os dados precisam ser explicitados e analisados. Quanto aos tipos de informações, Valentim (2006) classifica em nove tipologias informacionais que atendem de forma específica as necessidades das empresas para tomadas de decisões ou para operações cotidianas. São elas: • Informação Estratégica: São utilizadas para auxiliar na alta administração da empresa para formulação de estratégicas de médio e longo prazo. Miranda (1999) reforça que esse tipo de informação é aquela obtida do monitoramento do ambiente empresarial, a qual subsidia a formulação de estratégias pelos tomadores de decisão nos níveis gerenciais da organização. • Informação de Negócio: Utilizadas para observar oportunidades e ameaças no ambiente do negócio corporativo e também para os níveis gerenciais da empresa definir ações de curto prazo. • Informação Financeira: Auxilia os profissionais da área financeira nas atividades de custo, lucro, riscos e controle. • Informação comercial: auxilia os profissionais da área do comércio nos processos relacionais à importação ou exportação de materiais, produtos ou serviços. 31 • Informação Estatística: apresentam dados estatísticos que ajudam a identificar padrões por meios estudos comparativos e séries históricas com percentuais e números relacionados aos negócios da empresa. • Informação sobre gestão: voltada aos gerentes e executivos no planejamento e gestão dos projetos, gestão de pessoas etc. • Informação tecnológica: auxiliam os profissionais de P&D fornecendo dados de inovação tecnológica no desenvolvimento de novos produtos, materiais e processos por meio do monitoramento da concorrência e do mercado tecnológico. • Informação Geral: são informações que não foram classificadas nas outras tipologias e que ajudam nas tomadas de decisões em todo o âmbito organizacional. • Informação ‘Cinzenta’: Caracterizada pelo grau de dificuldade de obtê-la, são informações não convencionais e desestruturadas. Por não ter um formato bem definindo, esse tipo de informação geralmente é obtido informalmente por meio de redes de relacionamentos. No contexto desta pesquisa, ao retratar a importância de informações para tomadas de decisões estratégicas, principalmente no uso de coleta de dados automatizados da Internet, será necessário se aprofundar nas informações do tipo estratégicas, defendida por Miranda (1999) como cruciais para o amadurecimento da organização a longo prazo. O autor destaca treze (13) tipos de informações estratégicas que as empresas precisam estar atentas para utilizá-las em suas tomadas de decisões. O Quadro 4 relaciona os tipos de informação estratégica apresentada por Miranda (1999). 32 Quadro 4: Tipos de informações estratégicas para as empresas Tipo de Informação estratégica Descrição Cliente Informações sobre tendências de comportamentos de consumo, às demandas não atendidas, ao nível de qualidade requerida, ao perfil, ao potencial de crescimento, à resistência a inovações, a nichos mercadológicos etc.; Concorrente Informações sobre tendências quanto ao perfil dos concorrentes, à imagem no mercado, a preços praticados e prazos concedidos, a faturamento, à lucratividade, ao endividamento a curto, médio e longo prazos, à estrutura gerencial, ao perfil dos executivos, à qualidade dos produtos/serviços ofertados etc.; Cultural Informações sobre tendências quanto ao acesso da população à educação (grau de alfabetização, níveis de escolaridade), ao acesso da população aos meios de comunicação (TV, rádio, periódicos, Internet) e sua influência, a hábitos culturais etc. Demográfica Informações sobre tendências quanto à densidade e à mobilidade populacional, à distribuição da população, a índices de natalidade e de mortalidade, à expectativa de vida da população etc. Ecológica Informações sobre tendências de conservação ambiental (áreas verdes, matas, recursos hídricos etc.), ações de ecologistas, índices (e tendências de evolução) de poluição (sonora, atmosférica, hídrica e nuclear) etc. Econômica/ financeira Informações sobre tendências quanto à conjuntura econômica nacional e mundial, à atuação de blocos econômicos e segmentos de mercado, à balança comercial e de pagamentos, a taxas de juros, a tarifas de prestação de serviços, aos planos econômicos, aos incentivos fiscais, creditícios e tributários etc. Fornecedor Informações sobre o perfil, atitudes, localização, opções de fontes de fornecimento, condições de transporte, preços, prazos de pagamento, descontos, entrega, tendências quanto à formação de parcerias etc.; Governamental/ política Informações sobre tendências quanto a diretrizes do Poder Executivo, a regulamentações e desregulamentações, a campanhas e programas de integração nacional e de ação social, habitacional, salarial e de privatizações, às relações internacionais, a planos de governo etc. Legal Informações sobre tendências quanto a ações dos Poderes Legislativo e Judiciário no que se refere à legislação tributária, fiscal, trabalhista, sindical, de uso de recursos, comercial, de propriedade autoral e tecnológica (marcas e patentes) etc.; Sindical Informações sobre capacidade de mobilização, poder de arregimentação, atuação em acordos trabalhistas, integração com outros sindicatos ou outras entidades (por exemplo, partidos políticos), representação parlamentar, tendências ideológicas etc.; Social Informações sobre tendências quanto à distribuição dos segmentos socioeconômicos, às diferenças entre as classes (sistema de valores, nível cultural, poder aquisitivo, estrutura política e ideológica, influência na sociedade), à atuação de organizações não governamentais (ONGs), associações de bairro e entidades religiosas etc.; Tecnológica Informações sobre pesquisas realizadas e em andamento, tendências quanto à política de pesquisa e desenvolvimento nacional e internacional (investimentos, entidades patrocinadoras etc.), aos impactos de mudanças tecnológicas, às possibilidades de transferência de tecnologia, a acesso a fontes produtoras de tecnologia etc. Fonte: Adaptado de Miranda (1999 p. 289) 33 Quanto ao formato de apresentação da informação estratégica, Freitas, Lesca e Cunha Jr. (1996) revela que precisa ser apresentada de forma resumida por meio de quadros, tabelas e gráficos. Pelo fato da necessidade de tomar decisões a nível global da empresa, o gerente estratégico precisa do entendimento do contexto em que a organização está inserida, principalmente as informações de origem do ambiente. Conhecer o tipo de fonte de informação estratégica adequada à empresa é importante, mas não é suficiente para realizar um planejamento subsidiado por informações importantes. Após as etapas de identificar as necessidades, coletar e tratar as informações, é necessário realizar uma das etapas mais críticas no processo que é a análise da informação, que tem o objetivo de criar a inteligência para a tomada de decisão (PERIOTTO, 2010). Para realizar a análise das informações os gestores têm o auxilio de métodos que favorecem a utilização de informações analisadas tais como: benchmarking, cenários, fatores críticos de sucesso, forças de Porter, análise SWOT, análise de patentes, bibliometria, método Delphi, além de ferramentas estatísticas como as análises de correlação e variância. Barbosa (2002) apresenta um estudo sobre o processo de monitoramento do ambiente organizacional externo sob a ótica de 91 empresários. Dentre os pontos pesquisados foram os tipos de informação que os gestores utilizam para gerar uma vantagem competitiva. Os resultados mostraram que as fontes de informação eletrônicas são as mais utilizadas em decorrência do aumento do grau de informatização das empresas, contudo nem sempre são mais confiáveis ou relevantes. Em contrapartida, as fontes pessoais são menos utilizadas, entretanto são mais confiáveis. O mesmo autor, em 2006 realizou uma comparação entre os profissionais de empresas de pequeno porte e as de grande porte. Foram avaliadas as fontes de informação a respeito do ambiente organizacional. O autor revela que os dados apresentados sugerem certa pobreza de dados informacionais das empresas de pequeno porte em relação às grandes empresas, ou seja, os profissionais de empresas de grande porte tem um maior acesso aos dados informacionais que os de pequeno porte. Além disso, o nível de confiabilidade dos dados adquiridos é menor em pequenas empresas (BARBOSA, 2006). 34 Em sua pesquisa, Krakauer (2011) procurou identificar como os empresários brasileiros e americanos de pequenas e médias empresas utilizam as informações do ambiente durante o processo de tomada de decisão estratégica. Foi detectado que os empresários americanos trabalham com uma abordagem mais racional, usando a informação formal do ambiente no processo do negócio. Já o brasileiro procura utilizar mais a experiência, a intuição e o compartilhamento com a família sobre suas decisões empresariais. Esse utiliza as fontes de informação informal e com pouco auxílio de recursos tecnológicos. Leone (1999) retrata que as empresas de pequeno e médio porte têm muitas especificidades que as diferenciam das grandes corporações. A autora categoriza as diferenças em três construtos: organizacionais, decisionais e individuais dos gestores. Sobre as especificidades organizacionais essas empresas apresentam pobreza de recursos, gestão centralizada, situação extra organizacional incontrolável, fraca maturidade organizacional, estrutura simples e leve, ausência de planejamento formal, fraca especialização, estratégia intuitiva, pouca formalidade e sistema de informações simples. Sobre as especificidades decisionais as PMEs apresentam tomadas de decisão baseada na intuição, horizonte temporal de curto prazo, inexistência de dados quantitativos, alto grau de autonomia decisional, racionalidade econômica, política e familiar. E por último, quanto às características individuais das empresas elas apresentam onipotência do proprietário-dirigente, identidade entre pessoa física e pessoa jurídica, dependência por parte dos empregados, influência pessoal do proprietário-dirigente, simbiose entre patrimônio social e patrimônio pessoal, propriedade dos capitais e propensão a riscos calculados. Ricci (2011) retrata as especificidades das pequenas empresas sob a perspectiva de três dimensões ilustrada na Figura 3. Relacionados ao dirigente, as principais características são: centralizador, baixo nível de especialização, pouco conhecimento sobre ferramentas administrativas, exerce várias atividades e se responsabiliza pela formulação da estratégica. As características relacionadas à organização, as pequenas empresas são empresas pouco sofisticadas, com estrutura simples, baixa complexidade nas estruturas organizacionais, dependem dos interesses e anseios do seu dirigente, poder de decisão centralizada no proprietário e pouca formalização. O ambiente organizacional caracteriza-se pela 35 falta de capital para investimento como tecnologia, impostos elevados, pouco acesso à informação, falta de controle sobre variáveis ambientais, apoio governamental escasso, carência de treinamento e falta de conhecimento sobre o ambiente interno e externo por parte do gestor. Figura 3: Dimensões das especificidades de gestão da pequena empresa Dirigente Gestão da Pequena Empresa Organização Contexto Fonte: Ricci (2011, p. 8) 2.3.2 Coleta de dados na internet Coletar dados primários e secundários com rapidez e custo baixo pode ser considerado um grande desafio na busca de uma informação relevante para uma tomada de decisão. Encontrar um ambiente que tenha capacidade de fornecer uma coleção de dados grande o suficiente para extrair informações a qualquer momento se torna necessário para tomar decisões que estejam mais alinhadas com os desejos dos consumidores (YAMASHITA, 2003). A Internet é considerada um veículo que fornece os mais diversos conteúdos com um fluxo contínuo de informações que podem ser coletadas a qualquer momento e muitas vezes de graça. Crescitelli, Oliveira e Barreto (2007) considera a Internet um fator de impacto para os Sistemas de Informação de Marketing, trazendo uma velocidade sem precedentes para o acesso aos dados que as empresas procuram tais como as opiniões de consumidores, empresas, concorrentes, indústria, governo dentre outros. Para os autores, o problema reside no reconhecimento da autoria desse conteúdo disponibilizado, tornando mais difícil a avaliação da sua confiabilidade, apesar dos inúmeros sistemas de segurança da informação atualmente existentes. 36 A Internet é um repositório de informações de hipermídia e banco de dados que é apresentada por Magalhães T. (2009) como uma fonte de matéria-prima amplamente distribuída e heterogênea. Com a democratização deste canal na última década, a informação disponibilizada na Web deixou de ser estritamente alimentada por empresas e indivíduos especializados em divulgação de conteúdo e passou a ser alimentada por usuários comuns, muitas vezes sem muito entendimento do linguajar técnico que outrora era utilizado pelos webmasters. Os usuários passaram então a se preocupar somente com o conteúdo das informações e não com o seu layout. Com a Web notam-se avanços na aproximação das pessoas, agregadas em comunidades com interesses comuns e vínculos de socialização da informação, não apenas para compartilhamento de conhecimento, mas também na execução de atividades efetivamente laborais (PEDOTT, 2001). A obtenção de informações na Web sobre consumidores e concorrentes pode trazer alguma vantagem competitiva para a empresa. Wives (2002) afirma que os empresários precisam estar sempre informados, diminuindo assim os riscos, antecipando as crises e obtendo informações antes de seus concorrentes. O autor afirma que é preciso monitorar sempre os elementos internos e externos à empresa, tais como, clientes, fornecedores, concorrentes, produtos, tecnologias e mercados. Apesar de haver um consenso da necessidade de integração de coleta de dados em fontes internas e externas, percebe-se que a maior parte da informação não está armazenada em banco de dados internos, mas em fontes externas às empresas. Percebe-se que dinamismo com que a informação é disponibilizada pelos usuários aumenta a quantidade de dados armazenados no repositório da Internet, no entanto, esses dados estão dispersos, ocultando uma quantidade ilimitada de informações que podem auxiliar no processo de tomada de decisão. Para que haja um real aproveitamento de toda a quantidade de dados é necessário transformá-lo em informação. Obter informações manualmente da Internet pode não ser uma tarefa simples, pois exige habilidade em pesquisar os termos corretos, no lugar e no momento certo. Pelo fato dos dados na Internet estarem espalhadas de forma não estruturada, coletar as opiniões que os usuários estão constantemente compartilhando na rede se faz necessário a utilização de algum mecanismo automatizado de coleta de dados. 37 3 MINERAÇÃO WEB A mineração Web ou Web mining é um ambiente de mineração de textos, que por sua vez é um processo de obtenção de conhecimento originados a partir de bases de dados textuais, ou seja, documentos que possuem pouca ou nenhuma estrutura de dados (ARANHA, 2007). Mineração Web é referenciada quando o foco é a coleta de informações no ambiente da Internet, no qual o objetivo é utilizar as técnicas de mineração de texto para extrair conhecimento útil do conteúdo disponibilizado em documentos não estruturados ou semiestruturados (LAU et al., 2004). Os autores argumentam que, embora a mineração Web possa extrair dados estruturados (mineração de dados ou data mining), a maior parte do conteúdo encontrado na Internet é composta por dados textuais, gerando assim a necessidade de explorar mais o processo de mineração de texto ao invés da mineração de dados. Scotto, Silliti e Vernazza (2004) definem mineração Web como um processo de descoberta e analise de informações úteis em documentos na Internet, envolvendo técnicas e aproximação baseadas na mineração de dados orientados ao descobrimento e extração automática de informações em documentos e serviços na Internet, considerando o comportamento e preferência do usuário. Em contrapartida, Lau et al (2004) definem mineração Web como um processo de recuperação e conversão de informação de texto (text mining) contido nas páginas em uma base de dados organizada contendo variáveis chave de interesse para melhor entender clientes. Para Fernandes (2007), as empresas tem utilizado a mineração Web não somente para analisar a estrutura de suas páginas, mas principalmente para detectar as características das pessoas que as visitam, de forma a descobrir interesses e poder oferecer produtos e serviços adequados aos desejos de seus clientes. Para Koblitz (2010), a mineração Web pode poupar que as empresas gastem tempo e dinheiro fazendo pesquisas sobre pontos de seus interesses, extrair opiniões de pessoas que influenciam outras através de redes sociais e fazer uma análise em tempo real do que as pessoas pensam. Guedes, Afonso e Magalhães (2010) compartilham esse mesmo pensamento, pois “o que os outros pensam” pode 38 ser uma importante fonte para a maioria dos tomadores de decisão quando filtradas e analisadas de forma adequada na Internet. 3.1 CATEGORIAS DA MINERAÇÃO WEB De acordo com Kosala e Blockeel (2000), a mineração Web pode ser dividida em três sub-áreas: Mineração de estrutura (Web Structure Mining), Mineração de uso (Web usage mining) e mineração de conteúdo (Web content mining), como observado na Figura 4. Figura 4: Categorias da Mineração Web Mineração Web (Web mining) Mineração de Estrutura Web (Web Structure Mining) Mineração de uso na Web (Web Usage Mining) Mineração de Conteúdo na Web (Web Content Mining) Fonte: Kosala e Blockeel (2000) De acordo com Liu (2007), a mineração de estrutura procura descobrir conhecimento útil de hiperlinks, que representa a estrutura dos sites. O autor exemplifica, mostrando que é possível encontrar importantes páginas na Web por meio dos links, que incidentemente, é a tecnologia fundamental para os motores de busca, como o Google e descobrir também comunidades virtuais, onde os usuários compartilham interesses comuns, como o Orkut e Facebook. Segundo Shi, Ma e He (2009), a mineração de estrutura Web procura descobrir o modelo subjacente das estruturas dos links da Web, pois é baseado na característica de hyperlinks, que pode ser usado para categorizar páginas Web e ser útil na geração de informações similares e relacionadas entre diferentes sites. Ainda de acordo com a autora, esse tipo de abordagem é interessante, pois a Internet tem mais informações armazenadas sobre a estrutura dos dados do que mesmo sobre seu conteúdo em si. Esta categoria, portanto, é o processo que tenta descobrir o modelo que está por 39 trás dessa estrutura de links, ou seja, o processo de inferir conhecimento através da topologia, organização e estrutura de links da Web entre referências de páginas. Essa categoria refere-se à descoberta de padrões de acesso de usuários na Web, que registra todo o clique feito por cada usuário (LIU, 2007). Para isso são utilizados arquivos de log, no qual são coleções de dados bem estruturados que registra cada passo do usuário nos sites e que ficam armazenados nos servidores de Internet (LAU et al, 2004). Para a autora, a descoberta de padrões de acesso é realizada através de análise de interação do usuário com páginas Web e está focada em técnicas que possam descrever e predizer o comportamento do usuário no momento de interação com o site. Um exemplo de utilização dessa técnica é a descoberta do perfil do usuário que pode ser útil na personalização da interface ou do conteúdo, de forma a ajudar o site a atingir seu objetivo. Também pode ser utilizado no marketing para saber quem frequenta determinado site e qual o comportamento e interesse deste. A mineração de conteúdo é uma categoria bastante utilizada na mineração Web, pois a maior parte do conteúdo da Web se encontra no formato com pouca ou sem estrutura, como documentos HTML, tabelas e etc. (LAU et al., 2004). Esta técnica procura descobrir informações úteis de conteúdo, dados e documentos da Web, através da busca automática de informações. Para Cooley (2000), a mineração de conteúdo na Web pode ser descrita como sendo a busca automática de recursos e recuperação das informações disponíveis na Internet, como por exemplo, as ferramentas de busca como a Google, Yahoo, Bing entre outros. Para Liu (2007), a mineração de conteúdo permite encontrar mais facilmente o conteúdo localizado nas páginas, podendo realizar um processo de coleta, mineração e integração de dados úteis, informações e conhecimento de conteúdo nas páginas Web. 3.2 ETAPAS DA MINERAÇÃO DE CONTEÚDO NA WEB Os autores sobre a mineração Web ainda não são consensuais em definir as etapas desse procedimento. Os modelos propostos são baseados nas etapas da mineração de texto tradicional, ficando na responsabilidade do analista da informação aplicar as tarefas necessárias para cada mineração. A mineração de conteúdo na Web é composta de três etapas: pré-processamento, processamento e 40 pós-processamento (PINHEIRO, 2009). O autor alerta que não necessariamente é obrigado seguir todas as etapas, pois o processo de mineração de texto é feito e refeito de forma cíclica e pode ser utilizado de acordo com o que se deseja alcançar como objetivo da mineração. 3.2.1 Etapa de Pré-processamento Essa etapa corresponde à preparação dos dados para serem processados com as técnicas de mineração de texto. Para isso, será necessário realizar a coleta e limpeza dos dados. 3.2.1.1 Coleta da informação A busca por opinião funciona como os algoritmos de Recuperação de Informação (RI) na Web, no qual se deseja encontrar uma opinião sobre um determinado objeto, por exemplo, um notebook, uma empresa, um evento, etc. Dessa forma, a recuperação sobre esse assunto seria, por exemplo, opiniões sobre a marca, as características e a relação custo/benefício sobre este objeto (PINHEIRO, 2009). Segundo Manning, Raghavan e Schütze (2009), o objetivo da etapa de RI é encontrar documentos de natureza não estruturada que satisfaz uma necessidade de informação armazenada em computadores. Magalhães L. (2009) apresenta que o objetivo da RI é recuperação documentos usando um critério booleano simples que busca pela presença ou ausência de determinadas palavraschave ou termos nos documentos, não se preocupando com o formato como as opiniões estão dispostas. Palavras-chave podem ser combinadas de disjunções (OU) e conjunções (E), proporcionando, assim, mais expressividade nas consultas. O resultado da consulta pelas palavras-chave é um volume grande e estruturado de textos, chamado de corpus1. Segundo Koblitz (2010), o corpus pode ser utilizado para posterior análise estatística, verificação de ocorrências e validação de regras linguísticas considerando o universo específico. 1 O plural de corpus é denominado corpora. 41 3.2.1.2 Conversão de arquivos O corpus normalmente pode ser exportado para um arquivo em formato texto (HTML, DOC, PDF) ou mesmo pode ser transferido em forma de planilha eletrônica (XML, CSV). No entanto, de acordo com Ticom (2007), os dados coletados originalmente são convertidos para o formato XML (eXtensible Markup Language) que tem uma estrutura bastante adequada para tratar dados não estruturados como texto para facilitar a sua manipulação. 3.2.1.3 Tokenização A tarefa de tokenização (tokenize) é transformar grandes textos em mínimas unidades possíveis, chamada de tokens. Segundo Miranda (2009), esse processo é importante por que um texto, para ter sentido para o leitor, precisa possuir um fluxo ordenado de palavras que seguem as normas linguísticas de um idioma, entretanto, o computador não as entende assim. Para conseguir extrair características do texto, a máquina precisa manipular pequenos fragmentos de texto. O autor afirmar que na maioria das vezes, o token corresponde a uma palavra do texto, podendo também estar relacionado a mais de uma palavra, símbolo ou caractere de pontuação. O que diferencia um token do outro são os espaços entre eles e frequentemente os algoritmos que executam a divisão do texto em tokens utilizam o espaço como delimitador. Esse procedimento requer cuidado na execução da tarefa, pois na língua portuguesa existem palavras compostas que ao serem separadas possam a ter significados diferentes. As tarefas realizadas na tokenização são as seguintes, de acordo com Ticom (2007): o Case Folding (Transformação de letras): É um procedimento que padroniza todas as palavras do texto em maiúscula ou minúscula. Palavras idênticas diferenciadas pelo formato da letra pode confundir a máquina na separação dos tokens. Transformando as palavras em um só formato possibilita maior rapidez no processo de comparação de caracteres (ver exemplo na Figura 5). Essa tarefa é muito importante para a etapa de tratamento estatístico, no qual palavras com o mesmo nome, diferenciando-se somente pela presença ou ausência de palavras maiúscula, pode causar erro na interpretação do resultado. 42 Figura 5: Exemplo de aplicação de Case Folding Em geral, as reações dos consumidores às apelações VERDES das empresas ocorrem em detrimento do oferecimento de Vantagens desejadas de custos menores e desempenhos Melhores. em geral, as reações dos consumidores às apelações verdes das empresas ocorrem em detrimento do oferecimento de vantagens desejadas de custos menores e desempenhos melhores. Fonte: Autoria própria o Stopword/Stoplist (Retirada de palavras desnecessárias): As stopwords são palavras de maior aparição no texto e, normalmente, correspondem aos artigos, preposições, pontuação, conjunções, pronomes e numerais de um idioma. A identificação e remoção desta classe de palavras reduzem de forma considerável o tamanho final do texto léxico, tendo como consequência benéfica o aumento de desempenho do sistema como um todo (MAGALHÃES L., 2008). No entanto, com a remoção de certos termos gramaticais causa uma perda no sentido semântico do texto. Se a análise feita no texto for uma análise qualitativa esta técnica não será útil, caso o objetivo é realizar uma análise quantitativa (estatística) esta técnica poderá ser aplicada. O conjunto de stopwords é denominado stoplist. Pinheiro (2009) apresenta em sua pesquisa uma stoplist voltada para a língua portuguesa, que incluir expressões regulares para remoção de email, datas, tempo, números, valores financeiros e caracteres especiais. A Figura 6 mostra um exemplo da aplicação da remoção de uma stoplist em um texto. Figura 6: Exemplo da aplicação de stoplist Em geral, as reações dos consumidores às apelações verdes das empresas ocorrem em detrimento do oferecimento de vantagens desejadas de custos menores e desempenhos melhores. geral reações consumidores apelações verdes empresas ocorrem detrimento oferecimento vantagens desejadas custos menores desempenhos melhores Fonte: Autoria própria o Stemming (redução ao menor radical de cada palavra): Essa tarefa é responsável por reduzir as diversas formas de um termo a uma forma 43 comum (raiz) denominada stem (MORGADO JÚNIOR, 2008). Um stem é um grupo natural de termos que compartilham interpretações semânticas iguais ou similares (ver Figura 7). Além da eliminação dos prefixos e sufixos, características de gênero, número e grau das palavras são eliminadas. Isso significa que várias palavras acabam sendo reduzidas para um único termo, o que pode reduzir o tamanho de um índice em até 50%, segundo Miranda (2009). Da mesma forma da tarefa de remoção de stopword, com a aplicação do stemming, o texto perde seu sentido semântico, entretanto, reduz-se bastante a quantidade dos tokens, sendo possível realizar uma análise estatística com menos dados redundantes. Figura 7: Exemplo de aplicação de Stemming RECICLAGEM RECICLANDO RECICLADO RECICLAR RECICLO RECICLA Seis termos RECICL Um termo Fonte: Autoria própria o Dicionário de dados (Thesaurus): É uma alternativa para melhorar os resultados da aplicação, diminuindo também a quantidade de tokens gerados. Esta tarefa utiliza-se de um dicionário de sinônimos que correlaciona palavras diferentes e comuns a uma única palavra em todo o texto. O objetivo, de acordo com Morgado Júnior (2008) é montar uma relação de várias palavras para uma única palavra que possa substituí-la sem alterar o contexto. Um exemplo seria a palavra “planta”, “árvore”, “vegetal” poderiam ser padronizada em uma única palavra. o N-grama (n-gram): É um método alternativo utilizado principalmente para detectar erros ortográficos (MIRANDA, 2009). A ideia consiste em identificar as sub-cadeias de tamanho n dos tokens encontrados no texto. Por exemplo, a partir da palavra “poluir” e considerando n = 5, obtêm-se as seguintes 5-grams: “_polu”, “polui”, “oluir” e “luir_”, onde “_” é usado para indicar o início ou fim da palavra. Os erros ortográficos mais comuns só afetam poucos constituintes de n-grama, então, é possível buscar pela 44 palavra correta através daqueles que compartilham a maior parte dos ngramas com a palavra errada. O objetivo é manter uma lista de n-gramas que apontam para as palavras que o contém. Quando a palavra é procurada, os n-gramas são processados e procurados no índice. A palavra que apresentar o maior número de n-gramas associado será a de maior relevância, indicando um possível candidato para correção (ARANHA, 2006). 3.2.2 Etapa de Processamento (Tarefas da Mineração de texto) A etapa de processamento contém tarefas que permitem extrair conhecimento na forma de regras (por mecanismos de indução) e na forma de informação (por dedução). Magalhães L. (2009) argumenta que a mineração de conteúdo na Web utiliza as técnicas de mineração de texto, tais como a indexação, extração de informações, lexicometria, clustering e classificação. 3.2.2.1 Indexação O objetivo principal da indexação dos textos é facilitar a identificação de similaridade de significado entre suas palavras, considerando as variações morfológicas e problemas com sinônimos (TICOM, 2007). Indexar significa identificar as características de um documento e colocá-las em uma estrutura denominada índice. De acordo com Miranda (2009), o processo de indexação pode ser manual, no qual o analista fica encarregado de analisar o conteúdo de cada documento e identificar as palavras-chave que o caracterizem, e o segundo é o processo automático que passa por uma série de etapas de processamento para gerar um arquivo de índice. Segundo Miranda (2009), a primeira etapa da indexação automática procura identificar as palavras ou as fronteiras das palavras feitas frequentemente por um caractere em branco (espaço). A segunda elimina as palavras desnecessárias de um texto (stopwords), em seguida, a terceira executa um procedimento de redução dos termos ao seu menor radical, o stemming. A quarta é responsável pela detecção de termos compostos, isto é, termos com mais de uma palavra. E por fim, esses termos 45 em formado de tokens são armazenados em uma estrutura invertida que é associada aos documentos de origem, como visto na Figura 8. Figura 8: Processo de indexação automática Documentos Identificar palavras Remoção de Stopwords Stemming Apontadores Formação de Frases-termo Termos simples Termos compostos Arquivo de índice Fonte: Miranda (2009, p. 36) 3.2.2.2 Extração de informações Carenini, Ng e Zwart (2005) ressaltam que o processo de extração de informações pode ocorrer de duas maneiras: o primeiro é a transformação de fatos identificados no texto em campos estruturados dentro de uma base de dados e o segundo é a extração de texto que podem ser usados para sintetizar um documento, chamado de sumarização. No primeiro caso, apenas um subconjunto dos fatos importantes em um item pode ser identificado e extraído. Na sumarização, todos os principais conceitos no documento devem ser representados na forma de resumo. O processo de extração de informações consiste em transformar dados semiestruturados ou desestruturados (textos) em dados estruturados (pequenas variáveis com dados sobre o conteúdo do texto) para serem armazenados em banco de dados (SIQUEIRA, 2010). O processo de extração é semelhante com o processo de indexação, no entanto, a diferença se encontra no resultado obtido dos dois processos. Enquanto a indexação procura identificar palavras capazes de caracterizar o documento e coloca-las em um índice, a extração tem o objetivo de identificar dentro do texto tipos de informações importantes que possam ser armazenadas dentro de um banco de dados estruturado (WIVES, 2002). 46 O primeiro passo para a realização da extração é a definição de palavras que devem ser extraídas. A identificação dessas palavras é feita através de marcadores (tags) sintáticos ou semânticos que indicam a presença de uma informação importante e que deve ser extraída. Quanto à sumarização, Wives (2002) define como uma técnica que identifica as palavras e frases mais importantes de um documento ou conjunto de documentos com o objetivo de gerar um resumo ou sumário. Esse sumário proporciona uma visão geral do conjunto de documentos e destaca as partes mais importantes e interessantes. Desta forma o usuário pode identificar rapidamente o assunto abordado por um documento ou conjunto de documentos sem ter que lê-lo(s) na íntegra. Os dados extraídos podem resultar nos seguintes objetos: (1) sumarização: geração de um resumo; (2) centróide: lista de palavras que indica os temas ou centros de interesse em torno de uma mesma informação. Esse centróide é geralmente utilizado para representar o grupo. Essas palavras mais importantes dariam para o usuário uma visão geral do assunto tratado no documento ou conjunto de documentos. Esse formato de apresentação dos dados só ocorre após a aplicação da técnica de clustering. (3) Passagem: identificação de trechos relevantes. 3.2.2.3 Análise Lexicométrica A análise lexicométrica é uma técnica para tratamento estatístico de dados qualitativos sob a ótica quantitativa para a caracterização topológica e combinatória de elementos léxicos de um conjunto de dados textuais. Permite descobrir corelacionamentos e dados implícitos nos registros de um conjunto de documentos pelo estudo e desenvolvimento de um processo de extração. Dentre as técnicas de descoberta de conhecimento em bases textuais mais utilizadas no processo lexicométrico existe a identificação de palavras mais frequentes presentes no documento (WIVES, 2002). Esse tipo de análise serve para identificar o conteúdo tratado em um documento ou um corpus. A identificação de palavras mais relevantes de um texto é conseguida por meio da listagem das palavras ordenadas da mais 47 para a menos frequente. Assim, é possível identificar o assunto mais importante dentro do conteúdo textual. Para diferenciar as características mais relevantes de um texto utiliza-se a atribuição de pesos. Esta técnica possibilita que as aplicações de mineração de texto façam previsões utilizando vetores com uma quantidade grande de palavras ou características (MANNING; RAGHAVAN; SCHÜTZE, 2009). Os três pesos mais utilizados são: • Binário – Esta medida de peso é a mais simples. O termo t recebe o valor unitário true quando o mesmo é encontrado no documento d. De mesmo modo, t recebe false caso não seja encontrado em d. Esta representação é muito simples e deve ser utilizada dependendo do domínio. • TF (Term Frequency): Essa medida probabilística define o número de vezes que o termo t é encontrado no documento d. Os termos passam a não fornecer informação relevante para a diferenciação de documentos quando aparecem com frequência alta na maioria dos documentos. • TF-IDF (Term Frequency – Inverse Document Frequency): Esta medida probabilística atribui pesos que favorecem termos que ocorrem em poucos documentos de uma seleção. O objetivo é computar a frequência de um termo em um documento, levando em consideração sua importância. Este efeito de importância se consegue através do fator idf, cuja finalidade é a de inverter a escala de um termo na medida em que a sua presença nos documentos aumenta ou diminui. A aplicação prática desse método nas pesquisas de marketing e inteligência competitiva é a identificação de novos concorrentes que apareçam nas listagens, ou mesmo o aparecimento de centros de interesse, tópicos mais relevantes, pessoas, empresas, marcas mais comentadas (TELMA, 2011). É possível também obter uma análise de tendência, caso seja aplicado determinados períodos de tempos para verificar se determinada marca ou concorrente está sendo mais ou menos frequentes nas postagens. Nas redes sociais, essa técnica é utilizada para identificar as palavras mais frequentes em determinado período de tempo, tal como o Trending Topic do Twitter (CUNHA, 2006). 48 3.2.2.4 Clustering O clustering (agrupamento ou conglomeração) é um método de descoberta de conhecimento utilizado para classificar objetos ou casos em grupo relativamente homogêneos, facilitando assim a identificação de classes semelhantes entre si, mas diferentes de objetos em outras classes (MALHOTRA, 2001; WIVES, 2002). No caso de documentos, o clustering identifica os documentos de assuntos similares e os agrupam, gerando conjuntos de documentos semelhantes. Esse método é útil quando não se tem uma ideia dos assuntos (das classes) tratados em cada documento e deseja-se separá-los por assunto (WIVES, 2002). Malhotra (2001) ressalta a importância desse método na pesquisa de marketing, pois poderá ser utilizada para vários propósitos como a segmentação do mercado. O autor exemplifica: “Os consumidores podem ser agrupados com base nas vantagens que esperam da compra de um produto. Cada cluster consistiria em consumidores relativamente homogêneos quanto ás vantagens que procuram.” (MALHOTRA, 2001, p. 573) Geralmente utilizada antes de um processo de classificação ou categorização, o processo de clustering facilita a definição de classes, proporcionando ao analista os co-relacionamentos entre os elementos de um conjunto de documentos e a identificação de uma melhor distribuição de classes para os objetos selecionais. Ou seja, não é necessário ter conhecimento prévio sobre os assuntos dos documentos ou do contexto dos mesmos. Os assuntos e as classes dos documentos são descobertos automaticamente pelo processo de agrupamento (WIVES, 2002). O processo de agrupamento é precedido pela etapa de pré-processamento, tais como transformações das letras para o formato minúsculo (case folding), a retirada de termos desnecessários (stopwords) e a redução da palavra ao menor radical (stemming). Os agrupamentos em documentos de textos podem ser visualizados de duas formas de agrupamento: partição disjunta ou grupos hierárquicos (TICOM, 2007). No primeiro caso, um algoritmo de partição (k-means ou k-medoid) é aplicado à coleção de documentos e estes são colocados em grupos distintos, geralmente não havendo espécie alguma de relacionamento entre os grupos identificados. No segundo caso, o processo aplica recursivamente os algoritmos hierárquicos (single-link ou averagelink) para a identificação de cluster e acaba gerando uma espécie de árvore, no qual 49 as folhas compreendem os grupos mais específicos e os nós intermediários representam os grupos mais abrangentes. A Figura 9 mostra as representações gráficas resultantes dos dois processos de agrupamento. Figura 9: Tipos de agrupamentos Partição disjunta Partição hierárquica Fonte: Adaptado de Wives (2002) Wives (2002) aborda as vantagens e desvantagens dessas duas topologias. A topologia de partição disjunta não proporciona estruturas que indiquem corelacionamento entre grupos, não sendo possível identificar os assuntos mais específicos e os mais abrangentes. Na segunda topologia, esse problema é solucionado, pois oferece estruturas de navegação hierárquica entre os grupos, facilitando a localização da informação. A desvantagem desse formato é a necessidade de maior processamento dos dados e a complexidade da manutenção dos clusters. A análise de agrupamentos pode ter diversas aplicações em processamentos de textos. Primeiro, a recuperação da informação textual é facilitada porque o método desenvolvido consegue processar grande quantidade de documentos e agrupá-los em clusters de documentos semelhantes. Podem também ser aplicados no processo de descoberta de associações entre palavras, facilitando o desenvolvimento de dicionários e thesaurus, que podem ser utilizados em ferramentas de busca, expandindo consultas ou sistematizando a lista de palavraschave mais adequadas para coletar os dados. Outra aplicação é a utilização dos grupos identificados em alguns processos de identificação de características relevantes, capazes de identificar o padrão e, em diferentes períodos de tempo, as tendências dos grupos (CAVALCANTI, 2011). 50 3.2.2.5 Classificação ou categorização A área de aplicação denominada como classificação tem por objetivo identificar, por semelhança, cada novo documento como um dos tipos de categorias (classes) previamente definidas (MATSUNAGA, 2007). A classificação de documentos textuais, à priori, é uma técnica tipicamente realizada por humanos, que leem o documento e classificam em categorias temáticas pré-definidas. Na Internet, com o crescente número de documentos textuais sendo acrescentados e atualizados fica impraticável a técnica manual, necessitando de automatização desse processo. Ticom (2007) explica que a classificação de documentos pode ser dividida em linear e não linear. Os classificadores lineares são mais simples e tem um modelo de treinamento mais fácil de ser interpretado do que os modelos não lineares. Segundo Morgado Júnior (2008), as categorias podem ser escolhidas para corresponder aos tópicos ou temas dos documentos. Para o autor, alguns sistemas categorizadores retornam uma única categoria para documento, enquanto outros retornam múltiplas categorias. Nos dois casos, o resultado pode ser nenhuma categoria ou algumas categorias com baixa confiabilidade. Nestes casos, o documento é rotulado como categoria “desconhecida”, para posterior classificação manual. A Figura 10 retrata o processo de uma classificação automática de documentos proposta por Morgado Júnior (2008). Figura 10: Modelo de classificação de documentos Cat 2 Cat 1 ? Cat 3 Categorizador Treinamento Cat 1 Fonte: Adaptado de Morgado Júnior (2008) Cat 2 Cat 3 51 Verifica-se que existe uma etapa de treinamento, no qual a máquina detecta os padrões de cada categoria e posteriormente, ao apresentar um documento novo, o sistema categorizador o classificará em uma categoria pré-estabelecida. Os tipos de classificação mais utilizados na mineração de textos, de acordo com Ticom (2007); Matsunaga (2007); Morgado Júnior (2008) são: o Classificador bayesiano (Naive Bayes): É um método probabilístico, no qual se assume que todas as variáveis são independentes da variável de classificação. Esse classificador assume que as características são independentes para uma dada classe. Essa classificação é feita utilizando dados de treinamento para estimar a probabilidade de um documento pertencente a cada classe. São utilizados os termos do documento com seus respectivos pesos para realizar a classificação. Para cada termo do documento é calculada a probabilidade de o mesmo pertencer à categoria. É feita uma combinação das probabilidades levando em consideração o peso dos termos. Se o resultado for maior que determinado coeficiente, o documento é incluído na categoria. o Classificador SVM (Support Vector Machine): Esse classificador é o mais utilizado em mineração de texto e se mostra mais eficiente que o restante (MATSUNAGA, 2007). Essas técnicas utilizam uma função chamada kernel para mapear um espaço de pontos de dados, os quais não são linearmente separáveis em um novo espaço que é linearmente separável (CAVALCANTI, 2011). Os documentos são divididos em dois conjuntos definidos como base de treinamento e de teste. A base de treinamento é usada para o algoritmo de classificação obter as características das categorias da coleção. A base de teste valida o desempenho do classificador, determinando as categorias as quais os novos documentos pertencem. O SVM implementa a ideia de que seja construído um hiperplano com base no mapeamento dos vetores de entrada em um espaço de características com uma grande quantidade de dimensões. o K-NN (k vizinhos mais próximos): Dentre as técnicas de classificação, esta é a que apresenta efetividade competitiva às técnicas SVMs. O algoritmo k-NN calcula a similaridade entre documentos de teste e de 52 todos os documentos do conjunto de treinamento para decidir se um documento pertence a uma determinada categoria, por fim são selecionados os k documentos de treinamento mais similares ao documento de teste (os k vizinhos mais próximos). Esse método exige mais processamento computacional do que o modelo SVM, como também é mais sensível à presença de termos não relevantes (MATSUNAGA, 2007). o Árvore de decisão: é uma árvore em que os nós internos são rotulados pelos termos, os ramos que partem dos nós são definidos pelos testes, levando-se em consideração o peso que o termo tem no teste do documento e as folhas pelas categorias. A maioria dos classificadores utiliza a forma binária para representar os documentos gerando consequentemente uma árvore binária. o Redes neurais: É uma rede de unidades onde as unidades de entrada representam os termos, as unidades de saída significam as categorias de interesse e os pesos nas conexões representam as relações de dependências. O classificador SVM é uma subclasse de redes neurais. o Outros Modelos: Existem outros métodos para classificar um documento de acordo com suas características, porém menos utilizados devido à sua complexidade computacional, como também o desempenho ser muito similar a outros métodos mais conhecidos. São eles: regressão linear, regressão logística, método linear por ordenação (scoring), indução de regras e algoritmos online (TICOM, 2007). 3.2.3 Etapa de Pós-processamento Ticom (2007) apresenta que na mineração de texto sempre são usadas medidas matemáticas que podem servir para mensurar a aplicação dos métodos utilizados, tais como: classificação, clusterização, extração de características, entre outras. As medidas de avaliação de desempenho mais utilizadas são, segundo Pinheiro (2009) o índice de precisão (precision) que é a medida analisada no âmbito de cada classe. É a razão entre o número de documentos corretamente classificados e o número total de documentos associados à classe. Outra métrica utilizada é a cobertura (recall) definida pela razão entre o número de previsões corretas positivas sobre o número de documentos da classe positivos. Por fim, a Medida F (f-measure), 53 que pode ser definida em função da precisão da cobertura. A Figura 11 ilustra um gráfico explicativo sobre o cálculo de cobertura e precisão. Figura 11: Demonstração do cálculo de precisão e cobertura Cobertura Precisão Y Documentos da Classe C Z X documentos classificados Documentos da classe C e não classificados Y documentos classificados, não associados á classe C Documentos associados a classe c e selecionados Fonte: Adaptado de Ticom (2007) O Quadro 5 relaciona as técnicas apresentadas por Wives (2002), Ticom(2007) e Pinheiro (2009) na mineração de texto e que podem ser utilizadas para processamento de dados textuais coletados da Internet. Quadro 5: Técnicas e etapas da Mineração de texto ETAPAS FASES ATIVIDADES Coleta Pré-processamento Limpeza dos dados Recuperação Indexação Recuperação Vocabulário Classificação Processamento Mineração de texto Clustering Normalização Lexicometria Filtragem Disseminação Palavras Documentos Centróide Extração Sumarização Passagem Pós-processamento Avaliação dos resultados Índices de precisão Avaliação de desempenho Índices de cobertura Medida-f Fonte: Adaptado de Wives (2002); Ticom (2007 e Pinheiro (2009) 54 4 4.1 MINERAÇÃO WEB NAS REDES SOCIAIS REDES SOCIAIS Com o advento da Internet, uma miríade de ferramentas tecnológicas surgiram como novas formas de comunicação, relacionamento e organização das atividades humanas, dentre elas as redes sociais virtuais (AFONSO, 2009), também chamada de redes sociais digitais (HASGALL; SHOHAM, 2007) ou redes sociais online (SOUZA, 2010). Dentre as principais características observadas nessas ferramentas é o comportamento colaborativo de seus participantes, que ultimamente, tem se tornado foco de muitas discussões. Segundo Costa (2003), a chamada “cultura digital” tem se tornado um marco na cultura ocidental por meio das atividades colaborativas cuja a essência é a troca de informação, conhecimento e comunicação. Kaufman (2010) retrata a evolução da relação indivíduo versus internet ao longo do tempo, conforme pode ser visualizado na Figura 12, subdividindo em três grades fases: meio de comunicação e informação, comércio eletrônico e, por fim, o fenômeno da colaboração. Na primeira era, correspondente de 1994 a 1998, a Internet era palco de grandes empresas concentradoras de publicação de informações e de ferramentas de comunicação instantâneas, os famosos batepapos. De 1998 a 2005, surgiu o comércio eletrônico como uma alternativa para compras de produtosou serviços através do computador. E por último, a partir de 2006 surge o fenômeno da colaboração online, no qual os internautas compartilham a criação e o desenvolvimento de informações, ativos comerciais, culturais e sociais. O efeito do surgimento da era da colaboração gera uma grande quantidade de informação online compartilhada entre os indivíduos. Kalfman (2010) afirma que esse “estoque digital” é fundamental no processo de consulta e tomada de decisão, podendo estar vinculada a um consumo imediato de um bem ou serviço ou fazendo parte de um espaço público de colaboração, no qual os resultados não são imediatos e os benefícios são coletivos. 55 Figura 12: A evolução das ferramentas na Internet QUANTIDADE DE USUÁRIOS 1994 77 Mi 400 Mi 500 Mi 1 Bi 1,4 Bi 1998 2000 2003 2006 2008 ERA DA INFORMAÇÃO ERA DO COMÉRCIO E COMUNICAÇÃO ELETRÔNICO Fonte: AgenciaClick apud Kaufman, 2010 ERA DA COLABORAÇÃO A maior parte das ferramentas de uso colaborativo é formada pelas redes sociais digitais, onde cada indivíduo tem sua função e identidade cultural (TOMAEL; ALCARÁ; CHIARA, 2005). Simplificando o conceito, rede social digital é geralmente utilizada para descrever um grupo de pessoas que interagem primariamente através de qualquer mídia de comunicação (SOUZA, 2010). Tecnicamente falando, trata-se de uma representação grafológica no qual os “nós” são os atores (geralmente pessoas) e as arestas são os relacionamentos entre eles. Esses grafos, estudados pela área das ciências exatas, podem apresentar desde conexões esparsas (árvores genealógicas) até conexões muito densas, como as redes de contatos na Internet (BOYD e ELLISON, 2007). No campo da sociologia, as redes sociais podem ser definidas, segundo Marteleto (2001, p.72), como um “[...] conjunto de participantes autônomos, unindo ideias e recursos em torno de valores e interesses compartilhados”. O foco principal seriam os estudos das estruturas das redes e o caráter de identidade social e os padrões de relacionamentos dos indivíduos em si, de acordo com sua posição dentro do grupo a que pertence (BOYD e ELLISON, 56 2007). Portanto, uma rede social pode ser denominada como a forma representativa de grupos com mesmos interesses e objetivos, sejam eles de amizade, conhecimentos profissionais, culturais, religiosos ou afetivos que estão reunidos por causa própria ou visam algum tipo de alteração na realidade do coletivo (RECUERO, 2008). Os sites de redes sociais oferecem serviços na Web que permitem aos seus usuários (1) construir um perfil público ou semipúblico dentro de um sistema conectado, (2) articular uma lista de outros usuários com os quais eles compartilham uma conexão e (3) ver e mover-se pela sua lista de conexões e pela dos outros usuários (BOYD e ELLISON, 2007. p.211). Geralmente o que se encontra nas redes sociais são páginas de apresentação do perfil do usuário, lista de amigos ou membros do grupo, ferramentas de interação, tais como fórum, enquetes, comentários, vídeos, chats, hipertextos (textos ou imagens que levam a outras mensagens por meio de links) e outros. Recuero (2008) relata que o objetivo das pessoas entrarem nas redes sociais é ganhar popularidade através da formação de um grande número de amigos ou seguidores, no entanto, muitas vezes essas pessoas entre si não se conhecem, não tendo como mensurar a quantidade exata de verdadeiros relacionamentos entre os usuários. A autora ressalta que não é apenas a lista de perfis associados que caracteriza uma rede, mas a interação entre os indivíduos. Segundo Malini (2008), o sucesso das redes sociais se dá por meio de três forças: a democratização das ferramentas de produção de conteúdo com a popularização dos computadores, a redução do custo de distribuição através da internet e a ligação cada vez mais próxima entre oferta e procura amplamente utilizado pelas ferramentas de busca. Recuero (2009) observa que cada vez mais as empresas estão atentas ao cenário das redes sociais para obter vantagem competitiva e explorar suas potencialidades para divulgar suas marcas. Existem centenas de redes sociais espalhadas na Internet, reunindo pessoas em torno dos mais diversos interesses. Boyd e Ellison (2007) propuseram uma revisão histórica dos sites de redes sociais desde 1997, com o lançamento da primeira rede social, o SixDegrees, até 2006 com a chegada das mais recentes ideias nesse ramo. A Figura 13 ilustra essa evolução em forma de linha do tempo, acrescentando algumas atualizações até 2008 (contribuição própria). 57 Figura 13: Cronologia do ano de lançamento das rede social entre 1997 a 2008. 1997 1998 1999 2000 2001 2002 Fonte: Adaptado de Boyd e Ellison (2007) 2003 2004 2005 2006 2007 2008 58 Segundo Ibope (2011), as três maiores redes sociais ativas no Brasil é o Facebook, Orkut e Twitter. Em agosto de 2011, o Facebook atingiu a marca de 30,9 milhões de usuários únicos, ou 68,2% dos internautas no trabalho e em domicílios, equiparando-se ao Orkut, até então o maior site social no Brasil, que registrara alcance de 64%, ou 29 milhões de usuários, ou seja, mantendo-se em decadência em relação aos demais. O Twitter manteve tendência de crescimento no Brasil e marcou 14,2 milhões de usuários únicos, ou 31,3%. Com esses resultados, o Brasil se consolida como um mercado com elevada utilização de sites sociais digitais em relação aos outros países, com uso diversificado, refletindo o interesse dos brasileiros pela Internet. Apesar do Orkut ainda estar em segundo lugar em número de usuários no Brasil, a realidade mostra que os seus clientes estão cada vez mais migrando para outras plataformas, portanto esta rede social não será objeto alvo desta pesquisa, restando somente o Facebook e Twitter para análise. 4.1.1 Facebook O Facebook (www.facebook.com) atualmente é o site de relacionamento com maior número de usuários cadastrados. Seu fundador foi o ex-estudante de Havard, Mark Zuckerberg, em 2004, nos Estados Unidos. De início, a função deste sistema era restrita para universitários daquela faculdade, depois se expandiu para outras, até que atingiu o grupo secundarista, ganhou a adesão de empresas e hoje possui, segundo informa a própria página de estatística do site, cerca de 750 milhões de usuários no mundo e, no Brasil, 30 milhões (FACEBOOK, 2012). Cada usuário no Facebook possui uma página (ver Figura 14) onde pode publicar textos, imagens e vídeos. Seus recursos são: o mural que é um espaço para postar mensagens; News feed, que são postagens que não estão no mural, Mensagens privadas, enviadas pelos visitantes pela caixa de entrada - só visíveis para o dono da página; Classificados, local para anunciar imóveis, vagas de emprego entre outras coisas; Jogos, forma de interação com amigos por meio de animações de diversos significados como chamar atenção; Status, informações referentes ao usuário; Eventos, próximos encontros sociais; Aplicativos, software internos que executam tarefas específicas dentro do Facebook; Vídeos, que são 59 enviados do computador ou celular e comentários, para que os amigos deixem recados. Figura 14: Página principal do Facebook - Perfil do criador Mark Zuckerberg Fonte: www.facebook.com/zuck No site, os temas dos textos em geral falam sobre a vida pessoal e social dos indivíduos ou revelam a admiração do usuário por algum tema cultural, artístico ou musical. Seus amigos e seguidores podem interagir e complementar com opiniões sobre o que foi dito. Segundo COMBÈS e KOCERGIN (2009), no novo modelo editorial que se constrói o controle da qualidade da informação não é feito a priori por um sistema de seleção editorial certificado, mas por um controle a posteriori da seleção feita pelos leitores que passam ou não a diante o material produzido. 4.1.2 Twitter O Twitter foi criado em outubro de 2006 por Jack Dorsey e é uma das redes sociais que mais ganhou notabilidade nos últimos anos e poderia ser descrito como o SMS da internet ou um microblog. De acordo com Twitter (2011), em setembro de 2011 existiam 175 milhões de contas registradas no site, no entanto, somente 100 milhões a mantinham ativas, a outra parcela apenas criou uma conta e não utilizou com frequência. 60 O Twitter permite que seus usuários tenham uma página própria (ilustrada na Figura 15) onde possam escrever mensagens, conhecidas como tweets, sobre o que estão fazendo no momento, por isso o slogan, What are you doing right now? (O que você está fazendo agora?). Há dois tipos de grupos de amigos que podem estar conectados a um twitter: os seguidores (followers), a quem se está seguindo (following). Ao adicionar um amigo, o indivíduo vira um follower, enquanto o amigo entra para a sua rede na categoria following. Caso deseje, o usuário pode optar por receber todos os tweets que os amigos seguidos escrevem na própria página. As atualizações pessoas dos contatos podem ser lidas e enviadas por meio de SMS via celular, pela Web ou por aplicativos específicos instalados em alguns aparelhos móveis. Segundo RIOS e SPECK (2009), a plataforma supõe mais que um simples suporte tecnológico, mas um espaço onde ocorre a interação entre sujeitos, deixando de ser intermediário para tornar-se intermediador. Figura 15: Tela do Twitter Fonte: www.twitter.com/twitter Os tweets tem se tornado um mecanismo para divulgar eventos, fazer propaganda, espalhar notícias e mobilizar pessoas. Segundo Lemos (2002), a sociabilidade na rede valoriza as manifestações do cotidiano e, por isso mesmo, não pretende tanto ineditismo. Mas, o conteúdo do tweets não se restringe a notícias sobre o que um amigo está fazendo na sua privacidade. Existem perfis especializados em enviar notícias e informações sobre os mais diversos temas. Segundo AMORIM et al (2009, p. 18), 61 [...] muita gente que começa a usar o Twitter reclama da banalidade do conteúdo que circula. Isso não tem a ver com o serviço em si, mas com as pessoas que se está seguindo. Siga quem você admira e a qualidade das mensagens tende a aumentar. Uma das diferenças do Twitter em relação a outros sites de rede social é que, além de promover relacionamentos, o serviço também estimula a troca de informações entre seus participantes. O ato de repassar conteúdo é tão natural que os usuários adotaram um nome para isso: retuitar ou RT. A primeira motivação para se retuitar é retransmitir uma informação que você considera relevante para o seu grupo de seguidores. Com pouco esforço - na verdade, quase nada - você pode prestar um serviço importante para eles. Teixeira (2010) ressalta que a proposta do Twitter não é criar textos complexos, mas, o envio de breves manchetes sobre a vida pessoal ou notícias de um determinado assunto a quem interessar dentro da rede. Tendo em vista esse objetivo, muitas empresas possuem seus perfis oficiais a fim de fazer parte da rede de seus clientes e receber as reclamações e sugestões dos mesmos de maneira gratuita e rápida. Segundo a agência EFE (2009), para multinacionais como Starbucks, Dell e Amazon, o Twitter se tornou uma ferramenta fundamental em suas relações públicas e fonte de informação sobre as opiniões de seus clientes, cada vez mais engajados no serviço. Quando um líder com milhares de seguidores dispara uma informação sobre algum problema enfrentado com uma empresa este pode levantar a viralização da informação. 4.2 O COMPORTAMENTO DOS USUÁRIOS NAS REDES SOCIAIS Os sites de redes sociais (SRS) acabam gerando duas situações inéditas, que não acontecem no viver cotidiano dos usuários que a utilizam. A primeira é o aumento da tendência em publicar informações de comportamentos rotineiros nas redes sociais. Como por exemplo, no Facebook, a frase que a ferramenta utiliza pra estimular a postagem de novas mensagens é: “No que você está pensando?”, já no Twitter a frase é “O que está acontecendo?”. Esses sites demonstram traços comportamentais e ações que até então não se encontravam no viver fora da rede. A segunda situação é a possibilidade de quantificar e processar os seus dados através do ambiente online ou com recursos adicionais (RAMIREZ, 2009). Sobre a primeira situação explorada por Ramirez (2009) demonstra que o usuário é estimulado nos sistemas de redes sociais a realizar ações reflexivas sobre seus atos e comportamentos cotidianos, e principalmente, demonstrá-los publicamente. Herbert Blumer em seus trabalhos sobre o interacionismo simbólico 62 abordou que o homem é um ator social que pode interagir consigo mesmo, analisando suas ações e as dos outros continuamente, indicando a si mesmo como agir a partir da projeção da perspectiva dos seus pares (BLUMER, 2001). Baseado nos estudos do interacionismo simbólico, ele propõe uma compreensão dos processos sociais envolvendo o relacionamento de três entidades: sociedade, mente e self (base para compreender como o indivíduo se vê, e pressupõe o que os outros veem). Essas reações podem realçadas pelas facilidades técnicas que as ferramentas de redes sociais digitais propiciam, no qual o conteúdo exposto passa a ter dentre outras acentuações convergentes reflexividade (PAPACHARISSI, 2011). Outra característica comportamental dos usuários nas redes sociais é a construção da identidade e pode ser encontrada nas pesquisas de Simon (2004). Dentre os tipos de identidade na sociedade moderna, o autor revela que as pessoas possuem múltiplas identidades. Isso significa que um mesmo usuário poderá se comportar e realizar ações e reações diferentes de acordo com o tipo de relacionamento que ele tenha com os outros usuários nos sites de redes sociais. Além da multiplicidade, o comportamento identitário dos indivíduos englobam características de variabilidade, flexibilidade, fragmentação e até mesmo contradição. Ribeiro (2009) atribui a acentuação dessas características às potencialidades sociotécnicas que os ambientes digitais proporcionam. Apesar dessa possibilidade de exposição multivariada do comportamento dos indivíduos nos SRS, Kennedy (2006) afirma que as identidades online e off-line ficaram mais expostas com os diversos tipos de informações sendo publicadas pelo mesmo usuário em redes sociais diferentes, gerando uma maior reflexividade sobre os assuntos inconsistentes com a realidade. Ainda de acordo com a característica identitária dos indivíduos, o pesquisador e sociólogo Erving Goffman comparou o relacionamento entre pessoas como uma peça de teatro, no qual as pessoas são os atores sociais que procuram oferecer uma imagem idealizada de si que se encaixe nos padrões reconhecidos e valorizados pela sociedade. O autor explica que há uma divergência entre o que é conscientemente apresentado e o que é apenas emitido. Assim como no teatro, a representação dos indivíduos pode ser distinta de acordo com o ambiente onde ele esteja atuando, seja no palco ou nos bastidores. Todos os atos ocorridos nesse evento são gerenciados para manter uma linha de conduta de acordo com a 63 situação atual. Para gerenciar o self é necessário ter um conjunto de recursos para manter a aparência, ter uma consciência das interpretações realizadas pelos outros, ter um desejo de manter aprovação social e ter uma vontade de usar esse conjunto de táticas de gerenciamento de impressões (GOFFMAN, 2010). Nesse sentido, percebe-se que nem tudo que os usuários comentam nas redes sociais estão relacionados com a sua realidade e seu desejo. O ato de imaginar antecipadamente a reação do seu público nas redes sociais pode incitar ou inibir determinadas ações, que no viver cotidiano não teriam como ser contidos. Descobrir o comportamento dos indivíduos que utilizam as redes sociais permite entender até que ponto as informações colhidas para tomada de decisão estratégica pode ser eficaz. Apesar das pesquisas apontarem essa dualidade de comportamentos distintos nas redes sociais pela mesma pessoa, é importante perceber que nesses ambientes a totalidade do conteúdo dos assuntos comentados é mais válida do que a análise individual do comentário postado por cada usuário. O comportamento em grupo poderá deixar escapar informações importantes para a escolha de determinada decisão estratégica que só serão percebidas se forem coletadas por ferramentas adequadas para tal finalidade. 4.3 PROCESSO DE MINERAÇÃO WEB NAS REDES SOCIAIS A predominância de elementos textuais em forma de comentários, opiniões, conversas dentre outros estão entre os tipos de materiais publicados nas redes sociais, inclusive os conteúdos baseados em vídeos, imagens e mapas precisam de comentários de texto tais como tags (etiquetas) e descrições para serem melhor visualizados na Web (SILVA, 2012). Devido a grande quantidade de elementos textuais sendo publicado nas redes sociais, ferramentas foram desenvolvidas com o objetivo de coletar esses dados por meio de uma gama de sistemas de mineração Web conhecidos como ferramentas de monitoramento de redes sociais. 4.3.1 Monitoramento das redes sociais As redes sociais digitais tem ultrapassado seu status de modismo ou utilização passageira e se consolidam na Internet como um grande palco, no qual os 64 seus usuários são os atores. Calcular o efeito gerado nesse interrelacionamento entre pessoas nas redes sociais e medir o seu comportamento torna-se demasiadamente importantes. Segundo Telma (2011), a principal vantagem de monitorar o ambiente das redes sociais está na sua capacidade de coletar conversas, sentimentos e menções da marca por meio de atividades multiformes realizadas na Internet. O monitoramento nas redes sociais (MRS) para fins comerciais podem ser realizados da forma manual. Utilizando-se das ferramentas de buscas disponibilizadas em cada rede, o analista poderá coletar suas informações por meio de palavras-chave previamente selecionadas para monitorar produtos, marcas ou entidades concorrentes. Em seguida, realiza-se manualmente a cópia de textos e imagens importantes, armazenando-os em documentos de texto, planilhas eletrônicas para, por fim, cruzar as informações para gerar relatórios satisfatórios sobre o ambiente competitivo. Esse processo manual pode ser mais habitual do que se imagina e também oferece um custo zero na sua aplicabilidade, no entanto, se limita pelo grau de processamento da grande quantidade de dados oferecidas pelas redes na Web (SILVA, 2012). Outro fator negativo é a atribuição de valores que podem ser inconsistentes, caso seja feita manualmente e por analistas diferentes. Percebe-se a necessidade de processar um maior número de dados coletados e que tenham confiabilidade no seu processamento. As ferramentas capazes de coletar, armazenar, analisar e disseminar informações são chamadas de ferramentas de monitoramento de mídias sociais (SILVA, 2010). O monitoramento das redes sociais pode acontecer de duas formas: coleta de dados quantitativos e a coleta de dados qualitativos. A primeira utiliza a mineração de estrutura Web e a mineração de uso Web (LIU, 2007) e tem o objetivo de coletar dados objetivos e quantitativos para gerar relatórios analíticos e sintéticos sobre os usuários, grupos de usuários, tendências, dados sociodemográficos dentre outros. Esse tipo de monitoramento Telma (2011) chama de sistemas Web Analytics e fornece infomações específicas sobre as redes sociais. O segundo tipo de monitoramento é chamado de “buzz monitoring”, “monitoramento de mídias sociais pleno”, “monitoramento de marcas e conversações” entre outros (SILVA e SANTOS, 2010). Baseados na mineração de conteúdo na Web, este tipo de monitoramento busca coletar, armazenar, classificar, categorizar, adicionar informação e analisar 65 menções online públicas a determinados termos previamente definidos e seus emissores (SILVA, 2011). Com um foco mais qualitativo, o objetivo desse formato de coleta é identificar e analisar reações, sentimentos e desejos relativos a produtos, entidades e campanhas (eventos), como também conhecer melhor o público pertinente e realizar ações reativas e pro-ativas para alcançar os objetivos da organização ou pessoa de forma ética e sustentável (SILVA, 2010). A maior parte dessas ferramentas tem uma interface interativa e amigável que facilita o seu uso por pessoas que não têm muitas habilidades tecnológicas, no entanto, Silva e Santos (2010) constata que a maioria das empresas contratam agências para realizar esse serviço. 4.3.2 Processo de monitoramento de redes sociais Para iniciar um monitoramento, a maior exigência é selecionar um conjunto finito de palavras-chave e informar o local donde ocorrerá a coleta. A maior parte desses locais são as redes sociais mais conhecidas, como o Facebook, Twitter, Youtube, Blogs dentre outros. Cada plataforma tem sua forma diferenciada de disponibilizar os seus dados para essas ferramentas. Silva e Santos (2010) apresentam duas maneiras que os sites de redes sociais disponibilizam seus dados para coleta. O primeiro caso é a indexação do conteúdo em formatos que podem ser acessados por meio de mecanismos de busca. O segundo caso é por meio das APIs (Application Programming Interfaces) que são códigos padronizados disponibilizados pelos construtores das redes sociais para que desenvolvedores externos criem aplicações para acessar os dados e integrar serviços dentro das redes sociais. O segundo caso fornece mais formatos de dados do que o primeiro. Após o resgate dos dados, outra característica das ferramentas de monitoramento de redes sociais é o armazenamento para processamento dos dados. O armazenamento permite que o conteúdo resgatado fique a disposição para que o analista adicione algumas informações extras ao conteúdo coletado, tais como: tags, classificação, categorias etc. O processamento oferecido permite agrupar o conteúdo por período de tempo, emissor, ambiente e por métricas de alcance e visitação. A pesquisa de Telma (2011) apresenta doze métricas utilizadas 66 por essas ferramentas no processamento dos dados para monitorar os ambientes internos e externos às empresas. As medições quantitativas oferecidas pelas redes sociais e coletadas pelas ferramentas se restringem a informações da presença de alguma marca, como número de fãs no Facebook, ou o número de seguidores no Twitter ou tráfego de referência nas redes sociais. Já as informações qualitativas podem ser analisadas por meio do buzz gerado na rede. Buzz é um termo originário do marketing digital, principalmente nas mídias digitais, que representa a repercussão de uma marca nas mídias sociais. Salzman, Matathia e O´reilly (2003) exemplifica buzz da seguinte forma: Se algo é bom e seus amigos o mandam para você por que é bom, eis aí o buzz marketing. Mas se você recebe o comunicado de uma empresa que quer se passar por boa, isso é simples propaganda e não buzz marketing. Assim, o truque consiste em gerar buzz para a companhia sem que esse marketing pareça originar-se dela. (p. 14). O resultado do processamento dos dados coletados pode ser visualizado por meio de relatórios com gráficos de diversos formatos com informações sobre as citações dos usuários, principais usuários que propagam comentários positivos sobre o que está sendo monitorado ou mesmo usuários que proferem palavras negativas. Os relatórios também oferecem a opção de mapas informando os dados geográficos dos usuários, gráfico de palavras-chaves mais utilizadas (nuvem de tags), índices de palavras positivas, negativas e neutras dentre outras. 4.3.3 Pesquisas sobre monitoramento de redes sociais Dentre os trabalhos científicos mais recentes sobre o monitoramento de redes sociais estão relacionados também com os trabalhos de monitoramento de mídias sociais e ferramentas Web Analytics. Stavrakantonakis at al (2012) apresentaram uma abordagem de avaliação de ferramentas de monitoramento de mídia social sob a ótica de três perspectivas: o conceito que eles implementam; a tecnologia que eles empregam; e a interface (Quadro 6). No grupo de características conceituais, os autores abordam a capacidade de coletar e analisar dados significativos (Análise), a capacidade que permitem se achegar aos clientes (engajamento) e determinar os influenciadores (influência), bem como a característica que permite que diferentes funcionários da 67 empresa utilizem a ferramenta para realizar tarefas distintas (gerenciamento de fluxo de trabalho). No segundo grupo são definidas as características tecnológicas que essas ferramentas devem conter para determinar a extensão do efeito das mensagens nas redes sociais em relação às variáveis do construto anterior. A tecnologia utilizada pelas ferramentas é a base necessária para que a coleta e análise dos dados sejam satisfatórias. Por fim, são analisadas as características de interface fornecidas para facilitar o utilizador na manipulação e visualizar os dados por meio de relatórios, gráficos, planilhas dentre outros. Quadro 6: Funcionalidades das ferramentas de MRS Grupo Funcionalidade Análise Engajamento Conceito Gerenciamento de fluxo de trabalho Influência Cobertura Processamento em tempo real Tecnologia Integração com aplicações de terceiros (API) Análise de sentimento Histórico de dados Painel de controle Interface com o usuário Exportação de dados Fonte: Stavrakantonakis et al (2012) Silva (2012), por sua vez, busca caracterizar e analisar os aplicativos de análise de informações sociais quanto a sua utilização em processos interacionais online. A pesquisa buscou compreender como tais aplicativos podem exercer papéis nas dinâmicas interacionais online e utilizou como metodologia o mapeamento e classificação dos aplicativos quanto a variáveis relacionadas às suas Práticas Prescritas, Manejo dos Dados, Visualização, Motivação e Compartilhamento. Como resultado verificou-se a importância de aspectos desses aplicativos que podem condicionar as práticas de busca por informação social e auto-monitoramento, com consequências para os processos de vigilância, memória, gerenciamento de impressões e construção identitária. O Quadro 7 apresenta a lista de variáveis estudadas por Silva (2012) para categorizar as ferramentas de análise de informações sociais. 68 Quadro 7: Variáveis e Categorias Pertinentes aos Aplicativos de Análise de Informações Sociais Fatores Características Autoconhecimento Exploração Práticas prescritas Comparação Publicação Retórica da Influência Resgate Manejo dos dados Processamento Classificação Unidade de conteúdo Quantificações Simples Gráficos de Volume e Tempo Visualização dos Infográfico dados Linha do Tempo Redes Mapas Experimentação/Pesquisa Motivação Divulgação/publicidade Análise Profissional Utilização Privada Compartilhamento Compartilhamento Direcionado Compartilhamento Público nos SRS Fonte: Silva (2012, p. 117) Na pesquisa de Telma (2011) é possível encontrar uma avaliação de ferramentas de pesquisa com abordagem específica para mídias digitais com foco nas práticas de Inteligência Competitiva nas organizações. A autora procura demonstrar um determinado conjunto de ferramentas de Web Analytics disponíveis no mercado, propondo uma metodologia de aplicação para os três níveis da organização: estratégico, tático e operacional. As análises mostraram como as referidas práticas podem auxiliar na identificação de padrões comportamentais e quanto às especificidades de uma comunidade on-line, além de identificar possíveis insights para ações e tendências de consumo. O trabalho também procurou mostrar uma metodologia adaptada à realidade brasileira, para categorização das métricas de acordo com quatro conjuntos de objetivos propostos por Lovett e Owyang (2010): provocar o diálogo entre os usuários, promover defensores da marca ou da organização, oferecer facilidade no suporte e estimular a inovação do conteúdo. O Quadro 8 apresenta a lista de métricas utilizada para medir o desempenho das ferramentas de monitoramento de redes sociais ou Web Analytics. 69 Quadro 8: Lista de métricas de desempenho das ferramentas Web Analytics Objetivo do Métricas de Descrição negócio desempenho Participação na Percentagem relativa da marca mencionada em mídias mídia sociais entre um conjunto competitivo. Proporção de visitantes que participam de um mercado Provocar Engajamento específico com iniciativa, contribuindo com comentários, diálogo compartilhamento do assunto ou indicações do link. Número de visitantes únicos que participam de uma Alcance determinada marca, questão ou tema de conversa em um ou mais canais de mídia sociais. Número de indivíduos que geram conteúdo com Defensores ativos sentimento positivo em relação à marca ou assunto, em um dado período de tempo. Promover Defensores Número de pessoas que reverberam empatia sobre os defensores influentes produtos perante uma base consistente de clientes Mede a contribuição direta ou indireta das conversões Impacto que os defensores irão obter em nome da organização. Percentual de pedidos de clientes de serviços resolvidos Taxa de resolução de forma satisfatória. Quantidade de minutos, horas ou dias necessários para Facilidade no Tempo de resolução produzir uma resposta humana para atendimento ao suporte cliente nos canais disponíveis no ambiente virtual. métrica que envolve cálculo de qualidade, entrega, valor Pontuação da percebido, desempenho global, dentre outras específicas satisfação a cada negócio. Tópicos e assuntos mais comentados em conversas e Tendências manifestações em mídias sociais. Percentual de impressões positivas, neutras ou negativas Estimular à Afinidade/sentimento sobre menções a produtos ou serviços em determinado inovação período de tempo. Taxa de participação, interação e sentimento positivo Impacto gerado a partir de um novo produto ou ideia, apresentado ao público consumidor nas mídias sociais. Fonte: Telma (2011) A agência de consultoria de mídia digital europeia Ideya Business and Marketing Consultancy lança anualmente um relatório com a lista das ferramentas de análise e monitoramento de redes sociais mais utilizadas no mundo (Quadro 9). Na versão 2012 foram elencadas 250, sendo a maior parte de nacionalidade americana com coleta somente de dados na língua inglesa. Somente uma das ferramentas avaliadas era brasileira. A pesquisa procurou avaliar as ferramentas sob a perspectiva de quatro grupos de característica: gestão de dados; análise e visualização dos dados; gestão de processos e interface com o usuário; e outros fatores (IDEYA, 2012). 70 Quadro 9: Características das ferramentas de MRS Grupo Característica Coleta Alertas Gestão de dados Exportação de dados API – Application Programming Interface Integration Arquivamento de dados Estatística de mídia Filtragem e classificação dos resultados Análise de sentimento Análise de influenciadores Análise e rastreamento de conteúdo viral Análise e visualização dos dados Análise de tendências Análise de tópicos e temas Nuvem de palavras/termos Análise e monitoramento competitivo Monitoramento e Métrica de campanhas Painel de controle Gestão de processos e interface com Gestão de fluxo de trabalho o usuário CRM – Custumer Relationship Management Preço Outros fatores Ano de lançamento Clientes Fonte: Ideya (2012) Apesar das pesquisas apresentadas abordarem as ferramentas de monitoramento de redes sociais de forma ampla, os resultados demonstram que o objetivo de cada trabalho é apresentar uma abordagem para avaliar e comparar ferramentas. Diferentemente desse enfoque, a presente dissertação busca avaliar as ferramentas de monitoramento de redes sociais sob a ótica das informações disponibilizadas para tomadas de decisões estratégicas por parte dos pequenos e médios empresários. 71 5 METODOLOGIA Este capítulo apresenta o tipo de pesquisa utilizado, as fases realizadas, os parâmetros para a escolha das ferramentas avaliadas e a processamento dos dados para obtenção dos resultados. 5.1 TIPO DE PESQUISA Entendeu-se esta pesquisa como exploratória e descritiva. A pesquisa foi exploratória porque há pouco conhecimento acumulado e sistematizado a respeito da mineração de dados na Web voltada para o SIM - Sistema de Informação de Marketing. A pesquisa foi descritiva porque visou descrever os software de mineração Web disponíveis para utilização pelas PMEs (Pequenas e Médias Empresas), apresentando suas particularidades, facilidades de uso, forma de apresentação dos dados coletados, assim como os tratamentos estatísticos que porventura oferecem. Segundo Mattar (2008), os estudos exploratórios tem o objetivo de abastecer o pesquisador com um maior conhecimento sobre o tema ou problema de pesquisa em questão. De acordo com Boyd Jr. e Westfall (1973), a flexibilidade é a característica principal desta metodologia e deve ser pautada em procurar novas ideias e relações, sem a preocupação de seguir um padrão formal de pesquisa. Quanto à pesquisa descritiva, Chiusoli et al. (2010) revelam que essa abordagem necessita de um planejamento que reduza o viés e que a precisão da prova obtida seja ampliada, cujos objetivos tratam-se especificadamente de uma apresentação das características de uma situação, um grupo ou um indivíduo específico. 5.2 FASES DA PESQUISA Esta pesquisa está dividida em três fases, cada qual incluindo procedimentos e técnicas que buscou alcançar os objetivos finais do projeto, conforme pode ser observado na Figura 16. 72 Figura 16: Fases da pesquisa Fundamentação teórica Sistema de Informação de Marketing Mineração Web Redes sociais Digitais Levantamento das características das ferramentas de Mineração Web Ferramentas de Monitoramento das redes sociais Ferramentas de Mineração de texto Descrição das características das ferramentas e avaliação das suas funcionalidades Fonte: Autoria própria A proposta foi levantar as principais características e parâmetros das ferramentas de mineração Web que coletam dados do ambiente externo (internet e redes sociais) do sistema de informação de marketing: os sistemas de monitoramento de redes sociais e as ferramentas de mineração de texto. Foram apresentados os fatores e variáveis dispostas na literatura sobre esses dois tipos de sistemas. A última fase teve como objetivo realizar a descrição dos dados obtidos sobre as ferramentas coletadas e elencar as funcionalidades oferecidas para gerar informações baseada nos dados coletados das redes sociais. 5.3 PARÂMETROS PARA ESCOLHA DAS FERRAMENTAS DE MINERAÇÃO WEB Esta pesquisa se limitou a estudar a coleta de dados do ambiente externo do Sistema de Informação de Marketing. Pelo fato do processamento dos dados da mineração de conteúdo na Web utilizar as técnicas de processamento de texto 73 encontrados na mineração de texto, foi realizada também uma análise nas ferramentas de Mineração de texto. Para fazer o levantamento das ferramentas de MRS e mineração de texto foram realizadas buscas na Internet utilizando palavras-chaves, tais como: “Monitoramento de redes sociais”, “monitoraçãor redes sociais”, “monitoramento de mídias sociais” e “monitorar mídias sociais” juntamente com as ferramentas de mineração de texto divulgadas pela KDnuggets2, site de uma comunidade de pesquisadores especializada em Data Mining, Text Mining e Web Mining. 5.3.1 Universo e Amostra Sendo o universo as ferramentas de mineração Web disponíveis na Internet, a amostra foi formada pelos sistemas capazes de processar dados no idioma português do Brasil. Procurou-se limitar nas ferramentas disponibilizadas para o público brasileiro na página de busca da Google (www.google.com.br). Foram selecionadas as ferramentas que apareceram nas primeiras 10 páginas de consulta do sistema de busca da google.com até junho de 2012. Escolheu-se esse método pelo fato dos 10 primeiros resultados da busca nesse site trazer os resultados mais relevantes para o país de origem e idioma, neste caso o Brasil e a língua portuguesa. 5.3.2 Seleção de variáveis Os parâmetros utilizados para mapear as ferramentas de mineração Web coletadas foram explorados nas pesquisas de Silva (2012), Telma (2011), Stavrakantonakis et al (2012) e Ideya (2012). Os dois primeiros autores se limitaram a pesquisar sobre as ferramentas de monitoramento de redes sociais e análise de informações sociais, contribuindo com as funcionalidades descritivas das ferramentas e dados quatintativos oferecidos pelos aplicativos. Wives (2002) pesquisou sobre as tecnologias de descoberta de conhecimento em texto (Text mining) e ofereceu as características para medir a capacidade que a ferramenta oferece no processamento de informações textuais e quais resultados elas 2 http://www.kdnuggets.com/software/index.html 74 oferecem. Além dos autores citados, algumas funcionalidades foram detectadas no decorrer da análise e foram inclusas como autoria própria (Quadro 10). Quadro 10: Lista de funcionalidades das ferramentas de mineração Web Etapa Funcionalidade Autores Busca por palavra-chave Silva (2012); Ideya (2012) Importação de dados de planilhas Autoria própria Coleta Stavrakantonakis et al Exportação de dados para planilhas (2012); Ideya (2012) Limpeza dos dados – controle de SPAM Autoria própria Cruzamento de dados Ideya (2012) Classificação ou categorização Wives (2002) Indexação Wives (2002) Processamento Normalização Wives (2002) Lexicometria Wives (2002) Clustering Wives (2002) Estatística de Mídia Ideya (2012) Filtros e Organização dos resultados Ideya (2012) Stavrakantonakis et al Análise de sentimento manual (2012); Ideya (2012) Stavrakantonakis et al Análise de sentimento automático (2012); Ideya (2012) Análise de tópicos e temas Ideya (2012) Análise de tendências Telma (2011) Análise Telma (2011); Análise de influenciadores Stavrakantonakis et al (2012); Ideya (2012) Monitoramento e mensuração de Ideya (2012) campanhas Gestão de Relacionamento com o cliente Ideya (2012) (CRM) Análise de monitoramento competitivo Ideya (2012) Análise de conteúdo Ideya (2012) Unidade de Conteúdo Silva (2012) Gráfico de volume e tempo Silva (2012) Definir partes de um todo (gráfico pizza) Autoria própria Visualização Comparação de valores Autoria própria Análise de texto (Termos mais citados e Ideya (2012) nuvem de tags) Mapas Silva (2012) Fonte: Dados da pesquisa Aplicação MRS e MT MRS MRS e MT MRS MRS Na etapa de coleta de dados foram utilizadas as funcionalidades de busca por meio de palavras-chave previamente escolhidas para extrair somente os comentários que interessam. Para diminuir a quantidade de menções desnecessárias eram dispionibilizados opções de filtragem por termos booleanos (E/OU) nas expressões de busca. Verificou-se outra forma de eliminar comentários errados tal como o uso de mensagens SPAMS (enviados por robôs e não por pessoas) nas redes sociais. Por fim, foi verificado a presença da tarefa de exportação os dados coletados em forma de arquivos de texto ou planilhas. 75 Foram utilizadas as formas de processamento de dados sugeridas por Ideya(2012) como o cruzamento de dados e Wives (2002) com as técnicas de classificação, indexação, normalização, lexicometria e clustering, visto que as ferramentas de MRS trabalham também com as mesmas características das ferramentas de mineração de texto. Na etapa de análise de dados foram avaliadas somente nas ferramentas de MRS com as características apresentadas por Telma (2011), Ideya (2012), Stavrakantonakis et al (2012). As funcionalidades avaliadas foram: estatística de mídia, filtro e organização dos resultados, análise de sentimento, análise de tópico e temas, análise de tendências, análise de influenciadores, monitoramento de campanhas, CRM, análise competitiva e análise de conteúdo. Conhecida também por Share of Voice, a estatística de mídia é a percentagem relativa da marca mencionada em mídias sociais entre um conjunto competitivo. Telma (2011) compara essa métrica ao Market Share, que é a fatia de participação da empresa em um determinado mercado. Enquanto esta compara a receita média conquistada em relação a outras empresas, o share of voice busca saber a sua participação nas fontes de informação das redes sociais. Essas estatísticas apresentam a porcentagem de participação nas mídias ao longo de um determinado período de tempo para o acompanhamento de históricos de comparação. Quando apresentadas em gráficos no formato pizza, esta métrica pode oferecer uma visão comparativa de qual mídia social tem um maior impacto dentre os usuários. A filtragem de informações após a coleta é importante para selecionar a melhor coleção de dados e eliminar os ruídos trazidos pelo processo de busca por palavra-chave. De acordo com Morgado Júnior (2009), é comum aparecer dados não desejados dentre os itens coletados por causa da taxa de erro que ocorre ao selecionar textos por palavras-chave. Esse ruído, de alguma forma, precisa ser eliminado do corpus para não interferir na análise e interpretação dos dados. Quanto maior o número de opções de filtragem melhor é a capacidade de organizar e interpretar os dados coletados. Sobre a característica de analisar de sentimento, Koblitz (2010) explica que o objetivo dessa funcionalidade é entender como o leitor pode interpretar uma emoção em um texto. Pang e Lee (2008) definem como um tratamento computacional de 76 dados textuais em forma de opinião, sentimento ou subjetividade. A emoção detectada pode ser classificada atribuindo aos textos uma orientação, a qual pode ser positiva, negativa ou neutra. Com a filtragem de um conteúdo pelo grau de sentimento pode ser possível segmentar os usuários em categorias. Os usuários que apresentam uma maior tendência em falar positivamente da marca são chamados de advogados, defensores (SILVA, 2010; TELMA, 2011) ou evangelizadores da marca (IDEYA, 2012). Aqueles que apresentam padrões que expressam muitos comentários negativos sobre a marca são chamados de detratores ou destruidores da marca. Silva (2010) alerta para analisar esses usuários de perto, pois os detratores precisam ser convertidos em torno da marca com a resolução de seus problemas e os defensores precisam ser estimulados a defender a marca em determinadas situações de alta repercussão negativa nas redes sociais. Referente à análise de tópicos e temas, os textos coletados na rede social Twitter não trazem o tópico ou tema que está sendo comentado, sendo necessária uma intervenção humana para definir que categoria esse texto se encaixa. Adição de trechos informativos, chamados também de tags nas menções permite organizar os comentários de acordo com as demandas de informação do analista. As categorias podem identificar parâmetros ou variáveis que se pretende medir. Da mesma maneira da análise de sentimento manual, a análise de tópicos e temas exige a presença humana para classificar todos os itens coletados. Com essas informações foi possível segmentar a coleção de comentários em diversos grupos ou padrões. Uma prática muito comum no monitoramento de redes sociais é classificar o comentário pelo tipo de emissor, categorizando-o como Institucional, Imprensa, Cliente, Usuário comum etc (SILVA, 2010). Dessa forma, por exemplo, é possível prospectar novos clientes, identificar usuários insatisfeitos, monitorar o que está saindo na impressa online ou mesmo o que está sendo publicado pelas instituições governamentais. As análises de tendências são definidas por Telma (2011) como tópicos e temas mais comentados em conversas e manifestações em redes sociais sobre determinadas marcas de empresas, produtos ou serviços. Nas redes sociais os usuários expressaram suas preferências, desejos, hábitos em forma de opinião. Esses sentimentos fornecem informações que predizem alguma possível tendência. Apesar de muitos dados, as tendências nascem de gestos isolados, sendo 77 necessária a intervenção de um analista para identificar a partir de uma filtragem e organização do conteúdo quais são os grupos com o perfil de inovação e formadores de opinião, pois serão eles que irão difundir práticas e/ou pensamentos que podem evoluir e influenciar outras pessoas (SIQUEIRA, 2010). Deve ser levada em consideração a influência que cada usuário tem nas mídias sociais para analisar uma possível tendência. Conhecida também pela métrica de alcance e reputação, a análise de influência procurou identificar padrões entre os indivíduos das redes sociais que estão propensos a falar muitas vezes sobre a marca, independente se o teor do conteúdo seja positivo (defensores) ou negativo (detratores). A forma mais comum apresentada pelas ferramentas estudadas para identificar as pessoas influentes nas mídias sociais é por meio da métrica Klout, que mede a influência baseada na habilidade dos usuários gerarem ações (SILVA, 2012). Essa métrica é gerada a partir de diversos dados coletados dos perfis dos usuários e pode ser medida pela escala de 0 a 100, ou seja, quanto maior o Klout maior a influência do usuário nas redes sociais. O tamanho da influência interfere diretamente na análise da repercussão de algo nas redes sociais. Quando um assunto é muito comentado sobre a marca que está sendo monitorada e os usuários que estão comentando tem uma influência alta existe uma tendência para gerar uma repercussão positiva ou negativa sobre a marca. É importante a empresa ter o maior número de influenciadores positivos ou defensores para poder aumentar o número de buzz positivo da marca. O monitoramento de campanhas tem a função de gerenciar e medir o desempenho de eventos externos (SILVA e SANTOS, 2010). Essas campanhas são temporárias e precisam ser monitoradas separadamente para não interferir no monitoramento contínuo da marca. Outra característica apresentada pelas ferramentas de monitoramento de redes sociais é a Gestão de Relacionamento com o Cliente, conhecido pela sigla em inglês CRM (Customer Relationship Management), que de acordo com Silva e Santos (2010) são ferramentas que gerenciam as funções de contato com o cliente com o objetivo de manter o melhor relacionamento possível entre a empresa e o consumidor. As funções de gestão de relacionamento procuram armazenar as 78 informações mais importantes sobre o cliente, relacionando-o com outros dados coletados. Outra característica analisada nas ferramentas mapeadas foi a capacidade de monitorar o mercado competitivo. Rastrear os passos de empresas concorrentes por meio das redes sociais é um grande desafio, visto que as informações disponibilizadas são controlados pelo usuário emissor. No entanto, saber o que os usuários das redes sociais estão comentando sobre o concorrente, quais suas experiências de consumo, críticas, opiniões, elogios, reações positivas e negativas sobre as marcas e produtos do concorrente são algumas das análises que podem ser feitas pelas ferramentas de monitoramento nas redes sociais. Sartori e Reis (2010) ressaltam que antes de monitorar os passos do concorrente, em se tratando de vantagem competitiva, primeiramente as empresas precisam gerenciar a sua própria reputação nas redes sociais digitais e, posteriormente, se preocupar em monitorar a reputação de empresas competidoras. O posicionamento da empresa no próprio canal de mídia social, aumentando os laços relacionais com os clientes, respondendo proativamente as suas manifestações e minimizando o impacto negativo na imagem da empresa. Essas ações, segundo os autores, poderão resultar em inovação do valor percebido pelo cliente. Wives (2002, p. 17) adverte sobre o monitoramento competitivo: Como os concorrentes também podem coletar as mesmas informações, já que muitas fontes são públicas, eles e outros possíveis concorrentes (empresas distantes, mas do mesmo ramo ou de ramos similares que podem mudar de ramo em busca de um novo nicho de mercado) devem ser constantemente monitorados para que possíveis ataques (invasões de mercado) sejam prevenidos ou, similarmente ao que eles fariam, para que novos nichos de mercado possam ser identificados. Em relação à funcionalidade de análise de conteúdo procurou encontrar elementos relevantes dentro de elementos textuais. Como a informação presente nas redes sociais é representada em sua maior parte por textos foi necessário entender como as ferramentas de monitoramento oferecem opções de analisar sintático, léxico, semântico os comentários contidos nas redes sociais. Como relatado por Wives (2002), a análise de conteúdo de texto extraídos da Web é conhecido por usar as técnicas de mineração de textos para encontrar padrões em meio às informações contidas nos documentos. Devido suas características subjetivas, a análise de conteúdo precisa seguir um rigoroso processo de manipulação de dados, começando com a filtragem correta dos comentários, 79 eliminando os ruídos normalmente coletados. Para a análise de conteúdo, Wives (2002) sugere que o clustering é mais adequado para detectar padrões de grupos e separar uma coleção de textos em subcoleções, juntamente com as técnicas de extração e categorização. Essa funcionalidade poderá oferecer opções de segmentação de usuários e comentários. Além disso, pode-se utilizar a análise no decorrer histórico de suas postagens para a detecção de alguma tendência de mudança de uma época para a outra. Sobre a etapa de visualização de dados optou-se por utilizar os formatos apresentados por Silva (2012) tais como a unidade de conteúdo, que mostra o comentário da mesma forma que é visualizada nas redes sociais, gráfico de volume e tempo que mostra em formato de linhas ou barras os quantitativos de volume de comentário versus o tempo. Os gráficos em formato pizza apresentam informações para entender seções de um conjunto ou população para permitir entender partes de um todo. Esse tipo de visualização pode ser útil para comparar dados em formato de porcentagem, que no final somem 100%. A comparação de valores permite ao analista confrontar dados contidos em duas ou mais valores. Esse tipo de visualização, geralmente mostrado através de gráficos em barra ou em linha retrata, por exemplo, a divisão de tipos de público-alvo, comparação de repercussão da marca da empresa com a do concorrente, comparação de campanhas publicitárias, histórico de citações em um período de tempo por polaridade de sentimento etc. As análises de textos geralmente são visualizadas por meio de relatórios com o ranking de termos (tags) mais citadas nos comentários coletados ou por meio de gráfico de nuvem de palavras. Este último apresenta uma lista de palavras, no qual as que forem mais citadas aparecem com o tamanho maior do que as que forem menos mencionadas. Esse tipo de visualização ajuda no entendimento de aparecimento de tendências entre os termos coletados. É importante utilizar esse tipo de visualização juntamente com os gráficos temporais para entender a presença ou ausência de tendências no decorrer do tempo. 5.4 TRATAMENTO DOS DADOS A busca pelas ferramentas na Internet e a avaliação dos dados ocorreram de forma simultânea. Ao mesmo tempo que a ferramenta era encontrada no site de 80 busca, esta era avaliada primeiramente sob a ótica das informações disponibilizadas no site da ferramenta, no qual foram coletadas os dados descritivos. Depois era verificado se a ferramenta disponibilizava uma versão gratuita para teste. Caso positivo, era solicitado uma conta gratuita para realizar uma avaliação mais aprofundada na ferramenta. Para facilitar a organização dos resultados, foram comparadas separadamente as funcionalidades encontradas nas ferramentas de monitoramento de redes sociais (MRS) e as oferecidas pelos software de mineração de textos (MT). A pesquisa por ferramentas de MRS foi realizada no período de 02 a 30 de maio de 2012. Já a pesquisa por ferramentas de MT foi realizada no período de 01 a 30 de junho de 2012. Com a lista de todas as ferramentas com disponibilidade de teste ou licença acadêmica na lingua portuguesa foi possível realizar uma coleta de comentários nas redes sociais para testar o uso das ferramentas e poder avaliar as funcionalidades. Para exemplificar as funcionalidades foram extraídos comentários nas redes sociais Facebook e Twitter sobre uma marca de uma universidade particular no mesmo período da coleta dos dados. O objetivo desse procedimento era disponibilizar imagens dos formatos de informações geradas por essas ferramentas. Após a extração de comentários pelas ferramentas de MRS foi possível exportá-los em forma de planilha para serem utilizados como entrada nos software de MT. Apesar das quantidades de comentários coletados terem sido suficiente para avaliar as funcionalidades das ferramentas de MRS, os softwares de mineração de texto exigiram uma quantidade maior, sendo impossibilitado pelo curto espaço de tempo para coleta gratuita. Entretanto, realizou-se uma segunda coleta de exemplo utilizando não uma marca, mas dados sobre o meio ambiente, com o objetivo de coletar mais itens. Dessa forma foi possível utilizá-los como dados de entradas para testar as ferramentas de MT. Vale frisar que o objetivo do trabalho não foi analisar e discutir os comentários coletados nas ferramentas de MRS e sim verificar as funcionalidades que essas ferramentas oferecem, sendo necessário exemplificar por meio de uma coleta teste. 81 6 RESULTADOS 6.1 DESCRIÇÃO DAS CARACTERÍSTICAS MERCADOLÓGICAS DAS FERRAMENTAS 6.1.1 Ferramentas de Monitoramento de Redes Sociais (MRS) A busca pelas ferramentas de MRS disponível para o público brasileiro resultaram em 22 (vinte e dois) aplicativos. Em primeira análise verificou-se a existência de três que não se enquadravam no quesito de ferramenta de monitoramento de redes sociais. Dentre elas, a “Cision” utilizava a mesma ferramenta fornecida pela “Radian6”. As outras possíveis duas ferramentas, “Drivus” e “E.life” eram agências especializadas em mídias sociais que realizavam o trabalho de monitoramento das redes sociais utilizando outras ferramentas de suporte, sendo também retiradas do rol de aplicações investigadas nesta pesquisa, restando somente 19 (dezenove) aplicativos. Para apresentação das ferramentas de MRS optou-se pela criação de um quadro (Quadro 11) no qual relacionou-se o nome da ferramenta, o endereço do site, a empresa criadora ou mantenedora da aplicação e os idiomas disponíveis. Quadro 11: Lista de ferramentas de MRS Nº Ferramenta Site 1 Aceita aceita.com.br 2 Alterian alterian.com 3 Argyle Social argylesocial.com 4 BrandViewer brandviewer.com.br 5 BrandChats brandchats.com Empresa Aceita Alterian Inc. Argyle Social Adeptsys Tinval Sistemes Exclusive Access Trading Idiomas PT IN, FR, AL, ES IN PT IN, ES 6 BrandsEye brandseye.com 7 BrandWatch brandwatch.com Runtime Collective lithium.com livebuzz.com logio.com.br planetay.com.br postx.com.br radian6.com scup.com.br Lithium Technologies Dinamize Igio Tecnologia Cadsoft Miti Salesforce.com Grupo Direct IN, FR, AL, IT, ES, HL, SU, DN IN PT PT PT PT IN IN, ES, PT socialmediamonitor.com.br Chleba Agência Digital IN, ES, PT Seekr.com.br sysomos.com trackur.com ubervu.com.br Seekr Sysomos Inc Trackur uberVU Ltd PT IN IN, PT IN, PT 8 9 10 11 12 13 14 Lithium LiveBuzz Logio Planeta Y PostX Radian6 SCUP Social Media 15 Monitor 16 Seekr 17 Sysomos 18 Trackur 19 Ubervu Fonte: Dados da pesquisa IN, PT 82 Das dezenove aplicações investigadas, a maior parte (doze) tem o inglês como idioma padrão, seguidos de dez na língua portuguesa, cinco oferecendo suporte à língua espanhola. Percebe-se que alguns oferecem mais de um idioma para escolha. A ferramenta que oferece um maior número de línguas é o “Brandwatch” com alemão, francês, italiano, holandês, sueco e dinamarquês além do inglês, português e espanhol. Todas as ferramentas pesquisadas que trabalham com a língua portuguesa são de nacionalidade brasileira. Por esse fato, elas conseguem identificar palavras e comentários das redes sociais de forma mais correta. O “Brand Viewer” consegue classificar de forma automática o sentimento de cada texto em positivo, neutro ou negativo. Essa funcionalidade só é possível por meio de um processamento de linguagem natural ou pela filtragem de algumas palavras portuguesas que denotam sentimento negativo ou positivo nas frases. As ferramentas de outros países conseguem classificar os textos de idiomas nativos. Com relação ao custo das ferramentas de monitoramento redes sociais, os valores cobrados não ofereceram um padrão pelo fato das aplicações serem destinadas a públicos de países distintos e também pelos diferentes serviços oferecidos nos pacotes. Apesar de serem listados os menores e os maiores custos, cada aplicativo oferece opções de personalização de pacotes com valores diferenciados. Para melhor entender os valores cobrados, foi subdividido em dois grupos: um nacional e outro internacional. Tabela 1: Custo da ferramentas de MRS brasileiras Ferramenta Aceita Brand Viewer LiveBuzz Logio Planeta Y PostX SCUP Seekr Social Media Monitor Ubervu Média Fonte: Dados da pesquisa Custo (R$) Mínimo Máximo 28,99 1.459,99 250,00 4.500,00 29,90 5.500,00 0,00 500,00 299,00 999,00 350,00 6.000,00 500,00 4.000,00 600,00 4.000,00 400,00 3.200,00 600,00 1.000,00 339,76 3.115,90 Das ferramentas destinadas ao público brasileiro, identificou-se que o valor mínimo cobrado foi R$ 28,99 pelo aplicativo “Aceita”. Para cálculo médio dos valores 83 dos produtos desconsiderou-se os gratuitos. A média de menores preços foi calculada em R$ 339,76. Quanto aos maiores valores praticados foi encontrado uma média de R$ 3.115,90, em uma amplitude entre R$ 500,00 a R$ 6.000,00. Os detalhes dos custos das ferramentas nacionais podem ser conferidos na Tabela 1. Os sistemas internacionais apresentaram custo mais elevado que as nacionais. A média do menor custo foi R$ 1.066,57 e o maior valor ficou em média de R$ 6.846,42 depois da conversão da moeda dólar e euro para o real brasileiro. Os dois itens fora da série foram o sistema “Trackur” com um valor iniciando de R$ 36,36 e a ferramenta “Radian6” com maior valor em R$ 20.200,00 mensais. O motivo do valor discrepante ocorre devido aos serviços oferecidos por cada plano. As funcionalidades podem diminuir ou aumentar de acordo com os serviços contratados. A Tabela 2 mostra os custos das ferramentas de MRS de origem internacional. Tabela 2: Custo da ferramentas de MRS internacionais Ferramenta Custo (R$) Mínimo 3 Máximo Alterian ArgyleSocial Brandchats BrandsEye Brandwatch Lithium Radian6 Sysomos Trackur ND 606,00 ND 401,98 1.270,68 2.828,00 1.212,00 1.111,00 36,36 ND 2.222,00 ND 4.040,00 4.765,05 9.090,00 20.200,00 ND 761,54 Média 1.066,57 6.846,43 Fonte: Dados da pesquisa Pelo fato da característica financeira restrita das PME’s apresentada por Leone (1999) e com baixa capacidade de investimento em tecnologia discutida por Ricci (2011), as ferramentas de baixo custo se apresentam como mais prováveis de serem utilizadas. No entanto, é preciso entender quais as informações fornecidas por cada uma delas para que não se esteja coletando dados acima ou abaixo do necessário, evitando assim, desgaste financeiro. 3 Os valores dos pacotes oferecidos em dólar americano foram convertidos para a moeda nacional cotado a R$ 2,02 no dia 15/08/2012. Fonte: Thomson Reuters (www.thomsonreuters.com) 84 Dos tipos de contas apresentadas, somente a “Aceita”, “Livebuzz”, “Scup” e “UberVU” ofereceram contas acadêmicas de 2 a 6 meses para auxiliar na pesquisa. Essas empresas oferecem também contas testes em média de 7 a 14 dias para testar a ferramenta por outros usuários. Além delas, a “BrandViewer”, “BrandEye”, “Trackur”, “Seekr” e “Ubervu” também oferecem contas para testes. Das ferramentas coletadas apenas a “Logio” oferece conta grátis para os usuários iniciarem seus trabalhos de monitoramento de redes sociais. Apesar da disponibilidade de contas grátis para testes e pesquisas, vale salientar que cada uma oferece uma quantidade limitada de buscas (por palavra-chave), itens coletados por mês e tempo de coleta gratuita, conforme ilustrado na Tabela 3. Tabela 3: Lista de ferramentas de MRS com disponibilidade de contas gratuitas Qtde de buscas por Palavra-chave Itens coletados por mês Aceita 10 30.000 Brand Viewer BrandsEye LiveBuzz Logio 20 200 5 1 Ferramenta Trackur Seekr Ilimitado 4 15.000 Não informado 5.000 500 500 (teste) e 1000 (acadêmica) ilimitado 1.000 Ubervu 30 Não informado SCUP 4 Tempo de coleta 7 dias (conta teste) 6 meses (acadêmica) 14 dias 14 dias 6 meses (acadêmica) Ilimitado 7 dias (teste) 2 a 6 meses (acadêmica) 10 dias 7 dias 7 dias (teste) 6 meses (acadêmica) Fonte: Dados da pesquisa 6.1.2 Ferramentas de Mineração de Texto (MT) Na busca pelas ferramentas de mineração de texto foram encontradas 50 (cinquenta). Após investigar cada uma delas, chegou-se a conclusão que apenas 38 se encaixavam nas características de ferramentas de mineração de texto, excluindo na sua maior parte as ferramentas de simples busca de informação na Internet e não ofereciam nenhuma forma de processamento de informações textuais. Para apresentação das ferramentas de MT optou-se pela criação de um quadro (Quadro 12) relacionando o nome da ferramenta, o endereço do site, a empresa criadora ou mantenedora do software e a identificação dos que processam dados no idiomas português. 85 Quadro 12 - Lista de ferramentas de Mineração de Texto investigadas Nº Ferramenta Endereço do Site 1 2 3 4 5 Aiaioo Alceste Attensity Basis Technology Clarabridge aiaioo.com image-zafar.com attensity.com basistech.com clarabridge.com Empresa Desenvolvedora Aiaioo Image Attensity Basis Technology Corp Clarabridge 6 7 8 9 10 11 12 ClearForest Clustify Cogito Categorizer Connexor Machinese Crossminder Dhiti DiscoverText clearforest.com cluster-text.com expertsystem.net connexor.com/nlplib crossminder.com dhiti.com/api discovertext.com Thomson Reuters Hot Neuron LLC Expert System Connexor Machinese Crossminder BVBA Dhiti Texifter, LLC Não Não Não Não Não Não Multi 13 14 15 16 17 18 Eaagle text mining Enkata Gate I2E Intellexer Intext mining eaagle.com enkata.com gate.ac.uk linguamatics.com categorizer.intellexer.com intext.com.br Triviumsoft S.A. Enkata University of Sheffield Linguamatics EffectiveSoft Intext Não Não Não Não Não Sim 19 20 ISYS Search Software Knime isys-search.com knime.org ISYS Search Software KNIME.com AG Não Sim 21 22 23 KXEN Text Coder (KTC) Leximancer Lextek kxen.com leximancer.com lextek.com KXEN Leximancer Lextek international Não Sim Sim 24 25 Lingpipe PolyAnalystic alias-i.com/lingpipe megaputer.com Alias-i Megaputer Intelligence Não Sim 26 27 28 Odin Text Quenza Rapidminer odintext.com xanalys.com rapid-i.com Não Não Sim 29 ReVerb reverb.cs.washington.edu 30 31 32 Salience Engine SAS Text miner SPSS LexiQuest lexalytics.com sas.com ibm.com 33 TextQuest textquest.de 34 35 36 37 38 Semantic Indexing Proj Ureveal VantagePoint VisualText Weka knowledgesearch.org ixreveal.com thevantagepoint.com textanalysis.com cs.waikato.ac.nz/ml/weka Anderson Analytics LLC Xanalyz Ltd Rapid-I University of Washington Lexalytics SAS IBM Social Science Consulting NITLE IxReveal Search Technology, Inc Text Analysis Internat. University of Waikato Fonte: Dados da Pesquisa Idioma PT Não Não Não Não Não Não Não Não Sim Não Não Não Não Não Sim 86 Com relação ao idioma, somente o software “InText Mining” é de nacionalidade brasileira. A maior parte é composta de aplicativos de origem americana, seguido de países europeus, como a França, Inglaterra, Alemanha e Espanha. Os valores de custo cobrados pelos softwares de MT se diferem dos cobrados nas ferramentas de MRS. Devido a sua maior complexidade de processamento de informações, os software de MT tem um custo superior, conforme ilustrado na Tabela 4. Dos itens avaliadas, somente nove revelaram os valores cobrados pelas licenças dos seus respectivos sistemas. “Lextek” e “Aiaioo” foram as que apresentaram suas versões de entrada mais baratas, pois não cobram pelo uso inicial do sistema. “Intellexer”, “DiscoveryText”, “TextQuest” e “Intext Mining” apresentaram valores de partida abaixo de R$ 1.000,00. Os maiores valores cobrados de entrada foram os software “VantagePoint”, “Clustify” e “Basis Technology”. Tabela 4 - Menores valores cobrados pelas ferramentas de MT Ferramenta Lextek Aiaioo Intellexer DiscoverText TextQuest Intext mining VantagePoint Clustify Basis Technology Fonte: Dados da pesquisa Menor custo (R$) 0,00 0,00 26,16 200,00 747,00 1.000,00 15.150,00 40.400,00 60.000,00 Quanto ao maior custo, a ferramenta “Intellexer” apresentou o teto mais baixo no valor de R$ 402,00. As mais onerosas foram a “Clustify” e “Basis Technology”. “DiscoveryText” e “VantagePoint” não disponibilizaram os valores maiores cobrados, pois podem ser customizados. Dependendo da versão ou da funcionalidade acrescentada na licença, o valor pode ser alterado (Tabela 5). 87 Tabela 5 - Maiores valores cobrados pelas ferramentas de MT Ferramenta DiscoverText VantagePoint Intellexer Intext mining Lextek Aiaioo TextQuest Basis Technology Clustify Fonte: Dados da pesquisa Maior custo (R$) Customizado Customizado 402,00 3.000,00 4.040,00 8.080,00 18.675,00 377.740,00 505.000,00 Da mesma forma que as ferramentas de monitoramento de redes sociais, os software de mineração de texto precisam ser adequados à realidade das PMEs. Vale frizar que o valor pago nesse tipo de sistema é a licença permanente, diferente das ferramentas de MRS que é preciso pagar uma mensalidade. As funcionalidades também se diferenciam de acordo com a licença escolhida. Quanto à disponibilidade do software para testes ou pesquisas acadêmicas, verificou-se que 63,1% (24 ferramentas) disponibilizam versões de testes para os seus usuários. Metade delas oferece a ferramenta completa por um tempo limitado, geralmente 30 dias. Das ferramentas para teste restantes, seis oferecem recursos limitados por tempo indeterminado e as outras seis disponibilizam o software completo sem limites de tempo, visto que são software livres e foram desenvolvidas com um propóstito de fomentar as pesquisas acadêmicas, tais como o Weka, Knime, Gate e o Rapid Miner. Quanto ao tipo de software, 31 são ferramentas que são instaladas nos computadores denominadas de standalone. Para isso é necessário baixar, instalar e utilizar em um computador. O restante (oito) são executadas diretamente na Internet por meio de navegadores. Utilizar aplicações standalone tem uma grande desvantagem, pois exige que o computador tenha capacidade de processamento elevado, dependendo da quantidade de dados que tenha pra analisar. Muitas vezes é necessário ter um computador muito sofisticado e caro para obter informações rápidas. 88 6.2 DESCRIÇÃO FUNCIONAL DAS FERRAMENTAS SELECIONADAS Dentre as ferramentas mapeadas, foram escolhidas 9 de monitoramento de redes sociais e 9 de mineração de textos, totalizando 18 ferramentas selecionadas para descrever e comparar as funcionalidades. O critério para a escolha foi a disponibilidade gratuita ou com versão acadêmica para testes e também a capacidade de processar documentos na língua portuguesa. Por se tratar de sistemas online, as ferramentas de MRS disponibilizavam contas para a coleta e processamentos dos dados diretamente na Internet por um determinado período de tempo. Neste caso, foi possível avaliá-las dentro do período permitido. Dentre as ferramentas de mineração de texto, a maior parte das informações foi obtida dentro do site do desenvolvedor, visto que era necessária a instalação de todos eles para analisá-los no computador. Outros dados foram obtidos por meio de mensagens de e-mail com o desenvolvedor da ferramenta. 6.2.1 Ferramentas de Monitoramento de redes sociais (MRS) Para melhor entendimento do fluxo de trabalho utilizado nas ferramentas de MRS, foram relacionadas as funcionalidades encontradas nos sistemas avaliados subdivididas em em quatro etapas principais: coleta, processamento, análise e visualização de dados. 6.2.1.1 Etapa de coleta de dados Esta fase procurou destacar a caracterização das ferramentas de monitoramento de redes sociais de acordo com suas funcionalidades de coleta de dados, visto que este passo foi necessário para que o processamento, análise e visualização da informação fossem possíveis (Tabela 6). Brands Eye LiveBuzz SCUP Trackur Seekr Ubervu F Logio Busca por palavra-chave Exportação de dados para planilhas Limpeza dos dados – controle de SPAM Fonte: Dados da pesquisa Brand Viewer Funcionalidades de coleta de dados Aceita Tabela 6: Funcionalidades de coleta de dados nos software de MRS X X - X X - X X - X X X X X - X X - X X - X X - X X - 9 9 1 % 100 100 11 89 Verificou-se que todas as ferramentas mapeadas utilizam as buscas booleanas por palavras-chave como padrão para resgatar textos publicados pelos usuários das redes sociais. Os sistemas também permitem coletar dados com datas retroativas, possibilitando assim resgatar menções (comentários) com mais de um mês de antecedência da data da coleta. Também oferecem a possibilidade de filtrar os resultados obtidos por palavras para restringir o número de comentários redundantes. As ferramentas de MRS limitam o uso do número de buscas por palavras-chave de acordo com o plano escolhido para o uso do aplicativo, ou seja, quanto maior o número de buscas, mais elevado é o custo da ferramenta. Conforme ilustra a Figura 17, a ferramenta “Aceita” oferece uma tela com os campos disponíveis para realizar a busca por palavras-chave e a ferramenta “Scup” apresenta três comentários coletados, cada um com um teor de sentimento diferente: positivo, negativo e neutro. A forma de visualização da informação é por unidade de conteúdo (SILVA, 2012) que mostra o conteúdo do texto na íntegra da forma que foi originalmente postado nas redes sociais. Esse formato de apresentação foi encontrado em todas as ferramentas mapeadas. Figura 17: Exemplo de tela de coleta e resgate dos dados Aceita Scup Fonte: Ferramentas “Aceita” e “Scup” Dentre os dados coletados, algumas informações puderam ser detectadas, tais como: nome do usuário, rede social utilizada, sexo, nacionalidade, idioma, data e hora, número de seguidores que provavelmente visualizaram o comentário publicado e quantas vezes a publicação foi replicada. Individualmente esse tipo de dado pode não significar muita coisa, mas no conjunto da coleção pode revelar 90 padrões de segmento que podem ser explorados, tais como: qual a rede social que mais fala a marca da empresa, ou mesmo dados demográficos como média de idade, localização dos usuários, sexo etc. A maior parte dos tipos de arquivos exportados são CSV e PDF. O CSV é um arquivo de texto, que contém dados tabulados como uma planilha eletrônica. Este tipo de arquivo pode ser utilizado como arquivo de entrada em sistemas de processamento de dados textuais, como as ferramentas de mineração de texto. Ou seja, caso o usuário deseje processar os dados para obter mais informações além das oferecidas, pode utilizar os arquivos exportados para serem utilizados em outros aplicativos. Durante a análise detectou-se uma funcionalidade na ferramenta “Livebuzz” que tem tarefa de diminuir o número de comentários SPAMS (a quantidade de itens coletados que são enviados por robôs e não por pessoas). Mesmo assim, ela exige a presenta do fator humano para identificar pessoalmente as mensagens indesejadas ou que estejam impedindo a análise dos dados. Outras funcionalidades para evitar problemas com mensagens consideradas lixo não foram identificadas nas outras ferramentas. 6.2.1.2 Etapa de Processamento de dados A etapa de processamento os dados das ferramentas de MRS oferece aos gestores basicamente as funções de cruzamento de dados coletados com algumas informações adicionais fornecidas manualmente. O objetivo é transformar os dados, que outrora coletados não são úteis, em informações importantes para tomadas de decisão. A maior parte dos cruzamentos de dados tem a ver com a relação de quantidade de itens coletados versus o tempo. A variável de tempo é importante dentro dos software de MRS, pois permite conhecer o histórico da coleta de itens específicos, identificando o volume de conteúdo publicado ao longo do tempo. A funcionalidade de classificação ou categorização automática de texto foi encontrada em somente duas (2) das ferramentas de MRS monitoradas. O processo de classificação utiliza a frequência de algumas palavras para categorizar automaticamente os comentários pelo seu grau de sentimento como positivo, negativo e neutro. Vale salientar que o restante das ferramentas que não apresentam classificação automática oferece a forma manual como alternativa, 91 exigindo a presença de um analista para classificar cada comentário de acordo com o grau de sentimento. Isso confirma o que apresentou Magalhães L. (2009), que a manipulação manual dos dados coletados poderia até diminuir a taxa de erro ao classificar corretamente um item, mas por conter grande quantidade de dados demanda muito tempo em relação ao processo automatizado. As ferramentas de MRS não apresentaram a indexação, normalização, lexicometria e clustering como forma de processamento de dados. Isso evidencia que os procedimentos de análises estatísticas são escassos nesse tipo de sistema, conforme demonstrado na Tabela 7. BrandsEye LiveBuzz SCUP Trackur Seekr Ubervu F Logio Cruzamento de dados Classificação ou categorização Indexação Normalização Lexicometria Clustering Fonte: Dados da pesquisa BrandViewer Funcionalidades de processamento de dados Aceita Tabela 7: Funcionalidades de processamento de dados nos software de MRS X - X X - X X - X - X - X - X - X - X - 9 2 0 0 0 0 % 100 22 0 0 0 0 6.2.1.3 Etapa de Análise de Dados As funcionalidades de análise de dados oferecidas pelas ferramentas de monitoramento de redes sociais foram classificadas de acordo com as métricas utilizadas pela Ideya (2012). Cada função pode fornecer informações úteis para tomadas de decisões de acordo com o objetivo da coleta: as estatísticas de mídia fornecem dados sobre a audiência; filtro e organização dos dados podem ser utilizados para selecionar somente os dados necessários; análise de sentimento classifica o comentário como positivo, negativo ou neutro; análise de tópicos e temas servem para segmentar em grupos os comentários coletados; análise de tendências buscam identificar termos mais comentados para detectar mudanças no ambiente externo; análise de influenciadores verifica os usuários mais influentes sobre o assunto pesquisado; monitoramento e mensuração de campanhas acompanham comentários acerca de campanhas de marketing; gestão de relacionamento com o 92 cliente procura identificar os clientes mais propensos à marca ou produto monitorado; a análise competitiva visa monitorar ações de concorrentes nas redes sociais; e, por fim, a análise de conteúdo que tem a função de identificar dentro do texto padrões estatísticos que podem gerar informação relevante (Tabela 8). BrandsEye LiveBuzz SCUP Trackur Seekr Ubervu F Logio Estatística de Mídia Filtros e Organização dos resultados Análise de sentimento manual Análise de sentimento automático Análise de tópicos e temas Análise de tendências Análise de influenciadores Monitoramento e mensuração de campanhas Gestão de Relacionamento com o cliente (CRM) Análise de monitoramento competitivo Análise de conteúdo Fonte: Dados da pesquisa BrandViewer Funcionalidade de análise de dados Aceita Tabela 8: Funcionalidades de análise de dados nos software de MRS X X X X X - X X X X X - X X X X X X - X X X X X X X X - X X X X X - X X X X X X - X - X X X X X X - X X X X X X X - 7 7 9 2 8 5 4 4 2 1 0 % 78 78 100 22 89 55 44 55 22 11 0 6.2.1.3.1 Estatística de mídia Das nove ferramentas estudadas, sete (7) delas apresentaram a característica de estatística de mídia. Vale frisar que, pelo fato de somente as ferramentas “Ubervu” e “Brandviewer” coletaram dados em mais de uma rede social sem cobrança de taxas adicionais, a informação de participação da mídia nessas ferramentas são mais reais que as outras que limitam as buscas por tipo de rede social. A ferramenta “Ubervu” apresenta um gráfico de partic ipação da marca nas mídias sociais, possibilitando também monitorar o histórico de crescimento ou declínio de participação por meio do gráfico em linha em cada mídia (Figura 18). 93 Figura 18- Exemplo de gráfico de estatística de mídia Fonte: Dados da pesquisa. Ferramenta SCUP. 6.2.1.3.2 Filtro e organização dos resultados Das 9 ferramentas avaliadas, sete (7) apresentaram alguma opção de filtragem de dados com a opção de diversos campos para filtrar os itens que possam gerar informações mais específicas, como ilustrado no exemplo da Figura 19 apresentados pelas ferramentas “Aceita”, “Livebuzz” e “Brandviewer”. Figura 19: Exemplo de Tela de filtragem de dados Aceita Livebuzz Brandviewer Fonte: Ferramentas “Aceita”, “Livebuzz” e “Brandviewer” A forma de visualização dos dados coletados e filtrados pode ser por meio de unidade de conteúdo. Também é possível comparar variáveis em gráficos em barra ou em linha, projetar os dados em formato temporal em um gráfico de volume versus tempo para identificar padrões históricos que possam gerar alguma informação de tendência. As informações podem ser cruzadas com dados sociodemográficos 94 coletados dos indivíduos, tais como sexo, localização, idade etc. Na Figura 20 é ilustrado o exemplo de um gráfico de volume e tempo visualizado na ferramenta “Ubervu” que mostra o histórico das visualizações diárias da marca coletada e a localização da origem dos comentários em um mapa geográfico. Figura 20: Tipos de gráficos gerados a partir da filtragem de dados Fonte: Ferramenta “UberVU” 6.2.1.3.3 Análise de sentimento Todas as ferramentas oferecem a opção de análise de sentimento manual, com a atribuição positiva, neutra ou negativa. A “BrandsEye” apresenta uma escala mais complexa com dez opções de classificação (de -5 a -1 e de +1 a +5). A ferramenta “Aceita” apresenta além das três opções tradicionais o atributo “oportunidade” para identificar comentários que identifiquem insights sobre novas marcas de produtos, serviços ou empresas. Dos sistemas avaliados verificou-se que somente “BrandsEye” e “Brandviewer” fornecem capacidade de atribuir um sentimento automático nos comentários. A ferramenta “BrandsEye” exige que o usuário classifique manualmente no mínimo 170 comentários de cada categoria para que o sistema “aprenda” qual o padrão a ser seguido na classificação automática. Para realizar essa tarefa com uma maior precisão será necessário o trabalho de um analista que compreenda o conteúdo dos dados e possa classificar manualmente cada um deles. A “Brandviewer” não determina um treinamento prévio para detectar o padrão de 95 mensagens negativas, neutras ou positivas. Nesse sistema é realizado um filtro de palavras comumente usadas na linguagem de origem para denotar o sentimento do texto, no entanto, a taxa de erro é muito alta. Dos 2768 itens coletados como exemplo, o sistema atribuiu o sentimento corretamente somente a 61,3% dos dados, apresentando uma taxa de erro de 38,7%. De qualquer forma, para corrigir as discrepâncias e diminuir a taxa de erro torna-se necessária a presença de um analista, como foi defendido por Silva (2010). A Figura 21 esboça um exemplo do “Brandviewer” que atribuiu um sentimento negativo em um comentário no Twitter que era pra ser neutra. Possivelmente a atribuição errada tenha ocorrido pela aparição da palavra “doida” dentro do comentário, na qual conota outro significado que não seja negativo. Figura 21: Exemplo de comentário com classificação de sentimento errada Fonte: Ferramenta “Brandviewer” O formato de apresentação da informação sobre o sentimento geralmente é mostrado através de gráficos que fornecem a visão do todo, tais como gráfico em pizza. A Figura 22 fornecida pela ferramenta “Seekr” ilustra um exemplo que revela a porcentagem de usuários evangelizadores (defensores), agressores (detratores) e neutros. Figura 22: Exemplo de um gráfico de análise de sentimento Fonte: Ferramenta “Seekr” 96 6.2.1.3.4 Análise de tópicos e temas Dentre as ferramentas selecionadas somente a “Trackur” não apresentou a função de classificação do conteúdo pelo tópico ou tema. A ferramenta “Livebuzz” oferece a opção de selecionar uma determinada amostra dos dados coletados para facilitar a classificação manual dos tópicos do conteúdo analisado. Essa função é necessária, visto que a quantidade de dados é muito grande para classificar manualmente. A forma de visualização dos dados é por gráfico de barras, pizza ou em linha. Para exemplificar um gráfico de análise de tópicos e temas, é possível visualizar na Figura 23 os dados classificados manualmente na ferramenta “Brandviewer” de acordo com o tema. Figura 23: Exemplo de gráfico de análise de tópicos e temas Fonte: Ferramenta “Brandviewer” 6.2.1.3.5 Análise de tendências A visualização mais comum de tendências encontradas nas ferramentas de monitoramento de redes sociais são os termos mais citados e a nuvem de palavras (tags) presentes em metade dos sistemas investigados. Outros gráficos podem ajudar na informação temporal da tendência, como os gráficos em linha que denotam o histórico das palavras mais comentadas num determinado espaço de tempo. A Figura 24 ilustra o exemplo de duas visualizações sobre a tendência nas ferramentas “SCUP” e “Seekr”. O exemplo mostra que muitas tags aparecem desnecessariamente, tais como, conjunções, numerais e outros termos que não denotam tendências, pelo contrário, confunde o analista. Esse problema foi identificado por Pinheiro (2009), que sugeriu a utilização de stopwords para eliminar termos desnecessários e corrigir o problema, no entanto, nenhuma ferramenta 97 analisada apresentou essa correção. Isso faz com que a informação disponibilizada nos gráficos contenha falhas, podendo gerar interpretações errôneas. Figura 24: Exemplo de lista e nuvem de palavras Fonte: Ferramentas “SCUP” e “Seekr” 6.2.1.3.6 Análise de influenciadores Dentre as ferramentas mapeadas, quatro dos nove apresentaram a opção de gerenciar os usuários mais influentes com a opção de gerar informações a partir deles. O exemplo da Figura 25 revela os usuários mais influentes dentre os que realizaram comentários dos itens coletados na ferramenta “Livebuzz”. Os usuários são marcados em verde (defensores), os vermelhos (detratores) e os amarelos (neutros). Figura 25: Exemplo de lista de usuários influenciadores Fonte: Ferramenta “Livebuzz” 98 6.2.1.3.7 Monitoramento e mensuração de campanhas A capacidade de monitorar e medir o desempenho de eventos exógenos como campanhas podem ser encontrada em mais da metade das ferramentas em análise. A principal característica identificada foi a opção de vincular o volume de menções coletadas, associação de palavras e análise de sentimento com as campanhas previamente cadastradas no sistema. Geralmente, essa funcionalidade é utilizada por agências de propaganda e comunicação que tem o desafio de coordenar ofertas e demandas de informação com os setores internos da empresa, como o marketing e vendas, por exemplo. 6.2.1.3.8 Gestão de Relacionamento com o cliente (CRM) Somente as ferramentas “Livebuzz” e “Ubervu” apresentaram alguma forma de gerenciar o relacionamento com os clientes. A maior parte dos sistemas examinados oferece a opção de classificar o usuário quanto à sua influência, não sendo considerada uma funcionalidade de gestão de informações dos usuários. A ferramenta “Livebuzz” apresenta a opção de resolução de problemas, que permite os gestores atenderem de forma pontual as reclamações dos clientes. A ferramenta “Ubervu” disponibiliza a opção de designar tarefas para outras pessoas da equipe resolver problemas junto ao usuário da rede social. 6.2.1.3.9 Análise competitiva Dentre as ferramentas mapeadas, a maior parte não oferece a opção clara de análise competitiva. Para que isso ocorra é necessário criar monitoramentos paralelos de marcas ou produtos concorrentes para que possa ocorrer uma comparação de resultados. Isso aumenta ainda mais a carga de trabalho manual exercido por um profissional de análise de mídias sociais ou por agências de comunicação especializadas. Sobre os possíveis trabalhos dos analistas, Silva (2010) afirma que: Relatórios aprofundados, análises pontuais ou alertas são alguns dos produtos de informação competitiva que podem ser redigidos pelos analistas. É preciso entregar diferenciadamente as informações relevantes apresentadas em formato usável e pertinente aos diferentes setores, diretores ou profissionais da organização. (p. 45) 99 A única ferramenta analisada (11%) que oferece função de monitorar os concorrentes é a “Brandseye”. Ao realizar a pesquisa sobre a própria marca ou produto, a ferramenta oferece a opção de incluir três concorrentes para serem monitorados ao mesmo tempo. O resultado dessa coleta pode ser mostrado em gráficos comparativos entre as empresas, como ilustrado na Figura 26. O gráfico mostra o grau de sentimento nos comentários coletados sobre sua própria marca (verde) e sobre as marcas concorrentes (azul e vermelho). Percebe-se que a própria marca está sendo mais comentada que as do concorrente. Todos os relatórios do “Brandseye” apresentam a opção de visualizar seus dados como também das empresas competidoras. Figura 26: Exemplo de gráfico de análise de concorrentes Fonte: Ferramenta Brandseye 6.2.1.3.10 Análise de conteúdo As ferramentas de MRS não apresentaram nenhuma característica de análise de conteúdo automatizado utilizando técnicas de mineração de texto. A funcionalidade que mais se aproximou foi a análise de tendências que utiliza a relação de termos mais utilizados na coleção, no entanto, estatísticas mais apuradas e informações de conglomerados ou categorias não foram encontradas. 6.2.1.4 Etapa de Visualização dos dados As formas de visualização de dados oferecidos pelos sistemas de monitoramento de redes sociais são mostradas por meio de gráficos e relatórios 100 nominais. Os gráficos são formados em sua grande maioria do tipo unidade de conteúdo e gráfico de volume e tempo, conforme visualizado na Tabela 9. É possível identificar em cada funcionalidade de análise de dados um tipo de visualização mais comum. O Quadro 13 ilustra a relação entre a análise de dados com o formato de visualização mais utilizada nas ferramentas mapeadas. Aceit/a Brand Viewer Brands Eye LiveBuzz SCUP Trackur Seekr Ubervu F Logio Tabela 9: Funcionalidades de visualização de dados nos software de MRS Unidade de Conteúdo X X X X X X X X X 9 100 Gráfico de volume e tempo X X X X X X X X X 9 100 Definir partes de um todo (gráfico pizza) X X - X X X X X X 8 89 Comparação de valores X - X X - X - X X 6 67 Análise de texto (Termos mais citados e nuvem de tags) - X - X X X - X X 6 67 Mapas - - - - - - - X X 2 22 Funcionalidades de visualização de dados % Fonte: Dados da pesquisa Somente o aplicativo “Brandeye” não apresentou a visualização em formato de gráfico de pizza, o restante oferece alguma forma de visualização para definir as partes analisadas como um todo. A respeito de gráficos de comparação de valores, seis das nove ferramentas mapeadas ofereciam essa opção de visualização, enquanto seis apresentam a visualização por meio de análise de texto em forma de nuvem de tags ou lista de termos mais utilizados nos comentários coletados. Por fim, a forma de visualizar dados por meio de mapas geográficos foi encontrada somente em duas ferramentas: “Ubervu” e “Seekr”. Isso demonstra que ainda precisa haver uma integração entre os serviços de localização geográfica dos sistemas de redes sociais com os usuários. 101 Quadro 13: Relação entre as funcionalidades análise de dados com o formato de visualização VISUALIZAÇÃO DOS DADOS Relação Definir Gráfico Análise de Análise de dados Unidade entre pontos partes de de Comparação texto Nas ferramentas de de de dados um todo volume Mapas de valores (nuvem de MRS Conteúdo (gráfico de (gráfico e tags) redes) pizza) tempo Cruzamento de dados X X X Estatística de Mídia Filtros e Organização dos resultados Análise de sentimento X X X X X X X X X X Análise de influenciadores X Análise de conteúdo X Análise de tendências X Análise de tópicos e temas Análise de monitoramento competitivo Monitoramento e mensuração de campanhas X X X X X X X X X X X Fonte: Dados da pesquisa A visualização por gráficos em formato de pizza foram utilizados por 70% das análises de dados mapeados, seguidos de gráficos de volume e tempo e comparação de valores. A visualização de termos mais citados ou nuvem de tags é utilizada nas fases de análise de texto, tendências e monitoramento competitivo. Gráficos em forma de Mapas e visualização por unidade de conteúdo foram as duas formas de visualizar dados em cruzamento e filtragem e organização dos resultados. O gráfico de rede só foi utilizado na análise de influenciadores mostrando a ligação entre um influenciador e os influenciados na rede. 6.2.2 Ferramentas de Mineração de textos (MT) Diferentemente das ferramentas de monitoramento de redes sociais, os software de mineração de textos tem o objetivo de coletar e processar dados textuais. Para melhor entendimento do fluxo de trabalho utilizado nos softwares de MT, foram relacionadas as funcionalidades disponibilizadas no Quadro 10 102 encontradas nos sistemas avaliados subdivididas em duas etapas principais: coleta e processamento de dados (Tabela 10). Importação de dados x F x x x x x x 2 22 9 100 0 0 x 6 67 x 5 55 x 5 55 x 9 100 x 7 78 x Limpeza dos dados x Indexação Processamento de dados x Normalização Lexicometria Classificação Clustering Fonte: Dados da pesquisa x x x x x x x x x x x x x x x x x x x x x x x % Weka x x SPSS LexiQuest x x Rapidminer Leximancer Poly Analystic Coleta de dados x Lextek Busca por palavra-chave Knime Funcionalidades Intext mining Etapa DiscoverText Tabela 10: Processamento de dados nos software de mineração de textos 6.2.2.1 Etapa de coleta dos dados Diferentemente das ferramentas de MRS, sete dos nove softwares de mineração de textos avaliados não realizam coleta de dados diretamente nas redes sociais. A forma mais comum de inserir dados é através de um arquivo de texto, planilhas contendo uma relação de textos, banco de dados textuais ou uma coleção de arquivos de texto. Devido o fato das ferramentas de MRS exportarem suas coletas em formato de arquivo CSV, foi coerente utilizar esses arquivos como forma de entrada nos aplicativos de mineração de texto para possíveis tratamentos e descoberta de informações relevantes. No exemplo de coleta realizado nas ferramentas de MRS sobre questões ambientais, detectou-se 12.733 comentários que continham as palavras “meio ambiente”, “ecológico”, “reciclagem” e “sustentabilidade”. As ferramentas utilizadas para coleta de dados foram a “Livebuzz” e “Brandviewer”, conforme ilustra os quantitativos na Tabela 11. Tabela 11: Itens coletados para exemplificar o uso dos software de MT Ferramenta de MRS Livebuzz Brandviewer Total Fonte: Dados da pesquisa Comentários coletados 8958 3775 % 70,35 29,65 12733 100 103 6.2.2.2 Etapa de processamento dos dados Nessa fase foram verificadas as funcionalidades de processamento de dados disponibilizado pelas ferramentas avaliadas sob a ótica das técnicas de mineração de texto apresentados por Wives (2002) que são a indexação, normalização, lexicometria, classificação, extração e clustering. As interfaces gráficas dos sistemas mapeados, em sua grande maioria oferecem o formato de pipeline (tubulação) para facilitar o entendimento do processo. A Figura 27 esboça um exemplo da apresentação do processo de clustering e classificação de documentos no software “Rapidminer”. Percebem-se a utilização de caixas que são os processos e as linhas que indicam o fluxo dos dados. Na caixa de coleta foram informados os arquivos com os comentários coletados sobre meio ambiente, na caixa pré-processamento foram utilizadas as técnicas de indexação, normalização e lexicometria. Após esse procedimento foi realizado o processamento de clustering e classificação. Esse mesmo tipo de interface pipeline é encontrado nas ferramentas “Knime” e “SAS text mining”. Apesar da apresentação didática dessas ferramentas, as terminologias referentes a mineração de texto estão presentes em todas as ferramentas e é necessário o conhecimento técnico especializado nesse assunto para manipulação do software pelo analista. Figura 27: Exemplo de interface pipeline utilizada nos software MT Fonte: Software “Rapidminer” 6.2.2.2.1 Indexação, normalização e lexicometria O objetivo da indexação é listar as palavras-chaves mais comuns a cada documento (comentário). Para isso se utiliza das funções de normalização e lexicometria para gerar um índice contendo a lista de documentos com seus 104 respectivos termos indexados. Essa funcionalidade foi encontrada em seis softwares avaliados. Referente à funcionalidade de normalização de dados cinco dos nove sistemas verificados apresentaram maneiras para diminuir os ruídos encontrados nos dados coletados. Nem todo o conteúdo coletado corresponde com o objetivo da pesquisa, resgatando também além dos dados corretos, muita informação desnecessária. Para tanto, fez-se necessário realizar um procedimento de normalização para diminuir essa quantidade de comentários sem ligação com o objetivo da coleta. Os procedimentos utilizados foram tokenização (tokenize), transformação de tokens em caracteres minúsculos (case fold), filtrar tokens desnecessárias (stopwords) e a redução para o menor radical da palavra (stemmin). Para ilustrar o fluxo utilizado de normalização, a Figura 28 apresenta a lista de tarefas utilizadas pela ferramenta “Rapidminer”. Figura 28: Exemplo do fluxo de normalização dos dados Fonte: Software “Rapidminer” Das ferramentas de mineração de texto avaliadas, cinco ofereciam o processamento lexicométrico dos dados por meio da atribuição de pesos. Os pesos utilizados para gerar a lista de palavras mais frequentes eram o binário, TF (term frequency) e o TF-IDF (term frequency – Inverse Document Frequency). Esta última métrica é a mais utilizada nos software mapeados. Como exemplo, foram selecionados os 12.733 comentários coletados sobre o meio ambiente e aplicados no software “Rapidminer”, que após a aplicação das técnicas de normalização (Figura 28) resultou na redução 48,87% dos ruídos. Com a geração das palavras mais frequentes de acordo com TF-IDF e retirando as menos 105 frequentes, o corpus teve uma redução final de 94%, gerando 6% de termos relevantes (Tabela 12). Tabela 12: Redução de termos por técnica de processamento de texto Tokenização Termos 447.350 (tokens) Redução de termos Fonte: Dados da pesquisa Normalização Case folding Remover (minúsculo) Stopwords Stemming Lexicometria 446.718 239.762 228.710 26.795 0,14% 46,40% 48,87% 94,01% 6.2.2.2.2 Clustering A funcionalidade de clustering ou agrupamento de documentos foi encontrada em 78% dos software investigados. Apesar da presença desse tipo de processamento na maioria dos sistemas listados, sua execução não ocorre de maneira trivial. É necessário esforço humano especializado em tratamento estatístico de dados textuais e poder computacional para gerar informações de agrupamentos de comentários nas redes sociais. As técnicas de clustering encontradas foram relacionadas ao agrupamento de documentos por meio da distância encontrada entre os termos de cada documento. As ferramentas apresentaram a medida euclidiana e a similaridade por cosseno como o cálculo da distância entre termos. As técnicas de agrupamento k-means e kmedoids foram utilizadas para gerar partições disjuntas, colocando os documentos em grupos distintos e sendo visualizado por meio de gráficos de partição disjunta. Os agrupamentos hierárquicos que geram a similaridade de clusters, agrupando-os de acordo com os graus de semelhanças utilizaram-se a visualização em gráficos de dendogramas ou gráficos de árvores. Utilizando-se dos dados obtidos e processados (Tabela 12) foi realizada uma análise de cluster para gerar uma lista de documentos semelhantes. Para teste foram utilizados os sistemas “Leximancer” e “Rapidminer”. O processo de clustering no software “Rapidminer” ofereceu uma lista de palavras mais significativas separadas por clusters subdivididos pela medida TF-IDF mais significativa (Tabela 13). No primeiro grupo constata-se a presença dos termos: “país”, “polít”, “desenvolv”, “conferent”, “econôm”, “sustent” e “govern” significando que este grupo 106 está voltado a comentários relacionados a questões ambientais, economia e governo. O segundo grupo destaca-se pelas palavras “mei” e “ambient”, gerando assim um grupo de comentários com o termo “meio ambiente”, não sendo considerado um cluster significativo, pelo fato de toda a pesquisa o cerne principal ser as questões ambientais. O terceiro grupo encontram-se as palavras “ating”, “empres”, “incend” e “recicl”. É visível neste cluster o grupo dos comentários a respeito das empresas de reciclagem. Verificando o motivo para o aparecimento do termo incêndio percebeu-se que existiram muitas citações na época da colheita de dados a respeito de incêncios que estavam acontecendo a empresas de reciclagem, gerando assim uma alta repercução nas redes sociais sobre o tema. No último grupo identificado, encontram-se os termos “ambiental”, “amig”, “árvor” e “verd”. Ao analisar os comentários desse grupo, identificou-se uma tendência para mencionar questões relacionados à práticas de defesa do meio ambiente, como as menções relacionadas a empresas amigas do ambiente, a preservação das árvores e do verde. Tabela 13: Lista de termos e clusters gerados no exemplo TERMO Cluster0 ambient 0,0537 ambiental 0,0551 amig 0,0010 árvor 0,0043 ating 0,0190 0,0949 brasil 0,1315 conferent 0,2156 desenvolv 0,1407 econôm empres 0,0056 0,1051 govern incêndi 0,0029 mei 0,0644 0,1289 mund 0,2322 país 0,1243 polít reciclag 0,0010 0,0925 sociedad 0,1635 sustent verd 0,0394 Fonte: dados da pesquisa Cluster1 0,2749 0,0106 0,0040 0,0015 0,0010 0,0153 0,0147 0,0444 0,0066 0,0666 0,0080 0,0000 0,2107 0,0097 0,0073 0,0083 0,0133 0,0081 0,0812 0,0062 Cluster2 0,0029 0,0031 0,0010 0,0023 0,1398 0,0138 0,0000 0,0018 0,0000 0,1161 0,0010 0,1665 0,0055 0,0040 0,0000 0,0042 0,4165 0,0010 0,0077 0,0036 Cluster3 0,0170 0,0606 0,0588 0,0421 0,0012 0,0128 0,0013 0,0114 0,0023 0,0745 0,0073 0,0010 0,0055 0,0102 0,0048 0,0045 0,0019 0,0033 0,0361 0,0605 Para ilustrar o formato da informação gerada pela análise de cluster, a Figura 29 mostra o gráfico fornecido pela ferramenta “Leximancer” que apresenta as palavras mais comentadas em forma de rede de palavras. Percebe-se a divisão dos clusters por cores ou por círculos. 107 Figura 29: Exemplo da visualização de cluster em gráfico de rede Fonte: Software “Leximancer” Outra forma de analisar os clusters é por meio das palavras mais comentadas em cada grupo, conforme é visualizado na Figura 30 o exemplo fornecido pela ferramenta “Leximancer”. 108 Figura 30 - Exemplo de lista de palavras por cluster Fonte: Software “Leximancer” 6.2.2.2.3 Classificação ou categorização O processo de classificação nas ferramentas de mineração de texto é mais frequente que nos sistemas de MRS. Para realizar a classificação de conteúdo, a maioria dos sistemas verificados utilizam os dados lexicométricos para medir a importância de cada termo no texto e poder categorizar de acordo com o padrão detectado. Para que o computador reconhecesse o padrão existente em uma categoria foi necessário realizar um treinamento com uma amostra supervisionada da coleta, que anteriormente ao processamento precisou ser categorizada manualmente e informada ao sistema. Cada categoria precisou ter uma quantidade mínima de dados treinados para que o reconhecimento automatizado fosse satisfatório. Apesar de todos os softwares avaliados apresentaram funcionalidades de classificação de conteúdo, o grau de dificuldade para processar esses dados foi alto, principalmente nas ferramentas com foco nas pesquisas acadêmicas, pois elas exigem conhecimento avançado nas técnicas de mineração de texto. Outro fator importante encontrado na categorização por meio de ferramentas de mineração de texto é relacionado à quantidade de dados. Essas ferramentas 109 demandam um grau elevado de processamento computacional quando existem muitos itens para serem analisados, aumentando o tempo de processamento e exigindo que se utilizem máquinas robustas para realizar esse trabalho. Isso corrobora com o que foi frisado por Magalhães T. (2009, p. 61). A principal desvantagem da técnica de categorização de documentos é o fato de essa abordagem não poder, todavia, ser ajustada para grandes documentos e / ou coleções de documentos, tais como a Web, devido ao custo computacional elevado e tempo de processamento. Vale lembrar que, para os fins da pesquisa, pequenos documentos e coleções como sites de opiniões, digitalização direta de texto pode funcionar bem. No entanto, se forem utilizadas poucas quantidades de dados é possível recorrer em outro problema: a falta de dados suficientes para encontrar padrões satisfatórios. Quanto menor o número de dados, menor o grau de confiabilidade na classificação dos comentários (MORGADO JÚNIOR, 2008). O procedimento para exemplificar a classificação foi testado na ferramenta “Rapidminer”. Foi utilizada a técnica supervisionada, no qual são conhecidas previamente as categorias que se deseja rotular. Foi informada uma lista de comentários previamente categorizada manualmente de acordo com o sentimento do texto (positivo, negativo e neutro) para a realização de um treinamento utilizando o SVM (Support Machine Vector), procedimento este considerado mais rápido e eficiente para classificação de texto (MAGALHÃES L., 2009). O tempo computacional para calcular a matriz de distâncias entre os termos dos 12.733 comentários foi maior que 24 horas, necessitando abortar o procedimento e realizar com um número menor de itens. Morgado Júnior (2008) não recomenda diminuir muito a quantidade de dados na fase de treinamento do software, visto que a acurácia dos resultados é afetada negativamente. Portanto, a eficácia do procedimento de categorização de conteúdo nos software investigados não foi comprovada devido aos problemas de tempo computacional para processar uma quantidade satisfatória dos dados. 110 7 CONSIDERAÇÕES FINAIS Atualmente surgem novas metodologias e instrumentos que possibilitam a extração das informações de forma automatizada de grandes bases de dados como as redes sociais. Dentre elas encontram-se as ferramentas de mineração Web que possibilitam coletar, processar, analisar e visualizar os dados dentre os comentários disponíveis nas redes sociais. Este trabalho atingiu seu objetivo geral ao informar quais são as ferramentas de mineração Web existentes no mercado e mostrar as informações disponibilizadas por elas aos gestores de marketing para tomada de decisão estratégica em pequenas e médias empresas. As funcionalidades que as ferramentas de mineração Web apresentaram podem ser utilizadas para resgatar dados das redes sociais e disponibilizá-las para auxiliar os gestores nas tomadas de decisões. Em relação ao objetivo de levantar as principais ferramentas de mineração Web disponíveis no mercado até junho de 2012 constatou-se a presença de 19 ferramentas de monitoramento de redes sociais e 38 de mineração de textos. Desse total 18 (9 de MRS e 9 de MT) são direcionadas para o público brasileiro por oferecerem funcionalidades de processamento de dados na lingua portuguesa do Brasil. Para o objetivo de descrever e comparar as características mercadológicas de cada ferramenta constatou-se a presença de aplicativos de origem nacionais e internacionais de MRS, mas somente as nacionais puderam realizar buscas mais precisas no idioma brasileiro com menor custo e com pacotes voltados para pequenas empresas. Já as principais ferramentas de MT disponíveis para processamento de textos em português eram voltadas para fins acadêmicos e exigiam conhecimentos avançados de mineração de texto para utilizá-las. Com relação ao custo das ferramentas chegou-se a conclusão que apesar da disponibilidade do material na internet ser de baixo custo, a forma de coletá-lo e processá-lo pode acarretar em um alto custo. Primeiramente, as ferramentas de monitoramento de redes sociais oferecem pacotes com valores variando de acordo com o plano escolhido e com pagamento mensal. Segundo, os softwares de mineração de textos oferecem licenças anuais e exigem um conhecimento acerca das técnicas de mineração de textos, exigindo que o gestor realize treinamentos 111 sobre essa tecnologia ou contrate um profissional sabedor das técnicas de monitoramento de redes sociais e mineração de texto. Para o objetivo de descrever e comparar as funcionalidades de cada ferramenta obteve-se como resultado que as ferramentas de MRS se mostraram mais adequadas para a realização de coleta e análise dos dados, enquanto os softwares de MT oferecem vantagem somente na etapa de processamento estatístico dos textos. Sendo necessária a utilização conjunta dos dois tipos de sistemas para uma quantidade maior de dados para utilizar como informação. As informações mais disponibilizadas pelas ferramentas de MRS foram relacionadas à segmentação de usuários ou comentários, tais como a análise de sentimento e a análise de tópico e temas. Esse tipo de informação propõe oferecer dados necessários para agrupar os usuários que falam positivamente ou negativamente sobre sua marca ou mesmo classificando os comentários por categorias de acordo com a necessidade do gestor. As informações sobre as ações do concorrente foram pouco satisfatórias, pois as ferramentas não ofereciam funções para que as suas marcas e as do concorrentes fossem analisadas paralelamente. Para realizar essa tarefa o gestor precisa monitorar em separado as suas próprias marcas, como também as marcas do concorrente, gerando um aumento no tempo para conseguir a informação necessária e no custo, que aumentaria no final do monitoramento. Com relação ao objetivo de identificar possíveis tratamentos estatísticos a que os dados coletados possam ser submetidos, percebeu-se que o processamento oferecido pelas ferramentas de MRS se concentra apenas no cruzamento dos dados coletados com os elementos informados pelo agente que analisa as informações. Ao considerar o tratamento estatístico ou mesmo cálculo que exija um alto poder computacional para gerar inteligência, além dos dados já oferecidos, ainda é deficiente nesse tipo de sistema. Entretanto, caso seja necessário realizar esse trabalho, os sistemas oferecem uma forma de exportar as informações coletadas para arquivos tabulados em planilhas eletrônicas, formato esse que são utilizados como entradas em sistemas de análise textual, tais como os software de mineração de textos que realizam tratamentos estatísticos de análise de cluster. Convém salientar que, apesar de apresentar os software de mineração Web no mercado, o presente trabalho procurou avaliar somente as ferramentas nacionais ou que oferecessem possibilidade de tratamento de textos na lingua portuguesa. 112 Além disso, algumas limitações da pesquisa puderam ser detectadas, tal como o tempo disponibilizado pela maioria das ferramentas ser insuficiente para realizar uma coleta mais abrangente, e a lentidão dos testes dos software de mineração de texto, pois utilizou-se um computador laptop resultando em um processamento lento na realização da análise de cluster e impossibilitando a realização de testes de categorização com uma quantidade maior de dados. Esse trabalho procurou contribuir com a área de estratégia de marketing mostrando a mineração Web como um meio complementar de extrair informações sobre mercados e consumidores, especificadamente os usuários das redes sociais digitais. Acredita-se que as informações que circulam nas redes sociais podem se tornar uma fonte de vantagem competitiva se utilizadas de maneira adequada e a forma de extraí-la por meio de sistemas de informação podem trazer benefícios aos médios e pequenos empresários. Para a área da computação, essa pesquisa demonstrou que existe uma lacuna nas ferramentas de MRS que precisa ser preenchida, a saber, o uso de tratamento estatístico dentre suas funcionalidades. A finalização desse estudo leva ao entendimento de que outras pesquisas podem vir a ser realizadas com o objetivo de analisar novos elementos relacionados à aplicabilidade de ferramentas de mineração Web nas empresas. Entre eles (1): realizar uma pesquisa de levantamento em empresas de pequeno e médio porte para analisar cada funcionalidade das ferramentas de mineração Web apresentada neste trabalho por meio de uma aplicação prática utilizando uma ferramenta e confrontá-la com as necessidades dos gestores; (2) estabelecer métricas para escolha de ferramentas de mineração Web pelas pequenas e médias empresas; (3) definir quais os tipos de informações eletrônicas são mais utilizadas pelos tomadores de decisões nas empresas. 113 REFERÊNCIAS AFONSO, A.S. Uma análise da utilização das redes sociais em ambientes corporativos. 2009, dissertação (mestrado em Tecnologia da Inteligência e Design Digital), PUC. São Paulo, SP. AMORIM, F.; FERLA, L.A.; PAIVA, M.; SPYER, J. Tudo o que você precisa saber sobre Twitter, 2009. Disponível em: http://www.talk2.com.br/evento/em-portuguese-gratis-tudo-o-que-voce-precisa-saber-sobre-twitter/ Acesso em: 1 set. 2012. ARANHA, C.N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional, Tese. (Doutorado em Engenharia Elétrica), Departamento de Engenharia Elétrica, PUCRio. 2007. BARBOSA, R.R. Uso de fontes de informação para a inteligência competitiva: um estudo da influência do porte das empresas sobre o comportamento informacional. Encontros Bibli. p. 91-102. 2006. BARBOSA, R.R. Inteligência empresarial: uma avaliação de fontes de informação sobre o ambiente organizacional externo. Datagrama Zero - Revista de Ciência da Informação v.3 n.6, dez. 2002. BATTAGLIA, M.G.B. A inteligência competitiva modelando o Sistema de Informação de Clientes – FINEP. Ciência da Informação, Brasília, v. 29, n. 2, p. 200-214, maio/ago. 1999. BLUMMER, H. The nature of symbolic interactionism. In: Conflict, Order and action: Readings in Sociology. Canada: Canadian Scholar’s Press. p 100-103. 2001. BOYD, D.; ELLISON, N. Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, v.13. p.1-2. 2007. BOYD JR., H.W.; WESTFALL, R. Pesquisa mercadológica. Rio de Janeiro: Fundação Getúlio Vargas, 1973. BOSE, R. Competitive intelligence process and tools for intelligence analysis, Industrial Management & Data Systems, Vol. 108 Iss: 4, pp.510 – 528. 2008. CAMPOMAR, M.C.; IKEDA, A.A. O planejamento de marketing e a confecção de planos: dos conceitos a um novo modelo. São Paulo: Saraiva, 2006. CARENINI, G.; NG, R.T.; ZWART, E. Extracting knowledge from evaluative text. In K-CAP ’05: Proceedings of the 3rd international conference on Knowledge capture, p. 11–18, Nova Iorque, NY, EUA, 2005. CAVALCANTI, D.C. “Uma abordagem não supervisionada para classificação de opinião usando o recurso léxico SentiWordNet”, 2011. Dissertação (mestrado em Ciência da Computação) – Centro de Informática, Universidade Federal de Pernambuco, Recife. CHIUSOLI, C.L. Dorminhoco ou guerreiro? Perfis e atitudes dos gestores mediante o uso de sistema de inteligência de marketing. Revista Brasileira de Pesquisa de Marketing Opinião e Mídia. V. 5, p. 2-13, set, 2010. 114 CHIUSOLI, C.L. Um estudo exploratório sobre tipologia e sistema de informação de marketing. São Paulo: Faculdade de Economia, Administração e Contabilidade (FEA), 2005. (Tese, Doutorado, Administração de Empresas). COMBÈS, Y.; KOCERGIN, S. A intermediação na internet: um objeto de questionamento para as indústrias culturais. Revista Líbero, São Paulo – v. 12, n. 23, p. 43-52, jun. de 2009. COOLEY, R.W. “Web usage mining: Discovery and application of Interesting Patterns from Web data”. PhD thesis, Dept. of Computer Science, University of Minesota, 2000. COSTA, R. A cultura digital. 2. ed. São Paulo: Publifolha, 2003. COX, D.; GOOD, R. E. How to build a marketing information system. Harvard Business Review, Boston, v.45, n.3, Mai/Jun. 1967. CRESCITELLI, E.; OLIVEIRA, E.C.; BARRETO, I.F. A internet como fonte informacional para o SIM: os processos de captação e as formas de avaliação. JISTEM J.Inf.Syst. Technol. Manag. (Online) [online], v.3, n.3, p. 347-369. 2006. CUNHA, J.C. Inteligência competitiva desenvolvida por meio de redes sociais. Dissertação (mestrado em Administração) Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação. Universidade de Brasilía – UNP, Brasília, DF. DANIEL, E., WILSON, H. e McDONALD, M. Towards a map of marketing information systems: An inductive study. European Journal of Marketing, Bradford, Vol. 37, N°. 5/6; p. 821- 851, 2003. EFE. Empresas usam Twitter como ferramenta de relações públicas e fonte de informações sobre clientes. O Globo Online, Tecnologia, Caderno Digital, 21 abril. 2009. Disponível em: http://oglobo.globo.com/tecnologia/mat/2009/04/21/empresasusam-twitter-como-ferramenta-de-relacoes-publicas-fonte-de-informacoes-sobreclientes-755366147.asp. Acesso em: 17 set. 2012. FACEBOOK. Facebook. [S.l.]: Facebook, 2012. <http://www.facebook.com>. Acesso em 10 setembro 2012. Disponível em: FERNANDES, M.P. Descoberta de conhecimento em bases de dados e estratégias de relacionamento com clientes: Um estudo no setor de serviços. 2007. Dissertação (mestrado em administração de empresas) – Universidade Presbiteriana Mackenzie, São Paulo, SP. FLETCHER, K.; WHEELER, C. Marketing intelligence for international markets. Marketing Intelligence & Planning, v. 7, n. 5, 1989. FREITAS, H.M.R.; LESCA, H.; CUNHA JR., V.M. Como dar um senso útil às informações dispersas para facilitar as decisões e ações dos dirigentes: o problema crucial da inteligência competitiva através da construção de um ‘PUZZLE' (‘quebracabeça')®. Revista Eletrônica de Administração, São Paulo, vol 2, no. 2. novembro de 1996. GOFFMAN, E. Comportamentos em lugares públicos – Nota sobre a organização social dos ajuntamentos. Petrópolis: Editora Vozes. 2010. 115 GOOGLE. Orkut. [S.l.]: Google, 2011. Disponível em: <http://www.orkut.com>. Acesso em: 10 setembro 2012. GOUNARIS, S.P.; PANIGYRAKIS, G.G.; CHATZIPANAGIOTOU, K.C, Measuring the effectiveness of marketing information systems: An empirically validated instrument. 2007 GRISI, C.C.H.; LOURES, C.A.; SAZAKI, C.K.; ALMEIDA, L.O. Sistema de informação em marketing e a pesquisa de produto: uma nova perspectiva V SEMEAD – seminários em administração São Paulo: FEA – USP, 2001. Disponível em http://www.ead.fea.usp.br/semead/5semead/MKT. Acesso em 12 de setembro de 2012. GUEDES, R.; AFONSO, D.; MAGALHÃES, L.H. Mineração de opiniões de usuários na busca de conhecimento. Revista Vianna Sapiens. v. 1, edição especial, out. 2010. Juiz de Fora. MG. HAIR, I.F.J.; ANDERSON, R.E.; TATHAM, R.L.; BLACK, W.C. Análise Multivariada de Dados. 5ª ed. Porto Alegre: Bookman. 2005. HASGALL, A.; SHOHAM, S. Digital social network technology and the complex organizational systems, VINE, Vol. 37 Iss: 2, pp.180 – 191. 2007. IBOPE NIELSEN, Total de pessoas com acesso à internet atinge 77,8 milhões. Nov. 2011, disponível em http://www.ibope.com.br, acessado em 18/03/2012. IDEYA, Market Report. Social Media Monitoring Tools and Services. Market Report. 2012, disponível em http://www.ideya.eu.com KAUFMAN, D. Processo de tomada de decisão no ciberespaço, o papel das redes sociais no jogo das escolhas individuais. Tese (mestrado em Comunicação e Semiótica, Signo e Significação nas Mídias). Pontifícia universidade Católica de São Paulo – PUC-SP. São Paulo, SP, 2010. KENNEDY, H. Beyond anonymity, or future directions for internet identity research. New Media Society, v.11, n.6, p.943-946, 2009. KHAUAJA, D.M., CAMPOMAR, M.C. O sistema de informações no planejamento de marketing: uma busca de vantagem competitiva. Revista de Gestão da Tecnologia e Sistemas de Informação/Journal of Information Systems and Technology Management (JISTEM), São Paulo, v. 04, n. 01, p.23-46, jan./abr. 2007. KOBLITZ, L.F. Ambiente de análise de sentimento baseado em domínio. 2010. Tese (doutorado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pósgraduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, RJ. KOSALA R.; BLOCKEEL H. Web mining research: a survey. ACM SIGKDD Explorations, v.2, n.1, p.1-15. Jul, 2000. KOTLER, P. Administração de marketing: a edição do milênio. Prentice Hall: São Paulo, 2000. KOTLER, P.; ARMSTRONG, G. Princípios de marketing. 9. ed. Tradução de: Arlete Simille Marques e Sabrina Cairo. São Paulo: Prentice Hall, 2003. 116 KRAKAUER, P.V.C. A utilização das informações do ambiente no processo de decisão estratégica: estudo com empresários brasileiros e americanos de pequenas e médais empresas. Dissertação (Mestrado em administração). Departamento de Administração da Faculdade de Economia, Administração e contabilidade, Universidade de São Paulo, São Paulo, 2011. LAU, K. ; LEE, K. ; HO, Y. ; LAM, P. Mining the web for business intelligence: Homepage analysis in the internet era. Journal of Database Marketing and Customer Strategy Management. Vol. 12, n. 1, p. 32-54, 2004. LAUDON, K. C.; LAUDON, J. P. Sistemas de informação gerenciais. 7. ed. São Paulo: Pearson Pretince Hall, 2007. LEMOS, André. A arte da vida: diários pessoais e webcams na Internet. XI COMPÓS. Rio de Janeiro: ECO/UFRJ, 2002. LEONE, N. M. de C. P. G. As especificidades das pequenas e médias empresas. Revista de Administração, São Paulo, v. 34, n. 2, p. 91-94, abr./jun. 1999. LOVETT, J.; OWYANG, J. Social Marketing Analytics: A New Framework for Measuring Results in Social Media. Altimeter Report. Retrieved. Abr., 2010. Disponível em http://www.slideshare.net/jeremiah_owyang/altimeter-report-socialmarketing-analytics. LIU, B. Web Data Mining. Exploring Hiperlinks, Contents, and Usage Data. Springer, Chigago, 2007. MAGALHÃES L., H. Uma análise de ferramentas para mineração de conteúdo de páginas Web. 2008. Dissertação de Mestrado. Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, RJ. MAGALHÃES T., M. Uma metodologia de mineração de opiniões na web. 2009. Tese (doutorado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pósgraduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. MALHOTRA, N.K. Introdução a pesquisa de marketing: uma orientação aplicada. Porto Alegre: Bookman, 2001. MALINI, F. Modelos de colaboração nos meios sociais da internet: Uma análise a partir dos portais de jornalismo participativo. Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação. XXXI Congresso Brasileiro de Ciências da Comunicação, RN, 6 de set. 2008. MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE; H. Term frequency and weighting. In: ______ An Introduction to Information Retrieval. Inglaterra: Cambridge University Press, 2009. p 117-120. Disponível em: http://nlp.stanford.edu/IRbook/pdf/irbookonlinereading.pdf. Acesso em: 17 set. 2011. MARSHALL, K.P. Marketing information systems: creating competitive advantage in the information age. Danvers: Boyd & Fraser, 1996. MARTELETO, R.M. Análise de redes sociais: aplicação nos estudos de transferência da informação. DICI – Diálogo Científico, Rio de Janeiro, v. 30, n. 1, p. 71-81, jan./abr. 2001. 117 MATTAR, F. N. Pesquisa de marketing. São Paulo: Atlas, 2008. MATTAR, F.N.; SANTOS, D.G. Gerência de produtos: como tornar seu produto um sucesso. São Paulo: Atlas, 1999. MAYROS, V.; WERNER, D. Marketing information systems: design and applications for marketers. Radnor: Chilton Book Company, 1982. McCARTHY, E. J. Marketing essencial: uma abordagem gerencial e global. São Paulo: Atlas, 1997. MILLER, S.H., Competitive Intelligence – An Overview, Society of Competitive Intelligence Professionals, Alexandria, VA. 2001. MIRANDA, R.C.R. O uso da informação na formulação de ações estratégicas pelas empresas. Ciência da Informação, Brasília, v. 28, n. 3, p. 286-292, set./dez. 1999. MORGADO JÚNIOR, J.C. Modelo computacional para mineração de texto e análise de questões de concursos. 2008. Dissertação (mestrado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. O’BRIEN, J. Sistemas de informações e as decisões gerenciais na era da Internet. São Paulo: Saraiva, 2004. PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, v.2, n.1-2, pp. 1-135, 2008. PAPACHARISSI, Z. (org.). A Networked Self: Identity, community, and culture on Social Network Sites. Nova York (Estados Unidos): Routledge, 2011. PEDOTT, P.R. Publicidade na internet: a internet como ferramenta de comunicação de marketing. 2001. Dissertação (Mestrado em administração) – Universidade Federal do Rio Grande do Sul – UFRGS, Porto Alegre, RS. PERIOTTO, C. Análise e uso da informação em pequenas empresas de base tecnológica incubadas no polo tecnológico de São Carlos-SP. Dissertação (Mestrado em Ciência, Tecnologia e Sociedade) – Universidade Federal de São Carlos – UFSCAR, São Carlos, SP, 2010. PINHEIRO, M.S. Uma abordagem usando sintagmas nominais como descritores no processo de mineração de opiniões. 2009. Tese (doutorado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. PORTER, M.E. Estratégia competitiva: técnicas para análise de indústrias e da concorrência. 2. ed. Rio de Janeiro: Campus, 2005. RECUERO, R.C. Diga-me com quem falas e dir-te-ei quem és: a conversação mediada pelo computador e as redes sociais na internet. Revista Famecos, Vol. 1, No 38, 2009. RECUERO, R.C.. Information flows and social capital in weblogs: a case study in the brazilian blogosphere. In Proceedings of the nineteenth ACM conference on Hypertext and hypermedia, p. 97-106, New York, NY, EUA, 2008. RIBEIRO, J.C. The increase of the experiences of the self through the practice of multiple virtual identities. PsychNology Journal, vol. 7, n. 3, p.291-302, 2009. 118 RICCI, G.L. Estudo sobre as especificidades das pequenas e médias empresas hoteleiras da região central do estado de São Paulo. XXXI Encontro Nacional de Engenharia de Produção. ENEGEP 2011. Belo Horizonte, MG, out. 2011. RIOS, N.; SPECK, F. O que você está fazendo? - um estudo da socialidade no twitter. XXXII Congresso Brasileiro de Ciências da Comunicação. Sociedade Brasileira de Estudos Interdisciplinares da Comunicação. Revista Iniciacom. Vol 2. Nº 1. Curitiba, PR. 2010. ROBIC, A. R. O comportamento informacional nos sistema de informações de marketing: um estudo exploratório no setor do varejo de moda. 2003. Dissertação (Mestrado em Administração) – Faculdade de Economia e Administração, Universidade de São Paulo, São Paulo. SALZMAN, M.; MATATHIA, I.; O´REILLY, A.. A era do marketing viral: como aumentar o poder da influência e criar demanda. São Paulo: Editora Cultrix, 2003. SANDHUSSEN, R.L. Marketing básico. São Paulo: Saraiva, 1998. SARQUIS, A.B. Marketing para pequenas empresas: a indústria da confecção. São Paulo: SENAC, 2003. SCIP. Society of Competitive Intelligence Of Professionals. Disponível em: <http://www.scip.org/>. Acesso em: 22 ago. 2012. SCOTTO, M.; SILLITTI, A.; VERNAZZA, T.G. “Managing Web-Based Information”, International Conference on Enterprise Information Systems (ICEIS 2004), Porto, Portugal, p. 1-3, Abr, 2004. SEMENIK, R.J.; BAMOSSY, G. J. Princípios de marketing: uma perspectiva global. São Paulo: Makron Books, 1995. SHI, Z; MA, H; HE, Q. Web Mining: Extracting Knowledge from the World Wide Web, chapter XIV, p. 197–208. Springer, 2009. SIMON, B. Identity in Modern Society. A Social Psychological Perspective. Oxford: Blackwell Publishing Ltd, 2004. SILVA, T.R. Monitoramento de Marcas e Conversações: alguns pontos para discussão. In: DOURADO, Danila; SILVA, Tarcízio; CERQUEIRA, Renata; AYRES, Marcel (orgs.). #MidiasSociais: Perspectivas, Tendências e Reflexões. Florianópolis: Bookess, 2010. SILVA, T.R.. Web 2.0, Vigilância e Monitoramento: entre funções pós-massivas e classificação social. In: Anais do Congresso Luso Afro Brasileiro de Ciências Sociais, 2011, Salvador (BA). SILVA, T.R. Aplicativos de análise de informações sociais: mapeamento e dinâmicas interacionais. Dissertação (mestrado em Comunicação). Universidade Federal da Bahia – UFBA, Salvador, BA, 2012. SIQUEIRA, H.B.A. WhatMatter: Extração e visualização de características em opiniões sobre serviços. 2010. Dissertação (mestrado em Ciência da Computação) – Centro de Informática, Universidade Federal de Pernambuco, Recife. 119 SOUZA, F.B. Uma análise empírica de interações em redes sociais. Tese (doutorado em Ciência da Computação). Instituto de Ciências Exatas da universidade Federal de Minas Gerais – UFMG. Belo Horizonte, MG, 2010. STAIR, R.M; REYNOLDS, G.W. Princípios de sistemas de informação: uma abordagem gerencial. Trad. Flávio Soares Corrêa da Silva (coord.) Giuliano Mega, Igor Ribeiro Sucupira. 6ª ed. São Paulo: Cengage Learning, 2008. STANTON, W.J. Fundamentos de marketing. São Paulo: Pioneira, 1980. STAVRAKANTONAKIS, I.; GAGIU, A.E.; KASPER, H.; TOMA, I.; THALHAMMER, A. An approach for evaluation of social media monitoring tools. In: Common Value Management. 1st International Workshop on Common Value Management CVM2012. Heraklion, Grécia, p. 52-64. 2012. TELMA, M.F.P. Uso das ferramentas de Web Analytics no processo de inteligência competitiva das organizações. 2011. Dissertação (mestrado em Ciência, Gestão e Tecnologia da Informação). Programa de Pós-Graduação em Gestão da Informação. Universidade Federal do Paraná, Paraná. TICOM, A.A.M. Aplicação de Mineração de Textos e Sistemas Especialistas na Liquidação de Processos Trabalhistas Especialistas. 2007. Dissertação (mestrado em Engenharia Civil) – Instituto Alberto Luiz Coimbra de Pós-graduação e pesquisa de engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. TOMAEL, M.I.; ALCARÁ, A.R.; CHIARA, I.G. Das redes sociais à inovação. Ci. Inf., Brasília, v. 34, n. 2, p. 93-104, maio/ago. 2005. TWITTER. Twitter Inc. Disponível em http://www.twitter.com. Acesso em 20 de Agosto de 2011. VALENTIM, M.L.P. Processo de inteligência competitiva organizacional. In: VALENTIM, M.L.P. (Org.). Informação, conhecimento e inteligência organizacional. Marília: Fundepe Editora, 2006. 282 p. 9-24 p. WIERENGA, B.; BRUGGEN, G. V. Marketing management support systems: principles, tools and implementation. Boston: Kluwer Academic Publishers, 2000. WIVES, L.K. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. 2002. Dissetação (Mestrado em Ciência da Computação) – Instituto de Informática, UFRGS, Porto Alegre. YAMASHITA, S.S. Internet e marketing de relacionamento: impactos em empresas que atuam no mercado consumidor. 2003. Dissertação (mestrado em administração) – Faculdade de Economia, Administração e Contabilidade, Universidade de São Paulo – USP, São Paulo.