UNIVERSIDADE METODISTA DE SÃO PAULO FACULDADE DE COMUNICAÇÃO Programa de Pós-Graduação em Comunicação Social Leandro Tavares Gonçalves Perspectivas e metodologias de pesquisa da Comunicação Social no contexto da internet com o Big Data e da especialização Data Scientist. Projeto de Dissertação apresentado como exigência parcial para obtenção do Título de Mestre em Comunicação Social da Universidade Metodista de São Paulo. Orientador: Professor Dr. Walter T. L. Júnior São Bernardo do Campo, 2014 FOLHA DE APROVAÇÃO A dissertação Perspectivas e metodologias de pesquisa da Comunicação Social no contexto da internet com o Big Data e da especialização Data Scientist, elaborada por Leandro Tavares Gonçalves, foi defendida no dia 09 de setembro de 2014, tendo sido: ( ) Reprovada (X) Aprovada, mas deve incorporar nos exemplares definitivos modificações sugeridas pela banca examinadora, até 60 (sessenta) dias a contar da data da defesa . ( ) Aprovada ( ) Aprovada com louvor Banca Examinadora : Prof. Dr. Walter Teixeira Lima Junior, Orientador _________________________________________ Prof. Dr. Vinicius Romanini _________________________________________ Prof. Dr. Fábio Botelho Josgrilberg _________________________________________ Área de concentração: Processos Comunicacionais Linha de pesquisa: Inovações Tecnológicas na Comunicação Social Contemporânea Projeto temático: Perspectivas e metodologias de pesquisa da Comunicação Social no contexto da internet com o Big Data e da especialização Data Scientist. AGRADECIMENTOS Tenho o imenso prazer de agradecer minha família pela força concedida, em especial minha irmã Luciana e pelas minhas filhas que nasceram no meio do caminho aqui trilhado e também a tantos outros a percorrer me concedendo a graça de perceber o mundo sob a linha do amor incondicional. Epígrafe "As fronteiras da minha linguagem são as fronteiras do meu universo." Ludwig Wittgenstein, Áustria. 1889 // 1951 RESUMO O trabalho desenvolvido analisa a Comunicação Social no contexto da internet e delineia novas metodologias de estudo para a área na filtragem de significados no âmbito científico dos fluxos de informação das redes sociais, mídias de notícias ou qualquer outro dispositivo que permita armazenamento e acesso a informação estruturada e não estruturada. No intento de uma reflexão sobre os caminhos, que estes fluxos de informação se desenvolvem e principalmente no volume produzido, o projeto dimensiona os campos de significados que tal relação se configura nas teorias e práticas de pesquisa. O objetivo geral deste trabalho é contextualizar a área da Comunicação Social dentro de uma realidade mutável e dinâmica que é o ambiente da internet e fazer paralelos perante as aplicações já sucedidas por outras áreas. Com o método de estudo de caso foram analisados três casos sob duas chaves conceituais a Web Sphere Analysis e a Web Science refletindo os sistemas de informação contrapostos no quesito discursivo e estrutural. Assim se busca observar qual ganho a Comunicação Social tem no modo de visualizar seus objetos de estudo no ambiente das internet por essas perspectivas. O resultado da pesquisa mostra que é um desafio para o pesquisador da Comunicação Social buscar novas aprendizagens, mas a retroalimentação de informação no ambiente colaborativo que a internet apresenta é um caminho fértil para pesquisa, pois a modelagem de dados ganha corpus analítico quando o conjunto de ferramentas promovido e impulsionado pela tecnologia permite isolar conteúdos e possibilita aprofundamento dos significados e suas relações. Palavras chave: Web Science, Big Data, Yahoo Pipes, RapidMiner, Wikipedia Miner, informação, linguagem, tecnologia, internet, cognição, recursividade, modelagem de informação. ABSTRACT The work analyzes the media in the context of the Internet and outlines new methodologies for the study area in filtering meanings in the scientific realm of information flows from social networks, news media or any other device that allows storage and retrieval of structured information and unstructured. In an attempt to reflect on the ways that these information flows and develop mainly in the volume produced, the project scales the fields of meanings that this relationship appears in the theories and practices of research. The aim of this study is to contextualize the media area within a changing and dynamic reality that is the environment of the internet and make parallel before the applications already successful in other areas. With the method of case study three cases were analyzed under two conceptual keys to Web Sphere Analysis and the Web Science reflecting the opposing information systems in the discursive and structural aspect. This way observes what the Media has earned in order to view its objects of study in the environment of internet networks for these prospects. The research result shows that it is a challenge to the researcher Media seek new learning, but the feedback information in a collaborative environment that the Internet presents is fertile ground for research path, for data modeling wins analytical corpus when the set of tools promoted and driven by technology allows isolating contents and allows deepening the meanings and relationships. Keywords: Web Science, Big Data, Yahoo Pipes, RapidMiner, Wikipedia Miner, information, language, technology, internet, cognition, recursion, information modeling. LISTA DE FIGURAS FIGURA 1 - Mapa processual do experimento dos DMPs.......................................................43 FIGURA 2 - Mapa conceitual das dimensões da informação...................................................48 FIGURA 3 - Interface da plataforma Pipes e suas estruturas modulares..................................63 FIGURA 4 - Interface da plataforma Pipes no modo de visualização dos resultados .............64 FIGURA 5 - Diagrama de arquitetura do Wikipedia Miner.....................................................68 FIGURA 6 - Aprendizagem de máquina sobre camadas de informação do Wikipedia...........68 FIGURA 7 - Aproximações de informação estruturada da busca relacional entre as palavras................................................................................................................70 FIGURA 8 - Como a estrutura de tópicos da Wikipedia pode ampliar busca por links conceituais...........................................................................................................71 FIGURA 9 - Processo de predição conceitual por probabilidade – Wikipedia Miner..............73 FIGURA 10 - Aplicação de validação cruzada em um Data Set do curso EAD, Big Data in Education da Universidade de Columbia............................................................78 FIGURA 11 - Interface da caixa de modelagem validação e automatização de correlações de variáveis (K-NN) e teste de modelo (Apply Model e Performance)...................79 FIGURA 12 - Resultado do teste com uso do algoritmo Kappa – teste de confidência...........80 LISTA DE TABELAS TABELA1 – Uso da internet e estatísticas da população.........................................................51 SUMÁRIO 1. INTRODUÇÃO ............................................................................................................... 10 2. TEORIAS E PERSPECTIVAS ...................................................................................... 17 2.1. A Comunicação Social, o Meio e a Informação ......................................................... 17 3. FILOSOFIA DA LINGUAGEM .................................................................................... 26 3.1.Ludwig Wittgenstein, John Von Neumann, Heinz von Föerster e os estudos cognitivos: linguagem da cognição ou cognição da linguagem?.......................................26 4. DATA SCIENTIST E BIG DATA .................................................................................. 46 4.1.Wire Frames, Data Sets, clusters: filtros cognitivos ................................................... 46 4.2.“Métodos” para a Ciência da Comunicação Social ..................................................... 59 5. ESTUDOS DE CASO ...................................................................................................... 61 5.1.Yahoo Pipes: agregador Big Data. .............................................................................. 61 5.2.Wikipedia Miner: mineração de conhecimento. .......................................................... 66 5.3.EDM: mineração de dados educacionais..................................................................... 74 6. CONSIDERAÇÕES FINAIS.......................................................................................... 82 REFERÊNCIAS......................................................................................................................88 1. INTRODUÇÃO O acesso à informação, a facilidade de sua publicação assim como a mobilidade para fazer tal ação, possibilitada pela evolução dos dispositivos móveis e da infraestrutura da internet, são consideradas praticidades para a sociedade contemporânea. Entretanto, por traz dessa praticidade, temos a invasão de privacidade por parte dos rastreamentos comportamentais das pessoas no uso da internet pelas empresas e hackers; questão dos direitos autorais no compartilhamento dos conteúdos; a qualidade da informação; a permanência, disponibilidade e forma de acesso da informação e o volume gerado pelas interações conjecturam um quadro complexo. Mas qual a importância de observar esse volume? Por outro lado, no que incide diretamente na Comunicação Social, se observa a potência das mídias digitais em divulgação de conteúdo e é um desafio organizar todo esse fluxo de informação. A fragmentação das redes e sua dinâmica na filtragem e correlações “empurram” a informação para o status de dados, isto é, não apresenta em um primeiro momento significado semântico. Se uma pessoa mantém um Blog atualizado unicamente sobre os sintomas da gripe H1N1, mas não preserva as fontes e não é um profissional da saúde provavelmente é um engajado no assunto. Dessa forma não legitima cientificamente autoridade no mesmo (evidente que sua intensão possa não ser científica mesmo sendo um profissional da área e é aqui que reside uma das complexidades da informação). Entretanto, se em vários Blogs se “comentam” os sintomas da doença e isso poder ser observado como crescente em um intervalo de dias, meses, anos ou há uma influência de formação de opinião sobre esse assunto pode-se inferir que o índice da doença apresenta indicadores crescentes? Isso pode ser cruzado com banco de dados dos hospitais e possibilitar constatar uma epidemia da doença. Mas isso requer um processo de formatação estrutural da informação para que seja possível a extração e aplicação de metodologias analíticas das mensagens e conteúdos, nesse caso, digitais (formato diferente do analógico que foi transformado, codificado para digital-binário, interpretável para a máquina gerar processamento de dados via linguagem de computação). Se a Comunicação Social, como se pode observar na história das teorias da comunicação (POLISTCHUK et al, 2003, p.73), estudou os media no ambiente social é pertinente também estudá-las no ambiente que favorece armazenamento, filtragem e mensuração em tempo real e de forma temporal. Aqui se busca o porquê da Comunicação 10 Social usufruir das ferramentas tecnológicas das redes telemáticas1 para ampliar tentativas de observar o fenômeno do objeto comunicacional no fluxo contínuo de informação. Tal contextualização dá suporte para uma questão e dessa forma coloca-se o problema principal: como e por que a Comunicação Social pode diminuir a defasagem informacional entre o que quantitativamente se cria de informação versus o que se pode absorver cognitivamente em termos qualitativos no fator tempo? Dentro dessa visão comunicacional estão contidas suas linguagens, mensagens e conteúdos midiáticos além do conhecimento estrutural das redes telemáticas que aumenta a complexidade em questão. O que se tem feito e pensado em outras áreas inclusive das Ciências Humanas e quem está fazendo tais exercícios semânticos vindouros como metodologias de análise de acordo com sua especialização científica? Outros problemas que surgem ao refletir o principal são até que ponto a complexidade do tema e da abrangência da área pode limitar o estudo em questão e quais requisitos mínimos são necessários para empreender estudos científicos na área; quais teorias da Comunicação são atreladas e o que elas já produziram para ser refletido e quais oportunidades de pesquisa que se podem somar para manutenção ou ampliação das mesmas dentro do contexto tecnológico da internet. O ambiente e a estrutura das redes telemáticas são muitos complexos no sentido de quantidade de variáveis e áreas que as permeiam. A Ciência da Computação, a Linguagem, a Matemática, a Cognição, entre outras se relacionam nesse ambiente. A escolha dessas áreas surgiu durante o caminho da pesquisa e pela complementaridade conceitual que compartilham como conseguinte será explanado no decorrer do projeto. Uma hipótese é que o pesquisador da Comunicação Social pode ampliar suas pesquisas pelos impactos tecnológicos porque os artefatos se mesclaram nas suas produções a ponto de intervir no modo clássico de fazer Comunicação Social e tal fato pode aumentar. Uma oportunidade de criar algo novo e como de certa forma o Big Data2, que pode ser entendido como um grande armazenamento de dados e maior velocidade de resgatar informação, pode dar ganho aos intentos científicos é pertinente. Estamos vivendo rumo a uma Arquitetura que usa, além da criatividade e design, não apenas concretos, malhas de ferro, pisos e divisórias, mas um design de informação, 1 Telemática é a comunicação à distância de um ou mais conjunto de serviços informáticos fornecidos através de uma rede de telecomunicações. Disponível em: http://www.telematics.com/guides/telematics-history-futurepredictions/. Acesso em: 12 de Jun.2014. 2 The World’s Technological Capacity to Store, Communicate, and Compute Information. Disponível em: http://www.ris.org/uploadi/editor/13049382751297697294Science-2011-Hilbert-science.1200970.pdf . Acesso em: 12 de Jun.2014. 11 aspecto que gera novas Arquiteturas pautadas em lógicas e linguagens algorítimicas 3 que potencializam cognições. As novas ferramentas de análise agrupadas nos artefatos tecnológicos que "clusterizam"4 as comunicações favorecem estudos neste âmbito. O objetivo geral deste trabalho é contextualizar a área da Comunicação Social dentro de uma realidade mutável e dinâmica que é o ambiente das redes telemáticas e fazer paralelos perante as aplicações já sucedidas por outras áreas. O objetivo específico é refletir e delinear metodologias científicas de pesquisa para a Comunicação Social levando em consideração sua vocação e pertinência dentro do contexto digital no volume de informação. Acredita-se que o estudo monográfico possa pela observação de outras áreas e da própria área em questão dar subsídios para a Comunicação Social em aplicações metodológicas de análise diante do desenvolvimento tecnológico. A Comunicação Social e a Tecnologia, em uma perspectiva essencial e histórica, sempre andaram próximas. Desde a expressão oral assim como a invenção do alfabeto o ser humano busca, pelo ato comunicativo, se relacionar com o outro e com o mundo que o cerca e isso é irrevogável. É uma necessidade humana. A Tecnologia aparece nessa relação e ganhou importância que vem galgando na história poder de intervenção científica: faculdade de observar a natureza e mimetizar suas riquezas quiçá entendê-la até mesmo dominá-la de forma predadora. Mas não é contraditório dizer que a Comunicação Social é uma “Tecnologia natural” mesmo porque somos dotados dessa capacidade técnica lógica de construir contrapontos que geram outras visões assim sucessivamente perante a evolução que se projetaram na medicina, na matemática, na astronomia, literatura, engenharia e etc. Ao estender a capacidade de significar as coisas e codificar para o outro o homem desenvolve seu espelho lógico na alteridade social, uma “engine” ou máquina simbólica. O fato de se poder observar o que não se consegue “a olho nú” e consequentemente gerar conhecimento, dentro do recorte analítico planejado via experimento, é um ganho científico a exemplo dos avanços tecnológicos dos microscópios em descobrir novos organismos ou como são suas taxonomias e ontologias. Na internet as informações podem ser vistas5 e o volume e escala de informação é que torna o entendimento mais complexo. 3 Um algoritmo é uma sequência finita de instruções bem definidas e não ambíguas, cada uma das quais pode ser executada mecanicamente num período de tempo finito e com uma quantidade de esforço finita. Um algoritmo não representa, necessariamente, um programa de computador, e sim os passos necessários para realizar uma tarefa. Disponível em: http://www.kcats.org/csci/464/doc/knuth/fascicles/fasc1.pdf. Acesso em: 12 de Jun.2014. 4 O termo aqui utilizado pode ser entendido, em um primeiro momento, como um conjunto de similaridades. 5 Apesar da possibilidade de acesso à informação na internet ser plausível, vale lembrar que há uma limitação técnica no que tange a abertura, formatação e direitos autorais dos bancos de dados por governos, empresas e pessoas. 12 Evidente que o significado ampliado pela Tecnologia no seu âmbito natural e conduzido pelos impulsos binários, lógicas computacionais não resolve todos os problemas metafísicos da percepção, uma vez que toda tecnologia passa pelo crivo do que é sentido, relacionado e emitido consciente e inconscientemente, mas quando se admite que se possa refletir como é o próprio processo de reflexão um ganho se observa a exemplo dos estudos da neurociência área que desbrava as relações químicas do cérebro e dessa forma favorece esforços na diminuição de impacto de algumas doenças. A relação da tecnologia favoreceu desenvolvimento constante de áreas do conhecimento por interação de forma pragmática e teórica. Não cabe aqui justificar que nossa Comunicação Social, a do Homo sapiens, é melhor ou pior das outras que acontecem a todo o momento a nossa volta entre os seres vivos que participam do mesmo habitat como as químicas, térmicas e sonoras. O fato é que a Tecnologia que foi estendida pela Comunicação Social humana dá subsídios para entender como e porque algumas variáveis comunicacionais se comportam dentro da realidade interconectada no volume e dimensão que é a atual6. As redes sociais, por exemplo, estão repletas de “organismos semânticos7”, pois existem valores e propriedades que espelham os significados que as pessoas propagam e a mesma informação está em um formato estruturado para ser acessado e analisado. Mas qual o ganho que tal avanço tecnológico dá para a pesquisa na Comunicação Social por esse acesso? Em um primeiro momento a análise, entre várias outras que se pode encontrar e recortar, é ver padrões indexados contidos nos formatos estruturados e relacionados a outros de outras fontes ou até mesmo dentro do ambiente estudado para ver o grau de proximidade entre os mesmos. As conclusões da utilidade e veracidade dependerão de como e o quê o experimento científico comunicacional pretende analisar. Aqui se encontra a oportunidade. Pode-se perceber esse impacto tecnológico desde os primórdios dos estudos das Teorias da Comunicação Social, cada qual com sua visão, mas sem o fenômeno síncrono da mensagem em fluxo contínuo (emissor envia uma mensagem para o receptor e este a recebe instantaneamente) e sim pela evolução da comunicação assíncrona (o emissor envia uma mensagem ao receptor que poderá ler e responder a mensagem em outro momento). A internet, redes telemáticas “plugaram”, isto é, ligaram essas visões pela capacidade conectiva e a clássica visão emissor, mensagem, receptor estão ligadas em tempo real e aumentando a 6 7 Grifo meu. Analogia minha para exemplificar a questão técnica onde a Comunicação Social se encontra. 13 cada dia. Outras áreas da ciência também são impactadas por esse fenômeno e assim, de certa forma, um ponto de vista específico nasce nesse ambiente que é a análise de informação gerada por essas conexões que podem ser “estocadas” e depois passíveis de observação mais detalhada que de certa forma beneficia uma reflexão das questões fundamentais da Comunicação Social como, por exemplo, o que incita comunicar. Esse olhar está fazendo com que Propaganda reveja seu modo de planejar e propagar campanhas, o Jornalismo de produzir e publicar notícias, as Relações Públicas de antever e administrar crises e das Rádios e TVs compartilharem seus conteúdos. Tal olhar não refuta e não tenta resolver todas as dimensões de ordem humanista ou mecanicista, mas as repensam sobre uma perspectiva do Paradigma MatemáticoInformacional e Midiológico que estão contidas na Comunicação Social assim como as essências do conceito de Informação na Tecnologia8 e vice-versa. O Paradigma Matemático-Informacional (POLISTCHUK et al, 2003, p.99-108) ocorreu na década de 40, no pós-guerra onde surge o behaviorismo que pode ser resumido como ciência do comportamento manifesto, isto é, de acordo com esse conceito seria aceitável estimar-se o comportamento humano através de uma ação observável. Para o ideal do paradigma propriedades subjetivas dificultavam a observação científica e nessa ideia Norbert Wiener concebeu, com conceitos matemáticos, uma teoria denominada de Cibernética que é uma análise científica de visão geral que considera todas as inter-relações dinâmicas de suas partes. Dentro desse contexto os pesquisadores Shanon e Weaver (POLISTCHUK et al, 2003, p.101) atentaram-se com a pureza da transmissão da mensagem e com as características morfológicas. Para evitar ruídos na mensagem, os pesquisadores refletem que a codificação seja apurada para que a propriedade semântica da mensagem seja alçada. Weaver fixou-se no esquema da comunicação emissor – mensagem - receptor o “receptor semântico” que irá decodificar a mensagem em um segundo momento, sendo que no primeiro o método é mecânico, harmonizando-se ao destinatário final. Por outro lado, o pesquisador chamado David. K. Berlo (POLISTCHUK et al, 2003, p.105) produziu uma ideia à teoria de Shannon e Weaver adequando os estilos do emissor, o que possui algum conhecimento e receptor, o que faz algum conhecimento. O pesquisador ressalta a importância do canal no processo e acredita que a comunicação não é somente parte de significados, mas também provoca sentidos. De acordo com sua “teoria do Balde”, Berlo reflete que todo emissor esvazia os sentidos “como um balde” sobre a cabeça do receptor. 8 Na página 44 será ampliado o conceito de informação. 14 Já na década de 70 nos Estados Unidos, baseando-se nas premissas do Paradigma Matemático-Informacional o pesquisador Wilbur Schramm (POLISTCHUK et al, 2003, p.106) soma ao modelo de Shannon e Weaver que transmissor e receptor resultaria em “fonte e comunicador”. Aqui, há retroalimentação entre emissor e receptor. Quanto maior for o campo de experiências próximas entre as pessoas melhor o resultado e a apreensão da mensagem. Mais adiante, no ítem2 deste trabalho, serão retomados os paradigmas aprofundando seus conceitos e as relações com outras áreas principalmente na questão da informação e do meio onde será observada uma influência da filosofia da linguagem que inclina de certo modo uma reflexão sobre os caminhos que os fluxos de informação se desenvolvem. Apesar da variedade de assuntos relacionados e autores, nota-se que a questão da representação simbólica, recursividade das lógicas e percepção das áreas sobre o assunto formam no ponto de vista da Comunicação Social elos que pressupõem métodos de observar o objeto de estudo de modo transversal e histórico com preocupação científica9 de descrever o percurso dos experimentos assim com sua utilidade comprobatória. No intuito de uma revisão do Paradigma Matemático-Informacional e do Paradigma Midiológico sobre a questão do Canal Comunicativo e do Meio e como isso se mostra com a conexão possibilitada pelo conjunto de metodologias que dão suporte para o Data Scientist10, que será explanado mais adiante, este estudo mira entender qual o fator preponderante que norteia o desenvolvimento das teorias e como tecnologicamente isso se desdobra. Apesar das críticas sobre um funcionalismo-pragmático e determinismos reducionistas, lembrando que qualquer recorte científico racionalista ou metafísico já é um reducionismo, a observação da Cibernética e do meio como canal de Comunicação Social dá pistas para ver a possibilidades que a Comunicação Social possui dentro do contexto do Big Data e ainda amparados pela Ciência da Computação e da Cognição no que evoluiu durante esse processo assim como os contrapontos que nascem dessa evolução e que de certa forma foram iniciados no contexto do Paradigma Matemático-Informacional. Tal evolução foi ampliada desde a criação do Chipset (centro de processamento da informação no computador) que permitiu a automatização de processos de âmbito industrial e apesar da grande influência que isso se dá na sociedade é importante saber até que ponto tal a ação altera o processo cognitivo humano. Alguns pesquisadores da área da Neurociência afirmam que a cognição já pode ser alterada pela intervenção tecnológica assunto que será abordado mais adiante. 9 Grifo meu. Esse conceito pode ser resumido de modo inicial como o cientista que analisa o big data. 10 15 Concomitantemente a essa evolução tecnológica o que deu início na observação dos “sistemas de controle” e “comportamentos automáticos” com maior foco na questão da eficácia da informação nos modelos de Claude Shannon e Warren Weaver dá oportunidades para análise científica de um canal que se desenvolveu em uma cadeia semântica conectada, a Internet. O código, o canal e o receptor se entendiam no modelo linear da eficácia da informação. Por outro lado, o poder técnico no que o canal de comunicação se dá atualmente extrapola suas “binariedades” (contrapondo a ideia de evitar ruídos somente), pois o conteúdo pode ou está passível de ser semantizado de modo assíncrono, isto é, se pode interagir tecnicamente com a mensagem criada em tempos diferentes e também, foco central do problema deste projeto. Não se fará aqui um retorno histórico sobre a fundamentação da técnica e da tecnologia já empreendido por alguns pesquisadores como, por exemplo, André Lemos. O estudo partirá do princípio de que informação e sua história e o seu encontro com a Comunicação Social já configuram indícios do contexto abordado. Delineadas as teorias e estudos, que participam deste contexto como suporte para a análise do estudo de caso de três aplicações metodológicas dentro das áreas que interagem perante a tecnologia e com a linguagem, será analisada a hipótese de que a Comunicação Social pode vislumbrar algo novo nesse empreendimento. 16 2. TEORIAS E PERSPECTIVAS 2.1. A Comunicação Social, o Meio e a Informação Dentro do Paradigma da Comunicação Social (Matemático-Informacional) estudado concorda-se que as questões centrais do modelo teórico cibernético, a técnica e a semântica são fundamentais para a Comunicação Social porque o grau de nitidez entre a transmissão de sinais e seus significados podem ser codificados e decodificados pelo aparato tecnológico (POLISTCHUK et al, 2003, p.99-108). Entretanto, a eficiência e eficácia não se findam no foco do entendimento da estrutura e sim se abre da abstração que se gera ao se organizar informação (formato, banco de dados) no sentido do axioma e do pensamento computacional. Percebem-se evidentes, ao se estudarem as formas e sintaxes utilizadas para programação das máquinas, que são projeções senão espelhos das estruturas cognitivas humanas assim como as físicas pelos impulsos elétricos. Aqui o conceito de extensão de McLuhan (inspirado no filósofo Henri Bergson) no Paradigma Midiológico se faz pertinente porque a linguagem é vista como uma tecnologia (MCLUHAN, 1964, p.97). Por outro lado, ainda que a linguagem seja intrínseca a mente humana quando passa pela mecanização, impressão no caso, ela se “ciberniza” no meio. “Como os biólogos apontam, o cérebro é o lugar de interação, onde todas as espécies de impressões e experiências se intercambiam e se traduzem, permitindonos reagir ao mundo como um todo. [...] A mecanização de qualquer processo se atinge por fragmentação, a começar pela mecanização da escrita mediante tipos móveis e que já mereceu o nome de ‘monofratura da manufatura’. [...] A fonte de energia é separada do processo de tradução da informação ou aplicação do conhecimento [...] A mesma separação de energia e processo ocorre na indústria automatizada, ou ‘cibernação’.” (MACLUHAN, 1964, p.390) É válido observar a questão do meio como objeto, veículo e ecossistema. Porém, a questão da semântica ganha impacto no contexto da interação social na web no sentido de ecossistema. O fato é que a Comunicação Social nesse contexto deixa de ser apenas uma “relação midiática” e ganha poder colaborativo não se findando na “narcose” da mensagem (MCLUHAN, 1964, p.59). Talvez seja aqui que a internet extrapola a Teoria do Meio, descrita aqui resumidamente na intervenção cultural dos canais por suas mensagens 17 observados em determinismos tecnológicos, assim como em relação à Cibernética11, que controlava a automatização dos sistemas, pois favorecidos pela cognição os “campos de experiência” participam do conceito de Retroalimentação12. Aqui se observa um elo importante, a interação em escala planetária. Uma cadeia de processos se espelha nos jogos de linguagens sociais para os jogos de linguagem mais “duras”, técnicas, contidos na interface do computador. As interfaces são “silos” de informação que dependendo da forma como foram estocados podem ser retornados e visualizáveis, mas delineados por suas limitações como canal midiático. O que se pode observar nas reflexões do Paradigma Midiológico é que os efeitos dos meios engendram novos ambientes e que isso afeta os sentidos, mas não apenas em uma aldeia global, em contraponto com a ideia de McLuhan da conexão das redes “encurtar” os espaços, e suas particularidades e efeitos locais com meios quentes e frios de comunicação, mas em uma constante transformação cognitiva promovida pela conexão, além de efeitos, mas de formação, cocriação de cultura. O que pode ser notado na história da tecnologia é que a cibernética, a biônica e a robótica fomentaram em larga escala a acumulação possível de informação dentro do triângulo de valor do menor espaço, menor custo e na rapidez de circulação. Até que ponto, dentro da sociedade da informação, a Comunicação Social pode “minerar” a quantidade pela significação acumulada? Como sugestão de pensar o tema coloca-se em questão oito chaves conceituais que permeiam o contexto da tecnologia, inclusive a internet, e as áreas relacionadas em comum que são a imediatividade, concomitância, interatividade, codificação e conversibilidade, digital e analógico e modelagem da informação (POLISTCHUK et al, 2003, p.42-54). As tecnologias da internet criam novas linguagens quando no ambiente de trabalho, no lazer ou qualquer contexto social. A interação promove a causa e o efeito dessas culturas em tempo real. O imaginário que essa realidade impacta está presente em outros estudos, não apenas na Computação, Cognição e Comunicação Social, mas da Antropologia e Linguagem que serão explanadas adiante. Antes de analisar e definir os conceitos que se acreditam pertinentes 11 Será abordado mais adiante, mas que pode ser resumido como o esforço de entender a Comunicação através de analogias das máquinas. 12 Conforme já explanado anteriormente este conceito foi elaborado por Wilbur Schramm, um pesquisador que já fez uma revisão do Paradigma Matemático-Informacional e ampliou o conceito de codificação e decodificação para campo de experiências aproximando a ideia da importância do contexto social que foi motivo de crítica por outros pesquisadores da versão de Shannon e Weaver. 18 à pesquisa da Comunicação Social sob a perspectiva do Big Data e Data Scientist serão delineados os pontos centrais dos contextos do estudo aqui empreendido. O intento de pensar a Comunicação Social dentro de novas perspectivas transdisciplinares (que não é nova, pois de forma similar já foi conduzida nas engenharias de Shannon sugerindo a Comunicação Social o ratio matemático) pode, talvez, ser um reducionismo em recortar os objetos comunicacionais na ajuda estatística de ferramentas dispostas na internet, mas fundamentalmente tenta por esse meio organizar a fragmentação que se encontra no volume de informação estruturada e não estruturada na internet ou até mesmo validar sua utilidade pelo “valor” de suas relações e não somente pelos seus “pesos” nos recursos da linguagem. A Recursividade, conceito que participa de outras áreas como a Matemática (lógica de um axioma), a Linguagem (significado e suas relações) e da Computação (linguagem de programação) é uma forte evidência de que as representações que perfazem as teorias são menos transdisciplinares do que se parecem, mas claro, respeitando cada qual com sua particularidade. O objeto é binário em sua estrutura, mas extrapola sentidos nas relações e interações das interfaces telemáticas porque uma vez carregados de valores semânticos são passíveis da interpretação no advento técnico. A questão da técnica, na concepção ocidental, se observa visitada nas origens gregas na relação entre a natureza e o lógos. Entretanto, as variações simbólicas que caminham na história grega até a atual lida com a interpretação, a exemplo da Escola de Konstanz 13 no exercício da crítica literária pela chave interpretativa hermenêutica observadora da dinâmica dos significados (concomitância) para buscar superar o hiato perceptivo entre o leitor e o escritor, e a Tecnologia não foge dessa reflexão. Por quê? Porque para alguns pesquisadores a tecnologia é vista como ferramenta de domínio de poder e para outros como liberdade de criação ou ainda, aniquilamento das qualidades humanas de comunicar no ato de estar frente a frente com o outro no exercício dialógico (RÜDIGER, 2011). O ato de comunicar via canal tecnológico abarca a todas essas indagações, mas negá-las seria ingênuo. A informação14 resultada pela concomitância interativa, elo de outras áreas e das teorias da Comunicação, ganha poder de significação nas experiências, nos testes das hipóteses e relações não somente metafísicas ou matemáticas, mas de ambas. O estudo da linguagem favorece um “descondicionamento” das especializações das áreas? Até que ponto a 13 LIMA, Luiz Costa. A literatura e o leitor: textos de estética e recepção. Rio de Janeiro: Paz e Terra, 1979. p. 63-82. 14 O conceito de informação aqui empregado possui um significado abrangente, mas aqui pode-se entender por conhecimento. Mais adiante será abordado o conceito de forma mais aprofundado sob o ponto de vista do pesquisador Luciano Floridi. 19 interação da linguagem recondiciona a linguagem da interação? Como a informação está inserida na linguagem? As chaves conceituais sugeridas anteriormente para análise participam de um jogo de significados que perfazem a Linguagem com propriedade dinâmica referenciada por uma delas que é a interação. A Linguagem é uma interface humana. Porém, a amplitude do significado de linguagem não se finda em uma das camadas que compõem sua interpretação. A história do homem nas suas conquistas científicas dão provas para que a Tecnologia se torne face e parte dessas camadas impregnadas conceitualmente, para tanto, culturalmente envoltas e representáveis. As implicações que essas angulações de camadas provocam inclinam perspectivas psicológicas, cognitivas, computacionais, comunicacionais, sociológicas e antropológicas. Apresentando historicamente uma vocação mais prática a Comunicação Social epistemologicamente atrelada ao artefato midiático comunicacional transcorre em suas escolas e conceitos por visões funcionais, críticas, informacionais, culturais, linguísticas e dialógicas. Evidente que as diferenças, assim como suas semelhanças, enriquecem suas partilhas quando busca no objeto de estudo definir as vicissitudes sociais. Palavras como simbólico, estrutura, meio, filosófico, estética, hegemonia, consciência, condicionamento, identidade, superestrutura, filosofia, linguagens, mensagem, função social, consciência, seleção, escolha, semântica, percepção, experiência, conhecimento, cultura, inconsciente, fragmentação, tecnologia, conexão, cognição, sistemas entre outras são vistas constantemente nos discursos sobre o foco da mensagem15. Todas essas palavras aparecem nas escolas dos estudos comunicacionais de certa forma explícita, implícita ou proveniente de outra no contexto histórico. O que muda é como são trabalhadas epistemologicamente. Mas um compromisso social da Linguagem se faz útil quando os assuntos, que vigoram sobre as Tecnologias Digitais pareadas com a Comunicação Social, apelam para um sentido ético uma vez que invasão de privacidade, inovação e poder (patentes, propriedade intelectual e domínio de implementação) “emergem” do caldo digital. Tal abordagem merece ser refletida, mas não será empreendida aqui. Entretanto, as interações dimensionadas pela escalabilidade16 da linguagem que a Tecnologia da internet detém sobre as relações sociais no ambiente das redes telemáticas, abrem oportunidades de compreender como essas camadas estão se reinventando constante e 16 Esse conceito será analisado adiante na página 44, mas em resumo significa o poder de reutilizar esforços de trabalho pela modelagem da informação. 20 rapidamente nas interfaces digitais intercedidas pelos sistemas simbólicos como extensão da biologia humana. De modo menos imediato essa ideia é observada com inclinação à condição humana da dependência da Tecnologia, no pensamento de Francisco Rüdiger (2007, p.76) quando reflete a necessidade de superar as tensões ao pensar sobre as novas mídias. O autor em sua obra, ao dividir em algumas partes o pensamento da cibercultura que é o populismo tenocrático (tendência de ver a Tecnologia como fator de desenvolvimento social), os conservadores midiáticos (alegam que o conteúdo da internet é medíocre) e os cibercriticistas (a cibercultura é uma ideologia capitalista) sugere uma macro visão para abordar o tema da Comunicação Social e da Tecnologia. De forma geral observa-se na obra uma polarização entre efeitos políticos no domínio da Tecnologia perante a sociedade e de uma reflexão existencialista da condição humana nas inovações e desenvolvimentos sociais. Na revisão conceitual empreendida pelo autor percebe-se que o ambiente da Cibercultura favorece a criação de agrupamento de afinidade, clusters, contrapostos pelo determinismo tecnológico desenvolvimentista (modelagem da informação). No contexto histórico da Cibercultura o entendimento mais profundo das articulações desses saberes, inclusive nos primórdios dos pensamentos cibernéticos criado por Norbert Wiener ao tentar resumir a Comunicação Social no reducionismo matemático com foco em ver os ruídos e entropias (conceito herdado da termodinâmica que reflete o estudo de equilíbrio de energia entre a matéria, principalmente nos elementos líquidos e gasosos) das mensagens e não seus significados se torna evidente com as relações já empreendidas até o momento na pesquisa deste trabalho. Por outro lado, como mostra Melaine Mitchell (2009, p.61), é desse reducionismo que se herdou a sugestão do pensamento binário da máquina por Alan Turing quando resolve um problema matemático de David Hilbert de que nem todo postulado matemático tem um procedimento definitivo que possa decidir se a lógica é falsa ou verdadeira. Partindo de um modelo que assume inicialmente um estado (como, por exemplo, digitar um texto equivale a 1 e apagá-lo equivale a 0 e quando se digita algo a regra muda para apagá-lo) cria um espelho dessas máximas, mas ao tentar defender um estado que foge ao modelo inicial (no exemplo anterior parar de digitar não participa das máximas) há uma “prova da contradição”. Essa abstração lógica baseia a essência da Ciência da Computação uma vez que a partir dessa lógica todas as evoluções estruturais do computador se ancoraram nela. O intento de observar outras áreas aqui não é apenas ver o que deu certo para preencher um vácuo epistêmico da Comunicação Social, mas observar o que é “comum” nas “ações” de outras áreas, isto é, existe a Comunicação Social dentro das outras áreas assim 21 como existe matemática dentro da física e da química. O que fez a Comunicação Social para não ser solidamente científica em sua prática foi, talvez, seu afastamento essencial de seu ente que é a coexistência conceitual de observar o impulso dado pelos artefatos tecnológicos que outrora foram determinados para ver suas reações e/ou ações com óculos diversos. O ato de rever a Comunicação Social neste contexto, dentro da dinâmica como as redes telemáticas se integram, sugere observar um fato que coexiste em outras áreas que é a velocidade e quantidade de informação que habita a rede (imediatismo). A identidade da Comunicação Social com sua essência, no fundo, sempre esteve lá, próxima da tecnologia e nos discursos de outras áreas. É oportuno relembrar os princípios da Comunicação Social, ou melhor, o que incita comunicar? Antropologicamente agimos comunicando para proteção e sobrevivência. Para a biologia nascemos com os “códigos inerentes” da linguagem. Para a Comunicação Social é um ato simbólico sui generis da troca de valores e para a psicologia o outro como desenvolvimento de si.17 Como a Antropologia é impactada pela tecnologia? Michael Fischer (2011), professor de Antropologia e de estudos da ciência e da tecnologia no Massachusetts Institute os Technology (MIT), fez uma ampla revisão histórica ao levantar informações que dotaram o conceito de cultura do século XIX e avança sobre a perspectiva relacional da cultura sobre quatro pilares: folclore e identidade, ideologias culturais e consciência política, status e culturas de classe, culturas pluralizadas e relacionais versus ideologias civilizacionais universalizantes. De modo resumido entre as décadas, como será apresentado a seguir, o desenvolvimento tecnológico ganha espaço nas teorias. - A crise dos anos 30 impactou revisões metodológicas no estudo da cultura. A noção de mediação pelas formas simbólicas é chave neste processo. A expressão de um “eu” é um ato de descoberta e não só alienação. Adiante a Escola de Frankfurt (Horkheimer e Adorno) observa as raízes da personalidade autoritária na substituição do pai por um líder político ou ídolo do cinema onde a mídia entra em cena. - Na década de 60 a Antropologia simbólica alimentou-se da cibernética do Departamento de Relações Sociais da Harvard e da linguística (Noam Chomsky). A chegada do estruturalismo e pós-estruturalismo simultaneamente nos EUA em um congresso chamado “A controvérsia do Estruturalismo: as linguagens do criticismo e das ciências do homem” sugere uma nova linhagem de pesquisa futura. Não se podia mais privilegiar uma versão do mito sem levar em conta o conjunto inteiro de transformações que a estrutura mítica tornava 17 Grifo meu 22 possível. Houve um afastamento da comunicação behaviorista e simbolista uma vez que a primeira toma as palavras e os símbolos como representantes não problemáticos combinados e reorganizados em cadeias significativas de frases realizadas em sequências de estímulo e resposta dispostas em turnos de fala. A segunda reconhece que os símbolos não são representantes simples e unívocos, mas sim portadores de leques de significados (tanto no emissor quanto no receptor). Os modelos de cultura organizados dos simbolistas em torno de redes semânticas apresentam estabilidade quando o estruturalismo e o pós-estruturalismo decompõem os símbolos em ramificações em transformação um mais preocupado em modelar a variação e o outro em libertar as tensões de controle. - Os anos 80 e 90 produziram formas revistas da análise cultural seguida de transformação de infraestrutura nos meios de comunicação, meio ambiente, bioTecnologia e a violência que impactaram o senso de cultura. A internet, web e vídeo ao ajudarem expandir o alcance da propaganda e acabam reformatando a mesma. A crise financeira de 90 e o aquecimento climático fizeram a noções culturais de modernidades alternativas dos anos 80 antiquadas e mais relacionais, conectadas. O fluxo em tempo real e a repetição do curso da informação estão reposicionando e encapsulando, isto é, envolvendo os meios culturais mais antigos como a oralidade e escrita reconfigurando a esfera pública pela mudança das relações de poder na produção de linguagens dinâmicas (fusão da Tecnologia com a cultura). “São nossas próprias ‘autocaracterizações culturais’ de formas emergentes de vida turbulentas, contestadas, subdeterminadas” (FISCHER, 2011, p.63). O estudo empreendido aqui se aproxima da ideia pós-estruturalista mencionado por Fischer porque ao retornar aos primórdios do advento do modelo computacional e como a Comunicação Social é impactada por esse contexto assim como a busca de elos conceituais entre áreas de certa forma é uma busca liberar as tensões de controle, isto é, ao se decompor as linguagens que participam do jogo comunicacional dentro deste conjunto a Comunicação Social pode observar as propriedades culturais que interagem nos modelos de informação. Para Fischer o conceito de Cultura é vista com variações como representação, um Ethos social, mediação entre a natureza e o indivíduo, um sistema simbólico. A recursividade é uma característica linguística humana de dimensionalizar lógicas pelos discursos assim como matematicamente via sistema simbólico matemático. A tecnologia é um artefato que carrega o sistema simbólico e que representa intervenções de ordem científica e social. De acordo com a visão do pesquisador Stuart Hall, que Fischer retoma nas suas análises, de forma resumida a representação possui suas particularidades: 23 “At the heart of the meaning process in culture, then, are two related systems of representations. The first enable us to give meaning to the world by constructing a set of correspondences or a chain of equivalences between things-people, objects, events, abstracts ideas, etc. – and our systems of concepts, our conceptual maps. The second depends on constructing a set of correspondences between our conceptual map and a set of signs, arranged or organized into various languages which stand for or represent those concepts. The relation between things, concepts and signs lies at the heart of the production of meaning in language. The process which links these three elements together is what we call ‘representation18’. ” ( HALL, 1997, p.19) Nesse ponto concorda-se com Fischer de que a tecnologia carrega um sistema simbólico, aliás, é o que humaniza a tecnologia. A linguagem, nas relações de sentido que se resulta a representação, possui um papel fundamental. O pesquisador reflete que as intervenções da Tecnologia sugerem não observar o objeto de estudo com um olhar purista, mas “dialógico” onde as perspectivas se encontram e mostram novos rumos de entendimento das dinâmicas culturais a exemplo de regiões que eram desconsideradas como produtoras de conhecimento pelas instituições euro-americanas agora integram pensamento multidisciplinar como a Índia que possui um respeitável campo tecnológico e é o sexto país19 (o Brasil está em décimo oitavo na data de pesquisa deste trabalho) que mais tem satélites no espaço. O autor mostra que a linguagem (2011, p.98) de programação orientada a objeto promoveu a rápida aplicação (implementação em um sentido mais tecnológico) de pesquisas e permite os testes de haplótipos, conceito que delimita um ambiente de testes na articulação de fenômenos emergentes que surgem das redes e que impactam rapidamente a sociedade pelo poder proprietário e de fácil acesso da Tecnologia pela interação social. Aqui há um ponto importante nesta passagem, em paralelo com as ideias dos Paradigmas Comunicacionais já refletidos e também dos novos caminhos sobre o objeto comunicacional que é a recursividade embutida na tecnologia, pelos casos analisados sobre o 18 Tradução do autor: “No centro do processo de significação na cultura estão relacionados dois sistemas de representações. O primeiro nos permite dar sentido ao mundo através da construção de um conjunto de correspondências ou uma cadeia de equivalências para as pessoas entre as coisas, objetos, eventos, ideias abstratas, etc - e os nossos sistemas de conceitos, os nossos mapas conceituais. O segundo depende da construção de um conjunto de correspondências entre o nosso mapa conceitual e um conjunto de sinais, agrupados ou organizados em várias linguagens que indicam ou representam esses conceitos. A relação entre as coisas, conceitos e sinais está no cerne da produção de sentido na linguagem. O processo que liga esses três elementos juntos é o que chamamos de 'representação'”. 19 Fonte: http://www.ucsusa.org/nuclear_weapons_and_global_security/solutions/space-weapons/ucs-satellitedatabase.html. Acessado em: 21 de Dez. de 2013. 24 olhar Antropológico que busca observar a representação do processo de significação tecnológico. Outro ponto importante discutido pelo pesquisador e que merece uma reflexão, sobre as análises históricas da Antropologia e Filosofia, é um conceito que permeia as temáticas da interpretação da cultura: a desambiguação. De acordo com o autor “Assim, a Antropologia de Kant abre com uma diérese (ou o que a Wikipedia, hoje, chama de ‘desambiguação’) entre a antropologia e a pragmática: o que a natureza faz do ser humano versus o que o ser humano como um ator livre faz de si mesmo(a), ou pode e deveria fazer.” (FISCHER, 2011, p.153). O intento de pensar modelos de análise para abordagens e mensurações que compartilham a questão da desambiguação é oportuno porque o estudo de caso a ser explanado adiante, sobre o software Wikipédia Miner, aborda essa questão, não no sentido da Filosofia Kantiana, mas na recursividade que participa da modelagem da informação. É sobre este ponto de vista que se observa o fato de que a Linguagem ganha, dentro do poder recursivo, a representação de que a Tecnologia, assim como a Antropologia, são próximas em suas concepções ontológicas. São essas proximidades que fazem os estudos da Cognição um elo importante quando revela que é através da Linguagem que o avanço tecnológico, conforme será analisado adiante no contexto do Data Scientist na internet, observa o procedimento semântico humano e o seu modo de visualizar o mundo. 25 3. FILOSOFIA DA LINGUAGEM 3.1. Ludwig Wittgenstein, John Von Neumann, Heinz von Föerster e os estudos cognitivos: linguagem da cognição ou cognição da linguagem? A história é linear, mas os conceitos não. A fragmentação que se assistiu na evolução científica criando especificidades teóricas especializadas, agora se encontra em sentido contrário: a lógica matemática pela Biologia (padrões da engenharia genética), Antropologia (STS – ciência, Tecnologia e sociedade) e Ciências da Computação (essa área permeia todas). Em especial a Comunicação Social se vê rodeada de conceitos que tentam explicar os fenômenos sociais atuais, mas se esbarra inevitavelmente no jardim ao lado, ou seja, os conceitos de áreas que compartilham algo em comum. Mas isso não é uma coisa nova. Antes de clarear a reflexão sugerida no título deste capítulo se entende necessário contextualizar alguns temas: Filosofia da Linguagem, o Círculo de Viena e o Círculo Cibernético em observação do procedimento semântico humano e o seu modo de visualizar o mundo. Por que fazer tal digressão histórica e conceitual? Porque, como será observado, o Paradigma Comunicacional em análise participa deste contexto e de certa forma foi impactado por ele nos “jogos de linguagem”. O Círculo de Viena20 constituiu uma associação de filósofos que se uniram em 1922 na Universidade de Viena, na Áustria, para conversas informais sobre a ciência, mas com o intuito de unificar a mesma. Neste grupo continham grandes pensadores sobre lógica matemática, sociologia e economia. Albert Einstein, Ludwig Wittgenstein, e Bertrand Russell (foi mentor de Wittgenstein) foram os pais intelectuais do grupo. Cultuavam que o conhecimento só poderia existir com a experiência em uma primeira fase e conseguinte por análises lógicas, dessa forma o meio científico os aproximaram dos positivistas. O método de “clarear o pensamento”21 consistia em um afastamento do pensamento metafísico e das ambiguidades da linguagem natural. Um dos pontos centrais do Círculo de Viena foi ser influenciado pelo filósofo da linguagem Ludwig Wittgenstein pela sua lógica de esclarecer ideias. O filósofo reflete em Investigações Filosóficas (1999), obra posterior de outra que iniciou influência de seus 20 Vienna Circle. Disponível em: http://plato.stanford.edu/entries/vienna-circle/ . Acessado em 22 de Fev. de 2014. 21 The Scientific Conception of the World: The Vienna Circle. Disponível em: https://sites.google.com/site/gnadav/TheScientificConceptionoftheWorldeng.doc?attredirects=0. Acessado em: Acessado em 22 de Fev. de 2014. 26 pensamentos (Tractatus), sobre as limitações perante a linguagem e a realidade humana. O mundo é representado por um pensamento, que por sua vez é um significado, um recorte da realidade uma vez que o mundo, o pensamento e a verdade compartilham da mesma lógica. Desta forma o pensamento e a verdade (tautologias) podem ser imagem dos fatos. Os limites do significado são explicados pelas “fórmulas”, os aforismos linguísticos, que davam valor lógico na sua metodologia. O filósofo não compartilhava da ideia de ser chamado de positivista mesmo porque respeitava a metafísica, porém a separava das sentenças (proposições factuais, tautologias e contradições) que realizara em sua primeira obra, o Tractatus LogicoPhilosophicus (SCHLICK, 1983). O silêncio é uma forma de verdade, pois não gera ruídos, portanto a intuição não pode, nesse caso, ser expressada. Já na introdução de sua obra, Investigações Filosóficas o filósofo Wittgenstein expõe: “Assim, aprendi pouco a pouco a compreender quais coisas eram designadas pelas palavras eu ouvia pronunciar repetidamente nos seus lugares determinados em frases diferentes. E quando habituara minha boca a esses signos, dava expressão aos meus desejos” (WITTGENSTEIN, 1999, p.27). Aqui o pensador traz uma percepção profunda sobre as psicologias do pensamento quando as representações modelam os pensamentos pela interação de seus desejos. Não será empreendido aqui o aprofundamento do conceito de desejo, mas se assumirá que esse fator engendra as significações e limitam de certa forma o entendimento da linguagem, pois é um assunto que a área cognitiva ainda não conseguiu desvendar, por enquanto. Entretanto, o filósofo acreditava que o mais importante era o que o falante fazia com a expressão e não o que antecede psiquicamente tal ação. Dessa forma o filósofo diverge das ideias tradicionais da linguagem onde o significado de um termo é dado por um objeto, na dinâmica que cabe nos períodos gramaticais em paralelo à importância das faculdades psicológicas do indivíduo impregnada nos sotaques ou na forma como a pessoa “escuta” a declaração na linguagem pelos significados. De forma crítica e cautelosa, com uma lógica matemática acentuada, o filósofo encara a linguagem como método. O sentido da “linguagem ordinária” possui uma complexidade lógica que não se revela na estrutura gramatical. A análise lógica é um remédio para esse fato. As idealizações que 27 se resultam dos jogos de linguagem supõem o conhecimento do significado. O conhecimento do uso da linguagem pode trazer luz de suas ramificações lógicas. Portanto, a filosofia da linguagem impulsionada pelo filósofo, no exercício do jogo das linguagens, ecoou um modo de descrever as propriedades desse jogo e despontou qual é o papel exercido pelo termo no contexto e que a linguagem é uma configuração da vida22, assim, enraizada na sociedade. Mas, há um cuidado ao se “figurar” uma sentença linguística e o fato linguístico porque não são totalizados pelas palavras e não se pode pensar no fato sem antes na sentença que figura o sentido. Aqui reside um conceito em paralelo importante refletido nesse trabalho que é a recursividade. Adiante será abordado seu significado, mas vale lembrar que a análise empreendida busca a profundidade que figura a relação entre separação da estrutura da linguagem dos processos semânticos. A filosofia de Wittgenstein foi precursora do que se chama pelos historiadores da “virada linguística” (MARCANTONIO, 2007), onde se idealizava que a linguagem é uma forma de limitação humana no que tange o pensamento, tudo passa pelo crivo da linguagem quando nomeado pela própria linguagem inseparável da realidade que a condiciona. As derivações fundamentais do filósofo, que são pensadas no Círculo de Viena, não se findam neste grupo. O Círculo Cibernético (MARCONDES FILHO, 2007) nasceu na revolução tecnológica da microeletrônica. Entre a década de quarenta e cinquenta os estudos transdisciplinares promovidos pelo norte americano Norbert Wiener e o neurofisiólogo Warren McCulloch vingaram pesquisas que integraram a Física, Biologia, Sistemas Sociais e as Ciências Cognitivas. Cibernética tem várias definições, mas de acordo com Wiener se resume cibernética como o estudo científico do controle e comunicação dos animais e da máquina. Etimologicamente o termo deriva do grego com o sentido de governar. Um dos integrantes do Círculo Cibernético era o biólogo, físico e matemático austríaco Heinz von Föerster, parente do filósofo do Círculo de Viena refletido anteriormente. Influenciado pela obra de Wittgenstein, Föerster tenta harmonizar o pragmatismo lógico dos jogos da linguagem, mas na preocupação da pesquisa do cérebro e dos processos perceptivos. Aqui o Paradigma Comunicacional Matemático-Informacional integrado com a filosofia da linguagem gera novas perspectivas de pesquisa. 22 Wittgenstein. Disponível em http://www.cfh.ufsc.br/~mafkfil/scruton.htm . Acessado em: 13 de Abr. de 2014. 28 A matemática e a biologia participavam de uma matriz em comum, mas o pesquisador não seguiu com uma linha matemática da Cibernética que é Inteligência Artificial que tinha como um dos precursores John von Neumann. Dessa forma Föerster “[...] afastou-se da linha de von Neumann, que buscava desenvolver a chamada ‘inteligência artificial’. Para ele, seria ilusão os engenheiros dessa tendência quererem explicar nossos pensamentos, nossos sentimentos, nossa consciência. [...] von Föerster acredita que todos esses fatos – pensar, sentir, consciência – são, antes, ‘princípios explicativos’ que são usados para explicar mas que não podem, eles próprios, ser explicados. [...] Não existe de fato o aprender, o pensar, o ter memória, a máquina não faz nada disso, não há nenhuma identidade com as funções humanas, pois nós efetivamente não sabemos como aprendemos, como nos lembramos, como pensamos, etc. Neste aspecto, Heinz von Föerster é enfático: não se trata do ‘ainda não sabemos’ mas do não podemos saber isso, trata-se de algo efetivamente insondável. A ciência, assim, tem que sair disso e voltar-se às questões que não têm resposta, que escapam às rotinas das ‘máquinas triviais’”. (MARCONDES FILHO, 2007, [s.p]) O fato de não se saber como o cérebro aprende ou se isso é cientificamente plausível incomodava Föerster. Concorda-se aqui com as teses do pesquisador quando diz que os indivíduos percebem o mundo à sua volta à sua maneira, de que a realidade ou o ambiente que percebemos é nossa invenção trazendo subjetividade, que todo sistema é fechado e recursivo, isto é, só se entende aquilo que se possa “pegar” (círculo criativo) (MARCONDES FILHO, 2007). Föerster estende o conceito de informação na Teoria da Comunicação Social pendendo mais para forma das relações entre os significados a ponto de negar a informação. Contrapõe a comunicação dentro da linguagem conotativa, inclinando a comunicação à Biologia de modo que a recursividade dota o organismo de valores próprios e estes geram informação quando dentro do que se pode perceber da realidade23. Por outro lado, apesar de seu pensamento estar alinhado com o conceito de figuração de Wittgenstein, Föerster, ao alegar a seguinte análise “[...] Pode-se virar uma biblioteca de ponta-cabeça que não irá cair nenhuma informação, diz ele. Só vamos encontrá-la se lermos os livros, se assistirmos aos filmes, se consultarmos as fichas. E o mesmo se passa com uma conversa entre 23 Grifo meu 29 duas pessoas, ela nunca é uma ‘troca’, troca de idéias, de pensamentos, de opiniões, de sentimentos. Não dá para trocar nada.[...]” (MARCONDES FILHO, 2007, [s.p]) pode estar radicalizando em relação ao desenvolvimento tecnológico. Em respeito ao embasamento científico do círculo criativo, sua terceira tese, evidentemente a tecnologia não esgota as complexidades dos sistemas recursivos da linguagem, mas ajuda a ao menos “clarear” os significados em um primeiro momento. O exemplo dessa argumentação foi empreendido atualmente com o programa Ngram Viewer24. Tal programa computacional é uma coleção de textos digitalizados, convertidos em fonte digital, que se permite observar em um modelo de linguagem probabilístico por Inferência Bayesiana25 e também baseado na Teoria da Informação de Shannon onde uma fonte de textos é codificada em blocos de significados indexados binariamente. Dessa forma encontra padrões de similaridades entre as fontes digitalizadas a ponto de mostrar historicamente comparações de autores que mais aparecem nesse contexto26 sem necessidade de se ler todos os 5.2 milhões de livros que se comporta a base. Até aqui se observa que na digressão histórica empreendida os conceitos codificação, conversão, interação, imediatismo, modelagem de informação participam das figurações dos jogos de linguagem entre as teorias e nos recortes das pesquisas em questão e suas lógicas recursivas. Para Föerster a interpretação determina a informação e para Neumann a recursividade binária da informação pelas semânticas (pode-se resumir por interpretação indexada por humanos e organizada por máquinas) que retroalimenta a interpretação27. Por outro lado, um dos legados deixado por John von Neumann, entre eles a concepção do primeiro computador com programa armazenado na memória da máquina o EDVAC e o conceito de autômatos (fundamentalmente base do conceito de recursividade de auto regulação na computação), ampliou juntamente com o economista Oskar Morgenstern o conceito de Teoria dos Jogos. Essa teoria se aproxima da filosofia da linguagem de Wittgenstein. Tal teoria obteve considerável impacto na área da economia, “‘American’ individualism”. (GASCA; ISRAEL, 2009, p.130). Mesmo que dentro do grupo cibernético haja aqueles que acreditam que a informação seja refém da conotação dentro do contexto da comunicação é válido notar que a teoria de Neumann pondera a informação como o Ngram15 24 Para maiores informações ver https://books.google.com/ngrams. Os criadores dessa ferramenta foram Jon Orwant and Will Brockman do Google. 25 Teorema de Bayes é uma teoria da probabilidade do matemático inglês Thomas Bayes onde mostra a relação entre uma probabilidade condicional e a sua inversa para testar uma hipótese. 27 Grifo meu. 30 em combinar indexações favorecendo um desprendimento da linguagem de um “formalismo biológico” e sim calcada na interação favorece uma análise que posteriormente foi denominada de “equilíbrio de Nash”28 onde o resultado não depende individualmente das escolhas individuais dos jogadores por uma cardinalidade (número de elementos de um conjunto representacional matemático) em um conjunto finito, mas sim do encontro das escolhas de todos os elementos dos conjuntos, neste caso, dos jogadores. É uma situação que dadas as determinações tomadas pelos outros competidores, nenhum jogador pode melhorar sua situação mudando sua própria decisão. Ainda assim, o criador da teoria John Forbes Nash Jr., admite diferenças entre os conceptores de onde embasou suas pesquisas: “ Nash himself, in an interview with Robert Leonard, admitted that a cultural difference existed between himself and von Neumann and Morgenstern, in that the latter were probably inspired by a more ‘European’ type of social model, while he was influenced by an outlook typical of ‘American’ individualism29. (GASCA; ISRAEL, 2009, p. 140) Os conceitos que embasam a Teoria dos Jogos se originam nas “ciências duras” pela filosofia da matemática30 (axiomas da escolha, lógica de primeira ordem, lógica de segunda ordem, regras de inferência e teoria dos sistemas) e que buscava a verdade através da axiomatização da linguagem formal. A análise dos efeitos sociais e suas interdependências deram subsídios para a estratégia dos jogos. A concepção do algoritmo (formas recursivas, na visão das ciências da computação, de soluções lógicas pela utilização de linguagem de programação e cálculo via computador) deu autonomia para análises numéricas ao invés da rigidez das análises matemáticas e o cálculo automatizado, pela flexibilidade de avançar e retroceder processos de análise, ganha espaço pela escala de processamento com o aperfeiçoamento das máquinas. O ENIAC deu início para as dinâmicas de pesquisa nesta área e favoreceu estudos na área da 28 O nome derivou do pesquisador John Forbes Nash Jr. que ampliou a teoria dos jogos e provou a existência de equilíbrio para jogos não-cooperativos de estratégia mista. Em 1994 em conjunto com mais dois pesquisadores recebeu o prêmio Nobel de economia. Disponível em: http://www.pucrio.br/pibic/relatorio_resumo2007/relatorios/mat/mat_pedro_henrique_castro_simoes.pdf. Acessado em: 26 de Mai. de 2014. 29 Tradução do autor: “O próprio Nash, em uma entrevista com Robert Leonard, admitiu que existia diferença cultural entre ele e von Neumann e Morgenstern, em que este último foi provavelmente inspirado por um tipo de modelo social mais europeu, ao passo que o primeiro foi influenciado por uma visão comum do individualismo ‘americano’”. 30 Introduction to Mathematical Logic. Disponível em: https://dspace.lu.lv/dspace/bitstream/handle/7/1308/Detlovs_Podnieks_Math_Logic.pdf?sequence=1 . Acessado em : 23 de Abr. de 2014. 31 Cognição quando a memória computável armazena códigos binários dos impulsos elétricos do cérebro permitindo criar “imagens” relacionais antes não visualizáveis na ciência. A convergência que a computabilidade permitiu avançou de tal modo que as áreas militar, metereológica, neurofisiológica, física e a biológica molecular ampliaram análises no que concerne uma aproximação entre a lógica e a ciência da informação. Da Teoria da Informação por Shannon, Neumann estende sua teoria de Autômatos e faz analogia com o cérebro humano e assim: “[…] Moreover, The computer and the brain is still read today by biomedical researchers, and its influence has radically changed the attitude towards the kind of comparison between life and artificial creations proposed in it. McCulloch and Pitts had run into serious difficulty in their attempt to publish their article, which had aroused such great interest in von Neumann: it was Nicholas Rashevsky who finally decided to publish it in his Bulletin of Mathematical Biophysics. Today, however, this type of approach enjoys much credence in the field of the cognitive sciences. Von Neumann’s ideas essentially represent the direct precursors of “artificial intelligence”, which is well known also to the general public. […] The influence of von Neumann on scientists and engineers working behind the “iron curtain” (the “enemy” in the Cold War) is difficult to assess. […] Beyond Mathematics of identification between man and the machine; and it is interesting to recall the serious obstacles that stand in the way of such analogies and identification and of which, as Shannon (1958, 127–128) pointed out, von Neumann was perfectly well aware31 […]” (GASCA; ISRAEL, 2009, p.163). As reflexões de seus estudos e a revisão do olhar que observava suas variáveis como parte da função social e ver as variáveis intrínsecas que participam de ambas as visões como linguagem que “codifica” e é “codificado” por padrões e culturas nas mensagens e até a própria linguagem (observável no paradigma da orientação a objeto em uma perspectiva da Ciência da Computação) são pertinentes. Cabe aqui uma explanação maior sobre o contexto computacional da internet e sua estrutura peculiar, que não será feito nesse capítulo, mas a orientação a objeto é um paradigma potente no meio das Ciências da Computação porque 31 Tradução do autor: “Além disso, o computador e o cérebro ainda é lido hoje por pesquisadores da área biomédica e sua influência mudou radicalmente a atitude em relação ao tipo de comparação entre a vida e as criações artificiais propostas nele. McCulloch e Pitts tem tido uma série de dificuldades em sua tentativa de publicar seu artigo, que despertou grande interesse em von Neumann: Nicholas Rashevsky foi quem finalmente decidiu publicá-lo em seu Boletim de Matemática Biofísica. Hoje, no entanto, este tipo de abordagem goza de muito crédito no campo das ciências cognitivas. As ideias de Von Neumann representam essencialmente os precursores diretos de "inteligência artificial", que é bem conhecido também para o público em geral. [...] A influência de von Neumann sobre os cientistas e engenheiros que trabalham por trás da "cortina de ferro" (o "inimigo" na Guerra Fria) é difícil de avaliar. [...] Além da matemática de identificação entre o homem e a máquina; e é interessante recordar os sérios obstáculos que se interpõem no caminho de tais analogias e identificação e de que, como Shannon (1958, 127-128) apontou, von Neumann estava perfeitamente consciente” 32 permite a implementação de aplicativos e programas complexos em partes independentes e extensíveis dos objetos a terem suas propriedades de ações em interfaces arquitetadas para interagirem nos displays, ou seja, nas telas dos dispositivos tecnológicos. A orientação a objeto é um jogo de linguagem travado entre a lógica e sua representação. Aqui se observa que a própria estrutura da linguagem passa pelo crivo da recursividade, pois implica padrões de estilos e consequentemente um elo cognitivo da linguagem. Tal pensamento é compartilhado por Mercedes Marcilese em sua tese de doutorado sobre a habilidade da língua como poder recursivo da cognição. “Assume-se como premissa básica que uma língua L incorpora, em seu léxico, propriedades informadas pelos sistemas conceitual/intencional e sensório-motor com os quais interage e fornece a estes, em seus níveis de interface, informação que possibilita a percepção/articulação de enunciados lingüísticos e sua interpretação semântica. O intercâmbio de informações entre a língua e esses sistemas se realiza por meio de dois níveis de representação linguística” (MARCILESE, 2011, p.23) Marcilese (2011, p.24) argumenta que o sistema computacional é caracterizado pela recursividade, “a recursividade como sendo o único componente especificamente lingüístico da faculdade da linguagem; contudo, esse componente não é definido como sendo especificamente humano, dado que pode estar presente em outros domínios compartilhados por outras espécies”. Dessa forma o sistema binário, por combinações e recursos indexados no hardware e software, cria elementos sintáticos a partir das interações mediadas pelos indivíduos em relação ao processo de parsing, leitura da estrutura da informação como enunciados linguísticos, textos. Uma vez reconhecidos (decodificados) os elementos linguísticos são recuperados e expostos a novas dimensões sequenciais que agregam semânticas, significados armazenados na memória do sistema computacional. A ideia da pesquisadora é embasada na Teoria Gerativa de Noam Chomsky que “tem enfatizado o caráter recursivo da sintaxe como uma das características cruciais das línguas” (MARCILESE, 2011, p.74). Para Noam Chomsky o ser humano possui, em paralelo a cognição, a capacidade de produzir e estruturar frases, isto é, uma função inata e parte do patrimônio genético dos seres humanos. Não temos consciência desses princípios estruturais assim como somos não temos 33 consciência da maioria das nossas outras propriedades biológicas e cognitivas. Seu fruto científico, entre outros, é observado na sua obra “Three Models For Tie Description of Language” (1956) com os princípios que mais tarde se ampliaram como a Hierarquia de Chomsky. As hierarquias da linguagem são descritas como regras que cada expressão de um conceito de se inter-relacionar e quanto maior a dependência para ampliação/geração do mesmo, por outras regras, mais superficial será o nível da linguagem. O interessante nessa teoria é que a linguagem “humana” possui a capacidade de recursividade inesgotável. Esse conceito é fundamental, pois é usado na perspectiva das Ciências da Computação como poderoso modo de fazer os algoritmos administrarem as entradas de dados e equalizarem as saídas de informação estruturada em grande escala em analogia com os avanços técnicos dos autômatos de Neumann. A linguagem de computador possui um nível mais superficial na hierarquia de Chomsky onde sua dependência aos fatores recursivos da cognição humana a projetam como parte representativa no ato simbólico de comunicar algo. Afinal, qual a importância da linguagem não apenas pela visão computacional? A linguagem, como uma das partes que se configura pela projeção cognitiva, é uma interface genuína entre o ser humano e a natureza. No contexto a evolução da humanidade observa-se que a escrita foi a primeira “revolução da informação” na história da Comunicação Social de massa. De acordo com Irving Fang, a partir da evolução da iconografia rudimentar das cavernas para a linguagem falada e conseguinte o alfabeto uma revolução da informação impactou a cultura e pode ser observada na Grécia antiga: “Examination of most communication technologies shows a pattern of slow progress that is illuminated occasionally by a sudden sharp advance. Early Greek civilization advanced in a similar manner, a laborious crawl that exploded in revolutionary political, social, and economic changes, interlinked changes in virtually every field of life, of which the information revolution was a small but integral part32. (FANG, 1997, p.40). Adiante, com criação do chipset pela evolução tecnológica, resultante do domínio humano da natureza pela aplicação e interação direta da linguagem, possibilitou a expansão da comercialização do computador na sociedade. Esse fato revoluciona a dimensão de fazer 32 Tradução do autor: “Observando a maioria das tecnologias de comunicação observa-se um padrão de progresso lento, que é iluminado, ocasionalmente, por um avanço súbito. A civilização grega precoce avançou de forma semelhante enraizada na produção que explodiu em mudanças políticas, sociais e econômicas 34 comunicação, uma vez que os meios de comunicação se hipertrofiam pelas possibilidades tecnológicas já estudadas nas Teorias da Comunicação Social. Mas vale lembrar que as linguagens de programação vieram antes da popularização do computador moderno. A linguagem de máquina de Alan Turing33 (um dos integrantes que ajudaram Neumann no seu empreendimento e também um dos que tentaram defender a análise numérica do formalismo matemático - que não acreditava nessa linha de pensamento - criando a máquina de Turing) evoluiu para complexidade algorítmica da modelagem orientada ao objeto. A orientação a objeto foi um marco cognitivo na programação de linguagens, pois exige uma abstração sistêmica que encapsula em pequenos objetos a extensão do objeto pai em propriedades e valores. O conceito de classes reordena a maneira de “empacotar” as linguagens e facilita a escalabilidade na engenharia da computação. Esse modo de produzir sistemas criam objetos modulares onde a instalação e desinstalação de um objeto em um sistema não afeta o todo, ou seja, há um independência do objeto em relação ao todo apesar de conter uma similaridade do objeto pai. Como funciona a escalabilidade? O sistema UNIX34 foi criado na mesma época do paradigma de orientação a objetos e sua popularidade se firmou pela sua natureza multitarefa (fazer várias coisas ao mesmo tempo), portátil e multiusuário (wiki). Sua característica favoreceu a indústria de plataformas e ampliação das interfaces tornando mais intuitiva a interação humana por janelas ao invés de linhas de códigos. Tal popularidade foi observada por Paul Ceruzzi: “UNIX was developed on DEC minicomputers, and for the first few years of UNIX’s existence it ran only on DEC computers, mainly PDP-11s. The University of California at Berkeley’s version of UNIX, which had an enormous influence on computing and on the Internet, was developed on a VAX. Still, DEC was ambivalent about UNIX for the VAX. Ken Olsen allegedly stated at one point that ‘‘UNIX is snake oil!’’ (The context in which he made that statement has been disputed.15) At any rate, the VAX could and did run Berkeley UNIX, and for at least the formative years, VAX computers were the most common nodes on the Internet.35 (CERUZZI, 1998, p.261). revolucionárias, interligando mudanças em praticamente todos os campos da vida, dos quais a revolução da informação era uma parte pequena, mas fundamental”. 33 A review of the 1977 Turing Award Lecture by John Backus. Disponível em: http://www.cs.utexas.edu/~EWD/transcriptions/EWD06xx/EWD692.html . Acessado em: 12 de Jan. de 2014. 34 É um sistema operacional como o Windows, mas é um software livre. Criado por Ken Thompson, Dennis Ritchie, Douglas McIlroy e Peter Weiner, que trabalhavam nos Laboratórios Bell (Bell Labs) da empresa AT&T. 35 Tradução do autor “O UNIX foi desenvolvido em minicomputadores de estrutura DEC e durante os primeiros anos de existência do UNIX funcionou apenas em computadores DEC, principalmente PDP-11. A Universidade da Califórnia com a versão UNIX de Berkeley teve uma enorme influência sobre informática e na Internet, foi desenvolvido sobre uma estrutura VAX. Ainda assim, DEC foi ambivalente sobre UNIX para o VAX. Ken Olsen teria afirmado em um ponto que '' UNIX é óleo de cobra!'' (O contexto em que ele fez essa declaração foi dúbio.15) De qualquer forma, o VAX poderia e avançou com Berkeley UNIX, e, pelo menos nos anos de 35 Não se vê como exigência o comunicador dominar profundamente as linguagens de programação – a não ser que queira – para desvendar os fenômenos nas redes, mas desconstruir sua estrutura que perfaz as camadas chamadas interfaces e correlacionando interações não isolando o indivíduo do social e nem generalizando o social no indivíduo pode ajudar a extrapolar o campo interpretativo, isto é, quando o objeto de estudo é o fenômeno digital em que caminhamos e nos “culturalizamos”. Nessa reflexão (Cognition and multiAgent Interaction, 2008) Ron Sun da universidade de Cambridge mostra como o “third way” é uma tentativa de, a partir de modelos preditivos com base cognitiva e computacional, extrapolar a ciência dedutiva unida com a indutiva em um equilíbrio interpretativo onde, com a ajuda da potência da simulação computacional, a indução encontra padrões no volume de dados e a dedução cria regras específicas de combinações e diretivas para as simulações. Observa-se aqui uma similaridade conceitual com o equilíbrio de Nash de Neumann, mas o objeto de análise é o banco de dados e não os jogadores. Há o uso de modelagem estatística probabilística empreendida pelos cibernéticos. Tal estudo gera as seguintes inquietações: como mensurar a realidade cognitiva da simulação social? O que pode a realidade cognitiva contribuir para o processo social? O que nós poderíamos caracterizar como “mente coletiva” entre outras. Aqui se faz eco no jogo da linguagem uma vez que o sujeito social carrega a linguagem que o contempla e representa a recursividade. Por outro lado, em paralelo às indagações anteriores o teórico da Comunicação Social Francisco Rüdiger explica que a vida em rede representa a migração da sociedade para o ciberespaço. A realidade história é mediada pela interação da máquina e a vivência cotidiana. Um caminho para entender as novas mídias é sair do conflito que sobra da discussão polarizada na censura ou aposta em promessas ingênuas, seguindo um meio termo (novo empirismo) ao analisar os pontos positivos e negativos do tema da evolução tecnológica na Comunicação Social. Quando a Tecnologia avança e evolui, a cibernética entra em sinergia com a ciência de outros campos e nascem as observações dos sistemas complexos. Quando olhado em detalhes os sistemas são diferentes, mas visto em nível abstrato propriedades intrigantes em comum aparecem como sinais de informação processada e adaptação (MITCHELL, 2009). Um formação, os computadores VAX eram os nós mais comuns na Internet.”. A expressão usada por Olsen era uma expressão da língua no sentido de panaceia, remédio que não solucionava motivo pelo qual sua declaração foi referida como de duplo sentido. 36 sistema com grande número de componentes sem centralização de controle e simples regras dão um ambiente complexo com sofisticados processos de informação e adaptação via aprendizagem e evolução não trivial de auto-organização, a exemplo da estrutura celular e sua relação aos tecidos, entre eles, os neurais até hoje um mistério sobre como se processa o pensamento. Entender a distinção entre linearidade e não linearidade é crucial. A modelagem analítica ajuda a compreender desde as variáveis do fenômeno das transmissões da fibra ótica para outro computador na internet assim como as moléculas responsáveis para se comunicar entre os neurônios no cérebro humano. Como a modelagem da informação pode ser observada nesse contenxto? Pesquisadores da universidade de Cambridge (GOLDMAN et al, 2011) divulgaram um estudo, assim como também o material apêndice de como foi feito o experimento, sobre o armazenamento de informação que aumenta a expansão de projetos e diminui impactos de custo pela simplicidade que o modelo de “hardware” guarda as informações. Os cientistas replicaram textos à natureza biológica do DNA transpondo as proteínas em códigos binários e por um processo de codificação e decodificação chegaram a um modelo que armazena uma quantidade informação dentro de um filamento. Portanto, como mostra Mitchell (2009), a complexidade dos sistemas no seu modo autônomo, descentralizado, auto-organizável e modular (independentes entre si) são fascinantes pela riqueza de significados quando estudados de forma aprofundada e comparada nos esforços transdiciplinares. Ron Sun e Mitchell exemplificam caminhos metodológicos transdisciplinares, em uma reflexão análoga aqui observada nas modelagens de informação possibilitadas pelos adventos científicos de Neumann, e orienta o estudo da linguagem como vetor central da cognição humana não como artefato, mas sim como extensão em paralelo aos aforismos de Wittgenstein36. Como DNA da comunicação a linguagem está eletrificada, no sentido físico do termo, e sua ontologia se fragmenta em códigos binários para se reorganizar em novos sentidos, decodificados pela máquina, mas não apenas nos ditames de ações e respostas e sim no mapeamento das próprias maneiras, gêneros da linguagem em si mesma que não se findam em si. Não se fecham em uma razão pura, se abrem para novas perspectivas interpretativas que se pode perceber na própria estrutura da linguagem iniciada pelas abstrações semânticas de Alan Turing refletida em suas pesquisas revigorando uma lógica interativa que “fotografa”, processa e retorna o que a ajuda a compor no processo de informação. 36 Grifo meu 37 A cognição é ampliada pela linguagem computacional semantizada? Assume-se aqui que a linguagem é o ponto de conexão entre a abstração dos algoritmos e da cognição como de ambos, pois o ser não percebe a cognição e sim percebe por ela. Talvez aqui, como uma antevisão, resida a preocupação de Neumann em atrelar as riquezas sistêmicas do cérebro humano à maquina assim como também as inquietações de McLuhan sobre a linguagem como uma tecnologia já argumentado anteriormente. O limite tênue entre a linguagem e a cognição torna complexo o tema, mas no sentido de retroalimentação a informação soma ganhos para a cognição porque o desenvolvimento tecnológico da linguagem de programação favoreceu observação científica mais acurada dos processos cognitivos como será mostrado mais adiante nos estudos de cognição. Para Jeannette M.Wing, cientista da Ciência da Computação, a informação mediante o desenvolvimento tecnológico da linguagem de programação ganhou outro escopo científico e ampliou perspectivas não só dentro da própria área, mas em outras também. Para a pesquisadora: “The field of computing is driven by boundless technological innovation and societal expectations. The field runs at such a maddening pace that we barely have time to pause and enjoy the ride. The time between an ingenious idea springing from a research laboratory or coffeehouse conversation and its emergence as a product or service is so short and the frequency of the commercialization cycle of ideas so great that we rarely stop to savor even our own successes37.” (WING, 2008, p.1) “When people talk about the smart grid, smart vehicles, and smart buildings -what makes them “smart”? Computer science. When people talk about personalized medicine and personalized learning, how do you think personalization is possible? Computer science. We’re not there yet, but the next generation of computer scientists can help us realize these visions -- with immeasurable benefits to society and the economy38” (WING, 2011, p.3). 37 Tradução do autor: “O campo da computação é impulsionada pela inovação tecnológica sem limites e nas expectativas da sociedade. O campo é executado em um ritmo tão alucinante que mal tem tempo para fazer uma pausa e desfrutar do passeio. O tempo entre uma ideia genial surgindo a partir de um laboratório de pesquisa ou uma conversa no café e sua emergência como um produto ou serviço é tão curta e a frequência do ciclo de comercialização de ideias tão grande que raramente paramos para saborear até mesmo nossos próprios sucessos” 38 Tradução do autor: “Quando as pessoas falam sobre o smart grid, os veículos inteligentes e edifícios inteligentes - o que os torna ‘nteligente’? Ciência da Computação. Quando as pessoas falam sobre a medicina personalizada e aprendizado personalizado, como você acha que a personalização é possível? Ciência da Computação. Nós não chegamos lá ainda, mas a próxima geração de cientistas da computação podem nos ajudar a perceber essas visões - com benefícios imensuráveis para a sociedade e para a economia.” 38 O ritmo de desenvolvimento que a tecnologia acontece é veloz e isso impulsiona avanços. Wing lembra que, apesar da contribuição da área para a ciência, se deve pensar profundamente cinco questões: P = NP, o que é computável, o que é inteligência, o que é informação, como podemos construir sistemas complexos de forma simples. Com essas indagações a pesquisadora mostra que a criptografia foi, além de uma prova lógica, uma inovação grande para a segurança do fluxo eletrônico da informação, que o computador e o ser humano possuem capacidade computável, mas isso leva a outra pergunta do que é a inteligência. Nesse contexto os caminhos enveredados pelos estudos da Inteligência Artificial evoluíram no campo da Cognição, Neurociência entre outras embaladas pela interação da informação. Por sequências de zeros e uns a internet forma um grande tecido e analogamente a pesquisadora lança uma pergunta instigante: “Can we build systems with simple and elegant designs that are easy to understand, modify, and evolve yet still provide the functionality we might take for granted today and dream of for tomorrow? Is there a complexity theory for analyzing our real-world computing systems as there is for the algorithms we invent39?” (WING, 2008, p.3) Aqui a pesquisadora induz a pensar que a próxima inovação virá do entendimento do próprio sistema computacional. A metalinguagem, isto é, algoritmos de aprendizagem40 da máquina resolveria esse intento? Tal pergunta não foi respondida, mas sugere que o resgate da essência da área é necessário para se visualizar e fazer ciência. Essa visão é benéfica para a Comunicação Social na sedimentação de novas metodologias, uma vez que a faz repensar seus fundamentos perante suas expectativas. Observa-se até o momento que a justaposição das ciências naturais das ciências humanas se revigora com os estudos científicos computacionais e suas representações recursivas uma vez que as mensurações e indicadores para os sistemas experimentais se aproximam constantemente na mutabilidade das redes e reconfiguram oportunidades para o campo da Comunicação Social, em paralelo às interpretações antropológicas, apontar as 39 Tradução do autor: “Podemos construir sistemas com desenhos simples e elegantes que são fáceis de entender, modificar e evoluir ainda assim fornecer a funcionalidade que pode ser concedido hoje e sonhar com o amanhã? Existe uma teoria da complexidade para a análise de nossos sistemas de computação do mundo real como existe para os algoritmos que inventamos?”. 40 São programações que visam perceber a informação e suas características de acordo com o uso, como por exemplo, um usuário da internet ao fazer buscar estaria emitindo algumas variáveis para o algoritmo como a hora da pesquisa, palavras pesquisadas, relações com o que já foi pesquisado em outro momento e etc. 39 facetas dos campos sociais em modelos de análise, agora, ampliados pela utilização da tecnologia interativa, compartilhadas pelas alteridades do público e suas cognições. Para o pesquisador Walter Teixeira Lima Junior (2013, pág 112), que empreende estudos da Comunicação Social com observação às teorias cognitivas, a observação de Howard Gardner é oportuna quando descreve as caracterizam da ciência cognitiva e há a importância em somar esforços com os estudos interdisciplinares. Ainda sobre essa visão “Os cientistas cognitivos não são especuladores de gabinete porque utilizam métodos empíricos para testar suas teorias e hipóteses. ‘Além disso, os cientistas cognitivos adotam os mais recentes avanços científicos e tecnológicos de várias disciplinas. De extrema importância para o seu empreendimento é o computador’ (GARDNER, 2003, p. 19)”. (LIMA JUNIOR, 2013, pág 112). Até que ponto a interação da linguagem recondiciona a linguagem da interação? Seria a modelagem da informação um fator chave para uma “recognição” do conhecimento pelo uso comum da recursividade impregnada nas redes para explicar a codificação, conversão, interação e o imediatismo? Quais as limitações de tais aproximações? Isto pode ser observado com a Ciência Cognitiva, que de certa forma ampliou seus experimentos com os avanços da tecnologia originada por Neumann. Os avanços tecnológicos de ressonância magnética possibilitam fazer testes (fMRI – functional magnetic resonance imaging) que mostram as propriedades que o cérebro humano usa para realizar suas funções vitais. Pesquisadores do Instituto de Tecnologia da Califórnia, Caltech, (Heberlein; Adolphs, 2004) revelam que algumas partes do cérebro são responsáveis em reconhecimento de propriedades específicas. Estão relacionadas com os estímulos do meio, sensíveis às “animacidades” do ambiente social. As expressões faciais podem ocorrer tanto como uma parte de uma resposta emocional e como um aparelho de comunicação. A amígdala está envolvida no processamento destas expressões. Pessoas que são mais extrovertidas possuem maior atividade deste órgão. Conforme os pesquisadores “We hinted above at a fascinating new direction of research that will contribute to our understanding of amygdalar function in emotion recognition. Several recent studies have examined correlations between gender and individual differences, 40 such as personality traits, and amygdala activation patterns during social judgement tasks41.” (HEBERLEIN, A.S.; ADOLPHS, R., 2005, p.166) é possível distinguir diferenças da personalidade de um indivíduo pelos padrões que emergem dos mapeamentos informacionais dos experimentos de ressonância magnética e uma vez armazenados possibilitam estudar estes padrões via recursos computacionais. Estes estudos são baseados na “teoria da simulação” (HEBERLEIN, A.S.; ADOLPHS, R., 2005, p.163) que descreve um mapa de processos emocionais onde os indivíduos, pela experiência e sua faculdade de perceber estados emocionais em outras pessoas sem expressar verbalmente tal fato internalizando conhecimento associativo, que é denominado recognição. Desta forma, se visualiza uma tentativa de constatar uma anatomia funcional da cognição da sociedade calcada nas atribuições perceptivas como, por exemplo, a capacidade do cérebro humano fazer distinções rápidas de um contexto com o mínimo de esforço. Isto é possível pela aprendizagem do cérebro sobre tais padrões nos momentos de sua vivacidade. Por outro lado, David J. Lobina (2011) pesquisador espanhol de linguagem e cognição do departamento de psicologia da universidade de Rovira, aborda que as tecnologias de ressonância magnética ou algoritmos de aprendizagem (nos níveis de processamento, lógicas de programação e hardware) não “clareiam” cientificamente a questão da recursividade nos estudos de gramática de aprendizagem artificial (AGL na sigla inglesa). Argumenta de forma categórica que as ações da AGL são intrínsecas à sintaxe e não da recursividade da linguagem natural, ou seja, o conjunto de textos (strings) retornados por resultados de algoritmos não mostram as recursividades da estrutura da linguagem. Basicamente a competência linguística não pode ser ultrapassada pela performance linguística e isso implica que inferências sobre a realidade mental de uma pessoa não pode ser resumida pelas codificações gramaticais (parser) por um algoritmo. Dessa forma o pesquisador separa o significado de recursividade entre a estrutura da linguagem (inatos) e os processos semânticos da linguagem em um algoritmo e aponta que a confusão de tal interpretação participa da área cognitiva. Aqui há o limite entre a técnica da ciência da computação e as representações naturais do cérebro humano, a cognição. Fica aberta uma inclinação biológica como a de Heinz von Föerster 41 Tradução do autor: “Nós apontamos em uma nova direção fascinante de pesquisa que contribui para nossa compreensão da função da amígdala no reconhecimento de emoções. Vários estudos recentes têm examinado correlações entre gênero e as diferenças individuais, tais como traços de personalidade e padrões de ativação da amígdala durante tarefas de julgamento social”. 41 quando defende que as representações da cognição são intrínsecas e pré-estabelecidas na metafísica da geração da linguagem e não de seu espelho. Entretanto, o pesquisador Lobina concorda que “It is not clear at all that Subject-Verb configurations are in fact being mirrored, given what has been discussed before. Indeed, AGL strings cannot duplicate the hierarchy that exists between subjects and verbs; moreover, subjects and verbs agree, at least in English and Romance languages, in terms of abstract morphosyntactic features which remain operative even if subjects are ‘dropped’ 42 ’’. (LOBINA, 2011, p.1580) as subjetividades da linguagem podem ser aproximadamente condensadas, em ordem menor, pelo sentido semântico. Nesse sentido pesquisadores do Instituto alemão de Sistemas Cognitivos da universidade de Munique (TUM) empreenderam estudos semânticos, embasados na Inteligência Artificial, que utilizam algoritmos de aprendizagem para mapear e estocar informações motoras dos seres humanos denominados como bibliotecas DMPs (dynamic motion primitives) (RAMIREZ et.al; 2013). Assim como a limitação da AGL, explanada no discurso de Lobina, não consegue ultrapassar o sentido estrutural da recursividade porque neste caso não há a possibilidade de prever as intenções das bibliotecas estocadas nem extrair significados das ações. Porém, por observações humanas de vídeos filmados e decupados em níveis de abstração denominados como alto-nível (descrições gerais sobre movimento, ausência de movimento e uso de uma ferramenta qualquer) e baixo nível (representa atividades humanas básicas como fazer uma panqueca, por exemplo) os pesquisadores tentam computar as criações de novas instâncias e relações dos níveis para serem modelados ontologicamente gerando uma base de conhecimento. A base dos critérios do algoritmo utilizado é OWL43 (Web Ontology Language) que é o esforço de indexar ontologias na web que “instancia” propriedades e seus relacionamentos, dessa forma permite processamento de informação por outro software, hardware ou linguagem de programação pela flexibilização de 42 Tradução do autor: “Não está claro que em todas as configurações de sujeito-verbo estão de fato a sendo espelhadas, dado o que foi discutido antes. Na verdade, parte de textos AGL não pode duplicar a hierarquia que existe entre os sujeitos e verbos; Além disso, os sujeitos e verbos concordam, pelo menos em inglês e línguas românicas, em termos de características abstratas morfossintáticas que permanecem em operação, mesmo que os sujeitos sejam 'condensados'.” 43 OWL Web Ontology Language. Disponível em: http://www.w3.org/TR/owl-guide/ . Acessado em: 12 de Jul. de 2014. 42 troca de informação por XML44 (linguagem de programação que permite estruturar as propriedades em silos de informação). Atua como um novo paradigma de interpretação por máquinas de conteúdo, web semântica que será abordado adiante no contexto do Data Scientist. A figura 2 mostra o processo de construção da base de conhecimento pelo armazenamento das informações do agente e do ambiente que circunscreve a ação. De acordo com os níveis e dos parâmetros do agente, regras e ontologias são geradas gerando o “prolog predicates” um banco de dados que contém toda essas relações captadas por câmeras que detectam o movimento humano. FIGURA 1 Mapa processual do experimento dos DMPs Fonte: Extracting Semantic Rules from Human Observations Uma contribuição desse estudo mostra que da geração automática das regras de observações humanas são possíveis inferir com alta probabilidade novos processos, porém dentro do nível das atividade básicas humanas, neste caso motora. O avanço em dotar um conjunto de algoritmos ser capaz de computar novar relações entre objetos e ações humanas se torna promissora. 44 Extensible Markup Language (XML) 1.0 (Fifth Edition). Disponível em: http://www.w3.org/TR/REC-xml/ . Acessado em: 12 de Jul. de 2014. 43 Dessa forma a “figuração” das interações nas redes uma vez que podem ser estocadas nas “tuplas”45 das camadas interativas promovem a imediatividade que por sua vez está em concomitância com os jogos de linguagem que perfazem o movimento ora codificando e decodificando via conversibilidade as informações de origem digital e analógico resultando um estrato recursivo pela retroalimentação da modelagem de informação no exercício analítico do Data Scientist. Wittgenstein, Von Neumann, Heinz von Föerster e os estudos cognitivos, apesar das suas diferenças, participam da representação recursiva no limite estrutural conforme em concordância com o pesquisador Lobina que defende a circunscrição do pensamento do jogo de linguagem de forma mais instintiva. Mas, nessa conjectura analítica até aqui empreendida pode-se dizer que a cognição da linguagem (neurofisiológica-recursiva) “encapsula e orienta a objeto” a linguagem da cognição (recursiva-subjetiva). A tecnologia condensa esse encontro na modelagem da informação retroalimentando o conhecimento das origens desse ato já exemplificado com o Ngram, fMRI e na formulação do pivô das figurações , o autômato de Neumann. Não esgota, portanto, reflexão da máxima entre a separação da estrutura da linguagem dos processos semânticos, mas sim ajuda delineá-las. É a partir daqui, reiterando a primazia da linguagem analisada e justificada entre os paradigmas da Comunicação Social e as áreas no vértice de Wittgenstein e Neumann, que será introduzida a conceitualização de Data Scientist no ambiente Big Data na busca da síntese do volume de informação que a internet possui nas suas relações de redes dispostas a observação. 45 Tuplas são silos de variáveis que são armazenadas ou retornadas nas camadas das interfaces programáveis da internet. É aqui que a Web Science pode tirar proveito em aprofundar análises. 44 45 4. DATA SCIENTIST E BIG DATA 4.1. Wire Frames, Data Sets, clusters: filtros cognitivos No contexto cibernético Alan Turing materializou a abstração lógica da linguagem como sistema binário (Máquina Universal de Turing)46 e assim prosperou, com Neumann, a Ciência da Computação pela sua contribuição na Teoria da Informação. Percebe-se que a Teoria da Informação do Paradigma Matemático-Informacional abriu uma perspectiva importante no trato da informação e sua escalabilidade. Esse conceito sugere o potencial de estender uma Tecnologia (inclusive a própria linguagem) em sua estrutura e aplicabilidade para diversas finalidades e tal fato foi possível pela abstração de um novo paradigma (linguagem de programação orientada a objeto) no modo de se planejar a linguagem no exercício de abstração da mesma com a realidade. A clivagem entre a linguagem humana com a linguagem da máquina trouxe maior observação nos fenômenos naturais, inclusive da própria percepção humana e isso se espelha em outras áreas como já analisado anteriormente. Antes do desenvolvimento da computação o esforço de resgate da informação era maior devido a ausência da escalabilidade, mas depois de sua possibilidade, no paradigma da linguagem computacional, há o esforço de estocar tudo o que se faz útil, uma coleção de dados, para o desenvolvimento humano no que se chama de banco de dados relacionais, o Data Set47. Já estabelecida uma relação com a Comunicação Social nos Paradigmas estudados, conseguinte, se irá refletir o conceito de informação, o paradigma da linguagem de programação OO (Orientação a Objeto) (VICENZI, 2004) e a estrutura das redes telemáticas. Assume-se aqui que a informação participa dos processos comunicacionais e é a partir dela que o homem julga sua pertinência48. Potencializada pela conexão em rede a informação é um fator decisivo para a humanidade em seu desenvolvimento “[…] recently has human progress and welfare begun to 46 Beyond the Turing Test. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=93234086C26D14E2794A5A4DC14D1B70?doi=10.1. 1.44.8943&rep=rep1&type=pdf. Acessado em: 23 de Fev. de 2014. 47 Data Mining. Disponível em: http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS UyMG1hbnVhbC5wZGY=. Acessado em: 05 de Nov. de 2013. 48 Grifo meu. 46 depend mostly on the successful and efficient management of the life cycle of information 49” (FLORIDI, 2010, p.8). Ainda na mesma página: “The life cycle of information typically includes the following phases: occurrence (discovering, designing, authoring, etc.), transmission (networking, distributing, accessing, retrieving, transmitting, etc.), processing and management (collecting, validating, modifying, organizing, indexing, classifying, filtering, updating, sorting, storing, etc.), and usage (monitoring, modelling, analysing, explaining, planning, forecasting, decision-making, instructing, educating, learning, etc.).” Muito semelhante aos processos cibernéticos, entretanto, diferindo no quesito de administrar tais processos, Luciano Floridi reflete a informação em vários níveis como revolução, linguagem, matemática, semântico, físico, biológico, econômico e ético. Por outro lado, a origem do conceito de informação vem da terminologia de dados, uma estrutura de sintaxes sem significado. A partir desses níveis temos o panorama da evolução humana em administrar os “sentidos” gerados pelo armazenamento dos dados. Essa evolução passa desde: os processos análogos, digitais e binários (meios por onde se administra a informação digitalizada); primário, secundário, meta, operacional e derivativo (modo de interagir com a informação e como resgatá-la); as ramificações como modelos interpretativos dos dados, o meio ambiente, semântica subdividida em instrucional e factual por sua vez subdividido em não verdade (informação perdida e informação enviesada) e verdades (conhecimento como resultado dos processos). Essa esquematização mostra que a informação possui níveis de interpretação. Essas características espelham variações de contextos e de propriedades do ecossistema que contém tais relações na construção do conhecimento. A figura a seguir mostra o resumo das dimensões estabelecidas por Floridi. 49 “recentemente o progresso e bem-estar humano iniciado dependeram principalmente sobre a gestão bem sucedida e eficiente do ciclo de vida da informação” – tradução minha. 47 FIGURA 2 Mapa conceitual das dimensões da informação Fonte: Open Problem in the Philosophy of Information. Apesar da conceitualização da informação depender do contexto, as premissas antes descritas no programa Ngram e na tecnologia fMRI se intercruzam em cada nível sugerido por Floridi, mas os padrões (Patterns) e seus gêneros aqui são observados como uma linguagem que explica seus propósitos de acordo com as dinâmicas relacionais. Essa ideia reforça a evidência da lógica da linguagem como benefício cognitivo a cada passo da evolução da informação. Nesse ambiente a Orientação a Objeto (VICENZI, 2004) se diferencia no quesito “recognição da realidade”, pois reorganiza – no meio da Ciência da Computação é visto como uma revolução – o estilo de programar uma ação da linguagem da máquina. Ao se desconstruir a linguagem computacional pela visão da cognição50 e seus padrões notam-se fundamentos da linguagem com atributos importantes que já foram abordados nos conceitos do Paradigma Matemático-Informacional (codificação, decodificação e retroalimentação) da Comunicação Social assim como na informação: a troca de significado pela abstração simbólica percebida como noção interpretativa, porém, o fato de armazenar informação “lapidada” ou não e poder analisá-la em uma escala maior pelo desenvolvimento tecnológico possibilita ampliar análises relacionais pela tecnologia orientada a objeto. O Paradigma da Orientação a Objeto (VICENZI, 2004) é uma evolução da linguagem de programação computacional que surgiu em 1950, isto é, em comparação ao modo anterior que é denominado estruturado. Seu criador foi Alan Curtis Kay (KAY, 2013) também 50 O conceito de cognição aqui, sob o ponto de vista de Floridi, é o processo que pode interpretar a informação. 48 inventor da interface gráfica - o que pode ser visto nas telas do computador - e também do Dynabook (o que atualmente é denominado laptop). O paradigma pode ser aplicado a qualquer linguagem já que o que se diferencia é o modo de proceder na programação pelo planejamento das ações e finalidades da entidade principal: o objeto. Na linguagem estruturada a ênfase é dada ao desenvolvimento de procedimentos implementados em blocos lógicos estruturados da linguagem e à comunicação entre procedimentos nas transmissões de dados. Na orientação a objeto os dados e procedimentos passam a ser parte do objeto, portanto, não só um elemento físico na realidade é visto como objeto como uma bola, por exemplo, mas o movimento da bola é também visto como objeto. Assim toda a realidade a ser abstraída passa pelo crivo planejável do objeto para ser criado e assim a linguagem de programação ganha alguns potenciais que impactam e ampliam desempenho e poder de intervenção da realidade. A classe é uma entidade que engloba dados (atributos) e funções (métodos). O objeto é uma criação da classe (instância) em tempo de execução, ou melhor, quando se executa o código da classe em um programa. O objeto na classe possui um comportamento e um estado. Os relacionamentos e os objetos passam a ser, portanto, partes que cooperam entre si sob a administração do programador por meio de mensagens que chamam os métodos. Nos relacionamentos entre as classes há hierarquia de coleções de objetos cada qual com sua especificidade para o todo do projeto. Essas coleções são gerenciadas por algumas técnicas da linguagem que regem todos os relacionamentos. São elas: encapsulamento (ação que visa dar segurança a uma classe), herança (classes podem herdar métodos de outras classes), polimorfismo (objetos que respondem diferentemente a uma mesma mensagem recebida) e cluster (conjuntos de classes que cooperam entre si na implementação, resultado das funções na interface gráfica). O cluster, em especial, terá uma atenção peculiar nesse estudo. A partir dessa visão observa-se um maior domínio no que tange a expansão de uma classe em relação a um projeto. No momento em que se cria e implementa uma estrutura programável ela poderá ser usada e ampliada para outros projetos que não necessariamente no mesmo escopo do original. Aqui se observa um ganho na linguagem propriamente dita, pois a linguagem computacional somou, em analogia a história da linguagem, uma sintaxe que permite administrar a si própria pela intervenção do programador (propriedade de auto-referência dos autômatos de Neumann51). Em resumo se pode matematizar os critérios do resultado “jogo do objeto” pelos 51 Todas as células evoluem segundo a mesma regra para atualização, baseada nos valores das suas células vizinhas. Cada vez que as regras são aplicadas , uma nova geração é produzida. Compression-Based 49 critérios que foram utilizados para construí-lo. A escalabilidade se beneficia desse jogo de linguagem. Todos os feitos como a ampliação dos procedimentos dos Data Sets da rede da internet, a decodificação do DNA, a física quântica (processamento de informação gerada nos experimentos físicos do Colisor de Hádrons, um túnel de 27m de circunferência localizada próximo da Suíça que centraliza a colisão de partículas e as observa em partes) , entre outras, passam pelo impulso dado por esse paradigma porque favoreceu o melhor desempenho do processamento e também da organização entre os códigos pela facilidade de documentar e aplicar alterações globais (alteração que impacta todo um programa pela alteração de uma única variável no objeto pela classe). Nesse contexto as redes telemáticas ganharam escala e se expandiram pelo aperfeiçoamento das interfaces gráficas, pelo aumento de processamento dos computadores e reutilização das modularizações (estoque de abstração dos clusters que foram resgatados para criar outras coisas). Dentro dessa visão houve a possibilidade de semantizar os objetos em rede, pela criação do IP (endereço único de cada computador conectado na internet) e das relações que essa conexão veio derivar. Tim Berners-Lee foi um dos precursores desse contexto na criação das redes, a internet. O projeto da internet, protocolos TCP/IP52, que culminou na rede dos dias atuais, se originou a partir de um experimento durante a guerra fria pela ARPANET (Advanced Research Projects Agency Network) nos Estados Unidos com o intento de munir de informações aos militares em qualquer lugar (CASTELLS, 1999, p.86). Berners-Lee é um defensor das redes pela sua semantização, ou seja, acredita que ao dar essa roupagem para a as camadas de informação, que fazem a estrutura da internet, se deslocará a informação de “derivativa” para a “meta”, fazendo uma analogia com a teoria de Luciano Floridi já explanado anteriormente, na visão dos conceitos de informação. Sugere, assim, que a internet ganhará “inteligência” porque tais relações favorecem a modelagem analítica, constatado nas pesquisas dos cientistas cognitivistas. Um ponto importante se nota nessa passagem, pois a “estrutura” da linguagem faz diferença pela sua semantização uma vez que a retroalimentação dessas modelagens traz significados ainda que não repleta de Investigation of the Dynamical Properties of Cellular Automata and Other Systems. Disponível em: http://www.complex-systems.com/pdf/19-1-1.pdf . Acessado em: 14 de Dez de 2013. 52 TCP/IP. Disponível em http://www.columbia.edu/~rh120/other/tcpdigest_paper.txt. Acessado em: 26 de Abr. de 2014. 50 recursividade como a linguagem humana. Pode-se ousar que as análises de modelagens semânticas podem gerar “pré-significados” ou tendências deles.53 Com o advento das redes uma nova configuração de criar informação e da forma de se comunicar vigorou e evoluem constantemente pelo apelo de rapidez (imediatismo) no tráfego de informações e pela mobilidade de se fazer tais ações. Uma vez criada a possibilidade de interação entre as pessoas e consequentemente a sociedade local e de outros continentes o número de usuários e da produção de conteúdo na internet cresce exponencialmente. TABELA 1 Uso da internet e estatísticas da população. WORLD INTERNET USAGE AND POPULATION STATISTICS June 30, 2012 Population ( 2012 Est.) World Regions Internet Users Dec. 31, 2000 Internet Users Latest Data Penetration (% Population) Growth 20002012 Africa 1,073,380,925 4,514,400 167,335,676 15.6 % 3,606.7 % Asia 3,922,066,987 114,304,000 1,076,681,059 27.5 % 841.9 % Europe 820,918,446 105,096,093 518,512,109 63.2 % 393.4 % Middle East 223,608,203 3,284,800 90,000,455 40.2 % 2,639.9 % North America 348,280,154 108,096,800 273,785,413 78.6 % 153.3 % 593,688,638 18,068,919 254,915,745 42.9 % 1,310.8 % 35,903,569 7,620,480 24,287,919 67.6 % 218.7 % 7,017,846,922 360,985,492 2,405,518,376 34.3 % 566.4 % Latin America Caribbean / Oceania / Australia WORLD TOTAL Fonte: Internet World Stats. O crescimento do número de páginas criadas possibilita o aumento das indexações de informação produzida sejam pelas relações entre as pessoas, empresas, órgãos do governo etc. O que se pode observar com as indexações semânticas? Se pode observar padrões que emergem pelas dimensões dos conteúdos estocados através das camadas de informação. 53 Grifo meu. 51 As camadas de informação do conteúdo da internet (Wireframes)54 podem ser divididas em 4: a página que é visualizada na tela do computador (interface), a linguagem de programação da página (estática ou dinâmica), linguagem que rege a interação dos conteúdos com o usuários (back-end, estrutura lógica de linguagem de programação responsável pela dinâmica do fluxo de informação que fica no local onde a página que é visualizada está, no endereço que o usuário digita no navegador) e o banco de dados. Esse último nem sempre pode estar acessível e é aqui onde se tem o cerne da questão na obtenção de dados estruturados e também outro assunto que não será analisado aqui, sobre o Open Data (dados de acesso livre55). Uma vez estocada a informação (já filtrada ou aplicado algum critério semântico) ou os dados (variáveis de acessos como logs de sistema, hora de visita, link da página e etc) se pode resgatar esse conteúdo e aplicar relações lógicas para análises diversas e em tempo real. A construção de aplicativos com a preocupação de resgate de informação e análise dos dados para construção de informação foi potencializada pela Orientação a Objeto e assim possibilitou aumentar a observações nas redes pela disponibilização de serviços na internet (Web Services)56. Esses serviços são normalmente links disponibilizados para visualização das variáveis estocadas nos banco de dados e assim há a possibilidade de baixar, salvar ou exportar em formato de arquivo para outros bancos de dados e relacionar com outras variáveis e assim sucessivamente. Sua visualização pode ser por JSON, XML, TXT, CSV (linguagens de programação que tem a finalidade de espelhar de modo ordenado os conteúdos dos bancos de dados) ou outras extensões de arquivos para a máquina ler e retornar de modo mais amigável para visualização humana e também interpretável para a máquina (BERNERS-LEE et.al., 2001). Aqui está o sucesso para a interação dos conteúdos, ou seja, já existe um padrão estrutural em seu armazenamento. Porém, isso não garante que não existam outros padrões. Esses padrões podem emergir pelo relacionamento de outras variáveis ou por abstrações de modelagens analíticas que é uma parte importante de um desenho de um sistema de informação e serve para evitar erros de programação. Na internet há banco de dados relacionais privados e de livre acesso, de natureza primária até derivativa, semântica factual sem interpretação até semânticas factuais com 54 Website wireframe. Disponível em: http://www.novaz.com.br/blog/2010/11/guia-completo-de-wireframing/ . Acessado em: 26 de Abr. de 2014. 55 Para mais detalhes ver o artigo: Science as an open enterprise. Disponível em: https://royalsociety.org/~/media/Royal_Society_Content/policy/projects/sape/2012-06-20-SAOE.pdf . Acessado em: 26 de Abr. de 2014. 52 conhecimento (retomando os conceitos de Floridi). Aqui se vislumbra o que Berners-Lee acredita quando se pode relacionar essas informações e prever alguns sentidos através dos padrões da variáveis estocadas pela linguagem analítica. Até que ponto a comunicação deixa de ser objeto ou objetiva um ato mediador de significado preditivo na modelagem de dados? A origem das modelagens analíticas nos ambientes de informação estruturada ou nãoestruturada (Data Set) fazem eco desde o advento do ENIAC, mas foi a partir do UNIX que a popularização das máquinas deram impulso nas interações semânticas. O desenvolvimento do processamento promoveu o avanço técnico de armazenamento das informações em padrões programáveis na linguagem de consulta estruturada (SQL57 - Structured Query Language) assim o modo de apresentar a informação se destaca. O desenvolvimento da consulta de dados evoluiu para o conceito Big Data, que significa o volume de informação que a escalabilidade permitiu alcançar. Pesquisadores da Universidade de Southern Califórnia (HILBERT, 2011) realizaram um estudo, fundamentado em três perspectivas (capacidade de armazenamento, transmissão de dados e processamento da informação) e com o recorte temporal de 1986 a 2007, que mostra como a tecnologia se configura sob o ponto de vista de administração da informação. No ano de 2007 o volume de instruções computáveis por segundo (6.4 x 1018) no uso diário de um computador está no mesmo patamar como o número máximo de impulsos nervosos executados pelo cérebro humano por segundo (x1017) e o número bits armazenados em todos os aparatos tecnológicos em 2007 (2.4 x 1021) está próximo da magnitude dos cerca de 1023 pedaços armazenados no DNA de um ser humano adulto, mas ainda é minúscula em comparação com os 1090 bits armazenados no universo58. Nos vinte e um anos decorridos a área que mais apresentou crescimento foi a de telecomunicação (28%) depois a área de armazenamento de informação (23%) e por último a de conteúdo midiático (6%). Interessante notar que a área de armazenamento não acompanhou a área que gera conteúdo e aqui reside outro lado do conceito Big Data. Algumas especificidades59 que participam do conceito impactam 56 Web Services Activity Statement. Disponível em: http://www.w3.org/2002/ws/Activity. Acessado em: 26 de Abr. de 2014. 57 A History and Evaluation of System R. Disponível em: http://www.cs.berkeley.edu/~brewer/cs262/SystemRcomments.pdf . Acessado em: 26 de Abr. de 2014. 58 Além desse estudo há um infográfico mais atual da BBC sobre o panorama do volume de informação armazenável em comparação aos objetos analógicos, digitais e orgânicos com estimativa até 2019. Disponível em: http://www.bbc.com/future/story/20130621-byte-sized-guide-to-data-storage . Acessado em: 26 de Abr. de 2014. 59 Big Data Definition. Disponível em: http://mike2.openmethodology.org/wiki/Big_Data_Definition . Acessado em: 26 de Jun. de 2014. 53 diretamente na questão do volume que são a complexidade de cada base de dados no quesito estruturação e acesso, quantidade de valores que podem ser derivados de técnicas de análises inovadoras ou não e o uso de informação longitudinal (histórica e variada sobre o tema) para dar suporte à análise. A questão do tamanho do banco de dados nem sempre está relacionado com a quantidade de dados propriamente dito como, por exemplo, o volume de dados gerados pela área de telecomunicação é grande e estruturado, mas se a análise demandar relacionar usuários que fazem uso dos serviços de telefonia e que assistem a vídeos (streaming) de determinado assunto, apesar das bases estarem estruturadas e permitirem acesso via SQL a dificuldade de processamento da informação será aumentada. Isso explica em partes o porquê de a estrutura de armazenamento não ter acompanhado a área de telecomunicação na pesquisa porque o custo para se gerar bases analíticas aumentaria e impactaria o modelo de negócio. Com o aumento dos recursos tecnológicos dos dispositivos mais informação será gerada, dessa forma surge o conceito de “programação paralela”60, que é uma forma diferente de processar a informação. As empresas61, sentindo necessidade e oportunidade de desenvolver mercado, investiram em pesquisas de desenvolvimento de sistemas de modelagens de programação que ampliaram o que o SQL já fazia e expandiu implementação da tecnologia para outras linguagens não restringindo apenas para a linguagem padrão de acesso ao banco de dados tornando mais flexível a implementação. Ao invés de ser processado somente em um terminal, computador, se usa um cluster de computadores em um centro de dados que fracionam os pacotes de processamento via comunicação máquina-rede-máquinas. Dessa forma aumenta a escalabilidade e desenvolvimento de interfaces que reagrupam os dados para gerarem informação com menor peso no processamento. É uma inovação de armazenamento e acesso à informação e o sistema mais comum é o Apache Hadoop62. Mas o que o Big Data traz de diferente com o desenvolvimento da tecnologia de sistemas de modelagens? O uso das ferramentas de análise de grande massa de informação está redescobrindo matérias-primas das empresas, os dados63, de modo que não é simplesmente ter os dados para observá-los, mas sim como observá-los. 60 Parallel Programming in the Age of Big Data. Disponível em: http://gigaom.com/2008/11/09/mapreduceleads-the-way-for-parallel-programming/. Acesso em: 23 de Jul. de 2014. 61 What is Big Data?. Disponível em: http://www.ibm.com/big-data/us/en/ . Acesso em: 23 de Jul. de 2014. 62 Hadoop. Disponível em: http://hadoop.apache.org/ . Acesso em: 23 de Jul. de 2014. 63 Living by the Numbers: Big Data Knows What Your Future Holds. Disponível em: http://www.spiegel.de/international/business/big-data-enables-companies-and-researchers-to-look-into-thefuture-a-899964.html . Acesso em: 23 de Jul. de 2014. 54 “Credit card companies can quickly recognize unusual usage patterns, and hence automatically warn cardholders when large sums are suddenly being charged to their cards in places where they have never been. Energy companies use weather data analyses to pinpoint the ideal locations for wind turbines down to the last meter. According to official figures, since the Swedish capital Stockholm began using algorithms to manage traffic, drive times through the city's downtown area have been cut in half and emissions reduced by 10 percent. Online merchants have recently started using the analyses to optimize their selling strategies.64” (MÜLLER et al, 2013, [s.p.]) A capacidade de atingir todo o potencial de grandes volumes de dados requer não apenas os dados, ferramentas e infra-estrutura, mas também habilidades quantitativas para atravessar as quantidades de dados. O cientista de dados (Data Scientist) surge como uma necessidade e oportunidade para empreender pesquisas, mas também traz o desafio de aperfeiçoamento e busca de conhecimento quantitativo para fazer as análises. Na época que o termo foi criado, por Jeff Hammerbacher e D.J. Patil que na época estavam no Facebook e LinkedIn respectivamente65 em 2008, não existiam plataformas para análise grandes quantidades de informação e tal fato exigiu que os cientistas desenvolvessem seus próprios algoritmos para empreenderem análises mais profundas dos dados, mas o número de especialistas em grande volumes de dados que desenvolviam suas próprias ferramentas de análise era pequeno. A partir do desenvolvimento das plataformas de programação paralela há um impulso na usabilidade das ferramentas e algoritmos que se espalharam, neste caso na internet, e permite aos analistas focarem na capacitação analítica não apenas ferramental (vale lembrar que para interagir com uma plataforma existe a curva de aprendizagem para seu uso, mas o exemplo aqui explicado se refere ao aumento da possibilidade de estudo liberado pelo tempo de construção da ferramenta que atualmente a escalabilidade ampliou). Portanto, a oportunidade de pesquisa do cientista de dados não se fecha apenas para a área da programação, mesmo que seja um desafio, se abre para outras áreas de estudo empreenderem esforços em analisar modelagens conectadas por data centers. 64 Tradução do autor: “Empresas de cartão de crédito podem reconhecer rapidamente os padrões de uso incomuns e, portanto, automaticamente alertar os titulares quando grandes somas de repente estão sendo cobradas de seus cartões em lugares onde nunca estiveram. As empresas de energia utilizam análises de dados meteorológicos para identificar os locais ideais para turbinas eólicas até ao último metro. Segundo dados oficiais, uma vez que a capital sueca Estocolmo começou a usar algoritmos para gerenciar tráfego, as movimentações através da área central da cidade foram cortadas ao meio e reduziu as emissões em 10 por cento. Comerciantes online recentemente começaram a usar as análises para otimizar suas estratégias de venda.” 65 Going Beyond Data Science Toward an Analytics Ecosystem. Disponível em: http://ibmdatamag.com/2014/03/going-beyond-data-science-toward-an-analytics-ecosystem-part-1/ . Acesso em: 23 de Jul. de 2014. 55 Conectada por data centers, local físico onde as codificações e decodificações dos Wireframes e Data Sets espalhados pelo planeta, a rede telemática ganha escopo científico quando dá a possibilidade de auferir metodologias de análise das segmentações advindas das camadas e interfaces interativas de uma base ou de sua relação com outras. No artigo Creating a Science of the Web (2007) Berners-Lee advoga que a internet é regida pela linguagem e os protocolos da web espelham “contratos sociais”. Uma vez aumentando a infraestrutura para semantizar a web, isto é, pela retroalimentação de informações dos usuários e das máquinas, maior a observação das riquezas do Big Data que se consolida na disponibilização das informações. O advento das linguagens que reproduzem organizações semânticas marcadas em blocos de significados possibilita que as pessoas estruturem, por esses blocos, informações documentadas que não necessariamente o significado dessa organização, mas dota a “natureza” da informação, sua intenção. Essa dimensão de representação possibilita a máquina “envolver” a semântica contida na organização pelas suas propriedades. Sujeito, verbo e objeto podem ser indexados e relacionados a outros contextos. Usando um indexador para cada conceito se pode diferenciar uma palavra de um discurso ou um discurso de uma variável (nome de uma cidade e de uma pessoa, por exemplo). Esse escalonamento de variáveis indexadas tem de ser indexado pela cognição humana, mas uma vez “conceitualizada” permite inferir relações quem ampliam a interpretação da interação pela máquina em um segundo momento. Aqui vale resgatar os estudos cognitivos sobre os DMP´s e o fMRI onde o processo de indexação é similar ao da Web Semântica, aliás, se baseiam nessa perspectiva que se denomina OWL conforme já explanado anteriormente. Para a máquina descobrir a diferença entre um código postal, por exemplo, de outro número há a necessidade de cria as bibliotecas de coleção de informações, ou seja, ontologias de informações que classificam informações. A área de Inteligência Artificial66 reutilizou o conceito de ontologia da filosofia e dotou seu significado como a relação das coisas. As taxonomias “derivativas” desse processo não dotam a máquina compreender para tomar uma decisão de resultado humano, mas transforma uma massa de informações mais interpretável aos humanos promovendo a desambiguação. A força da Web Semântica reside quando várias pessoas criarem coleções do conteúdo da Web de diversas fontes por aplicativos transformando-os em agentes exponenciais de transferência de informações sem 66 A software engineering approach to ontology building. Disponível em: http://wwwusers.di.uniroma1.it/~navigli/pubs/De_Nicola_Missikoff_Navigli_2009.pdf . Acessado em: 12 de Mar. De 2014. 56 necessariamente exigir as pessoas de trabalharem juntas, mas agentes de sinergias semânticas indexadas pelo critério padrão das ontologias. O lado promissor é que uma vez a Web Semântica se tornando indexada e colaborativa um conceito gerado por um pequeno grupo de estudos pode ganhar escopo maior (wiki) assim promovendo a inovação no ponto de vista na agilidade de suas relações. Evidente que tal fato não exime ou diminui a necessidade de produzir um escopo metodológico no qual outros estudiosos ou cientistas de dados possam seguir por experimentos e sim na documentação do processo. Esse espelho produtivo se torna mais necessário uma vez que é por essa via que reside a seriedade do estudo na sua relação comprobatória. Aqui reside também o avanço que o Data Scientist pode contribuir para os estudos da Comunicação Social não apenas na potencialização da recursividade que está embutida na linguagem e também em suas semânticas no jogo de linguagem que se congregam na ação de comunicar. A Web Science preconizada por Berners-Lee sugere a interdisciplinaridade das ciências da computação e das ciências humanas entre outras. O tema pode ser conceitualizado por co-constitutivo, relacionamentos heterogêneos, performativo e movimentações imutáveis. Assim se argumenta no artigo A Manifesto for Web Science (HALFORD et.al; 2010) que as relações desses conceitos resultam metodologias plausíveis entre perspectivas quantitativas e qualitativas. Em paralelo ao discurso refletido nesse empreendimento monográfico, na contextualização teórica e prática, os pesquisadores da universidade de Southampton descrevem que a co-constituição é um conceito que pertence a uma transformação mútua da sociedade. Originado da observação da crítica do determinismo tecnológico, mas focado na evolução que a tecnologia imprime na sociedade o conceito vai de encontro aos estudos explanados pelo antropólogo Fischer no que tange a Sociologia do Conhecimento Científico (SSK na sigla inglesa), Estudos da Ciência e Tecnologia (STS) e Construção Social da Tecnologia (SCOT). Como a tecnologia impacta a sociedade dá abertura para o conceito de relacionamentos heterogêneos que constitui o princípio da simetria entre humanos e máquinas uma vez que essa relação gerada nas redes telemáticas produzem particularidades no âmbito da informação. Assim, dessa particularidade nasce a ação performativa desse relacionamento entre humanos e máquinas por meio colaborativo ou não, mas interativos no prisma da informação na web como um verbo que dá sentido ao seu predicado e possibilita novos sentidos nos jogos de linguagem. As movimentações imutáveis demonstram esses jogos de sentidos não no sentido inflexível de seus movimentos, mas da origem das repetições das práticas que produzem as relações. As coisas mudam no decorrer das interações, mas a origem é a mesma, ou seja, pelos relacionamentos heterogêneos conectados que pautam as redes telemáticas. Portanto, a metodologia nasce da oportunidade 57 de aplicação do conjunto de ferramentas dispostas pelas escalabilidades descritas anteriormente. O conjunto em si não é uma metodologia, mas sim sua aplicação no intento de capturar diferentes aspectos de um data set, por exemplo, ou de sua relação abrindo novos diálogos pela inferência semântica dentro de um recorte específico. Ainda os pesquisadores de Southampton (HALFORD et.al; 2010) sugerem que o manifesto da ciência da web deve ser uma genuína intersecção de disciplinas e não uma sociologia ou uma ciência da computação da web, não se pode negligenciar o olhar de que o homem impacta a web e a web impacta o homem, deve abordar todos os atores da ação performativa individualmente, em grupo e suas tecnologias, não deve se prender a metodologias e epistemologias que não promovam a observação do micro e macro fenômeno das relações e finalmente não deve perder sua criticidade, isto é, deve ser em prol dos humanos e não ao contrário. Portanto, níveis de “granulações” dos conteúdos são possibilitados no trato da informação e suas propriedades e variáveis que são ontologicamente indexadas e interpretáveis pelas ferramentas técnicas que somam esforços na intersecção da Web Science como disciplina. 58 4.2. “Métodos” para a Ciência da Comunicação Social Conforme pode ser observado nos argumentos de Fischer, onde descreve historicamente a interversão da tecnologia nas áreas científicas, as técnicas de análise da Web Science são pertinentes para pesquisa, mas são também para a Comunicação Social. Dessa forma os pesquisadores da Universidade de Washington e da SUNY Instituto de tecnologia (SCHNEIDER; FOOT; 2005) fundamentam a possibilidade de estudar a Web de modo multidimensional aplicando o conceito de Web Sphere Analysis que é um esforço integrado do uso de um conjunto de classes programáveis, algoritmos, que colaboram para realizar uma pesquisa em um sistema de informação (Framework)67. Ao se desenhar os processos de análise nos modelos de informação observáveis pelos Data Sets os objetos de pesquisa representam uma coleção de fragmentos a serem minerados nas dimensões de Antecipação das Emergências, Predição de Variáveis e Nível de Estabilidade. Essas dimensões, que participam dentro do mesmo princípio (Framework) empreendido pelos pesquisadores da Web Science (co-constitutivo, relacionamentos heterogêneos, performativo e movimentações imutáveis) permitem criar formas de estudos pelas estratégias de coleções de informações estabelecidas. Essas estratégias podem ser Discursivas ou Retóricas que se preocupam em analisar mais o conteúdo da Web do que a estrutura dos seus elementos. Já a análise das estruturas foca a estrutura da Web, isto é, das páginas da internet ou retorno de pesquisas de coleções Data Sets propriamente ditas assim possibilitando ver as relações entre os conteúdos no ambiente da Web em links, produções colaborativas, textos. Esse método depende diretamente do processo de coleção de informação no que concerne a seleção, arquivamento, lógicas computáveis, tempo de processamento, mudança de origem da fonte arquivada e também da ética pelo respeito à política de acesso de um Data Set. Os estudos de casos selecionados para reflexão estão nesses contextos de sistema de informação e pelos conceitos analisados e constatados os casos serão contrapostos no quesito discursivo e estrutural. Assim se busca observar qual ganho a Comunicação Social tem no modo de visualizar seus objetos de estudo no ambiente das redes telemáticas pela perspectiva da Web Science, do empreendimento da coleção de ferramentas pelo Data Scientist e da Web Sphere Analysis. A internet como Meio e sua estrutura constituída de dados e informações é preenchida de linguagem que recursivamente semantizada possibilita análise. Interativamente 67 Framework. Disponível em: http://www.dsc.ufcg.edu.br/~jacques/cursos/map/html/frame/oque.htm Acessado em: 11 de Mar. De 2014. 59 por homens e máquinas a escalabilidade desenvolvida pela tecnologia dotam a estrutura das redes telemáticas com interfaces representáveis nos jogos de linguagens de codificação, conversão, interação, modelagem de informação e o imediatismo que de certa forma está em paralelo aos estudos dos pesquisadores da Universidade de Washington e pesquisadores da Web Science. Como o autômato de Neumann favorece a Comunicação Social dentro das figurações da tecnologia da Web Science? Seguindo a ideia de que não se pode pensar no fato sem antes na sentença que figura o sentido será posicionado, no estudo dos casos selecionados, é notado como a tecnologia condensa esse encontro na modelagem da informação e como a retroalimentação do conhecimento das origens desse ato embasam cognitivamente a luta do desenvolvimento humano representado nesse estudo como recorte científico do tema estudado. 60 5. ESTUDOS DE CASO 5.1. Yahoo Pipes: agregador Big Data. O Yahoo é uma das empresas precursoras dos serviços da Web dentro do contexto do crescimento das redes telemáticas e suas escalabilidades explanadas anteriormente. Entre as ferramentas (gadgets) que disponibiliza como serviço está o Pipes (PIPES: REWIRE THE WEB; 2014). O Pipes foi lançado em 2007 e criado por Pasha Sadri, Ed Ho, Jonathan Trevor, Kevin Cheng and Daniel Raffelas. A ferramenta de pesquisa Pipes é uma aplicação estrutural de acesso gratuito com coleções algorítmicas de código aberto que propõe aos usuários cadastrados uma interface gráfica para construir agregadores de informações de notícias (RSS, Rich Site Sumary68), páginas da Web e outros serviços que são canalizados na aplicação para acesso e visualização instantânea e posterior. É construído em cima da plataforma Unix e é uma extensão de um conceito computacional o pipeline que é um conjunto de processos padronizados em sequências lógicas que dependem de entradas (stdin) que alimentam a base do que pode ser visualizado (stdout) na interface. Controlados a partir de um propósito programável os serviços do Pipes são implementações em redes que categorizam as fontes de informação de várias naturezas (textos de usuários, operadores lógicos booleanos, links, URL, string, localização, números e etc) e organizam informações estruturadas ou não via sintaxes próprias denominadas Pipes Modules References. Não é necessário saber programação para iniciar os primeiros Pipes para pesquisa, apesar de ser recomendável caso seja necessário empreender pesquisas mais densas com uso de tratamento de informação por aplicação de expressões regulares69. Toda a biblioteca de módulos para uso está disponível de modo organizado e permite aplicação de forma intuitiva uma vez que o manuseio dos módulos são flexíveis para utilização. A interface do Pipes é construída em Java, uma linguagem de programação que permite criar interfaces mais intuitivas paras visualização humana, isto é, por detrás de toda a complexidade de se aplicar um agregador de informação a sua visualização é iconográfica, pois permite clicar e 68 The Evolution of RSS. Disponível em: http://www.webreference.com/authoring/languages/xml/rss/1/index.html. Acesso em: 15 de Dez. de 2013. 69 Expressão regular é uma linguagem de programação poderosa que permite indexar, repartir e recriar um fluxo de informação via diretivas específicas. Para mais informações ver: https://docs.python.org/dev/howto/regex.html 61 arrastar os ícones pertinentes a cada necessidade de pesquisa e desfazer a aplicação do mesmo modo. Para isso é necessário estudar as bibliotecas modulares e usar a interface para, em tempo real, fazer as pesquisas. Uma vez cadastrado no serviço o usuário pode além de criar seu Pipe reutilizar uma estrutura criada por outros usuários permitindo a ampliação de compartilhamento de pesquisas. O serviço Pipes está categorizado no que se chama no ambiente computacional de 70 API (Interfaces de Aplicação de Programação) e são canais por onde se conectam e se disponibilizam informação. Com o desenvolvimento e evolução dos processos dessas aplicações os sites que oferecem canais de serviços (Web Services)44 podem ser canalizados para esse meio e visualizados pelos filtros modulares da plataforma Pipes. A seguir na figura 3 pode-se visualizar a interface do Pipes e suas estruturas no que concerne o conjunto de módulos algorítmicos em ação. Nesse exemplo um conjunto de estruturas foi agregado com o objetivo de canalizar fontes71 de informações disponibilizadas na web. Caso haja o interesse de alterar a forma de filtragem, a visualização ou salvar o modelo vigente a interface possibilita tal edição para posteriores buscas e até mesmo, mediante o ajuste da política de acesso do módulo agregado, permitir que outras pessoas acessem e façam um clone, uma cópia da estrutura criada e ampliar suas formas de agregar notícia e personaliza-la na biblioteca na rede Pipes. 70 QuickStudy: Application Programming Interface (API). Disponível em http://www.computerworld.com/s/article/43487/Application_Programming_Interface . Acesso em: 15 de Dez. de 2013. 71 As fontes de informações (data sets) são originadas do Google News, Yahoo News, CNN Feed, BBC Feed, NDTV Feed. 62 FIGURA 3 Interface da plataforma Pipes e suas estruturas modulares Fonte: https://pipes.yahoo.com/pipes/ Interessante notar que não apenas a estrutura pode ser alterada e reeditada, mas também a forma de compartilhar, seu formato e ainda o que pesquisar outro modo de visualização ao da fonte estrutural da figura 4. Adiante na figura 5 é possível observar como ficará o resultado da modularização construída, a entrada de informação para pesquisa, o endereço do Pipe em questão, links de edição e também qual formato de publicação da nova fonte de informação agregada pode ser compartilhada. Nesse exemplo pode-se publicar como ferramenta do Yahoo! e também como RSS e JSON (linguagem de programação que organiza a informação em tuplas, isto é, nichos de informação que facilita leitura em outros sistemas) além de poder visualizar o resultado da atual busca. 63 FIGURA 4 Interface da plataforma Pipes no modo de visualização dos resultados Fonte: https://pipes.yahoo.com/pipes/ Essa ferramenta favorece a Comunicação Social em organizar grande volume de informação na web, arquivar em outras bases de dados para futuras pesquisas e ainda deixar de fácil acesso ao caminho utilizado, os métodos para se empreenderem pesquisas assim como sua análise crítica no processo de desenvolvimento científico. Não se finda aqui, mas amplia a possibilidade de estudos semânticos como as relações das palavras nos conteúdos, na incidência de um tema estudado, relações temporais que tal base foi arquivada, enfoque dado pelas fontes agregadas e na velocidade de acesso que tal ação permite. As codificações desse jogo de linguagem possibilitam ao comunicador intervir como cientista de banco de dados e suas semânticas no âmbito qualitativo e quantitativo. A conversão em tempo real favorece a interação do homem e da máquina pela modelagem de informação. Isso retroalimenta a forma de visualizar a informação e como interpretá-la em um grande volume de conteúdo. Ainda não vence a cognição humana, mas a ajuda na busca do 64 desenvolvimento e do conhecimento científico de analisar outras abordagens de pesquisa no que favorece a crítica do material produzido e também na organização do mesmo perante o crescimento das publicações que constituem o meio da internet no ambiente contemporâneo. Indexadas as variáveis de estudo e arquivadas em novas fontes de acesso há a possibilidade de aprofundar o estudo de padrões de relacionamentos entre as variáveis e outros meios. O próximo estudo de caso é um exemplo de que o padrão criado possibilita correlacionar variáveis dentro de um tema, subtema, grandes áreas e áreas que em um primeiro momento não apresentam relação gerando informação em conhecimento. Os módulos Pipes são uma instigante forma de trabalhar e filtrar as informações uma vez que há a possibilidade de canalizar ilimitados canais de informação de jornais científicos, revistas, redes sociais e filtrar informação pautada em critérios de busca estruturada para armazenamento ou análise em tempo real. 65 5.2. Wikipedia Miner: mineração de conhecimento. A Wikipedia foi criada por Jimmy Wales72 e é uma enciclopédia digital multilíngue de acesso aberto e sobre a política de licenças que permitem a cópia e compartilhamento (Creative Commons license). É um ambiente colaborativo onde os usuários escrevem, sem intento remunerativo, artigos referentes a qualquer tema cultural. Possui mais de 76.000 voluntários ativos administrando aproximadamente 31.000.000 de artigos em 285 línguas73. Apesar de sofrer algumas críticas que concernem ao relativo “amadorismo” dos voluntários que podem não ser especialistas dos assuntos em questão o site se resguarda que apesar de tal possibilidade os critérios adotados pela política de uso diminuem a possibilidade “vandalismos”, uma vez que apenas o administrador (previamente registrado via cadastro do site) de um tema iniciado pode ter poder de alterar a página. Por outro lado, a Wikipedia possui o espelho da cultura social porque indexa como um layout o conhecimento humano. O conjunto de algoritmos que revisa as alterações no site da Wikipedia busca garantir a assiduidade administrativa da identidade da informação, mas a presença humana é imprescindível na classificação e indexação dos conceitos que são armazenados nas bases de dados como índices de busca. Toda a base do site é baseada em cabeçalhos de informação que organizam a informação de modo estruturado favorecendo a identificação do conteúdo de modo acessível e possibilitando cruzamento de informações. O conjunto de páginas do site, interligado textualmente, formam uma rede de relações semânticas do processamento da linguagem natural humana. Tecnicamente a estrutura da Wikipedia é baseada é XML e HTML. O XML (eXtensible Markup Language) é uma linguagem de programação que formata uma determinada informação em marcações que permite outra máquina e linguagem de programação ler e interpretar e reconstruir ou decodificar a origem da informação e reproduzi-la. O HTML (HyperText Markup Language) é uma linguagem de programação que dá estrutura visual para as páginas do site para o navegador (Firefox, Internet Explorer, Chrome e etc) ler e apresentar como interface de modo mais ergonômico para os humanos. Uma vez estruturada a informação via os voluntários, salva nas bases do Wikipedia e retornado para acesso se fecha um ciclo de interação que permite um jogo de linguagem de codificação e decodificação. São dentro dessas marcações que reside a riqueza de análise das informações. Os silos que o XML representa a informação flexibilizam a intervenção de análise via software. 72 73 Para mais informações ver http://en.wikipedia.org/wiki/Wikipedia:About Até a data da pesquisa da dissertação. 66 Lendo as informações estocadas nos silos há a possibilidade de guardar em outra base, recriar uma outra leitura e assim sucessivamente fazer algo parecido, se não muito próximo, do processo que o yahoo! Pipes em trabalhar a informação conforme apresentado anteriormente. O volume de informação que está indexado na Wikipedia em forma de conhecimento é considerável tendo em vista que quanto mais informação de uma mesma terminologia mais rico é o discernimento do conceito que tal terminologia participa, as ontologias de seu significado. Aqui reside o conceito de desambiguação. A desambiguação é uma forma condensada de que a tecnologia da linguagem, promovida pela manipulação dos modelos de informação e dos algoritmos, favorece análise em um data set volumoso em informação. O crescimento das bases do site aliado ao poder recursivo humano e do seu espelho no fragmento da linguagem de programação abrem espaço para a mineração de informação aberta para o cientista da web e favorece áreas que pretendem estudar o assunto. A comunicação pode se beneficiar em tal ferramenta uma vez que pode direcionar esforços quantitativos e qualitativos no cruzamento de informação. Tal ação foi empreendida pelos pesquisadores do departamento de ciência da computação da Universidade de Waikato, Nova Zelândia (MILNE and WITTEN; 2013). Utilizando o software de código aberto Wikipedia Miner74 analisaram a estrutura da Wikipedia sumarizando tópicos, artigos, categorias, conceitos, rótulos e redirecionamentos de links representados como classes de programação. As classes ampliam a interação do conteúdo possibilitando novas buscas no cruzamento de informação e sua visualização. O processamento da base da Wikipedia como serviço de acesso (Web service) promovem a aplicação de algoritmos de aprendizagem de máquina (ação que permite o computador aperfeiçoar seu desempenho em alguma tarefa pela extração de regras e padrões de grandes conjuntos de dados). Os “motores de busca” dos sites da internet fazem o mesmo processo de aprendizagem quando varrem as páginas sobre determinadas regras que quantificam o conteúdo das páginas e retornam sobre uma entrada previamente estabelecida no campo de busca (imputs). O software é um organizador das indexações do site Wikipedia. Primeiro o software extrai a série de dados do site como data set75. Depois armazena em um banco de dados e 74 Códigos, data e demonstrações on-line do software podem ser visualizados em http://wikipediaminer.sourceforge.net. 75 O banco de dados pode ser acessado para download. Disponível em http://en.wikipedia.org/wiki/Wikipedia:Database_download 67 por um critério de leitura das estruturas das páginas da Wikipedia aplica técnica de aprendizagem de máquina por algoritmos que detectam as variáveis e as reorganizam para análises. FIGURA 5 Diagrama de arquitetura do Wikipedia Miner Fonte: An open-source toolkit for mining Wikipedia A seguir se resume como o software, pelos critérios estruturados nos algoritmos, processam a informação para análise: FIGURA 6 Aprendizagem de máquina sobre camadas de informação do Wikipedia Fonte: An open-source toolkit for mining Wikipedia 68 A ação da aprendizagem em resumo é um processamento de máquina que calcula a correlação (distância euclidiana76) entre os tópicos e seus subitens. Além dessa aproximação lógica há a consideração da desambiguação em um segundo momento onde mede o senso de relacionamento no contexto dos tópicos já correlacionados. Essa estrutura nos fornece um espelho da cultura do conhecimento (corpus), mas de modo estruturado em linguagem de máquina. Vale lembrar, em concordância com a filosofia de Wittgenstein na figuração que participa da representação da linguagem na tecnologia (análise de clusters nos ferramentais promovidos pela escalabilidade), que a desambiguação em um primeiro momento busca diminuir não apenas o ruído de significados no conjunto de informação, mas os valores e pesos nas/pelas camadas que perfazem a estrutura da web e seus conteúdos. Não sana, portanto, a questão “total” da desambiguação em que mineração de um corpus linguístico possa se esgotar em significado e novas dimensões perceptivas de análise. O fluxo contínuo da interação das pessoas com a nuvem de informação da Web está em frequente movimento e desta forma permite o data scientist participar das alterações, isto é, quando há acesso ao data set ou conteúdo estruturado de informação. O jogo de linguagem é instanciado neste ambiente e não quer dizer que a desambiguação é um termo ou ato que possa ser um risco para a análise, mas sim um exercício da linguagem por ela mesma, ou seja, quando se cria ou atualiza uma camada de informação ela permite, pela propriedade tecnológica de isolar um recorte analítico em segmentos renderizados (processo de máquina em transformar processamento em algo visualizável), a criticar a si mesma. Portanto a desambiguação não se finda em si mesma, se abre para outras análises que inclusive podem dar criticidade e evoluir a análise. A modelagem da informação obedece ao pacote de abstração das classes que permite observar as relações entre as áreas do conhecimento em novas categorizações das informações em clusters, ou seja, em nuvens de afinidades de conceituais aproximadas. A seguir na figura 7 uma sugestão de como a classificação do software pode ser utilizada na leitura das mensurações e visualização do retorno das informações estruturadas: 76 Instance-based learning IN Data Mining. Disponível em: http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS UyMG1hbnVhbC5wZGY, p.128-135. Acessado em: 05 de Nov. de 2013. 69 FIGURA 7 Aproximações de informação estruturada da busca relacional entre as palavras Fonte: An open-source toolkit for mining Wikipedia No exemplo anterior pode-se notar que as variáveis em questão, nesse caso cachorro e gato pertencem a algumas similaridades (diagrama de linha contínua) e especificidades (diagrama de linhas pontilhadas). Dessa forma há a possibilidade de relacionar temas e conceitos que aparentemente não possuem relação, mas que compartilham de um grupo, ontologias e significados. É uma ferramenta instigante para análises científicas do contexto de pesquisas e relações temáticas entre culturas e línguas. A acurácia é o resultado das validações cruzadas por aplicação dos algoritmos na relação quantitativa das modelagens estabelecidas gerando visões qualitativas de análise nos padrões de informação que estão contidos nos contextos das temáticas. O ganho da aplicação dessa ferramenta é a detecção dos tópicos de um determinado texto e ampliar significações pela base da enciclopédia em links para busca dos termos em questão. A seguir na figura 8 pode-se observar como a indexação da informação estruturada pode ampliar interatividade na busca de conhecimento: 70 FIGURA 8 Como a estrutura de tópicos da Wikipedia pode ampliar busca por links conceituais Fonte: An open-source toolkit for mining Wikipedia A estruturação da informação da Wikipedia em tópicos ajudou também na implementação de pesquisas em outras áreas como será observado nos experimentos do campo da neurociência. Pesquisadores do departamento de psicologia de da Universidade de Princeton (PEREIRA et al, 2013) utilizaram as bases semânticas dos artigos para reconstruir estímulos visuais dos padrões do cérebro dessas produções semânticas com uso de ressonância magnética. De modo similar aos estudos já explanados anteriormente, nas pesquisas cognitivas, a ressonância magnética capta os reflexos das atividades cerebrais sobre determinados conceitos, mas contrapostos com as representações semânticas contidas nos tópicos a estrutura da linguagem é a própria análise, ou seja, a recursividade pode ser “fotografada” na mente pela interação do corpus semântico. Aqui se observa um avanço importante porque que a estrutura recursiva é passível de observação na sua concepção natural. A hipótese que norteia o estudo é que a escolha de 25 verbos77 é um pivô das características de um conceito e sua ocorrência com as derivações nominais e substantivas em texto dão significados de muitas fontes mentais que os seres humanos associam e que “humanizam” o discurso. Os pesquisadores mostram que as análises do corpus mais as ressonâncias correspondem em certos níveis a representação cerebral de um tema e que 77 Os verbos (na língua nativa do experimento) são: see, hear, listen, taste, smell, eat, touch, rub, lift, manipulate, run, push, fill, move, ride, say, fear, open, approach, near, enter, drive, wear, break and clean. 71 podem desenhar a concretude de um conceito que ativam outros conceitos assim correlacionados. As análises LSA (Latent Semantics Analysis, que é um estudo de 500 artigos da Wikipedia) e a LDA (Latent Dirichlet Allocation, modelo probabilístico de quais palavras aparecem suas frequências, contextos e etc.) (PEREIRA et al, 2013) embasam padrões de informação que podem predizer palavras e conceitos nas nuvens de significado que circunscrevem a amostra. O intuito da pesquisa é isolar como a representação mental dos conceitos está presente no cérebro medida pela ressonância magnética. Para isso se deve aceitar que a representação mental é composta de traços semânticos e que a decomposição do “padrão de ativação cerebral” ao se pensar sobre o conceito geram padrões chave de traços semânticos via estímulo. Tal instância reflexiva permite visualizar a estrutura do mundo real via “recursividade da máquina” nada mais do que coleções de estímulos humanos correlacionados. As correspondências dessa complexidade sistêmica validam estatisticamente conceitos que são preditivos em termos de tópicos. A figura 9 resume o empreendimento do estudo. No item A - o corpus da Wikipedia é transformado de modo que cada artigo está associado com um vetor de probabilidade de tópicos e cada tópico com uma probabilidade de distribuição de palavras. No item B - os 4 estágios em que as probabilidades de tópicos são usados: (1) imagens base de aprendizagem, (2) prevendo probabilidades de tópico para imagens de teste, 3) usá-las para fazer a classificação e (4) comparar suas semelhanças com probabilidades de tópicos previstos para imagens de teste de outros conceitos. Esta é uma iteração um loop (teste) de validação cruzada78, com imagens de exemplo para "martelo" como o conjunto de teste. 78 Validação Cruzada. Disponível em: http://msdn.microsoft.com/pt-br/library/bb895174.aspx. Acessado em: 12 de Jul. De 2014. 72 FIGURA 9 Processo de predição conceitual por probabilidade – Wikipedia Miner Fonte: An open-source toolkit for mining Wikipedia Observa-se considerável complexidade técnica de procedimentos envolvida nos estudos e espelha a realidade interdisciplinar e transdisciplinar do trato da informação e a exigência e abrangência que o cientista da internet tem como desafio absorver. Evidente que cada área possui sua especificidade de delimitação exigida pelo objeto de estudo e seu contexto, mas em todos os casos a modelagem de informação, tratamento de validações estatísticas e os aparatos tecnológicos são utilizados para potencializar os estudos em questão. A ciência da web favorece caminhos para organizar, empreender e documentar esses níveis de informação e experimentos porque inclusive a Comunicação Social pode se beneficiar dessas ferramentas até agora estudadas em canalizar grande volume de informação (Pipes) e indexar em tópicos para indexar e ampliar análise de conteúdo (Wikipedia Miner). Entretanto, como empreender estudos em Comunicação Social utilizando essas ferramentas e das abstrações inerentes da área fomentar e consolidar temáticas de seus objetos de estudo? O 73 próximo estudo de caso, por ser incipiente na utilização de análise Big Data e já apresenta evoluções, ajudará a contextualizar essa abordagem em especial o software utilizado, o Rapid Miner. 5.3. EDM: mineração de dados educacionais A mineração de dados educacionais (EDM na sigla inglesa) “é uma área recente de pesquisa que tem como objetivo desenvolver um conjunto de métodos para explorar um conjunto de dados coletados em ambientes educacionais” (BAKER et al, 2011). Com foco na melhoria contínua no ensino os esforços dos pesquisadores incidem em aplicar métodos sobre a análise da modalidade de ensino EAD (educação a distância). No intuito de verificar a relação entre uma abordagem pedagógica e o aprendizado do aluno a mineração de dados desses alunos é pertinente para desenvolver métodos de ensino mais eficazes. Muitos dos métodos utilizados em EDM são originados da área de mineração de dados79, entretanto, alguns precisam ser modificados na escolha das modelagens pelo fato da necessidade de considerar a hierarquia da informação porque no ambiente educacional possui uma especificidade de aplicação estatística como, por exemplo, o conjunto de algoritmos Weka80 não oferece apoio para validação cruzada (uma técnica de teste estatístico) entre dados a usado para analisar o aluno ou a classe. Tal validação, para os empreendimentos de pesquisa de acordo com os estudiosos da EDM, é importante para ampliar a acurácia de uma modelagem de informação a partir de uma base de dados e ver a estimativa de como o modelo irá se comportar ao analisar os dados. O software utilizado para análise de dados é o RapidMiner81 que apresenta um conjunto amplo de algoritmos estatísticos (inclusive validação cruzada) de fácil aplicação e com uma documentação acessível para quem está começando na área de mineração de dados. Em resumo as ferramentas analíticas que são empreendidas na EDM são: Predição (classificação, regressão, estimação), Agrupamento (cluster), Mineração de Relações (regras de associação, correlações, padrões sequenciais), Destilação de Dados e Modelagem de Informação. 79 Data Mining. Disponível em: http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS UyMG1hbnVhbC5wZGY=. Acessado em: 05 de Nov. de 2013 80 Para mais informações das bibliotecas estatísticas ver: http://www.cs.waikato.ac.nz/ml/weka/ 81 RapidMiner. Disponível em: http://rapidminer.com/ . Acessado em: 22 de Mai. De 2014. 74 A predição é um modo de modelar aspectos específicos de dados já armazenados, nesse caso interação dos alunos nos seus estudos via interface EAD, no intento de circunscrever as variáveis em questão no estudo e ver aquelas que não foram consideradas a priori e que influenciam na análise. No agrupamento há a preocupação de observar dados que se aproximam de forma natural, categorias e que não foram considerados inicialmente como grupos de alunos, escolas e etc. A mineração de relações mira a relação propriamente dita de modo que uma variável pode influenciar mais outras na análise e que pode incidir no fator de agrupamento. As regras de associação se preocupam com a condição de uma variável ou variáveis no quesito que o aluno, por exemplo, pode ter um determinado comportamento de estudo “se” contempla uma determinada regra já relacionada ou agrupada. As correlações observam como uma variável pode acompanhar outra variável no seu grau de dependência (positiva ou negativa). A mineração de sequencias visa o fator temporal dos eventos, suas trajetórias nas relações das variáveis. Por fim, a destilação de dados tem o objetivo de tornar as análises dos dados de forma mais intuitiva ao olhar humano purificando os dados para as pessoas identificarem padrões de análise. Evidente que o conjunto apresentado possui um grau de complexidade peculiar no que concerne curva de aprendizagem e aplicação uma vez que integra o uso da área estatística e de tratamento das informações de modo simultâneo ao estudo do objeto. A breve explanação aqui descrita tem o intuito de introduzir como a EDM aplica em seus estudos as análises oriundas no RapidMiner. A aplicação e tratamento de dados no conjunto de ferramentas analíticas ajudaram a EDM categorizar e prognosticar as ações dos estudantes no intuito de melhorar as metodologias de ensino a distância. O uso desse procedimento de análise é possível através do aumento constante de repositórios e logs (dados de uso e interação do aluno com a plataforma de ensino e salvos automaticamente no sistema) como Data Sets porque possibilitam resgatar análise posterior e também pelo volume de dados para fomentar cruzamentos de dados e inferir novos processos de análise para o conhecimento científico que, além disso, integra o estado emocional e comportamental do aluno, nesse caso, no processo de aprendizagem. A dificuldade inicial da aplicação da EDM foi encontrar um modelo estável de análise que alavanque os indicadores de impacto sobre a interação dos alunos nas interfaces de EAD e dos critérios pré-estabelecidos para posterior constatação ou contestação. De todas as ferramentas analíticas já explanadas as mais utilizadas na EDM são regressão linear82, árvores 82 Principal Components Regression with Data-Chosen Components and Related Methods. Disponível em: http://www.math.cornell.edu/~hwang/pcr.pdf . Acessado em: 05 de Nov. de 2013. 75 de decisão83 e classificação84. A regressão pode apresentar maior viés analítico, porém, a validação cruzada85 busca atenuar tal fato. Um exemplo de avanço na área com aplicação de modelagens pode ser visto no estudo realizado por Arnon Hershkovitz e equipe de desenvolvimento humano da Universidade de Columbia (2013) sobre a falta de atenção do aluno (carelessness) em dar respostas incorretas devido à impulsividade ou esforço insuficiente. Essa chave conceitual é conhecida como um problema na área da educação desde a década de 20. Já outra chave, é uma externalização intencional de ações inadequadas denominadas como “trapaças” do aluno ao interagir com softwares educacionais (em inglês, esse comportamento inadequado é conhecido como “gaming the system”), por exemplo, uma solicitação repetida de sugestões até que o software apresente a resposta. Com o uso do algoritmo de aprendizagem de máquina foi aplicado uma ponderação para descobrir valores discrepantes através de previsões do modelo além de observar as relações entre a construção analisada como causais, dependentes e etc. O modelo foi aplicado no Data Set que contém dados de uso dos alunos em determinadas tarefas de aprendizagem na plataforma de ensino sobre as variáveis motivacionais e comportamentais que favorecerem o gaming. Para legitimar a aplicação foi necessário usar validação cruzada. Esse tipo de análise é um teste que o software faz para validar o próprio modelo em questão utilizando uma parte da base de dados e testando sobre outra parte diferente para ver as correlações entre as variáveis e os níveis de dependência das variáveis entre si. Tal generalização aumenta a confiança de que a mensuração está próxima do critério apreendido em questão sobre outros contextos da base como, por exemplo, se a análise for aplicada em turmas diferentes pelo modelo e se as variáveis apresentarem-se próximas no resultado tal fato mostra acuracidade86. A vantagem de se utilizar esse método é que uma vez existente um estudo ou tema nesse contexto futuros experimentos podem ser repetidos sob as mesmas condições técnicas e isso ajuda a ampliar ou refutar se as variáveis participam de uma natureza causal que impacte o estudo e retroalimente outros gêneros, classes, condições de informações. 83 Fuzzy Decision Trees: Issues and Methods. Disponível em: http://www.cs.umsl.edu/~janikow/fid/fid34/papers/fid.ieeesmc.pdf. Acessado em: 05 de Nov. de 2013 84 Constraint Classification for Multiclass Classification and Ranking. Disponível em: http://l2r.cs.illinois.edu/~danr/Papers/nips02.pdfv Acessado em: 05 de Nov. de 2013. 85 Validação Cruzada. Disponível em: http://msdn.microsoft.com/pt-br/library/bb895174.aspx. Acessado em: 12 de Jul. De 2014. 86 Este conceito apresenta uma vasta literatura e aplicabilidade, mas aqui de forma breve pode ser interpretada como similaridade. Para maiores informações ver Evaluation from Precision, Recall and F-measure to ROC, Informedness, Markedness & Correlation. Disponível em: http://www.peerevaluation.org/pdf/download/libraryID:29919. Acessado em: 05 de Nov. de 2013 76 Para detectar o gaming ou o caressleness software pondera as correlações entre as motivações (uma série de chaves que preparam o contexto de análise) no teste de cada aluno ou grupo de alunos em um determinado tempo. Na amostra utilizada (total de 148 alunos entre 12 e 13 anos) um algoritmo de árvore de decisão mostra os percentuais de cada chave embasada no alinhamento de pré-testes denominado micromundos (microworld) pelas interações das ações do alunos ou escalas de aprendizagem adaptativa (inquiry skills)87. “Each task in the microworld requires students to conduct experiments to determine if a particular independent variable (container size, heat level, substance amount, and cover status) affects various outcomes (melting point, boiling point, time to melt, and time to boil). For a given independent variable, students demonstrated proficiency by hypothesizing, collecting data, reasoning with tables and graphs, analyzing data, and communicating their findings. For this microworld, automated detectors of two key scientific inquiry skills – designing controlled experiment, and testing the stated hypothesis - were developed and validated (Sao Pedro et al., in press).88” (HERSHKOVITZ, 2013, p.1490) 87 O artigo em questão não descreve quais são as chaves que ao todo são 46, mas argumenta que as aplicações dos algoritmos para detectar as variâncias dos skills observados em alunos são baseadas em duas chaves de investigação que são concepção de experiência controlada e teste das indicações de hipóteses (pág .1491). 88 Tradução do autor: “Cada tarefa no micromundo exige que os alunos conduzam experimentos para determinar se uma variável independente em particular (tamanho do recipiente, o nível de calor, a quantidade de substâncias, nível de preenchimento) afeta vários resultados (ponto de fusão, ponto de ebulição, o tempo para derreter, e tempo para ferver). Para uma determinada variável independente, os alunos demonstraram proficiência ao hipotetizar, a coleta de dados, o raciocínio com tabelas e gráficos, análise de dados, e comunicação de suas descobertas. Para este micromundo, foram detectadas automaticamente duas chaves 77 FIGURA 10 Aplicação de validação cruzada em um Data Set do curso EAD, Big Data in Education89 da Universidade de Columbia Fonte: https://www.coursera.org/course/bigdata-edu A seguir na figura 11 um exemplo de como o software pode ajudar a criar uma validação cruzada ou confidência de investigação para alinhar o modelo e testar aplicabilidade. Vale lembrar que o estudo de caso aqui descrito tem como objetivo dar um panorama geral da utilização das modelagens de dados para inferência estatística de modo que seja necessário um estudo mais aprofundado para explanar as especificidades e os níveis de complexidade que tal tema apresenta principalmente para iniciantes no assunto. O layout de usabilidade do software é intuitivo e possui uma biblioteca com explicações detalhadas para cada módulo contendo os algoritmos de análise para aprofundamento de aprendizagem. Ao se criar um processo analítico há a necessidade de preparar uma base de dados estruturada geralmente já normalizada90. Para dar entrada das principais de investigação científica - experiência de concepção controlada e testando o estado da hipótese - e foram desenvolvidas e validadas”. 89 O curso foi feito durante a produção desse trabalho monográfico para entendimento das ferramentas analíticas do software para aplicação em amostras e também maior aprofundamento em conceitos estatísticos de análises. Para mais informações ver https://www.coursera.org/course/bigdata-edu . 90 Normalização é um conceito de base de dados que tem o objetivo de criar um processo que permite um armazenamento consistente e um eficiente acesso aos dados em bancos de dados relacionais necessitando conhecimento em tipos e formatos de caracteres computacionais e indexação de chaves primárias para fácil acesso das variáveis estocadas na base. 78 informações (pode ser construída no software Excel para quem tiver mais familiaridade ou web services que fornecem informações no formato CSV – valores separados por vírgulas) basta escolher nas pastas localizadas no lado esquerdo da interface do software o objeto responsável a fazer a entrada de dados denominado “Read”91. Uma vez clicado nesse ícone pode-se abrir o documento para ser analisado e visualizar se houve algum problema de importação para ser sanado que normalmente acontece quando a base contém caracteres que puderam ser lidos pelo interpretador do software. Conseguinte deve-se aplicar outro objeto de análise o “Set Role” para selecionar a camadas de dados (colunas em uma base Excel nesse caso nomeado de ONTASK, tarefas do aluno, que pode ser visualizado na lateral direita do software onde há a possibilidade de regular as sensibilidades de processamento dos algoritmos e seleção de variáveis para o ambiente de análise) para julgamento em relação ao resto da base e preparar o contexto da entrada de dados já realizada. A validação cruzada, contida na caixa “Validation” (basta clicar duas vezes em cima da caixa de validação que abre outra janela do algoritmo) é subdividida em outras duas caixas conforme a figura 11 a seguir. FIGURA 11 Interface da caixa de modelagem validação e automatização de correlações de variáveis (K-NN) e teste de modelo (Apply Model e Performance). Fonte: https://www.coursera.org/course/bigdata-edu 91 Para acessar de modo mais rápido basta digitar o nome no campo busca (search) acima das pastas dos módulos algorítmicos citado na interface. 79 Uma vez inserida a caixa de validação e feita a conexão com as outras caixas e preparada a saída de resultado (output) o modelo já está preparado para os primeiros testes. Para visualizar o resultado basta clicar a tecla F11 para rodar o teste em outra janela abrirá como um relatório das relações das variáveis conforme a figura 12 a seguir. FIGURA 12 Resultado do teste com uso do algoritmo Kappa – teste de confidência Fonte: https://www.coursera.org/course/bigdata-edu O exemplo apresentado é um recorte da pesquisa utilizada pela equipe da universidade de Columbia que mede a predição da variável tarefa (realizada ou não e expressa pelas letras N e Y). A classificação da precisão apresentada é considerada pelos pesquisadores uma boa métrica porque mede a distância de uma realidade em relação a sua expectativa preditiva pela frequência de um binomial (sim e não) em uma amostra. A predição está próxima da realidade da natureza do dado e emerge a informação de que aproximadamente 70% da amostra apresenta realização da tarefa na relação simultânea de todas as variáveis da coluna ONTASK da base, porém, pelo baixo valor do Kappa92, que é o algoritmo estatístico que é comumente utilizado para validação de modelos, alguma variável dependente está fora da análise (outlier) na correlação de todas as colunas. Nesse caso há a necessidade de fazer outros testes filtrando 92 Understanding Interobserver Agreement: The Kappa Statistc. Disponível em: https://www.stfm.org/fmhub/fm2005/May/Anthony360.pdf. Acessado em 05 de Nov. de 2014. 80 turmas, escolas, tarefas ou até o tempo delas serem realizadas e observar as alterações. Vale observar que para se considerar boa uma confidência isso depende do estudo, pois nas pesquisas empreendidas pela ciência da Física 0,80 não é satisfatório e para educação 0,3 é um bom número. Quanto mais variáveis mais alteração tem no indicador pela natureza do Data Set e isso é um pré-requisito importante para análise. Como explanado anteriormente, a análise pode ser extrapolada também para outras variáveis como, por exemplo, a escola do aluno, a turma do alunado, o aluno, gênero, o tempo que o aluno levou para terminar uma tarefa ou qual tarefa em questão ou chaves qualitativas (como as estudadas pelo pesquisador sobre o comportamento do aluno no estudo de caso apresentado). O desenvolvimento da escalabilidade e pela orientação á objeto já ilustrados anteriormente possibilitou o avanço na aplicabilidade dos conhecimentos gerados e podem ser ampliados por novas descobertas. Aqui se encontra um benefício imediato da automatização iniciada por Von Neumann que com o desenvolvimento da área da Ciência da Computação ajuda a clarear o jogo de linguagem travado entre a cognição humana e as semânticas promovidas pela Linguagem, apesar de acessório em relação à estrutura da cognição é um fragmento que ajuda a interpretá-la. 81 6. CONSIDERAÇÕES FINAIS A importância de reconhecer que a temática abordada não se fecha no estudo empreendido é crucial por duas questões simples, mas não menores: abrangência de áreas e especificidade da natureza de estudo. A exemplo da Mineração de Dados Educacionais que adequou as ferramentas de análise para seu objeto de estudo (no caso a customização dos módulos estatísticos Weka para validação cruzada) exigiu uma especialização dos pesquisadores em implementar tal aplicação. Na Comunicação Social ainda não é comum, talvez pela ausência nas grades curriculares nas formações dos seus cursos módulos que ministram as tecnologias e suas estruturas no que tange aos impactos que o domínio da programação favorece, o uso das tecnologias de mensuração das variáveis para justificar os estudos conforme observado nos estudos cognitivos. A abrangência de conteúdos e teorias e práticas que o estudo da Web Science requer de modo interdisciplinar sugere uma adequação dos profissionais da área a entenderem e aplicarem as ferramentas dispostas pela escalabilidade. Dentro do campo da Ciência da Computação o estudo se curva para as dimensões entre hardware e software, isto é, os dispositivos e suas funcionalidades e as camadas de linguagens que fazem as interações acontecerem com as pessoas. A Ciência Cognitiva se curva no cérebro humano e no universo que tal órgão possui com especificidades como as orgânicas, elétricas, químicas e magnéticas que ainda pouca coisa foi descoberta sobre sua funcionalidade. A Antropologia e a Comunicação Social se curvam na relação entre o(s) homem(s), o espaço onde vive(m) e as coisas que o(s) rodeia(m) e a especificidade da natureza de estudo tende a se identificar com tudo, isto é, o campo de estudo é vasto. Entretanto, a Antropologia, como mostra Fischer, percebe as alterações culturais que o impacto da tecnologia incidiu no decorrer de seu desenvolvimento e adequou de certa forma, em seus testes de haplótipos conforme explanado no capítulo 2, o uso da tecnologia para fazer seus experimentos e aproveitar o que a orientação a objeto proporcionou no campo da Ciência da Computação e também para as outras áreas. A Comunicação Social no paradigma Matemático-Informacional participou diretamente do impulso da tecnologia e seu desenvolvimento conforme já analisado no 82 capítulo 2 e 3 e norteia vetores (conceito de autômato e retroalimentação) para estudar os media (aqui focado no meio digital e suas relações) no contexto da internet na dimensão proativa, ou seja, usar as ferramentas tecnológicas para descobrir como abordar problemas advindos da própria tecnologia, como exemplo, o problema do projeto que analisa o volume de informação produzida atualmente e o entendimento da relação dessa produção na aceitabilidade do público não apenas na preocupação dos ruídos das mensagens e na eficácia da transmissão e sim o que, quando, quanto, como e qual valor semântico tal volume se comporta e ainda qual relação que pode ser feira com outras temáticas. Evidente que não é um único modo de observar o objeto comunicacional, uma vez que existem outras teorias e paradigmas que também empreendem pesquisa, mas a tecnologia de certa forma impacta todos eles e a preocupação aqui não foca apenas observar as consequências das tecnologias nas relações do homem no seu ambiente, mas sim estudar pela tecnologia os impactos que ela gera. Conforme introduzido nesse trabalho, o volume de dados e de informação gerada atualmente na internet torna complexo o ato analítico, mas ao mesmo tempo é uma oportunidade para áreas que queiram aprofundar estudos inclusive a Comunicação Social. O cruzamento de referências promovido pelo fator semântico colaborativo que se encontra nas redes telemáticas é um caminho de premissa fértil, pois além de desenvolvimento contínuo na sua tecnologia é um fator que tende a aumentar pela dependência que a humanidade se mostra na usabilidade das redes. O ambiente colaborativo (Wiki) permite ampliar as interações das pessoas tanto no ato de consumir informação quanto gerar informação. O uso dos e-mails, mensagens instantâneas, conferências digitais, leitura de livros por dispositivos eletrônicos e aumento da digitalização das obras, compartilhamento em redes sociais e etc. são exemplos disso. As empresas automobilísticas já produzem carros com recurso de concectividade na rede e entre outros dispositivos. Os celulares estão cada vez mais multifuncionais agrupando funções que na “antiga mídia” era fragmentado (máquina fotográfica, rádio, gravador, TV) e agora integra todas ainda conectadas à rede. As TVs já possuem dispositivos para navegação na internet e é possível fazer compras por ela. Produtos podem ser comprados pela rede no outro lado do mundo sem estar na presença física e o produto chega ao local determinado. Os bancos estão cada vez mais digitalizando seus acessos a exemplo das assinaturas digitais (as digitais das pessoas são escaneadas para acesso nos terminais do banco), aplicativos para celulares. A grande maioria dos jornais impressos já investiu em plataformas digitais para divulgar suas notícias e propagandas e readequou seus layouts em frameworks que possuem a capacidade de configurar a página do site de acordo 83 com os dispositivos de quem acessa e criou aplicativos de leitura e disseminação de conteúdo. Os canais de vídeos e compartilhamento social na internet, a exemplo do Youtube e Facebook, são meios onde a publicidade investe cada vez mais em produção e divulgação de conteúdo de modo segmentado e adequado às estatísticas de acesso das pessoas. As empresas se preocupam cada vez mais em administrar os canais comunicativos com os consumidores e gerenciar possíveis crises que impactem a imagem da marca no ambiente digital e consequentemente no mercado. Conteúdos digitais de origem musical são constantemente publicados e compartilhados em rede e tocadas nas rádios. Portanto, esse contexto não parece retroceder no que concerne ao uso e interação e sim participa cada vez mais no dia-a-dia das pessoas, a não ser que exista uma pane eletrônica em escala planetária. O volume de dados que todo esse contexto gera é realmente considerável. Com o desenvolvimento da tecnologia de armazenamento e pela diminuição de seu custo foi possível implementar ferramentas que podem observar esses dados e gerar informação em tempo real. O cientista de dados da Comunicação Social possui o desafio de absorver essa realidade e decodifica-la em pesquisa. O fato individual e o fato social que são intercedidos pela Comunicação Social nas redes telemáticas são passíveis de observação e possibilitam oportunidades de percepções científicas no que concernem as potencialidades complementadas pela Linguagem e suas modelagens. Essas potencialidades são oriundas da clivagem entre a linguagem da máquina com a linguagem humana com o impulso dotado pela modelagem de dados e são designadas pelo data set, pela interface e sua flexibilidade de uso, pelo aumento de processamento da informação e pela indexação semântica dos conteúdos das interfaces na Web. Em um primeiro momento se nota a oportunidade de ação da Comunicação Social como um observatório semântico do meio digital. Mesmo que a área não responda e simule as complexidades da recursividade da linguagem a nível cognitivo ela pode buscar, por meio das ferramentas da análise de dados, respostas sobre a natureza humana no seu ambiente sobre a retroalimentação da informação no seu ciclo assíncrono, nesse caso digital, assim como os estudos da cognição que de certa forma pode ajudar o entendimento do ato comunicativo. Tais percepções científicas podem ser niveladas pela quantificação de uso da rede, índices de visualização, razões de uso, tipo de mídia relacionada, qualidade do conteúdo, estrutura da informação (como é preparada), contexto da informação, fontes de coleta, tipos de informação (texto, imagem, som). A variedade, a velocidade e o volume de dados gerados em rede podem apresentar limitações para o cientista de dados da Comunicação Social observar as percepções científicas porque uma vez delimitada a variável de estudo dentro da variedade da rede e 84 como abordar o volume de dados a velocidade com que as fontes, interfaces, APIs, estrutura de dados podem mudar e o caráter heterogêneo da interatividade por parte das pessoas redobram a atenção dos critérios de pesquisa. Por isso é saudável criar uma documentação dos processos analíticos das ferramentas e módulos utilizados para poder tomar decisões de manutenção ou alteração do(s) critério(s). Os pontos positivos que se ganha com a aplicação das perspectivas é a indexação da informação, filtragem da informação, relacionamento dos critérios estabelecidos em grande escala. Por outro lado, os pontos negativos são a acessibilidade do data set na sua política de acesso (que pode mudar durante o processo da pesquisa), curva de aprendizagem para se empreender o planejado e sua implementação (a não ser que o pesquisador tenha uma equipe de programadores e isso vai depender da complexidade e tamanho do estudo e de análise para se empreender). De modo geral a modelagem de dados frente às limitações e pontos negativos é profícua, pois delimitado um recorte analítico há a possibilidade, por inferência estatística, utilizar 30% da amostra para “treinar” o modelo e dessa forma prever a utilidade para processar os 100% dos dados que de certa forma exigirá mais processamento de máquina. A modelagem de dados ganha corpus analítico na Linguagem como método, a desconstrução dos componentes das interfaces e algoritmos e os resultados desse processo mostram a recursividade da cognição, mesmo que de forma secundária à recursividade genuína da mente. A recursividade da cognição via linguagem é um canal de representação por onde se trava a consolidação da modelagem de dados via tecnologia que por sua vez é retroalimentada pela troca de informação e suas dimensões relacionais nas interações e armazenamento de valores humanos em forma de conhecimento como um ciclo produtivo. A Comunicação Social dentro de suas competências sociais nas trocas de valores como ato simbólico e como parte da natureza humana é muito complexa para ser reduzida a textos, falas e algoritmos. Porém, quando o conjunto de ferramentas apresentados nos estudos de casos assim como outros a serem pesquisados ou desenvolvidos e suas proximidades somam possibilidades de ampliar e esmiuçar a complexidade contida em um banco de dados volumoso na instância da Linguagem há uma oportunidade. A instância em particular significa que o limite entre a linguagem humana e da máquina é delimitada pela percepção que esta última incide porque em um primeiro momento pode parecer trivial que a máquina é artificial e que nunca vai chegar a prever ações humanas, mas quando ajuda a visualizar o que nunca a cognição pode até então observar nas suas projeções isso merece uma reflexão. Esse 85 espelho de inteligência no mínimo gera uma sinergia que amplia a evolução humana no ato perceptivo de modo que nos leva a refletir se a Linguagem não seja um dos principais fatores, se não o principal, no caminho do desenvolvimento da espécie humana em simbiose com suas invenções. Ao se tentar diminuir a defasagem perceptiva, que o volume de informação estruturada e semantizada se apresenta pela natureza assíncrona da dinâmica da Web no ciclo produtivo da informação, nasce a oportunidade. São essas proximidades oportunas que fazem os estudos da Cognição um elo importante quando revela que é através da Linguagem que o avanço tecnológico, conforme foi analisado na observação do procedimento semântico humano e o seu modo de visualizar o mundo, se desenvolveu e impactou os procedimentos de pesquisa, no caso da Comunicação os media. As chaves sugeridas para a análise que percorrem as temáticas desenvolvidas nos capítulos anteriores (codificação, conversão, interação, imediatismo, modelagem de informação) dentro do ambiente das relações entre as áreas surgem como “aforismos binários” na retroalimentação de linguagem e de informação. A estrutura da linguagem e os processos semânticos, apesar de serem o limite da ciência da natureza do homem e sua criação são amparadas nos esforços, dos estudos de caso, do uso da fMRI, OWL, API e EDM como esperanças de pesquisa. Os autômatos de Von Neumann abriram caminho para um realinhamento cognitivo derivando na orientação a objeto, na evolução e desenvolvimento das linguagens de programação, expandindo um “equilíbrio de Nash” nas redes quando a semantização da informação é promovida pelo poder colaborativo. A escalabilidade dos programas promovidos pela padronização da linguagem programável permite ampliar conhecimento pela desambiguação. Esse fato condensado por propriedades e relacionamento orgânico do pensamento impulsiona um extrato recursivo para o Data Scientist testar seus experimentos em empreender pesquisa e pode ajudar o entendimento da Comunicação Social em um possível deslocamento de sua verve conceitual tradicional (emissor, mensagem, receptor) pelo poder da observação tecnológica em um quarto elemento a interação (emissor-receptor, interação, mensagem, interação, receptor-emissor) já que o poder de produção da informação está cada vez mais se voltando para o receptor e se fundindo no emissor . As interações dimensionadas pela escalabilidade da linguagem que a Tecnologia da internet detém sobre as relações sociais no ambiente das redes telemáticas abrem oportunidades de compreender como essas camadas estão se reinventando constante e 86 rapidamente nas interfaces digitais intercedidas pelos sistemas simbólicos como extensão da linguagem humana. A Web Science e a Web Sphere Analysis ajudam a consolidar metodologias de estudo e potencializar ações do Data Scientist a partir das interfaces e experimentos já realizados ou outros a realizar baseado no conjunto de ferramentas, a exemplo dos estudos de caso apresentados. Os estudos de caso analisados condensam as temáticas expostas e, nesse prisma, a Comunicação Social pode desenvolver novas pesquisas e ampliar ganhos científicos assim como os esforços das ciências cognitivas, das ciências da computação e da mineração de dados educacionais. Com base na pesquisa feita neste projeto foi possível observar que os agregadores de informação podem ser usados para canalizar uma grande quantidade de fontes, temas, domínios de internet (endereço do site), títulos de páginas, conteúdos de páginas, informações geográficas, datas, horários de uso, gênero, idade, produtos desejados e etc. e armazenados em um banco de dados diariamente, semanalmente, semestralmente como for útil para a pesquisa para ser acessado posteriormente. Uma vez estocados os dados referentes à seleção estabelecida há a possibilidade de fazer pesquisas e particionar por datas, segmentos ou agrupamentos de dados para dotar novas relações e assim sucessivamente. Caso a quantidade de dados atingir um tamanho considerável (na escala de Gigabytes ou Terabytes) o uso da ferramenta Hadoop, explanada no capitulo 4, seja necessário e isso necessitará implementar uma rotina de processamento em um centro de dados pago ou desenvolver a própria rede de processamento. Tal base construída pode ser relacionada com a base Wikipedia apresentada no estudo de caso Wikipedia Miner e produzir um “visualizador cultural” dos temas estudados já que a base Wikipedia fornece um espelho da cultura do conhecimento humano (corpus) de modo estruturado em linguagem de máquina. Podem ser cruzados dados históricos das informações agrupadas em um primeiro momento e conteúdos que não estejam relacionados na base dos agregadores e por validações e aplicações algorítmicas de aprendizagem de máquina os dados ganham status de informação e podem ser estocados também como resultado desse cruzamento criando uma nuvem relacional. Assim fizeram os pesquisadores do departamento de psicologia de da Universidade de Princeton no capitulo 5 ao utilizarem as bases semânticas dos artigos do Wikipedia para embasarem estímulos visuais dos padrões do cérebro dessas produções semânticas com uso de ressonância magnética onde os pesquisadores mostram que as análises do corpus mais as ressonâncias correspondem em certos níveis a representação cerebral de um tema e que podem desenhar a concretude de um conceito que ativam outros conceitos assim correlacionados. 87 Dessa forma, com a base repleta de informação e relações há a possibilidade de “treinar” modelagens de dados criando uma conexão com o software RapidMiner (por web service ou em instruções de extração salvas em um arquivo como exemplificados no capítulo 4) e inferir validações quantitativas para os experimentos relacionais. Evidente que os experimentos podem não mostrar um resultado satisfatório e nesse caso podem ser aplicados outros métodos de pesquisa para sedimentar ou ampliar evidências latentes ou manifestas nos estudos quantitativos. A área jornalística pode usar tal escopo para monitorar a rede sobre temas e tendências de temas para pautas assim com serviços de visualização de conteúdo atrelado à notícia, matéria ou artigo para alimentar gráficos dinâmicos em tempo real, infográficos que mostram acompanhamentos de impactos meteorológicos, conflitos sociais e dados históricos sobre os temas agregados na base de dados. A área da publicidade e propaganda ou rádio e TV pode armazenar taxas de cliques desses materiais jornalísticos e atrelar a informações dos usuários cadastrados no serviço (evidente que aqui recai na questão da invasão de privacidade e política de acesso, mas vale lembrar que há necessidade de apresentar um documento de adesão contendo as políticas de uso das informações para acesso – disclaimer - e aqui reside uma questão que ainda não foi totalmente resolvida legalmente no ambiente digital). Uma vez estocadas as taxas de cliques algoritmos detectariam tendências de uso e segmentos de consumo para customizar campanhas já que o protocolo TCP/IP dá a identidade de acesso e de transmissão da informação de cada máquina conectada na rede. A área de relações públicas pode monitorar nas redes sociais (aqui cabe às outras áreas também) as temáticas que nascem da relação das empresas e o público e criar indicadores que acompanham a imagem da marca, satisfação de clientes e seguidores da cultura das organizações. Portanto, acredita-se que o conjunto de ferramentas apresentado anteriormente entre outros a serem pesquisados possam ajudar a Propaganda a rever seu modo de planejar e propagar campanhas, o Jornalismo de produzir e publicar notícias, as Relações Públicas de antever e administrar crises e das Rádios e TVs compartilharem seus conteúdos. 88 REFERÊNCIAS BAKER, Ryan S. J.; CARVALHO, Adriana Maria J. B.; ISOTANI; Seiji. Mineração de Dados Educacionais para o Brasil IN Revista Brasileira de Informática na Educação, Vol. 19, nº 2, 24 de AGO. 2011. BERNERS-LEE, Tim. et. al. Creating a Science of the Web. Massachusetts, 2007. Disponível em http://journal.webscience.org/2/2/creating.pdf Acesso em: 22 de MAI. 2013. BERNERS-LEE, Tim. et. al. The Semantic Web. San Francisco, 2001. Disponível em http://www.scientificamerican.com/article/the-semantic-web/ Acesso em: 22 de MAI. 2013. BIZER, Christian; HEATH, Tom; BERNERS-LEE, Tim. Linked Data - The Story So Far. Disponível em http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf Acesso em: 10 de MAI. 2013. CASTELLS, Manuel. A Sociedade em Rede, v.1. São Paulo: Paz e Terra, 1999. CERUZZI, Paul E. A history Of Modern Computing. Disponível em: http://www.ebooks.downappz.com/?page=download&id=TRSQX3KZ51&file=A_History_of _Modern_Computing.pdf . Acesso em: 10 de OUT. 2012. CHOMSKY, Noam. Three Models for the Description of Language. Cambridge: September, 1956. Disponível em: http://www.chomsky.info/articles/195609--.pdf. Acesso em: 24 de Nov. 2012. FISCHER, Michael. Futuros Antropológicos. Redefinindo a Cultura na Era Tecnológica. Rio de Janeiro: Zahar, 2011. FLORIDI, Luciano. Open Problem in the Philosophy of Information. Malden: Blackwell Publishing, 2004. ________________. Information: A Very Short Introduction. New York: Oxford University Press, 2010. GASCA, A.M., ISRAEL, G. The World as a Mathematical Game. Berlin: Birkhäuser, 2009. GOLDMAN, N.; BERTONE, Paul; CHEN, S. Towards practical, high-capacity, lowmaintenance information storage in synthesized DNA. Disponível em http://www.nature.com/nature/journal/vaop/ncurrent/full/nature11875.html Acesso em: 28 de ABR. 2013. 89 HALFORD, Susan; POPE, Catherine; CARR, Leslie (2010) A Manifesto for Web Science. In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, April 26-27th, 2010, Raleigh, NC: US. HALL, Stuart. Representation: Sage publications, 1997. Cultural Representatios and Signifying Pratices. London: HERSHKOVITZ, Arnon. Discovery With Models. A Case Study on Carelessness in Computer-Based Science Inquiry IN American Behavioral Scientist, October 2013, vol. 57, nº 10, p. 1480-1499. New York: Columbia University, 2013. HEBERLEIN, A.S.; ADOLPHS, R. Functional anatomy of social cognition. IN Cognitive Neuroscience of Social Behavior. Part II, P.157-194. New York: Psychology Press, 2005. HILBERT, Martin; LOPEZ, Priscila. The World’s Technological Capacity to Store, Communicate, and Compute Information. California, 2011. Disponível em: http://www.ris.org/uploadi/editor/13049382751297697294Science-2011-Hilbertscience.1200970.pdf. Acesso em: 12 de Jun.2014. HINE, Christine. Virtual Methods: Issues in Social Research on the Internet. New York: Berg Editions, 2005. KEY, Alan. et. al. Disponível em http://www.vpri.org/html/work/NSFproposal.pdf Acesso em: 15 de MAR. 2013. LIMA JUNIOR, Walter. T. Intersecções possíveis: tecnologia, comunicação e ciência cognitiva IN Revista Comunicação Social e Sociedade, São Bernardo do Campo, v. 34, n. 2, p. 93-119, jan./jun. 2013. LOBINA, David J. (2011) Recursion and the competence/performance distinction in AGL tasks, Language and Cognitive Processes, v.26, ano.10, p.1563-1586, DOI: 10.1080/01690965.2011.560006 MCLUHAN, Marshall. Os Meios de Comunicação Social como Extensões do Homem (Understanding Media). São Paulo: Editora Cultrix, 1974. MARCILESE, Mercedes. Sobre o papel da língua no desenvolvimento de habilidades cognitivas superiores: representação, recursividade e cognição numérica. Disponível em http://www2.dbd.puc-rio.br/pergamum/tesesabertas/ Acesso em: 20 de FEV. 2013. ____________________. Aquisição da linguagem e habilidades cognitivas superiores: o papel da língua no desenvolvimento da cognição numérica. Disponível em http://www.scielo.br/pdf/alfa/v56n2/09.pdf Acesso em: 20 de FEV. 2013. MARCANTONIO, J.H. A virada linguística e os novos rumos da filosofia IN Revista do Curso de Direito, vol.4, nº4, São Bernardo do Campo: Revista Eletrônica Metodista, 2007, p. 114-13, ISSN: 2176-1094. 90 MARCONDES FILHO, C. J. R. O Círculo Cibernético. Disponível em : http://www.eca.usp.br/nucleos/filocom/existocom/artigo12a.html Acesso em: 21 de JAN. 2014. MILNE, David;WITTEN, Ian H. An open-source toolkit for mining Wikipedia. IN International Journal of Artificial Intelligence, vol. 194, Pages 222-239, Elsevier, 2013. MITCHELL, Melaine. Complexity: a guide tour. Oxford: Oxfor University Press, 2009. MÜLLER, Martin U.; ROSENBACH, Marcel; SCHULZ, Thomaz. Living by the Numbers: Big Data Knows What Your Future Holds IN Spiegel Online International. Seção Bussiness. German, May 17, 2013. Disponível em: http://www.spiegel.de/international/business/bigdata-enables-companies-and-researchers-to-look-into-the-future-a-899964.html. Acesso em: 23 de Jul. de 2014. PEREIRA, Fancisco; BOTVINICK, Matthew; DETRE, Greg. Using Wikipedia to learn semantic feature representations of concrete concepts in neuroimaging experiments IN International Journal of Artificial Intelligence, vol. 194, Pages 240-252, Elsevier, 2013. POLISTCHUK, Ilana; TRINTA, Aluizio R. Teorias da Comunicação Social. O pensamento e a prática da Comunicação Social. Rio de Janeiro: Elsevier, 2003. 3ª Impressão. RAMIREZ-AMARO, K.; BEETZ, Michael; CHENG, G., Extracting Semantic Rules from Human Observations. IN ICRA’13 workshop: Semantics, Identification and Control of Robot-Human-Environment Interaction. 2013 IEEE International Conference on Robotics and Automation., May 2013. RÜDIGER, Francisco. As teorias da cibercultura: perspectivas, questões e autores. Porto Alegre: Sulina, 2011, 338 páginas. __________________. Introdução às teorias da cibercultura. Porto Alegre: Sulina, 2007, 198 páginas. SCHNEIDER, Steven M.; FOOT, Kirsten A. Web Sphere Analysis: An Aproach to Studyind On-line Action. IN Virtual Methods : issues in social research on the Internet, New York: Oxford publications, 2005. P. 157- 170. SCHILICK, Moritz; WITTGENSTEIN, Ludwig. Wittgenstein and the Vienna Circle: Conversations. Oxford: Basil Blackwell, 1983. 266 pages. SUN, Ron. Cognition and multi-Agent Interaction. New York, Cambridge University Press, 2008. VINCENZI, Auri M. Rizzo. Orientação a objeto: definição, implementação e análise de recursos de teste e validação. Disponível em http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17082004122037/publico/tese.pdf Acesso em: 15 de MAR. 2013. 91 WING, Jeannette M. Five Deep Questions www.cs.cmu.edu/~wing/publications/Wing08.pdf Acesso em: 15 de MAR. 2013. in Computing. Disponível em: _____________________. Software as Self-Expression IN The New York Times, Room for debate. Updated June 16, 2011, 12:12 PM. Disponível em: http://www.nytimes.com/roomfordebate/2011/06/15/computer-sciencessputnik-moment/writing-code-has-become-self-expression Acesso em 08 de MAI. 2013. WITTGENSTEIN, Ludwig. Investigações Filosóficas. São Paulo: Nova Cultural, 1999. PIPES: REWIRE THE WEB. IN Yahoo! Califórnia: Yahoo! Site, 2014. Disponível em: http://pipes.yahoo.com/pipes/ Acesso em 26 de JAN. 2014. YIN, Robert K. Estudo de Caso. Planejamento e Método. 2ª ed. Porto Alegre: Bookman, 2001. 92