Leandro Tavares2 - source url

Propaganda
UNIVERSIDADE METODISTA DE SÃO PAULO
FACULDADE DE COMUNICAÇÃO
Programa de Pós-Graduação em Comunicação Social
Leandro Tavares Gonçalves
Perspectivas e metodologias de pesquisa da Comunicação Social
no contexto da internet com o
Big Data e da especialização Data Scientist.
Projeto de Dissertação apresentado como exigência
parcial para obtenção do Título de Mestre em
Comunicação Social da Universidade Metodista de
São Paulo.
Orientador: Professor Dr. Walter T. L. Júnior
São Bernardo do Campo, 2014
FOLHA DE APROVAÇÃO
A dissertação Perspectivas e metodologias de pesquisa da Comunicação Social no contexto da
internet com o Big Data e da especialização Data Scientist, elaborada por Leandro Tavares
Gonçalves, foi defendida no dia 09 de setembro de 2014, tendo sido:
( ) Reprovada
(X) Aprovada, mas deve incorporar nos exemplares definitivos modificações
sugeridas pela banca examinadora, até 60 (sessenta) dias a contar da data
da defesa .
( ) Aprovada
( ) Aprovada com louvor
Banca Examinadora :
Prof. Dr. Walter Teixeira Lima Junior, Orientador
_________________________________________
Prof. Dr. Vinicius Romanini
_________________________________________
Prof. Dr. Fábio Botelho Josgrilberg
_________________________________________
Área de concentração: Processos Comunicacionais
Linha de pesquisa: Inovações Tecnológicas na Comunicação Social Contemporânea
Projeto temático: Perspectivas e metodologias de pesquisa da Comunicação Social no contexto
da internet com o Big Data e da especialização Data Scientist.
AGRADECIMENTOS
Tenho o imenso prazer de agradecer minha família pela força concedida, em especial minha irmã
Luciana e pelas minhas filhas que nasceram no meio do caminho aqui trilhado e também a tantos
outros a percorrer me concedendo a graça de perceber o mundo sob a linha do amor incondicional.
Epígrafe
"As fronteiras da minha linguagem são as fronteiras do
meu universo."
Ludwig Wittgenstein, Áustria.
1889 // 1951
RESUMO
O trabalho desenvolvido analisa a Comunicação Social no contexto da internet e delineia novas
metodologias de estudo para a área na filtragem de significados no âmbito científico dos fluxos de
informação das redes sociais, mídias de notícias ou qualquer outro dispositivo que permita
armazenamento e acesso a informação estruturada e não estruturada. No intento de uma reflexão sobre
os caminhos, que estes fluxos de informação se desenvolvem e principalmente no volume produzido, o
projeto dimensiona os campos de significados que tal relação se configura nas teorias e práticas de
pesquisa. O objetivo geral deste trabalho é contextualizar a área da Comunicação Social dentro de uma
realidade mutável e dinâmica que é o ambiente da internet e fazer paralelos perante as aplicações já
sucedidas por outras áreas. Com o método de estudo de caso foram analisados três casos sob duas
chaves conceituais a Web Sphere Analysis e a Web Science refletindo os sistemas de informação
contrapostos no quesito discursivo e estrutural. Assim se busca observar qual ganho a Comunicação
Social tem no modo de visualizar seus objetos de estudo no ambiente das internet por essas
perspectivas. O resultado da pesquisa mostra que é um desafio para o pesquisador da Comunicação
Social buscar novas aprendizagens, mas a retroalimentação de informação no ambiente colaborativo
que a internet apresenta é um caminho fértil para pesquisa, pois a modelagem de dados ganha corpus
analítico quando o conjunto de ferramentas promovido e impulsionado pela tecnologia permite isolar
conteúdos e possibilita aprofundamento dos significados e suas relações.
Palavras chave: Web Science, Big Data, Yahoo Pipes, RapidMiner, Wikipedia Miner, informação,
linguagem, tecnologia, internet, cognição, recursividade, modelagem de informação.
ABSTRACT
The work analyzes the media in the context of the Internet and outlines new methodologies for the
study area in filtering meanings in the scientific realm of information flows from social networks,
news media or any other device that allows storage and retrieval of structured information and
unstructured. In an attempt to reflect on the ways that these information flows and develop mainly in
the volume produced, the project scales the fields of meanings that this relationship appears in the
theories and practices of research. The aim of this study is to contextualize the media area within a
changing and dynamic reality that is the environment of the internet and make parallel before the
applications already successful in other areas. With the method of case study three cases were
analyzed under two conceptual keys to Web Sphere Analysis and the Web Science reflecting the
opposing information systems in the discursive and structural aspect. This way observes what the
Media has earned in order to view its objects of study in the environment of internet networks for
these prospects. The research result shows that it is a challenge to the researcher Media seek new
learning, but the feedback information in a collaborative environment that the Internet presents is
fertile ground for research path, for data modeling wins analytical corpus when the set of tools
promoted and driven by technology allows isolating contents and allows deepening the meanings and
relationships.
Keywords: Web Science, Big Data, Yahoo Pipes, RapidMiner, Wikipedia Miner, information,
language, technology, internet, cognition, recursion, information modeling.
LISTA DE FIGURAS
FIGURA 1 - Mapa processual do experimento dos DMPs.......................................................43
FIGURA 2 - Mapa conceitual das dimensões da informação...................................................48
FIGURA 3 - Interface da plataforma Pipes e suas estruturas modulares..................................63
FIGURA 4 - Interface da plataforma Pipes no modo de visualização dos resultados .............64
FIGURA 5 - Diagrama de arquitetura do Wikipedia Miner.....................................................68
FIGURA 6 - Aprendizagem de máquina sobre camadas de informação do Wikipedia...........68
FIGURA 7 - Aproximações de informação estruturada da busca relacional entre as
palavras................................................................................................................70
FIGURA 8 - Como a estrutura de tópicos da Wikipedia pode ampliar busca por links
conceituais...........................................................................................................71
FIGURA 9 - Processo de predição conceitual por probabilidade – Wikipedia Miner..............73
FIGURA 10 - Aplicação de validação cruzada em um Data Set do curso EAD, Big Data in
Education da Universidade de Columbia............................................................78
FIGURA 11 - Interface da caixa de modelagem validação e automatização de correlações de
variáveis (K-NN) e teste de modelo (Apply Model e Performance)...................79
FIGURA 12 - Resultado do teste com uso do algoritmo Kappa – teste de confidência...........80
LISTA DE TABELAS
TABELA1 – Uso da internet e estatísticas da população.........................................................51
SUMÁRIO
1.
INTRODUÇÃO ............................................................................................................... 10
2.
TEORIAS E PERSPECTIVAS ...................................................................................... 17
2.1. A Comunicação Social, o Meio e a Informação ......................................................... 17
3.
FILOSOFIA DA LINGUAGEM .................................................................................... 26
3.1.Ludwig Wittgenstein, John Von Neumann, Heinz von Föerster e os estudos
cognitivos: linguagem da cognição ou cognição da linguagem?.......................................26
4.
DATA SCIENTIST E BIG DATA .................................................................................. 46
4.1.Wire Frames, Data Sets, clusters: filtros cognitivos ................................................... 46
4.2.“Métodos” para a Ciência da Comunicação Social ..................................................... 59
5.
ESTUDOS DE CASO ...................................................................................................... 61
5.1.Yahoo Pipes: agregador Big Data. .............................................................................. 61
5.2.Wikipedia Miner: mineração de conhecimento. .......................................................... 66
5.3.EDM: mineração de dados educacionais..................................................................... 74
6.
CONSIDERAÇÕES FINAIS.......................................................................................... 82
REFERÊNCIAS......................................................................................................................88
1. INTRODUÇÃO
O acesso à informação, a facilidade de sua publicação assim como a mobilidade para
fazer tal ação, possibilitada pela evolução dos dispositivos móveis e da infraestrutura da
internet, são consideradas praticidades para a sociedade contemporânea. Entretanto, por traz
dessa praticidade, temos a invasão de privacidade por parte dos rastreamentos
comportamentais das pessoas no uso da internet pelas empresas e hackers; questão dos
direitos autorais no compartilhamento dos conteúdos; a qualidade da informação; a
permanência, disponibilidade e forma de acesso da informação e o volume gerado pelas
interações conjecturam um quadro complexo. Mas qual a importância de observar esse
volume? Por outro lado, no que incide diretamente na Comunicação Social, se observa a
potência das mídias digitais em divulgação de conteúdo e é um desafio organizar todo esse
fluxo de informação. A fragmentação das redes e sua dinâmica na filtragem e correlações
“empurram” a informação para o status de dados, isto é, não apresenta em um primeiro
momento significado semântico. Se uma pessoa mantém um Blog atualizado unicamente
sobre os sintomas da gripe H1N1, mas não preserva as fontes e não é um profissional da
saúde provavelmente é um engajado no assunto. Dessa forma não legitima cientificamente
autoridade no mesmo (evidente que sua intensão possa não ser científica mesmo sendo um
profissional da área e é aqui que reside uma das complexidades da informação). Entretanto, se
em vários Blogs se “comentam” os sintomas da doença e isso poder ser observado como
crescente em um intervalo de dias, meses, anos ou há uma influência de formação de opinião
sobre esse assunto pode-se inferir que o índice da doença apresenta indicadores crescentes?
Isso pode ser cruzado com banco de dados dos hospitais e possibilitar constatar uma epidemia
da doença. Mas isso requer um processo de formatação estrutural da informação para que
seja possível a extração e aplicação de metodologias analíticas das mensagens e conteúdos,
nesse caso, digitais (formato diferente do analógico que foi transformado, codificado para
digital-binário, interpretável para a máquina gerar processamento de dados via linguagem de
computação).
Se a Comunicação Social, como se pode observar na história das teorias da
comunicação (POLISTCHUK et al, 2003, p.73), estudou os media no ambiente social é
pertinente também estudá-las no ambiente que favorece armazenamento, filtragem e
mensuração em tempo real e de forma temporal. Aqui se busca o porquê da Comunicação
10
Social usufruir das ferramentas tecnológicas das redes telemáticas1 para ampliar tentativas de
observar o fenômeno do objeto comunicacional no fluxo contínuo de informação.
Tal contextualização dá suporte para uma questão e dessa forma coloca-se o problema
principal: como e por que a Comunicação Social pode diminuir a defasagem informacional
entre o que quantitativamente se cria de informação versus o que se pode absorver
cognitivamente em termos qualitativos no fator tempo? Dentro dessa visão comunicacional
estão contidas suas linguagens, mensagens e conteúdos midiáticos além do conhecimento
estrutural das redes telemáticas que aumenta a complexidade em questão. O que se tem feito e
pensado em outras áreas inclusive das Ciências Humanas e quem está fazendo tais exercícios
semânticos vindouros como metodologias de análise de acordo com sua especialização
científica? Outros problemas que surgem ao refletir o principal são até que ponto a
complexidade do tema e da abrangência da área pode limitar o estudo em questão e quais
requisitos mínimos são necessários para empreender estudos científicos na área; quais teorias
da Comunicação são atreladas e o que elas já produziram para ser refletido e quais
oportunidades de pesquisa que se podem somar para manutenção ou ampliação das mesmas
dentro do contexto tecnológico da internet.
O ambiente e a estrutura das redes telemáticas são muitos complexos no sentido de
quantidade de variáveis e áreas que as permeiam. A Ciência da Computação, a Linguagem, a
Matemática, a Cognição, entre outras se relacionam nesse ambiente. A escolha dessas áreas
surgiu durante o caminho da pesquisa e pela complementaridade conceitual que compartilham
como conseguinte será explanado no decorrer do projeto. Uma hipótese é que o pesquisador
da Comunicação Social pode ampliar suas pesquisas pelos impactos tecnológicos porque os
artefatos se mesclaram nas suas produções a ponto de intervir no modo clássico de fazer
Comunicação Social e tal fato pode aumentar. Uma oportunidade de criar algo novo e como
de certa forma o Big Data2, que pode ser entendido como um grande armazenamento de
dados e maior velocidade de resgatar informação, pode dar ganho aos intentos científicos é
pertinente. Estamos vivendo rumo a uma Arquitetura que usa, além da criatividade e design,
não apenas concretos, malhas de ferro, pisos e divisórias, mas um design de informação,
1
Telemática é a comunicação à distância de um ou mais conjunto de serviços informáticos fornecidos através de
uma rede de telecomunicações. Disponível em: http://www.telematics.com/guides/telematics-history-futurepredictions/. Acesso em: 12 de Jun.2014.
2
The World’s Technological Capacity to Store, Communicate, and Compute Information. Disponível em:
http://www.ris.org/uploadi/editor/13049382751297697294Science-2011-Hilbert-science.1200970.pdf . Acesso
em: 12 de Jun.2014.
11
aspecto que gera novas Arquiteturas pautadas em lógicas e linguagens algorítimicas 3 que
potencializam cognições. As novas ferramentas de análise agrupadas nos artefatos
tecnológicos que "clusterizam"4 as comunicações favorecem estudos neste âmbito.
O objetivo geral deste trabalho é contextualizar a área da Comunicação Social dentro
de uma realidade mutável e dinâmica que é o ambiente das redes telemáticas e fazer paralelos
perante as aplicações já sucedidas por outras áreas. O objetivo específico é refletir e delinear
metodologias científicas de pesquisa para a Comunicação Social levando em consideração sua
vocação e pertinência dentro do contexto digital no volume de informação. Acredita-se que o
estudo monográfico possa pela observação de outras áreas e da própria área em questão dar
subsídios para a Comunicação Social em aplicações metodológicas de análise diante do
desenvolvimento tecnológico.
A Comunicação Social e a Tecnologia, em uma perspectiva essencial e histórica,
sempre andaram próximas. Desde a expressão oral assim como a invenção do alfabeto o ser
humano busca, pelo ato comunicativo, se relacionar com o outro e com o mundo que o cerca e
isso é irrevogável. É uma necessidade humana. A Tecnologia aparece nessa relação e ganhou
importância que vem galgando na história poder de intervenção científica: faculdade de
observar a natureza e mimetizar suas riquezas quiçá entendê-la até mesmo dominá-la de
forma predadora. Mas não é contraditório dizer que a Comunicação Social é uma “Tecnologia
natural” mesmo porque somos dotados dessa capacidade técnica lógica de construir
contrapontos que geram outras visões assim sucessivamente perante a evolução que se
projetaram na medicina, na matemática, na astronomia, literatura, engenharia e etc. Ao
estender a capacidade de significar as coisas e codificar para o outro o homem desenvolve seu
espelho lógico na alteridade social, uma “engine” ou máquina simbólica.
O fato de se poder observar o que não se consegue “a olho nú” e consequentemente
gerar conhecimento, dentro do recorte analítico planejado via experimento, é um ganho
científico a exemplo dos avanços tecnológicos dos microscópios em descobrir novos
organismos ou como são suas taxonomias e ontologias. Na internet as informações podem ser
vistas5 e o volume e escala de informação é que torna o entendimento mais complexo.
3
Um algoritmo é uma sequência finita de instruções bem definidas e não ambíguas, cada uma das quais pode ser
executada mecanicamente num período de tempo finito e com uma quantidade de esforço finita. Um algoritmo
não representa, necessariamente, um programa de computador, e sim os passos necessários para realizar uma
tarefa. Disponível em: http://www.kcats.org/csci/464/doc/knuth/fascicles/fasc1.pdf. Acesso em: 12 de
Jun.2014.
4
O termo aqui utilizado pode ser entendido, em um primeiro momento, como um conjunto de similaridades.
5
Apesar da possibilidade de acesso à informação na internet ser plausível, vale lembrar que há uma limitação
técnica no que tange a abertura, formatação e direitos autorais dos bancos de dados por governos, empresas e
pessoas.
12
Evidente que o significado ampliado pela Tecnologia no seu âmbito natural e conduzido pelos
impulsos binários, lógicas computacionais não resolve todos os problemas metafísicos da
percepção, uma vez que toda tecnologia passa pelo crivo do que é sentido, relacionado e
emitido consciente e inconscientemente, mas quando se admite que se possa refletir como é o
próprio processo de reflexão um ganho se observa a exemplo dos estudos da neurociência
área que desbrava as relações químicas do cérebro e dessa forma favorece esforços na
diminuição de impacto de algumas doenças.
A relação da tecnologia favoreceu
desenvolvimento constante de áreas do conhecimento por interação de forma pragmática e
teórica. Não cabe aqui justificar que nossa Comunicação Social, a do Homo sapiens, é melhor
ou pior das outras que acontecem a todo o momento a nossa volta entre os seres vivos que
participam do mesmo habitat como as químicas, térmicas e sonoras. O fato é que a Tecnologia
que foi estendida pela Comunicação Social humana dá subsídios para entender como e
porque algumas variáveis comunicacionais se comportam dentro da realidade interconectada
no volume e dimensão que é a atual6. As redes sociais, por exemplo, estão repletas de
“organismos semânticos7”, pois existem valores e propriedades que espelham os significados
que as pessoas propagam e a mesma informação está em um formato estruturado para ser
acessado e analisado.
Mas qual o ganho que tal avanço tecnológico dá para a pesquisa na Comunicação
Social por esse acesso? Em um primeiro momento a análise, entre várias outras que se pode
encontrar e recortar, é ver padrões indexados contidos nos formatos estruturados e
relacionados a outros de outras fontes ou até mesmo dentro do ambiente estudado para ver o
grau de proximidade entre os mesmos. As conclusões da utilidade e veracidade dependerão de
como e o quê o experimento científico comunicacional pretende analisar. Aqui se encontra a
oportunidade.
Pode-se perceber esse impacto tecnológico desde os primórdios dos estudos das
Teorias da Comunicação Social, cada qual com sua visão, mas sem o fenômeno síncrono da
mensagem em fluxo contínuo (emissor envia uma mensagem para o receptor e este a recebe
instantaneamente) e sim pela evolução da comunicação assíncrona (o emissor envia uma
mensagem ao receptor que poderá ler e responder a mensagem em outro momento). A
internet, redes telemáticas “plugaram”, isto é, ligaram essas visões pela capacidade conectiva
e a clássica visão emissor, mensagem, receptor estão ligadas em tempo real e aumentando a
6
7
Grifo meu.
Analogia minha para exemplificar a questão técnica onde a Comunicação Social se encontra.
13
cada dia. Outras áreas da ciência também são impactadas por esse fenômeno e assim, de certa
forma, um ponto de vista específico nasce nesse ambiente que é a análise de informação
gerada por essas conexões que podem ser “estocadas” e depois passíveis de observação mais
detalhada que de certa forma beneficia uma reflexão das questões fundamentais da
Comunicação Social como, por exemplo, o que incita comunicar. Esse olhar está fazendo com
que Propaganda reveja seu modo de planejar e propagar campanhas, o Jornalismo de produzir
e publicar notícias, as Relações Públicas de antever e administrar crises e das Rádios e TVs
compartilharem seus conteúdos.
Tal olhar não refuta e não tenta resolver todas as dimensões de ordem humanista ou
mecanicista, mas as repensam sobre uma perspectiva do Paradigma MatemáticoInformacional e Midiológico que estão contidas na Comunicação Social assim como as
essências do conceito de Informação na Tecnologia8 e vice-versa.
O Paradigma Matemático-Informacional (POLISTCHUK et al, 2003, p.99-108)
ocorreu na década de 40, no pós-guerra onde surge o behaviorismo que pode ser resumido
como ciência do comportamento manifesto, isto é, de acordo com esse conceito seria aceitável
estimar-se o comportamento humano através de uma ação observável. Para o ideal do
paradigma propriedades subjetivas dificultavam a observação científica e nessa ideia Norbert
Wiener concebeu, com conceitos matemáticos, uma teoria denominada de Cibernética que é
uma análise científica de visão geral que considera todas as inter-relações dinâmicas de suas
partes. Dentro desse contexto os pesquisadores Shanon e Weaver (POLISTCHUK et al,
2003, p.101) atentaram-se com a pureza da transmissão da mensagem e com as características
morfológicas. Para evitar ruídos na mensagem, os pesquisadores refletem que a codificação
seja apurada para que a propriedade semântica da mensagem seja alçada. Weaver fixou-se no
esquema da comunicação emissor – mensagem - receptor o “receptor semântico” que irá
decodificar a mensagem em um segundo momento, sendo que no primeiro o método é
mecânico, harmonizando-se ao destinatário final. Por outro lado, o pesquisador chamado
David. K. Berlo (POLISTCHUK et al, 2003, p.105) produziu uma ideia à teoria de Shannon e
Weaver adequando os estilos do emissor, o que possui algum conhecimento e receptor, o que
faz algum conhecimento. O pesquisador ressalta a importância do canal no processo e acredita
que a comunicação não é somente parte de significados, mas também provoca sentidos. De
acordo com sua “teoria do Balde”, Berlo reflete que todo emissor esvazia os sentidos “como
um balde” sobre a cabeça do receptor.
8
Na página 44 será ampliado o conceito de informação.
14
Já na década de 70 nos Estados Unidos, baseando-se nas premissas do Paradigma
Matemático-Informacional o pesquisador Wilbur Schramm (POLISTCHUK et al, 2003,
p.106) soma ao modelo de Shannon e Weaver que transmissor e receptor resultaria em “fonte
e comunicador”. Aqui, há retroalimentação entre emissor e receptor. Quanto maior for o
campo de experiências próximas entre as pessoas melhor o resultado e a apreensão da
mensagem.
Mais adiante, no ítem2 deste trabalho, serão retomados os paradigmas aprofundando
seus conceitos e as relações com outras áreas principalmente na questão da informação e do
meio onde será observada uma influência da filosofia da linguagem que inclina de certo modo
uma reflexão sobre os caminhos que os fluxos de informação se desenvolvem.
Apesar da variedade de assuntos relacionados e autores, nota-se que a questão da
representação simbólica, recursividade das lógicas e percepção das áreas sobre o assunto
formam no ponto de vista da Comunicação Social elos que pressupõem métodos de observar
o objeto de estudo de modo transversal e histórico com preocupação científica9 de descrever
o percurso dos experimentos assim com sua utilidade comprobatória.
No intuito de uma revisão do Paradigma Matemático-Informacional e do Paradigma
Midiológico sobre a questão do Canal Comunicativo e do Meio e como isso se mostra com a
conexão possibilitada pelo conjunto de metodologias que dão suporte para o Data Scientist10,
que será explanado mais adiante, este estudo mira entender qual o fator preponderante que
norteia o desenvolvimento das teorias e como tecnologicamente isso se desdobra. Apesar das
críticas sobre um funcionalismo-pragmático e determinismos reducionistas, lembrando que
qualquer recorte científico racionalista ou metafísico já é um reducionismo, a observação da
Cibernética e do meio como canal de Comunicação Social dá pistas para ver a possibilidades
que a Comunicação Social possui dentro do contexto do Big Data e ainda amparados pela
Ciência da Computação e da Cognição no que evoluiu durante esse processo assim como os
contrapontos que nascem dessa evolução e que de certa forma foram iniciados no contexto do
Paradigma Matemático-Informacional. Tal evolução foi ampliada desde a criação do Chipset
(centro de processamento da informação no computador) que permitiu a automatização de
processos de âmbito industrial e apesar da grande influência que isso se dá na sociedade é
importante saber até que ponto tal a ação altera o processo cognitivo humano. Alguns
pesquisadores da área da Neurociência afirmam que a cognição já pode ser alterada pela
intervenção tecnológica assunto que será abordado mais adiante.
9
Grifo meu.
Esse conceito pode ser resumido de modo inicial como o cientista que analisa o big data.
10
15
Concomitantemente a essa evolução tecnológica o que deu início na observação dos
“sistemas de controle” e “comportamentos automáticos” com maior foco na questão da
eficácia da informação nos modelos de Claude Shannon e Warren Weaver dá oportunidades
para análise científica de um canal que se desenvolveu em uma cadeia semântica conectada, a
Internet. O código, o canal e o receptor se entendiam no modelo linear da eficácia da
informação. Por outro lado, o poder técnico no que o canal de comunicação se dá atualmente
extrapola suas “binariedades” (contrapondo a ideia de evitar ruídos somente), pois o conteúdo
pode ou está passível de ser semantizado de modo assíncrono, isto é, se pode interagir
tecnicamente com a mensagem criada em tempos diferentes e também, foco central do
problema deste projeto.
Não se fará aqui um retorno histórico sobre a fundamentação da técnica e da
tecnologia já empreendido por alguns pesquisadores como, por exemplo, André Lemos. O
estudo partirá do princípio de que informação e sua história e o seu encontro com a
Comunicação Social já configuram indícios do contexto abordado.
Delineadas as teorias e estudos, que participam deste contexto como suporte para a
análise do estudo de caso de três aplicações metodológicas dentro das áreas que interagem
perante a tecnologia e com a linguagem, será analisada a hipótese de que a Comunicação
Social pode vislumbrar algo novo nesse empreendimento.
16
2. TEORIAS E PERSPECTIVAS
2.1.
A Comunicação Social, o Meio e a Informação
Dentro do Paradigma da Comunicação Social (Matemático-Informacional) estudado
concorda-se que as questões centrais do modelo teórico cibernético, a técnica e a semântica
são fundamentais para a Comunicação Social porque o grau de nitidez entre a transmissão de
sinais e seus significados podem ser codificados e decodificados pelo aparato tecnológico
(POLISTCHUK et al, 2003, p.99-108).
Entretanto, a eficiência e eficácia não se findam no foco do entendimento da estrutura
e sim se abre da abstração que se gera ao se organizar informação (formato, banco de dados)
no sentido do axioma e do pensamento computacional. Percebem-se evidentes, ao se
estudarem as formas e sintaxes utilizadas para programação das máquinas, que são projeções
senão espelhos das estruturas cognitivas humanas assim como as físicas pelos impulsos
elétricos. Aqui o conceito de extensão de McLuhan (inspirado no filósofo Henri Bergson) no
Paradigma Midiológico se faz pertinente porque a linguagem é vista como uma tecnologia
(MCLUHAN, 1964, p.97). Por outro lado, ainda que a linguagem seja intrínseca a mente
humana quando passa pela mecanização, impressão no caso, ela se “ciberniza” no meio.
“Como os biólogos apontam, o cérebro é o lugar de interação, onde todas as
espécies de impressões e experiências se intercambiam e se traduzem, permitindonos reagir ao mundo como um todo. [...] A mecanização de qualquer processo se
atinge por fragmentação, a começar pela mecanização da escrita mediante tipos
móveis e que já mereceu o nome de ‘monofratura da manufatura’. [...] A fonte de
energia é separada do processo de tradução da informação ou aplicação do
conhecimento [...] A mesma separação de energia e processo ocorre na indústria
automatizada, ou ‘cibernação’.” (MACLUHAN, 1964, p.390)
É válido observar a questão do meio como objeto, veículo e ecossistema. Porém, a
questão da semântica ganha impacto no contexto da interação social na web no sentido de
ecossistema. O fato é que a Comunicação Social nesse contexto deixa de ser apenas uma
“relação midiática” e ganha poder colaborativo não se findando na “narcose” da mensagem
(MCLUHAN, 1964, p.59). Talvez seja aqui que a internet extrapola a Teoria do Meio,
descrita aqui resumidamente na intervenção cultural dos canais por suas mensagens
17
observados em determinismos tecnológicos, assim como em relação à Cibernética11, que
controlava a automatização dos sistemas, pois favorecidos pela cognição os “campos de
experiência” participam do conceito de Retroalimentação12. Aqui se observa um elo
importante, a interação em escala planetária. Uma cadeia de processos se espelha nos jogos
de linguagens sociais para os jogos de linguagem mais “duras”, técnicas, contidos na interface
do computador.
As interfaces são “silos” de informação que dependendo da forma como foram
estocados podem ser retornados e visualizáveis, mas delineados por suas limitações como
canal midiático. O que se pode observar nas reflexões do Paradigma Midiológico é que os
efeitos dos meios engendram novos ambientes e que isso afeta os sentidos, mas não apenas
em uma aldeia global, em contraponto com a ideia de McLuhan da conexão das redes
“encurtar” os espaços, e suas particularidades e efeitos locais com meios quentes e frios de
comunicação, mas em uma constante transformação cognitiva promovida pela conexão, além
de efeitos, mas de formação, cocriação de cultura.
O que pode ser notado na história da tecnologia é que a cibernética, a biônica e a
robótica fomentaram em larga escala a acumulação possível de informação dentro do
triângulo de valor do menor espaço, menor custo e na rapidez de circulação. Até que ponto,
dentro da sociedade da informação, a Comunicação Social pode “minerar” a quantidade pela
significação acumulada? Como sugestão de pensar o tema coloca-se em questão oito chaves
conceituais que permeiam o contexto da tecnologia, inclusive a internet, e as áreas
relacionadas em comum que são a imediatividade, concomitância, interatividade, codificação
e conversibilidade, digital e analógico e modelagem da informação (POLISTCHUK et al,
2003, p.42-54). As tecnologias da internet criam novas linguagens quando no ambiente de
trabalho, no lazer ou qualquer contexto social. A interação promove a causa e o efeito dessas
culturas em tempo real.
O imaginário que essa realidade impacta está presente em outros estudos, não apenas
na Computação, Cognição e Comunicação Social, mas da Antropologia e Linguagem que
serão explanadas adiante. Antes de analisar e definir os conceitos que se acreditam pertinentes
11
Será abordado mais adiante, mas que pode ser resumido como o esforço de entender a Comunicação através de
analogias das máquinas.
12
Conforme já explanado anteriormente este conceito foi elaborado por Wilbur Schramm, um pesquisador que já
fez uma revisão do Paradigma Matemático-Informacional e ampliou o conceito de codificação e decodificação
para campo de experiências aproximando a ideia da importância do contexto social que foi motivo de crítica por
outros pesquisadores da versão de Shannon e Weaver.
18
à pesquisa da Comunicação Social sob a perspectiva do Big Data e Data Scientist serão
delineados os pontos centrais dos contextos do estudo aqui empreendido.
O intento de pensar a Comunicação Social dentro de novas perspectivas
transdisciplinares (que não é nova, pois de forma similar já foi conduzida nas engenharias de
Shannon sugerindo a Comunicação Social o ratio matemático) pode, talvez, ser um
reducionismo em recortar os objetos comunicacionais na ajuda estatística de ferramentas
dispostas na internet, mas fundamentalmente tenta por esse meio organizar a fragmentação
que se encontra no volume de informação estruturada e não estruturada na internet ou até
mesmo validar sua utilidade pelo “valor” de suas relações e não somente pelos seus “pesos”
nos recursos da linguagem. A Recursividade, conceito que participa de outras áreas como a
Matemática (lógica de um axioma), a Linguagem (significado e suas relações) e da
Computação (linguagem de programação) é uma forte evidência de que as representações que
perfazem as teorias são menos transdisciplinares do que se parecem, mas claro, respeitando
cada qual com sua particularidade. O objeto é binário em sua estrutura, mas extrapola sentidos
nas relações e interações das interfaces telemáticas porque uma vez carregados de valores
semânticos são passíveis da interpretação no advento técnico.
A questão da técnica, na concepção ocidental, se observa visitada nas origens gregas
na relação entre a natureza e o lógos. Entretanto, as variações simbólicas que caminham na
história grega até a atual lida com a interpretação, a exemplo da Escola de Konstanz 13 no
exercício da crítica literária pela chave interpretativa hermenêutica observadora da dinâmica
dos significados (concomitância) para buscar superar o hiato perceptivo entre o leitor e o
escritor, e a Tecnologia não foge dessa reflexão. Por quê? Porque para alguns pesquisadores a
tecnologia é vista como ferramenta de domínio de poder e para outros como liberdade de
criação ou ainda, aniquilamento das qualidades humanas de comunicar no ato de estar frente a
frente com o outro no exercício dialógico (RÜDIGER, 2011). O ato de comunicar via canal
tecnológico abarca a todas essas indagações, mas negá-las seria ingênuo.
A informação14 resultada pela concomitância interativa, elo de outras áreas e das
teorias da Comunicação, ganha poder de significação nas experiências, nos testes das
hipóteses e relações não somente metafísicas ou matemáticas, mas de ambas. O estudo da
linguagem favorece um “descondicionamento” das especializações das áreas? Até que ponto a
13
LIMA, Luiz Costa. A literatura e o leitor: textos de estética e recepção. Rio de Janeiro: Paz e Terra, 1979. p.
63-82.
14
O conceito de informação aqui empregado possui um significado abrangente, mas aqui pode-se entender por
conhecimento. Mais adiante será abordado o conceito de forma mais aprofundado sob o ponto de vista do
pesquisador Luciano Floridi.
19
interação da linguagem recondiciona a linguagem da interação? Como a informação está
inserida na linguagem? As chaves conceituais sugeridas anteriormente para análise participam
de um jogo de significados que perfazem a Linguagem com propriedade dinâmica
referenciada por uma delas que é a interação.
A Linguagem é uma interface humana. Porém, a amplitude do significado de
linguagem não se finda em uma das camadas que compõem sua interpretação. A história do
homem nas suas conquistas científicas dão provas para que a Tecnologia se torne face e parte
dessas camadas impregnadas conceitualmente, para tanto, culturalmente envoltas e
representáveis. As implicações que essas angulações de camadas provocam inclinam
perspectivas psicológicas, cognitivas, computacionais, comunicacionais, sociológicas e
antropológicas. Apresentando historicamente uma vocação mais prática a Comunicação
Social epistemologicamente atrelada ao artefato midiático comunicacional transcorre em suas
escolas e conceitos por visões funcionais, críticas, informacionais, culturais, linguísticas e
dialógicas. Evidente que as diferenças, assim como suas semelhanças, enriquecem suas
partilhas quando busca no objeto de estudo definir as vicissitudes sociais. Palavras como
simbólico, estrutura, meio, filosófico, estética, hegemonia, consciência, condicionamento,
identidade, superestrutura, filosofia, linguagens, mensagem, função social, consciência,
seleção, escolha, semântica, percepção, experiência, conhecimento, cultura, inconsciente,
fragmentação, tecnologia, conexão, cognição, sistemas entre outras são vistas constantemente
nos discursos sobre o foco da mensagem15. Todas essas palavras aparecem nas escolas dos
estudos comunicacionais de certa forma explícita, implícita ou proveniente de outra no
contexto histórico. O que muda é como são trabalhadas epistemologicamente. Mas um
compromisso social da Linguagem se faz útil quando os assuntos, que vigoram sobre as
Tecnologias Digitais pareadas com a Comunicação Social, apelam para um sentido ético uma
vez que invasão de privacidade, inovação e poder (patentes, propriedade intelectual e domínio
de implementação) “emergem” do caldo digital. Tal abordagem merece ser refletida, mas não
será empreendida aqui.
Entretanto, as interações dimensionadas pela escalabilidade16 da linguagem que a
Tecnologia da internet detém sobre as relações sociais no ambiente das redes telemáticas,
abrem oportunidades de compreender como essas camadas estão se reinventando constante e
16
Esse conceito será analisado adiante na página 44, mas em resumo significa o poder de reutilizar esforços de
trabalho pela modelagem da informação.
20
rapidamente nas interfaces digitais intercedidas pelos sistemas simbólicos como extensão da
biologia humana.
De modo menos imediato essa ideia é observada com inclinação à condição humana
da dependência da Tecnologia, no pensamento de Francisco Rüdiger (2007, p.76) quando
reflete a necessidade de superar as tensões ao pensar sobre as novas mídias. O autor em sua
obra, ao dividir em algumas partes o pensamento da cibercultura que é o populismo
tenocrático (tendência de ver a Tecnologia como fator de desenvolvimento social), os
conservadores midiáticos (alegam que o conteúdo da internet é medíocre) e os cibercriticistas
(a cibercultura é uma ideologia capitalista) sugere uma macro visão para abordar o tema da
Comunicação Social e da Tecnologia. De forma geral observa-se na obra uma polarização
entre efeitos políticos no domínio da Tecnologia perante a sociedade e de uma reflexão
existencialista da condição humana nas inovações e desenvolvimentos sociais. Na revisão
conceitual empreendida pelo autor percebe-se que o ambiente da Cibercultura favorece a
criação de agrupamento de afinidade, clusters, contrapostos pelo determinismo tecnológico
desenvolvimentista (modelagem da informação). No contexto histórico da Cibercultura o
entendimento mais profundo das articulações desses saberes, inclusive nos primórdios dos
pensamentos cibernéticos criado por Norbert Wiener ao tentar resumir a Comunicação Social
no reducionismo matemático com foco em ver os ruídos e entropias (conceito herdado da
termodinâmica que reflete o estudo de equilíbrio de energia entre a matéria, principalmente
nos elementos líquidos e gasosos) das mensagens e não seus significados se torna evidente
com as relações já empreendidas até o momento na pesquisa deste trabalho.
Por outro lado, como mostra Melaine Mitchell (2009, p.61), é desse reducionismo que
se herdou a sugestão do pensamento binário da máquina por Alan Turing quando resolve um
problema matemático de David Hilbert de que nem todo postulado matemático tem um
procedimento definitivo que possa decidir se a lógica é falsa ou verdadeira. Partindo de um
modelo que assume inicialmente um estado (como, por exemplo, digitar um texto equivale a 1
e apagá-lo equivale a 0 e quando se digita algo a regra muda para apagá-lo) cria um espelho
dessas máximas, mas ao tentar defender um estado que foge ao modelo inicial (no exemplo
anterior parar de digitar não participa das máximas) há uma “prova da contradição”. Essa
abstração lógica baseia a essência da Ciência da Computação uma vez que a partir dessa
lógica todas as evoluções estruturais do computador se ancoraram nela.
O intento de observar outras áreas aqui não é apenas ver o que deu certo para
preencher um vácuo epistêmico da Comunicação Social, mas observar o que é “comum” nas
“ações” de outras áreas, isto é, existe a Comunicação Social dentro das outras áreas assim
21
como existe matemática dentro da física e da química. O que fez a Comunicação Social para
não ser solidamente científica em sua prática foi, talvez, seu afastamento essencial de seu ente
que é a coexistência conceitual de observar o impulso dado pelos artefatos tecnológicos que
outrora foram determinados para ver suas reações e/ou ações com óculos diversos. O ato de
rever a Comunicação Social neste contexto, dentro da dinâmica como as redes telemáticas se
integram, sugere observar um fato que coexiste em outras áreas que é a velocidade e
quantidade de informação que habita a rede (imediatismo).
A identidade da Comunicação Social com sua essência, no fundo, sempre esteve lá,
próxima da tecnologia e nos discursos de outras áreas. É oportuno relembrar os princípios da
Comunicação Social, ou melhor, o que incita comunicar? Antropologicamente agimos
comunicando para proteção e sobrevivência. Para a biologia nascemos com os “códigos
inerentes” da linguagem. Para a Comunicação Social é um ato simbólico sui generis da
troca de valores e para a psicologia o outro como desenvolvimento de si.17
Como a Antropologia é impactada pela tecnologia? Michael Fischer (2011), professor
de Antropologia e de estudos da ciência e da tecnologia no Massachusetts Institute os
Technology (MIT), fez uma ampla revisão histórica ao levantar informações que dotaram o
conceito de cultura do século XIX e avança sobre a perspectiva relacional da cultura sobre
quatro pilares: folclore e identidade, ideologias culturais e consciência política, status e
culturas de classe, culturas pluralizadas e relacionais versus ideologias civilizacionais
universalizantes. De modo resumido entre as décadas, como será apresentado a seguir, o
desenvolvimento tecnológico ganha espaço nas teorias.
- A crise dos anos 30 impactou revisões metodológicas no estudo da cultura. A noção
de mediação pelas formas simbólicas é chave neste processo. A expressão de um “eu” é um
ato de descoberta e não só alienação. Adiante a Escola de Frankfurt (Horkheimer e Adorno)
observa as raízes da personalidade autoritária na substituição do pai por um líder político ou
ídolo do cinema onde a mídia entra em cena.
- Na década de 60 a Antropologia simbólica alimentou-se da cibernética do
Departamento de Relações Sociais da Harvard e da linguística (Noam Chomsky). A chegada
do estruturalismo e pós-estruturalismo simultaneamente nos EUA em um congresso chamado
“A controvérsia do Estruturalismo: as linguagens do criticismo e das ciências do homem”
sugere uma nova linhagem de pesquisa futura. Não se podia mais privilegiar uma versão do
mito sem levar em conta o conjunto inteiro de transformações que a estrutura mítica tornava
17
Grifo meu
22
possível. Houve um afastamento da comunicação behaviorista e simbolista uma vez que a
primeira toma as palavras e os símbolos como representantes não problemáticos combinados
e reorganizados em cadeias significativas de frases realizadas em sequências de estímulo e
resposta dispostas em turnos de fala. A segunda reconhece que os símbolos não são
representantes simples e unívocos, mas sim portadores de leques de significados (tanto no
emissor quanto no receptor). Os modelos de cultura organizados dos simbolistas em torno de
redes semânticas apresentam estabilidade quando o estruturalismo e o pós-estruturalismo
decompõem os símbolos em ramificações em transformação um mais preocupado em modelar
a variação e o outro em libertar as tensões de controle.
- Os anos 80 e 90 produziram formas revistas da análise cultural seguida de
transformação de infraestrutura nos meios de comunicação, meio ambiente, bioTecnologia e a
violência que impactaram o senso de cultura. A internet, web e vídeo ao ajudarem expandir o
alcance da propaganda e acabam reformatando a mesma. A crise financeira de 90 e o
aquecimento climático fizeram a noções culturais de modernidades alternativas dos anos 80
antiquadas e mais relacionais, conectadas. O fluxo em tempo real e a repetição do curso da
informação estão reposicionando e encapsulando, isto é, envolvendo os meios culturais mais
antigos como a oralidade e escrita reconfigurando a esfera pública pela mudança das relações
de poder na produção de linguagens dinâmicas (fusão da Tecnologia com a cultura). “São
nossas próprias ‘autocaracterizações culturais’ de formas emergentes de vida turbulentas,
contestadas, subdeterminadas” (FISCHER, 2011, p.63).
O estudo empreendido aqui se aproxima da ideia pós-estruturalista mencionado por
Fischer porque ao retornar aos primórdios do advento do modelo computacional e como a
Comunicação Social é impactada por esse contexto assim como a busca de elos conceituais
entre áreas de certa forma é uma busca liberar as tensões de controle, isto é, ao se decompor
as linguagens que participam do jogo comunicacional dentro deste conjunto a Comunicação
Social pode observar as propriedades culturais que interagem nos modelos de informação.
Para Fischer o conceito de Cultura é vista com variações como representação, um
Ethos social, mediação entre a natureza e o indivíduo, um sistema simbólico. A recursividade
é uma característica linguística humana de dimensionalizar lógicas pelos discursos assim
como matematicamente via sistema simbólico matemático. A tecnologia é um artefato que
carrega o sistema simbólico e que representa intervenções de ordem científica e social. De
acordo com a visão do pesquisador Stuart Hall, que Fischer retoma nas suas análises, de
forma resumida a representação possui suas particularidades:
23
“At the heart of the meaning process in culture, then, are two related systems of
representations. The first enable us to give meaning to the world by constructing a
set of correspondences or a chain of equivalences between things-people, objects,
events, abstracts ideas, etc. – and our systems of concepts, our conceptual maps.
The second depends on constructing a set of correspondences between our
conceptual map and a set of signs, arranged or organized into various languages
which stand for or represent those concepts. The relation between things, concepts
and signs lies at the heart of the production of meaning in language. The process
which links these three elements together is what we call ‘representation18’. ” (
HALL, 1997, p.19)
Nesse ponto concorda-se com Fischer de que a tecnologia carrega um sistema
simbólico, aliás, é o que humaniza a tecnologia. A linguagem, nas relações de sentido que se
resulta a representação, possui um papel fundamental.
O pesquisador reflete que as intervenções da Tecnologia sugerem não observar o
objeto de estudo com um olhar purista, mas “dialógico” onde as perspectivas se encontram e
mostram novos rumos de entendimento das dinâmicas culturais a exemplo de regiões que
eram desconsideradas como produtoras de conhecimento pelas instituições euro-americanas
agora integram pensamento multidisciplinar como a Índia que possui um respeitável campo
tecnológico e é o sexto país19 (o Brasil está em décimo oitavo na data de pesquisa deste
trabalho) que mais tem satélites no espaço. O autor mostra que a linguagem (2011, p.98) de
programação orientada a objeto promoveu a rápida aplicação (implementação em um sentido
mais tecnológico) de pesquisas e permite os testes de haplótipos, conceito que delimita um
ambiente de testes na articulação de fenômenos emergentes que surgem das redes e que
impactam rapidamente a sociedade pelo poder proprietário e de fácil acesso da Tecnologia
pela interação social.
Aqui há um ponto importante nesta passagem, em paralelo com as ideias dos
Paradigmas Comunicacionais já refletidos e também dos novos caminhos sobre o objeto
comunicacional que é a recursividade embutida na tecnologia, pelos casos analisados sobre o
18
Tradução do autor: “No centro do processo de significação na cultura estão relacionados dois sistemas de
representações. O primeiro nos permite dar sentido ao mundo através da construção de um conjunto de
correspondências ou uma cadeia de equivalências para as pessoas entre as coisas, objetos, eventos, ideias
abstratas, etc - e os nossos sistemas de conceitos, os nossos mapas conceituais. O segundo depende da
construção de um conjunto de correspondências entre o nosso mapa conceitual e um conjunto de sinais,
agrupados ou organizados em várias linguagens que indicam ou representam esses conceitos. A relação entre as
coisas, conceitos e sinais está no cerne da produção de sentido na linguagem. O processo que liga esses três
elementos juntos é o que chamamos de 'representação'”.
19
Fonte: http://www.ucsusa.org/nuclear_weapons_and_global_security/solutions/space-weapons/ucs-satellitedatabase.html. Acessado em: 21 de Dez. de 2013.
24
olhar Antropológico que busca observar a representação do processo de significação
tecnológico.
Outro ponto importante discutido pelo pesquisador e que merece uma reflexão, sobre
as análises históricas da Antropologia e Filosofia, é um conceito que permeia as temáticas da
interpretação da cultura: a desambiguação. De acordo com o autor
“Assim, a Antropologia de Kant abre com uma diérese (ou o que a Wikipedia,
hoje, chama de ‘desambiguação’) entre a antropologia e a pragmática: o que a
natureza faz do ser humano versus o que o ser humano como um ator livre faz de si
mesmo(a), ou pode e deveria fazer.” (FISCHER, 2011, p.153).
O intento de pensar modelos de análise para abordagens e mensurações que
compartilham a questão da desambiguação é oportuno porque o estudo de caso a ser
explanado adiante, sobre o software Wikipédia Miner, aborda essa questão, não no sentido da
Filosofia Kantiana, mas na recursividade que participa da modelagem da informação. É sobre
este ponto de vista que se observa o fato de que a Linguagem ganha, dentro do poder
recursivo, a representação de que a Tecnologia, assim como a Antropologia, são próximas em
suas concepções ontológicas. São essas proximidades que fazem os estudos da Cognição um
elo importante quando revela que é através da Linguagem que o avanço tecnológico,
conforme será analisado adiante no contexto do Data Scientist na internet, observa o
procedimento semântico humano e o seu modo de visualizar o mundo.
25
3. FILOSOFIA DA LINGUAGEM
3.1.
Ludwig Wittgenstein, John Von Neumann, Heinz von Föerster e os
estudos cognitivos: linguagem da cognição ou cognição da linguagem?
A história é linear, mas os conceitos não. A fragmentação que se assistiu na evolução
científica criando especificidades teóricas especializadas, agora se encontra em sentido
contrário: a lógica matemática pela Biologia (padrões da engenharia genética), Antropologia
(STS – ciência, Tecnologia e sociedade) e Ciências da Computação (essa área permeia todas).
Em especial a Comunicação Social se vê rodeada de conceitos que tentam explicar os
fenômenos sociais atuais, mas se esbarra inevitavelmente no jardim ao lado, ou seja, os
conceitos de áreas que compartilham algo em comum. Mas isso não é uma coisa nova. Antes
de clarear a reflexão sugerida no título deste capítulo se entende necessário contextualizar
alguns temas: Filosofia da Linguagem, o Círculo de Viena e o Círculo Cibernético em
observação do procedimento semântico humano e o seu modo de visualizar o mundo.
Por que fazer tal digressão histórica e conceitual? Porque, como será observado, o
Paradigma Comunicacional em análise participa deste contexto e de certa forma foi
impactado por ele nos “jogos de linguagem”.
O Círculo de Viena20 constituiu uma associação de filósofos que se uniram em 1922
na Universidade de Viena, na Áustria, para conversas informais sobre a ciência, mas com o
intuito de unificar a mesma. Neste grupo continham grandes pensadores sobre lógica
matemática, sociologia e economia. Albert Einstein, Ludwig Wittgenstein, e Bertrand Russell
(foi mentor de Wittgenstein) foram os pais intelectuais do grupo. Cultuavam que o
conhecimento só poderia existir com a experiência em uma primeira fase e conseguinte por
análises lógicas, dessa forma o meio científico os aproximaram dos positivistas. O método de
“clarear o pensamento”21 consistia em um afastamento do pensamento metafísico e das
ambiguidades da linguagem natural.
Um dos pontos centrais do Círculo de Viena foi ser influenciado pelo filósofo da
linguagem Ludwig Wittgenstein pela sua lógica de esclarecer ideias. O filósofo reflete em
Investigações Filosóficas (1999), obra posterior de outra que iniciou influência de seus
20
Vienna Circle. Disponível em: http://plato.stanford.edu/entries/vienna-circle/ . Acessado em 22 de Fev. de
2014.
21
The Scientific Conception of the World: The Vienna Circle. Disponível em:
https://sites.google.com/site/gnadav/TheScientificConceptionoftheWorldeng.doc?attredirects=0. Acessado em:
Acessado em 22 de Fev. de 2014.
26
pensamentos (Tractatus), sobre as limitações perante a linguagem e a realidade
humana. O mundo é representado por um pensamento, que por sua vez é um
significado, um recorte da realidade uma vez que o mundo, o pensamento e a verdade
compartilham da mesma lógica. Desta forma o pensamento e a verdade (tautologias)
podem ser imagem dos fatos. Os limites do significado são explicados pelas
“fórmulas”, os aforismos linguísticos, que davam valor lógico na sua metodologia. O
filósofo não compartilhava da ideia de ser chamado de positivista mesmo porque
respeitava a metafísica, porém a separava das sentenças (proposições factuais,
tautologias e contradições) que realizara em sua primeira obra, o Tractatus LogicoPhilosophicus (SCHLICK, 1983).
O silêncio é uma forma de verdade, pois não gera ruídos, portanto a intuição
não pode, nesse caso, ser expressada. Já na introdução de sua obra, Investigações
Filosóficas o filósofo Wittgenstein expõe:
“Assim, aprendi pouco a pouco a compreender quais coisas eram designadas pelas
palavras eu ouvia pronunciar repetidamente nos seus lugares determinados em
frases diferentes. E quando habituara minha boca a esses signos, dava expressão
aos meus desejos” (WITTGENSTEIN, 1999, p.27).
Aqui o pensador traz uma percepção profunda sobre as psicologias do
pensamento quando as representações modelam os pensamentos pela interação de seus
desejos. Não será empreendido aqui o aprofundamento do conceito de desejo, mas se
assumirá que esse fator engendra as significações e limitam de certa forma o
entendimento da linguagem, pois é um assunto que a área cognitiva ainda não
conseguiu desvendar, por enquanto. Entretanto, o filósofo acreditava que o mais
importante era o que o falante fazia com a expressão e não o que antecede
psiquicamente tal ação. Dessa forma o filósofo diverge das ideias tradicionais da
linguagem onde o significado de um termo é dado por um objeto, na dinâmica que
cabe nos períodos gramaticais em paralelo à importância das faculdades psicológicas
do indivíduo impregnada nos sotaques ou na forma como a pessoa “escuta” a
declaração na linguagem pelos significados. De forma crítica e cautelosa, com uma
lógica matemática acentuada, o filósofo encara a linguagem como método. O sentido
da “linguagem ordinária” possui uma complexidade lógica que não se revela na
estrutura gramatical. A análise lógica é um remédio para esse fato. As idealizações que
27
se resultam dos jogos de linguagem supõem o conhecimento do significado. O conhecimento
do uso da linguagem pode trazer luz de suas ramificações lógicas.
Portanto, a filosofia da linguagem impulsionada pelo filósofo, no exercício do jogo das
linguagens, ecoou um modo de descrever as propriedades desse jogo e despontou qual é o
papel exercido pelo termo no contexto e que a linguagem é uma configuração da vida22,
assim, enraizada na sociedade. Mas, há um cuidado ao se “figurar” uma sentença linguística e
o fato linguístico porque não são totalizados pelas palavras e não se pode pensar no fato sem
antes na sentença que figura o sentido. Aqui reside um conceito em paralelo importante
refletido nesse trabalho que é a recursividade. Adiante será abordado seu significado, mas
vale lembrar que a análise empreendida busca a profundidade que figura a relação entre
separação da estrutura da linguagem dos processos semânticos.
A filosofia de Wittgenstein foi precursora do que se chama pelos historiadores da
“virada linguística” (MARCANTONIO, 2007), onde se idealizava que a linguagem é uma
forma de limitação humana no que tange o pensamento, tudo passa pelo crivo da linguagem
quando nomeado pela própria linguagem inseparável da realidade que a condiciona.
As derivações fundamentais do filósofo, que são pensadas no Círculo de Viena, não se
findam neste grupo.
O Círculo Cibernético (MARCONDES FILHO, 2007) nasceu na revolução tecnológica
da microeletrônica. Entre a década de quarenta e cinquenta os estudos transdisciplinares
promovidos pelo norte americano Norbert Wiener e o neurofisiólogo Warren McCulloch
vingaram pesquisas que integraram a Física, Biologia, Sistemas Sociais e as Ciências
Cognitivas. Cibernética tem várias definições, mas de acordo com Wiener se resume
cibernética como o estudo científico do controle e comunicação dos animais e da máquina.
Etimologicamente o termo deriva do grego com o sentido de governar.
Um dos integrantes do Círculo Cibernético era o biólogo, físico e matemático
austríaco Heinz von Föerster, parente do filósofo do Círculo de Viena refletido anteriormente.
Influenciado pela obra de Wittgenstein, Föerster tenta harmonizar o pragmatismo lógico dos
jogos da linguagem, mas na preocupação da pesquisa do cérebro e dos processos perceptivos.
Aqui o Paradigma Comunicacional Matemático-Informacional integrado com a filosofia da
linguagem gera novas perspectivas de pesquisa.
22
Wittgenstein. Disponível em http://www.cfh.ufsc.br/~mafkfil/scruton.htm . Acessado em: 13 de Abr. de 2014.
28
A matemática e a biologia participavam de uma matriz em comum, mas o
pesquisador não seguiu com uma linha matemática da Cibernética que é Inteligência
Artificial que tinha como um dos precursores John von Neumann. Dessa forma
Föerster
“[...] afastou-se da linha de von Neumann, que buscava desenvolver a chamada
‘inteligência artificial’. Para ele, seria ilusão os engenheiros dessa tendência
quererem explicar nossos pensamentos, nossos sentimentos, nossa consciência. [...]
von Föerster acredita que todos esses fatos – pensar, sentir, consciência – são,
antes, ‘princípios explicativos’ que são usados para explicar mas que não podem,
eles próprios, ser explicados. [...] Não existe de fato o aprender, o pensar, o ter
memória, a máquina não faz nada disso, não há nenhuma identidade com as
funções humanas, pois nós efetivamente não sabemos como aprendemos, como nos
lembramos, como pensamos, etc. Neste aspecto, Heinz von Föerster é enfático: não
se trata do ‘ainda não sabemos’ mas do não podemos saber isso, trata-se de algo
efetivamente insondável. A ciência, assim, tem que sair disso e voltar-se às
questões que não têm resposta, que escapam às rotinas das ‘máquinas triviais’”.
(MARCONDES FILHO, 2007, [s.p])
O fato de não se saber como o cérebro aprende ou se isso é cientificamente
plausível incomodava Föerster. Concorda-se aqui com as teses do pesquisador quando
diz que os indivíduos percebem o mundo à sua volta à sua maneira, de que a realidade
ou o ambiente que percebemos é nossa invenção trazendo subjetividade, que todo
sistema é fechado e recursivo, isto é, só se entende aquilo que se possa “pegar”
(círculo criativo) (MARCONDES FILHO, 2007). Föerster estende o conceito de
informação na Teoria da Comunicação Social pendendo mais para forma das relações
entre os significados a ponto de negar a informação. Contrapõe a comunicação dentro
da linguagem conotativa, inclinando a comunicação à Biologia de modo que a
recursividade dota o organismo de valores próprios e estes geram informação quando
dentro do que se pode perceber da realidade23.
Por outro lado, apesar de seu pensamento estar alinhado com o conceito de
figuração de Wittgenstein, Föerster, ao alegar a seguinte análise
“[...] Pode-se virar uma biblioteca de ponta-cabeça que não irá cair nenhuma
informação, diz ele. Só vamos encontrá-la se lermos os livros, se assistirmos aos
filmes, se consultarmos as fichas. E o mesmo se passa com uma conversa entre
23
Grifo meu
29
duas pessoas, ela nunca é uma ‘troca’, troca de idéias, de pensamentos, de opiniões,
de sentimentos. Não dá para trocar nada.[...]” (MARCONDES FILHO, 2007, [s.p])
pode estar radicalizando em relação ao desenvolvimento tecnológico. Em respeito ao
embasamento científico do círculo criativo, sua terceira tese, evidentemente a tecnologia não
esgota as complexidades dos sistemas recursivos da linguagem, mas ajuda a ao menos
“clarear” os significados em um primeiro momento. O exemplo dessa argumentação foi
empreendido atualmente com o programa Ngram Viewer24. Tal programa computacional é
uma coleção de textos digitalizados, convertidos em fonte digital, que se permite observar em
um modelo de linguagem probabilístico por Inferência Bayesiana25 e também baseado na
Teoria da Informação de Shannon onde uma fonte de textos é codificada em blocos de
significados indexados binariamente. Dessa forma encontra padrões de similaridades entre as
fontes digitalizadas a ponto de mostrar historicamente comparações de autores que mais
aparecem nesse contexto26 sem necessidade de se ler todos os 5.2 milhões de livros que se
comporta a base.
Até aqui se observa que na digressão histórica empreendida os conceitos codificação,
conversão, interação, imediatismo, modelagem de informação participam das figurações dos
jogos de linguagem entre as teorias e nos recortes das pesquisas em questão e suas lógicas
recursivas. Para Föerster a interpretação determina a informação e para Neumann a
recursividade binária da informação pelas semânticas (pode-se resumir por interpretação
indexada por humanos e organizada por máquinas) que retroalimenta a interpretação27.
Por outro lado, um dos legados deixado por John von Neumann, entre eles a
concepção do primeiro computador com programa armazenado na memória da máquina o
EDVAC e o conceito de autômatos (fundamentalmente base do conceito de recursividade de
auto regulação na computação), ampliou juntamente com o economista Oskar Morgenstern o
conceito de Teoria dos Jogos. Essa teoria se aproxima da filosofia da linguagem de
Wittgenstein. Tal teoria obteve considerável impacto na área da economia, “‘American’
individualism”. (GASCA; ISRAEL, 2009, p.130). Mesmo que dentro do grupo cibernético haja
aqueles que acreditam que a informação seja refém da conotação dentro do contexto da
comunicação é válido notar que a teoria de Neumann pondera a informação como o Ngram15
24
Para maiores informações ver https://books.google.com/ngrams. Os criadores dessa ferramenta foram Jon
Orwant and Will Brockman do Google.
25
Teorema de Bayes é uma teoria da probabilidade do matemático inglês Thomas Bayes onde mostra a relação
entre uma probabilidade condicional e a sua inversa para testar uma hipótese.
27
Grifo meu.
30
em combinar indexações favorecendo um desprendimento da linguagem de um “formalismo
biológico” e sim calcada na interação favorece uma análise que posteriormente foi
denominada de “equilíbrio de Nash”28 onde o resultado não depende individualmente das
escolhas individuais dos jogadores por uma cardinalidade (número de elementos de um
conjunto representacional matemático) em um conjunto finito, mas sim do encontro das
escolhas de todos os elementos dos conjuntos, neste caso, dos jogadores. É uma situação que
dadas as determinações tomadas pelos outros competidores, nenhum jogador pode melhorar
sua situação mudando sua própria decisão. Ainda assim, o criador da teoria John Forbes Nash
Jr., admite diferenças entre os conceptores de onde embasou suas pesquisas:
“ Nash himself, in an interview with Robert Leonard, admitted that a cultural
difference existed between himself and von Neumann and Morgenstern, in that the
latter were probably inspired by a more ‘European’ type of social model, while he
was influenced by an outlook typical of ‘American’ individualism29. (GASCA;
ISRAEL, 2009, p. 140)
Os conceitos que embasam a Teoria dos Jogos se originam nas “ciências duras” pela
filosofia da matemática30 (axiomas da escolha, lógica de primeira ordem, lógica de segunda
ordem, regras de inferência e teoria dos sistemas) e que buscava a verdade através da
axiomatização da linguagem formal.
A análise dos efeitos sociais e suas interdependências deram subsídios para a
estratégia dos jogos. A concepção do algoritmo (formas recursivas, na visão das ciências da
computação, de soluções lógicas pela utilização de linguagem de programação e cálculo via
computador) deu autonomia para análises numéricas ao invés da rigidez das análises
matemáticas e o cálculo automatizado, pela flexibilidade de avançar e retroceder processos de
análise, ganha espaço pela escala de processamento com o aperfeiçoamento das máquinas. O
ENIAC deu início para as dinâmicas de pesquisa nesta área e favoreceu estudos na área da
28
O nome derivou do pesquisador John Forbes Nash Jr. que ampliou a teoria dos jogos e provou a existência de
equilíbrio para jogos não-cooperativos de estratégia mista. Em 1994 em conjunto com mais dois pesquisadores
recebeu o prêmio Nobel de economia. Disponível em: http://www.pucrio.br/pibic/relatorio_resumo2007/relatorios/mat/mat_pedro_henrique_castro_simoes.pdf. Acessado em: 26 de
Mai. de 2014.
29
Tradução do autor: “O próprio Nash, em uma entrevista com Robert Leonard, admitiu que existia diferença
cultural entre ele e von Neumann e Morgenstern, em que este último foi provavelmente inspirado por um tipo de
modelo social mais europeu, ao passo que o primeiro foi influenciado por uma visão comum do individualismo
‘americano’”.
30
Introduction to Mathematical Logic. Disponível em:
https://dspace.lu.lv/dspace/bitstream/handle/7/1308/Detlovs_Podnieks_Math_Logic.pdf?sequence=1 . Acessado
em : 23 de Abr. de 2014.
31
Cognição quando a memória computável armazena códigos binários dos impulsos elétricos do
cérebro permitindo criar “imagens” relacionais antes não visualizáveis na ciência. A
convergência que a computabilidade permitiu avançou de tal modo que as áreas militar,
metereológica, neurofisiológica, física e a biológica molecular ampliaram análises no que
concerne uma aproximação entre a lógica e a ciência da informação. Da Teoria da Informação
por Shannon, Neumann estende sua teoria de Autômatos e faz analogia com o cérebro
humano e assim:
“[…] Moreover, The computer and the brain is still read today by biomedical
researchers, and its influence has radically changed the attitude towards the kind of
comparison between life and artificial creations proposed in it. McCulloch and Pitts
had run into serious difficulty in their attempt to publish their article, which had
aroused such great interest in von Neumann: it was Nicholas Rashevsky who
finally decided to publish it in his Bulletin of Mathematical Biophysics. Today,
however, this type of approach enjoys much credence in the field of the cognitive
sciences. Von Neumann’s ideas essentially represent the direct precursors of
“artificial intelligence”, which is well known also to the general public. […] The
influence of von Neumann on scientists and engineers working behind the “iron
curtain” (the “enemy” in the Cold War) is difficult to assess. […] Beyond
Mathematics of identification between man and the machine; and it is interesting to
recall the serious obstacles that stand in the way of such analogies and
identification and of which, as Shannon (1958, 127–128) pointed out, von
Neumann was perfectly well aware31 […]” (GASCA; ISRAEL, 2009, p.163).
As reflexões de seus estudos e a revisão do olhar que observava suas variáveis como
parte da função social e ver as variáveis intrínsecas que participam de ambas as visões como
linguagem que “codifica” e é “codificado” por padrões e culturas nas mensagens e até a
própria linguagem (observável no paradigma da orientação a objeto em uma perspectiva da
Ciência da Computação) são pertinentes. Cabe aqui uma explanação maior sobre o contexto
computacional da internet e sua estrutura peculiar, que não será feito nesse capítulo, mas a
orientação a objeto é um paradigma potente no meio das Ciências da Computação porque
31
Tradução do autor: “Além disso, o computador e o cérebro ainda é lido hoje por pesquisadores da área
biomédica e sua influência mudou radicalmente a atitude em relação ao tipo de comparação entre a vida e as
criações artificiais propostas nele. McCulloch e Pitts tem tido uma série de dificuldades em sua tentativa de
publicar seu artigo, que despertou grande interesse em von Neumann: Nicholas Rashevsky foi quem finalmente
decidiu publicá-lo em seu Boletim de Matemática Biofísica. Hoje, no entanto, este tipo de abordagem goza de
muito crédito no campo das ciências cognitivas. As ideias de Von Neumann representam essencialmente os
precursores diretos de "inteligência artificial", que é bem conhecido também para o público em geral. [...] A
influência de von Neumann sobre os cientistas e engenheiros que trabalham por trás da "cortina de ferro" (o
"inimigo" na Guerra Fria) é difícil de avaliar. [...] Além da matemática de identificação entre o homem e a
máquina; e é interessante recordar os sérios obstáculos que se interpõem no caminho de tais analogias e
identificação e de que, como Shannon (1958, 127-128) apontou, von Neumann estava perfeitamente consciente”
32
permite a implementação de aplicativos e programas complexos em partes
independentes e extensíveis dos objetos a terem suas propriedades de ações em
interfaces arquitetadas para interagirem nos displays, ou seja, nas telas dos
dispositivos tecnológicos. A orientação a objeto é um jogo de linguagem travado entre
a lógica e sua representação. Aqui se observa que a própria estrutura da linguagem
passa pelo crivo da recursividade, pois implica padrões de estilos e consequentemente
um elo cognitivo da linguagem. Tal pensamento é compartilhado por Mercedes
Marcilese em sua tese de doutorado sobre a habilidade da língua como poder recursivo
da cognição.
“Assume-se como premissa básica que uma língua L incorpora, em seu léxico,
propriedades informadas pelos sistemas conceitual/intencional e sensório-motor
com os quais interage e fornece a estes, em seus níveis de interface, informação
que possibilita a percepção/articulação de enunciados lingüísticos e sua
interpretação semântica. O intercâmbio de informações entre a língua e esses
sistemas se realiza por meio de dois níveis de representação linguística”
(MARCILESE, 2011, p.23)
Marcilese (2011, p.24) argumenta que o sistema computacional é caracterizado pela
recursividade, “a recursividade como sendo o único componente especificamente lingüístico
da faculdade da linguagem; contudo, esse componente não é definido como sendo
especificamente humano, dado que pode estar presente em outros domínios compartilhados
por outras espécies”.
Dessa forma o sistema binário, por combinações e recursos indexados no hardware e
software, cria elementos sintáticos a partir das interações mediadas pelos indivíduos em
relação ao processo de parsing, leitura da estrutura da informação como enunciados
linguísticos, textos. Uma vez reconhecidos (decodificados) os elementos linguísticos são
recuperados e expostos a novas dimensões sequenciais que agregam semânticas, significados
armazenados na memória do sistema computacional. A ideia da pesquisadora é embasada na
Teoria Gerativa de Noam Chomsky que “tem enfatizado o caráter recursivo da sintaxe como
uma das características cruciais das línguas” (MARCILESE, 2011, p.74).
Para Noam Chomsky o ser humano possui, em paralelo a cognição, a capacidade de
produzir e estruturar frases, isto é, uma função inata e parte do patrimônio genético dos seres
humanos. Não temos consciência desses princípios estruturais assim como somos não temos
33
consciência da maioria das nossas outras propriedades biológicas e cognitivas. Seu fruto
científico, entre outros, é observado na sua obra “Three Models For Tie Description of
Language” (1956) com os princípios que mais tarde se ampliaram como a Hierarquia de
Chomsky. As hierarquias da linguagem são descritas como regras que cada expressão de um
conceito de se inter-relacionar e quanto maior a dependência para ampliação/geração do
mesmo, por outras regras, mais superficial será o nível da linguagem. O interessante nessa
teoria é que a linguagem “humana” possui a capacidade de recursividade inesgotável. Esse
conceito é fundamental, pois é usado na perspectiva das Ciências da Computação como
poderoso modo de fazer os algoritmos administrarem as entradas de dados e equalizarem as
saídas de informação estruturada em grande escala em analogia com os avanços técnicos dos
autômatos de Neumann.
A linguagem de computador possui um nível mais superficial na hierarquia de
Chomsky onde sua dependência aos fatores recursivos da cognição humana a projetam como
parte representativa no ato simbólico de comunicar algo. Afinal, qual a importância da
linguagem não apenas pela visão computacional?
A linguagem, como uma das partes que se configura pela projeção cognitiva, é uma
interface genuína entre o ser humano e a natureza. No contexto a evolução da humanidade
observa-se que a escrita foi a primeira “revolução da informação” na história da Comunicação
Social de massa. De acordo com Irving Fang, a partir da evolução da iconografia rudimentar
das cavernas para a linguagem falada e conseguinte o alfabeto uma revolução da informação
impactou a cultura e pode ser observada na Grécia antiga:
“Examination of most communication technologies shows a pattern of slow
progress that is illuminated occasionally by a sudden sharp advance. Early Greek
civilization advanced in a similar manner, a laborious crawl that exploded in
revolutionary political, social, and economic changes, interlinked changes in
virtually every field of life, of which the information revolution was a small but
integral part32. (FANG, 1997, p.40).
Adiante, com criação do chipset pela evolução tecnológica, resultante do domínio
humano da natureza pela aplicação e interação direta da linguagem, possibilitou a expansão
da comercialização do computador na sociedade. Esse fato revoluciona a dimensão de fazer
32
Tradução do autor: “Observando a maioria das tecnologias de comunicação observa-se um padrão de
progresso lento, que é iluminado, ocasionalmente, por um avanço súbito. A civilização grega precoce avançou de
forma semelhante enraizada na produção que explodiu em mudanças políticas, sociais e econômicas
34
comunicação, uma vez que os meios de comunicação se hipertrofiam pelas possibilidades
tecnológicas já estudadas nas Teorias da Comunicação Social. Mas vale lembrar que as
linguagens de programação vieram antes da popularização do computador moderno. A
linguagem de máquina de Alan Turing33 (um dos integrantes que ajudaram Neumann no seu
empreendimento e também um dos que tentaram defender a análise numérica do formalismo
matemático - que não acreditava nessa linha de pensamento - criando a máquina de Turing)
evoluiu para complexidade algorítmica da modelagem orientada ao objeto. A orientação a
objeto foi um marco cognitivo na programação de linguagens, pois exige uma abstração
sistêmica que encapsula em pequenos objetos a extensão do objeto pai em propriedades e
valores. O conceito de classes reordena a maneira de “empacotar” as linguagens e facilita a
escalabilidade na engenharia da computação. Esse modo de produzir sistemas criam objetos
modulares onde a instalação e desinstalação de um objeto em um sistema não afeta o todo, ou
seja, há um independência do objeto em relação ao todo apesar de conter uma similaridade do
objeto pai. Como funciona a escalabilidade?
O sistema UNIX34 foi criado na mesma época do paradigma de orientação a objetos e
sua popularidade se firmou pela sua natureza multitarefa (fazer várias coisas ao mesmo
tempo), portátil e multiusuário (wiki). Sua característica favoreceu a indústria de plataformas
e ampliação das interfaces tornando mais intuitiva a interação humana por janelas ao invés de
linhas de códigos. Tal popularidade foi observada por Paul Ceruzzi:
“UNIX was developed on DEC minicomputers, and for the first few years of
UNIX’s existence it ran only on DEC computers, mainly PDP-11s. The University
of California at Berkeley’s version of UNIX, which had an enormous influence on
computing and on the Internet, was developed on a VAX. Still, DEC was
ambivalent about UNIX for the VAX. Ken Olsen allegedly stated at one point that
‘‘UNIX is snake oil!’’ (The context in which he made that statement has been
disputed.15) At any rate, the VAX could and did run Berkeley UNIX, and for at
least the formative years, VAX computers were the most common nodes on the
Internet.35 (CERUZZI, 1998, p.261).
revolucionárias, interligando mudanças em praticamente todos os campos da vida, dos quais a revolução da
informação era uma parte pequena, mas fundamental”.
33
A review of the 1977 Turing Award Lecture by John Backus. Disponível em:
http://www.cs.utexas.edu/~EWD/transcriptions/EWD06xx/EWD692.html . Acessado em: 12 de Jan. de 2014.
34
É um sistema operacional como o Windows, mas é um software livre. Criado por Ken Thompson, Dennis
Ritchie, Douglas McIlroy e Peter Weiner, que trabalhavam nos Laboratórios Bell (Bell Labs) da empresa AT&T.
35
Tradução do autor “O UNIX foi desenvolvido em minicomputadores de estrutura DEC e durante os primeiros
anos de existência do UNIX funcionou apenas em computadores DEC, principalmente PDP-11. A Universidade
da Califórnia com a versão UNIX de Berkeley teve uma enorme influência sobre informática e na Internet, foi
desenvolvido sobre uma estrutura VAX. Ainda assim, DEC foi ambivalente sobre UNIX para o VAX. Ken
Olsen teria afirmado em um ponto que '' UNIX é óleo de cobra!'' (O contexto em que ele fez essa declaração foi
dúbio.15) De qualquer forma, o VAX poderia e avançou com Berkeley UNIX, e, pelo menos nos anos de
35
Não se vê como exigência o comunicador dominar profundamente as linguagens de
programação – a não ser que queira – para desvendar os fenômenos nas redes, mas
desconstruir sua estrutura que perfaz as camadas chamadas interfaces e correlacionando
interações não isolando o indivíduo do social e nem generalizando o social no indivíduo pode
ajudar a extrapolar o campo interpretativo, isto é, quando o objeto de estudo é o fenômeno
digital em que caminhamos e nos “culturalizamos”. Nessa reflexão (Cognition and multiAgent Interaction, 2008) Ron Sun da universidade de Cambridge mostra como o “third way”
é uma tentativa de, a partir de modelos preditivos com base cognitiva e computacional,
extrapolar a ciência dedutiva unida com a indutiva em um equilíbrio interpretativo onde, com
a ajuda da potência da simulação computacional, a indução encontra padrões no volume de
dados e a dedução cria regras específicas de combinações e diretivas para as simulações.
Observa-se aqui uma similaridade conceitual com o equilíbrio de Nash de Neumann, mas o
objeto de análise é o banco de dados e não os jogadores. Há o uso de modelagem estatística
probabilística empreendida pelos cibernéticos. Tal estudo gera as seguintes inquietações:
como mensurar a realidade cognitiva da simulação social? O que pode a realidade cognitiva
contribuir para o processo social? O que nós poderíamos caracterizar como “mente coletiva”
entre outras. Aqui se faz eco no jogo da linguagem uma vez que o sujeito social carrega a
linguagem que o contempla e representa a recursividade.
Por outro lado, em paralelo às indagações anteriores o teórico da Comunicação Social
Francisco Rüdiger explica que a vida em rede representa a migração da sociedade para o
ciberespaço. A realidade história é mediada pela interação da máquina e a vivência cotidiana.
Um caminho para entender as novas mídias é sair do conflito que sobra da discussão
polarizada na censura ou aposta em promessas ingênuas, seguindo um meio termo (novo
empirismo) ao analisar os pontos positivos e negativos do tema da evolução tecnológica na
Comunicação Social.
Quando a Tecnologia avança e evolui, a cibernética entra em sinergia com a ciência de
outros campos e nascem as observações dos sistemas complexos. Quando olhado em detalhes
os sistemas são diferentes, mas visto em nível abstrato propriedades intrigantes em comum
aparecem como sinais de informação processada e adaptação (MITCHELL, 2009). Um
formação, os computadores VAX eram os nós mais comuns na Internet.”. A expressão usada por Olsen era uma
expressão da língua no sentido de panaceia, remédio que não solucionava motivo pelo qual sua declaração foi
referida como de duplo sentido.
36
sistema com grande número de componentes sem centralização de controle e simples regras
dão um ambiente complexo com sofisticados processos de informação e adaptação via
aprendizagem e evolução não trivial de auto-organização, a exemplo da estrutura celular e sua
relação aos tecidos, entre eles, os neurais até hoje um mistério sobre como se processa o
pensamento. Entender a distinção entre linearidade e não linearidade é crucial. A modelagem
analítica ajuda a compreender desde as variáveis do fenômeno das transmissões da fibra ótica
para outro computador na internet assim como as moléculas responsáveis para se comunicar
entre os neurônios no cérebro humano. Como a modelagem da informação pode ser observada
nesse contenxto? Pesquisadores da universidade de Cambridge (GOLDMAN et al, 2011)
divulgaram um estudo, assim como também o material apêndice de como foi feito o
experimento, sobre o armazenamento de informação que aumenta a expansão de projetos e
diminui impactos de custo pela simplicidade que o modelo de “hardware” guarda as
informações. Os cientistas replicaram textos à natureza biológica do DNA transpondo as
proteínas em códigos binários e por um processo de codificação e decodificação chegaram a
um modelo que armazena uma quantidade informação dentro de um filamento. Portanto,
como mostra Mitchell (2009), a complexidade dos sistemas no seu modo autônomo,
descentralizado, auto-organizável e modular (independentes entre si) são fascinantes pela
riqueza de significados quando estudados de forma aprofundada e comparada nos esforços
transdiciplinares.
Ron Sun e Mitchell exemplificam caminhos metodológicos transdisciplinares, em uma
reflexão análoga aqui observada nas modelagens de informação possibilitadas pelos
adventos científicos de Neumann, e orienta o estudo da linguagem como vetor central da
cognição humana não como artefato, mas sim como extensão em paralelo aos aforismos de
Wittgenstein36. Como DNA da comunicação a linguagem está eletrificada, no sentido físico
do termo, e sua ontologia se fragmenta em códigos binários para se reorganizar em novos
sentidos, decodificados pela máquina, mas não apenas nos ditames de ações e respostas e sim
no mapeamento das próprias maneiras, gêneros da linguagem em si mesma que não se findam
em si. Não se fecham em uma razão pura, se abrem para novas perspectivas interpretativas
que se pode perceber na própria estrutura da linguagem iniciada pelas abstrações semânticas
de Alan Turing refletida em suas pesquisas revigorando uma lógica interativa que “fotografa”,
processa e retorna o que a ajuda a compor no processo de informação.
36
Grifo meu
37
A cognição é ampliada pela linguagem computacional semantizada? Assume-se aqui
que a linguagem é o ponto de conexão entre a abstração dos algoritmos e da cognição como
de ambos, pois o ser não percebe a cognição e sim percebe por ela. Talvez aqui, como uma
antevisão, resida a preocupação de Neumann em atrelar as riquezas sistêmicas do cérebro
humano à maquina assim como também as inquietações de McLuhan sobre a linguagem como
uma tecnologia já argumentado anteriormente. O limite tênue entre a linguagem e a cognição
torna complexo o tema, mas no sentido de retroalimentação a informação soma ganhos para a
cognição porque o desenvolvimento tecnológico da linguagem de programação favoreceu
observação científica mais acurada dos processos cognitivos como será mostrado mais adiante
nos estudos de cognição.
Para Jeannette M.Wing, cientista da Ciência da Computação, a informação mediante o
desenvolvimento tecnológico da linguagem de programação ganhou outro escopo científico e
ampliou perspectivas não só dentro da própria área, mas em outras também. Para a
pesquisadora:
“The field of computing is driven by boundless technological innovation and
societal expectations. The field runs at such a maddening pace that we barely have
time to pause and enjoy the ride. The time between an ingenious idea springing
from a research laboratory or coffeehouse conversation and its emergence as a
product or service is so short and the frequency of the commercialization cycle of
ideas so great that we rarely stop to savor even our own successes37.” (WING,
2008, p.1)
“When people talk about the smart grid, smart vehicles, and smart buildings -what makes them “smart”? Computer science. When people talk about
personalized medicine and personalized learning, how do you think personalization
is possible? Computer science. We’re not there yet, but the next generation of
computer scientists can help us realize these visions -- with immeasurable benefits
to society and the economy38” (WING, 2011, p.3).
37
Tradução do autor: “O campo da computação é impulsionada pela inovação tecnológica sem limites e nas
expectativas da sociedade. O campo é executado em um ritmo tão alucinante que mal tem tempo para fazer uma
pausa e desfrutar do passeio. O tempo entre uma ideia genial surgindo a partir de um laboratório de pesquisa ou
uma conversa no café e sua emergência como um produto ou serviço é tão curta e a frequência do ciclo de
comercialização de ideias tão grande que raramente paramos para saborear até mesmo nossos próprios sucessos”
38
Tradução do autor: “Quando as pessoas falam sobre o smart grid, os veículos inteligentes e edifícios
inteligentes - o que os torna ‘nteligente’? Ciência da Computação. Quando as pessoas falam sobre a medicina
personalizada e aprendizado personalizado, como você acha que a personalização é possível? Ciência da
Computação. Nós não chegamos lá ainda, mas a próxima geração de cientistas da computação podem nos ajudar
a perceber essas visões - com benefícios imensuráveis para a sociedade e para a economia.”
38
O ritmo de desenvolvimento que a tecnologia acontece é veloz e isso impulsiona avanços.
Wing lembra que, apesar da contribuição da área para a ciência, se deve pensar
profundamente cinco questões: P = NP, o que é computável, o que é inteligência, o que é
informação, como podemos construir sistemas complexos de forma simples. Com essas
indagações a pesquisadora mostra que a criptografia foi, além de uma prova lógica, uma
inovação grande para a segurança do fluxo eletrônico da informação, que o computador e o
ser humano possuem capacidade computável, mas isso leva a outra pergunta do que é a
inteligência. Nesse contexto os caminhos enveredados pelos estudos da Inteligência Artificial
evoluíram no campo da Cognição, Neurociência entre outras embaladas pela interação da
informação. Por sequências de zeros e uns a internet forma um grande tecido e analogamente
a pesquisadora lança uma pergunta instigante:
“Can we build systems with simple and elegant designs that are easy to
understand, modify, and evolve yet still provide the functionality we might take for
granted today and dream of for tomorrow? Is there a complexity theory for
analyzing our real-world computing systems as there is for the algorithms we
invent39?” (WING, 2008, p.3)
Aqui a pesquisadora induz a pensar que a próxima inovação virá do entendimento do
próprio sistema computacional. A metalinguagem, isto é, algoritmos de aprendizagem40 da
máquina resolveria esse intento? Tal pergunta não foi respondida, mas sugere que o resgate da
essência da área é necessário para se visualizar e fazer ciência. Essa visão é benéfica para a
Comunicação Social na sedimentação de novas metodologias, uma vez que a faz repensar
seus fundamentos perante suas expectativas.
Observa-se até o momento que a justaposição das ciências naturais das ciências
humanas se revigora com os estudos científicos computacionais e suas representações
recursivas uma vez que as mensurações e indicadores para os sistemas experimentais se
aproximam constantemente na mutabilidade das redes e reconfiguram oportunidades para o
campo da Comunicação Social, em paralelo às interpretações antropológicas, apontar as
39
Tradução do autor: “Podemos construir sistemas com desenhos simples e elegantes que são fáceis de entender,
modificar e evoluir ainda assim fornecer a funcionalidade que pode ser concedido hoje e sonhar com o amanhã?
Existe uma teoria da complexidade para a análise de nossos sistemas de computação do mundo real como existe
para os algoritmos que inventamos?”.
40
São programações que visam perceber a informação e suas características de acordo com o uso, como por
exemplo, um usuário da internet ao fazer buscar estaria emitindo algumas variáveis para o algoritmo como a
hora da pesquisa, palavras pesquisadas, relações com o que já foi pesquisado em outro momento e etc.
39
facetas dos campos sociais em modelos de análise, agora, ampliados pela utilização da
tecnologia interativa, compartilhadas pelas alteridades do público e suas cognições.
Para o pesquisador Walter Teixeira Lima Junior (2013, pág 112), que empreende
estudos da Comunicação Social com observação às teorias cognitivas, a observação de
Howard Gardner é oportuna quando descreve as caracterizam da ciência cognitiva e há a
importância em somar esforços com os estudos interdisciplinares. Ainda sobre essa visão
“Os cientistas cognitivos não são especuladores de gabinete porque utilizam
métodos empíricos para testar suas teorias e hipóteses. ‘Além disso, os cientistas
cognitivos adotam os mais recentes avanços científicos e tecnológicos de várias
disciplinas. De extrema importância para o seu empreendimento é o computador’
(GARDNER, 2003, p. 19)”. (LIMA JUNIOR, 2013, pág 112).
Até que ponto a interação da linguagem recondiciona a linguagem da interação? Seria
a modelagem da informação um fator chave para uma “recognição” do conhecimento pelo uso
comum da recursividade impregnada nas redes para explicar a codificação, conversão,
interação e o imediatismo? Quais as limitações de tais aproximações? Isto pode ser observado
com a Ciência Cognitiva, que de certa forma ampliou seus experimentos com os avanços da
tecnologia originada por Neumann.
Os avanços tecnológicos de ressonância magnética possibilitam fazer testes (fMRI –
functional magnetic resonance imaging) que mostram as propriedades que o cérebro humano
usa para realizar suas funções vitais. Pesquisadores do Instituto de Tecnologia da Califórnia,
Caltech, (Heberlein; Adolphs, 2004) revelam que algumas partes do cérebro são responsáveis
em reconhecimento de propriedades específicas. Estão relacionadas com os estímulos do
meio, sensíveis às “animacidades” do ambiente social. As expressões faciais podem ocorrer
tanto como uma parte de uma resposta emocional e como um aparelho de comunicação. A
amígdala está envolvida no processamento destas expressões. Pessoas que são mais
extrovertidas possuem maior atividade deste órgão. Conforme os pesquisadores
“We hinted above at a fascinating new direction of research that will contribute to
our understanding of amygdalar function in emotion recognition. Several recent
studies have examined correlations between gender and individual differences,
40
such as personality traits, and amygdala activation patterns during social judgement
tasks41.” (HEBERLEIN, A.S.; ADOLPHS, R., 2005, p.166)
é possível distinguir diferenças da personalidade de um indivíduo pelos padrões que emergem
dos mapeamentos informacionais dos experimentos de ressonância magnética e uma vez
armazenados possibilitam estudar estes padrões via recursos computacionais. Estes estudos
são baseados na “teoria da simulação” (HEBERLEIN, A.S.; ADOLPHS, R., 2005, p.163) que
descreve um mapa de processos emocionais onde os indivíduos, pela experiência e sua
faculdade de perceber estados emocionais em outras pessoas sem expressar verbalmente tal
fato internalizando conhecimento associativo, que é denominado recognição. Desta forma, se
visualiza uma tentativa de constatar uma anatomia funcional da cognição da sociedade
calcada nas atribuições perceptivas como, por exemplo, a capacidade do cérebro humano
fazer distinções rápidas de um contexto com o mínimo de esforço. Isto é possível pela
aprendizagem do cérebro sobre tais padrões nos momentos de sua vivacidade.
Por outro lado, David J. Lobina (2011) pesquisador espanhol de linguagem e cognição
do departamento de psicologia da universidade de Rovira, aborda que as tecnologias de
ressonância magnética ou algoritmos de aprendizagem (nos níveis de processamento, lógicas
de programação e hardware) não “clareiam” cientificamente a questão da recursividade nos
estudos de gramática de aprendizagem artificial (AGL na sigla inglesa). Argumenta de forma
categórica que as ações da AGL são intrínsecas à sintaxe e não da recursividade da linguagem
natural, ou seja, o conjunto de textos (strings) retornados por resultados de algoritmos não
mostram as recursividades da estrutura da linguagem. Basicamente a competência linguística
não pode ser ultrapassada pela performance linguística e isso implica que inferências sobre a
realidade mental de uma pessoa não pode ser resumida pelas codificações gramaticais
(parser) por um algoritmo. Dessa forma o pesquisador separa o significado de recursividade
entre a estrutura da linguagem (inatos) e os processos semânticos da linguagem em um
algoritmo e aponta que a confusão de tal interpretação participa da área cognitiva. Aqui há o
limite entre a técnica da ciência da computação e as representações naturais do cérebro
humano, a cognição. Fica aberta uma inclinação biológica como a de Heinz von Föerster
41
Tradução do autor: “Nós apontamos em uma nova direção fascinante de pesquisa que contribui para nossa
compreensão da função da amígdala no reconhecimento de emoções. Vários estudos recentes têm examinado
correlações entre gênero e as diferenças individuais, tais como traços de personalidade e padrões de ativação da
amígdala durante tarefas de julgamento social”.
41
quando defende que as representações da cognição são intrínsecas e pré-estabelecidas na
metafísica da geração da linguagem e não de seu espelho.
Entretanto, o pesquisador Lobina concorda que
“It is not clear at all that Subject-Verb configurations are in fact being mirrored,
given what has been discussed before. Indeed, AGL strings cannot duplicate the
hierarchy that exists between subjects and verbs; moreover, subjects and verbs
agree, at least in English and Romance languages, in terms of abstract
morphosyntactic features which remain operative even if subjects are ‘dropped’
42
’’. (LOBINA, 2011, p.1580)
as subjetividades da linguagem podem ser aproximadamente condensadas, em ordem menor,
pelo sentido semântico.
Nesse sentido pesquisadores do Instituto alemão de Sistemas Cognitivos da
universidade de Munique (TUM) empreenderam estudos semânticos, embasados na
Inteligência Artificial, que utilizam algoritmos de aprendizagem para mapear e estocar
informações motoras dos seres humanos denominados como bibliotecas DMPs (dynamic
motion primitives) (RAMIREZ et.al; 2013). Assim como a limitação da AGL, explanada no
discurso de Lobina, não consegue ultrapassar o sentido estrutural da recursividade porque
neste caso não há a possibilidade de prever as intenções das bibliotecas estocadas nem extrair
significados das ações. Porém, por observações humanas de vídeos filmados e decupados em
níveis de abstração denominados como alto-nível (descrições gerais sobre movimento,
ausência de movimento e uso de uma ferramenta qualquer) e baixo nível (representa
atividades humanas básicas como fazer uma panqueca, por exemplo) os pesquisadores tentam
computar as criações de novas instâncias e relações dos níveis para serem modelados
ontologicamente gerando uma base de conhecimento. A base dos critérios do algoritmo
utilizado é OWL43 (Web Ontology Language) que é o esforço de indexar ontologias na web
que “instancia” propriedades e seus relacionamentos, dessa forma permite processamento de
informação por outro software, hardware ou linguagem de programação pela flexibilização de
42
Tradução do autor: “Não está claro que em todas as configurações de sujeito-verbo estão de fato a sendo
espelhadas, dado o que foi discutido antes. Na verdade, parte de textos AGL não pode duplicar a hierarquia que
existe entre os sujeitos e verbos; Além disso, os sujeitos e verbos concordam, pelo menos em inglês e línguas
românicas, em termos de características abstratas morfossintáticas que permanecem em operação, mesmo que os
sujeitos sejam 'condensados'.”
43
OWL Web Ontology Language. Disponível em: http://www.w3.org/TR/owl-guide/ . Acessado em: 12 de Jul.
de 2014.
42
troca de informação por XML44 (linguagem de programação que permite estruturar as
propriedades em silos de informação). Atua como um novo paradigma de interpretação por
máquinas de conteúdo, web semântica que será abordado adiante no contexto do Data
Scientist. A figura 2 mostra o processo de construção da base de conhecimento pelo
armazenamento das informações do agente e do ambiente que circunscreve a ação. De acordo
com os níveis e dos parâmetros do agente, regras e ontologias são geradas gerando o “prolog
predicates” um banco de dados que contém toda essas relações captadas por câmeras que
detectam o movimento humano.
FIGURA 1
Mapa processual do experimento dos DMPs
Fonte: Extracting Semantic Rules from Human Observations
Uma contribuição desse estudo mostra que da geração automática das regras de
observações humanas são possíveis inferir com alta probabilidade novos processos, porém
dentro do nível das atividade básicas humanas, neste caso motora. O avanço em dotar um
conjunto de algoritmos ser capaz de computar novar relações entre objetos e ações humanas
se torna promissora.
44
Extensible Markup Language (XML) 1.0 (Fifth Edition). Disponível em: http://www.w3.org/TR/REC-xml/ .
Acessado em: 12 de Jul. de 2014.
43
Dessa forma a “figuração” das interações nas redes uma vez que podem ser estocadas
nas “tuplas”45 das camadas interativas promovem a imediatividade que por sua vez está em
concomitância com os jogos de linguagem que perfazem o movimento ora codificando e
decodificando via conversibilidade as informações de origem digital e analógico resultando
um estrato recursivo pela retroalimentação da modelagem de informação no exercício
analítico do Data Scientist.
Wittgenstein, Von Neumann, Heinz von Föerster e os estudos cognitivos, apesar das
suas diferenças, participam da representação recursiva no limite estrutural conforme em
concordância com o pesquisador Lobina que defende a circunscrição do pensamento do jogo
de linguagem de forma mais instintiva. Mas, nessa conjectura analítica até aqui empreendida
pode-se dizer que a cognição da linguagem (neurofisiológica-recursiva) “encapsula e orienta a
objeto” a linguagem da cognição (recursiva-subjetiva). A tecnologia condensa esse encontro
na modelagem da informação retroalimentando o conhecimento das origens desse ato já
exemplificado com o Ngram, fMRI e na formulação do pivô das figurações , o autômato de
Neumann. Não esgota, portanto, reflexão da máxima entre a separação da estrutura da
linguagem dos processos semânticos, mas sim ajuda delineá-las.
É a partir daqui, reiterando a primazia da linguagem analisada e justificada entre os
paradigmas da Comunicação Social e as áreas no vértice de Wittgenstein e Neumann, que será
introduzida a conceitualização de Data Scientist no ambiente Big Data na busca da síntese do
volume de informação que a internet possui nas suas relações de redes dispostas a observação.
45
Tuplas são silos de variáveis que são armazenadas ou retornadas nas camadas das interfaces programáveis da
internet. É aqui que a Web Science pode tirar proveito em aprofundar análises.
44
45
4. DATA SCIENTIST E BIG DATA
4.1.
Wire Frames, Data Sets, clusters: filtros cognitivos
No contexto cibernético Alan Turing materializou a abstração lógica da linguagem
como sistema binário (Máquina Universal de Turing)46 e assim prosperou, com Neumann, a
Ciência da Computação pela sua contribuição na Teoria da Informação.
Percebe-se que a Teoria da Informação do Paradigma Matemático-Informacional abriu
uma perspectiva importante no trato da informação e sua escalabilidade. Esse conceito sugere
o potencial de estender uma Tecnologia (inclusive a própria linguagem) em sua estrutura e
aplicabilidade para diversas finalidades e tal fato foi possível pela abstração de um novo
paradigma (linguagem de programação orientada a objeto) no modo de se planejar a
linguagem no exercício de abstração da mesma com a realidade. A clivagem entre a
linguagem humana com a linguagem da máquina trouxe maior observação nos fenômenos
naturais, inclusive da própria percepção humana e isso se espelha em outras áreas como já
analisado anteriormente.
Antes do desenvolvimento da computação o esforço de resgate da informação era maior
devido a ausência da escalabilidade, mas depois de sua possibilidade, no paradigma da
linguagem computacional, há o esforço de estocar tudo o que se faz útil, uma coleção de
dados, para o desenvolvimento humano no que se chama de banco de dados relacionais, o
Data Set47.
Já estabelecida uma relação com a Comunicação Social nos Paradigmas estudados,
conseguinte, se irá refletir o conceito de informação, o paradigma da linguagem de
programação OO (Orientação a Objeto) (VICENZI, 2004) e a estrutura das redes telemáticas.
Assume-se aqui que a informação participa dos processos comunicacionais e é a partir
dela que o homem julga sua pertinência48.
Potencializada pela conexão em rede a informação é um fator decisivo para a
humanidade em seu desenvolvimento “[…] recently has human progress and welfare begun to
46
Beyond the Turing Test. Disponível em:
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=93234086C26D14E2794A5A4DC14D1B70?doi=10.1.
1.44.8943&rep=rep1&type=pdf. Acessado em: 23 de Fev. de 2014.
47
Data Mining. Disponível em:
http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS
UyMG1hbnVhbC5wZGY=. Acessado em: 05 de Nov. de 2013.
48
Grifo meu.
46
depend mostly on the successful and efficient management of the life cycle of information 49”
(FLORIDI, 2010, p.8). Ainda na mesma página:
“The life cycle of information typically includes the following phases: occurrence
(discovering, designing, authoring, etc.), transmission (networking, distributing,
accessing, retrieving, transmitting, etc.), processing and management (collecting,
validating, modifying, organizing, indexing, classifying, filtering, updating,
sorting, storing, etc.), and usage (monitoring, modelling, analysing, explaining,
planning, forecasting, decision-making, instructing, educating, learning, etc.).”
Muito semelhante aos processos cibernéticos, entretanto, diferindo no quesito de administrar
tais processos, Luciano Floridi reflete a informação em vários níveis como revolução,
linguagem, matemática, semântico, físico, biológico, econômico e ético.
Por outro lado, a origem do conceito de informação vem da terminologia de dados,
uma estrutura de sintaxes sem significado. A partir desses níveis temos o panorama da
evolução humana em administrar os “sentidos” gerados pelo armazenamento dos dados. Essa
evolução passa desde: os processos análogos, digitais e binários (meios por onde se
administra a informação digitalizada); primário, secundário, meta, operacional e derivativo
(modo de interagir com a informação e como resgatá-la); as ramificações como modelos
interpretativos dos dados, o meio ambiente, semântica subdividida em instrucional e factual
por sua vez subdividido em não verdade (informação perdida e informação enviesada) e
verdades (conhecimento como resultado dos processos). Essa esquematização mostra que a
informação possui níveis de interpretação. Essas características espelham variações de
contextos e de propriedades do ecossistema que contém tais relações na construção do
conhecimento. A figura a seguir mostra o resumo das dimensões estabelecidas por Floridi.
49
“recentemente o progresso e bem-estar humano iniciado dependeram principalmente sobre a gestão bem
sucedida e eficiente do ciclo de vida da informação” – tradução minha.
47
FIGURA 2
Mapa conceitual das dimensões da informação
Fonte: Open Problem in the Philosophy of Information.
Apesar da conceitualização da informação depender do contexto, as premissas antes
descritas no programa Ngram e na tecnologia fMRI se intercruzam em cada nível sugerido
por Floridi, mas os padrões (Patterns) e seus gêneros aqui são observados como uma
linguagem que explica seus propósitos de acordo com as dinâmicas relacionais. Essa ideia
reforça a evidência da lógica da linguagem como benefício cognitivo a cada passo da
evolução da informação. Nesse ambiente a Orientação a Objeto (VICENZI, 2004) se
diferencia no quesito “recognição da realidade”, pois reorganiza – no meio da Ciência da
Computação é visto como uma revolução – o estilo de programar uma ação da linguagem da
máquina.
Ao se desconstruir a linguagem computacional pela visão da cognição50 e seus padrões
notam-se fundamentos da linguagem com atributos importantes que já foram abordados nos
conceitos
do
Paradigma
Matemático-Informacional
(codificação,
decodificação
e
retroalimentação) da Comunicação Social assim como na informação: a troca de significado
pela abstração simbólica percebida como noção interpretativa, porém, o fato de armazenar
informação “lapidada” ou não e poder analisá-la em uma escala maior pelo desenvolvimento
tecnológico possibilita ampliar análises relacionais pela tecnologia orientada a objeto.
O Paradigma da Orientação a Objeto (VICENZI, 2004) é uma evolução da linguagem
de programação computacional que surgiu em 1950, isto é, em comparação ao modo anterior
que é denominado estruturado. Seu criador foi Alan Curtis Kay (KAY, 2013) também
50
O conceito de cognição aqui, sob o ponto de vista de Floridi, é o processo que pode interpretar a informação.
48
inventor da interface gráfica - o que pode ser visto nas telas do computador - e também do
Dynabook (o que atualmente é denominado laptop).
O paradigma pode ser aplicado a qualquer linguagem já que o que se diferencia é o
modo de proceder na programação pelo planejamento das ações e finalidades da entidade
principal: o objeto. Na linguagem estruturada a ênfase é dada ao desenvolvimento de
procedimentos implementados em blocos lógicos estruturados da linguagem e à comunicação
entre procedimentos nas transmissões de dados. Na orientação a objeto os dados e
procedimentos passam a ser parte do objeto, portanto, não só um elemento físico na realidade
é visto como objeto como uma bola, por exemplo, mas o movimento da bola é também visto
como objeto. Assim toda a realidade a ser abstraída passa pelo crivo planejável do objeto para
ser criado e assim a linguagem de programação ganha alguns potenciais que impactam e
ampliam desempenho e poder de intervenção da realidade. A classe é uma entidade que
engloba dados (atributos) e funções (métodos). O objeto é uma criação da classe (instância)
em tempo de execução, ou melhor, quando se executa o código da classe em um programa. O
objeto na classe possui um comportamento e um estado. Os relacionamentos e os objetos
passam a ser, portanto, partes que cooperam entre si sob a administração do programador por
meio de mensagens que chamam os métodos. Nos relacionamentos entre as classes há
hierarquia de coleções de objetos cada qual com sua especificidade para o todo do projeto.
Essas coleções são gerenciadas por algumas técnicas da linguagem que regem todos os
relacionamentos. São elas: encapsulamento (ação que visa dar segurança a uma classe),
herança (classes podem herdar métodos de outras classes), polimorfismo (objetos que
respondem diferentemente a uma mesma mensagem recebida) e cluster (conjuntos de classes
que cooperam entre si na implementação, resultado das funções na interface gráfica).
O cluster, em especial, terá uma atenção peculiar nesse estudo. A partir dessa visão
observa-se um maior domínio no que tange a expansão de uma classe em relação a um
projeto. No momento em que se cria e implementa uma estrutura programável ela poderá ser
usada e ampliada para outros projetos que não necessariamente no mesmo escopo do original.
Aqui se observa um ganho na linguagem propriamente dita, pois a linguagem computacional
somou, em analogia a história da linguagem, uma sintaxe que permite administrar a si própria
pela intervenção do programador (propriedade de auto-referência dos autômatos de
Neumann51). Em resumo se pode matematizar os critérios do resultado “jogo do objeto” pelos
51
Todas as células evoluem segundo a mesma regra para atualização, baseada nos valores das suas células
vizinhas. Cada vez que as regras são aplicadas , uma nova geração é produzida.
Compression-Based
49
critérios que foram utilizados para construí-lo. A escalabilidade se beneficia desse jogo de
linguagem.
Todos os feitos como a ampliação dos procedimentos dos Data Sets da rede da
internet, a decodificação do DNA, a física quântica (processamento de informação gerada nos
experimentos físicos do Colisor de Hádrons, um túnel de 27m de circunferência localizada
próximo da Suíça que centraliza a colisão de partículas e as observa em partes) , entre outras,
passam pelo impulso dado por esse paradigma porque favoreceu o melhor desempenho do
processamento e também da organização entre os códigos pela facilidade de documentar e
aplicar alterações globais (alteração que impacta todo um programa pela alteração de uma
única variável no objeto pela classe).
Nesse contexto as redes telemáticas ganharam escala e se expandiram pelo
aperfeiçoamento das interfaces gráficas, pelo aumento de processamento dos computadores e
reutilização das modularizações (estoque de abstração dos clusters que foram resgatados para
criar outras coisas). Dentro dessa visão houve a possibilidade de semantizar os objetos em
rede, pela criação do IP (endereço único de cada computador conectado na internet) e das
relações que essa conexão veio derivar. Tim Berners-Lee foi um dos precursores desse
contexto na criação das redes, a internet.
O projeto da internet, protocolos TCP/IP52, que culminou na rede dos dias atuais, se
originou a partir de um experimento durante a guerra fria pela ARPANET (Advanced
Research Projects Agency Network) nos Estados Unidos com o intento de munir de
informações aos militares em qualquer lugar (CASTELLS, 1999, p.86).
Berners-Lee é um defensor das redes pela sua semantização, ou seja, acredita que ao
dar essa roupagem para a as camadas de informação, que fazem a estrutura da internet, se
deslocará a informação de “derivativa” para a “meta”, fazendo uma analogia com a teoria de
Luciano Floridi já explanado anteriormente, na visão dos conceitos de informação. Sugere,
assim, que a internet ganhará “inteligência” porque tais relações favorecem a modelagem
analítica, constatado nas pesquisas dos cientistas cognitivistas. Um ponto importante se nota
nessa passagem, pois a “estrutura” da linguagem faz diferença pela sua semantização uma
vez que a retroalimentação dessas modelagens traz significados ainda que não repleta de
Investigation of the Dynamical Properties of Cellular Automata and Other Systems. Disponível em:
http://www.complex-systems.com/pdf/19-1-1.pdf . Acessado em: 14 de Dez de 2013.
52
TCP/IP. Disponível em http://www.columbia.edu/~rh120/other/tcpdigest_paper.txt. Acessado em: 26 de Abr.
de 2014.
50
recursividade como a linguagem humana. Pode-se ousar que as análises de modelagens
semânticas podem gerar “pré-significados” ou tendências deles.53
Com o advento das redes uma nova configuração de criar informação e da forma de se
comunicar vigorou e evoluem constantemente pelo apelo de rapidez (imediatismo) no tráfego
de informações e pela mobilidade de se fazer tais ações.
Uma vez criada a possibilidade de interação entre as pessoas e consequentemente a
sociedade local e de outros continentes o número de usuários e da produção de conteúdo na
internet cresce exponencialmente.
TABELA 1
Uso da internet e estatísticas da população.
WORLD INTERNET USAGE AND POPULATION STATISTICS
June 30, 2012
Population
( 2012 Est.)
World Regions
Internet
Users
Dec. 31, 2000
Internet Users
Latest Data
Penetration
(%
Population)
Growth
20002012
Africa
1,073,380,925
4,514,400
167,335,676
15.6 %
3,606.7 %
Asia
3,922,066,987
114,304,000
1,076,681,059
27.5 %
841.9 %
Europe
820,918,446
105,096,093
518,512,109
63.2 %
393.4 %
Middle East
223,608,203
3,284,800
90,000,455
40.2 %
2,639.9 %
North America
348,280,154
108,096,800
273,785,413
78.6 %
153.3 %
593,688,638
18,068,919
254,915,745
42.9 %
1,310.8 %
35,903,569
7,620,480
24,287,919
67.6 %
218.7 %
7,017,846,922
360,985,492
2,405,518,376
34.3 %
566.4 %
Latin America
Caribbean
/
Oceania / Australia
WORLD TOTAL
Fonte: Internet World Stats.
O crescimento do número de páginas criadas possibilita o aumento das indexações de
informação produzida sejam pelas relações entre as pessoas, empresas, órgãos do governo etc.
O que se pode observar com as indexações semânticas? Se pode observar padrões que
emergem pelas dimensões dos conteúdos estocados através das camadas de informação.
53
Grifo meu.
51
As camadas de informação do conteúdo da internet (Wireframes)54 podem ser divididas
em 4: a página que é visualizada na tela do computador (interface), a linguagem de
programação da página (estática ou dinâmica), linguagem que rege a interação dos conteúdos
com o usuários (back-end, estrutura lógica de linguagem de programação responsável pela
dinâmica do fluxo de informação que fica no local onde a página que é visualizada está, no
endereço que o usuário digita no navegador) e o banco de dados. Esse último nem sempre
pode estar acessível e é aqui onde se tem o cerne da questão na obtenção de dados
estruturados e também outro assunto que não será analisado aqui, sobre o Open Data (dados
de acesso livre55). Uma vez estocada a informação (já filtrada ou aplicado algum critério
semântico) ou os dados (variáveis de acessos como logs de sistema, hora de visita, link da
página e etc) se pode resgatar esse conteúdo e aplicar relações lógicas para análises diversas e
em tempo real.
A construção de aplicativos com a preocupação de resgate de informação e análise dos
dados para construção de informação foi potencializada pela Orientação a Objeto e assim
possibilitou aumentar a observações nas redes pela disponibilização de serviços na internet
(Web Services)56. Esses serviços são normalmente links disponibilizados para visualização das
variáveis estocadas nos banco de dados e assim há a possibilidade de baixar, salvar ou
exportar em formato de arquivo para outros bancos de dados e relacionar com outras variáveis
e assim sucessivamente. Sua visualização pode ser por JSON, XML, TXT, CSV (linguagens
de programação que tem a finalidade de espelhar de modo ordenado os conteúdos dos bancos
de dados) ou outras extensões de arquivos para a máquina ler e retornar de modo mais
amigável para visualização humana e também interpretável para a máquina (BERNERS-LEE
et.al., 2001). Aqui está o sucesso para a interação dos conteúdos, ou seja, já existe um padrão
estrutural em seu armazenamento. Porém, isso não garante que não existam outros padrões.
Esses padrões podem emergir pelo relacionamento de outras variáveis ou por abstrações de
modelagens analíticas que é uma parte importante de um desenho de um sistema de
informação e serve para evitar erros de programação.
Na internet há banco de dados relacionais privados e de livre acesso, de natureza
primária até derivativa, semântica factual sem interpretação até semânticas factuais com
54
Website wireframe. Disponível em: http://www.novaz.com.br/blog/2010/11/guia-completo-de-wireframing/ .
Acessado em: 26 de Abr. de 2014.
55
Para mais detalhes ver o artigo: Science as an open enterprise. Disponível em:
https://royalsociety.org/~/media/Royal_Society_Content/policy/projects/sape/2012-06-20-SAOE.pdf . Acessado
em: 26 de Abr. de 2014.
52
conhecimento (retomando os conceitos de Floridi). Aqui se vislumbra o que Berners-Lee
acredita quando se pode relacionar essas informações e prever alguns sentidos através dos
padrões da variáveis estocadas pela linguagem analítica.
Até que ponto a comunicação deixa de ser objeto ou objetiva um ato mediador de
significado preditivo na modelagem de dados?
A origem das modelagens analíticas nos ambientes de informação estruturada ou nãoestruturada (Data Set) fazem eco desde o advento do ENIAC, mas foi a partir do UNIX que a
popularização das máquinas deram impulso nas interações semânticas. O desenvolvimento do
processamento promoveu o avanço técnico de armazenamento das informações em padrões
programáveis na linguagem de consulta estruturada (SQL57 - Structured Query Language)
assim o modo de apresentar a informação se destaca.
O desenvolvimento da consulta de dados evoluiu para o conceito Big Data, que
significa o volume de informação que a escalabilidade permitiu alcançar. Pesquisadores da
Universidade de Southern Califórnia (HILBERT, 2011) realizaram um estudo, fundamentado
em três perspectivas (capacidade de armazenamento, transmissão de dados e processamento
da informação) e com o recorte temporal de 1986 a 2007, que mostra como a tecnologia se
configura sob o ponto de vista de administração da informação. No ano de 2007 o volume de
instruções computáveis por segundo (6.4 x 1018) no uso diário de um computador está no
mesmo patamar como o número máximo de impulsos nervosos executados pelo cérebro
humano por segundo (x1017) e o número bits armazenados em todos os aparatos tecnológicos
em 2007 (2.4 x 1021) está próximo da magnitude dos cerca de 1023 pedaços armazenados no
DNA de um ser humano adulto, mas ainda é minúscula em comparação com os 1090 bits
armazenados no universo58. Nos vinte e um anos decorridos a área que mais apresentou
crescimento foi a de telecomunicação (28%) depois a área de armazenamento de informação
(23%) e por último a de conteúdo midiático (6%). Interessante notar que a área de
armazenamento não acompanhou a área que gera conteúdo e aqui reside outro lado do
conceito Big Data. Algumas especificidades59 que participam do conceito impactam
56
Web Services Activity Statement. Disponível em: http://www.w3.org/2002/ws/Activity. Acessado em: 26 de
Abr. de 2014.
57
A History and Evaluation of System R. Disponível em: http://www.cs.berkeley.edu/~brewer/cs262/SystemRcomments.pdf . Acessado em: 26 de Abr. de 2014.
58
Além desse estudo há um infográfico mais atual da BBC sobre o panorama do volume de informação
armazenável em comparação aos objetos analógicos, digitais e orgânicos com estimativa até 2019.
Disponível em: http://www.bbc.com/future/story/20130621-byte-sized-guide-to-data-storage . Acessado em: 26
de Abr. de 2014.
59
Big Data Definition. Disponível em: http://mike2.openmethodology.org/wiki/Big_Data_Definition . Acessado
em: 26 de Jun. de 2014.
53
diretamente na questão do volume que são a complexidade de cada base de dados no quesito
estruturação e acesso, quantidade de valores que podem ser derivados de técnicas de análises
inovadoras ou não e o uso de informação longitudinal (histórica e variada sobre o tema) para
dar suporte à análise. A questão do tamanho do banco de dados nem sempre está relacionado
com a quantidade de dados propriamente dito como, por exemplo, o volume de dados gerados
pela área de telecomunicação é grande e estruturado, mas se a análise demandar relacionar
usuários que fazem uso dos serviços de telefonia e que assistem a vídeos (streaming) de
determinado assunto, apesar das bases estarem estruturadas e permitirem acesso via SQL a
dificuldade de processamento da informação será aumentada. Isso explica em partes o porquê
de a estrutura de armazenamento não ter acompanhado a área de telecomunicação na pesquisa
porque o custo para se gerar bases analíticas aumentaria e impactaria o modelo de negócio.
Com o aumento dos recursos tecnológicos dos dispositivos mais informação será gerada,
dessa forma surge o conceito de “programação paralela”60, que é uma forma diferente de
processar a informação.
As empresas61, sentindo necessidade e oportunidade de desenvolver mercado,
investiram em pesquisas de desenvolvimento de sistemas de modelagens de programação que
ampliaram o que o SQL já fazia e expandiu implementação da tecnologia para outras
linguagens não restringindo apenas para a linguagem padrão de acesso ao banco de dados
tornando mais flexível a implementação. Ao invés de ser processado somente em um
terminal, computador, se usa um cluster de computadores em um centro de dados que
fracionam os pacotes de processamento via comunicação máquina-rede-máquinas. Dessa
forma aumenta a escalabilidade e desenvolvimento de interfaces que reagrupam os dados para
gerarem informação com menor peso no processamento. É uma inovação de armazenamento e
acesso à informação e o sistema mais comum é o Apache Hadoop62.
Mas o que o Big Data traz de diferente com o desenvolvimento da tecnologia de
sistemas de modelagens? O uso das ferramentas de análise de grande massa de informação
está redescobrindo matérias-primas das empresas, os dados63, de modo que não é
simplesmente ter os dados para observá-los, mas sim como observá-los.
60
Parallel Programming in the Age of Big Data. Disponível em: http://gigaom.com/2008/11/09/mapreduceleads-the-way-for-parallel-programming/. Acesso em: 23 de Jul. de 2014.
61
What is Big Data?. Disponível em: http://www.ibm.com/big-data/us/en/ . Acesso em: 23 de Jul. de 2014.
62
Hadoop. Disponível em: http://hadoop.apache.org/ . Acesso em: 23 de Jul. de 2014.
63
Living by the Numbers: Big Data Knows What Your Future Holds. Disponível em:
http://www.spiegel.de/international/business/big-data-enables-companies-and-researchers-to-look-into-thefuture-a-899964.html . Acesso em: 23 de Jul. de 2014.
54
“Credit card companies can quickly recognize unusual usage patterns, and hence
automatically warn cardholders when large sums are suddenly being charged to
their cards in places where they have never been. Energy companies use weather
data analyses to pinpoint the ideal locations for wind turbines down to the last
meter. According to official figures, since the Swedish capital Stockholm began
using algorithms to manage traffic, drive times through the city's downtown area
have been cut in half and emissions reduced by 10 percent. Online merchants have
recently started using the analyses to optimize their selling strategies.64” (MÜLLER
et al, 2013, [s.p.])
A capacidade de atingir todo o potencial de grandes volumes de dados requer não
apenas os dados, ferramentas e infra-estrutura, mas também habilidades quantitativas para
atravessar as quantidades de dados. O cientista de dados (Data Scientist) surge como uma
necessidade e oportunidade para empreender pesquisas, mas também traz o desafio de
aperfeiçoamento e busca de conhecimento quantitativo para fazer as análises. Na época que o
termo foi criado, por Jeff Hammerbacher e D.J. Patil que na época estavam no Facebook e
LinkedIn respectivamente65 em 2008, não existiam plataformas para análise grandes
quantidades de informação e tal fato exigiu que os cientistas desenvolvessem seus próprios
algoritmos para empreenderem análises mais profundas dos dados, mas o número de
especialistas em grande volumes de dados que desenvolviam suas próprias ferramentas de
análise era pequeno. A partir do desenvolvimento das plataformas de programação paralela há
um impulso na usabilidade das ferramentas e algoritmos que se espalharam, neste caso na
internet, e permite aos analistas focarem na capacitação analítica não apenas ferramental (vale
lembrar que para interagir com uma plataforma existe a curva de aprendizagem para seu uso,
mas o exemplo aqui explicado se refere ao aumento da possibilidade de estudo liberado pelo
tempo de construção da ferramenta que atualmente a escalabilidade ampliou). Portanto, a
oportunidade de pesquisa do cientista de dados não se fecha apenas para a área da
programação, mesmo que seja um desafio, se abre para outras áreas de estudo empreenderem
esforços em analisar modelagens conectadas por data centers.
64
Tradução do autor: “Empresas de cartão de crédito podem reconhecer rapidamente os padrões de uso
incomuns e, portanto, automaticamente alertar os titulares quando grandes somas de repente estão sendo
cobradas de seus cartões em lugares onde nunca estiveram. As empresas de energia utilizam análises de dados
meteorológicos para identificar os locais ideais para turbinas eólicas até ao último metro. Segundo dados oficiais,
uma vez que a capital sueca Estocolmo começou a usar algoritmos para gerenciar tráfego, as movimentações
através da área central da cidade foram cortadas ao meio e reduziu as emissões em 10 por cento. Comerciantes
online recentemente começaram a usar as análises para otimizar suas estratégias de venda.”
65
Going Beyond Data Science Toward an Analytics Ecosystem. Disponível em:
http://ibmdatamag.com/2014/03/going-beyond-data-science-toward-an-analytics-ecosystem-part-1/ . Acesso
em: 23 de Jul. de 2014.
55
Conectada por data centers, local físico onde as codificações e decodificações dos
Wireframes e Data Sets espalhados pelo planeta, a rede telemática ganha escopo científico
quando dá a possibilidade de auferir metodologias de análise das segmentações advindas das
camadas e interfaces interativas de uma base ou de sua relação com outras. No artigo
Creating a Science of the Web (2007) Berners-Lee advoga que a internet é regida pela
linguagem e os protocolos da web espelham “contratos sociais”. Uma vez aumentando a
infraestrutura para semantizar a web, isto é, pela retroalimentação de informações dos
usuários e das máquinas, maior a observação das riquezas do Big Data que se consolida na
disponibilização das informações.
O advento das linguagens que reproduzem organizações semânticas marcadas em
blocos de significados possibilita que as pessoas estruturem, por esses blocos, informações
documentadas que não necessariamente o significado dessa organização, mas dota a
“natureza” da informação, sua intenção. Essa dimensão de representação possibilita a
máquina “envolver” a semântica contida na organização pelas suas propriedades. Sujeito,
verbo e objeto podem ser indexados e relacionados a outros contextos. Usando um indexador
para cada conceito se pode diferenciar uma palavra de um discurso ou um discurso de uma
variável (nome de uma cidade e de uma pessoa, por exemplo). Esse escalonamento de
variáveis indexadas tem de ser indexado pela cognição humana, mas uma vez
“conceitualizada” permite inferir relações quem ampliam a interpretação da interação pela
máquina em um segundo momento. Aqui vale resgatar os estudos cognitivos sobre os DMP´s
e o fMRI onde o processo de indexação é similar ao da Web Semântica, aliás, se baseiam
nessa perspectiva que se denomina OWL conforme já explanado anteriormente.
Para a máquina descobrir a diferença entre um código postal, por exemplo, de outro
número há a necessidade de cria as bibliotecas de coleção de informações, ou seja, ontologias
de informações que classificam informações. A área de Inteligência Artificial66 reutilizou o
conceito de ontologia da filosofia e dotou seu significado como a relação das coisas. As
taxonomias “derivativas” desse processo não dotam a máquina compreender para tomar uma
decisão de resultado humano, mas transforma uma massa de informações mais interpretável
aos humanos promovendo a desambiguação. A força da Web Semântica reside quando várias
pessoas criarem coleções do conteúdo da Web de diversas fontes por aplicativos
transformando-os em agentes exponenciais de transferência de informações sem
66
A software engineering approach to ontology building. Disponível em:
http://wwwusers.di.uniroma1.it/~navigli/pubs/De_Nicola_Missikoff_Navigli_2009.pdf . Acessado em: 12 de
Mar. De 2014.
56
necessariamente exigir as pessoas de trabalharem juntas, mas agentes de sinergias semânticas
indexadas pelo critério padrão das ontologias. O lado promissor é que uma vez a Web
Semântica se tornando indexada e colaborativa um conceito gerado por um pequeno grupo de
estudos pode ganhar escopo maior (wiki) assim promovendo a inovação no ponto de vista na
agilidade de suas relações. Evidente que tal fato não exime ou diminui a necessidade de
produzir um escopo metodológico no qual outros estudiosos ou cientistas de dados possam
seguir por experimentos e sim na documentação do processo. Esse espelho produtivo se torna
mais necessário uma vez que é por essa via que reside a seriedade do estudo na sua relação
comprobatória. Aqui reside também o avanço que o Data Scientist pode contribuir para os
estudos da Comunicação Social não apenas na potencialização da recursividade que está
embutida na linguagem e também em suas semânticas no jogo de linguagem que se
congregam na ação de comunicar. A Web Science preconizada por Berners-Lee sugere a
interdisciplinaridade das ciências da computação e das ciências humanas entre outras. O tema
pode ser conceitualizado por co-constitutivo, relacionamentos heterogêneos, performativo e
movimentações imutáveis. Assim se argumenta no artigo A Manifesto for Web Science
(HALFORD et.al; 2010) que as relações desses conceitos resultam metodologias plausíveis
entre perspectivas quantitativas e qualitativas. Em paralelo ao discurso refletido nesse
empreendimento monográfico, na contextualização teórica e prática, os pesquisadores da
universidade de Southampton descrevem que a co-constituição é um conceito que pertence a
uma transformação mútua da sociedade. Originado da observação da crítica do determinismo
tecnológico, mas focado na evolução que a tecnologia imprime na sociedade o conceito vai de
encontro aos estudos explanados pelo antropólogo Fischer no que tange a Sociologia do
Conhecimento Científico (SSK na sigla inglesa), Estudos da Ciência e Tecnologia (STS) e
Construção Social da Tecnologia (SCOT). Como a tecnologia impacta a sociedade dá abertura
para o conceito de relacionamentos heterogêneos que constitui o princípio da simetria entre
humanos e máquinas uma vez que essa relação gerada nas redes telemáticas produzem
particularidades no âmbito da informação. Assim, dessa particularidade nasce a ação
performativa desse relacionamento entre humanos e máquinas por meio colaborativo ou não,
mas interativos no prisma da informação na web como um verbo que dá sentido ao seu
predicado e possibilita novos sentidos nos jogos de linguagem. As movimentações imutáveis
demonstram esses jogos de sentidos não no sentido inflexível de seus movimentos, mas da
origem das repetições das práticas que produzem as relações. As coisas mudam no decorrer
das interações, mas a origem é a mesma, ou seja, pelos relacionamentos heterogêneos
conectados que pautam as redes telemáticas. Portanto, a metodologia nasce da oportunidade
57
de aplicação do conjunto de ferramentas dispostas pelas escalabilidades descritas
anteriormente. O conjunto em si não é uma metodologia, mas sim sua aplicação no intento de
capturar diferentes aspectos de um data set, por exemplo, ou de sua relação abrindo novos
diálogos pela inferência semântica dentro de um recorte específico.
Ainda os pesquisadores de Southampton (HALFORD et.al; 2010) sugerem que o
manifesto da ciência da web deve ser uma genuína intersecção de disciplinas e não uma
sociologia ou uma ciência da computação da web, não se pode negligenciar o olhar de que o
homem impacta a web e a web impacta o homem, deve abordar todos os atores da ação
performativa individualmente, em grupo e suas tecnologias, não deve se prender a
metodologias e epistemologias que não promovam a observação do micro e macro fenômeno
das relações e finalmente não deve perder sua criticidade, isto é, deve ser em prol dos
humanos e não ao contrário.
Portanto, níveis de “granulações” dos conteúdos são possibilitados no trato da
informação e suas propriedades e variáveis que são ontologicamente indexadas e
interpretáveis pelas ferramentas técnicas que somam esforços na intersecção da Web Science
como disciplina.
58
4.2.
“Métodos” para a Ciência da Comunicação Social
Conforme pode ser observado nos argumentos de Fischer, onde descreve
historicamente a interversão da tecnologia nas áreas científicas, as técnicas de análise da Web
Science são pertinentes para pesquisa, mas são também para a Comunicação Social. Dessa
forma os pesquisadores da Universidade de Washington e da SUNY Instituto de tecnologia
(SCHNEIDER; FOOT; 2005) fundamentam a possibilidade de estudar a Web de modo
multidimensional aplicando o conceito de Web Sphere Analysis que é um esforço integrado do
uso de um conjunto de classes programáveis, algoritmos, que colaboram para realizar uma
pesquisa em um sistema de informação (Framework)67. Ao se desenhar os processos de
análise nos modelos de informação observáveis pelos Data Sets os objetos de pesquisa
representam uma coleção de fragmentos a serem minerados nas dimensões de Antecipação
das Emergências, Predição de Variáveis e Nível de Estabilidade. Essas dimensões, que
participam dentro do mesmo princípio (Framework) empreendido pelos pesquisadores da
Web Science (co-constitutivo, relacionamentos heterogêneos, performativo e movimentações
imutáveis) permitem criar formas de estudos pelas estratégias de coleções de informações
estabelecidas. Essas estratégias podem ser Discursivas ou Retóricas que se preocupam em
analisar mais o conteúdo da Web do que a estrutura dos seus elementos. Já a análise das
estruturas foca a estrutura da Web, isto é, das páginas da internet ou retorno de pesquisas de
coleções Data Sets propriamente ditas assim possibilitando ver as relações entre os conteúdos
no ambiente da Web em links, produções colaborativas, textos. Esse método depende
diretamente do processo de coleção de informação no que concerne a seleção, arquivamento,
lógicas computáveis, tempo de processamento, mudança de origem da fonte arquivada e
também da ética pelo respeito à política de acesso de um Data Set.
Os estudos de casos selecionados para reflexão estão nesses contextos de sistema
de informação e pelos conceitos analisados e constatados os casos serão contrapostos no
quesito discursivo e estrutural. Assim se busca observar qual ganho a Comunicação Social
tem no modo de visualizar seus objetos de estudo no ambiente das redes telemáticas pela
perspectiva da Web Science, do empreendimento da coleção de ferramentas pelo Data
Scientist e da Web Sphere Analysis.
A internet como Meio e sua estrutura constituída de dados e informações é
preenchida de linguagem que recursivamente semantizada possibilita análise. Interativamente
67
Framework. Disponível em: http://www.dsc.ufcg.edu.br/~jacques/cursos/map/html/frame/oque.htm
Acessado em: 11 de Mar. De 2014.
59
por homens e máquinas a escalabilidade desenvolvida pela tecnologia dotam a estrutura das
redes telemáticas com interfaces representáveis nos jogos de linguagens de codificação,
conversão, interação, modelagem de informação e o imediatismo que de certa forma está em
paralelo aos estudos dos pesquisadores da Universidade de Washington e pesquisadores da
Web Science. Como o autômato de Neumann favorece a Comunicação Social dentro das
figurações da tecnologia da Web Science? Seguindo a ideia de que não se pode pensar no fato
sem antes na sentença que figura o sentido será posicionado, no estudo dos casos
selecionados, é notado como a tecnologia condensa esse encontro na modelagem da
informação e como a retroalimentação do conhecimento das origens desse ato embasam
cognitivamente a luta do desenvolvimento humano representado nesse estudo como recorte
científico do tema estudado.
60
5. ESTUDOS DE CASO
5.1.
Yahoo Pipes: agregador Big Data.
O Yahoo é uma das empresas precursoras dos serviços da Web dentro do contexto do
crescimento das redes telemáticas e suas escalabilidades explanadas anteriormente. Entre as
ferramentas (gadgets) que disponibiliza como serviço está o Pipes (PIPES: REWIRE THE
WEB; 2014).
O Pipes foi lançado em 2007 e criado por Pasha Sadri, Ed Ho, Jonathan Trevor, Kevin
Cheng and Daniel Raffelas. A ferramenta de pesquisa Pipes é uma aplicação estrutural de
acesso gratuito com coleções algorítmicas de código aberto que propõe aos usuários
cadastrados uma interface gráfica para construir agregadores de informações de notícias
(RSS, Rich Site Sumary68), páginas da Web e outros serviços que são canalizados na
aplicação para acesso e visualização instantânea e posterior.
É construído em cima da plataforma Unix e é uma extensão de um conceito
computacional o pipeline que é um conjunto de processos padronizados em sequências
lógicas que dependem de entradas (stdin) que alimentam a base do que pode ser visualizado
(stdout) na interface. Controlados a partir de um propósito programável os serviços do Pipes
são implementações em redes que categorizam as fontes de informação de várias naturezas
(textos de usuários, operadores lógicos booleanos, links, URL, string, localização, números e
etc) e organizam informações estruturadas ou não via sintaxes próprias denominadas Pipes
Modules References. Não é necessário saber programação para iniciar os primeiros Pipes para
pesquisa, apesar de ser recomendável caso seja necessário empreender pesquisas mais densas
com uso de tratamento de informação por aplicação de expressões regulares69. Toda a
biblioteca de módulos para uso está disponível de modo organizado e permite aplicação de
forma intuitiva uma vez que o manuseio dos módulos são flexíveis para utilização. A interface
do Pipes é construída em Java, uma linguagem de programação que permite criar interfaces
mais intuitivas paras visualização humana, isto é, por detrás de toda a complexidade de se
aplicar um agregador de informação a sua visualização é iconográfica, pois permite clicar e
68
The Evolution of RSS. Disponível em:
http://www.webreference.com/authoring/languages/xml/rss/1/index.html. Acesso em: 15 de Dez. de 2013.
69
Expressão regular é uma linguagem de programação poderosa que permite indexar, repartir e recriar um fluxo
de informação via diretivas específicas. Para mais informações ver:
https://docs.python.org/dev/howto/regex.html
61
arrastar os ícones pertinentes a cada necessidade de pesquisa e desfazer a aplicação do mesmo
modo. Para isso é necessário estudar as bibliotecas modulares e usar a interface para, em
tempo real, fazer as pesquisas.
Uma vez cadastrado no serviço o usuário pode além de criar seu Pipe reutilizar uma
estrutura criada por outros usuários permitindo a ampliação de compartilhamento de
pesquisas.
O serviço Pipes está categorizado no que se chama no ambiente computacional de
70
API
(Interfaces de Aplicação de Programação) e são canais por onde se conectam e se
disponibilizam informação. Com o desenvolvimento e evolução dos processos dessas
aplicações os sites que oferecem canais de serviços (Web Services)44 podem ser canalizados
para esse meio e visualizados pelos filtros modulares da plataforma Pipes.
A seguir na figura 3 pode-se visualizar a interface do Pipes e suas estruturas no que
concerne o conjunto de módulos algorítmicos em ação.
Nesse exemplo um conjunto de estruturas foi agregado com o objetivo de canalizar
fontes71 de informações disponibilizadas na web.
Caso haja o interesse de alterar a forma de filtragem, a visualização ou salvar o
modelo vigente a interface possibilita tal edição para posteriores buscas e até mesmo,
mediante o ajuste da política de acesso do módulo agregado, permitir que outras pessoas
acessem e façam um clone, uma cópia da estrutura criada e ampliar suas formas de agregar
notícia e personaliza-la na biblioteca na rede Pipes.
70
QuickStudy: Application Programming Interface (API). Disponível em
http://www.computerworld.com/s/article/43487/Application_Programming_Interface . Acesso em: 15 de Dez. de
2013.
71
As fontes de informações (data sets) são originadas do Google News, Yahoo News, CNN Feed, BBC Feed,
NDTV Feed.
62
FIGURA 3
Interface da plataforma Pipes e suas estruturas modulares
Fonte: https://pipes.yahoo.com/pipes/
Interessante notar que não apenas a estrutura pode ser alterada e reeditada, mas
também a forma de compartilhar, seu formato e ainda o que pesquisar outro modo de
visualização ao da fonte estrutural da figura 4. Adiante na figura 5 é possível observar como
ficará o resultado da modularização construída, a entrada de informação para pesquisa, o
endereço do Pipe em questão, links de edição e também qual formato de publicação da nova
fonte de informação agregada pode ser compartilhada. Nesse exemplo pode-se publicar como
ferramenta do Yahoo! e também como RSS e JSON (linguagem de programação que organiza
a informação em tuplas, isto é, nichos de informação que facilita leitura em outros sistemas)
além de poder visualizar o resultado da atual busca.
63
FIGURA 4
Interface da plataforma Pipes no modo de visualização dos resultados
Fonte: https://pipes.yahoo.com/pipes/
Essa ferramenta favorece a Comunicação Social em organizar grande volume de
informação na web, arquivar em outras bases de dados para futuras pesquisas e ainda deixar
de fácil acesso ao caminho utilizado, os métodos para se empreenderem pesquisas assim
como sua análise crítica no processo de desenvolvimento científico. Não se finda aqui, mas
amplia a possibilidade de estudos semânticos como as relações das palavras nos conteúdos, na
incidência de um tema estudado, relações temporais que tal base foi arquivada, enfoque dado
pelas fontes agregadas e na velocidade de acesso que tal ação permite.
As codificações desse jogo de linguagem possibilitam ao comunicador intervir como
cientista de banco de dados e suas semânticas no âmbito qualitativo e quantitativo. A
conversão em tempo real favorece a interação do homem e da máquina pela modelagem de
informação. Isso retroalimenta a forma de visualizar a informação e como interpretá-la em um
grande volume de conteúdo. Ainda não vence a cognição humana, mas a ajuda na busca do
64
desenvolvimento e do conhecimento científico de analisar outras abordagens de pesquisa no
que favorece a crítica do material produzido e também na organização do mesmo perante o
crescimento das publicações que constituem o meio da internet no ambiente contemporâneo.
Indexadas as variáveis de estudo e arquivadas em novas fontes de acesso há a
possibilidade de aprofundar o estudo de padrões de relacionamentos entre as variáveis e
outros meios. O próximo estudo de caso é um exemplo de que o padrão criado possibilita
correlacionar variáveis dentro de um tema, subtema, grandes áreas e áreas que em um
primeiro momento não apresentam relação gerando informação em conhecimento.
Os módulos Pipes são uma instigante forma de trabalhar e filtrar as informações uma
vez que há a possibilidade de canalizar ilimitados canais de informação de jornais científicos,
revistas, redes sociais e filtrar informação pautada em critérios de busca estruturada para
armazenamento ou análise em tempo real.
65
5.2.
Wikipedia Miner: mineração de conhecimento.
A Wikipedia foi criada por Jimmy Wales72 e é uma enciclopédia digital multilíngue de
acesso aberto e sobre a política de licenças que permitem a cópia e compartilhamento
(Creative Commons license). É um ambiente colaborativo onde os usuários escrevem, sem
intento remunerativo, artigos referentes a qualquer tema cultural. Possui mais de 76.000
voluntários ativos administrando aproximadamente 31.000.000 de artigos em 285 línguas73.
Apesar de sofrer algumas críticas que concernem ao relativo “amadorismo” dos voluntários
que podem não ser especialistas dos assuntos em questão o site se resguarda que apesar de
tal possibilidade os critérios adotados pela política de uso diminuem a possibilidade
“vandalismos”, uma vez que apenas o administrador (previamente registrado via cadastro do
site) de um tema iniciado pode ter poder de alterar a página.
Por outro lado, a Wikipedia possui o espelho da cultura social porque indexa como um
layout o conhecimento humano. O conjunto de algoritmos que revisa as alterações no site da
Wikipedia busca garantir a assiduidade administrativa da identidade da informação, mas a
presença humana é imprescindível na classificação e indexação dos conceitos que são
armazenados nas bases de dados como índices de busca. Toda a base do site é baseada em
cabeçalhos de informação que organizam a informação de modo estruturado favorecendo a
identificação do conteúdo de modo acessível e possibilitando cruzamento de informações. O
conjunto de páginas do site, interligado textualmente, formam uma rede de relações
semânticas do processamento da linguagem natural humana. Tecnicamente a estrutura da
Wikipedia é baseada é XML e HTML. O XML (eXtensible Markup Language) é uma
linguagem de programação que formata uma determinada informação em marcações que
permite outra máquina e linguagem de programação ler e interpretar e reconstruir ou
decodificar a origem da informação e reproduzi-la. O HTML (HyperText Markup Language)
é uma linguagem de programação que dá estrutura visual para as páginas do site para o
navegador (Firefox, Internet Explorer, Chrome e etc) ler e apresentar como interface de
modo mais ergonômico para os humanos. Uma vez estruturada a informação via os
voluntários, salva nas bases do Wikipedia e retornado para acesso se fecha um ciclo de
interação que permite um jogo de linguagem de codificação e decodificação.
São dentro dessas marcações que reside a riqueza de análise das informações. Os silos
que o XML representa a informação flexibilizam a intervenção de análise via software.
72
73
Para mais informações ver http://en.wikipedia.org/wiki/Wikipedia:About
Até a data da pesquisa da dissertação.
66
Lendo as informações estocadas nos silos há a possibilidade de guardar em outra base,
recriar uma outra leitura e assim sucessivamente fazer algo parecido, se não muito próximo,
do processo que o yahoo! Pipes em trabalhar a informação conforme apresentado
anteriormente.
O volume de informação que está indexado na Wikipedia em forma de conhecimento é
considerável tendo em vista que quanto mais informação de uma mesma terminologia mais
rico é o discernimento do conceito que tal terminologia participa, as ontologias de seu
significado. Aqui reside o conceito de desambiguação. A desambiguação é uma forma
condensada de que a tecnologia da linguagem, promovida pela manipulação dos modelos de
informação e dos algoritmos, favorece análise em um data set volumoso em informação. O
crescimento das bases do site aliado ao poder recursivo humano e do seu espelho no
fragmento da linguagem de programação abrem espaço para a mineração de informação
aberta para o cientista da web e favorece áreas que pretendem estudar o assunto. A
comunicação pode se beneficiar em tal ferramenta uma vez que pode direcionar esforços
quantitativos e qualitativos no cruzamento de informação.
Tal ação foi empreendida pelos pesquisadores do departamento de ciência da
computação da Universidade de Waikato, Nova Zelândia (MILNE and WITTEN; 2013).
Utilizando o software de código aberto Wikipedia Miner74 analisaram a estrutura da
Wikipedia sumarizando tópicos, artigos, categorias, conceitos, rótulos e redirecionamentos
de links representados como classes de programação. As classes ampliam a interação do
conteúdo possibilitando novas buscas no cruzamento de informação e sua visualização. O
processamento da base da Wikipedia como serviço de acesso (Web service) promovem a
aplicação de algoritmos de aprendizagem de máquina (ação que permite o computador
aperfeiçoar seu desempenho em alguma tarefa pela extração de regras e padrões de grandes
conjuntos de dados). Os “motores de busca” dos sites da internet fazem o mesmo processo
de aprendizagem quando varrem as páginas sobre determinadas regras que quantificam o
conteúdo das páginas e retornam sobre uma entrada previamente estabelecida no campo de
busca (imputs).
O software é um organizador das indexações do site Wikipedia. Primeiro o software
extrai a série de dados do site como data set75. Depois armazena em um banco de dados e
74
Códigos, data e demonstrações on-line do software podem ser visualizados em http://wikipediaminer.sourceforge.net.
75
O banco de dados pode ser acessado para download. Disponível em
http://en.wikipedia.org/wiki/Wikipedia:Database_download
67
por um critério de leitura das estruturas das páginas da Wikipedia aplica técnica de
aprendizagem de máquina por algoritmos que detectam as variáveis e as reorganizam para
análises.
FIGURA 5
Diagrama de arquitetura do Wikipedia Miner
Fonte: An open-source toolkit for mining Wikipedia
A seguir se resume como o software, pelos critérios estruturados nos algoritmos,
processam a informação para análise:
FIGURA 6
Aprendizagem de máquina sobre camadas de informação do Wikipedia
Fonte: An open-source toolkit for mining Wikipedia
68
A ação da aprendizagem em resumo é um processamento de máquina que calcula a
correlação (distância euclidiana76) entre os tópicos e seus subitens. Além dessa aproximação
lógica há a consideração da desambiguação em um segundo momento onde mede o senso de
relacionamento no contexto dos tópicos já correlacionados. Essa estrutura nos fornece um
espelho da cultura do conhecimento (corpus), mas de modo estruturado em linguagem de
máquina. Vale lembrar, em concordância com a filosofia de Wittgenstein na figuração que
participa da representação da linguagem na tecnologia (análise de clusters nos ferramentais
promovidos pela escalabilidade), que a desambiguação em um primeiro momento busca
diminuir não apenas o ruído de significados no conjunto de informação, mas os valores e
pesos nas/pelas camadas que perfazem a estrutura da web e seus conteúdos. Não sana,
portanto, a questão “total” da desambiguação em que mineração de um corpus linguístico
possa se esgotar em significado e novas dimensões perceptivas de análise. O fluxo contínuo
da interação das pessoas com a nuvem de informação da Web está em frequente movimento e
desta forma permite o data scientist participar das alterações, isto é, quando há acesso ao data
set ou conteúdo estruturado de informação. O jogo de linguagem é instanciado neste ambiente
e não quer dizer que a desambiguação é um termo ou ato que possa ser um risco para a
análise, mas sim um exercício da linguagem por ela mesma, ou seja, quando se cria ou
atualiza uma camada de informação ela permite, pela propriedade tecnológica de isolar um
recorte analítico em segmentos renderizados (processo de máquina em transformar
processamento em algo visualizável), a criticar a si mesma. Portanto a desambiguação não se
finda em si mesma, se abre para outras análises que inclusive podem dar criticidade e evoluir
a análise.
A modelagem da informação obedece ao pacote de abstração das classes que permite
observar as relações entre as áreas do conhecimento em novas categorizações das informações
em clusters, ou seja, em nuvens de afinidades de conceituais aproximadas.
A seguir na figura 7 uma sugestão de como a classificação do software pode ser utilizada na
leitura das mensurações e visualização do retorno das informações estruturadas:
76
Instance-based learning IN Data Mining. Disponível em:
http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS
UyMG1hbnVhbC5wZGY, p.128-135. Acessado em: 05 de Nov. de 2013.
69
FIGURA 7
Aproximações de informação estruturada da busca relacional entre as palavras
Fonte: An open-source toolkit for mining Wikipedia
No exemplo anterior pode-se notar que as variáveis em questão, nesse caso cachorro e
gato pertencem a algumas similaridades (diagrama de linha contínua) e especificidades
(diagrama de linhas pontilhadas). Dessa forma há a possibilidade de relacionar temas e
conceitos que aparentemente não possuem relação, mas que compartilham de um grupo,
ontologias e significados. É uma ferramenta instigante para análises científicas do contexto de
pesquisas e relações temáticas entre culturas e línguas.
A acurácia é o resultado das validações cruzadas por aplicação dos algoritmos na
relação quantitativa das modelagens estabelecidas gerando visões qualitativas de análise nos
padrões de informação que estão contidos nos contextos das temáticas.
O ganho da aplicação dessa ferramenta é a detecção dos tópicos de um determinado
texto e ampliar significações pela base da enciclopédia em links para busca dos termos em
questão.
A seguir na figura 8 pode-se observar como a indexação da informação estruturada
pode ampliar interatividade na busca de conhecimento:
70
FIGURA 8
Como a estrutura de tópicos da Wikipedia pode ampliar busca por links conceituais
Fonte: An open-source toolkit for mining Wikipedia
A estruturação da informação da Wikipedia em tópicos ajudou também na
implementação de pesquisas em outras áreas como será observado nos experimentos do
campo da neurociência. Pesquisadores do departamento de psicologia de da Universidade de
Princeton (PEREIRA et al, 2013) utilizaram as bases semânticas dos artigos para reconstruir
estímulos visuais dos padrões do cérebro dessas produções semânticas com uso de
ressonância magnética. De modo similar aos estudos já explanados anteriormente, nas
pesquisas cognitivas, a ressonância magnética capta os reflexos das atividades cerebrais sobre
determinados conceitos, mas contrapostos com as representações semânticas contidas nos
tópicos a estrutura da linguagem é a própria análise, ou seja, a recursividade pode ser
“fotografada” na mente pela interação do corpus semântico. Aqui se observa um avanço
importante porque que a estrutura recursiva é passível de observação na sua concepção
natural. A hipótese que norteia o estudo é que a escolha de 25 verbos77 é um pivô das
características de um conceito e sua ocorrência com as derivações nominais e substantivas em
texto dão significados de muitas fontes mentais que os seres humanos associam e que
“humanizam” o discurso. Os pesquisadores mostram que as análises do corpus mais as
ressonâncias correspondem em certos níveis a representação cerebral de um tema e que
77
Os verbos (na língua nativa do experimento) são: see, hear, listen, taste, smell, eat, touch, rub, lift, manipulate,
run, push, fill, move, ride, say, fear, open, approach, near, enter, drive, wear, break and clean.
71
podem desenhar a concretude de um conceito que ativam outros conceitos assim
correlacionados. As análises LSA (Latent Semantics Analysis, que é um estudo de 500 artigos
da Wikipedia) e a LDA (Latent Dirichlet Allocation, modelo probabilístico de quais palavras
aparecem suas frequências, contextos e etc.) (PEREIRA et al, 2013) embasam padrões de
informação que podem predizer palavras e conceitos nas nuvens de significado que
circunscrevem a amostra. O intuito da pesquisa é isolar como a representação mental dos
conceitos está presente no cérebro medida pela ressonância magnética. Para isso se deve
aceitar que a representação mental é composta de traços semânticos e que a decomposição do
“padrão de ativação cerebral” ao se pensar sobre o conceito geram padrões chave de traços
semânticos via estímulo. Tal instância reflexiva permite visualizar a estrutura do mundo real
via “recursividade da máquina” nada mais do que coleções de estímulos humanos
correlacionados. As correspondências dessa complexidade sistêmica validam estatisticamente
conceitos que são preditivos em termos de tópicos.
A figura 9 resume o empreendimento do estudo. No item A - o corpus da Wikipedia é
transformado de modo que cada artigo está associado com um vetor de probabilidade de
tópicos e cada tópico com uma probabilidade de distribuição de palavras. No item B - os 4
estágios em que as probabilidades de tópicos são usados: (1) imagens base de aprendizagem,
(2) prevendo probabilidades de tópico para imagens de teste, 3) usá-las para fazer a
classificação e (4) comparar suas semelhanças com probabilidades de tópicos previstos para
imagens de teste de outros conceitos. Esta é uma iteração um loop (teste) de validação
cruzada78, com imagens de exemplo para "martelo" como o conjunto de teste.
78
Validação Cruzada. Disponível em: http://msdn.microsoft.com/pt-br/library/bb895174.aspx. Acessado em:
12 de Jul. De 2014.
72
FIGURA 9
Processo de predição conceitual por probabilidade – Wikipedia Miner
Fonte: An open-source toolkit for mining Wikipedia
Observa-se considerável complexidade técnica de procedimentos envolvida nos estudos e
espelha a realidade interdisciplinar e transdisciplinar do trato da informação e a exigência e
abrangência que o cientista da internet tem como desafio absorver. Evidente que cada área
possui sua especificidade de delimitação exigida pelo objeto de estudo e seu contexto, mas em
todos os casos a modelagem de informação, tratamento de validações estatísticas e os aparatos
tecnológicos são utilizados para potencializar os estudos em questão.
A ciência da web favorece caminhos para organizar, empreender e documentar esses
níveis de informação e experimentos porque inclusive a Comunicação Social pode se
beneficiar dessas ferramentas até agora estudadas em canalizar grande volume de informação
(Pipes) e indexar em tópicos para indexar e ampliar análise de conteúdo (Wikipedia Miner).
Entretanto, como empreender estudos em Comunicação Social utilizando essas ferramentas e
das abstrações inerentes da área fomentar e consolidar temáticas de seus objetos de estudo? O
73
próximo estudo de caso, por ser incipiente na utilização de análise Big Data e já apresenta
evoluções, ajudará a contextualizar essa abordagem em especial o software utilizado, o Rapid
Miner.
5.3.
EDM: mineração de dados educacionais
A mineração de dados educacionais (EDM na sigla inglesa) “é uma área recente de
pesquisa que tem como objetivo desenvolver um conjunto de métodos para explorar um
conjunto de dados coletados em ambientes educacionais” (BAKER et al, 2011). Com foco na
melhoria contínua no ensino os esforços dos pesquisadores incidem em aplicar métodos sobre
a análise da modalidade de ensino EAD (educação a distância). No intuito de verificar a
relação entre uma abordagem pedagógica e o aprendizado do aluno a mineração de dados
desses alunos é pertinente para desenvolver métodos de ensino mais eficazes. Muitos dos
métodos utilizados em EDM são originados da área de mineração de dados79, entretanto,
alguns precisam ser modificados na escolha das modelagens pelo fato da necessidade de
considerar a hierarquia da informação porque no ambiente educacional possui uma
especificidade de aplicação estatística como, por exemplo, o conjunto de algoritmos Weka80
não oferece apoio para validação cruzada (uma técnica de teste estatístico) entre dados a
usado para analisar o aluno ou a classe. Tal validação, para os empreendimentos de pesquisa
de acordo com os estudiosos da EDM, é importante para ampliar a acurácia de uma
modelagem de informação a partir de uma base de dados e ver a estimativa de como o modelo
irá se comportar ao analisar os dados.
O software utilizado para análise de dados é o RapidMiner81 que apresenta um
conjunto amplo de algoritmos estatísticos (inclusive validação cruzada) de fácil aplicação e
com uma documentação acessível para quem está começando na área de mineração de dados.
Em resumo as ferramentas analíticas que são empreendidas na EDM são: Predição
(classificação, regressão, estimação), Agrupamento (cluster), Mineração de Relações (regras
de associação, correlações, padrões sequenciais), Destilação de Dados e Modelagem de
Informação.
79
Data Mining. Disponível em:
http://www.bitlib.net/view.php?doc=aHR0cDovL2NtcHQ4NDMuZ29vZ2xlY29kZS5jb20vZmlsZXMvd2VrYS
UyMG1hbnVhbC5wZGY=. Acessado em: 05 de Nov. de 2013
80
Para mais informações das bibliotecas estatísticas ver: http://www.cs.waikato.ac.nz/ml/weka/
81
RapidMiner. Disponível em: http://rapidminer.com/ . Acessado em: 22 de Mai. De 2014.
74
A predição é um modo de modelar aspectos específicos de dados já armazenados,
nesse caso interação dos alunos nos seus estudos via interface EAD, no intento de
circunscrever as variáveis em questão no estudo e ver aquelas que não foram consideradas a
priori e que influenciam na análise. No agrupamento há a preocupação de observar dados que
se aproximam de forma natural, categorias e que não foram considerados inicialmente como
grupos de alunos, escolas e etc. A mineração de relações mira a relação propriamente dita de
modo que uma variável pode influenciar mais outras na análise e que pode incidir no fator de
agrupamento. As regras de associação se preocupam com a condição de uma variável ou
variáveis no quesito que o aluno, por exemplo, pode ter um determinado comportamento de
estudo “se” contempla uma determinada regra já relacionada ou agrupada. As correlações
observam como uma variável pode acompanhar outra variável no seu grau de dependência
(positiva ou negativa). A mineração de sequencias visa o fator temporal dos eventos, suas
trajetórias nas relações das variáveis. Por fim, a destilação de dados tem o objetivo de tornar
as análises dos dados de forma mais intuitiva ao olhar humano purificando os dados para as
pessoas identificarem padrões de análise.
Evidente que o conjunto apresentado possui um grau de complexidade peculiar no que
concerne curva de aprendizagem e aplicação uma vez que integra o uso da área estatística e de
tratamento das informações de modo simultâneo ao estudo do objeto. A breve explanação
aqui descrita tem o intuito de introduzir como a EDM aplica em seus estudos as análises
oriundas no RapidMiner.
A aplicação e tratamento de dados no conjunto de ferramentas analíticas ajudaram a
EDM categorizar e prognosticar as ações dos estudantes no intuito de melhorar as
metodologias de ensino a distância. O uso desse procedimento de análise é possível através do
aumento constante de repositórios e logs (dados de uso e interação do aluno com a plataforma
de ensino e salvos automaticamente no sistema) como Data Sets porque possibilitam resgatar
análise posterior e também pelo volume de dados para fomentar cruzamentos de dados e
inferir novos processos de análise para o conhecimento científico que, além disso, integra o
estado emocional e comportamental do aluno, nesse caso, no processo de aprendizagem.
A dificuldade inicial da aplicação da EDM foi encontrar um modelo estável de análise
que alavanque os indicadores de impacto sobre a interação dos alunos nas interfaces de EAD
e dos critérios pré-estabelecidos para posterior constatação ou contestação. De todas as
ferramentas analíticas já explanadas as mais utilizadas na EDM são regressão linear82, árvores
82
Principal Components Regression with Data-Chosen Components and Related Methods. Disponível em:
http://www.math.cornell.edu/~hwang/pcr.pdf . Acessado em: 05 de Nov. de 2013.
75
de decisão83 e classificação84. A regressão pode apresentar maior viés analítico, porém, a
validação cruzada85 busca atenuar tal fato.
Um exemplo de avanço na área com aplicação de modelagens pode ser visto no estudo
realizado por Arnon Hershkovitz e equipe de desenvolvimento humano da Universidade de
Columbia (2013) sobre a falta de atenção do aluno (carelessness) em dar respostas incorretas
devido à impulsividade ou esforço insuficiente. Essa chave conceitual é conhecida como um
problema na área da educação desde a década de 20. Já outra chave, é uma externalização
intencional de ações inadequadas denominadas como “trapaças” do aluno ao interagir com
softwares educacionais (em inglês, esse comportamento inadequado é conhecido como
“gaming the system”), por exemplo, uma solicitação repetida de sugestões até que o software
apresente a resposta. Com o uso do algoritmo de aprendizagem de máquina foi aplicado uma
ponderação para descobrir valores discrepantes através de previsões do modelo além de
observar as relações entre a construção analisada como causais, dependentes e etc. O modelo
foi aplicado no Data Set que contém dados de uso dos alunos em determinadas tarefas de
aprendizagem na plataforma de ensino sobre as variáveis motivacionais e comportamentais
que favorecerem o gaming. Para legitimar a aplicação foi necessário usar validação cruzada.
Esse tipo de análise é um teste que o software faz para validar o próprio modelo em questão
utilizando uma parte da base de dados e testando sobre outra parte diferente para ver as
correlações entre as variáveis e os níveis de dependência das variáveis entre si. Tal
generalização aumenta a confiança de que a mensuração está próxima do critério apreendido
em questão sobre outros contextos da base como, por exemplo, se a análise for aplicada em
turmas diferentes pelo modelo e se as variáveis apresentarem-se próximas no resultado tal fato
mostra acuracidade86. A vantagem de se utilizar esse método é que uma vez existente um
estudo ou tema nesse contexto futuros experimentos podem ser repetidos sob as mesmas
condições técnicas e isso ajuda a ampliar ou refutar se as variáveis participam de uma
natureza causal que impacte o estudo e retroalimente outros gêneros, classes, condições de
informações.
83
Fuzzy Decision Trees: Issues and Methods. Disponível em:
http://www.cs.umsl.edu/~janikow/fid/fid34/papers/fid.ieeesmc.pdf. Acessado em: 05 de Nov. de 2013
84
Constraint Classification for Multiclass Classification and Ranking. Disponível em:
http://l2r.cs.illinois.edu/~danr/Papers/nips02.pdfv Acessado em: 05 de Nov. de 2013.
85
Validação Cruzada. Disponível em: http://msdn.microsoft.com/pt-br/library/bb895174.aspx. Acessado em:
12 de Jul. De 2014.
86
Este conceito apresenta uma vasta literatura e aplicabilidade, mas aqui de forma breve pode ser interpretada
como similaridade. Para maiores informações ver Evaluation from Precision, Recall and F-measure to ROC,
Informedness, Markedness & Correlation. Disponível em:
http://www.peerevaluation.org/pdf/download/libraryID:29919. Acessado em: 05 de Nov. de 2013
76
Para detectar o gaming ou o caressleness software pondera as correlações entre as
motivações (uma série de chaves que preparam o contexto de análise) no teste de cada aluno
ou grupo de alunos em um determinado tempo. Na amostra utilizada (total de 148 alunos
entre 12 e 13 anos) um algoritmo de árvore de decisão mostra os percentuais de cada chave
embasada no alinhamento de pré-testes denominado micromundos (microworld) pelas
interações das ações do alunos ou escalas de aprendizagem adaptativa (inquiry skills)87.
“Each task in the microworld requires students to conduct experiments to
determine if a particular independent variable (container size, heat level, substance
amount, and cover status) affects various outcomes (melting point, boiling point,
time to melt, and time to boil). For a given independent variable, students
demonstrated proficiency by hypothesizing, collecting data, reasoning with tables
and graphs, analyzing data, and communicating their findings. For this microworld,
automated detectors of two key scientific inquiry skills – designing controlled
experiment, and testing the stated hypothesis - were developed and validated (Sao
Pedro et al., in press).88” (HERSHKOVITZ, 2013, p.1490)
87
O artigo em questão não descreve quais são as chaves que ao todo são 46, mas argumenta que as aplicações
dos algoritmos para detectar as variâncias dos skills observados em alunos são baseadas em duas chaves de
investigação que são concepção de experiência controlada e teste das indicações de hipóteses (pág .1491).
88
Tradução do autor: “Cada tarefa no micromundo exige que os alunos conduzam experimentos para determinar
se uma variável independente em particular (tamanho do recipiente, o nível de calor, a quantidade de
substâncias, nível de preenchimento) afeta vários resultados (ponto de fusão, ponto de ebulição, o tempo para
derreter, e tempo para ferver). Para uma determinada variável independente, os alunos demonstraram
proficiência ao hipotetizar, a coleta de dados, o raciocínio com tabelas e gráficos, análise de dados, e
comunicação de suas descobertas. Para este micromundo, foram detectadas automaticamente duas chaves
77
FIGURA 10
Aplicação de validação cruzada em um Data Set do curso EAD, Big Data in Education89
da Universidade de Columbia
Fonte: https://www.coursera.org/course/bigdata-edu
A seguir na figura 11 um exemplo de como o software pode ajudar a criar uma
validação cruzada ou confidência de investigação para alinhar o modelo e testar
aplicabilidade.
Vale lembrar que o estudo de caso aqui descrito tem como objetivo dar um panorama
geral da utilização das modelagens de dados para inferência estatística de modo que seja
necessário um estudo mais aprofundado para explanar as especificidades e os níveis de
complexidade que tal tema apresenta principalmente para iniciantes no assunto.
O layout de usabilidade do software é intuitivo e possui uma biblioteca com
explicações detalhadas para cada módulo contendo os algoritmos de análise para
aprofundamento de aprendizagem. Ao se criar um processo analítico há a necessidade de
preparar uma base de dados estruturada geralmente já normalizada90. Para dar entrada das
principais de investigação científica - experiência de concepção controlada e testando o estado da hipótese - e
foram desenvolvidas e validadas”.
89
O curso foi feito durante a produção desse trabalho monográfico para entendimento das ferramentas analíticas
do software para aplicação em amostras e também maior aprofundamento em conceitos estatísticos de análises.
Para mais informações ver https://www.coursera.org/course/bigdata-edu .
90
Normalização é um conceito de base de dados que tem o objetivo de criar um processo que permite um
armazenamento consistente e um eficiente acesso aos dados em bancos de dados relacionais necessitando
conhecimento em tipos e formatos de caracteres computacionais e indexação de chaves primárias para fácil
acesso das variáveis estocadas na base.
78
informações (pode ser construída no software Excel para quem tiver mais familiaridade ou
web services que fornecem informações no formato CSV – valores separados por vírgulas)
basta escolher nas pastas localizadas no lado esquerdo da interface do software o objeto
responsável a fazer a entrada de dados denominado “Read”91. Uma vez clicado nesse ícone
pode-se abrir o documento para ser analisado e visualizar se houve algum problema de
importação para ser sanado que normalmente acontece quando a base contém caracteres que
puderam ser lidos pelo interpretador do software. Conseguinte deve-se aplicar outro objeto de
análise o “Set Role” para selecionar a camadas de dados (colunas em uma base Excel nesse
caso nomeado de ONTASK, tarefas do aluno, que pode ser visualizado na lateral direita do
software onde há a possibilidade de regular as sensibilidades de processamento dos
algoritmos e seleção de variáveis para o ambiente de análise) para julgamento em relação ao
resto da base e preparar o contexto da entrada de dados já realizada.
A validação cruzada, contida na caixa “Validation” (basta clicar duas vezes em cima
da caixa de validação que abre outra janela do algoritmo) é subdividida em outras duas caixas
conforme a figura 11 a seguir.
FIGURA 11
Interface da caixa de modelagem validação e automatização de correlações de variáveis
(K-NN) e teste de modelo (Apply Model e Performance).
Fonte: https://www.coursera.org/course/bigdata-edu
91
Para acessar de modo mais rápido basta digitar o nome no campo busca (search) acima das pastas dos
módulos algorítmicos citado na interface.
79
Uma vez inserida a caixa de validação e feita a conexão com as outras caixas e
preparada a saída de resultado (output) o modelo já está preparado para os primeiros testes.
Para visualizar o resultado basta clicar a tecla F11 para rodar o teste em outra janela
abrirá como um relatório das relações das variáveis conforme a figura 12 a seguir.
FIGURA 12
Resultado do teste com uso do algoritmo Kappa – teste de confidência
Fonte: https://www.coursera.org/course/bigdata-edu
O exemplo apresentado é um recorte da pesquisa utilizada pela equipe da universidade
de Columbia que mede a predição da variável tarefa (realizada ou não e expressa pelas letras
N e Y). A classificação da precisão apresentada é considerada pelos pesquisadores uma boa
métrica porque mede a distância de uma realidade em relação a sua expectativa preditiva pela
frequência de um binomial (sim e não) em uma amostra. A predição está próxima da realidade
da natureza do dado e emerge a informação de que aproximadamente 70% da amostra
apresenta realização da tarefa na relação simultânea de todas as variáveis da coluna ONTASK
da base, porém, pelo baixo valor do Kappa92, que é o algoritmo estatístico que é comumente
utilizado para validação de modelos, alguma variável dependente está fora da análise (outlier)
na correlação de todas as colunas. Nesse caso há a necessidade de fazer outros testes filtrando
92
Understanding Interobserver Agreement: The Kappa Statistc. Disponível em:
https://www.stfm.org/fmhub/fm2005/May/Anthony360.pdf. Acessado em 05 de Nov. de 2014.
80
turmas, escolas, tarefas ou até o tempo delas serem realizadas e observar as alterações. Vale
observar que para se considerar boa uma confidência isso depende do estudo, pois nas
pesquisas empreendidas pela ciência da Física 0,80 não é satisfatório e para educação 0,3 é
um bom número. Quanto mais variáveis mais alteração tem no indicador pela natureza do
Data Set e isso é um pré-requisito importante para análise.
Como explanado anteriormente, a análise pode ser extrapolada também para outras
variáveis como, por exemplo, a escola do aluno, a turma do alunado, o aluno, gênero, o tempo
que o aluno levou para terminar uma tarefa ou qual tarefa em questão ou chaves qualitativas
(como as estudadas pelo pesquisador sobre o comportamento do aluno no estudo de caso
apresentado).
O desenvolvimento da escalabilidade e pela orientação á objeto já ilustrados
anteriormente possibilitou o avanço na aplicabilidade dos conhecimentos gerados e podem ser
ampliados por novas descobertas. Aqui se encontra um benefício imediato da automatização
iniciada por Von Neumann que com o desenvolvimento da área da Ciência da Computação
ajuda a clarear o jogo de linguagem travado entre a cognição humana e as semânticas
promovidas pela Linguagem, apesar de acessório em relação à estrutura da cognição é um
fragmento que ajuda a interpretá-la.
81
6. CONSIDERAÇÕES FINAIS
A importância de reconhecer que a temática abordada não se fecha no estudo
empreendido é crucial por duas questões simples, mas não menores: abrangência de áreas e
especificidade da natureza de estudo. A exemplo da Mineração de Dados Educacionais que
adequou as ferramentas de análise para seu objeto de estudo (no caso a customização dos
módulos estatísticos Weka para validação cruzada) exigiu uma especialização dos
pesquisadores em implementar tal aplicação. Na Comunicação Social ainda não é comum,
talvez pela ausência nas grades curriculares nas formações dos seus cursos módulos que
ministram as tecnologias e suas estruturas no que tange aos impactos que o domínio da
programação favorece, o uso das tecnologias de mensuração das variáveis para justificar os
estudos conforme observado nos estudos cognitivos.
A abrangência de conteúdos e teorias e práticas que o estudo da Web Science requer de
modo interdisciplinar sugere uma adequação dos profissionais da área a entenderem e
aplicarem as ferramentas dispostas pela escalabilidade. Dentro do campo da Ciência da
Computação o estudo se curva para as dimensões entre hardware e software, isto é, os
dispositivos e suas funcionalidades e as camadas de linguagens que fazem as interações
acontecerem com as pessoas. A Ciência Cognitiva se curva no cérebro humano e no universo
que tal órgão possui com especificidades como as orgânicas, elétricas, químicas e magnéticas
que ainda pouca coisa foi descoberta sobre sua funcionalidade. A Antropologia e a
Comunicação Social se curvam na relação entre o(s) homem(s), o espaço onde vive(m) e as
coisas que o(s) rodeia(m) e a especificidade da natureza de estudo tende a se identificar com
tudo, isto é, o campo de estudo é vasto.
Entretanto, a Antropologia, como mostra Fischer, percebe as alterações culturais que o
impacto da tecnologia incidiu no decorrer de seu desenvolvimento e adequou de certa forma,
em seus testes de haplótipos conforme explanado no capítulo 2, o uso da tecnologia para fazer
seus experimentos e aproveitar o que a orientação a objeto proporcionou no campo da
Ciência da Computação e também para as outras áreas.
A
Comunicação
Social
no
paradigma
Matemático-Informacional
participou
diretamente do impulso da tecnologia e seu desenvolvimento conforme já analisado no
82
capítulo 2 e 3 e norteia vetores (conceito de autômato e retroalimentação) para estudar os
media (aqui focado no meio digital e suas relações) no contexto da internet na dimensão
proativa, ou seja, usar as ferramentas tecnológicas para descobrir como abordar problemas
advindos da própria tecnologia, como exemplo, o problema do projeto que analisa o volume
de informação produzida atualmente e o entendimento da relação dessa produção na
aceitabilidade do público não apenas na preocupação dos ruídos das mensagens e na eficácia
da transmissão e sim o que, quando, quanto, como e qual valor semântico tal volume se
comporta e ainda qual relação que pode ser feira com outras temáticas. Evidente que não é
um único modo de observar o objeto comunicacional, uma vez que existem outras teorias e
paradigmas que também empreendem pesquisa, mas a tecnologia de certa forma impacta
todos eles e a preocupação aqui não foca apenas observar as consequências das tecnologias
nas relações do homem no seu ambiente, mas sim estudar pela tecnologia os impactos que ela
gera.
Conforme introduzido nesse trabalho, o volume de dados e de informação gerada
atualmente na internet torna complexo o ato analítico, mas ao mesmo tempo é uma
oportunidade para áreas que queiram aprofundar estudos inclusive a Comunicação Social.
O cruzamento de referências promovido pelo fator semântico colaborativo que se
encontra nas redes telemáticas é um caminho de premissa fértil, pois além de
desenvolvimento contínuo na sua tecnologia é um fator que tende a aumentar pela
dependência que a humanidade se mostra na usabilidade das redes. O ambiente colaborativo
(Wiki) permite ampliar as interações das pessoas tanto no ato de consumir informação quanto
gerar informação. O uso dos e-mails, mensagens instantâneas, conferências digitais, leitura de
livros por dispositivos eletrônicos e aumento da digitalização das obras, compartilhamento em
redes sociais e etc. são exemplos disso. As empresas automobilísticas já produzem carros com
recurso de concectividade na rede e entre outros dispositivos. Os celulares estão cada vez
mais multifuncionais agrupando funções que na “antiga mídia” era fragmentado (máquina
fotográfica, rádio, gravador, TV) e agora integra todas ainda conectadas à rede. As TVs já
possuem dispositivos para navegação na internet e é possível fazer compras por ela. Produtos
podem ser comprados pela rede no outro lado do mundo sem estar na presença física e o
produto chega ao local determinado. Os bancos estão cada vez mais digitalizando seus
acessos a exemplo das assinaturas digitais (as digitais das pessoas são escaneadas para acesso
nos terminais do banco), aplicativos para celulares. A grande maioria dos jornais impressos já
investiu em plataformas digitais para divulgar suas notícias e propagandas e readequou seus
layouts em frameworks que possuem a capacidade de configurar a página do site de acordo
83
com os dispositivos de quem acessa e criou aplicativos de leitura e disseminação de conteúdo.
Os canais de vídeos e compartilhamento social na internet, a exemplo do Youtube e
Facebook, são meios onde a publicidade investe cada vez mais em produção e divulgação de
conteúdo de modo segmentado e adequado às estatísticas de acesso das pessoas. As empresas
se preocupam cada vez mais em administrar os canais comunicativos com os consumidores e
gerenciar possíveis crises que impactem a imagem da marca no ambiente digital e
consequentemente no mercado. Conteúdos digitais de origem musical são constantemente
publicados e compartilhados em rede e tocadas nas rádios.
Portanto, esse contexto não parece retroceder no que concerne ao uso e interação e sim
participa cada vez mais no dia-a-dia das pessoas, a não ser que exista uma pane eletrônica em
escala planetária. O volume de dados que todo esse contexto gera é realmente considerável.
Com o desenvolvimento da tecnologia de armazenamento e pela diminuição de seu custo foi
possível implementar ferramentas que podem observar esses dados e gerar informação em
tempo real. O cientista de dados da Comunicação Social possui o desafio de absorver essa
realidade e decodifica-la em pesquisa.
O fato individual e o fato social que são intercedidos pela Comunicação Social nas
redes telemáticas são passíveis de observação e possibilitam oportunidades de percepções
científicas no que concernem as potencialidades complementadas pela Linguagem e suas
modelagens. Essas potencialidades são oriundas da clivagem entre a linguagem da máquina
com a linguagem humana com o impulso dotado pela modelagem de dados e são designadas
pelo data set, pela interface e sua flexibilidade de uso, pelo aumento de processamento da
informação e pela indexação semântica dos conteúdos das interfaces na Web. Em um
primeiro momento se nota a oportunidade de ação da Comunicação Social como um
observatório semântico do meio digital. Mesmo que a área não responda e simule as
complexidades da recursividade da linguagem a nível cognitivo ela pode buscar, por meio das
ferramentas da análise de dados, respostas sobre a natureza humana no seu ambiente sobre a
retroalimentação da informação no seu ciclo assíncrono, nesse caso digital, assim como os
estudos da cognição que de certa forma pode ajudar o entendimento do ato comunicativo. Tais
percepções científicas podem ser niveladas pela quantificação de uso da rede, índices de
visualização, razões de uso, tipo de mídia relacionada, qualidade do conteúdo, estrutura da
informação (como é preparada), contexto da informação, fontes de coleta, tipos de informação
(texto, imagem, som). A variedade, a velocidade e o volume de dados gerados em rede podem
apresentar limitações para o cientista de dados da Comunicação Social observar as percepções
científicas porque uma vez delimitada a variável de estudo dentro da variedade da rede e
84
como abordar o volume de dados a velocidade com que as fontes, interfaces, APIs, estrutura
de dados podem mudar e o caráter heterogêneo da interatividade por parte das pessoas
redobram a atenção dos critérios de pesquisa. Por isso é saudável criar uma documentação dos
processos analíticos das ferramentas e módulos utilizados para poder tomar decisões de
manutenção ou alteração do(s) critério(s). Os pontos positivos que se ganha com a aplicação
das perspectivas é a indexação da informação, filtragem da informação, relacionamento dos
critérios estabelecidos em grande escala.
Por outro lado, os pontos negativos são a acessibilidade do data set na sua política de
acesso (que pode mudar durante o processo da pesquisa), curva de aprendizagem para se
empreender o planejado e sua implementação (a não ser que o pesquisador tenha uma equipe
de programadores e isso vai depender da complexidade e tamanho do estudo e de análise para
se empreender).
De modo geral a modelagem de dados frente às limitações e pontos negativos é
profícua, pois delimitado um recorte analítico há a possibilidade, por inferência estatística,
utilizar 30% da amostra para “treinar” o modelo e dessa forma prever a utilidade para
processar os 100% dos dados que de certa forma exigirá mais processamento de máquina.
A modelagem de dados ganha corpus analítico na Linguagem como método, a
desconstrução dos componentes das interfaces e algoritmos e os resultados desse processo
mostram a recursividade da cognição, mesmo que de forma secundária à recursividade
genuína da mente. A recursividade da cognição via linguagem é um canal de representação
por onde se trava a consolidação da modelagem de dados via tecnologia que por sua vez é
retroalimentada pela troca de informação e suas dimensões relacionais nas interações e
armazenamento de valores humanos em forma de conhecimento como um ciclo produtivo.
A Comunicação Social dentro de suas competências sociais nas trocas de valores
como ato simbólico e como parte da natureza humana é muito complexa para ser reduzida a
textos, falas e algoritmos.
Porém, quando o conjunto de ferramentas apresentados nos estudos de casos assim
como outros a serem pesquisados ou desenvolvidos e suas proximidades somam
possibilidades de ampliar e esmiuçar a complexidade contida em um banco de dados
volumoso na instância da Linguagem há uma oportunidade. A instância em particular
significa que o limite entre a linguagem humana e da máquina é delimitada pela percepção
que esta última incide porque em um primeiro momento pode parecer trivial que a máquina é
artificial e que nunca vai chegar a prever ações humanas, mas quando ajuda a visualizar o que
nunca a cognição pode até então observar nas suas projeções isso merece uma reflexão. Esse
85
espelho de inteligência no mínimo gera uma sinergia que amplia a evolução humana no ato
perceptivo de modo que nos leva a refletir se a Linguagem não seja um dos principais fatores,
se não o principal, no caminho do desenvolvimento da espécie humana em simbiose com suas
invenções.
Ao se tentar diminuir a defasagem perceptiva, que o volume de informação estruturada
e semantizada se apresenta pela natureza assíncrona da dinâmica da Web no ciclo produtivo
da informação, nasce a oportunidade.
São essas proximidades oportunas que fazem os estudos da Cognição um elo
importante quando revela que é através da Linguagem que o avanço tecnológico, conforme
foi analisado na observação do procedimento semântico humano e o seu modo de visualizar o
mundo, se desenvolveu e impactou os procedimentos de pesquisa, no caso da Comunicação os
media.
As chaves sugeridas para a análise que percorrem as temáticas desenvolvidas nos
capítulos anteriores (codificação, conversão, interação, imediatismo, modelagem de
informação) dentro do ambiente das relações entre as áreas surgem como “aforismos
binários” na retroalimentação de linguagem e de informação. A estrutura da linguagem e os
processos semânticos, apesar de serem o limite da ciência da natureza do homem e sua
criação são amparadas nos esforços, dos estudos de caso, do uso da fMRI, OWL, API e EDM
como esperanças de pesquisa.
Os autômatos de Von Neumann abriram caminho para um realinhamento cognitivo
derivando na orientação a objeto, na evolução e desenvolvimento das linguagens de
programação, expandindo um “equilíbrio de Nash” nas redes quando a semantização da
informação é promovida pelo poder colaborativo. A escalabilidade dos programas
promovidos pela padronização da linguagem programável permite ampliar conhecimento pela
desambiguação. Esse fato condensado por propriedades e relacionamento orgânico do
pensamento impulsiona um extrato recursivo para o Data Scientist testar seus experimentos
em empreender pesquisa e pode ajudar o entendimento da Comunicação Social em um
possível deslocamento de sua verve conceitual tradicional (emissor, mensagem, receptor) pelo
poder da observação tecnológica em um quarto elemento a interação (emissor-receptor,
interação, mensagem, interação, receptor-emissor) já que o poder de produção da informação
está cada vez mais se voltando para o receptor e se fundindo no emissor .
As interações dimensionadas pela escalabilidade da linguagem que a Tecnologia da
internet detém sobre as relações sociais no ambiente das redes telemáticas abrem
oportunidades de compreender como essas camadas estão se reinventando constante e
86
rapidamente nas interfaces digitais intercedidas pelos sistemas simbólicos como extensão da
linguagem humana. A Web Science e a Web Sphere Analysis ajudam a consolidar
metodologias de estudo e potencializar ações do Data Scientist a partir das interfaces e
experimentos já realizados ou outros a realizar baseado no conjunto de ferramentas, a
exemplo dos estudos de caso apresentados. Os estudos de caso analisados condensam as
temáticas expostas e, nesse prisma, a Comunicação Social pode desenvolver novas pesquisas
e ampliar ganhos científicos assim como os esforços das ciências cognitivas, das ciências da
computação e da mineração de dados educacionais.
Com base na pesquisa feita neste projeto foi possível observar que os agregadores de
informação podem ser usados para canalizar uma grande quantidade de fontes, temas,
domínios de internet (endereço do site), títulos de páginas, conteúdos de páginas, informações
geográficas, datas, horários de uso, gênero, idade, produtos desejados e etc. e armazenados em
um banco de dados diariamente, semanalmente, semestralmente como for útil para a pesquisa
para ser acessado posteriormente. Uma vez estocados os dados referentes à seleção
estabelecida há a possibilidade de fazer pesquisas e particionar por datas, segmentos ou
agrupamentos de dados para dotar novas relações e assim sucessivamente. Caso a quantidade
de dados atingir um tamanho considerável (na escala de Gigabytes ou Terabytes) o uso da
ferramenta Hadoop, explanada no capitulo 4, seja necessário e isso necessitará implementar
uma rotina de processamento em um centro de dados pago ou desenvolver a própria rede de
processamento.
Tal base construída pode ser relacionada com a base Wikipedia apresentada no estudo
de caso Wikipedia Miner e produzir um “visualizador cultural” dos temas estudados já que a
base Wikipedia fornece um espelho da cultura do conhecimento humano (corpus) de modo
estruturado em linguagem de máquina. Podem ser cruzados dados históricos das informações
agrupadas em um primeiro momento e conteúdos que não estejam relacionados na base dos
agregadores e por validações e aplicações algorítmicas de aprendizagem de máquina os dados
ganham status de informação e podem ser estocados também como resultado desse
cruzamento criando uma nuvem relacional. Assim fizeram os pesquisadores do departamento
de psicologia de da Universidade de Princeton no capitulo 5 ao utilizarem as bases semânticas
dos artigos do Wikipedia para embasarem estímulos visuais dos padrões do cérebro dessas
produções semânticas com uso de ressonância magnética onde os pesquisadores mostram que
as análises do corpus mais as ressonâncias correspondem em certos níveis a representação
cerebral de um tema e que podem desenhar a concretude de um conceito que ativam outros
conceitos assim correlacionados.
87
Dessa forma, com a base repleta de informação e relações há a possibilidade de
“treinar” modelagens de dados criando uma conexão com o software RapidMiner (por web
service ou em instruções de extração salvas em um arquivo como exemplificados no capítulo
4) e inferir validações quantitativas para os experimentos relacionais. Evidente que os
experimentos podem não mostrar um resultado satisfatório e nesse caso podem ser aplicados
outros métodos de pesquisa para sedimentar ou ampliar evidências latentes ou manifestas nos
estudos quantitativos.
A área jornalística pode usar tal escopo para monitorar a rede sobre temas e tendências
de temas para pautas assim com serviços de visualização de conteúdo atrelado à notícia,
matéria ou artigo para alimentar gráficos dinâmicos em tempo real, infográficos que mostram
acompanhamentos de impactos meteorológicos, conflitos sociais e dados históricos sobre os
temas agregados na base de dados. A área da publicidade e propaganda ou rádio e TV pode
armazenar taxas de cliques desses materiais jornalísticos e atrelar a informações dos usuários
cadastrados no serviço (evidente que aqui recai na questão da invasão de privacidade e
política de acesso, mas vale lembrar que há necessidade de apresentar um documento de
adesão contendo as políticas de uso das informações para acesso – disclaimer - e aqui reside
uma questão que ainda não foi totalmente resolvida legalmente no ambiente digital). Uma vez
estocadas as taxas de cliques algoritmos detectariam tendências de uso e segmentos de
consumo para customizar campanhas já que o protocolo TCP/IP dá a identidade de acesso e
de transmissão da informação de cada máquina conectada na rede. A área de relações públicas
pode monitorar nas redes sociais (aqui cabe às outras áreas também) as temáticas que nascem
da relação das empresas e o público e criar indicadores que acompanham a imagem da marca,
satisfação de clientes e seguidores da cultura das organizações.
Portanto, acredita-se que o conjunto de ferramentas apresentado anteriormente entre
outros a serem pesquisados possam ajudar a Propaganda a rever seu modo de planejar e
propagar campanhas, o Jornalismo de produzir e publicar notícias, as Relações Públicas de
antever e administrar crises e das Rádios e TVs compartilharem seus conteúdos.
88
REFERÊNCIAS
BAKER, Ryan S. J.; CARVALHO, Adriana Maria J. B.; ISOTANI; Seiji. Mineração de
Dados Educacionais para o Brasil IN Revista Brasileira de Informática na Educação, Vol. 19,
nº 2, 24 de AGO. 2011.
BERNERS-LEE, Tim. et. al. Creating a Science of the Web. Massachusetts, 2007.
Disponível em http://journal.webscience.org/2/2/creating.pdf
Acesso em: 22 de MAI. 2013.
BERNERS-LEE, Tim. et. al. The Semantic Web. San Francisco, 2001.
Disponível em http://www.scientificamerican.com/article/the-semantic-web/
Acesso em: 22 de MAI. 2013.
BIZER, Christian; HEATH, Tom; BERNERS-LEE, Tim. Linked Data - The Story So Far.
Disponível em http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf
Acesso em: 10 de MAI. 2013.
CASTELLS, Manuel. A Sociedade em Rede, v.1. São Paulo: Paz e Terra, 1999.
CERUZZI, Paul E. A history Of Modern Computing. Disponível em:
http://www.ebooks.downappz.com/?page=download&id=TRSQX3KZ51&file=A_History_of
_Modern_Computing.pdf . Acesso em: 10 de OUT. 2012.
CHOMSKY, Noam. Three Models for the Description of Language. Cambridge: September,
1956. Disponível em: http://www.chomsky.info/articles/195609--.pdf. Acesso em: 24 de Nov.
2012.
FISCHER, Michael. Futuros Antropológicos. Redefinindo a Cultura na Era Tecnológica. Rio
de Janeiro: Zahar, 2011.
FLORIDI, Luciano. Open Problem in the Philosophy of Information. Malden: Blackwell
Publishing, 2004.
________________. Information: A Very Short Introduction. New York: Oxford University
Press, 2010.
GASCA, A.M., ISRAEL, G. The World as a Mathematical Game. Berlin: Birkhäuser, 2009.
GOLDMAN, N.; BERTONE, Paul; CHEN, S. Towards practical, high-capacity, lowmaintenance information storage in synthesized DNA.
Disponível em http://www.nature.com/nature/journal/vaop/ncurrent/full/nature11875.html
Acesso em: 28 de ABR. 2013.
89
HALFORD, Susan; POPE, Catherine; CARR, Leslie (2010) A Manifesto for Web Science.
In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, April 26-27th,
2010, Raleigh, NC: US.
HALL, Stuart. Representation:
Sage publications, 1997.
Cultural Representatios and Signifying Pratices. London:
HERSHKOVITZ, Arnon. Discovery With Models. A Case Study on Carelessness in
Computer-Based Science Inquiry IN American Behavioral Scientist, October 2013, vol. 57, nº
10, p. 1480-1499. New York: Columbia University, 2013.
HEBERLEIN, A.S.; ADOLPHS, R. Functional anatomy of social cognition. IN Cognitive
Neuroscience of Social Behavior. Part II, P.157-194. New York: Psychology Press, 2005.
HILBERT, Martin; LOPEZ, Priscila. The World’s Technological Capacity to Store,
Communicate, and Compute Information. California, 2011. Disponível em:
http://www.ris.org/uploadi/editor/13049382751297697294Science-2011-Hilbertscience.1200970.pdf. Acesso em: 12 de Jun.2014.
HINE, Christine. Virtual Methods: Issues in Social Research on the Internet. New York: Berg
Editions, 2005.
KEY, Alan. et. al. Disponível em http://www.vpri.org/html/work/NSFproposal.pdf
Acesso em: 15 de MAR. 2013.
LIMA JUNIOR, Walter. T. Intersecções possíveis: tecnologia, comunicação e ciência
cognitiva IN Revista Comunicação Social e Sociedade, São Bernardo do Campo, v. 34, n. 2,
p. 93-119, jan./jun. 2013.
LOBINA, David J. (2011) Recursion and the competence/performance
distinction in AGL tasks, Language and Cognitive Processes, v.26, ano.10, p.1563-1586,
DOI: 10.1080/01690965.2011.560006
MCLUHAN, Marshall. Os Meios de Comunicação Social como Extensões do Homem
(Understanding Media). São Paulo: Editora Cultrix, 1974.
MARCILESE, Mercedes. Sobre o papel da língua no desenvolvimento de habilidades
cognitivas superiores: representação, recursividade e cognição numérica.
Disponível em http://www2.dbd.puc-rio.br/pergamum/tesesabertas/
Acesso em: 20 de FEV. 2013.
____________________. Aquisição da linguagem e habilidades cognitivas superiores: o
papel da língua no desenvolvimento da cognição numérica.
Disponível em http://www.scielo.br/pdf/alfa/v56n2/09.pdf
Acesso em: 20 de FEV. 2013.
MARCANTONIO, J.H. A virada linguística e os novos rumos da filosofia IN Revista do
Curso de Direito, vol.4, nº4, São Bernardo do Campo: Revista Eletrônica Metodista, 2007, p.
114-13, ISSN: 2176-1094.
90
MARCONDES FILHO, C. J. R. O Círculo Cibernético.
Disponível em : http://www.eca.usp.br/nucleos/filocom/existocom/artigo12a.html
Acesso em: 21 de JAN. 2014.
MILNE, David;WITTEN, Ian H. An open-source toolkit for mining Wikipedia. IN
International Journal of Artificial Intelligence, vol. 194, Pages 222-239, Elsevier, 2013.
MITCHELL, Melaine. Complexity: a guide tour. Oxford: Oxfor University Press, 2009.
MÜLLER, Martin U.; ROSENBACH, Marcel; SCHULZ, Thomaz. Living by the Numbers:
Big Data Knows What Your Future Holds IN Spiegel Online International. Seção Bussiness.
German, May 17, 2013. Disponível em: http://www.spiegel.de/international/business/bigdata-enables-companies-and-researchers-to-look-into-the-future-a-899964.html. Acesso em:
23 de Jul. de 2014.
PEREIRA, Fancisco; BOTVINICK, Matthew; DETRE, Greg. Using Wikipedia to learn
semantic feature representations of concrete concepts in neuroimaging experiments IN
International Journal of Artificial Intelligence, vol. 194, Pages 240-252, Elsevier, 2013.
POLISTCHUK, Ilana; TRINTA, Aluizio R. Teorias da Comunicação Social. O pensamento e
a prática da Comunicação Social. Rio de Janeiro: Elsevier, 2003. 3ª Impressão.
RAMIREZ-AMARO, K.; BEETZ, Michael; CHENG, G., Extracting Semantic
Rules from Human Observations. IN ICRA’13 workshop: Semantics,
Identification and Control of Robot-Human-Environment Interaction.
2013 IEEE International Conference on Robotics and Automation.,
May 2013.
RÜDIGER, Francisco. As teorias da cibercultura: perspectivas, questões e autores.
Porto Alegre: Sulina, 2011, 338 páginas.
__________________. Introdução às teorias da cibercultura. Porto Alegre: Sulina, 2007, 198
páginas.
SCHNEIDER, Steven M.; FOOT, Kirsten A. Web Sphere Analysis: An Aproach to Studyind
On-line Action. IN Virtual Methods : issues in social research on the Internet, New York:
Oxford publications, 2005. P. 157- 170.
SCHILICK, Moritz; WITTGENSTEIN, Ludwig. Wittgenstein and the Vienna Circle:
Conversations. Oxford: Basil Blackwell, 1983. 266 pages.
SUN, Ron. Cognition and multi-Agent Interaction. New York, Cambridge University Press,
2008.
VINCENZI, Auri M. Rizzo. Orientação a objeto: definição, implementação e análise de
recursos de teste e validação.
Disponível
em
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17082004122037/publico/tese.pdf
Acesso em: 15 de MAR. 2013.
91
WING, Jeannette M. Five Deep Questions
www.cs.cmu.edu/~wing/publications/Wing08.pdf
Acesso em: 15 de MAR. 2013.
in
Computing.
Disponível
em:
_____________________. Software as Self-Expression IN The New York Times, Room for
debate. Updated June 16, 2011, 12:12 PM.
Disponível em: http://www.nytimes.com/roomfordebate/2011/06/15/computer-sciencessputnik-moment/writing-code-has-become-self-expression
Acesso em 08 de MAI. 2013.
WITTGENSTEIN, Ludwig. Investigações Filosóficas. São Paulo: Nova Cultural, 1999.
PIPES: REWIRE THE WEB. IN Yahoo! Califórnia: Yahoo! Site, 2014.
Disponível em: http://pipes.yahoo.com/pipes/
Acesso em 26 de JAN. 2014.
YIN, Robert K. Estudo de Caso. Planejamento e Método. 2ª ed. Porto Alegre: Bookman,
2001.
92
Download