USCS Universidade Municipal de São Caetano do Sul Pró-Reitoria de Pesquisa e Pós-Graduação Programa de Mestrado em Comunicação Sub-Projeto de Pesquisa Evolução na Comunicação: estudos em sites da Internet Sub-Projeto de pesquisa em Iniciação Científica Pesquisador discente: Viviane Temoteo Ferrari Professor Orientador: Dr. Elias Estevão Goulart São Caetano do Sul 2011 Resumo: A Internet vem sofrendo muitas evoluções, sempre se adaptando com novas tecnologias para tornar mais interativo o real com o mundo virtual. Mudou o perfil de seus usuários, as características dos computadores a ela ligados, a velocidade das redes, aplicativos, enfim, praticamente tudo. Novos conhecimentos, novas tecnologias são criadas e postas à disposição de quem delas precisa em uma velocidade nunca vista. Este estudo busca apresentar tecnologias, focalizando no estudo, elaboração e especificação, de forma a subsidiar análises comparativas proporcionando o conhecimento do andamento evolutivo dos sites encontrados na web. Palavras-Chave: novas tecnologias, Internet, ferramentas web, algoritmos genéticos. I. Introdução 1.1 Contextualização Originalmente, antes da sua extensa popularização iniciada em 1993 com a criação do primeiro navegador para a Web, a utilização eficiente da Internet requeria o conhecimento de vários programas diferentes (ftp, gopher, telnet e vários outros). Além de conhecer o funcionamento destes programas, era necessário também conhecer onde a informação se encontrava. Existiam alguns mecanismos de busca de informação, mas nada comparado aos mecanismos de busca hoje existentes. E a informação existente era em sua maioria composta apenas por textos, sem imagens e sons. O primeiro navegador Web, o Mosaic, veio mudar radicalmente esta situação. O acesso à informação disponível na Internet passou a ficar ao alcance de praticamente todos, mesmo aqueles com pouca cultura em informática. A informação foi disponibilizada de uma maneira simples e intuitiva. A transferência de informação entre um computador e outro passou a se dar de forma totalmente transparente para o usuário. A revolução criada pelo Mosaic, se deu pela possibilidade, até então inexistente, de se integrar imagens aos documentos e pela implementação do formato hipertexto. Documento hipertexto é um tipo de documento especial que contém gráficos e links (tipo de atalho usado para sair de uma página direto ao assunto comentado em outra página). Em 1997 houve o início da tecnologia streaming, que trouxe a possibilidade de visualização de vídeos pela Internet. Entre 2006 e 2010, novos serviços viraram febre no mundo da Internet, por exemplo, as redes sociais como Orkut, Twitter, Facebook, e também sites de compras coletivas que conseguem negociar descontos para a venda de grande quantidade de produtos e serviço entre consumidores e empresas. Hoje a Internet acabou se tornando uma ferramenta essencial, causando grande dependência aos seus usuários que se beneficiam com as suas inúmeras formas de transmitir informação. Vemos então que ela vem se inovando e está sempre em evolução se adaptando de acordo com as necessidades dos usuários e das novas formas de comunicação. 1.2 Técnologias dos sites na Web: Existem diversas tecnologias utilizadas para criar a aparência dos sites; as duas com maior utlização são a HTML e a CSS. A HTML (hypertext markup language) é uma linguagem de códigos interpretada pelo navegador, é um padrão que garante que todos os sites sejam exibidos da mesma maneira em qualquer parte do mundo. A CSS (cascading style sheet) também é uma linguagem de códigos interpretada pelo navegador, mas com a função de armazenar os códigos referentes a parte puramente estética do site. Quando se fala em programação para a Web, as duas linguagens de programação, cujo objetivo é programar o site para interagir com os seus visitantes, as mais empregadas são a PHP (hypertext preprocessor) e ASP (active server pages) . As aplicações que operam na Web são elaboradas em duas partes: lado cliente e lado servidor; elas são programas executados em máquinas distintas, trocando informação através de uma rede de computadores. O lado cliente é onde se instalam as funções de interface ao usuário, geralmente compostas de interações gráficas que permitem realizar tarefas de requisição de serviços ao servidor. O lado servidor tem a função realizar o processamento dos dados requisitados pelo cliente através da rede. Os banco de dados são onde ficam armazenados dados disponíveis aos usuários que poderão manipulá-los através das aplicações cliente, instaladas em suas estações de trabalho individuais. A Internet cresce em altíssimas taxas, cujos dados recentes mostram que entre o ano de 2000 a 2010 o seu crescimento foi superior a 5 vezes, passando de 360 milhões de usuários a quase 2 bilhões (ROYAL PINGDOM, 2011). 1.3 Algoritmos Genéticos: Os algoritmos genéticos (AG) são uma técnica de busca extremamente eficiente no seu objetivo de varrer o espaço de soluções e encontrar soluções próximas da solução ótima, quase sem necessitar interferência humana, sendo uma das várias técnicas da inteligência computacional adequadas para uso em problemas especialmente difíceis. Eles nos oferecem a idéia de se usar a natureza (Teoria da evolução) como fonte de técnicas de resolução de problemas, ou seja, navegar nas águas da “computação bioinspirada”. Os AGs se fundamentam no conceito de cromossomos como elementos fundamentais para caracterizar ‘organismos’ que podem transmitir caracteristicas constitutivas entre gerações. Desta forma, o crescimento da Internet, que conta atualmente com mais de 130 milhões de sites (WHOIS, 2011), pode ter suas páginas consideradas como ‘espécimes’ tecnológicas e, por sua vez, conter partes de conteúdos (como cromossomos) que são copiados e retransmitidos entre sites. A análise dos sites, ou melhor, da tecnologia hipermídia empregada na construção de sites, por meio da técnica dos AGs pode resultar em uma melhor compreensão de um eventual preocesso evolutivo nos ambientes virtuais. Uma questão importante é a aplicabilidade da teoria da evolução para o contexto dos sites da Web e, portanto, da evolução da comunicação nestes novos meios. 1.4 Problema Existem códidos construtivos das páginas da Web (genes) sendo copiados e fazendo parte de outros sites? É possível encontrar tais elementos? Eles são rastreáveis, a partir das datas de construção e publicação dos sites? O entendimento destas questões e dos fatores relacionados, pode levar à compreensão de forma mais técnica da evolução das tecnologia utilizadas em sites da Internet. II. Objetivo O objetivo é estudar as páginas da Web na busca de códigos replicados, por meio da elaboração de uma ferramenta de software para a coleta e organização dos dados em sites. Ainda, analisar eventuais códigos encontrados e propor uma representação para o estudo por meio dos Algoritmos Genéticos. III. Metodologia O estudo, objeto deste trabalho, será realizado no contexto do Grupo de Estudos das Tecnologias de Informação e Comunicação – ETICO, com seus pesquisadores e estudantes. A pesquisa será realizada no período de agosto de 2011 a julho de 2012, conforme cronograma abaixo indicado. Este estudo será exploratório, contemplando as seguintes fases: 1. Revisão bibliográfica para a investigação sobre o estado-da-arte na área de conhecimentos em Algoritmos Genéricos, com especial atenção às questões ligadas ao uso pelos usuários das ferramentas web, e fornecer subsídio teórico às análises e comparações deste estudo com outros correlatos; 2. Especificar a ferramenta para a coleta de informações em sites da Web; 3. Construir e testar a ferramenta para coleta dos dados; 4. Efetuar a coleta de dados e sua análise prévia; 5. Realizar confrontação dos resultados obtidos com outros trabalhos e publicar os resultados finais dos estudos. IV. Recursos: Os recursos associados ao desenvolvimento deste projeto de pesquisa estão delineados a seguir: 1. Disponíveis: a) Pesquisadores, a saber, professor Dr. Elias E. Goulart, professora Dra. Priscila F. Perazzo e o estudante Jhonata Medeiros da Silva, do curso de graduação em Ciência da Computação da Universidade Municipal de São Caetano do Sul – USCS, todos integrantes do Grupo ETICO. b) Computadores, programas e materiais de consumo para desenvolvimento dos estudos disponíveis na Universidade USCS. 2. Necessários: Disponibilização de acesso e espaço em servidor hospedado na Internet ou na intranet para a implementação do instrumento de pesquisa e coleta dos dados para análise. 3. Desejáveis: Apoio financeiro para publicação de resultados em revistas e/ou congressos, redação e publicação de livros, participação em eventos, congressos e congêneres para atualização e divulgação das atividades do Grupo ETICO e da Universidade USCS. V. Cronograma: Atividades 2º Sem. 2010 Revisão bibliográfica XX____ Especificação da ferramenta __XX__ Cosntrução e testes da ferramenta 1º Sem. 2011 ____XX XX____ Coleta de dados e análise __XX__ Redação de relatório final e publicação dos resultados ____XX 1º ou 2º: semestres (cada caractere corresponde a 1 mês) VII. Referências Bibliográficas: História da Internet. Disponível em: http://www.suapesquisa.com/Internet/. Acessado em 11/05/2011. Evolução da Internet. Centro de Computação - UNICAMP. Disponível em: http://www.ccuec.unicamp.br/revista/infotec/Internet/Internet1-1.html. Acessado em 11/05/2011. ABREU, Jonas. Algoritmos Genérico. Disponível em: http://vidageek.net/2007/04/27/dia-calgoritmos-genericos/. Acessado em 12/05/2011. Técnologias para criar sites. criando-sites.com. Disponível em: http://www.criandosites.com/tecnologias-usadas-criar-sites. Acessado em 13/05/2011. LIDEN, Ricardo. Algoritmos genéticos. Rio de Janeiro: Brasport, 2006. p.04; 49 SILVA, Enio Kilder Oliveira. Um Estudo sobre Sistemas de Banco de Dados Cliente/Servidor. João Pessoa – PB, 2001. Disponível em: http://www.biblioteca.sebrae.com.br/bds/BDS.nsf/66D405293751CC5B03256D520059B6F6/$F ile/190_1_arquivo_bdados.pdf. Acessado em 13/05/2011. Programação Cliente-Servidor - UNICAMP. Disponível em: http://www.dca.fee.unicamp.br/cursos/PooJava/network/cs.html. Acessado em 16/05/2011. ROYAL PINGDOM. The incredible growth of the Internet since 2000. http://royal.pingdom.com/2010/10/22/incredible-growth-of-the-internet-since-2000/. Acessado em 16/05/2011. WHOIS SOURCE. Domain counts & internet statistics. http://www.whois.sc/internet-statistics/. Acessado em 16/05/2011.