Arquivo.pt A Web do passado como infraestrutura de investigação Daniel Gomes Já necessitou de aceder a uma página web e esta ter desaparecido? Facto: A Web tem substituído a Imprensa eBooks Galerias de Fotografia Blogs News Contudo, esta valiosa informação desaparece rapidamente 80% das páginas da Web desaparecem ou mudam passado apenas 1 ano. São também necessários Arquivos para a Web! Preservar a Imprensa Preservar a Web Serviço gratuito de preservação fornecido a autores da Web • Só preserva informação de acesso público • Realiza recolhas: – Diárias: 400 publicações tais como jornais online – Trimestrais: sites .PT e outros selecionados – Extraordinárias: recolha experimental do .EU 2 000 000 000 2 mil milhões de ficheiros arquivados da web …desde 1996 Exemplos de páginas arquivadas Eventos internacionais Revolução Egípcia de 2011: revolução baseada na web, revolução arquivada da web A primeira página portuguesa (90’s) Publicações impressas também são preservadas pelos arquivos da web 2011 Até “insignificantes” eventos pessoais. • Diferentes perspectivas da sociedade ao longo do tempo contadas na 1ª pessoa. • Equivalentes digitais aos valiosos diários do passado que ajudam a escrever a História. Alerta! As pessoas não estão a preservar os dados digitais que produzem e publicam Os arquivos da web poderão ser a única fonte de memórias para muitas pessoas, Como pesquisar informação arquivada? Pesquisa por URL: Histórico de um endereço www.ISCTE.pt (2010) www.ISCTE.pt (2008) www.ISCTE.pt (2004) www.ISCTE.pt (2002) www.ISCTE.pt (1996) Problema com Pesquisa por URL ➔ Os utilizadores não sabem o endereço exato da página que continha a informação que necessitam. O Arquivo.pt disponibiliza um serviço inovador que permite pesquisar por texto Pesquisa avançada • • • • • • Frase Exclusão de termos Intervalo de datas Formato Restrição por site Resultados por página Arquivo.pt Infraestrutura computacional para investigação Análise automática de grandes volumes de dados arquivados (Big Data analytics) através da nossa plataforma de processamento de larga-escala (Hadoop) Utilizada para medir a acessibilidade da web portuguesa para pessoas com deficiência Interface de programação OpenSearch para permitir estender funcionalidades OpenSearch utilizado para desenvolver serviços inovadores para explorar a informação arquivada Na cadeira de Aplicações na Web os alunos desenvolveram agregadores de informação acerca de: ➔ Políticos (2011) ➔ Futebolistas (2012) Arquivo.pt Para quem? Para quê? Gestão: documentação/auditoria de projeto concluído “Estava tudo no site” Marketing: evolução de padrões de consumo Qual é a tendência de consumo de um produto e porquê (análise qualitativa)? • Notícias • Artigos de opinião • Fóruns de discussão Portfólio/CV “O meu melhor trabalho foi um site já não existe.” • 60% dos sites desaparecem após apenas 2 anos. Evento: decréscimo na recolha seletiva de resíduos urbanos PORDATA: análise quantitativa Arquivo.pt: análise qualitativa Decréscimo na recolha seletiva de resíduos urbanos: um facto a considerar no Expresso de Dezembro de 2012 É preciso criar em Portugal uma comunidade de investigadores que tirem partido do Arquivo.pt • RESAW.eu: Research Infrastructure for the Study of Archived Web Materials • Investigadores + Arquivos da Web Colaborar com o Arquivo.pt Precisamos da vossa ajuda! Sugerir sites para o Arquivo.pt Precisamos de identificar sites interessantes para arquivá-los PSD (psd2011.com, 2011) Site japonês (psd2011.com, 2015) Site japonês traduzido com Google Translate (psd2011.com, 2015) Desafio: identificar sites das eleições • Pouco tempo para identificar e arquivar antes que desapareçam • Identificação é difícil de automatizar – Sites em cartazes nas ruas, panfletos de propaganda, TV • Muitos recursos humanos em pouco tempo para identificar os sites a recolher Como sugerir sites para arquivo? • arquivo.pt/sugerir • Apenas a página de entrada Divulgar o Arquivo.pt Precisa de ser conhecido para ser utilizado Online Disseminar as nossas notícias arquivo.pt/news Offline Cartazes, autocolantes, folhas de serviço, marcadores de livros Apresentações nas vossas instituições Arquivo.pt: em suma • Serviço gratuito de preservação • Um “Google” para o passado! • Infraestrutura para investigação Precisamos da vossa colaboração