A Web do passado como infraestrutura de investigação

Propaganda
Arquivo.pt
A Web do passado como infraestrutura
de investigação
Daniel Gomes
Já necessitou de aceder
a uma página web
e esta ter desaparecido?
Facto:
A Web tem substituído a Imprensa
eBooks
Galerias
de
Fotografia
Blogs
News
Contudo, esta valiosa informação
desaparece rapidamente
80%
das páginas da Web
desaparecem ou mudam
passado apenas 1 ano.
São também necessários Arquivos para a Web!
Preservar a Imprensa
Preservar a Web
Serviço gratuito de preservação
fornecido a autores da Web
• Só preserva informação de acesso público
• Realiza recolhas:
– Diárias: 400 publicações tais como jornais online
– Trimestrais: sites .PT e outros selecionados
– Extraordinárias: recolha experimental do .EU
2 000 000 000
2 mil milhões de ficheiros arquivados da
web
…desde 1996
Exemplos de páginas
arquivadas
Eventos internacionais
Revolução Egípcia de 2011: revolução baseada na
web, revolução arquivada da web
A primeira página portuguesa (90’s)
Publicações impressas também são preservadas
pelos arquivos da web
2011
Até “insignificantes” eventos pessoais.
• Diferentes perspectivas
da sociedade ao longo do
tempo contadas na 1ª
pessoa.
• Equivalentes digitais aos
valiosos diários do
passado que ajudam a
escrever a História.
Alerta!
As pessoas não estão a preservar os dados
digitais que produzem e publicam
Os arquivos da web poderão ser a única fonte
de memórias para muitas pessoas,
Como
pesquisar
informação
arquivada?
Pesquisa por URL:
Histórico de um endereço
www.ISCTE.pt (2010)
www.ISCTE.pt (2008)
www.ISCTE.pt (2004)
www.ISCTE.pt (2002)
www.ISCTE.pt (1996)
Problema com Pesquisa
por URL
➔ Os utilizadores não sabem o endereço exato da
página que continha a informação que necessitam.
O Arquivo.pt disponibiliza um
serviço inovador que permite
pesquisar por texto
Pesquisa avançada
•
•
•
•
•
•
Frase
Exclusão de termos
Intervalo de datas
Formato
Restrição por site
Resultados por página
Arquivo.pt
Infraestrutura computacional para
investigação
Análise automática de grandes volumes de dados
arquivados (Big Data analytics) através da nossa
plataforma de processamento de larga-escala (Hadoop)
Utilizada para medir a acessibilidade da web
portuguesa para pessoas com deficiência
Interface de programação OpenSearch
para permitir estender
funcionalidades
OpenSearch utilizado para desenvolver serviços
inovadores para explorar a informação arquivada
Na cadeira de Aplicações na Web os alunos
desenvolveram agregadores de informação acerca de:
➔ Políticos (2011)
➔ Futebolistas (2012)
Arquivo.pt
Para quem? Para quê?
Gestão: documentação/auditoria
de projeto concluído
“Estava tudo no site”
Marketing: evolução de padrões de consumo
Qual é a tendência de
consumo de um
produto e porquê
(análise qualitativa)?
• Notícias
• Artigos de opinião
• Fóruns de discussão
Portfólio/CV
“O meu melhor trabalho foi um
site já não existe.”
• 60% dos sites desaparecem após
apenas 2 anos.
Evento: decréscimo na recolha seletiva de
resíduos urbanos
PORDATA:
análise quantitativa
Arquivo.pt:
análise qualitativa
Decréscimo na recolha seletiva de resíduos
urbanos: um facto a considerar no Expresso
de Dezembro de 2012
É preciso criar em Portugal uma comunidade de
investigadores que tirem partido do Arquivo.pt
• RESAW.eu: Research Infrastructure for the
Study of Archived Web Materials
• Investigadores + Arquivos da Web
Colaborar com
o Arquivo.pt
Precisamos da vossa ajuda!
Sugerir sites para o Arquivo.pt
Precisamos de identificar sites
interessantes para arquivá-los
PSD
(psd2011.com, 2011)
Site japonês
(psd2011.com, 2015)
Site japonês traduzido com Google Translate
(psd2011.com, 2015)
Desafio: identificar sites das eleições
• Pouco tempo para identificar e arquivar
antes que desapareçam
• Identificação é difícil de automatizar
– Sites em cartazes nas ruas, panfletos de
propaganda, TV
• Muitos recursos humanos em pouco
tempo para identificar os sites a recolher
Como sugerir sites para arquivo?
• arquivo.pt/sugerir
• Apenas a página de
entrada
Divulgar o Arquivo.pt
Precisa de ser conhecido para ser
utilizado
Online
Disseminar as
nossas notícias
arquivo.pt/news
Offline
Cartazes, autocolantes, folhas de
serviço, marcadores de livros
Apresentações nas vossas
instituições
Arquivo.pt: em suma
• Serviço gratuito de preservação
• Um “Google” para o passado!
• Infraestrutura para investigação
Precisamos da vossa
colaboração
Download