Caracterização dos utilizadores de web sites institucionais via web

Propaganda
Agradecimentos
Quero aqui deixar expressos os meus agradecimentos a todos aqueles que de
alguma forma me auxiliaram na realização desta dissertação, nomeadamente:
Ao meu orientador, Doutor Manuel Filipe Santos, pelo constante apoio e pelos
conselhos prestados.
À Universidade do Minho, sobretudo ao pessoal docente e não-docente do
Departamento de Sistemas de Informação.
Ao Tribunal de Contas, pelas condições proporcionadas, no que diz respeito às
fontes de informação trabalhadas e ao acesso a alguns dos meios técnicos
essenciais para o processamento dessa informação.
Ao Dr. João Carlos Pereira Cardoso, director do Departamento de Sistemas e
Tecnologias de Informação da Direcção-Geral do Tribunal de Contas, pelo apoio e
facilidades concedidas. Este agradecimento estende-se ao restante pessoal do
mesmo serviço, que sempre manifestou o seu apoio.
À minha família, pelo apoio e compreensão demonstrados (e pelo cuidado em me
mandarem escrever quando era preciso).
Ao meu filho, João Francisco, pela ajuda prestada no relembrar dos pormenores
mais finos (e traiçoeiros) da gramática da língua portuguesa, e pela paciência
demonstrada pelo tempo que um trabalho destes forçosamente ocupa.
À Maria do Castelo, por ser a pessoa que melhor me compreende e que apesar de
estar a fazer a sua própria dissertação, sempre teve tempo para me apoiar, criticar,
comentar e apontar outros caminhos.
Página|iii
Caracterização dos utilizadores de web sites institucionais
via web log mining – O caso do Tribunal de Contas
Resumo
É difícil encontrar outro meio de comunicação que tenha crescido tão rapidamente e
num volume tão grande como a World Wide Web. Ao mesmo tempo, é díficil
encontrar um que encerre em si próprio, de maneira tão abundante,
a meta-informação necessária para o seu estudo aprofundado.
Ver a WWW como um simples depósito de informação, constitui um ponto de vista
redutor. Muito embora, num sentido restrito, seja possível encarar tudo o que ela
oferece como sendo informação à nossa disposição, a verdade é que uma das suas
grandes virtudes, é o facto de fornecer cada vez mais maneiras de levar os
utilizadores a interagir com essa informação – para a manipular (ajax), para a alterar
(wikis), para a aumentar (blogs), para a transformar e ampliar (mashups), entre
outros exemplos e abordagens.
Os registos de acesso aos web sites (logs) constituem a principal fonte de
informação quanto à forma como a WWW é, de facto, utilizada. Mais do que se
basear na análise de factores externos (como qualquer canal de televisão, que tem
que perguntar aos tele-espectadores se o viram), qualquer web site pode registar
automaticamente todas as consultas que lhe são feitas. Da análise destes acessos
depende a correcta compreensão do lugar e funções desempenhadas pelo web site,
ao longo da sua vida.
Nesta dissertação procuramos reunir os dois mundos. Pretendemos caracterizar a
informação disponibilizada num web site (o do Tribunal de Contas), pedindo
“emprestados” alguns conceitos à biologia – para traçar uma espécie de “ADN” de
cada documento. Pretendemos também, recorrendo aos logs de acesso, traçar outro
ADN, o dos utilizadores do web site, com base nos seus padrões de uso. Os
resultados de um trabalho desta natureza poderão auxiliar abordagens futuras a este
e outros web sites, no sentido de facilitar um tipo de classificação automática de
documentos e de permitir a criação e manutenção no tempo de perfis de utilização,
numa tentativa de fazer adequar com maior precisão a informação que é
disponibilizada, com as necessidades dos utilizadores.
Página|iv
Institutional web site usage profiling via web log mining.
The Portuguese Court of Auditors as an example.
Abstract
It's hard to find any kind of media with a growth-rate as high as the World Wide
Web. At the same time, it's hard to find one that stores within itself such an amount
of metadata, useful for an indepth study.
It is wrong to look at the WWW simply as a kind of information store. Although all its
contents are information one way or the other, truth is there are quite a few ways of
letting the users interact with that information, either to manipulate it (via ajax-based
applications), to alter it (through the use of wikis), to add to it (via blogs and web
sites themselves) or to transform and amplify its meanings (through mashups).
These are only a few examples on what can be done today.
Web site access logs are the main information source on how the WWW is used.
Rather than asking the users if they viewed the pages (such as a TV station might
do), any web site has the means to keep a permanent record about its visitors. By
analyzing these logs, we are able to get a better understanding of the roles played by
the web site.
In this document we borrow a few concepts from biology, in order to establish a kind
of 'DNA' for each document on the web site of the Portuguese Court of Auditors
(Tribunal de Contas). We do this by looking at the WWW as an information source
and by processing what we find. At the same time, we try do extend the same
approach to the users who looked for those documents, by processing the web
access logs. The results of such an approach might enable future uses of automatic
document classification, as well as an effective personalization of information
delivery.
Página|v
Chractérisation des utilisateurs des web sites institutionelles
à travers des téchniques de minération de web logs.
L’éxample du Cour de Comptes Portugais
Résumé
Il est très difficile de trouver quelque sorte de média avec une croissance si grande
que le World Wide Web. En même façon, il est difficile de trouver un moyen
intéractif d'information qui préserve une si grande quantité de métadonnées dans
son intérieur, et qui puisse les utiliser por des études en profondeur.
Le Web n'est seulement un depôt d'information. On peut bien regarder tout ce qu'il
présent comme s'il était de l'information toute simple. Pourtant, aujour'dui il'y a
plusieurs moyens à la disposition des utilisateurs pour accomplir une intéraction
riche avec les contenus présentés: pour faire sa manipulation (à travers les
applications Ajax), pour faire des modifications (à travers les wikis), pour participier
dans sa croissance (à travers les blogs et les web sites, êux-mêmes) ou pour faire
des transformations (à travers les mashups). Ce ne sont que des examples sur les
possibilités d'utilisation offertes.
Le logging des pages Web consultées est la première source d'information sur
l'utilisation du WWW. Par example, quand on parle d'une châine de télévision, le
seul moyen qu'elle a pour connaître les charactéristiques de ses téléspectateurs, est
de les demander directement. Par contraire, un web site peut enregistrer
automatiquement toutes les visites à ses pages. Quand on analyse ces logs, on peut
comprendre parfaitement l'évolution du site et les modes d'intéraction utilisés.
Dans ce travail, nous cherchons une façon d'unifier ces deux réalités. D'un coté nous
avons l'information disponible dans le web site do Cour des Comptes Portugais
(Tribunal de Contas) laquelle sera procéssé pour créer une espéce d'ADN pour
chaque document. De l'autre coté, nous avons les web logs, qui nous permetront
identifier des utilisateurs, et établir aussi son ADN (on parle d'ADN d'une façon
symbolique, puisque nous créons des séquences d'identification numériques pour
chaque document/utilisateur). Les résultats peuvent pêut-être nos approcher d'une
classification automatique des documents, et aussi d'une création de profils
d'utilisateurs.
Página|vi
Índice de capítulos
Agradecimentos ........................................................................................... iii
Resumo...................................................................................................... iv
Abstract ....................................................................................................... v
Résumé...................................................................................................... vi
Índice de capítulos ...................................................................................... vii
Índice de imagens ....................................................................................... ix
Índice de tabelas ......................................................................................... xi
Índice de gráficos ....................................................................................... xii
Introdução .................................................................................................. 1
Objectivos ..................................................................................................... 3
Contextualização ............................................................................................ 4
Motivação ..................................................................................................... 5
Relevância ....................................................................................................6
Fontes primárias ............................................................................................ 7
Hardware e software utilizados ........................................................................ 7
Organização da dissertação ............................................................................. 8
Definição de conceitos.................................................................................. 9
A teoria (e prática) subjacente à utilização de logs de acesso a web sites .......... 10
O software existente .....................................................................................28
O Tribunal de Contas ................................................................................. 34
Enquadramento normativo do Tribunal de Contas ............................................ 35
Organograma do Tribunal de Contas .............................................................. 36
Os Actos do Tribunal de Contas - disponibilização externa e interna ................... 37
Tratamento temático da informação ............................................................... 41
Página|vii
Classificação e recuperação - considerações finais ........................................... 42
O web site do Tribunal de Contas ................................................................ 44
Caracterização técnica do web site do TC ....................................................... 48
Escolhas técnicas que foram feitas no processo de desenho do web site ............ 50
Os logs de acesso ao web site do TC .............................................................. 52
Estabelecer um ADN para os documentos do web site do TC ........................... 56
Operações de text mining .............................................................................. 63
Conclusões ............................................................................................... 68
Referências: Livros e Artigos ........................................................................ 71
Referências: Literatura cinzenta ................................................................... 80
Referências: Normas e standards ................................................................. 82
Referências: Web sites ............................................................................... 83
Apêndice 1: Hardware e software utilizados .................................................. 86
Apêndice 2: O anúncio do primeiro programa
de processamento de ficheiros de log de servidores web ................................. 88
Apêndice 3: Evolução da estrutura informática
do web site do Tribunal de Contas ............................................................... 89
Apêndice 4: Listagens em Basic .................................................................. 91
Apêndice 5: Macro-comandos de Word ........................................................ 95
Página|viii
Índice de imagens
Imagem 1: Sumário da contagem de acessos ao web site BoingBoing .............. 19
Imagem 2: Configuração de definições para acesso à Internet
no browser Microsoft Internet Explorer ...........................................................21
Imagem 3: Caixa de diálogo de definições de cache
de páginas web no browser Microsoft Internet Explorer ................................... 22
Imagem 4: Uma minúscula amostra de estilos aplicáveis
a contadores de acessos a páginas web ......................................................... 23
Imagem 5: Página de uma pequena empresa
com um contador localizado no canto inferior esquerdo ................................... 24
Imagem 6: O mesmo contador, ampliado ...................................................... 25
Imagem 7: Lista de cookies entregues ao browser Microsoft Internet Explorer .... 26
Imagem 8: Organograma do Tribunal de Contas, incluindo a Direcção-Geral
e as Secções Regionais da Madeira e Açores .................................................. 36
Imagem 9: Página de acesso aos Actos do Tribunal de Contas na Intranet
institucional, tal como estava visível em 17 de Julho de 2006 ......................... 38
Imagem 10: Formulário de pesquisa do sistema TCJure,
tal como é disponibilizado através da intranet do Tribunal de Contas ................ 38
Imagem 11: Página de acesso aos Actos do Tribunal de Contas,
disponível no web site institucional ...............................................................39
Imagem 12: Formulário de pesquisa de Acórdão e Sentenças
no web site do Tribunal de Contas, ............................................................... 40
Imagem 13: Estrutura de dados do sistema TCJure,
em uso interno no Tribunal de Contas ............................................................ 41
Imagem 14: Aspecto da primeira versão do web site do Tribunal de Contas ..... 44
Página|ix
Imagem 15: Aspecto da segunda versão do web site,
tal como foi disponibilizada em 14 de Março de 2001 .................................... 45
Imagem 16: Página inicial do web site do Tribunal de Contas
em 4 de Fevereiro de 2004 .........................................................................46
Imagem 17: Aspecto da página inicial da terceira versão do web site do TC,
que deverá ser activada no início do mês de Maio de 2007 ............................. 48
Imagem 18: Como se articulam entre si os grandes componentes
tecnológicos da actual versão do web site do TC ............................................. 49
Imagem 19: Página web com informação relativa
aos acessos ao web site do Tribunal de Contas .............................................. 53
Imagem 20: Vista parcial do relatório Executivo, disponibilizado
pelo serviço Google Analytics, relativo aos acessos feitos
à página inicial do web site do Tribunal de Contas,
para o período compreendido entre 2006-07-07 e 2006-07-28 ...................... 54
Imagem 21: Representação numérica de um ADN baseado
nas classes do TCJure, para os 742 documentos em processamento ............... 62
Imagem 22: Representação grafica da mesma informação numérica
da imagem anterior. A cada número foi atribuída uma cor específica ................ 62
Página|x
Índice de tabelas
Tabela 1: Excerto da listagem dos descritores
atribuídos a documentos constantes do web site do TC ................................... 57
Tabela 2: Top Terms identificados para os descritores
atribuídos ao documento com o código 69895 do sistema TCJure ...................59
Tabela 3: Top Terms identificados para os descritores
atribuídos ao documento com o código 70168 do sistema TCJure ...................59
Tabela 4: Top Terms identificados para os descritores
atribuídos ao documento com o código 69776 do sistema TCJure ...................59
Tabela 5: Distribuição de documentos pelas várias classes
de topo identificadas no thesaurus associado ao sistema TCJure ......................60
Tabela 6: Atribuição de números aleatórios a cada um dos 756 documentos
identificados para esta etapa de processamento .............................................66
Página|xi
Índice de gráficos
Gráfico 1: Evolução da quantidade de page views
no web site do TC, para o perído compreendido
entre Março de 2001 e Março de 2007 ........................................................ 47
Gráfico 2: Quantidade de documentos por formato,
no web site do Tribunal de Contas ................................................................50
Gráfico 3: Distribuição dos documentos disponibilizados
no web site do TC e registados no sistema TCJure, pelas classes
deste sistema de gestão de informação .......................................................... 60
Página|xii
Introdução
A expressão que mais facilmente caracteriza o ambiente no qual todos os web sites
se inserem, a World Wide Web ou WWW, é formada por uma só palavra:
“variedade”. Esta variedade nota-se a vários níveis. Por exemplo:
ƒ
Na quantidade potencial de utilizadores que podem aceder ao universo
representado pela totalidade dos web sites existentes (cerca de 487 milhões
de utilizadores em Janeiro de 20071, para uma quantidade eventual de cerca
de 110 milhões de web sites2 em Março do mesmo ano, dos quais apenas
cerca de metade se encontram de facto activos).
ƒ
Na quantidade efectiva de utilizadores que, de facto, acedem a um web site
(entre as poucas dezenas e os milhões, consoante o conteúdo, a utilidade e o
interesse que desperta).
ƒ
Na quantidade de sistemas operativos diferentes e de browsers que os
utilizadores da WWW podem utilizar (vejam-se as cerca de 250 versões
principais
de
sistemas
operativos
listadas
http://en.wikipedia.org/wiki/List_of_operating_systems,
múltiplas
variantes,
ou
os
cerca
de
http://en.wikipedia.org/wiki/List_of_browsers,
70
sem
browsers
também
em
contar
com
listados
em
com
múltiplas
variantes)3.
Num outro nível, a variedade torna-se ainda mais notável. Ao falar da WWW,
estamos a falar de um universo informativo onde existe um número não
contabilizado (e não contabilizável) de documentos, que pode variar entre os
15.000 e os 30.000 milhões de páginas web, segundo uma das últimas
estimativas4. Todos os dias vastos milhares destes documentos desaparecem ou são
modificados. Outros tantos são adicionados ao conjunto. Não há um índice integral
1
2
3
4
Fonte: Nielsen//NetRatings, acedido em 2007-03-17 a partir do endereço
http://www.nielsen-netratings.com/press.jsp?section=pr_netv&nav=3.
Fonte: March 2007 Web Server Survey, acedido em 2007-03-17 a partir do enderço
http://news.netcraft.com/archives/web_server_survey.html.
Estamos conscientes quanto à polémica em torno do uso da Wikipedia como fonte de informação para o discurso
científico. As opiniões variam entre o cepticismo puro quanto à sua utilidade [Denning, et. al., 2005], o aconselhamento
de cautela no seu uso [Read, 2007] e o reconhecimento do seu valor em comparação com outras fontes de conhecimento
idênticas [Bernstein, 2006; Stvilia, et. al., 2005]. Quanto a nós, recorremos a ela pontualmente e apenas como ponto de
partida para abordar certas questões – neste caso contagens de produtos informáticos.
Fonte: The size of the World Wide Web, acedido em 2007-03-17, a partir do endereço http://www.pandia.com/sew/383web-size.html, com considerações acessórias sobre o estado da arte no que toca à quantificação do conteúdo da WWW.
Página|1
do conteúdo e as capacidades de pesquisa ainda são relativamente rudimentares.
Os documentos estão dispersos por toda a superfície do planeta (muito embora até
pareça que estão todos juntos no mesmo sítio). A consulta é feita através de
computadores, os quais (por questões de configuração e/ou capacidade) podem ter
mais ou menos dificuldades no acesso à informação. Não há qualquer garantia que
um mesmo documento seja visto da mesma maneira por dois utilizadores
diferentes, ao mesmo tempo que é impossível saber de antemão que computadores
vão ser utilizados.
Esta variedade tem um grande impacto na forma como um web site deve estar
preparado para responder às solicitações a que está sujeito. Tem também impacto
na forma como podem (e devem) ser obtidos e processados elementos que
permitam caracterizar numericamente a forma como se acede a esse web site:
quem, de onde, quando, de que forma, com que meios técnicos, para fazer o quê,
durante quanto tempo, com que fidelidade, etc.
É inegável o interesse que desperta a análise dos logs de acesso a um web site. Este
procedimento constitui quase sempre a primeira abordagem para caracterizar a
“população” que consulta um web site:
ƒ
Para saber dados técnicos sobre os meios utilizados para aceder à
informação (qual o sistema operativo e qual o browser usados para visualizar
as páginas do web site). Estes dados podem, de alguma forma, influenciar a
estruturação dos conteúdos e a sua própria natureza (maior ou menor
conteúdo gráfico, por exemplo).
ƒ
Para ficar a conhecer quais as apetências do público que consulta o web site
– quais as páginas mais consultadas e os conteúdos mais acedidos.
ƒ
Para recolher informação que permita validar a estrutura do web site. Ao
identificar percursos de navegação seguidos pelos utentes, é possível
reconhecer gostos e tendências para conteúdos específicos [b052].
A análise dos acessos permite ainda processar e recolher outros tipos de informação.
Dependendo da natureza do web site, pode ainda fornecer dados sobre o seu
desempenho “económico” (se for um site com funcionalidades de comércio
Página|2
electrónico, ou que inclua mecanismos de obtenção de receitas baseadas em
publicidade), sobre a amplitude do seu reconhecimento geográfico (identificando os
países de onde foram feitos os acessos), sobre o grau de incidência de ataques
informáticos (pela identificação de “assinaturas” conhecidas de exploits devidamente
identificados, ou pela detecção de padrões de acesso considerados suspeitos). A
lista é extensa e não se esgota nestes exemplos.
Objectivos
Nesta dissertação propomo-nos abordar um problema que tem vindo a ser alvo de
estudo quase desde o início da WWW: de que forma é que, a partir da análise dos
logs de acesso a um web site, se torna possível identificar características do universo
de utilizadores que faz esse acesso?
Para tal, o nosso trabalho vai incidir sobre os logs de acesso ao web site do Tribunal
de Contas de Portugal (TC). Tendo em conta as características essenciais do
conteúdo deste web site, vamos igualmente procurar definir um conjunto de
técnicas que permitam fazer uma classificação dos documentos aí disponibilizados
para consulta e download. A correcta aplicação desta técnica deverá depois permitir
levar a cabo uma caracterização dos utilizadores do web site, com base na
informação por eles consultada.
A analogia utilizada para a técnica de classificação é a da cadeia de ADN – uma
cadeia de elementos de informação, individualizados, que no seu conjunto
permitam identificar cada documento. Pelas suas características, esses elementos
de informação poderão servir para concretizar agrupamentos de documentos (por ser
feito através deles um mapeamento de grandes áreas temáticas e/ou intelectuais).
Os elementos de informação a utilizar têm a ver com as grandes áreas temáticas
pelas quais os documentos existentes neste web site se distribuem. Essas áreas
resultam das características da actividade da Instituição (áreas de incidência da sua
actividade, por exemplo), ou de questões relacionadas com a sua estrutura
enquanto organismo do Estado.
Página|3
Contextualização
Muito embora esta não seja uma área particularmente nova, em termos do interesse
que desperta junto da comunidade académica [b042], é sempre relevante, na
medida em que permite reunir informação importante para caracterizar um web site
ao longo da sua existência. Ou seja, é uma área que se caracteriza por um intenso
dinamismo – conteúdos, universo de utilizadores e ritmos de utilização variam ao
longo do tempo, sendo assim bons candidatos para operações de descoberta de
conhecimento.
A utilidade dos resultados obtidos com este género de operações de processamento,
extravasa o simples desejo de classificar o universo de utilizadores. Tais resultados
podem ser utilizados em fins tão diversos como:
Optimizar a estrutura do web site, se um dos resultados obtidos for a
definição dos caminhos de navegação mais percorridos pelos utilizadores.
Essa optimização pode, inclusivé, ser feita de forma automática [b040].
Optimizar a estrutura de bases de dados que sirvam conteúdos dinâmicos,
em função do tipo de consultas que são efectuadas.
Levar a cabo uma avaliação da usabilidade de um web site [b020a].
Averiguar o grau de adequação dos meios técnicos que suportam o web site
(acompanhando os percursos de navegação e verificando a ocorrência de
falhas e erros de acesso).
Aferir o grau de eficácia dos conteúdos face aos objectivos pretendidos: para
um web site de comércio electrónico, é extremamente importante caracterizar
o universo dos seus utilizadores [b046].
Resumindo, pretendemos, levar a cabo a classificação básica dos utilizadores de um
web site da Administração Pública portuguesa, em termos do tipo de navegação que
é feita, com o objectivo de recolher informações suficientes que permitam melhorar
a resposta proporcionada.
Página|4
Motivação
A nossa vontade de abordar este tema em dissertação resulta de interesses e
práticas de natureza profissional. Propomos levar a cabo a nossa abordagem
utilizando dados de acesso ao web site da instituição onde temos vindo a
desenvolver a maior parte do nosso percurso profissional, o Tribunal de Contas.
Trabalhamos com dados deste web site desde 1998, caindo dentro das nossas
competências a análise dos registos (logs) de acesso. No entanto, até à data, todas
as análises privilegiaram aspectos puramente quantitativos – por exemplo, quantos
acessos foram feitos a partir de um determinado país durante um certo período de
tempo.
O contacto com estes dados e as análises que até à data efectuámos despertaram o
nosso interesse em aprofundar o seu processamento. Os novos conhecimentos
proporcionados pelo Mestrado em Sistemas de Informação, no que diz respeito a
métodos e técnicas de análise de dados e obtenção de conhecimento, deixaram-nos
com a perfeita noção de que estes logs escondem um universo informativo
extremamente rico.
Ao mesmo tempo, não podemos deixar de sentir vontade de interligar a nossa
prática profissional (neste momento a incidir de forma quase exclusiva sobre a
Internet) à nossa formação académica de base (História e Gestão de
Documentação). Explorar logs de acesso de um web site é, à sua maneira, um
trabalho de historiador – identificar necessidades de informação ao longo do tempo,
acompanhar a evolução tecnológica dos meios de acesso, observar a relação entre
conteúdo e utilização desse conteúdo e as formas como os dois elementos se
influenciaram e influenciam entre si.
Página|5
Relevância
A abordagem que nos propomos levar a cabo assume um interesse particular no
que diz respeito à caracterização dos utilizadores do web site do Tribunal de Contas.
Uma vez que, na sua actual versão, não existe qualquer mecanismo de registo de
utilizadores, ou referenciação de acessos (via cookies, por exemplo), qualquer
esforço de identificação é sempre feito a posteriori, e apenas com base no
processamento dos registos desses acessos – processamento dos ficheiros de log do
servidor web.
Numa primeira análise, este tipo de dados permite descobrir características técnicas
relativas a cada acesso (proveniência, software utilizado, sistema operativo de base,
etc). Paralelamente, permite também quantificar esses acessos (quantos utilizadores
num dado período de tempo, quais as páginas e documentos mais concultados,
etc). No entanto, no que diga respeito à análise de parâmetros de acesso mais
subjectivos, como os interesses dos utilizadores, quaisquer conclusões têm que
passar por um trabalho intenso de contagens, relacionamento de acessos
e pré-processamento dos conteúdos que são acedidos.
Por um lado, o resultado final de um trabalho desta natureza é relevante para a
instituição em causa, na medida em que providencia um grau de conhecimento
quanto à forma como os conteúdos informativos que disponibiliza são aproveitados,
que de outra maneira não seria possível obter. Por outro lado, por incluir um
conjunto de operações de processamento de informação que se podem revelar
bastante demoradas, não é o género de análise que possa ser levada a cabo de
forma muito dinâmica – em tempo real, ou com uma periodicidade muito regular.
O conhecimento melhorado e aprofundado do universo de utilizadores de uma
instituição como o Tribunal de Contas, deverá igualmente contribuir para a melhoria
constante da qualidade dos serviços que são prestados ao público.
Página|6
Fontes primárias
As operações de processamento de informação que desenvolvemos para levar a
cabo este trabalho utilizaram duas fontes primárias distintas:
Ficheiros relativos aos logs de acesso ao web site do TC, abrangendo um
período de seis anos, entre 14 de Março de 2001 e 14 de Março de 2007.
Isto corresponde a um total de 2.163 ficheiros, com 18.153.325 linhas de
registos (já depois das etapas de pré-processamento, documentadas mais
adiante). Não há uma correspondência 100% exacta entre a quantidade de
dias decorridos e a quantidade de ficheiros de log, dado terem ocorrido
algumas junções de dias e poderem assim aparecer dois ou três dias juntos
no mesmo ficheiro.
Ficheiros relativos aos documentos disponibilizados no web site do TC. Estes
documentos foram utilizados em operações de text mining, com o objectivo
de proceder à extracção de palavras-chave. O seu formato nativo é o PDF,
tendo sido convertidos para formato textual simples, para facilitar não só as
as operações de text mining5, como também para permitir posteriores
operações de manipulação de texto.
Hardware e software utilizados
No Apêndice 1 descrevemos todas as configurações de hardware e software
utilizadas na realização desta dissertação, com indicação de constrangimentos e
soluções adoptadas.
5
Muito embora o software de text mining utilizado, SAS 9.1, possa trabalhar directamente sobre ficheiros em formato PDF,
algumas das operações que efectuámos com esse formato não obtiveram bons resultados, do ponto de vista da
legibilidade dos conteúdos. A isso não será estranho o facto de os ficheiros PDF utilizados terem sido criados com vários
tipos diferentes de software: Adobe Acrobat versões 5, 6, 7 e 8, bem como utilitários de conversão directa do formato DOC
para o formato PDF. A conversão prévia para formato TXT revelou-se como a abordagem mais acertada.
Página|7
Organização da dissertação
Esta dissertação vai-se organizar de acordo com a seguinte estrutura:
Introdução, cobrindo a abordagem inicial ao tema, os objectivos a que nos
propomos, a contextualização do tema, a nossa motivação para levar a cabo
este trabalho e a sua relevância.
Definição de conceitos, capítulo no qual apresentamos definições para o
conjunto de conceitos que estão na base do desenvolvimento do nosso
trabalho.
Fundamentação teórica, capítulo no qual abordamos os fundamentos das
tecnologias sobre as quais o nosso trabalho incide e onde fazemos a
definição dos conceitos fundamentais que utilizamos.
Estado da arte, capítulo no qual abordamos trabalhos levados a cabo nesta
área, com apreciação dos seus resultados, em função dos objectivos que
pretendemos alcançar.
O Tribunal de Contas, capítulo no qual fazemos uma descrição da instituição
em estudo e das características essenciais da sua produção documental.
O web site do Tribunal de Contas, capítulo no qual caracterizamos esta
estrutura de informação.
Estabelecer o DNA dos documentos do web site do TC, capítulo no qual
descrevemos a nossa abordagem ao processamento de documentos do web
site.
Estabelecer o DNA dos utilizadores do web site do TC, capítulo no qual
levamos a cabo a caracterização dos utilizadores.
Análise dos resultados, capítulo no qual procuramos fazer uma avaliação
crítica dos resultados obtidos.
Conclusão, momento em que avaliamos o grau de concretização dos
objectivos, bem como identificamos pistas para trabalhos futuros.
Página|8
Definição de conceitos
Do ponto de vista da história da tecnologia, a área sobre a qual incide esta
dissertação é relativamente recente.
Ao mesmo tempo, é uma área que se
caracteriza por um intenso dinamismo – não apenas em termos de mudanças nas
características básicas das tecnologias envolvidas, como também nos usos que lhes
são dados.
Este dinamismo, benéfico para a utilização e aproveitamento da WWW em geral,
acaba por ter o efeito algo perverso de provocar uma variedade de interpretações do
significado de alguns dos conceitos utilizados. Vamos apresentar neste capítulo as
definições que tomámos por base para o nosso trabalho.
ADN - ÁCIDO DESOXIRRIBONUCLEICO
O ADN é uma molécula orgânica, responsável pela reprodução do código genético.
Os progenitores transmitem partes copiadas do seu ADN para os seus descendentes
durante o processo de reprodução, provocando assim a propagação das suas
características.
A informação no ADN é armazenada como um código, composto por quatro bases
azotadas: Adenina (A), Guanina (G), Citosina (C) e Timina (T). Estas bases juntamse em pares, A-T e C-G, para formar os chamados pares-base. Cada base também
se liga a uma molécula de açúcar e uma molécula de fosfato. Este conjunto - base,
açúcar e fosfato - forma um nucleótido.
O ADN é composto por um par de cadeias destes nucleótidos, entrelaçados numa
dupla-hélice. A estrutura assemelha-se a uma escada, na medida em que os paresbase formam os degraus, estando ligados uns aos outros pelas moléculas de açúcar
e fosfato.
A funcionalidade de indentificação associada ao ADN (no que ele tem de unívoco
para estabelecer as características de um determinado ser vivo), auxiliou a sua
adopção, do ponto de vista conceptual, como metáfora para a identificação de
segmentos de informação. É assim que surge a expressão "ADN de um documento"
Página|9
(b020a), como maneira de designar um conjunto de atributos que identifiquem de
forma absoluta um documento perante outros.
ADN DE UM DOCUMENTO
No âmbito em que estamos a trabalhar, a aplicação de uma metáfora baseada na
biologia, não é levada às últimas consequências. Não vamos procurar a definição de
cadeias de identificação únicas para cada documento. Quando falamos em ADN de
um documento, no contexto deste trabalho, referimo-nos a uma cadeia de valores
numéricos, entre 0 e 9, os quais ocupam um determinado número de posições
numa cadeia de caracteres, a qual irá servir para posicionar o documento no
contexto temático de um web site. Assim sendo, ao contrário de um ADN biológico,
este ADN documental pode-se repetir - vários documentos podem partilhar o mesmo
âmbito temático, com um elevado grau de precisão.
ADN DE UM UTILIZADOR
O contraponto ao ADN dos documentos é o ADN dos utilizadores que os tiverem
consultado. Com esta expressão designamos uma cadeia de valores numéricos,
entre 0 e 9, os quais ocupam um determinado número de posições numa cadeia de
caracteres, e que é utilizada para expressar as preferências de cada utilizador em
função dos documentos que consulta. Tal como acontece para o ADN dos
documentos, também este se pode repetir - vários utilizadores podem ter o mesmo
perfil de consulta.
BROWSER
Programa utilizado para localizar e visualizar PÁGINAS WEB. Tendo começado como
simples visualizadores de conteúdos de natureza textual, não suportando sequer a
inclusão de imagens nas páginas [b035, pp. 244-245], surgem hoje como
produtos multifuncionais. Para isto contribuiu a própria evolução da WWW, que tem
uma grande tendência aglutinadora, possibilitando a reunião, sob um mesmo
interface, de um vasto conjunto de funcionalidades: consulta de páginas web,
download de ficheiros, acesso a correio electrónico, participação em fóruns de
Página|10
discussão, consulta de documentos nos formatos mais variados, acesso a dados
multimédia... a lista de funcionalidades é grande e não pára de aumentar.
CIBERESPAÇO
Este termo apela, antes do mais, a uma certa visão “poética” ou literária de algo que
não é inteiramente real6. Foi criado pelo autor de ficção científica William Gibson,
que o utilizou pela primeira vez na história Burning Chrome, em 19827. O
ciberespaço será assim um “espaço” formado pela totalidade da “realidade
electrónica” existente no mundo (termo que inclui todos os dados armazenados e
comunicados electronicamente). O ciberespaço é formado não só pelo universo
comunicacional propiciado pela Internet, mas também por realidades mais antigas,
como o conjunto de meios de comunicação formados pelas redes telefónicas, de
televisão, etc. [b003a]
CLASSIFICAÇÃO DE DOCUMENTOS
Nome dado à tarefa de classificar um documento de natureza textual numa
quantidade de categorias temáticas, relevantes para o seu conteúdo [b050a]. De
acordo com o contexto de criação e utilização, essa classificação pode ser manual
(recorrendo directamente ao conteúdo, ou recorrendo a classificadores externos
[b034a], como listas de descritores ou a thesauri), ou pode ser automática.
CLICKSTREAM
Sequência de CLIQUES realizada por um UTILIZADOR ao longo do seu processo de
interacção com as páginas de um [b058a] ou vários [b030] WEB SITES.
CLIQUE
A activação de uma HIPERLIGAÇÃO por um UTILIZADOR válido [b058a].
6
7
“[...] O ciberespaço. Uma alucinação consensual, vivida diariamente por biliões de operadores legítimos, em todas as
nações, por crianças a quem se estão a ensinar conceitos matemáticos. Uma representação gráfica de dados abstraídos
dos bancos de todos os computadores do sistema humano. Uma complexidade impensável. Linhas de luz alinhadas no
não espaço da mente; nebulosas e constelações de dados. Como luzes de cidade, retrocedendo”. [b022, pág. 65]
“[…] A science fiction writer coined the useful term "cyberspace" in 1982, but the territory in question, the electronic
frontier, is about a hundred and thirty years old. Cyberspace is the "place" where a telephone conversation appears to
occur. Not inside your actual phone,the plastic device on your desk. Not inside the other person's phone,in some other
city. THE PLACE BETWEEN the phones. The indefinite place OUT THERE, where the two of you, two human beings,
actually meet and communicate.” [b046a]
Página|11
FICHEIRO DE LOG (LOG FILE)
No contexto deste trabalho, este termo designa um ficheiro criado por um SERVIDOR
WEB, contendo o registo de toda a actividade relacionada com o acesso ao conteúdo
do web site (ou web sites) que alberga [b064]. Podem ser utilizados como fonte de
informação de natureza quantitativa [b017a, b025], devendo ser alvo de sucessivas
operações de processamento e interpretação.
HIPERLIGAÇÃO
Na década de 60 do séc. XX, Theodor “Ted” Nelson criou a expressão “hipertexto”,
definindo-a como uma forma de escrita não-sequencial. Denominando a sua
abordagem como Projecto Xanadu [b061], definiu a possibilidade de estabelecer
ligações - hiperligações - entre segmentos diferentes de informação de natureza
hipertextual [b036]. Muito embora este projecto nunca tenha atingido os objectivos
pretendidos, a terminologia acabou por se manter e por ser aproveitada noutros
contextos - nomeadamente no software HyperCard da companhia Apple Computers
[b035] e, obviamente, na própria WWW.
HIT
De uma forma genérica, é considerado como qualquer pedido de ficheiro feito a um
SERVIDOR WEB. Um pedido de uma PÁGINA WEB pode dar origem a múltiplos hits, na
medida em que ela pode ser composta por múltiplos ficheiros (com texto, imagem,
código...), que são enviados pelo servidor web [b064]. Ou seja, cada acesso a uma
página web pode dar origem a múltiplos hits. No entanto, há contextos de utilização
em que uma página web pode ser formada por uma quantidade variável de
elementos entre cada pedido de página [b041] (web sites de conteúdo dinâmico, de
agências noticiosas, por exemplo). Ou seja, a contagem de hits por si só, pode não
transmitir uma noção correcta do volume de utilização de um web site.
INTRANET INSTITUCIONAL
Nome pelo qual designamos o sistema interno de disponibilização de documentos
utilizado na rede informática do Tribunal de Contas. O seu nome oficial é S3i, ou
Página|12
Sistema de Informação Integrado na Intranet. A sua composição tecnológica é a
seguinte:
Gestão de conteúdos através do software Microsoft Share Point Portal Server
2003;
Software SERVIDOR WEB Microsoft Internet Information Server (IIS) v6.0;
Sistema operativo Microsoft Windows Server 2003 R2 Enterprise Edition.
PAGE VIEW (VISTA DE PÁGINA OU CONSULTA DE PÁGINA)
Nome dado ao pedido de consulta de cada página isolada de um web site [b064].
Resulta de um CLIQUE numa HIPERLIGAÇÃO, ou na indicação explícita de um URL em
software que saiba processar essa informação (quer se trate de um BROWSER, quer
se trate de outro tipo de programas). Uma única page view traduz-se habitualmente
numa quantidade variada de HITS.
PÁGINA WEB
Nome dado às unidades individuais de visualização do conteúdo de um WEB SITE.
Pode ser formada por conteúdos estáticos (texto e imagens) ou dinâmicos
(animações e vídeos). Pode ter características multimédia (misturando vários tipos e
proveniências de informação, incluíndo áudio) e pode oferecer pontos de acesso a
fontes de dados externas à própria página - por exemplo, interfaces para consulta de
bases de dados. Enquanto metáfora de acesso e disponibilização de informação, as
páginas web assumem hoje um papel muito importante - boa parte dos interfaces
de acesso a todo o tipo de informação têm uma versão web. A sua consulta e
visualização é feita a partir de programas próprios - habitualmente os BROWSERS da
web, muito embora seja possível codificar e filtrar conteúdos web de múltiplas
maneiras e utilizar outro tipo de programas (clientes de correio electrónico, leitores
de feeds RSS, entre outros).
Página|13
PEDIDO DE PÁGINA
A oportunidade de uma PÁGINA WEB aparecer na janela de um BROWSER, como
resultado da interacção de um UTILIZADOR com um WEB SITE [b057b].
REFERENCIADOR (REFERRER)
Nome dado a qualquer ponto de origem online (WEB SITE, anúncio, resultado de
pesquisa) que leve UTILIZADORES ao web site em análise, gerando VISTAS
DE
PÁGINA.
Deve ser identificável univocamente, através de um URL específico, que identifique
com precisão o ponto de origem do acesso.
SERVIDOR WEB
Este termo assume uma dupla vertente:
Nome dado ao computador onde se encontram alojadas fisicamente as
PÁGINAS WEB (e restante conteúdo) que dão forma a um WEB SITE. Neste
contexto, o termo pode surgir como um “agregador”, na medida em que pode
esconder realidades complexas – ambientes de clustering, onde várias
dezenas, centenas ou milhares de máquinas individuais respondem como se
fossem uma só (veja-se o exemplo extremo do motor de pesquisa Google,
onde mais de uma centena de milhar de servidores individuais [b001a] são
agrupados em clusters de mais de 15.000 máquinas [b003b], que
respondem de forma unificada aos pedidos que são feitos).
Nome dado ao software que corre num computador que aloja páginas web e
que é responsável pela recepção e processamento dos pedidos de página.
SESSÃO DE UTILIZADOR (USER SESSION)
Um período de actividade de um UTILIZADOR num WEB
SITE.
Habitualmente,
considera-se a sessão terminada quando o utilizador estiver inactivo por mais de 30
minutos [b064]. Trata-se de um conceito fortemente idêntico ao de VISITA.
Página|14
TEXT MINING
Conjunto de técnicas de análise de documentos, com o objectivo de extrair
conhecimento "escondido" de dados de natureza textual [b048]. Este conhecimento
pode assumir a forma de padrões, modelos, direcções, tendências ou regras, a
serem encontrados em texto não estruturado [b034b].
URL
Acrónimo que significa Uniform Resource Locator (traduzível por Localizador
Uniforme de um Recurso), endereço unívoco de identificação de um recurso na
Internet. A sua composição inclui o protocolo (HTTP, FTP, WML, MMS...), o nome
do domínio onde o servidor se encontra (ou o seu endereço IP), nomes de
directorias e/ou ficheiros e um formato de dados (HTML e variantes, CGI, PL, PHP,
consoante a tecnologia que estiver na base do conteúdo).
UTILIZADOR
Nome dado à entidade, individual ou colectiva, em relação à qual é feita a
atribuição de uma VISITA ou USER SESSION. No caso do web site do TC, não é feito
qualquer registo de utilizadores, nem são utilizadas quaisquer tecnologias de rastreio
(baseadas em cookies, por exemplo). Por esta razão, a identificação de utilizadores
é feita a partir dos endereços IP registados nos FICHEIROS DE LOG. Assim sendo, esses
endereços tanto se podem referir a um utilizador individual (a fazer um acesso
doméstico, por exemplo), como a um acesso institucional (onde um único endereço
IP pode “esconder” centenas de utilizadores).
VISITA
Sequência de interacções entre um UTILIZADOR e um WEB SITE, que termina quando
houver um intervalo de 30 ou mais minutos entre CLIQUES, ou quando o utilizador
abandonar o web site (passando para outro) [b064]. Não há uma razão explícita
para ser utilizado o valor de 30 minutos [b041, p. 7], mas é considerado como um
valor standard.
Página|15
VISTA DE PÁGINA (PAGE VIEW)
Momento em que uma PÁGINA WEB é vista por um UTILIZADOR. De acordo com
[b057b], é uma variável não mensurável, sendo preferível falar em apresentação de
página - momento em que a página é apresentada no écran do computador do
utilizador. Em [b041] esta distinção não é contemplada, sendo a vista de página
considerada como a apresentação com sucesso de todo o conteúdo que forma uma
página web, independentemente da forma como é apresentada. Esta é a definição
em que nos baseamos.
WEB BUG
Nome dado a uma imagem existente numa página web ou numa mensagem de
correio electrónico (em formato HTML), que tenha por objectivo monitorizar a
consulta da página, ou a leitura da mensagem. Muitas vezes são imagens de
reduzidas dimensões e/ou invisíveis (imagens que ocupam um pixel de área, ou
imagens transparentes). Permitem recolher informação como:
O endereço IP do computador onde foi activado/apresentado;
O endereço da página em que ele se localiza;
A hora e data da visualização;
O ambiente operacional em que foi visualizado (versão de sistema operativo
e do browser);
Informação previamente armazenada num cookie.
Encontram utilização em áreas como:
a criação de perfis de utilização (de um web site ou de conjuntos específicos
de informação);
a recolha de dados para contabilização de acessos a páginas ou web sites;
a recolha de dados para caracterização de acessos.
Página|16
WEB LOG MINING
Aplicação de técnicas de WEB MINING ao conteúdo de FICHEIROS DE LOG, relativos aos
acessos que são feitos a um WEB SITE.
WEB MINING
Conjunto de técnicas de análise e extracção de informação de dados relacionados
com a WWW: a partir do conteúdo de PÁGINAS WEB, a partir de estruturas de
hiperligações e a partir de estatísticas de acesso a conteúdos web [b048 e b051b].
WEB SITE
Um web site é uma colecção de PÁGINAS WEB, localizadas num domínio ou subdomínio específico da Internet, disponibilizadas a partir de um SERVIDOR WEB,
através do conjunto de tecnologias que compõem o universo informativo
denominado World Wide Web.
WEB SITE EXTERNO DO TC
Nome pelo qual designamos o web site institucional do Tribunal de Contas,
disponível em http://www.tcontas.pt, cujo conteúdo informativo e condições de
utilização serviram de base à elaboração desta dissertação. A sua composição
tecnológica é a seguinte:
Software SERVIDOR WEB Microsoft Internet Information Server (IIS) v6.0;
Sistema operativo Microsoft Windows Server 2003 R2 Enterprise Edition.
Não é utilizado qualquer sistema de gestão de conteúdos. As páginas são estáticas
na sua maioria, sendo apenas utilizadas algumas tecnologias de apoio à
compiosição de conteúdos (nomeadamente Server Side Includes). Alguns
subsistemas recorrem a bases de dados de estrutura flat-file (pesquisa de Acórdãos
e Sentenças em http://www.tcontas.pt/pt/actos/acordaos.shtm, e base de dados
bibliográfica do Auditing Standards Comittee da INTOSAI – International
Organization
of
Supreme
Audit
Institutions
em
http://www.tcontas.pt/cgi-
bin/asc/db.cgi). Em situações específicas, são disponibilizados interfaces para bases
de dados de SQL Server.
Página|17
A teoria (e prática) subjacente à utilização
de logs de acesso a web sites.
A existência de logs de acesso a web sites não assume uma relevância “externa” ao
contexto em que se inserem, na medida em que se trata de um tipo de informação
cuja recolha não é essencial ou obrigatória, mas que, quando existe, tem utilidade
primariamente para os responsáveis pelo web site8. Quando é bem aproveitada, tem
uma enorme importância e reveste-se de extrema utilidade.
Desde as suas primeiras versões, os servidores web registam pormenores de
operação nos chamados ficheiros de log, ou ficheiros de registo (mantemos a
expressão log por comodidade de referências). A isso não será estranho o facto de o
desenvolvimento inicial deste software ter sido feito em máquinas com variantes do
sistema operativo Unix (workstations NeXT, com um sistema operativo baseado no
kernel Mach), sendo a existência de logs uma das características notórias de
qualquer componente servidor que nele corra.
O uso inicialmente dado a este registo de informação foi o de, muito simplesmente,
fornecerem contagens de acessos a páginas de web sites [b041, p. XV e Apêndice
2], operação que se foi tornando cada vez mais complexa à medida que a WWW
crescia e se tornava mais rica (cada vez mais páginas por web site, com maior
diversidade de conteúdos – imagens, por exemplo). É assim que fomos assistindo a
um refinamento progressivo dos conceitos (e metodologias) associados ao
processamento de logs:
ƒ
Inicialmente o parâmetro mais fácil de medir foi o da quantidade de pedidos
feitos pelos utilizadores e registados no servidor web, designados como hits.
Na altura, tal como hoje, uma página web que apenas contivesse texto
traduzia-se num único hit. Se a página contivesse gráficos, ou tivesse o seu
conteúdo repartido por frames, daria origem a tantos hits quantos fossem os
objectos que a fazer parte da sua composição.
ƒ
Para acompanhar a crescente complexidade das páginas e a crescente
necessidade de obter informações mais precisas e exactas, foram adoptados
8
Há casos em que a informação constante nos logs de acesso a web sites é considerada útil para divulgação pública
[b037a], numa óptica de transparência das condições de funcionamento.
Página|18
outros conceitos, sempre com o intuito de permitir fazer contagens, de forma
tão exacta quanto possível. Surge assim a contagem de visionamentos de
página (ou page views, em que um visionamento pode agrupar vários
pedidos) e a contagem de sessões (em que uma sessão pode agrupar vários
visionamentos de página por utilizador).
Na imagem seguinte exemplificamos esta forma de recolher informação:
Imagem 1: Sumário da contagem de acessos ao web site BoingBoing (http://www.boingboing.net)
Nas várias colunas podem ser vitas contagens de pedidos (coluna Hits), de páginas (coluna Pages)
e de visitas (colunas Number of Visits e Unique visitors)
Fonte: http://www.boingboing.net/stats/
Software utilizado: Advanced Web Statistics 6.4 (http://awstats.sourceforge.net/)
O desenvolvimento da WWW propiciou o aparecimento de novas formas de aceder e
disponibilizar informação. Com o passar do tempo, elas começaram a desempenhar
um papel cada vez mais importante, no que toca ao impacto sobre as funções de
navegação. Entre elas contam-se:
ƒ
O aparecimento e crescente actividade das “aranhas” de indexação de web
sites (mecanismos automáticos de pesquisa e indexação de conteúdos na
web, geralmente associados a motores de pesquisa como o Google, Yahoo,
MSN Live Search, etc.). Qualquer operação feita por uma destas aranhas
sobre uma página web provoca entradas de log, como se de uma consulta
por um utilizador humano se tratasse. O único factor de diferenciação
consiste na utilização de designações que a identifiquem como aranha.
Atente-se no seguinte exemplo:
Página|19
2004-10-28 00:00:36 W3SVC1447415605 MARTE 10.128.0.2 GET
/pt/actos/rel_auditoria/2004/rel008-2004-2s.pdf - 80 - 66.249.64.131
HTTP/1.0 Googlebot/2.1+(+http://www.google.com/bot.html) - www.tcontas.pt 200 0 64 0 222 437
2004-10-28 01:03:59 W3SVC1447415605 MARTE 10.128.0.2 GET
/pt/actos/rel_auditoria/2004/rel008-2004-2s.pdf - 80 - 82.155.17.82
HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) ) - www.tcontas.pt 200 0 64 0 222 437
Ambas as linhas foram extraídas do log de acessos ao web site do Tribunal
de Contas, relativo ao dia 28 de Outubro de 2004. Ambas dizem respeito a
uma operação do protocolo http, o comando GET, relativa ao acesso a um
dos documentos constantes desse web site – o Relatório de Auditoria nº
8/2004. Na primeira linha o acesso foi feito pela aranha associada ao
Google, denominada Googlebot. Na segunda linha, o acesso foi feito por um
operador humano, utilizando o browser Microsoft Internet Explorer 6.0 a
correr sobre o sistema operativo Windows XP. A não ser esse detalhe, a
informação genérica sobre o acesso é virtualmente idêntica.
A recolha desta informação em logs de acesso é recebida com alguma
ambivalência, na medida em que pode ter vários contextos de uso: tanto é
considerada válida por si só para acompanhar o comportamento das aranhas
de indexação [b034b], como pode pode exigir um processamento separado,
tendo em vista não afectar a medição de variáveis de acesso recolhidas na
óptica da utilização de um web site por seres humanos [b025]. Situações em
que se pretenda obter uma ideia clara dos percursos efectuados pelos
utilizadores dentro do web site, podem obrigar a etapas prévias de limpeza
dos ficheiros de log, tendo em vista a remoção de referências a aranhas de
indexação [b005].
ƒ
O desenvolvimento de soluções técnicas para o acesso à Internet, que
assentam em web proxies e em endereços atribuídos dinamicamente
tornaram muito difícil, ou mesmo impossível, fazer corresponder um acesso a
Página|20
uma página a um utilizador específico, identificável pelo registo deixado no
log. Veja-se a seguinte imagem:
Imagem 2: Configuração de definições para acesso à Internet no browser Microsoft Internet Explorer.
A imagem anterior retrata uma realidade típica na maior parte das
organizações onde a ligação à Internet seja feita através de uma rede local: o
acesso passa por um servidor proxy, computador que controla as ligações de
dezenas ou centenas de utilizadores individuais. Quando estes utilizadores
acedem a um web site, nos logs de acesso deste fica apenas registado o
endereço IP atrás do qual se situa o servidor proxy – para todos os efeitos, as
dezenas ou centenas de acessos ficam registadas como se fossem de um
único utilizador.
ƒ
A possibilidade de atribuir endereços de rede de forma dinâmica (através do
protocolo de rede DHCP [b052a]) é particularmente atraente para as
empresas que fornecem acesso à Internet. Em vez de manter manualmente
listas de milhares de endereços fixos, esses endereços passam a ser
atribuídos de forma dinâmica, à medida que os utilizadores estabelecem
ligações à rede. Isto pode dificultar a identificação fácil da proveniência dos
acessos registados em logs, sendo quase sempre necessário realizar etapas
de processamento a posteriori, para identificar com precisão gamas de
endereços e a sua proveniência.
Ambas as soluções, inteiramente válidas e práticas de um ponto de vista técnico,
dificultam o trabalho a quem pretenda conhecer com precisão a forma como se
acede ao seu web site. A utilização de proxies torna impossível fazer contagens
Página|21
precisas de quantas pessoas acedem e a utilização de endereços dinâmicos dificulta
a identificação de quem acede (se esse grau de detalhe for necessário, o que varia
de acordo com a natureza do web site).
Outro pormenor do funcionamento dos browsers também se veio a revelar algo
nefasto para a obtenção de estatísticas válidas. Com efeito, a possibilidade de
manter localmente em cache as páginas consultadas facilita o trabalho dos
utilizadores, por tornar mais rápidos os acessos consecutivos à mesma página. No
entanto, ao recorrer a este artifício, uma sessão de consulta de páginas de um
mesmo web site pode ficar insuficientemente registada nos logs deste – só ficam
registados em log os acessos a páginas que não estavam na cache do utilizador
[b025]. Se bem que isto seja útil para quem navega (por ser mais rápido) e alivie a
carga de acessos ao servidor web, impede que os responsáveis pelo web site
consigam obter respostas concretas a perguntas como “quais os caminhos de
navegação que os utilizadores percorrem no nosso web site?” [b005]. Veja-se a
imagem seguinte:
Imagem 3: Caixa de diálogo de definições de cache de páginas web no browser Microsoft Internet Explorer.
As opções variam entre utilizar sempre em primeiro lugar a versão da página que estiver em cache
(opção Nunca) e não utilizar a versão em cache (opção Sempre que voltar a página)
Tendo em vista a obtenção de métricas mais exactas, bem como a possibilidade de
identificar com precisão os utilizadores individuais que acedem aos web sites, foram
desenvolvidas novas soluções. Elas assentaram essencialmente em esforços para
conseguir identificar univocamente cada utilizador que acedesse a cada página
(proporcionando contagens mais exactas e possibilitando a criação de perfis de
Página|22
navegação). Este objectivo raramente é conseguido na totalidade, mas isso não
impediu a proliferação da tecnologia.
Desta forma, a partir de determinado momento, a obtenção de informação sobre o
acesso a web sites não ficou exclusivamente na mão dos logs mantidos pelos
servidores. Numa tentativa de obter métricas fiáveis, surgiram soluções em que o
esforço de recolha de informação foi deslocado para cada página web, através de
métodos mais ou menos engenhosos de apresentar certos conteúdos:
ƒ
A colocação de contadores de acesso visíveis em certas páginas.
ƒ
O registo de acessos a páginas feito de maneira “secreta”, sem conhecimento
directo por parte do utilizador.
A partir de meados da década de 90 do século XX, muitas páginas começaram a
mostrar contadores numéricos, que pretendiam indicar a quantidade de vezes que a
página era consultada. De natureza textual, ou de natureza gráfica, podiam servir
como uma medida de popularidade da página (quanto maior o número apresentado,
mais pessoas teriam acedido à página). Na imagem seguinte mostramos alguns
exemplos de estilos gráficos aplicáveis a este género de contadores.
Imagem 4: Uma minúscula amostra de estilos aplicáveis a contadores de acessos a páginas web
(Fonte: http://freelogs.com/)
Página|23
Com o passar do tempo, esta ideia foi tendo cada vez menos aplicação, por se
terem tornado óbvias várias limitações:
ƒ
Os números apresentados por um contador de acessos não são forçosamente
exactos. A partir do momento em que compete ao webmaster de um web site
a sua preparação inicial, é fácil fazer o contador começar logo por apresentar
um número de acessos bastante grande…
ƒ
Se o contador for mantido com numeração exacta, pode dar-se o caso de o
web site ter muito pouco tráfego e o número apresentado raramente
aumentar. Isto não abona muito a favor do prestígio do web site.
ƒ
A passagem do tempo fez com se desenvolvessem novas metodologias para
o cálculo de acessos. Utilizar os contadores tornou-se num obstáculo e não
numa vantagem.
ƒ
Tal como a tecnologia evolui, também os gostos do público evoluem. Hoje, a
utilização de contadores de acesso como elementos integrantes do desenho
da página só raramente é utilizada em institucionais, ficando cada vez mais
reservada para sites individuais. Veja-se o seguinte exemplo:
Imagem 5: Página de uma pequena empresa com um contador localizado no canto
inferior esquerdo (destaque) (Fonte: http://www.4ateapot.co.uk/)
Página|24
Imagem 6: O mesmo contador, ampliado. Neste caso trata-se de uma aplicação do serviço
FastCounter, que permite o processamento da contagem por outro web site que não o que
apresenta o contador. Este serviço está integrado no pacote Small Business Server da
Microsoft.
Note-se que este tipo de informação tem um valor que apenas é habitualmente
associado a funções de marketing – mostrar em que medida o web site agrada aos
utilizadores, por exemplo.
O recurso às próprias páginas para recolher informação de acessos, deu origem a
outro aproveitamento técnico, este muito mais polémico. Pode ser identificado de
várias maneiras, mas a que melhor expressa a forma como acabou por ser encarado
é o termo web bug. Um web bug consiste num gráfico, habitualmente transparente
(e, como tal, invisível na página), para além de ter dimensões muito reduzidas
(ocupando normalmente apenas um pixel do écran). Na prática, esta imagem é
colocada na página depois de ter sido executado um programa num web site
externo que que está a ser consultado. Veja-se o seguinte exemplo de código HTML,
detectado por volta de 1999, no web site do programa Quicken:
<img src="http://ad.doubleclick.net/ad/pixel.quicken/NEW" width=1 height=1
border=0>
A origem da imagem está situada num web site (ad.doubleclick.net) que não era o
da página que estava a ser consultada (http://www.quicken.com). A linha de código
não se refere directamente a uma imagem: ela faz uma chamada a um programa,
que retorna uma imagem, um GIF transparente, que irá ocupar apenas 1 pixel do
écran – na prática, fica invisível.
Regra geral, o processamento deste tipo de informação fica a cargo de empresas
que se dedicam ao processamento comercial de estatísticas de acesso, ou à recolha
de dados com vista à constituição de perfis de potenciais clientes (para fins
publicitários ou outros). Ou seja, é feita recolha de informação, sem que o utilizador
disso se aperceba, pois apenas é colocado mais um elemento gráfico na página web
Página|25
que estiver a consultar e não tem que haver nenhum elemento que indique que está
a ser fornecida informação a terceiras partes.
A polémica levantada em torno desta abordagem, juntamente com uma
preocupação crescente com a necessidade de garantir a privacidade por parte de
quem consulta páginas web, fez com que, com o passar do tempo, o uso de web
bugs fosse diminuindo. Isto não quer dizer que tenham desaparecido por completo,
nem que ideia subjacente ao seu uso (passar informação a terceiras partes) tenha
deixado de interessar. Muito simplesmente, as soluções tecnológicas vão mudando
com o tempo.
Da lista dessas soluções também fazem parte os magic cookies de http ou, mais
simplesmente, cookies [b052b]. Eles consistem em pequenos pacotes de
informação que são enviados por um servidor web para um browser, sendo depois
reenviados pelo browser de cada vez que voltar a aceder a esse servidor. Veja-se a
imagem seguinte:
Imagem 7: Lista de cookies entregues ao browser Microsoft Internet Explorer. Para cada um é identificado o nome do
utilizador, o endereço do servidor web que o enviou e várias datas (o prazo de validade, datas de acesso, etc.)
Um cookie contém informação arbitrariamente estabelecida pelo servidor web, a
qual serve para atribuir um determinado estado a uma operação (navegação na
web) que, no seu essencial, é stateless. Desta forma, em vez de cada consulta de
página ser um evento único, torna-se possível saber quem está a consultar, o que é
Página|26
que consultou da última vez que esteve no web site, etc. Por exemplo, o que se
segue é o conteúdo do segundo cookie da lista que apresentámos em cima:
PREFID=7a897a06d8729fa4:CR=1:TM=1126273418:LM=1126273418:S=awQvzumMjLpK_wbMgoo
gle.com/1024261887833632111634209219924829734212*
Os cookies podem ainda ser utilizados para:
ƒ
Manter listas de produtos, ao estilo do “carrinho de compras”, solução muito
utilizada em web sites de comércio electrónico.
ƒ
Armazenar informação de autenticação dos utilizadores no primeiro acesso a
um web site, tornando mais rápidos os acessos seguintes.
ƒ
Personalizar o acesso à informação, apresentando informação diferente para
cada utilizador, com base em opções seleccionadas com antecedência (por
exemplo, numa fase de registo).
Enquanto mecanismo de identificação de utilizadores (se não de um utilizador
individual, pelo menos de um ponto de acesso único – um posto de trabalho), os
cookies aparentemente responderam a várias necessidades de obtenção de
métricas. No entanto, uma das suas características essenciais pode dificultar esse
uso: o facto de a sua existência poder ser inteiramente controlada pelo utilizador. De
facto tal como é possível ver quais os cookies instalados num computador, também
é possível apagar todos os que lá estiverem, ou até configurar os browsers para
recusarem todos os cookies.
Neste sentido, podemos afirmar que os cookies não constituem uma solução sólida
para auxiliar a obtenção de métricas de acesso. Um web site pode estar configurado
para exigir a colocação de cookies em todos os browsers que o visitarem, sem o que
o seu conteúdo não aparece, ou aparece de forma parcial. Isto é aceitável para
muitos utilizadores, mas outros limitar-se-ão a ignorá-lo e a procurar outro que não
faça tais exigências. Noutros casos, o mesmo utilizador pode não dar hipóteses a
que sejam constituídos perfis de uso das suas actividades de navegação, eliminando
Página|27
os cookies entre cada visita a um web site, ou recusando pura e simplesmente a
sua entrega9.
Tal como os web bugs permitiram a recolha de informação por terceiras partes,
também os cookies o acabaram por permitir. Através dos denominados “third-party
cookies”, vários web sites procuraram passar informação sobre o seu uso, de forma
automática, a empresas de recolha de dados. Esta abordagem tornou-se polémica
pelas questões que levantou em torno da privacidade – ao consultar um web site, os
utilizadores vêem de repente o seu computador ser invadido por pequenos
“artefactos” de recolha de informação, plantados lá por uma empresa que muitas
vezes desconhecem.
O software existente
A obtenção de métricas de acesso a web sites continua a ser uma tarefa
inteiramente válida e, muitas vezes, essencial para avaliar o estado do desempenho
de um determinado web site: desde saber muito simplesmente se recebe visitas, até
caracterizar em profundidade as visitas que são feitas.
A importância desta actividade reflecte-se por um lado na quantidade de software
existente, por outro na quantidade da produção teórica que aborda o tema.
A lista seguinte contém alguns dos títulos de software actualmente disponíveis. As
suas capacidades são variáveis, tal como são os seus objectivos – uma maior
orientação para a contabilização numérica, uma maior orientação para a obtenção
de dados úteis para finalidades relacionadas com marketing, a possibilidade de
acompanhar o bom funcionamento do web site com detecção de potenciais erros,
etc.
9
Sobre este assunto, é muito recente a polémica que envolveu um relatório apresentado pela empresa americana de
medição de audiências online comScore, relativo à eliminação de cookies pelos utilizadores (disponível online em
http://www.comscore.com/press/release.asp?press=1389). Outras empresas e grupos de discussão (vejam-se os
comentários no grupo webanalytics a partir de http://tech.groups.yahoo.com/group/webanalytics/message/10403)
apresentaram rapidamente mais informação a completar ou a contrariar estes pontos de vista. Com ou sem relação com
esta questão, o Internet Advertising Bureau [b057a] apresentou uma carta aberta às empresas comScore [b054a] e
Nielsen/NetRatings [b059a] (http://www.iab.net/news/pr_2007_04_20.asp), pedindo uma validação por terceiras partes
dos seus processos de medição.
Página|28
ƒ
Analog
http://www.analog.cx
Software gratuito, instalável no servidor web a analisar, ou em qualquer outra
máquina, desde que tenha acesso aos ficheiros de log. Muito configurável e
flexível, está orientado sobretudo para a contagem de elementos relativos aos
acessos a páginas.
ƒ
AWStats
http://awstats.sourceforge.net
Software gratuito, instalável no servidor web a analisar, ou em qualquer outra
máquina, desde que tenha acesso aos ficheiros de log. Está também
orientado para a contagem de elementos relativos ao acesso às páginas web,
oferecendo mais funcionalidades relacionadas com a geo-localização.
ƒ
HBX Analytics
http://www.websidestory.com
Software comercial, que faz análise de informação relativa à navegação no
web site, ao grau de desempenho de web sites de comércio electrónico, ao
impacto de campanhas específicas (de informação ou de marketing) e a
múltiplos aspectos dependentes das características do web site (por sua vez
ligados ao tipo de actividade da organização que o controla). É posicionado
sobretudo como uma ferramenta de marketing.
ƒ
Omniture Site Catalyst
http://www.omniture.com
Software comercial, que cobre aspectos relacionados com o desempenho de
web sites de comércio electrónico, a análise detalhada da percursos de
navegação, a segmentação de visitantes do web site (em função da
navegação que fazem) e a eficácia de campanhas de marketing.
Página|29
ƒ
OneStat
http://www.onestat.com
Software comercial que cobre aspectos como a contagem de visitantes,
percursos percorridos, impacto de motores de pesquisa e desempenho de
funcionalidades de comércio electrónico. Para web sites pequenos, oferece
um serviço gratuito, em regime de outsourcing, baseado na utilização de
contadores nas páginas.
ƒ
Urchin On Demand / Google Analytics
http://www.google.com/analytics/
Começou por ser serviço de web analytics fornecido em regime de
outsourcing – sem instalação de software nos clientes. Cobria aspectos
relacionados com a caracterização dos visitantes do web site, o impacto de
campanhas
de
marketing,
o
recurso
a
motores
de
pesquisa,
acompanhamento do desempenho do comércio electrónico, análise de
navegação, etc. Em 2005 a empresa foi comprada pela Google, que integrou
o serviço e o disponibilizou, gratuitamente, sob o nome Google Analytics.
ƒ
Webalizer
http://www.mrunix.net/webalizer
Software gratuito, instalável no servidor web a analisar, ou em qualquer outra
máquina, desde que tenha acesso aos ficheiros de log. Também orientado
para a contagem de elementos relativos aos acessos.
ƒ
WebTrends
http://www.webtrends.com
Software comercial, instalável no cliente ou fornecido como serviço em
regime de outsourcing. É um dos poucos a fornecer a possibilidade de
recolher informação de tracking de utilização através de “first-party cookies”
(em oposição aos third-party cookies referidos anteriormente). Também
cobre o processamento da segmentação de visitantes, a análise de
campanhas de e-mail e a análise de percursos de navegação.
Página|30
Esta é apenas uma pequena amostra. A lista do software existente é muito extensa e
cobre múltiplas necessidades (como pode ser visto da listagem acima, onde surge
software gratuito, software comercial, software instalado localmente, serviços
fornecidos em outsourcing, serviços baseados em contadores nas páginas, etc.)
Do ponto de vista da actividade académica e científica, as questões relacionadas
com a contagem e processamento de acessos a web sites nunca passaram
despercebidas, quase desde que há dados suficientes para tirar conclusões (não
esqueçamos nunca que estamos a lidar com um conjunto de tecnologias que, no
seu essencial, foram inventadas há cerca de 15 anos).
Desta forma, podemos identificar algumas das áreas que mais interesse têm
suscitado à investigação:
ƒ
O reconhecimento em como a WWW não é formada apenas por páginas de
natureza estática, disponibilizando também muita informação de forma
dinâmica, sob a forma de informação armazenada em bases de dados, tem
gerado grandes polémicas sobre a sua verdadeira dimensão (sobre este
assunto
vejam-se
os
excelentes
comentários
de
Fjalar
Ravia
em
http://www.fravia.com/tadimens.com). O estudo avançado dos padrões de
utilização das zonas mais recônditas da web já tem vários anos [b005],
surgindo como uma variante lógica do estudo de percursos de navegação
dentro de um único web site.
ƒ
As considerações sobre a “realidade electrónica” em que a nossa vida se
insere, apropriadamente baptizada de ciberespaço [b022, embora numa veia
literária], já deram origem a muitas outras interpretações. Se olharmos para a
WWW como uma das vertentes mais visíveis do “ciberespaço”, vemos
também que ela apresenta um elevado grau de fragilidade ou, mais
adequadamente, transitoriedade. O registo de acessos a um web site
constitui, à sua maneira, uma máquina do tempo, na medida em que
reflecte a forma como o site foi evoluindo, podendo a sua interpretação
fornecer dados de interesse histórico. Ao mesmo tempo, a partir do momento
em que é oferecida a possibilidade de identificar os pontos de acesso –
Página|31
hiperligações – a partir das quais foram consultadas páginas do web site,
ficamos com a possibilidade de mapear, nem que seja de uma forma parcial,
pequenos segmentos desse ciberespaço, tentando de alguma forma
reconhecer a multiplicidade de caminhos e de atalhos que ele forma [b008].
ƒ
O estudo dos percursos de navegação como forma de medir o desempenho
dos web sites, no que toca à capacidade de responder às necessidades dos
utilizadores [b046].
Outras áreas não suscitam uma indicação directa de estudos específicos, pelo
simples facto de as vermos em pleno e complexo desenvolvimento à nossa frente,
todos os dias. Estamos a falar da delicada relação entre a navegação na web, o
registo de acessos e o desejo de assegurar a privacidade. Estamos também a falar
de questões relacionadas com a segurança dos web sites – é particularmente
educativo pesquisar um ficheiro de log à procura dos acessos formatados à procura
de fragilidades identificadas neste ou naquele software servidor web. Segurança e
privacidade são duas áreas às quais é forçoso estar atento diariamente.
A tomada de consciência, por parte de quadros dirigentes, da existência de fontes de
informação com um carácter tão peculiar como o são os logs de acesso aos web
sites, não deixa de lhes suscitar interesse e de provocar a curiosidade. Muito embora
ocasionalmente se possam manifestar desejos do género “vamos ver o nosso web
site é melhor que o dos outros”, a verdade é que há muitos casos em que é
percebida a utilidade desses dados e se tenta dar-lhes um bom uso: para saber
como se caracteriza o público do web site, para melhorar a resposta que é dada.
Na verdade, não há uma solução perfeita para responder à questão fulcral: quem
acede? As razões para isso são várias:
ƒ
A WWW é fundamentalmente anónima. Os protocolos nos quais ela se
baseia não se prestam, de forma automática, à identificação unívoca de cada
utilizador. Outras aplicações que aproveitam (ou aproveitaram a Internet),
oferecem (ou ofereceram) graus diferentes de privacidade aos seus
utilizadores (por exemplo, aplicações como os clientes FTP ou clientes Telnet
Página|32
depreendem que haja uma identificação de um utilizador para aceder a um
sistema).
ƒ
Os web sites que exigem um registo detalhado por parte dos seus utilizadores
costumam fazê-lo com um objecto específico em vista – registo de clientes
num contexto de comércio electrónico, por exemplo. Seguir esta abordagem
em todos os web sites seria absurdo.
ƒ
A utilização de cookies resulta algo insuficiente, na medida em que, na maior
parte dos casos, a associação é feita entre um computador específico (ou um
browser específico) e um web site. Se vários utilizadores utilizarem o mesmo
ambiente de trabalho, a recolha de informação que ele proporciona
dificilmente poderá ser considerada muito exacta.
ƒ
Ainda não foi desenvolvida nenhuma solução “mágica” que permita fazer a
identificação pessoal de um utilizador, sem que tal possa ser entendido como
uma intromissão na privacidade.
Página|33
O Tribunal de Contas
O Tribunal de Contas (TC) é um dos órgãos de soberania da República Portuguesa,
cuja finalidade constitucional consiste na “fiscalização da legalidade das despesas
públicas e de julgamento das contas que a lei mandar submeter-lhe”
10
. Como parte
da sua missão, contam-se as seguintes competências11:
Fiscalizar a legalidade e regularidade das receitas e das despesas pública;
Julgar as contas que a lei manda submeter-lhe,
Dar parecer sobre a Conta Geral do Estado e sobre as das Regiões
Autónomas
Apreciar a gestão das finanças públicas
Efectivar responsabilidades por infracções financeiras"
O TC é ainda e entidade que assegura em Portugal a fiscalização da aplicação dos
recursos financeiros oriundos da União Europeia em cooperação com outras
instituições da União, em especial o Tribunal de Contas Europeu.
O TC controla todas as entidade que administrem dinheiros públicos. Nesta
categoria enquadram-se os serviços e organismos que integram a Administração
Pública Central, Regional e Local, bem como as empresas públicas, associações e
fundações. Isto representa um universo de mais de 12.000 entidades, de alguma
forma obrigadas à prestação de contas e sujeitas a acções de auditoria
A produção documental do TC é categorizada em Actos12, os quais se destinam às
seguintes entidades:
À Assembleia da República (Parecer sobre a Conta Geral do Estado e
relatórios de auditoria em que se funda);
10
11
12
Artigo 214º, n.º 1, da Constituição da República Portuguesa.
Informação extraída de [b048b].
A lista completa dos actos disponibilizados para o público em geral está disponível a partir de
http://www.tcontas.pt/pt/actos/actos.shtm, com separação por tipologias.
Página|34
Às Assembleias Legislativas das Regiões Autónomas (Pareceres sobre as
Contas Regionais, produzidos pelas Secções Regionais da Madeira e dos
Açores do TC);
Aos responsáveis pelas entidades auditadas e aos órgãos que as tutelam ou
superintendem;
Ao Ministério Público, representado junto do TC;
Às entidades por conta de quem actos e/ou contratos tenham sido praticados
e/ou autorizados;
Aos cidadãos em geral.
Nos termos da lei e após comunicação às entidades interessadas, o TC pode
publicitar os seus actos através dos meios de comunicação social, ou outos. É nesta
óptica que se enquadra a publicitação dos actos no seu web site, conjunto
documental sobre o qual o nosso trabalho vai incidir.
Enquadramento normativo do TC
São dois os diplomas que regulam o funcionamento do TC:
A Lei do Orçamento e Processo do Tribunal de Contas, Lei n.º 98/97 de 26
de Agosto, alterada e republicada pela Lei n.º 48/2006 de 29 de Agosto.
O Decreto-Lei n.º 440/99 de 2 de Novembro, que define a organização e
estutura da Direcção-Geral do Tribunal de Contas, dos seus Serviços de
Apoio e das Secções Regionais.
Na secção da Bibliografia definida como “Literatura Cinzenta”, identificamos outros
diplomas, de natureza interna, que regulam pormenores de funcionamento de
alguns dos sistemas de informação do TC, relevantes para este trabalho.
Página|35
Imagem 8: Organograma do Tribunal de Contas, incluindo a Direcção-Geral e as Secções Regionais da Madeira e Açores
Orga
anograma do Tribunal de Co
ontas
Página|36
Os Actos do Tribunal de Contas – disponibilização externa e interna.
Os actos produzidos pelo Tribunal de Contas estão, regra geral, sujeitos ao princípio
da publicidade. A esta regra aplicam-se, no entanto, algumas excepções.
A publicitação dos actos do TC é orientada pelos seguintes princípios:
Os acórdãos do TC que fixem jurisprudência, são publicados na I Série-A do
Diário da República.
O Relatório e Parecer sobre a Conta Geral do Estado, o Relatório Anual de
Actividades, instruções e regulamentos são publicados na II Série do mesmo
periódico.
Na mesma série são publicados os valores e relações das entidades
dispensadas de fiscalização prévia em cada ano e as que serão objecto de
fiscalização concomitante de despesas emergentes dos actos e contratos
dispensados de fiscalização prévia.
Ainda na II Série são publicados os relatórios e as decisões que o TC entenda
que devem ser publicados.
Nos jornais oficiais o Governos Regionais da Madeira e dos Açores são
publicados os actos equivalentes passados pelas Secções Regionais da
Madeira e dos Açores do Tribunal de Contas.
O TC goza da faculdade de decidir sobre
a publicação de outros actos não
constantes desta lista. Na prática, isto faz com que nem todos os actos produzidos
pela instituição sejam divulgados para o exterior.
Internamente, os actos do TC são disponibilizados de duas maneiras distintas:
Como um dos produtos disponibilizados na Intranet institucional, com
organização por tipo de acto, por ano, departamento de origem e eventual
classificação temática. Na imagem seguinte é apresentada a lista geral de
Actos do TC, tal como aparece no browser Internet Explorer:
Página|37
Imagem 9: Página de acesso aos Actos do Tribunal de Contas na Intranet institucional, tal como estava visível em 17 de Julho de 2006 Através de um interface de pesquisa avançado, concretizado numa aplicação
desenvolvida internamente, denominada TCJure. O funcionamento desta
aplicação pressupõe um trabalho de preparação de documentos, no que toca
ao preenchimento de metadados. A imagem seguinte mostra esse interface:
Imagem 10: Formulário de pesquisa do sistema TCJure, tal como é disponibilizado através da intranet do Tribunal de Contas Para o exterior, os actos do TC são disponibilizados de duas maneiras distintas:
Enviados para notificação de entidades abrangidas pela actividade do TC e
para divulgação pontual nos órgãos de comunicação social.
Página|38
No web site do TC, onde são disponibilizados em texto integral os actos
designados para publicitação, com organização tipológica, anual e/ou
temática, consoante o tipo de acto. Não é disponibilizado qualquer interface
avançado de pesquisa. A imagem seguinte mostra a página do web site do
TC que dá acesso às várias categorias de actos:
Imagem 11: Página de acesso aos Actos do Tribunal de Contas, disponível no web site institucional em
http://www.tcontas.pt/pt/actos/actos.shtm (imagem capturada em 2007-04-05).
Página|39
No caso do web site, um dos conjuntos de actos, denominado Acórdãos e
Sentenças, beneficia de um tratamento específico, com direito a um interface
de pesquisa dedicado. É privilegiada a possibilidade de fazer buscas por
campos descritivos específicos, ou pelo conteúdo textual integral, em
detrimento de tratamentos adicionais a que tenham sido submetidos. A
imagem seguinte mostra o interface de pesquisa de acórdãos e sentenças:
Imagem 12: Formulário de pesquisa de Acórdão e Sentenças no web site do Tribunal de Contas,
disponível no endereço http://www.tcontas.pt/cgi-bin/juris/db.cgi?db=juris&uid=&view_search=1
Note-se que a possibilidade de pesquisar por temas, disponibilizada no
interface de pesquisa aqui apresentado, diz apenas respeito a uma
organização temática de nível muito superior e que apenas é utilizada no
contexto destes actos. Inclui apenas temas designados como Aquisição de
Imóveis, Empreitadas, Empréstimos, Fornecimentos, Prestação de Serviços e
Outros, dentro dos quais se agrupam todos os Acórdãos e Sentenças
produzidos.
Página|40
Tratamento temático da informação.
O sistema de informação TCJure prevê que seja feito um tratamento temático dos
documentos nele incluídos. Com essa finalidade, é disponibilizado um thesaurus, o
qual foi elaborado com base nas áreas temáticas sobre as quais a actividade do TC
incide. A imagem seguinte mostra uma visão geral da estrutura de dados deste
sistema. A verde destacamos o segmento correspondente ao thesaurus:
Imagem 13: Estrutura de dados do sistema TCJure, em uso interno no Tribunal de Contas (João Carlos Cardoso, Paulo Almeida, Nuno Ramalho, Lisboa/1997‐1998) A classificação temática é um trabalho levado a cabo por operadores humanos,
fazendo parte do conjunto de competências de um dos departamentos dos Serviços
de Apoio do TC, o Departamento de Consultadoria e Planeamento (DCP).
Página|41
A possível irregularidade subjacente a qualquer trabalho de classificação levado a
cabo por
operadores humanos (com graus de formação e/ou conhecimento
diferenciados) é visível nas diferenças existentes entre as classificações dos actos,
com grandes variações na quantidade de detalhe , ou mesmo no grau de exactidão
dos temas atribuídos.
Este tratamento temático tem um grau de utilidade puramente interno, na medida
em que o sistema TCJure apenas se encontra disponível dentro da instituição, a
partir da sua Intranet13. Os documentos publicitados no web site não beneficiam da
existências destes descritores, dado não haver qualquer relação entre os dois
ambientes14.
Classificação e recuperação – considerações finais.
Do que foi atrás exposto, é possível apresentar várias conclusões quanto à forma
como os documentos são classificados e recuperados, no âmbito dos vários
sistemas de informação do Tribunal de Contas:
Nem todos os actos que o TC produz são disponibilizados para download
através do web site. Para as tipologias apresentadas no web site, a proporção
é de aproximadamente 1/8 – 6145 documentos registados no sistema
TCJure (em 20 de Abril de 2007), dos quais só 742 são disponibilizados
para download no web site.
13
14
Entre Maio de 1998 e meados de 1999 (não conseguimos precisar a data), esteve disponível no web site do TC um
interface público para o sistema TCJure.
O desenvolvimento do sistema TCJure foi feito numa óptica alargada de integração de documentos e bases de dados
existentes, estando particularmente orientado para servir como possível ponto central de toda a produção documental da
instituição. Muito embora este sistema também esteja preparado para disponibilização através do web site externo, ainda
não foi tomada uma decisão interna quanto a esta solução.
A versão actual do web site do Tribunal de Contas foi densenvolvida numa óptica de disponibilização “estática” de
documentos, sem atribuir uma importância muito grande a capacidades avançadas de pesquisa. Tais capacidades foram
sempre deixadas para uma prevista integração futura com o TCJure.
A versão actual da Intranet e uma futura versão do web site externo do TC, por se basearem em sistemas de gestão de
conteúdos (versões de SharePoint Portal Server, da Microsoft), oferecerão desde a raiz capacidades avançadas de pesquisa
que, até certo ponto, podem aliviar a necessidade de recorrer a um interface dedicado. É de esperar, no entanto, que mais
tarde ou mais cedo, o sistema TCJure seja disponibilizado, ainda que parcialmente, para o exterior.
Página|42
A informação que é disponibilizada para o exterior, através do web site
institucional (e que constitui efectivamente o alvo do nosso trabalho), não
recebe o mesmo tratamento que aquela que é disponibilizada internamente.
O “processamento intelectual” dos documentos levado a cabo no âmbito do
sistema TCJure não é aproveitado para o web site.
A classificação temática actualmente existente é levada a cabo por
operadores humanos, com base no conhecimento e percepção que cada um
tem quanto ao conteúdo que é apresentado.
A classificação temática utilizada situa-se a um nível conceptual/intelectual.
A maior parte dos termos utilizados e aplicados nem sequer aparece
explicitamente nos documentos.
Os Acórdãos e Sentenças, que constituem as tipologias actualmente
disponibilizadas no web site com um interface de pesquisa mais avançado,
não utilizam o tratamento documental que lhes é dado no âmbito do sistema
TCJure.
Página|43
O web site do Tribunal de Contas
A primeira versão do web site do Tribunal de Contas foi activada em Maio de 1998,
disponibilizando inicialmente uma quantidade reduzida de documentos. Ela serviu
assumidamente para a instituição marcar a sua presença na WWW. Permitiu, no
entanto, levar a cabo iniciativas interessantes no que diz respeito à preparação de
documentos, nomeadamente através da disponibilização temporária de um interface
para o sistema TCJure. Através dele era possível elaborar pesquisas complexas
sobre o conteúdo dos documentos, ou sobre meta-informação resultante do
tratamento a que eram submetidos. Este interface deixou de ser disponibilizado ao
público em 1999, mantendo-se em uso internamente, até aos dias de hoje.
Imagem 14: Aspecto da primeira versão do web site do Tribunal de Contas (imagem capturada no
em meados do ano 2000, apenas com algumas modificações em relação ao modelo inicial de
1998).
Página|44
O reconhecimento do papel de crescente importância desempenhado pelo web site
na divulgação da actividade da instituição, fez com que fosse planeada uma nova
versão, orientada para a disponibilização de boa parte da produção documental do
TC. Assim, a segunda versão do web site foi activada em 14 de Março de 2001:
Imagem 15: Aspecto da segunda versão do web site, tal como foi disponibilizada em 14 de Março de
2001 (muito embora esta captura de imagem tenha sido feita antes dessa data, durante o período
final de preparação).
A percepção de uma necessidade de apresentar informação actualizada sobre os
documentos publicitados no web site, levaram à realização de alterações na página
inicial. Estas alterações privilegiaram um novo aspecto gráfico e o aumento da
quantidade de informação inicialmente apresentada, tendo afectado apenas a
página inicial. As restantes páginas mantiveram-se virtualmente inalteradas. Estas
modificações ficaram activas a partir de 27 de Novembro de 2002. Com pequenas
alterações, a página inicial do web site do TC mantém este aspecto até ao presente:
Página|45
Imagem 16: Página inicial do web site do Tribunal de Contas em 4 de Fevereiro de 2004.
Esta alteração levada a cabo em 2002 enfatizou a importância da divulgação dos
documentos publicitados pelo TC. Ao trazer para a página de entrada pontos de
acesso rápidos para os Actos mais recentes, ou para outros de conveniente
divulgação, ficaram abertas as portas a uma disponibilização mais rápida de
informação.
O gráfico seguinte mostra de que forma os acessos ao web site evoluíram ao longo
dos últimos seis anos, assinalando a tendência da evolução até ao fim de 2007:
Página|46
Evoluçãão da quantidade
e de pag
ge views no w
web site d
do TC
800
0000
700
0000
R² = 0,917
600
0000
500
0000
400
0000
300
0000
200
0000
100
0000
0
Gráficoo 1: Evolução da quantidade de page
p
views no web
w site do TC, para o perído com
mpreendido entree Março de 2001
1e
Março de 2007. Assinaalamos ainda a linha de tendêncca evolutiva (expo
onencial) até ao final do presentee ano (coeficientte de
correlação de 0,917).
Para o início dee Maio de 2007 está prevista a activação da terceiraa versão do
o web
site do TC, a qual implicará alteraações profu
undas na sua
s
estrutu
ura. Pretend
de-se
agilizzar o acesso aos docu
umentos, diminuíndo a quantidad
de de níveiss de inform
mação
atravvés dos qu
uais os utilizadores têêm que na
avegar actu
ualmente, q
que no casso de
algun
ns dos Acttos, como os Relatórios de Au
uditoria, poodem cheggar a ser cinco:
c
págin
na inicial (1
1), listagem
m de tipologgias de Acto
os (2), listaagem de anos de Relattórios
de Auditoria
A
(3
3), listagem
m de todos os Relatórrios de Aud
ditoria de u
um determiinado
ano (4) e págin
na de um reelatório específico (5).
A imagem segu
uinte mostraa uma prevvisão do asp
pecto futuroo:
Página|47
Imagem 17: Aspecto da página inicial da terceira versão do web site do TC, que deverá ser activada
no início do mês de Maio de 2007.
Caracterização técnica do web site do TC
O web site do Tribunal de Contas já passou por servidores de capacidade variável,
tendo sempre em conta não só as necessidades imediatas, como as previsões de
crescimento futuro. No Apêndice 3 fazemos um resumo da evolução da estrutura
técnica que esteve e está na base do funcionamento do web site.
O esquema seguinte mostra de que forma se articulam entre si os grandes
intervenientes tecnológicos do web site do TC.
Página|48
Estrutura de rede onde se insere o web site do Tribunal de Contas
Internet
Router externo
Switch externo
Zona externa
Firewall externo
Servidor web
para as funções de
deployment (integra
servidor SGBD)
Nesta zona fica situado o
servidor web público.
A futura utilização de um
Sistema de Gestão de
Conteúdos (baseado,
provavelmente, numa
versão do produto
SharePoint da
Microsoft), não deverá
acarretar alterações no
hardware.
DMZ
Firewall interno
PCs com o ambiente
de desenvolvimento
Nesta zona os conteúdos
são preparados (no PC
com o ambiente de
desenvolvimento) e
“ensaiados”, no servidor
de staging
Servidor web para
funções de staging.
(integra servidor de
ficheiros)
Servidores de bases
de dados (SQL Server) e
da Intranet (SharePoint
Portal Server)
As ligações a tracejado
mostram a prevista
integração futura do web
site com sistemas de
informação internos –
Intranet e bases de
dados como o TCJure.
Rede interna
Imagem 18: Como se articulam entre si os grandes componentes tecnológicos da actual versão do web site
do TC. São também dadas indicações quanto a algumas das modificações previstas para o futuro, tendo em
conta a prevista utiização de um Sistema de Gestão de Conteúdos.
Página|49
Esccolhas técnicas quee foram feeitas no prrocesso dee desenhoo do web site.
O deesenho da versão
v
actu
ual do web site do Tribunal de Contas
C
foi d
deliberadam
mente
simp
plificado, em
m termos de
d carga gráfica e dee tecnologiaas subjacen
ntes. O facto de
não haver uma carga apliccacional forrte integrada no site faacilitou decisões como
o:
O recursso à utilizaçção de SSI (Server Sid
de Includes), para adiccionar direcctivas
de
proocessamentto
às
weeb.
pááginas
Elas
servem
para
adiccionar
dinamicamente coonteúdos às página
as, com base em modelos préconstruíd
dos, ou parra incluir in
nformação directamen
d
te do servid
dor.
A utilizaação de chamadas CG
GI com reccurso a cód
digo escritoo em Perl. Esta
linguageem suporta as capacid
dades de pesquisa
p
noo conteúdoo do web site, a
base dee dados dee Acórdãos e Sentençças e a baase de dad
dos do Aud
diting
Standard
ds Comitteee, desenvolvida no âm
mbito da IN
NTOSAI.
A maaior parte dos
d documentos existentes no web
w site é disponibiliza
d
ada em forrmato
PDF. A presen
nça deste tipo
t
de fich
heiros é massiva,
m
qu
uando com
mparada com os
restaantes:
Distribuiição de d
documen
ntos por formatos
no w
web site d
do Tribun
nal de Co
ontas
PPT:3
38
XLS:19
9
DOC:100
PDF:1825
G
Gráfico
2: Quanttidade de docum
mentos por formatto, no web site do
d Tribunal de Coontas
Página|50
Esta escolha baseou-se nas seguintes razões:
O formato PDF é um standard de facto, no que toca à preparação de
documentos para divulgação através da WWW.
Esta situação é sustentada pela quantidade de plataformas computacionais
(hardware e sistema operativo) para as quais existe o software de leitura
deste formato (Adobe Acrobat Reader ou Adobe Reader) – 11 plataformas,
cobrindo todas as versões de Windows, parte das versões mais divulgadas de
Unix/Linux, Macintosh e equipamentos móveis (Pocket PC, Palm, telemóveis
com sistema operativo Symbian). Esta variedade não tem um contraponto ao
mesmo nível no caso do formato Word (o formato original da maior parte dos
documentos disponibilizados no web site do Tribunal).
Os ficheiros PDF podem apresentar, de forma unificada, conteúdos dispersos
por uma variedade de ficheiros, como não raramente acontece com a
documentação produzida internamente no Tribunal de Contas. Desta forma,
é possível reunir num único ficheiro conjuntos como uma capa (em
PowerPoint), o corpo de um relatório (em Word) e vários anexos (em Word
ou em Excel). À visão unificada proporcionada pelo PDF contrapõe-se a
necessidade de os utilizadores fazerem download de uma multiplicidade de
ficheiros.
Entre Março de 2001 e Março de 2001 foram feitos 5.509.080 pedidos de
ficheiros PDF existentes no web site. O feedback que nos chega por parte dos
utilizadores transmite um bom grau de aceitação deste formato. Pontualmente,
alguns conteúdos são disponibilizados noutros formatos, nomeadamente Word e
Excel (sobretudo quando se tratam de formulários). Os ficheiros em formato
PowerPoint dizem respeito a apresentações disponibilizadas no âmbito de eventos
organizados pelo TC.
Página|51
Os logs de acesso ao web site do TC
Na Introdução deste trabalho, fizemos uma caracterização básica dos ficheiros de
log do web site do Tribunal de Contas. Os 2163 ficheiros que concentram a
informação foram gerados por várias versões do software Internet Information Server
da Microsoft, versões 5 e 6, parte integrante dos sistemas operativos Windows
2000 Advanced Server e Windows 2003 Enterprise Server.
Ao longo dos seis anos a que estes ficheiros dizem respeito, o formato dos logs foi
sempre o denominado Microsoft Extended Log Format. Houve três variantes no
tempo, no que diz à quantidade de variáveis recolhidas e armazenadas:
ƒ
Entre 2001-03-14 e 2004-06-23, o formato recolheu a informação aqui
indicada:
#Software: Microsoft Internet Information Services 5.0
#Version: 1.0
#Date: 2001-03-14 11:56:13
#Fields: date time c-ip cs-username s-ip s-port cs-method cs-uri-stem
cs-uri-query sc-status sc-win32-status cs(User-Agent)
ƒ
Em 2004-06-24 foi utilizada uma pequena variante, no que toca à
quantidade de variáveis:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2004-06-24 05:14:59
#Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port csusername c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
ƒ
Desde 2004-06-25 até ao presente, é feita a recolha da maior quantidade
possível de variáveis relativas aos acessos ao web site:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2004-06-28 00:12:03
#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem
cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent)
cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status
sc-bytes cs-bytes time-taken
As diferenças entre formatos têm a ver com um processo contínuo de aferição da
eficácia da recolha dos dados de acesso. Acabámos por optar pela recolha da maior
Página|52
quan
ntidade possível de metadadoss, tendo em
e vista o seu aprooveitamentto de
múlttiplas maneeiras e pela maior vaariedade po
ossível de programass de análise (os
quaiss podem, como
c
é óbvio, utilizarr as mesmas variáveis de maneeiras diferen
ntes).
As mudanças
m
de servidor, versão de
d sistema operativo e versão d
de servidorr web
foram
m tratadas de forma transparen
nte - sempre que hou
uve uma m
migração dee um
destees componeentes, os ficheiros de log foram mantidos
m
e copiados (se necessá
ário).
A infformação assim recolh
hida é utilizzada todas as noites, às 00:01, para gerar uma
págin
na com taabelas e grráficos, quee resumem
m todos oss dados recolhidos atté às
23:5
59:59 do dia anteerior. Estaa página, disponíveel permanentemente em
http://www.tcon
ntas.pt/diarrio.html, é gerada
g
através do proggrama Analog v5.91b
beta1.
As contagens
c
a
apresentada
as permitem
m caracterizar os aceessos ao w
web site de uma
forma notoriam
mente quan
ntitativa – quantos
q
accessos foram feitos, a que ficheeiros,
com que brow
wsers e sisstemas opeerativos, a que horass do dia, etc. A ima
agem
seguinte mostraa o aspectoo do ínicio desta
d
página:
Imaggem 19: Página web com informação relativa aoss acessos ao web
b site do Tribunaal de Contas, disponível em
http:///www.tcontas.p
pt/diario.html
o de activid
dade desta versão do
o web
Para além destta recolha, activa dessde o início
site, foi configurada a recoolha de dad
dos para o serviço Gooogle Analyttics, desde o dia
7 dee Julho de 2006.
2
No entanto,
e
esta recolha apenas
a
tem
m uma utilid
dade parcia
al, na
Página|53
medida em qu
ue só incid
de sobre os acessos feitos à página
p
iniciial do web
b site
p://www.tcoontas.pt/ind
dex.shtm). A imagem
m seguintee mostra o aspecto
o da
(http
informação provvidenciada por este seerviço:
Imaggem 20: Vista paarcial do relatórioo Executivo, disponibilizado pelo serviço Google Analytics,
A
relativoo aos acessos feitos à
págin
na inicial do web
b site do Tribunaal de Contas, para o período compreendido entre 2006-07-07 e 2
2006-07-28.
Os loogs de aceesso utilizaados na reaalização deeste trabalh
ho são os mesmos que
q
o
Analog processa (o Googlee Analytics trabalha de
d maneira diferente, baseando-sse na
contaagem e caaracterizaçãão de acesssos feitos ao próprioo serviço, através dee um
pequ
ueno segmeento de cód
digo adicionado no fin
nal de cadaa página w
web a tratar). Foi
neceessário, noo entanto, proceder a alguma
as operaçõões de lim
mpeza dos logs
(neceessárias e úteis em operações
o
de processsamento offfline, tamb
bém necesssárias
mas difíceis de
d levar a cabo em tempo útil durantee o processsamento diário
d
noctu
urno), com
m o objectivvo de remover referências a acesssos internoos, quer oss que
são feitos
f
peloss utilizadorres instituciionais, quee os que sãão feitos poor processo
os de
indexxação automáticos:
Página|54
ƒ
Acessos feitos por máquinas com os endereços IP 10.128.0.3 e
10.128.0.4, que identificam máquinas colocadas num troço de rede em
DMZ e que têm a ver com processos automáticos de indexação de
conteúdos, desencadeados a partir do software de gestão da Intranet
institucional (baseado no SharePoint Portal Server 2003 da Microsoft).
ƒ
Acessos feitos a partir do endereço IP 194.65.143.156 os quais, pela
arquitectura da rede do TC, denotam acessos a páginas feitos a partir da rede
interna, por utilizadores locais. É possível que este endereço esconda acessos
remotos, mas que tenham sido feitos através de um acesso extranet (sendo
funcionalmente considerados como tráfego interno).
Estas operações de limpeza foram levadas a cabo de forma simples, em ambiente
de linha de comando (com e sem criação de batch files, caso a caso), recorrendo a
uma versão Windows do comando grep de Unix, para fazer a selecção das linhas
relevantes.
Os ficheiro limpos daí resultantes, tornaram-se na base das operações de
processamento que documentamos a seguir.
Página|55
Estabelecer um ADN para os documentos do web site do TC
Conforme já mencionámos, a maior parte dos documentos disponibilizados no
sistema TCJure15 não é disponibilizada no web site. Ao mesmo tempo, acontece o
processo inverso – documentos publicitados no web site mas que não são incluídos
no TCJure16. A selecção de documentos para um processamento inicial passou
então pelas seguintes fases:
1. Identificação dos documentos disponibilizados no web site que de facto se
encontram registados no sistema TCJure. Este processo foi levado a cabo
manualmente, a partir de listagens de conteúdo do web site, confrontadas
com o conteúdo de algumas das tabelas associadas ao TCJure. De um total
de 1003 documentos disponibilizados, estão registados 742.
2. Foram extraídos os descritores associados a cada um destes 742
documentos, com base em consultas ao sistema TCJure.
A extracção foi levada a cabo em ambiente SQL Server, por manipulação
directa das tabelas que integram o TCJure:
Tabela: jure_documento_descritor
Contém todas as relações entre documentos do TCJure e os termos contidos
no thesaurs
Tabela: thes_descritor
Tabela primária do thesaurus, contém todos os seus termos
Tabela: temp_codigos_documentos_website
Tabela temporária, que contém os código dos documentos recolhidos na
fase 1 - os documentos que estão no web site e que também se encontram
registados no TCJure
Com base nestas três tabelas foi utilizada a seguinte query de SQL para obter
uma extensa listagem de todos os descritores associados a todos os
documentos existentes no web site:
15
16
Recorremos à classificação proporcionada pelo sistema TCJure como um ponto de partida para o nosso trabalho, por ser a
única que é aplicada de forma sistemática ao conjunto documental em estudo. Muito embora lhe reconheçamos
limitações, tem a vantagem de existir e de se encontrar em uso corrente.
Isto pode acontecer por razões distintas: devido a atrasos na alimentação do sistema TCJure (os quais, no entanto, só
acontecem muito pontualmente), ou por se tratarem de documentos que, tradicionalmente, não são incluídos neste
sistema documental. Tal é o caso da produção documental proveniente das Secções Regionais da Madeira e dos Açores.
Página|56
SELECT TOP 100 PERCENT dbo.temp_codigos_documentos_website.codigo,
dbo.Thes_descritor.cod_termo, dbo.Thes_descritor.termo
FROM dbo.jure_documento_descritor INNER JOIN
dbo.Thes_descritor ON
dbo.jure_documento_descritor.cod_descritor =
dbo.Thes_descritor.cod_termo INNER JOIN
dbo.temp_codigos_documentos_website ON
dbo.jure_documento_descritor.numero =
dbo.temp_codigos_documentos_website.codigo
ORDER BY dbo.temp_codigos_documentos_website.codigo
O output desta query tem o seguinte aspecto:
19284
19284
30362
30362
30363
30363
30363
30363
43487
43487
43487
43487
43487
43487
43487
50662
50662
50662
50662
50662
[...]
11048
12083
11048
10694
10694
10510
11048
12083
12291
13722
11048
11059
11240
11663
10508
11361
11048
10913
12291
12812
[...]
INSTRUÇÕES DO TRIBUNAL DE CONTAS
ORGANIZAÇÃO DA CONTA
INSTRUÇÕES DO TRIBUNAL DE CONTAS
CONTA DE GERÊNCIA
CONTA DE GERÊNCIA
AUTONOMIA ADMINISTRATIVA
INSTRUÇÕES DO TRIBUNAL DE CONTAS
ORGANIZAÇÃO DA CONTA
INSTRUÇÕES
PARTICIPAÇÃO FINANCEIRA
INSTRUÇÕES DO TRIBUNAL DE CONTAS
INVENTÁRIO
PARTICIPAÇÃO DO ESTADO
SECTOR EMPRESARIAL PÚBLICO
AUTARQUIA LOCAL
PRESTAÇÃO DE CONTAS
INSTRUÇÕES DO TRIBUNAL DE CONTAS
FORMAÇÃO PROFISSIONAL
INSTRUÇÕES
CENTRO PROTOCOLAR
[...]
Tabela 1: Excerto da listagem dos descritores atribuídos a documentos constantes do web site do TC
Foram encontrados 6018 descritores atribuídos no total.
3. O conjunto destes descritores foi depois processado, tendo em vista
determinar qual o seu encabeçamento em termos do thesaurus interno. A
contagem simples da quantidade de cada encabeçamento para cada
documento permitiu a sua arrumação dentro de uma das 32 classes do
thesaurus (correspondentes a cada um dos Top Terms).
Página|57
4. O processamento desta lista de descritores foi levado a cabo através de um
pequeno programa escrito em Basic17 (ver Anexo ...). Ele permitiu-nos traçar
recursivamente a cadeia de relações para cada descritor descoberto na fase
anterior, de forma a ser possível isolar o termo de topo do qual ele depende.
Nem todos os 6018 descritores estão devidamente inseridos em relações
formais dentro do Thesaurus. Por essa razão, muito embora praticamente
todos os 742 documentos tivessem descritores, parte destes (2752)
acabaram por não resultar na identificação de um termo de topo, por este
simplesmente não se encontrar definido.
5. Na colocação de cada documento nas 32 classes foram utilizadas as
seguintes regras:
A classe com maior número de ocorrências foi automaticamente
seleccionada;
Classes com número idêntico de ocorrências levaram ao enquadramento
do documento em cada uma que tenha sido identificada. Nestes casos, o
mesmo documento ficou encabeçado por mais do que uma classe;
Se a classe com maior número de ocorrências tiver sido a “Auxiliar de
Informação”, ela foi removida da contagem, passando-se à classe
seguinte com maior número de ocorrências. Se não tiverem sido
identificadas mais classes, o documento foi excluído desta fase de
processamento.
Documentos para os quais não tenham sido identificados Top Terms,
foram excluídos desta fase de processamento;
Na prática, o resultado foi idêntico ao dos exemplos seguintes:
17
Na realização desta dissertação, não nos preocupámos em escolher uma única linguagem de scripting ou de
programação, tendo em vista uniformizar todas as abordagens programáticas. Optámos por recorrer às soluções mais
adequadas para cada caso, ou às soluções tecnicamente mais fáceis e vantajosas para nós.
Página|58
69895
69895
69895
69895
69895
69895
69895
69895
69895
69895
69895
69895
69895
Finanças (Direito Financeiro)
Direito
Administração Pública
Finanças (Direito Financeiro)
0
0
0
0
0
0
Finanças (Direito Financeiro)
Finanças (Direito Financeiro)
0
Tabela 2: Top Terms identificados para os descritores atribuídos ao documento com o código 69895 do sistema
TCJure, correspondente ao Relatório de Auditoria nº 47/2001 - 2ª Secção, disponível online em
https://www.tcontas.pt/pt/actos/rel_auditoria/2001/47-2001.shtm. Foi utilizado o “0” para indicar descritores sem
Top Term. Neste exemplo, o documento foi colocado na classe “Finanças (Direito Financeiro)”.
70618
70168
70168
70168
0
Economia
0
Finanças (Direito Financeiro)
Tabela 3: Top Terms identificados para os descritores atribuídos ao documento com o código 70168 do sistema
TCJure, correspondente ao Relatório de Auditoria nº 21/2002 - 2ª Secção, disponível online em
https://www.tcontas.pt/pt/actos/rel_auditoria/2002/21-2002.shtm. Neste exemplo, o documento foi colocado nas
classes “Economia” e “Finanças (Direito Financeiro)”.
69776
69776
69776
69776
69776
69776
Finanças (Direito Financeiro)
Finanças (Direito Financeiro)
Auxiliar de informação
Auxiliar de informação
0
0
Tabela 4: Top Terms identificados para os descritores atribuídos ao documento com o código 69776 do sistema
TCJure, correspondente ao Relatório de Auditoria nº 8/2001 - 2ª Secção, disponível online em
https://www.tcontas.pt/pt/actos/rel_auditoria/2001/08-2001.shtm. As ocorrências do Top Term “Auxiliar de
informação” foram ignoradas, tendo o documento sido colocado dentro da classe “Finanças (Direito Financeiro)”.
A distribuição dos documentos pelas várias classes resultou na seguinte
divisão:
Página|59
Agriculturaa, pecuária e pesca
1
Educação
1
Entidade reeguladora
1
Indústria e energia
1
Transportees e comunicaações
1
Ambiente
3
Questões sociais
s
3
Administraação interna
4
Tribunal (oorganização ju
udiciária)
4
Cargos
6
Trabalho . Emprego
6
Organizaçõões internacioonais
7
Outros
11
Empresa e concorrênciaa
21
Administraação Pública
29
Economia
80
Finanças (Direito Financeiro)
249
Direito
493
Tabela 5: Diistribuição de doocumentos pelas várias classes de topo identificad
das no thesauruss associado ao sistema
TCJure. De acordo
a
com as reegras atrás definidas, há documeentos que podem
m aparecer dentroo de mais do que uma
destas classes.
Percentu
ualmente, a distribuiçãão é a segu
uinte:
Distrib
buição d
de docum
mentoss por claasses
(13 classes com 1 ou menos 11
occorrências)
49
5%
Direito
o
493
54%
Empresa e concorrência
21
2%
mia
Econom
80
9%
Administração Públicca
29
3%
o Finaanças (Direito
F
Financeiro)
249
27%
Gráfico 3: Distribuição dos documentos
d
disponibilizados no web
w site do TC e registados no siistema TCJure, pelas
p
classes destee sistema de gesstão de informaçãão.
Página|60
6. O mesmo programa que referimos na alínea anterior, foi expandido para
prever a representação de uma versão de ADN dos documentos, com base
nas classes do TCJure a que pertencem os termos de thesaurus atribuídos a
cada um. O procedimento foi o seguinte:
a. A partir da quantidade de encabeçamentos de cada documento (a
quantidade de classes em que os descritores atribuídos os
colocaram),
foi
calculada
uma
sequência
de
pesos.
Cada
encabeçamento pode ter pesos iguais ou diferentes. Note-se que na
análise feita na alínea anterior nos preocupámos em definir uma
colocação “definitiva” do documento numa classe (ou em mais do
que uma se necessário), escolhendo para tal a classe com maior
quantidade de descritores atribuídos. O cálculo que agora fazemos
incluiu todas as classes pelas quais o documento é encabeçado,
independentemente de terem a vez com muitos ou poucos
descritores.
b. A cada classe assim encontrada foi atribuído um peso entre 1 e 9,
calculado como um rácio entre a quantidade de descritores que
definem cada classe nesse documento, e a quantidade total de
descritores utililizados para descrever esse documento.
c. Isto permitiu-nos definir uma cadeia numérica para cada um dos 742
documentos, formada por dígitos entre 0 e 9, ficando com o seguinte
aspecto:
Página|61
Imaggem 21: Represeentação numéricaa de um ADN baaseado nas classses do TCJure, paara os 742 docu
umentos em
proceessamento (send
do aqui mostradoos apenas os prim
meiros 14).
A mesma in
nformação pode
p
ser também reprresentada ggraficamentte:
Imagem
m 22: Representtação grafica da mesma informaçção numérica da
a imagem anterioor. A cada númeero foi atribuída uma
u
cor
específfica.
Página|62
Operações de text mining
7. Os 742 documentos que temos vindo a referir, traduzem-se fisicamente em
800 ficheiros PDF, na medida em que alguns se encontram repartidos por
mais do que um ficheiro (Anexos de Relatórios, por exemplo). Estes 800
ficheiro foram foram convertidos do formato PDF (aquele em que são
disponibilizados no web site) para o formato TXT. Para o efeito utilizámos a
funcionalidade de Batch Processing, disponibilizada no software Adobe
Acrobat Professional, versões 7 e 8. A conversão consistiu na gravação
simples
em
formato
TXT,
com
perca
ocasional
de
informação
(nomeadamente no que diga respeito a imagens e gráficos, de conteúdo não
relevante para este trabalho).
8. O nosso objectivo seguinte consistiu na descoberta de palavras-chave dentro
destes documentos. Para o efeito recorremos ao software SAS 9.1, de acordo
com os segintes passos:
a. Utilização do macro-comando %tmfilter para fazer pré-processamento
do conjunto de 100 documentos:
%tmfilter(dataset=work.txtinput, dir=C:\sas, destdir=C:\sas-html,
language=portuguese);
b. Foi utilizado o módulo Text Miner para fazer uma primeira extracção
de palavras-chave (sem qualquer optimização em termos de stop ou
start lists). Não foram feitas quaisquer alterações aos valores
apresentados por omisssão, a não ser pela indicação da linguagem
(Português). O diagrama relativo a esta operação foi o seguinte:
c. A lista obtida ficou com 63.022 termos (entre palavras simples e
termos compostos). Tal como é apresentada, a sua utilidade é
reduzida, dada a quantidade de termos sem qualquer relevância.
Página|63
d. Esta lista foi exportada do SAS para Excel, onde se sucederam as
operações de selecção e eliminação de termos redundantes, ou pouco
significativos, nomeadamente:
i. Ordenação dos termos pela coluna Role (a qual indica a
classificação de cada termo em função de uma part-of-speech
do SAS / categoria gramatical).
ii. Eliminação directa de termos classificados com as seguintes
categorias gramaticais:
1. Todos os termos classificados como ADV (advérbios igualmente, respectivamente, eefctivamente, ...) [1624
termos]
2. Todos os termos classificados como AUX (auxiliares de
verbos - é, foi, ser, tão, ...) [182 termos]
3. Todos os termos classificados como CONJ (conjunções
- se, como, que, ou, ...) [84 termos]
4. Todos
os
termos
classificados
como
DET
(determinantes - o, a, os, as, ...) [20 termos]
5. Todos
os
termos
classificados
como
INTERJ
(interjeições - ora, aí, pois, pois é, ...) [23 termos]
6. Todos os termos classificados como PART (também
advérbios, de negação ou de tempo - não, nada,
nunca, jamais) [4 termos]
7. Todos os termos classificados como PREP (preposições
- do, em, ao, da, ...) [435 termos]
8. Todos
os
termos
classificados
como
PRON
(determinantes e pronomes - se, uma, um, este, ...)
[284 termos]
Página|64
9. Todos os termos classificados como VERB (tempos
verbais - tendo, sendo, pode, resulta, ...) [17750
termos]
10.Todos os termos classificados como VERBADJ (formas
nominais de verbos - sido, referido, celebrado, previsto,
...) [7178 termos]
iii. Com isto, a lista ficou reduzida a 35438 termos, sobre os
quais incidiram novas operações de limpeza.
1. Eliminação de todos os termos que contenham sinais
de pontuação ou outros caracteres não alfabéticos
(%var, (c)/(a), ...) [171 termos]
2. Eliminação de todos os termos com uma frequência
inferior a 80 (coluna FREQ - quantidade de vezes que o
termo aparece na totalidade dos documentos) [28902
termos]
3. Eliminação de todos os termos que apareçam em
menos de um décimo dos documentos (coluna
NUMDOCS) [3118 termos]
iv. Verificação manual da lista e eliminação de termos com pouca
relevância, independentemente da sua frequência na colecção
documental, ou do número de documentos em que aparecem
(por exemplo, "a", "à", "a.", "aaf"...).
v. Algumas operações de eliminação também devem ser
entendida como de consolidação, na medida em que há
termos repetidos, aos quais o SAS atribui uma categoria
gramatical diferente (por exemplo, "acompanhamento" a ser
considerado simultaneamente como substantivo e como nome
próprio). Uma vez que não estamos a fazer qualquer análise
Página|65
de contextos de utilização, optamos por aglutinar este género
de ocorrências.
vi. Eliminação de uma série de termos classificados como nomes
próprios.
e. A lista definitiva ficou 1612 termos. É com base nela que vamos fazer
mais operações de processamento sobre os documentos.
9. Escolhemos as cinco classes mais representativas (aquelas com a maior
quantidade de documentos atribuídos). Para cada uma delas foram geradas
sequências de números aleatórios, obtidos a partir dos geradores disponíveis
em random.org18, com valores entre um e a quantidade máxima de
documentos identificados para cada classe. Obtivémos tabelas idênticas a
esta para cada classe:
3
102538
Administração Pública
25
102729
Administração Pública
6
103319
Administração Pública
2
106081
Administração Pública
29
50662
Administração Pública
22
69890
Administração Pública
14
70057
Administração Pública
20
70276
Administração Pública
28
70279
Administração Pública
10
70286
Administração Pública
12
70303
Administração Pública
...
Tabela 6: Atribuição de números aleatórios a cada um dos 756 documentos identificados para esta etapa de
processamento. A primeira coluna contém o número aleatório, a segunda o código do documento no sistema
TCJure e a terceira a classe que está a ser processada.
10.O conteúdo destas tabelas foi ordenado em função da primeira coluna (a dos
números aleatórios), o que nos permitiu chegar a uma selecção de 20
documentos para cada classe. A junção dos resultados das cinco classes
permite atingir o máximo teórico de 100 documentos. Na prática, dadas as
18
O recurso aos geradores de números aleatórios disponíveis online em www.random.org é comum em termos de prática
académica ([b031] e [b018], por exemplo), como forma rápida de ter acesso a valores numéricos gerados de uma
maneira puramente aleatória (neste caso a partir de “ruído atomosférico”, captado em frequências de rádio não ocupadas
por postos emissores).
Página|66
regras estabelecidas para a definição desta classificação, que permitem a
colocação do mesmo documento
dentro de mais do que uma classe, é
natural que ocorram sobreposições. Tal foi o que aconteceu, pelo que o
nosso conjunto de documentos de teste contém apenas 90 documentos do
web site, por 10 deles estarem colocados em duas categorias diferentes
simultaneamente.
11.Estes 90 documentos foram depois processados para se fazer a extracção de
todas as frases no seu interior. Para estabelecer o que é uma frase, definimos
as seguintes regras:
a. Qualquer sequência de mais do que uma quebra de linha sequencial
foi reduzida a apenas uma.
b. Qualquer sequências de palavras terminadas por uma quebra de linha
(o par de caracteres CR+LF, carriage return + line feed);
c. Qualquer sequência de palavras terminadas por “. “ (um ponto final e
um espaço)
A nossa opção pelo conjunto ponto final+espaço tem a ver com
características específicas deste conjunto documental, no qual abundam
não só referências à numeração e organização interna dos próprios
documentos (por exemplo, expressões como “alínea VIII.1”), como
também referências sistemáticas a documentos numerados de alguma
forma (por exemplo, “Lei n.º 98”).
A preparação dos documentos (separação das frases) foi feita através de
operações de edição em Word (versão 2007), com criação de um macrocomando apropriado (listado no Apêndice ...).
Página|67
Conclusões
Os objectivos que pretendíamos obter com este trabalho, estavam relacionados com
formas diferentes de processar a informação disponibilizada no web site. Foram dois
os nossos vectores de abordagem:
ƒ
Por um lado, trabalhar os logs de acesso ao web site, no sentido de
encontrar as suas características básicas, sobretudo de natureza quantitativa:
contabilizar acessos de forma cronológica e geográfica, por exemplo. Este
objectivo corresponde à interpretação da informação básica providenciada
por este tipo de dados. Ao manterem um rasto temporal de actividade,
permitem levar a cabo um certo tipo de caracterização, útil no
estabelecimento de uma identidade do web site.
ƒ
Por outro lado, fizemos incidir um conjunto de operações de processamento
de dados, na área do text mining, sobre ficheiros disponibilizados no web
site. Nesta etapa não nos preocupámos tanto com a forma como a
informação foi utilizada, mas sim com as características intrínsecas dessa
informação. O objectivo foi o de conseguir definir uma forma de classificar
documentos, passível de ser automatizada.
Estes dois vectores deram resultados aproveitáveis. Medições numéricas dos vários
parâmetros associados à utilização de um web site são fáceis de obter e de
interpretar. Servem para classificar melhor essas estruturas informativas, para
detectar pontos de falha, para aferir a qualidade do serviço prestado.
As operações que incidiram sobre texto, permitiram-nos ficar a conhecer melhor,
não só o universo informativo que os documentos do web site encerram, como
ainda alguns dos pomenores mais detalhados dos actuais sistemas de classificação
de documentos em uso na instituição. Tal conhecimento é útil, numa óptica de
aposta na melhoria constante dos serviços que são prestados (algo que nunca é de
mais realçar, sobretudo no contexto da Função Pública e de serviços que podem
prestar informações ao público em geral).
Página|68
Não nos espantou que houvesse uma riqueza de classificação relativamente
reduzida, com uma grande concentração de documentos em função de poucas
classes de classificação. A verdade é que a instituição em causa não pode fugir a
determinadas áreas temáticas. A forma por vezes intensa como o faz, acaba por ter
reflexo na maneira como os documentos são classificados. Esta constatação não
significa que não haja espaço para levar a cabo melhorias. Uma classificação mais
“fina” e detalhada traria vantagens para todos os utilizadores, que internos, quer
externos (muito embora estes apenas pouco ou nada contactem com os sistemas de
classificação internos).
O processamento posterior dos logs de acesso ao web site, numa tentativa de
“chegar” aos utilizadores finais da informação, trouxe-nos resultados interessantes.
Ele serviu para facilitar a definição de um “ADN” de utilizador, o qual constituiu a
primeira tentativa sistemática de identificar modalidades de uso do web site. Não
espanta que haja uma variedade relativamente reduzida de perfis de utilizador, na
medida em ela corresponde ao âmbito temático (pouco variado, se assim quisermos
dizer) da documentação disponibilizada no web site.
As considerações que já fizémos, sobre a necessidade/possibilidade de ser feita uma
classificação mais fina dos documentos, com aproveitamento de termos constantes
do thesaurus que pouco são explorados, poderia facilitar a criação de perfis de
utilização mais detalhados.
Tal como o web site se encontra actualmente estruturado, não há propriamente
lugar para um aproveitamento directo da informação obtida através destas
operações de processamento. Mesmo a nova versão, que só será activada depois da
data em que estas linhas estão a ser escritas, não prevê qualquer mecanismo de
personalização de consultas, ou qualquer integração maior entre o web site e o
tratamento feito através do sistema TCJure. Do ponto de vista de tratamento e
disponibilização de informação, a situação é virtualmente a mesma, desde há seis
anos para cá.
Página|69
Uma futura abordagem ao tratamento dos documentos e à personalização das
consultas poderia abranger os seguintes componentes:
ƒ
Um aproveitamento mais aprofundado das capacidades de classificação
temática oferecidas pelo thesaurus do sistema TCJure, por parte dos
operadores humanos que o utilizam.
ƒ
O aperfeiçoamento contínuo da lista de palavras-chave aqui apresentada
(como ponto de partida), através da conjugação de operações de text-mining
com a revisão e o aperfeiçoamento manual.
ƒ
A implantação, ao nível do web site, de um interface opcional de registo de
preferências dos utilizadores, no qual seriam indicadas um conjunto de
preferências iniciais, que estariam na base de uma cadeia de “ADN”
personalizada, a qual ficaria depois sujeita a um processo de reformulação
contínuo, com base nas escolhas sucessivas que cada utilizador faria nas
sessões de consulta seguintes.
Estes componentes teriam que passar por um extenso período de teste e validação,
além de acarretarem diversas mudanças ao nível da forma como são processados
internamente os documentos. No entanto, acreditamos que os ganhos justificariam
o investimento.
Página|70
Referências:
Livros e artigos
[1]
(b001a) ARNOLD, Stephen E.: The Google Legacy, Infonortics, 2005
[2]
(b002) ASADI, Saeid; XU, Jiajie; SHI, Yuan; DIEDRICH, Joachim; ZHOU,
Xiaofang: “Calculation of Target Locations for Web Resources”, Proceedings
of the 7th International Conference on Web Information Systems
Engineering, Oct 23-26, 2006 (Wuhan, People’s Republic of China).
Retirado da WWW em 2007-03-18 a partir de
http://www.itee.uq.edu.au/~zxf/_papers/WISE06.pdf
[3]
(b003) AYRE, Rick; WILLMOTT, Don: “The Internet Means Business”,
PC Magazine, May 16 (1995) 195-245.
[4]
(b001) AZCARRAGA, Arnulfo P.; YAP, JR., Teddy; CHUA, Tat Seng:
“Comparing Keyword Extraction Techniques For WEBSOM Text Archives”,
International Journal on Artificial Intelligence Tools, Vol. 11, No. 2 (2002)
219-232
Retirado da WWW em 2006-10-20 a partir de
http://content.epnet.com/ContentServer.asp?T=P&P=AN&K=7229756&EbscoContent=dGJ
yMNXb4kSeprI4v%2BbwOLCmrk%2Bep7VSsK64Ta%2BWxWXS&ContentCustomer=dGJy
MOzprkiuqLdIuePfgeyx%2BEu3q64A&D=aph","EBSCO_APH","MIN00996
[5]
(b003a) BARLOW, John Perry: Crime and Puzzlement, 1990
Retirado da WWW em 2006-06-19 a partir de
http://www.eff.org/Misc/Publications/John_Perry_Barlow/HTML/crime_and_puzzlement_1.ht
ml
[6]
(b003b) BARROSO, Luiz André; DEAN, Jeffrey; HÖLZLE, Urs: “Web Search
for a Planet: The Google Cluster Architecture”, IEEE Micro, March-April
2003, 22-28
Retirado da WWW em 2006-06-10 a partir de
http://216.239.37.132/papers/googlecluster-ieee.pdf
[7]
(b004) BEAUVISAGE, Thomas: “Sémantique des parcours des utilisateurs
sur le Web”, Texto!, Décembre 2004.
Retirado da WWW em 2005-09-08 a partir de
http://www.revue-texto.net/Inedits/Beauvisage/Beauvisage_Parcours.html
Página|71
[8]
(b005) BERENDT, Betina; SPILIOPOULOU, Myra: “Analysis of navigation
behaviour in web sites integrating multiple information systems”,
The VLDB Journal (2000) 9: 56–75
[9]
(b006) BERINSTEIN, Paula: “Wikipedia and Britannica. The Kid's All Right
(And So's the Old Man)”, Searcher, Vol. 14 No. 3 - March (2006)
Retirado da WWW em 2007-02-08 a partir de
http://www.infotoday.com/searcher/mar06/berinstein.shtml
[10] (b006a) BERNERS-LEE, Tim: The World Wide Web: A very short personal history
Retirado da WWW em 2006-09-12 a partir de
http://www.w3.org/People/Berners-Lee/ShortHistory
[11] (b006b) BERRYMAN, M. J.; ALLISON, A.; ABBOTT, D.: Statistical
Techniques for Text Classification Based on Word Recurrence Intervals,
Fluctuation and Noise Letters, Vol. 3, No. 1 (2003)
Retirado da WWW em 2006-09-15 a partir de
http://www.eleceng.adelaide.edu.au/Personal/dabbott/publications/FNL_berryman2003.pdf
[12] (b007) BLACKMAN, Stuart: “Nature has Wikipedia in its cites”, The
Scientist, Volume 20, Issue 2 (February 2006), 18
[13] (b008) BRUNS, Axel: “The n-Dimensional Village: Coming to Terms with
Cyberspatial Topography”, M/C Journal, Volume 1, Issue 4, Nov, 1998
http://journal.media-culture.org.au/9811/village.php
[14] (b009) BURTON, Mary C.; WALTHER, Joseph B.: “The Value of Web Log
Data in Use-Based Design and Testing”, Journal of Computer-Mediated
Comunication, 6 (3) April 2001.
Retirado da WWW em 2006-11-20 a partir de
http://jcmc.indiana.edu/vol6/issue3/burton.html
[15] (b010) BUSH, Vannevar: “As We May Think”, The Atlantic Monthly, Volume
176, No. 1, , July, 1945, 101-108
[16] (b011) CANTU-PAZ, E.: "On random numbers and the performance of
genetic algorithms," Proceedings of the Genetic and Evolutionary
Computation Conference, GECCO 2002, pp. 311-318, Morgan Kaufmann
Publishers, San Francisco, 2002.
[17] (b011a) CEGLOWSKI, Maciej: Building a Vector Space Search Engine in
Perl
Página|72
Retirado da WWW em 2006-11-20 a partir de
http://www.perl.com/lpt/a/2003/02/19/engine.html [18] (b012) CHUNG, Kyusuk; MULLNER, Ross; YOUNG, Duckhye: “Access to
Microdata on the Internet: Web-Based Analysis and Data Subset Extraction
Tools”, Journal of Medical Systems, Vol. 26, No. 6, December 2002.
[19] (b012a) CLOUGH, Bryan; MUNGO, Paul: Approaching Zero – Data Crime
and the Computer Underworld, Faber and Faber Limited, London, 1993.
[20] (b013) DAINOW, Brandt: “Web Analytics Breakthrough!”, iMedia
Connection, August 18, 2005
Retirado da WWW em 2006-11-20 a partir de
http://www.imediaconnection.com/content/6553.asp
[21] (b014) DECEMBER, John: “Challenges for a Webbed Society”, ComputerMediated Communication Magazine, Volume 1, Number 8, November
1/1994, p. 7
[22] (b015) DEEMER, Charles: What is hypertext?, 1994
Retirado da WWW em 2006-11-20 a partir de
http://www.geocities.com/cdeemer/essay.htm
[23] (b016) DEMERS, Elizabeth; LEV, Baruch: ”A Rude Awakening: Internet
Shakeout in 2000”, Review of Accounting Studies, 6, 331–359, 2001
[24] (b017) DENNING, Peter; HORNING, Jim; PARNAS, David; WEINSTEIN,
Lauren: “Wikipedia Risks”, Inside Risks 186, Communications of the ACM,
48, 12 (2005), 152-152
[25] (b017a) DIAS, Guilherme Ataíde, “Avaliação do acesso a periódicos
eletrônicos na web pela análise do arquivo de log de acesso”, Ciência da
Informação, Brasília, v. 31, n. 1, jan./abr. (2002) 7-12
[26] (b018) FANKHAUSER, Niklaus; MÄSER, Pascal: “Identification of GPI
anchor attachment signals by a Kohonen self-organizing map”,
Bioinformatics, Vol. 21 no 9 2005, 1846-1852
[27] (b019) FIDERIO, Janet: “A Grand Vision”, Byte, October 1988, 237-244.
[28] (b020) FLETCHER, Peter; POON, Alex; PEARCE, Ben; COMBER, Peter:
Practical Web Traffic Analysis – Standards, Privacy, Techniques, Results,
Glasshaus, Birmingham, 2002
Página|73
[29] (b020a) GAYO-AVELLO, Daniel; ÁLVAREZ-GUTIERREZ, Dário; GAYOAVELLO, José; Naïve Algorithms for Keyphrase Extraction and Text
Summarization from a Single Document Inspired by the Protein Biosynthesis
Process, Bio-ADIT 2004 - The First International Workshop on Biologically
Inspired Approaches to Advanced Information Technology. A.J. Ijspeert et al.
(Eds.): BioADIT 2004, LNCS 3141, pp. 440-455
[30] (b020a) GERTH, N.;MÄRTIN, C.;TIEDTKE, T.: “AWUSA - A Tool for
Automated Website Usability Analysis”, in: Proceedings of the 9 th
International Workshop on Design, Specification, and Verification of
Interactive Systems DSV-IS' 2002, Rostock
[31] (b020b) GETOOR, Lise: Link Mining: “A New Data Mining Challenge”,
SIGKDD Explorations, Volume 4, Issue 2, 2003
[32] http://ftp.cs.umd.edu/~getoor/Publications/kdd-exp03.pdf
[33] (b021) GIARLO, Michael J.: A Comparative Analysis of Keyword Extraction
Techniques
Retirado da WWW em 2006-10-20 a partir de
http://www.lackoftalent.org/michael/papers/596.pdf
[34] (b022) GIBSON, William: Neuromante, Gradiva, Lisboa, 1988
[35] (b023) GOODCHILD, Michael F.; HAINING, Robert P.: “GIS and spatial data
analysis: Converging perspectives”, Papers in Regional Science 83, 363–
385 (2004)
[36] (b024) GULLI, A.; SIGNORINI, A.: The Indexable Web is More than 11.5
billion pages, 2005
Retirado da WWW em 2006-03-03 a partir de
http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf
[37] (b025) HAIGH, Susan; MEGARITY, Janette: “Measuring Web Site Usage:
Log File Analysis”, Network Notes #57, August 4, 1998, Information
Technology Services, National Library of Canada
[38] (b026) HEMENWAY, Kevin; CALISHAIN, Tara: Spidering Hacks, O’Reilly,
2003
Página|74
[39] (b027) HYÖTYNIEMI, Heikki: “Text Document Classification with SelfOrganizing Maps”, STeP'96-Genes, Nets and Symbols, Finnish Artificial
Intelligence Society, pp. 64-72, 199
Retirado da WWW em 2005-10-10 a partir de
http://lipas.uwasa.fi/stes/step96/step96/hyotyniemi3/
[40] (b028) KAHN, Paul; LENK, Krzysztof: Mapping web sites, RotoVision, 2001
[41] (b029) KAMDAR, Tapan Kamdar; JOSHI, Anupam: On Creating Adaptive
Web Servers Using Weblog Mining, Technical Report TR-CS-00-05,
Department of Computer Science and Electrical Engineering, University of
Maryland, 2000
Retirado da WWW em 2005-10-10 a partir de
http://ebiquity.umbc.edu/get/a/publication/42.pdf
[42] KOEHLER, Wallace; "A longitudinal study of Web pages continued: a
consideration of document persistence", Information Research, Vol. 9 No. 2,
January 2004
Retirado da WWW em 2006-7-4 a partir de
http://informationr.net/ir/9-2/paper174.html?CFID=1882946&CFTOKEN=28761087
&jsessionid=6830182771075673274112
[43] (b030) LEE, Juhnyoung; PODLASECK, Mark; SCHONBERG, Edith; HOCH,
Robert; “Visualization and Analysis of Clickstream Data of Online Stores for
Understanding Web Merchandising”, Data Mining and Knowledge Discovery,
5, 59–84, 2001
[44] (b031) LIU, Ying; CILIAX, Brian J.; BORGES, Karin; DASIGI, Venu; RAM,
Ashwin; NAVATHE, Shamkant B.; DINGLEDINE, Ray: “Comparison of Two
Schemes for Automatic Keyword Extraction from MEDLINE for Functional
Gene Clustering”, Proceedings of the 2004 IEEE Computational Systems
Bioinformatics Conference (CSB 2004)
Retirado da WWW em 2006-10-20 a partir de
http://conferences.computer.org/Bioinformatics/CSB2004/PDF/039_Liu_Ying_TextMining.pdf
[45] (b032) MARTIN, Peter: “An Analysis of Random Number Generators for a
Hardware Implementation of Genetic Programming using FPGAs and HandelC”, Proceedings of the Genetic and Evolutionary Computation Conference,
GECCO 2002, Morgan Kaufmann Publishers, San Francisco, 2002.
Página|75
[46] (b033) MASSEY, Louis: “Determination of Clustering Tendency With ART
Neural Networks”, Proceedings of 4th Intl. Conf. on Recent Advances in Soft
Computing, Nottingham, U.K., 12 & 13 December 2002.
[47] (b034) MATSUO, Y; ISHIZUKA, M.: “Keyword Extraction From a Single
Document Using Word Co-occurrence Statistical Information”, International
Journal on Artificial Intelligence Tools, Vol. 13, No. 1 (2004), pp. 157-169
[48] (b034b) MAYR, Philipp: "Website entries from a web log file perspective – a new log
file measure" in Proceedings of the AoIR -ASIST 2004 Workshop on Web Science
Research Methods, Brighton, 2004
Retirado da WWW em 2007-01-18 a partir de
http://eprints.rclis.org/archive/00002831/01/Mayr_full.pdf
[49] (b034a) MORSHED, Ahsan-Ul: Towards the Automatic Classification of
Documents in User-generated Classifications, PhD Thesis Proposal,
Department of Information Technology & Communication, University of
Trento, Trento, Italy, 2006.
Retirado da WWW em 2007-01-18 a partir de
http://eprints.biblio.unitn.it/archive/00000938/01/001.pdf
[50] (b034b) NAHM, Un Young: Text Mining with Information Extraction,
University of Texas, Austin, 2004
[51] (b035) NAUGHTON, John: A Brief History of the Future. The origins of the
Internet, London, Weidenfeld & Nicolson, 1999
[52] (b036) NELSON, Theodor H.: “Managing Immense Storage”, Byte, January
1988, 225-238
[53] (b037) OAKES, Chris: “As Go Surfers, So Goes Alexa”, Wired News, Jul. 24,
1997
Retirado da WWW em 2006-03-18 a partir de
http://wired-vig.wired.com/news/print/0,1294,5427,00.html
[54] (b037a) OLIVEIRA, João Nuno; SANTOS, Leonel Duarte dos; AMARAL, Luís
Alfredo Martins do: Guia de Boas Práticas na Construção de Web Sites da
Administração Directa e Indirecta do Estado, Versão 3.0 de Fevereiro 2003,
UMIC
Retirado da WWW em 2006-03-18 a partir de
http://www.umic.pt/images/stories/publicacoes/GuiaBoasPraticas.pdf
Página|76
[55] (b038) ORTUÑO, M.; CARPENA, P.; BERNAOLA-GALVÁN, P.; MUÑOZ, E.;
SOMOZA, A.M.: “Keyword detection in natural languages and DNA”,
Europhysics Letters, 57(5), 2002, 759-764
[56] (b039) PEACOCK, Darren: “Statistics, Structures & Satisfied Customers:
Using web log data to improve site performance”, Museums and the Web
2002
Retirado da WWW em 2007-03-18 a partir de
http://www.archimuse.com/mw2002/papers/peacock/peacock.html
[57] (b040) PERKOWITZ, Mike; ETZIONI, Oren: Adaptive Web Sites: Concept
and Case Study, Department of Computer Science and Engineering,
University of Washington, Seattle, 1999
Retirado da WWW em 2006-05-20 a partir de
http://www.perkowitz.net/research/papers/cacm99.pdf
[58] (b041) PETERSON, Eric T.: Web Site Measurement Hacks, O’Reilly, 2005
[59] (b042) PITKOW, J; BHARAT, K.: “WebViz: A Tool for WWW Access Log
Analysis” in Proceedings of the Second WWW Conference, October, 1994.
[60] (b043) PUNIN, John R.; KRISHNAMOORTY, Mukkai S.; ZAKI, Mohammed
J.: Web Usage Mining - Languages and Algorithms,
Retirado da WWW em 2005-11-10 a partir de
http://www.cs.rpi.edu/~puninj/LOGML/TR01-3.pdf
[61] (b044) READ, Brock: “Middlebury College History Department Limits
Student' Use of Wikipedia”, Chronicle of Higher Education 2/16/2007, Vol.
53 Issue 24, A39-A39
[62] (b044a) SCHENKER, Adam; LAST, Mark; BUNKE, Horst; KANDEL,
Abraham: “Classification of Web Documents Using Graph Matching”, in
International Journal of Pattern Recognition and Artificial Intelligence, Vol.
18, No. 3 (2004) 475-496
[63] (b044a) SCHNEIDER, Fred B. (ed.): Trust in Cyberspace, National Academy
of Sciences, Washington, 1998
Retirado da WWW em 2006-04-10 a partir de
http://www.aci.net/kalliste/tic.htm
[64] (b045) SHEARD, Judy; CEDDIA, Jason; HURST, John; TUOVINEN, Juhani:
“Inferring Student Learning Behaviour from Website Interactions: A Usage
Analysis”, Education and Information Technologies 8:3, 245–266, 2003.
Página|77
[65] (b045a) SHIVAKUMAR, Narayanan; GARCIA-MOLINA, Hector: Building a
Scalable and Accurate Copy Detection Mechanism, Department of Computer
Science, Stanford, 1996
Retirado da WWW em 2006-04-10 a partir de
http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=199651&format=text&compression=&name=1996-51.text
[66] (b046) SPILIOPOULOU, Myra; POHLE, Carsten: “Data Mining for Measuring
and Improving the Success of Web Sites”, Data Mining and Knowledge
Discovery, 5, 85–114, 2001
[67] (b046a) STERLING, Bruce: Hacker Crackdown, Project Gutenberg Etext
#101, 1994
[68] (b047) STVILIA, Besiki; TWINDALE, Michael B.; GASSER, Les; SMITH,
Linda C.:
Information Quality Discussions in Wikipedia, Graduate School of Library and
Information Science, University of Illinois at Urbana-Champaign, 2005
Retirado da WWW em 2007-01-10 a partir de
http://www.isrl.uiuc.edu/~stvilia/papers/qualWiki.pdf
[69] (b048) TAN, Ah-hwee; YU, Philip S.: “Guest Editorial: Text and Web
Mining”, Applied Intelligence 18, 239-241, 2003
[70] (b048a) TRIBUNAL DE CONTAS, O Tribunal de Contas na Actualidade, Lisboa,
2006
disponível online em http://www.tcontas.pt/pt/apresenta/actualidade/sit_act.pdf
[71] (b049) TURBAN, Efraim; ARONSON, Jay E.; LIANG, Ting-Peng: Decision
Support Systems and Information Systems, 7th Edition, 2004, Prentice-Hall
[72] (b050) UZUN, Yasin: Keyword Extraction Using Naive Bayes
Retirado da WWW em 2006-10-20 a partir de
http://www.cs.bilkent.edu.tr/~guvenir/courses/cs550/Workshop/Yasin_Uzun.pdf
[73] (b050a) WANG, Yong; HODGES, Julia; TANG, Bo: Classification of Web
Documents Using a Naive Bayes Method, in Proceedings of the 15th IEEE
International Conference on Tools with Artificial Intelligence (ICTAI’03),
2003
[74] (b051) WEBSTER, Kathleen; PAUL, Kathryn: “Beyond Surfing: Tools and
Techniques for Searching the Web”, Information Technology, January, 1996
Página|78
[75] (b051a) WOO, Seon-Mi; YOO, Chun-Sik: “Digital Library Retrieval Model
Using Subject Classification Table and User Profile”, in Digital Libraries:
International Collaboration and Cross-Fertilization, Springer Berlin /
Heidelberg, 2004, 473-482
[76] (b051b) YANG, Kiduk: How do we find information on the Web?, School of
Information and Library Science, University of North Carolina, 2001
[77] (b052) ZAÏANE, Osmar R.; XIN, Man; HAN, Jiawei, “Discovering Web
Access Patterns and Trends by Applying OLAP and Data Mining Technology
on Web Logs”, in Proceedings on the Advances in Digital Libraries
Conference (ADL'98), Santa Babara, April (1998), 19-29
Página|79
Referências:
Literatura cinzenta
[78] (b048b) TRIBUNAL DE CONTAS, Relatório de Actividades e Contas 2005,
Lisboa, 2006
disponível online em http://www.tcontas.pt/pt/actos/rel_anual/2005/rel2005.shtm
[79] Resolução nº 3/00 – PG (Divulgação de actos do Tribunal na Internet),
através da qual foi expressa a intenção de passar a disponibilizar, através do
web site, uma quantidade e variedade de documentos muito maior do que a
que era feita até ao momento. Tal intenção subentendia a necessidade de
proceder a uma reestruturação do conteúdo.
[80] Despacho nº 86/00 – GP de 2000/09/21 (Conteúdo do site do Tribunal de
Contas na Internet), através do qual é definida a estrutura básica do web site
(e que, com algumas alterações, se mantém basicamente idêntica até hoje).
[81] Proposta nº 17/00 – GE, através da qual o Gabinete de Estudos fez várias
sugestões sobre conteúdos a incluir.
[82] Comunicação Interna 24/00 – DSTI de 2000/11/02, Informação nº 28/00 –
SOI de 2000/11/14 e Informação nº 38/00 – DSTI de 2000/12/20, através
das quais são feitos adiamentos às datas previstas de activação do novo web
site.
[83] Informação nº 12/01 – DSTI de 2001/02/07 (Memória descritiva da
segunda versão do web site do Tribunal de Contas), através da qual é
apresentado o aspecto final da nova versão, com justificação das escolhas de
tecnologia e de desenho gráfico. Ao mesmo tempo é aberto o período de
testes internos e recepção de sugestões.
[84] Nota 12/01 – GP e Nota 13/01 – DG de 2001/02/12, através das quais se
divulga internamente a existência da nova estrutura e se pedem observações
e sugestões de alteração.
[85] Comunicação Interna nº 5/01 – DGFP – DP de 2001/02/24, através da qual
se procede a um ajuste na estrutura do web site, tendo em vista a
disponibilização futura do Balanço Social da instituição.
[86] Informação Conjunta nº 16/01 – DSTI e 17/01 – DCP de 2001/03/05,
através da qual se dá conta do processo de recolha de sugestões. Foram
Página|80
recebidas sugestões do Dr. Justino Janeiro (via e-mail), do DADI (através da
Informação nº 22/01 – DADI) e do Dr. Rui Trindade (através de comentários
manuscritos).
[87] Proposta nº 06/02 – DCP de 2002/05/10, através da qual é proposta uma
alteração na estrutura do web site, de forma a prever a inclusão de Notas
para a Comunicação Social. Esta alteração foi levada a cabo. No entanto, a
sua utilidade tem-se revelado diminuta, por não ser alimentada com
informação.
[88] Resolução nº 3/02/Nov.19 – 1ª S/PL de 2002/11/19 (Publicitação da
Jurisprudência da 1ª Secção), que determina a necessidade de proceder à
publicitação, no web site do TC, da Jurisprudência da 1ª Secção.
[89] Informação s/n DCP – DSTI de 2002/11/25 (Proposta de nova versão do
web site do Tribunal de Contas), através da qual, mais do que uma alteração
profunda, é proposta uma modificação visual e funcional da página de
entrada. O aspecto proposto é aprovado e é o que se mantém até ao
presente.
[90] Informação nº 4/03 – DSTI e Parecer nº 1/03 – DSTI de 2003/01/17
(Publicação de Acórdãos na Internet), através da qual se dá conta da
evolução do processo de publicitação de Acórdãos e das dificuldades a ele
inerente.
[91] Despacho nº 38/03 – DG de 2003/04/03 (Procedimentos para publicitação
de Acórdão da 1ª Secção na Internet), através do qual são fixadas as regras
inerentes à divulgação deste tipo de documentos.
[92] Despacho nº 32/05 – DG de 2005-03-16, no qual é lançado o processo de
alterações ao web site, com vista à definição de uma nova estrutura e
aspecto para o seu conteúdo.
[93] Informação nº 1/06 – DCP-NC-Tec de 2005-05-04 (Reestruturação do web
site do Tribunal de Contas), onde se dá conta das acções levadas a cabo face
às alterações pretendidas.
Página|81
Referências:
Normas e standards
[94] (b052a) RFC 2131 – Dynamic Host Configuration Protocol
disponível online em http://tools.ietf.org/html/rfc2131
[95] (b052b) RFC 2965 – HTTP State Management Mechanism
disponível online em http://tools.ietf.org/html/rfc2965
Página|82
Referências:
Web sites
[96] (b054a) comScore
http://www.comscore.com/
Empresa americana que desenvolve a sua actividade na área da medição do
uso da Internet em múltiplas vertentes, no que toca a actividades online e
offline.
[97] (b055) Cyber Geography Research
http://www.cybergeography.org/atlas
Repositórios de múltiplos exemplos de representação gráfica de informação
de natureza maioritariamente numérica, de alguma forma relacionada com a
área das Redes, Comunicações e Internet. Deixou de ser actualizado a partir
de 2004.
[98] (b056) Electronic Frontier Foundation
http://www.eff.org
Organização privada não-lucrativa, dedicada à defesa dos “direitos digitais”.
A sua fundação data de 1990, tendo surgido como uma reacção às primeiras
acções policiais levadas a cabo pelo governo norte-americano sobre a
comunidade de hackers da época.
[99] (b057) EPIC – Electronic Privacy Information Center
http://www.epic.org
Local de centralização de recursos relacionados com a “liberdade
electrónica”. Entre os tópicos abordados contam-se os que dizem respeito à
privacidade na consulta de informação e navegação em web sites.
[100] Genetics Home Reference
http://ghr.nlm.nih.gov/handbook/basics/dna;jsessionid=B64799F0C4404FF
95ABBBF440EFED596
[101] (b057b) Glossary of Interactive Advertising Terms
http://www.iab.net/resources/glossary_a.asp
Conjunto de definições apresentadas pelo IAB, relativas a conceitos no
âmbito da utilização de conteúdos web.
Página|83
[102] (b057a) Interactive Advertising Bureau (IAB)
http://www.iab.net
Organização destinada a promover e orientar os esforços de empresas que
trabalhem nas áreas dos conteúdos online, correio electrónico, broadcasting
interactivo, TV interactivo e conteúdos wireless, tendo em vista a medição da
eficácia de campanhas publicitárias interactivas.
[103] (b058) International Federation of Audit Bureaux of Circulations (IFABC)
http://www.ifabc.org/welcome.asp
Ponto de contacto e de reunião de esforços de uma grande quantidade de
organizações espalhadas por todo o mundo, que de alguma forma estão
envolvidas na quantificação da circulação de periódicos e de campanhas
publicitárias. Portugal está representado através da Agência Portuguesa para
o Controlo de Tiragem e Circulação (disponível em http://www.apct.pt).
[104] (b058a) IFABC WWW Standards
http://www.ifabc.org/standards.htm
Em 2001, a IFABC estabeleceu definições para um conjunto de termos
relacionados com a medição de valores de utilização de várias fontes de
informação disponíveis na Internet. Podem ser consultadas neste endereço.
[105] (b059) Links to Vannevar Bush References
http://www.ausbcomp.com/~bbott/wik/bushref.htm
Informação de referência para fundamentar a existência da WWW, com base
no trabalho percursor de Vannevar Bush.
[106] (b059a) Nielsen / NetRatings
http://www.nielsen-netratings.com/
Uma das grandes empresas de medição de tráfego e padrões de utilização da
Internet, de um ponto de vista quantitativo e qualitativo (para medição da
efectividade de campanhas de marketing, por exemplo).
[107] (b060) Platform for Privacy Preferences Project (P3P)
http://www.w3.org/P3P/
Projecto nascido no seio do World Wide Web Consortium (W3C), destinado a
normalizar a forma como os utilizadores podem controlar a recolha de
informação pessoal pelos web sites que visitam.
Página|84
[108] (b061) Project XANADU
http://www.xanadu.net/
Informação de referência sobre outro universo informativo, que poderia ter
assumido um papel precursor/concorrente/substituto da WWW.
[109] (b062) The Web Bug FAQ
http://www.eff.org/Privacy/Marketing/web_bug.html
Informação de referência sobre esta técnica de recolha de dados em páginas
web. Mantém-se válida do ponto de vista técnico, embora seja relativamente
antiga.
[110] (b062a) Web Mining – Patricio Galeas
http://www.galeas.de/webmining.html
Extensa lista de recursos na área de web mining, com indicação de
investigadores, projectos de investigação e software.
[111] (b063) Web Searchlores
http://www.fravia.com
Informação aprofundada sobre o funcionamento e exploração de todo o tipo
de tecnologias de pesquisa de informação na WWW.
[112] (b064) WebTrends – The Fundamental of Web Analytics
http://www.webtrends.com/Resources/WebAnalyticsGlossary.aspx
Glossário online, mantido por esta empresa, uma das mais representativas
nesta área de mercado.
Página|85
Apêndice 1: Hardware e software utilizados
Na realização deste trabalho foram utilizadas as seguintes configurações de
hardware e software:
Vários modelos diferentes de PCs, todos com arquitectura Intel e sistemas
operativos Microsoft – Windows XP (com Service Pack 2) e Windows Vista.
Este equipamento foi utilizado para as tarefas de edição de texto e imagem,
pré-processamento de dados e programação.
Tivémos a possibilidade de utilizar vários servidores do Departamento de
Sistemas e Tecnologias de Informação (DSTI) da Direcção-Geral do Tribunal
de Contas (DGTC), com as seguintes características:
o Servidor HP Proliant DL 380, com dois processadores e 3 GB de
RAM, sistema operativo Windows 2003 Enterprise Server R2, a
desempenhar as funções de servidor web (http://www.tcontas.pt),
utilizando para tal o software servidor web Microsoft Internet
Information Server v6.
o Servidor UNISYS ESR2035, com oito processadores e 3 GB de RAM,
sistema
operativo
Windows
2003
Enterprise
Server
R2,
a
desempenhar as funções de servidor primário de base de dados,
utilizando para tal o SGBD Microsoft SQL Server 2000 Enterprise.
Este servidor foi utilizado em todas as operações que envolveram a
recolha e processamento de dados associados ao sistema TCJure.
o Servidor HP Proliant ML ML570, com quatro processadores e 9 GB
de RAM (destinado a utilização futura como servidor de base de
dados e de aplicações para a versão online do sistema de entrada de
contas), com sistema operativo Windows 2003 Enterprise Server R2.
Este servidor foi utilizado como plataforma de virtualização19, tendo
19
Fomos levados a desenvolver as tarefas de processamento de dados associadas às operações de text mining em ambiente
virtual por um conjunto de constrangimentos. Por um lado, a versão do software de data mining colocada à nossa
disposição, SAS 9.1, apresentou desde sempre uma limitação cronológica de utilização, que impede o seu uso em datas
posteriores a Maio de 2005. Foi para nós conveniente proceder à sua utilização num ambiente controlado, no qual o
calendário pudesse ser alterado livremente, sem provocar impactos indesejados no funcionamento de outras aplicações,
ou na carga de meta-informação associada a todo o tipo de documentos, no que diz respeito às datas registadas de
Página|86
sido utilizado para o efeito o software Vmware Player, a executar uma
máquina virtual criada originalmente em ambiente Microsoft Virtual
PC.
Software SAS 9.1, a correr sobre Windows XP (com Service Pack 2), num
ambiente virtual (criado em Microsoft Virtual PC, posteriormente convertido
para o formato VMWare Workstation e executado através do VMWare Player).
Aplicações do pacote Microsoft Office 2007 (Word para operações de
pesquisa e substituição de texto, Excel para servir de aplicação intermédia
entre fontes de dados de outras proveniências – ouputs de SAS e de SQL
Server – para ordenar e organizar dados e para gerar gráficos). Estes
programas também foram utilizados sobre os sistemas operativos Windows
XP e Windows Vista.
Software Adobe Acrobat Professional 6.0 (para a conversão de documentos
PDF para o formato TXT), a correr sobre Windows XP.
Microsoft SQL Server 2000 Enterprise, a correr sobre Windows 2003 Server
R2 Enterprise (para a recolha de dados de sistemas de informação do TC).
Linguagem de programação Just BASIC v 1.01(ambiente integrado de edição
e execução), para abordar programaticamente diversas operações de
processamento de documentos.
Utilitários variados para automatização de tarefas:
o Comandos find e grep para busca de palavras em ficheiros;
o Software A.F.9 Replace some bytes 1.2 para automatizar longas
sequências de pesquisa e substituição de caracteres em documentos.
(cont.) criação e modificação. Como forma de tornear o impacto das alterações de data na operação regular dos PCs
utilizados, optámos por criar máquinas virtuais dedicadas a esse software, em ambiente Microsoft Virtual PC e/ou VMWare
Workstation.
Por outro lado, a recurso a máquinas virtuais trouxe uma vantagem acrescida. O máximo de memória física disponível nos
PCs a que tivemos acesso foi 1 GB. Tal quantidade veio a revelar-se limitativa para levar a cabo com êxito determinadas
operações de processamento mais exigentes. A utilização de uma máquina virtual, sob o software VMWare Player, a correr
num servidor com 9 GB de RAM permitiu-nos ter acesso a um ambiente de processamento virtual, que dificilmente
conseguiríamos concretizar com hardware real – um PC virtual com Windows XP e 3,5 GB de RAM. A maior lentidão
associada a qualquer solução de virtualização conseguiu ser contornada não só pela quantidade de memória
disponibilizada para este PC virtual, como ainda pelo elevado desempenho oferecido pelo servidor utilizado.
Página|87
Apêndice 2: O anúncio do primeiro programa de processamento
de ficheiros de log de servidores web
A 3 de Novembro de 1993, foi anunciada ao mundo a existência de um programa
chamado getsites, destinado a gerar relatórios sobre a utilização de servidores web.
Fonte: The World Wide Web History Project (http://1997.webhistory.org/home.html)
Imagem extraída de http://1997.webhistory.org/www.lists/www-talk.1993q4/0380.html
Página|88
Apêndice 3: Evolução da estrutura informática
do web site do Tribunal de Contas
O web site do Tribunal de Contas já passou por servidores de capacidade variável,
tendo sempre em conta não só as necessidades imediatas, como as previsões de
crescimento futuro.
Entre 1998 e 2000: um PC Unisys Aquanta DS com as seguintes características:
1 processador Intel Pentium II a 200 MHz.
128 MB de memória RAM.
1 disco rígido de 4 GB.
Sistema operativo Microsoft Windows NT 4.
Software servidor web Microsoft Internet Information Server 4.
Entre 2000 e 2001: Um PC HP Vectra VL com as seguintes características:
1 processador Intel Pentium III a 500 MHz.
256 MB de memória RAM.
2 discos rígidos de 6 GB.
Sistema operativo Microsoft Windows NT 4.
Software servidor web Microsoft Internet Information Server 4.
Entre 2001 e 2004: um servidor Unisys Aquanta ES2044, com as seguintes
características:
4 processadores Intel Pentium III Xeon a 733 MHz
3 GB de memória.
Página|89
6 discos rígidos de 9 GB em configuração RAID, divididos em 2 segmentos
(2 discos em RAID 0, para o sistema operativo, SQL, swap e logs, 4 discos
em RAID 5, para o web site e as bases de dados).
Sistema operativo Windows 2000 Advanced Server, com Service Pack 4.
Software servidor web Internet Information Server 5.
Software servidor de base de dados SQL Server 2000 Enterprise Edition.
De 2004 em diante: um servidor HP Proliant DL 380, com as seguintes
características:
2 processadores Intel Xeon a 3.2 GHz
3 GB de memória.
4 discos rígidos de 36,4 GB em configuração RAID, configurados como um
único disco lógico de 104 GB em RAID 5. Sobre ele foram configuradas
quatro unidades para sistema operativo, área de swap, logs, web site e bases
de dados.
Sistema operativo Microsoft Windows 2003 Enterprise Edition R2.
Software servidor web Microsoft Internet Information Server 6.
Software servidor de base de dados Microsoft SQL Server 2000 Enterprise
Edition.
Página|90
Apêndice 4: Listagens em Basic
Listagem 1: Programa utilizado para desdobrar um conjunto específico de termos do
thesaurus do sistema TCJure, com vista a determinar para cada um qual o seu Top
Term – logo, qual o seu encabeçamento em termos de grande área temática.
'
' Processamento do Thesaurus associado ao sistema TCJure
' Desdobramento de descritores: para cada um, indicar o respectivo TT
'(seguindo a cadeia de relações)
'
'----------------------------------------------------------------------------'
' Definição de arrays
'
dim tt$(35,2)
dim relacoes(6400,3)
dim descritores$(8560,3)
dim idTT$(2)
dim descritoresTT$(8560,2)
dim docDesc$(600,3)
'
' carrega o array de Top Terms
'
tt$(0,0) = "Actividade Política"
tt$(0,1) = str$(15514)
tt$(1,0) = "Direito"
tt$(1,1) = str$(15520)
tt$(2,0) = "Economia"
tt$(2,1) = str$(15539)
tt$(3,0) = "Educação"
tt$(3,1) = str$(15553)
tt$(4,0) = "Empresa e concorrência"
tt$(4,1) = str$(15559)
tt$(5,0) = "Entidade reguladora"
tt$(5,1) = str$(15565)
tt$(6,0) = "Defesa"
tt$(6,1) = str$(15566)
tt$(7,0) = "Finanças (Direito Financeiro)"
tt$(7,1) = str$(15567)
tt$(8,0) = "Indústria e energia"
tt$(8,1) = str$(15573)
tt$(9,0) = "Organizações internacionais"
tt$(9,1) = str$(15589)
tt$(10,0) = "Política Internacional"
tt$(10,1) = str$(15594)
tt$(11,0) = "Administração interna"
tt$(11,1) = str$(15599)
tt$(12,0) = "Questões sociais"
tt$(12,1) = str$(15600)
tt$(13,0) = "Trabalho. Emprego"
tt$(13,1) = str$(15614)
tt$(14,0) = "Transportes e comunicações"
tt$(14,1) = str$(15618)
tt$(15,0) = "Tribunal (organização judiciária)"
tt$(15,1) = str$(15624)
Página|91
tt$(16,0) = "Outros"
tt$(16,1) = str$(15636)
tt$(17,0) = "Administração Pública"
tt$(17,1) = str$(15637)
tt$(18,0) = "Agricultura, pecuária e pesca"
tt$(18,1) = str$(15650)
tt$(19,0) = "Agro-Alimentar"
tt$(19,1) = str$(15657)
tt$(20,0) = "Ambiente"
tt$(20,1) = str$(15658)
tt$(21,0) = "Associação e Fundação privada"
tt$(21,1) = str$(15663)
tt$(22,0) = "Ciência e tecnologia"
tt$(22,1) = str$(15665)
tt$(23,0) = "Auxiliar de informação"
tt$(23,1) = str$(15803)
tt$(24,0) = "Cargos"
tt$(24,1) = str$(15804)
tt$(25,0) = "Empresas"
tt$(25,1) = str$(15805)
tt$(26,0) = "Geográficos"
tt$(26,1) = str$(15806)
tt$(27,0) = "Organismos"
tt$(27,1) = str$(15807)
tt$(28,0) = "Intervenções operacionais"
tt$(28,1) = str$(15808)
tt$(29,0) = "Programas"
tt$(29,1) = str$(15809)
tt$(30,0) = "Regulamentos"
tt$(30,1) = str$(15810)
tt$(31,0) = "Sistemas"
tt$(31,1) = str$(15811)
'
' carrega o array de relacoes
' - 1o elemento: termo
' - 2o elemento: termo
' - 3o elemento: relacao
'
open "c:\temp\todas_as_relacoes.txt" for input as #f
for i = 0 to 6348
line input #f, relacoes(i,0)
line input #f, relacoes(i,1)
line input #f, relacoes(i,2)
next i
close #f
'
' carrega o array de descritores
' - 1o elemento: descritor
' - 2o elemento: código do descritor
' - 3o elemento: 0 se não for TT, 1 se for
'
open "c:\temp\todos_os_descritores_com_tt.txt" for input as #f
for i = 0 to 8553
line input #f, descritores$(i,0)
line input #f, descritores$(i,1)
line input #f, descritores$(i,2)
next i
close #f
Página|92
'
' carrega o array de descritores de cada documento
' - 1o elemento: nome do ficheiro pdf
' - 2o elemento: um dos descritores associados
'
open "c:\temp\100_documentos_do_website.txt" for input as #f
for i = 0 to 574
line input #f, docDesc$(i,0)
line input #f, docDesc$(i,1)
next i
'
' ciclo de pesquisa de TopTerms para todos os descritores do thesaurus
' carrega o array descritoresTT$ com pares descritor/top term respectivo
'
for i= 0 to 8553
topT = NextInChain(val(descritores$(i,1)))
if topT > 0 then
print i,descritores$(i,0), " --------> ", idTT$(0)
descritoresTT$(i,0) = descritores$(i,0)
descritoresTT$(i,1) = idTT$(0)
end if
next i
'
' percorre a lista de descritores dos documentos e procura o respectivo TT
' Poderia ficar mais fácil se em vez do descritor por extenso
' tivesse já o seu código
'
for i = 0 to 574
for j = 0 to 8553
if descritoresTT$(j,0) = docDesc$(i,1) then
docDesc$(i,2) = descritoresTT$(j,1)
end if
next j
print docDesc$(i,0), docDesc$(i,1), docDesc$(i,2)
next i
'
'----------------------------------------------------------------------------'
' processamento interno de relações
'
function NextInChain(termo)
r = 0
if isTT(termo) < 1 then
while r <= 6348
if termo = relacoes(r,1) then
if relacoes(r,2) = 2 then
p = relacoes(r,0)
v = NextInChain(p)
end if
end if
r = r+1
wend
rvalue = v
else
rvalue = termo
end if
NextInChain = rvalue
end function
'
Página|93
' determina se um termo é TT ou não
'
function isTT(t)
'
cicloTT = 0
idTT$(0) = ""
idTT$(1) = ""
'
while cicloTT < 32
if val(tt$(cicloTT,1)) = t then
'
idTT$(0) = tt$(cicloTT,0)
idTT$(1) = tt$(cicloTT,1)
'
rvalueTT = 1
exit while
else
rvalueTT = 0
end if
cicloTT = cicloTT+1
wend
isTT = rvalueTT
end function
Página|94
Apêndice 5: Macro-comandos de Word
Listagem 1: Separação do conteúdo de um texto por frases, sendo “frase” definida
da seguinte maneira:
1. Um conjunto de palavras terminado pelo par de caracteres CR+LF (carriage
return + line feed);
2. Um conjunto de palavras terminado pelo par de caracteres “. ” (ponto final +
espaço).
Este segmento de código remove múltiplas repetições do caracter “.” (ponto final),
por se tratar de um conteúdo que repetidamente ocorre nos documentos
processados. São também removidas as sequências de múltiplos pares CR+LF
(correspondentes a linhas vazias), sendo esta última operação repetida várias vezes.
Finalmente, o texto do documento é convertido para letras minúsculas (como forma
de facilitar a pesquisa posterior de palavras-chave) e o documento é gravado.
Sub pontos_e_linhas()
'
' pontos_e_linhas Macro
'
'
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ".."
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ". "
.Replacement.Text = "^p"
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
Página|95
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = "^p^p"
.Replacement.Text = "^p"
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.Execute Replace:=wdReplaceAll
Selection.WholeStory
Selection.Range.Case = wdLowerCase
ActiveDocument.Save
End Sub
Página|96
Download