Agradecimentos Quero aqui deixar expressos os meus agradecimentos a todos aqueles que de alguma forma me auxiliaram na realização desta dissertação, nomeadamente: Ao meu orientador, Doutor Manuel Filipe Santos, pelo constante apoio e pelos conselhos prestados. À Universidade do Minho, sobretudo ao pessoal docente e não-docente do Departamento de Sistemas de Informação. Ao Tribunal de Contas, pelas condições proporcionadas, no que diz respeito às fontes de informação trabalhadas e ao acesso a alguns dos meios técnicos essenciais para o processamento dessa informação. Ao Dr. João Carlos Pereira Cardoso, director do Departamento de Sistemas e Tecnologias de Informação da Direcção-Geral do Tribunal de Contas, pelo apoio e facilidades concedidas. Este agradecimento estende-se ao restante pessoal do mesmo serviço, que sempre manifestou o seu apoio. À minha família, pelo apoio e compreensão demonstrados (e pelo cuidado em me mandarem escrever quando era preciso). Ao meu filho, João Francisco, pela ajuda prestada no relembrar dos pormenores mais finos (e traiçoeiros) da gramática da língua portuguesa, e pela paciência demonstrada pelo tempo que um trabalho destes forçosamente ocupa. À Maria do Castelo, por ser a pessoa que melhor me compreende e que apesar de estar a fazer a sua própria dissertação, sempre teve tempo para me apoiar, criticar, comentar e apontar outros caminhos. Página|iii Caracterização dos utilizadores de web sites institucionais via web log mining – O caso do Tribunal de Contas Resumo É difícil encontrar outro meio de comunicação que tenha crescido tão rapidamente e num volume tão grande como a World Wide Web. Ao mesmo tempo, é díficil encontrar um que encerre em si próprio, de maneira tão abundante, a meta-informação necessária para o seu estudo aprofundado. Ver a WWW como um simples depósito de informação, constitui um ponto de vista redutor. Muito embora, num sentido restrito, seja possível encarar tudo o que ela oferece como sendo informação à nossa disposição, a verdade é que uma das suas grandes virtudes, é o facto de fornecer cada vez mais maneiras de levar os utilizadores a interagir com essa informação – para a manipular (ajax), para a alterar (wikis), para a aumentar (blogs), para a transformar e ampliar (mashups), entre outros exemplos e abordagens. Os registos de acesso aos web sites (logs) constituem a principal fonte de informação quanto à forma como a WWW é, de facto, utilizada. Mais do que se basear na análise de factores externos (como qualquer canal de televisão, que tem que perguntar aos tele-espectadores se o viram), qualquer web site pode registar automaticamente todas as consultas que lhe são feitas. Da análise destes acessos depende a correcta compreensão do lugar e funções desempenhadas pelo web site, ao longo da sua vida. Nesta dissertação procuramos reunir os dois mundos. Pretendemos caracterizar a informação disponibilizada num web site (o do Tribunal de Contas), pedindo “emprestados” alguns conceitos à biologia – para traçar uma espécie de “ADN” de cada documento. Pretendemos também, recorrendo aos logs de acesso, traçar outro ADN, o dos utilizadores do web site, com base nos seus padrões de uso. Os resultados de um trabalho desta natureza poderão auxiliar abordagens futuras a este e outros web sites, no sentido de facilitar um tipo de classificação automática de documentos e de permitir a criação e manutenção no tempo de perfis de utilização, numa tentativa de fazer adequar com maior precisão a informação que é disponibilizada, com as necessidades dos utilizadores. Página|iv Institutional web site usage profiling via web log mining. The Portuguese Court of Auditors as an example. Abstract It's hard to find any kind of media with a growth-rate as high as the World Wide Web. At the same time, it's hard to find one that stores within itself such an amount of metadata, useful for an indepth study. It is wrong to look at the WWW simply as a kind of information store. Although all its contents are information one way or the other, truth is there are quite a few ways of letting the users interact with that information, either to manipulate it (via ajax-based applications), to alter it (through the use of wikis), to add to it (via blogs and web sites themselves) or to transform and amplify its meanings (through mashups). These are only a few examples on what can be done today. Web site access logs are the main information source on how the WWW is used. Rather than asking the users if they viewed the pages (such as a TV station might do), any web site has the means to keep a permanent record about its visitors. By analyzing these logs, we are able to get a better understanding of the roles played by the web site. In this document we borrow a few concepts from biology, in order to establish a kind of 'DNA' for each document on the web site of the Portuguese Court of Auditors (Tribunal de Contas). We do this by looking at the WWW as an information source and by processing what we find. At the same time, we try do extend the same approach to the users who looked for those documents, by processing the web access logs. The results of such an approach might enable future uses of automatic document classification, as well as an effective personalization of information delivery. Página|v Chractérisation des utilisateurs des web sites institutionelles à travers des téchniques de minération de web logs. L’éxample du Cour de Comptes Portugais Résumé Il est très difficile de trouver quelque sorte de média avec une croissance si grande que le World Wide Web. En même façon, il est difficile de trouver un moyen intéractif d'information qui préserve une si grande quantité de métadonnées dans son intérieur, et qui puisse les utiliser por des études en profondeur. Le Web n'est seulement un depôt d'information. On peut bien regarder tout ce qu'il présent comme s'il était de l'information toute simple. Pourtant, aujour'dui il'y a plusieurs moyens à la disposition des utilisateurs pour accomplir une intéraction riche avec les contenus présentés: pour faire sa manipulation (à travers les applications Ajax), pour faire des modifications (à travers les wikis), pour participier dans sa croissance (à travers les blogs et les web sites, êux-mêmes) ou pour faire des transformations (à travers les mashups). Ce ne sont que des examples sur les possibilités d'utilisation offertes. Le logging des pages Web consultées est la première source d'information sur l'utilisation du WWW. Par example, quand on parle d'une châine de télévision, le seul moyen qu'elle a pour connaître les charactéristiques de ses téléspectateurs, est de les demander directement. Par contraire, un web site peut enregistrer automatiquement toutes les visites à ses pages. Quand on analyse ces logs, on peut comprendre parfaitement l'évolution du site et les modes d'intéraction utilisés. Dans ce travail, nous cherchons une façon d'unifier ces deux réalités. D'un coté nous avons l'information disponible dans le web site do Cour des Comptes Portugais (Tribunal de Contas) laquelle sera procéssé pour créer une espéce d'ADN pour chaque document. De l'autre coté, nous avons les web logs, qui nous permetront identifier des utilisateurs, et établir aussi son ADN (on parle d'ADN d'une façon symbolique, puisque nous créons des séquences d'identification numériques pour chaque document/utilisateur). Les résultats peuvent pêut-être nos approcher d'une classification automatique des documents, et aussi d'une création de profils d'utilisateurs. Página|vi Índice de capítulos Agradecimentos ........................................................................................... iii Resumo...................................................................................................... iv Abstract ....................................................................................................... v Résumé...................................................................................................... vi Índice de capítulos ...................................................................................... vii Índice de imagens ....................................................................................... ix Índice de tabelas ......................................................................................... xi Índice de gráficos ....................................................................................... xii Introdução .................................................................................................. 1 Objectivos ..................................................................................................... 3 Contextualização ............................................................................................ 4 Motivação ..................................................................................................... 5 Relevância ....................................................................................................6 Fontes primárias ............................................................................................ 7 Hardware e software utilizados ........................................................................ 7 Organização da dissertação ............................................................................. 8 Definição de conceitos.................................................................................. 9 A teoria (e prática) subjacente à utilização de logs de acesso a web sites .......... 10 O software existente .....................................................................................28 O Tribunal de Contas ................................................................................. 34 Enquadramento normativo do Tribunal de Contas ............................................ 35 Organograma do Tribunal de Contas .............................................................. 36 Os Actos do Tribunal de Contas - disponibilização externa e interna ................... 37 Tratamento temático da informação ............................................................... 41 Página|vii Classificação e recuperação - considerações finais ........................................... 42 O web site do Tribunal de Contas ................................................................ 44 Caracterização técnica do web site do TC ....................................................... 48 Escolhas técnicas que foram feitas no processo de desenho do web site ............ 50 Os logs de acesso ao web site do TC .............................................................. 52 Estabelecer um ADN para os documentos do web site do TC ........................... 56 Operações de text mining .............................................................................. 63 Conclusões ............................................................................................... 68 Referências: Livros e Artigos ........................................................................ 71 Referências: Literatura cinzenta ................................................................... 80 Referências: Normas e standards ................................................................. 82 Referências: Web sites ............................................................................... 83 Apêndice 1: Hardware e software utilizados .................................................. 86 Apêndice 2: O anúncio do primeiro programa de processamento de ficheiros de log de servidores web ................................. 88 Apêndice 3: Evolução da estrutura informática do web site do Tribunal de Contas ............................................................... 89 Apêndice 4: Listagens em Basic .................................................................. 91 Apêndice 5: Macro-comandos de Word ........................................................ 95 Página|viii Índice de imagens Imagem 1: Sumário da contagem de acessos ao web site BoingBoing .............. 19 Imagem 2: Configuração de definições para acesso à Internet no browser Microsoft Internet Explorer ...........................................................21 Imagem 3: Caixa de diálogo de definições de cache de páginas web no browser Microsoft Internet Explorer ................................... 22 Imagem 4: Uma minúscula amostra de estilos aplicáveis a contadores de acessos a páginas web ......................................................... 23 Imagem 5: Página de uma pequena empresa com um contador localizado no canto inferior esquerdo ................................... 24 Imagem 6: O mesmo contador, ampliado ...................................................... 25 Imagem 7: Lista de cookies entregues ao browser Microsoft Internet Explorer .... 26 Imagem 8: Organograma do Tribunal de Contas, incluindo a Direcção-Geral e as Secções Regionais da Madeira e Açores .................................................. 36 Imagem 9: Página de acesso aos Actos do Tribunal de Contas na Intranet institucional, tal como estava visível em 17 de Julho de 2006 ......................... 38 Imagem 10: Formulário de pesquisa do sistema TCJure, tal como é disponibilizado através da intranet do Tribunal de Contas ................ 38 Imagem 11: Página de acesso aos Actos do Tribunal de Contas, disponível no web site institucional ...............................................................39 Imagem 12: Formulário de pesquisa de Acórdão e Sentenças no web site do Tribunal de Contas, ............................................................... 40 Imagem 13: Estrutura de dados do sistema TCJure, em uso interno no Tribunal de Contas ............................................................ 41 Imagem 14: Aspecto da primeira versão do web site do Tribunal de Contas ..... 44 Página|ix Imagem 15: Aspecto da segunda versão do web site, tal como foi disponibilizada em 14 de Março de 2001 .................................... 45 Imagem 16: Página inicial do web site do Tribunal de Contas em 4 de Fevereiro de 2004 .........................................................................46 Imagem 17: Aspecto da página inicial da terceira versão do web site do TC, que deverá ser activada no início do mês de Maio de 2007 ............................. 48 Imagem 18: Como se articulam entre si os grandes componentes tecnológicos da actual versão do web site do TC ............................................. 49 Imagem 19: Página web com informação relativa aos acessos ao web site do Tribunal de Contas .............................................. 53 Imagem 20: Vista parcial do relatório Executivo, disponibilizado pelo serviço Google Analytics, relativo aos acessos feitos à página inicial do web site do Tribunal de Contas, para o período compreendido entre 2006-07-07 e 2006-07-28 ...................... 54 Imagem 21: Representação numérica de um ADN baseado nas classes do TCJure, para os 742 documentos em processamento ............... 62 Imagem 22: Representação grafica da mesma informação numérica da imagem anterior. A cada número foi atribuída uma cor específica ................ 62 Página|x Índice de tabelas Tabela 1: Excerto da listagem dos descritores atribuídos a documentos constantes do web site do TC ................................... 57 Tabela 2: Top Terms identificados para os descritores atribuídos ao documento com o código 69895 do sistema TCJure ...................59 Tabela 3: Top Terms identificados para os descritores atribuídos ao documento com o código 70168 do sistema TCJure ...................59 Tabela 4: Top Terms identificados para os descritores atribuídos ao documento com o código 69776 do sistema TCJure ...................59 Tabela 5: Distribuição de documentos pelas várias classes de topo identificadas no thesaurus associado ao sistema TCJure ......................60 Tabela 6: Atribuição de números aleatórios a cada um dos 756 documentos identificados para esta etapa de processamento .............................................66 Página|xi Índice de gráficos Gráfico 1: Evolução da quantidade de page views no web site do TC, para o perído compreendido entre Março de 2001 e Março de 2007 ........................................................ 47 Gráfico 2: Quantidade de documentos por formato, no web site do Tribunal de Contas ................................................................50 Gráfico 3: Distribuição dos documentos disponibilizados no web site do TC e registados no sistema TCJure, pelas classes deste sistema de gestão de informação .......................................................... 60 Página|xii Introdução A expressão que mais facilmente caracteriza o ambiente no qual todos os web sites se inserem, a World Wide Web ou WWW, é formada por uma só palavra: “variedade”. Esta variedade nota-se a vários níveis. Por exemplo: Na quantidade potencial de utilizadores que podem aceder ao universo representado pela totalidade dos web sites existentes (cerca de 487 milhões de utilizadores em Janeiro de 20071, para uma quantidade eventual de cerca de 110 milhões de web sites2 em Março do mesmo ano, dos quais apenas cerca de metade se encontram de facto activos). Na quantidade efectiva de utilizadores que, de facto, acedem a um web site (entre as poucas dezenas e os milhões, consoante o conteúdo, a utilidade e o interesse que desperta). Na quantidade de sistemas operativos diferentes e de browsers que os utilizadores da WWW podem utilizar (vejam-se as cerca de 250 versões principais de sistemas operativos listadas http://en.wikipedia.org/wiki/List_of_operating_systems, múltiplas variantes, ou os cerca de http://en.wikipedia.org/wiki/List_of_browsers, 70 sem browsers também em contar com listados em com múltiplas variantes)3. Num outro nível, a variedade torna-se ainda mais notável. Ao falar da WWW, estamos a falar de um universo informativo onde existe um número não contabilizado (e não contabilizável) de documentos, que pode variar entre os 15.000 e os 30.000 milhões de páginas web, segundo uma das últimas estimativas4. Todos os dias vastos milhares destes documentos desaparecem ou são modificados. Outros tantos são adicionados ao conjunto. Não há um índice integral 1 2 3 4 Fonte: Nielsen//NetRatings, acedido em 2007-03-17 a partir do endereço http://www.nielsen-netratings.com/press.jsp?section=pr_netv&nav=3. Fonte: March 2007 Web Server Survey, acedido em 2007-03-17 a partir do enderço http://news.netcraft.com/archives/web_server_survey.html. Estamos conscientes quanto à polémica em torno do uso da Wikipedia como fonte de informação para o discurso científico. As opiniões variam entre o cepticismo puro quanto à sua utilidade [Denning, et. al., 2005], o aconselhamento de cautela no seu uso [Read, 2007] e o reconhecimento do seu valor em comparação com outras fontes de conhecimento idênticas [Bernstein, 2006; Stvilia, et. al., 2005]. Quanto a nós, recorremos a ela pontualmente e apenas como ponto de partida para abordar certas questões – neste caso contagens de produtos informáticos. Fonte: The size of the World Wide Web, acedido em 2007-03-17, a partir do endereço http://www.pandia.com/sew/383web-size.html, com considerações acessórias sobre o estado da arte no que toca à quantificação do conteúdo da WWW. Página|1 do conteúdo e as capacidades de pesquisa ainda são relativamente rudimentares. Os documentos estão dispersos por toda a superfície do planeta (muito embora até pareça que estão todos juntos no mesmo sítio). A consulta é feita através de computadores, os quais (por questões de configuração e/ou capacidade) podem ter mais ou menos dificuldades no acesso à informação. Não há qualquer garantia que um mesmo documento seja visto da mesma maneira por dois utilizadores diferentes, ao mesmo tempo que é impossível saber de antemão que computadores vão ser utilizados. Esta variedade tem um grande impacto na forma como um web site deve estar preparado para responder às solicitações a que está sujeito. Tem também impacto na forma como podem (e devem) ser obtidos e processados elementos que permitam caracterizar numericamente a forma como se acede a esse web site: quem, de onde, quando, de que forma, com que meios técnicos, para fazer o quê, durante quanto tempo, com que fidelidade, etc. É inegável o interesse que desperta a análise dos logs de acesso a um web site. Este procedimento constitui quase sempre a primeira abordagem para caracterizar a “população” que consulta um web site: Para saber dados técnicos sobre os meios utilizados para aceder à informação (qual o sistema operativo e qual o browser usados para visualizar as páginas do web site). Estes dados podem, de alguma forma, influenciar a estruturação dos conteúdos e a sua própria natureza (maior ou menor conteúdo gráfico, por exemplo). Para ficar a conhecer quais as apetências do público que consulta o web site – quais as páginas mais consultadas e os conteúdos mais acedidos. Para recolher informação que permita validar a estrutura do web site. Ao identificar percursos de navegação seguidos pelos utentes, é possível reconhecer gostos e tendências para conteúdos específicos [b052]. A análise dos acessos permite ainda processar e recolher outros tipos de informação. Dependendo da natureza do web site, pode ainda fornecer dados sobre o seu desempenho “económico” (se for um site com funcionalidades de comércio Página|2 electrónico, ou que inclua mecanismos de obtenção de receitas baseadas em publicidade), sobre a amplitude do seu reconhecimento geográfico (identificando os países de onde foram feitos os acessos), sobre o grau de incidência de ataques informáticos (pela identificação de “assinaturas” conhecidas de exploits devidamente identificados, ou pela detecção de padrões de acesso considerados suspeitos). A lista é extensa e não se esgota nestes exemplos. Objectivos Nesta dissertação propomo-nos abordar um problema que tem vindo a ser alvo de estudo quase desde o início da WWW: de que forma é que, a partir da análise dos logs de acesso a um web site, se torna possível identificar características do universo de utilizadores que faz esse acesso? Para tal, o nosso trabalho vai incidir sobre os logs de acesso ao web site do Tribunal de Contas de Portugal (TC). Tendo em conta as características essenciais do conteúdo deste web site, vamos igualmente procurar definir um conjunto de técnicas que permitam fazer uma classificação dos documentos aí disponibilizados para consulta e download. A correcta aplicação desta técnica deverá depois permitir levar a cabo uma caracterização dos utilizadores do web site, com base na informação por eles consultada. A analogia utilizada para a técnica de classificação é a da cadeia de ADN – uma cadeia de elementos de informação, individualizados, que no seu conjunto permitam identificar cada documento. Pelas suas características, esses elementos de informação poderão servir para concretizar agrupamentos de documentos (por ser feito através deles um mapeamento de grandes áreas temáticas e/ou intelectuais). Os elementos de informação a utilizar têm a ver com as grandes áreas temáticas pelas quais os documentos existentes neste web site se distribuem. Essas áreas resultam das características da actividade da Instituição (áreas de incidência da sua actividade, por exemplo), ou de questões relacionadas com a sua estrutura enquanto organismo do Estado. Página|3 Contextualização Muito embora esta não seja uma área particularmente nova, em termos do interesse que desperta junto da comunidade académica [b042], é sempre relevante, na medida em que permite reunir informação importante para caracterizar um web site ao longo da sua existência. Ou seja, é uma área que se caracteriza por um intenso dinamismo – conteúdos, universo de utilizadores e ritmos de utilização variam ao longo do tempo, sendo assim bons candidatos para operações de descoberta de conhecimento. A utilidade dos resultados obtidos com este género de operações de processamento, extravasa o simples desejo de classificar o universo de utilizadores. Tais resultados podem ser utilizados em fins tão diversos como: Optimizar a estrutura do web site, se um dos resultados obtidos for a definição dos caminhos de navegação mais percorridos pelos utilizadores. Essa optimização pode, inclusivé, ser feita de forma automática [b040]. Optimizar a estrutura de bases de dados que sirvam conteúdos dinâmicos, em função do tipo de consultas que são efectuadas. Levar a cabo uma avaliação da usabilidade de um web site [b020a]. Averiguar o grau de adequação dos meios técnicos que suportam o web site (acompanhando os percursos de navegação e verificando a ocorrência de falhas e erros de acesso). Aferir o grau de eficácia dos conteúdos face aos objectivos pretendidos: para um web site de comércio electrónico, é extremamente importante caracterizar o universo dos seus utilizadores [b046]. Resumindo, pretendemos, levar a cabo a classificação básica dos utilizadores de um web site da Administração Pública portuguesa, em termos do tipo de navegação que é feita, com o objectivo de recolher informações suficientes que permitam melhorar a resposta proporcionada. Página|4 Motivação A nossa vontade de abordar este tema em dissertação resulta de interesses e práticas de natureza profissional. Propomos levar a cabo a nossa abordagem utilizando dados de acesso ao web site da instituição onde temos vindo a desenvolver a maior parte do nosso percurso profissional, o Tribunal de Contas. Trabalhamos com dados deste web site desde 1998, caindo dentro das nossas competências a análise dos registos (logs) de acesso. No entanto, até à data, todas as análises privilegiaram aspectos puramente quantitativos – por exemplo, quantos acessos foram feitos a partir de um determinado país durante um certo período de tempo. O contacto com estes dados e as análises que até à data efectuámos despertaram o nosso interesse em aprofundar o seu processamento. Os novos conhecimentos proporcionados pelo Mestrado em Sistemas de Informação, no que diz respeito a métodos e técnicas de análise de dados e obtenção de conhecimento, deixaram-nos com a perfeita noção de que estes logs escondem um universo informativo extremamente rico. Ao mesmo tempo, não podemos deixar de sentir vontade de interligar a nossa prática profissional (neste momento a incidir de forma quase exclusiva sobre a Internet) à nossa formação académica de base (História e Gestão de Documentação). Explorar logs de acesso de um web site é, à sua maneira, um trabalho de historiador – identificar necessidades de informação ao longo do tempo, acompanhar a evolução tecnológica dos meios de acesso, observar a relação entre conteúdo e utilização desse conteúdo e as formas como os dois elementos se influenciaram e influenciam entre si. Página|5 Relevância A abordagem que nos propomos levar a cabo assume um interesse particular no que diz respeito à caracterização dos utilizadores do web site do Tribunal de Contas. Uma vez que, na sua actual versão, não existe qualquer mecanismo de registo de utilizadores, ou referenciação de acessos (via cookies, por exemplo), qualquer esforço de identificação é sempre feito a posteriori, e apenas com base no processamento dos registos desses acessos – processamento dos ficheiros de log do servidor web. Numa primeira análise, este tipo de dados permite descobrir características técnicas relativas a cada acesso (proveniência, software utilizado, sistema operativo de base, etc). Paralelamente, permite também quantificar esses acessos (quantos utilizadores num dado período de tempo, quais as páginas e documentos mais concultados, etc). No entanto, no que diga respeito à análise de parâmetros de acesso mais subjectivos, como os interesses dos utilizadores, quaisquer conclusões têm que passar por um trabalho intenso de contagens, relacionamento de acessos e pré-processamento dos conteúdos que são acedidos. Por um lado, o resultado final de um trabalho desta natureza é relevante para a instituição em causa, na medida em que providencia um grau de conhecimento quanto à forma como os conteúdos informativos que disponibiliza são aproveitados, que de outra maneira não seria possível obter. Por outro lado, por incluir um conjunto de operações de processamento de informação que se podem revelar bastante demoradas, não é o género de análise que possa ser levada a cabo de forma muito dinâmica – em tempo real, ou com uma periodicidade muito regular. O conhecimento melhorado e aprofundado do universo de utilizadores de uma instituição como o Tribunal de Contas, deverá igualmente contribuir para a melhoria constante da qualidade dos serviços que são prestados ao público. Página|6 Fontes primárias As operações de processamento de informação que desenvolvemos para levar a cabo este trabalho utilizaram duas fontes primárias distintas: Ficheiros relativos aos logs de acesso ao web site do TC, abrangendo um período de seis anos, entre 14 de Março de 2001 e 14 de Março de 2007. Isto corresponde a um total de 2.163 ficheiros, com 18.153.325 linhas de registos (já depois das etapas de pré-processamento, documentadas mais adiante). Não há uma correspondência 100% exacta entre a quantidade de dias decorridos e a quantidade de ficheiros de log, dado terem ocorrido algumas junções de dias e poderem assim aparecer dois ou três dias juntos no mesmo ficheiro. Ficheiros relativos aos documentos disponibilizados no web site do TC. Estes documentos foram utilizados em operações de text mining, com o objectivo de proceder à extracção de palavras-chave. O seu formato nativo é o PDF, tendo sido convertidos para formato textual simples, para facilitar não só as as operações de text mining5, como também para permitir posteriores operações de manipulação de texto. Hardware e software utilizados No Apêndice 1 descrevemos todas as configurações de hardware e software utilizadas na realização desta dissertação, com indicação de constrangimentos e soluções adoptadas. 5 Muito embora o software de text mining utilizado, SAS 9.1, possa trabalhar directamente sobre ficheiros em formato PDF, algumas das operações que efectuámos com esse formato não obtiveram bons resultados, do ponto de vista da legibilidade dos conteúdos. A isso não será estranho o facto de os ficheiros PDF utilizados terem sido criados com vários tipos diferentes de software: Adobe Acrobat versões 5, 6, 7 e 8, bem como utilitários de conversão directa do formato DOC para o formato PDF. A conversão prévia para formato TXT revelou-se como a abordagem mais acertada. Página|7 Organização da dissertação Esta dissertação vai-se organizar de acordo com a seguinte estrutura: Introdução, cobrindo a abordagem inicial ao tema, os objectivos a que nos propomos, a contextualização do tema, a nossa motivação para levar a cabo este trabalho e a sua relevância. Definição de conceitos, capítulo no qual apresentamos definições para o conjunto de conceitos que estão na base do desenvolvimento do nosso trabalho. Fundamentação teórica, capítulo no qual abordamos os fundamentos das tecnologias sobre as quais o nosso trabalho incide e onde fazemos a definição dos conceitos fundamentais que utilizamos. Estado da arte, capítulo no qual abordamos trabalhos levados a cabo nesta área, com apreciação dos seus resultados, em função dos objectivos que pretendemos alcançar. O Tribunal de Contas, capítulo no qual fazemos uma descrição da instituição em estudo e das características essenciais da sua produção documental. O web site do Tribunal de Contas, capítulo no qual caracterizamos esta estrutura de informação. Estabelecer o DNA dos documentos do web site do TC, capítulo no qual descrevemos a nossa abordagem ao processamento de documentos do web site. Estabelecer o DNA dos utilizadores do web site do TC, capítulo no qual levamos a cabo a caracterização dos utilizadores. Análise dos resultados, capítulo no qual procuramos fazer uma avaliação crítica dos resultados obtidos. Conclusão, momento em que avaliamos o grau de concretização dos objectivos, bem como identificamos pistas para trabalhos futuros. Página|8 Definição de conceitos Do ponto de vista da história da tecnologia, a área sobre a qual incide esta dissertação é relativamente recente. Ao mesmo tempo, é uma área que se caracteriza por um intenso dinamismo – não apenas em termos de mudanças nas características básicas das tecnologias envolvidas, como também nos usos que lhes são dados. Este dinamismo, benéfico para a utilização e aproveitamento da WWW em geral, acaba por ter o efeito algo perverso de provocar uma variedade de interpretações do significado de alguns dos conceitos utilizados. Vamos apresentar neste capítulo as definições que tomámos por base para o nosso trabalho. ADN - ÁCIDO DESOXIRRIBONUCLEICO O ADN é uma molécula orgânica, responsável pela reprodução do código genético. Os progenitores transmitem partes copiadas do seu ADN para os seus descendentes durante o processo de reprodução, provocando assim a propagação das suas características. A informação no ADN é armazenada como um código, composto por quatro bases azotadas: Adenina (A), Guanina (G), Citosina (C) e Timina (T). Estas bases juntamse em pares, A-T e C-G, para formar os chamados pares-base. Cada base também se liga a uma molécula de açúcar e uma molécula de fosfato. Este conjunto - base, açúcar e fosfato - forma um nucleótido. O ADN é composto por um par de cadeias destes nucleótidos, entrelaçados numa dupla-hélice. A estrutura assemelha-se a uma escada, na medida em que os paresbase formam os degraus, estando ligados uns aos outros pelas moléculas de açúcar e fosfato. A funcionalidade de indentificação associada ao ADN (no que ele tem de unívoco para estabelecer as características de um determinado ser vivo), auxiliou a sua adopção, do ponto de vista conceptual, como metáfora para a identificação de segmentos de informação. É assim que surge a expressão "ADN de um documento" Página|9 (b020a), como maneira de designar um conjunto de atributos que identifiquem de forma absoluta um documento perante outros. ADN DE UM DOCUMENTO No âmbito em que estamos a trabalhar, a aplicação de uma metáfora baseada na biologia, não é levada às últimas consequências. Não vamos procurar a definição de cadeias de identificação únicas para cada documento. Quando falamos em ADN de um documento, no contexto deste trabalho, referimo-nos a uma cadeia de valores numéricos, entre 0 e 9, os quais ocupam um determinado número de posições numa cadeia de caracteres, a qual irá servir para posicionar o documento no contexto temático de um web site. Assim sendo, ao contrário de um ADN biológico, este ADN documental pode-se repetir - vários documentos podem partilhar o mesmo âmbito temático, com um elevado grau de precisão. ADN DE UM UTILIZADOR O contraponto ao ADN dos documentos é o ADN dos utilizadores que os tiverem consultado. Com esta expressão designamos uma cadeia de valores numéricos, entre 0 e 9, os quais ocupam um determinado número de posições numa cadeia de caracteres, e que é utilizada para expressar as preferências de cada utilizador em função dos documentos que consulta. Tal como acontece para o ADN dos documentos, também este se pode repetir - vários utilizadores podem ter o mesmo perfil de consulta. BROWSER Programa utilizado para localizar e visualizar PÁGINAS WEB. Tendo começado como simples visualizadores de conteúdos de natureza textual, não suportando sequer a inclusão de imagens nas páginas [b035, pp. 244-245], surgem hoje como produtos multifuncionais. Para isto contribuiu a própria evolução da WWW, que tem uma grande tendência aglutinadora, possibilitando a reunião, sob um mesmo interface, de um vasto conjunto de funcionalidades: consulta de páginas web, download de ficheiros, acesso a correio electrónico, participação em fóruns de Página|10 discussão, consulta de documentos nos formatos mais variados, acesso a dados multimédia... a lista de funcionalidades é grande e não pára de aumentar. CIBERESPAÇO Este termo apela, antes do mais, a uma certa visão “poética” ou literária de algo que não é inteiramente real6. Foi criado pelo autor de ficção científica William Gibson, que o utilizou pela primeira vez na história Burning Chrome, em 19827. O ciberespaço será assim um “espaço” formado pela totalidade da “realidade electrónica” existente no mundo (termo que inclui todos os dados armazenados e comunicados electronicamente). O ciberespaço é formado não só pelo universo comunicacional propiciado pela Internet, mas também por realidades mais antigas, como o conjunto de meios de comunicação formados pelas redes telefónicas, de televisão, etc. [b003a] CLASSIFICAÇÃO DE DOCUMENTOS Nome dado à tarefa de classificar um documento de natureza textual numa quantidade de categorias temáticas, relevantes para o seu conteúdo [b050a]. De acordo com o contexto de criação e utilização, essa classificação pode ser manual (recorrendo directamente ao conteúdo, ou recorrendo a classificadores externos [b034a], como listas de descritores ou a thesauri), ou pode ser automática. CLICKSTREAM Sequência de CLIQUES realizada por um UTILIZADOR ao longo do seu processo de interacção com as páginas de um [b058a] ou vários [b030] WEB SITES. CLIQUE A activação de uma HIPERLIGAÇÃO por um UTILIZADOR válido [b058a]. 6 7 “[...] O ciberespaço. Uma alucinação consensual, vivida diariamente por biliões de operadores legítimos, em todas as nações, por crianças a quem se estão a ensinar conceitos matemáticos. Uma representação gráfica de dados abstraídos dos bancos de todos os computadores do sistema humano. Uma complexidade impensável. Linhas de luz alinhadas no não espaço da mente; nebulosas e constelações de dados. Como luzes de cidade, retrocedendo”. [b022, pág. 65] “[…] A science fiction writer coined the useful term "cyberspace" in 1982, but the territory in question, the electronic frontier, is about a hundred and thirty years old. Cyberspace is the "place" where a telephone conversation appears to occur. Not inside your actual phone,the plastic device on your desk. Not inside the other person's phone,in some other city. THE PLACE BETWEEN the phones. The indefinite place OUT THERE, where the two of you, two human beings, actually meet and communicate.” [b046a] Página|11 FICHEIRO DE LOG (LOG FILE) No contexto deste trabalho, este termo designa um ficheiro criado por um SERVIDOR WEB, contendo o registo de toda a actividade relacionada com o acesso ao conteúdo do web site (ou web sites) que alberga [b064]. Podem ser utilizados como fonte de informação de natureza quantitativa [b017a, b025], devendo ser alvo de sucessivas operações de processamento e interpretação. HIPERLIGAÇÃO Na década de 60 do séc. XX, Theodor “Ted” Nelson criou a expressão “hipertexto”, definindo-a como uma forma de escrita não-sequencial. Denominando a sua abordagem como Projecto Xanadu [b061], definiu a possibilidade de estabelecer ligações - hiperligações - entre segmentos diferentes de informação de natureza hipertextual [b036]. Muito embora este projecto nunca tenha atingido os objectivos pretendidos, a terminologia acabou por se manter e por ser aproveitada noutros contextos - nomeadamente no software HyperCard da companhia Apple Computers [b035] e, obviamente, na própria WWW. HIT De uma forma genérica, é considerado como qualquer pedido de ficheiro feito a um SERVIDOR WEB. Um pedido de uma PÁGINA WEB pode dar origem a múltiplos hits, na medida em que ela pode ser composta por múltiplos ficheiros (com texto, imagem, código...), que são enviados pelo servidor web [b064]. Ou seja, cada acesso a uma página web pode dar origem a múltiplos hits. No entanto, há contextos de utilização em que uma página web pode ser formada por uma quantidade variável de elementos entre cada pedido de página [b041] (web sites de conteúdo dinâmico, de agências noticiosas, por exemplo). Ou seja, a contagem de hits por si só, pode não transmitir uma noção correcta do volume de utilização de um web site. INTRANET INSTITUCIONAL Nome pelo qual designamos o sistema interno de disponibilização de documentos utilizado na rede informática do Tribunal de Contas. O seu nome oficial é S3i, ou Página|12 Sistema de Informação Integrado na Intranet. A sua composição tecnológica é a seguinte: Gestão de conteúdos através do software Microsoft Share Point Portal Server 2003; Software SERVIDOR WEB Microsoft Internet Information Server (IIS) v6.0; Sistema operativo Microsoft Windows Server 2003 R2 Enterprise Edition. PAGE VIEW (VISTA DE PÁGINA OU CONSULTA DE PÁGINA) Nome dado ao pedido de consulta de cada página isolada de um web site [b064]. Resulta de um CLIQUE numa HIPERLIGAÇÃO, ou na indicação explícita de um URL em software que saiba processar essa informação (quer se trate de um BROWSER, quer se trate de outro tipo de programas). Uma única page view traduz-se habitualmente numa quantidade variada de HITS. PÁGINA WEB Nome dado às unidades individuais de visualização do conteúdo de um WEB SITE. Pode ser formada por conteúdos estáticos (texto e imagens) ou dinâmicos (animações e vídeos). Pode ter características multimédia (misturando vários tipos e proveniências de informação, incluíndo áudio) e pode oferecer pontos de acesso a fontes de dados externas à própria página - por exemplo, interfaces para consulta de bases de dados. Enquanto metáfora de acesso e disponibilização de informação, as páginas web assumem hoje um papel muito importante - boa parte dos interfaces de acesso a todo o tipo de informação têm uma versão web. A sua consulta e visualização é feita a partir de programas próprios - habitualmente os BROWSERS da web, muito embora seja possível codificar e filtrar conteúdos web de múltiplas maneiras e utilizar outro tipo de programas (clientes de correio electrónico, leitores de feeds RSS, entre outros). Página|13 PEDIDO DE PÁGINA A oportunidade de uma PÁGINA WEB aparecer na janela de um BROWSER, como resultado da interacção de um UTILIZADOR com um WEB SITE [b057b]. REFERENCIADOR (REFERRER) Nome dado a qualquer ponto de origem online (WEB SITE, anúncio, resultado de pesquisa) que leve UTILIZADORES ao web site em análise, gerando VISTAS DE PÁGINA. Deve ser identificável univocamente, através de um URL específico, que identifique com precisão o ponto de origem do acesso. SERVIDOR WEB Este termo assume uma dupla vertente: Nome dado ao computador onde se encontram alojadas fisicamente as PÁGINAS WEB (e restante conteúdo) que dão forma a um WEB SITE. Neste contexto, o termo pode surgir como um “agregador”, na medida em que pode esconder realidades complexas – ambientes de clustering, onde várias dezenas, centenas ou milhares de máquinas individuais respondem como se fossem uma só (veja-se o exemplo extremo do motor de pesquisa Google, onde mais de uma centena de milhar de servidores individuais [b001a] são agrupados em clusters de mais de 15.000 máquinas [b003b], que respondem de forma unificada aos pedidos que são feitos). Nome dado ao software que corre num computador que aloja páginas web e que é responsável pela recepção e processamento dos pedidos de página. SESSÃO DE UTILIZADOR (USER SESSION) Um período de actividade de um UTILIZADOR num WEB SITE. Habitualmente, considera-se a sessão terminada quando o utilizador estiver inactivo por mais de 30 minutos [b064]. Trata-se de um conceito fortemente idêntico ao de VISITA. Página|14 TEXT MINING Conjunto de técnicas de análise de documentos, com o objectivo de extrair conhecimento "escondido" de dados de natureza textual [b048]. Este conhecimento pode assumir a forma de padrões, modelos, direcções, tendências ou regras, a serem encontrados em texto não estruturado [b034b]. URL Acrónimo que significa Uniform Resource Locator (traduzível por Localizador Uniforme de um Recurso), endereço unívoco de identificação de um recurso na Internet. A sua composição inclui o protocolo (HTTP, FTP, WML, MMS...), o nome do domínio onde o servidor se encontra (ou o seu endereço IP), nomes de directorias e/ou ficheiros e um formato de dados (HTML e variantes, CGI, PL, PHP, consoante a tecnologia que estiver na base do conteúdo). UTILIZADOR Nome dado à entidade, individual ou colectiva, em relação à qual é feita a atribuição de uma VISITA ou USER SESSION. No caso do web site do TC, não é feito qualquer registo de utilizadores, nem são utilizadas quaisquer tecnologias de rastreio (baseadas em cookies, por exemplo). Por esta razão, a identificação de utilizadores é feita a partir dos endereços IP registados nos FICHEIROS DE LOG. Assim sendo, esses endereços tanto se podem referir a um utilizador individual (a fazer um acesso doméstico, por exemplo), como a um acesso institucional (onde um único endereço IP pode “esconder” centenas de utilizadores). VISITA Sequência de interacções entre um UTILIZADOR e um WEB SITE, que termina quando houver um intervalo de 30 ou mais minutos entre CLIQUES, ou quando o utilizador abandonar o web site (passando para outro) [b064]. Não há uma razão explícita para ser utilizado o valor de 30 minutos [b041, p. 7], mas é considerado como um valor standard. Página|15 VISTA DE PÁGINA (PAGE VIEW) Momento em que uma PÁGINA WEB é vista por um UTILIZADOR. De acordo com [b057b], é uma variável não mensurável, sendo preferível falar em apresentação de página - momento em que a página é apresentada no écran do computador do utilizador. Em [b041] esta distinção não é contemplada, sendo a vista de página considerada como a apresentação com sucesso de todo o conteúdo que forma uma página web, independentemente da forma como é apresentada. Esta é a definição em que nos baseamos. WEB BUG Nome dado a uma imagem existente numa página web ou numa mensagem de correio electrónico (em formato HTML), que tenha por objectivo monitorizar a consulta da página, ou a leitura da mensagem. Muitas vezes são imagens de reduzidas dimensões e/ou invisíveis (imagens que ocupam um pixel de área, ou imagens transparentes). Permitem recolher informação como: O endereço IP do computador onde foi activado/apresentado; O endereço da página em que ele se localiza; A hora e data da visualização; O ambiente operacional em que foi visualizado (versão de sistema operativo e do browser); Informação previamente armazenada num cookie. Encontram utilização em áreas como: a criação de perfis de utilização (de um web site ou de conjuntos específicos de informação); a recolha de dados para contabilização de acessos a páginas ou web sites; a recolha de dados para caracterização de acessos. Página|16 WEB LOG MINING Aplicação de técnicas de WEB MINING ao conteúdo de FICHEIROS DE LOG, relativos aos acessos que são feitos a um WEB SITE. WEB MINING Conjunto de técnicas de análise e extracção de informação de dados relacionados com a WWW: a partir do conteúdo de PÁGINAS WEB, a partir de estruturas de hiperligações e a partir de estatísticas de acesso a conteúdos web [b048 e b051b]. WEB SITE Um web site é uma colecção de PÁGINAS WEB, localizadas num domínio ou subdomínio específico da Internet, disponibilizadas a partir de um SERVIDOR WEB, através do conjunto de tecnologias que compõem o universo informativo denominado World Wide Web. WEB SITE EXTERNO DO TC Nome pelo qual designamos o web site institucional do Tribunal de Contas, disponível em http://www.tcontas.pt, cujo conteúdo informativo e condições de utilização serviram de base à elaboração desta dissertação. A sua composição tecnológica é a seguinte: Software SERVIDOR WEB Microsoft Internet Information Server (IIS) v6.0; Sistema operativo Microsoft Windows Server 2003 R2 Enterprise Edition. Não é utilizado qualquer sistema de gestão de conteúdos. As páginas são estáticas na sua maioria, sendo apenas utilizadas algumas tecnologias de apoio à compiosição de conteúdos (nomeadamente Server Side Includes). Alguns subsistemas recorrem a bases de dados de estrutura flat-file (pesquisa de Acórdãos e Sentenças em http://www.tcontas.pt/pt/actos/acordaos.shtm, e base de dados bibliográfica do Auditing Standards Comittee da INTOSAI – International Organization of Supreme Audit Institutions em http://www.tcontas.pt/cgi- bin/asc/db.cgi). Em situações específicas, são disponibilizados interfaces para bases de dados de SQL Server. Página|17 A teoria (e prática) subjacente à utilização de logs de acesso a web sites. A existência de logs de acesso a web sites não assume uma relevância “externa” ao contexto em que se inserem, na medida em que se trata de um tipo de informação cuja recolha não é essencial ou obrigatória, mas que, quando existe, tem utilidade primariamente para os responsáveis pelo web site8. Quando é bem aproveitada, tem uma enorme importância e reveste-se de extrema utilidade. Desde as suas primeiras versões, os servidores web registam pormenores de operação nos chamados ficheiros de log, ou ficheiros de registo (mantemos a expressão log por comodidade de referências). A isso não será estranho o facto de o desenvolvimento inicial deste software ter sido feito em máquinas com variantes do sistema operativo Unix (workstations NeXT, com um sistema operativo baseado no kernel Mach), sendo a existência de logs uma das características notórias de qualquer componente servidor que nele corra. O uso inicialmente dado a este registo de informação foi o de, muito simplesmente, fornecerem contagens de acessos a páginas de web sites [b041, p. XV e Apêndice 2], operação que se foi tornando cada vez mais complexa à medida que a WWW crescia e se tornava mais rica (cada vez mais páginas por web site, com maior diversidade de conteúdos – imagens, por exemplo). É assim que fomos assistindo a um refinamento progressivo dos conceitos (e metodologias) associados ao processamento de logs: Inicialmente o parâmetro mais fácil de medir foi o da quantidade de pedidos feitos pelos utilizadores e registados no servidor web, designados como hits. Na altura, tal como hoje, uma página web que apenas contivesse texto traduzia-se num único hit. Se a página contivesse gráficos, ou tivesse o seu conteúdo repartido por frames, daria origem a tantos hits quantos fossem os objectos que a fazer parte da sua composição. Para acompanhar a crescente complexidade das páginas e a crescente necessidade de obter informações mais precisas e exactas, foram adoptados 8 Há casos em que a informação constante nos logs de acesso a web sites é considerada útil para divulgação pública [b037a], numa óptica de transparência das condições de funcionamento. Página|18 outros conceitos, sempre com o intuito de permitir fazer contagens, de forma tão exacta quanto possível. Surge assim a contagem de visionamentos de página (ou page views, em que um visionamento pode agrupar vários pedidos) e a contagem de sessões (em que uma sessão pode agrupar vários visionamentos de página por utilizador). Na imagem seguinte exemplificamos esta forma de recolher informação: Imagem 1: Sumário da contagem de acessos ao web site BoingBoing (http://www.boingboing.net) Nas várias colunas podem ser vitas contagens de pedidos (coluna Hits), de páginas (coluna Pages) e de visitas (colunas Number of Visits e Unique visitors) Fonte: http://www.boingboing.net/stats/ Software utilizado: Advanced Web Statistics 6.4 (http://awstats.sourceforge.net/) O desenvolvimento da WWW propiciou o aparecimento de novas formas de aceder e disponibilizar informação. Com o passar do tempo, elas começaram a desempenhar um papel cada vez mais importante, no que toca ao impacto sobre as funções de navegação. Entre elas contam-se: O aparecimento e crescente actividade das “aranhas” de indexação de web sites (mecanismos automáticos de pesquisa e indexação de conteúdos na web, geralmente associados a motores de pesquisa como o Google, Yahoo, MSN Live Search, etc.). Qualquer operação feita por uma destas aranhas sobre uma página web provoca entradas de log, como se de uma consulta por um utilizador humano se tratasse. O único factor de diferenciação consiste na utilização de designações que a identifiquem como aranha. Atente-se no seguinte exemplo: Página|19 2004-10-28 00:00:36 W3SVC1447415605 MARTE 10.128.0.2 GET /pt/actos/rel_auditoria/2004/rel008-2004-2s.pdf - 80 - 66.249.64.131 HTTP/1.0 Googlebot/2.1+(+http://www.google.com/bot.html) - www.tcontas.pt 200 0 64 0 222 437 2004-10-28 01:03:59 W3SVC1447415605 MARTE 10.128.0.2 GET /pt/actos/rel_auditoria/2004/rel008-2004-2s.pdf - 80 - 82.155.17.82 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) ) - www.tcontas.pt 200 0 64 0 222 437 Ambas as linhas foram extraídas do log de acessos ao web site do Tribunal de Contas, relativo ao dia 28 de Outubro de 2004. Ambas dizem respeito a uma operação do protocolo http, o comando GET, relativa ao acesso a um dos documentos constantes desse web site – o Relatório de Auditoria nº 8/2004. Na primeira linha o acesso foi feito pela aranha associada ao Google, denominada Googlebot. Na segunda linha, o acesso foi feito por um operador humano, utilizando o browser Microsoft Internet Explorer 6.0 a correr sobre o sistema operativo Windows XP. A não ser esse detalhe, a informação genérica sobre o acesso é virtualmente idêntica. A recolha desta informação em logs de acesso é recebida com alguma ambivalência, na medida em que pode ter vários contextos de uso: tanto é considerada válida por si só para acompanhar o comportamento das aranhas de indexação [b034b], como pode pode exigir um processamento separado, tendo em vista não afectar a medição de variáveis de acesso recolhidas na óptica da utilização de um web site por seres humanos [b025]. Situações em que se pretenda obter uma ideia clara dos percursos efectuados pelos utilizadores dentro do web site, podem obrigar a etapas prévias de limpeza dos ficheiros de log, tendo em vista a remoção de referências a aranhas de indexação [b005]. O desenvolvimento de soluções técnicas para o acesso à Internet, que assentam em web proxies e em endereços atribuídos dinamicamente tornaram muito difícil, ou mesmo impossível, fazer corresponder um acesso a Página|20 uma página a um utilizador específico, identificável pelo registo deixado no log. Veja-se a seguinte imagem: Imagem 2: Configuração de definições para acesso à Internet no browser Microsoft Internet Explorer. A imagem anterior retrata uma realidade típica na maior parte das organizações onde a ligação à Internet seja feita através de uma rede local: o acesso passa por um servidor proxy, computador que controla as ligações de dezenas ou centenas de utilizadores individuais. Quando estes utilizadores acedem a um web site, nos logs de acesso deste fica apenas registado o endereço IP atrás do qual se situa o servidor proxy – para todos os efeitos, as dezenas ou centenas de acessos ficam registadas como se fossem de um único utilizador. A possibilidade de atribuir endereços de rede de forma dinâmica (através do protocolo de rede DHCP [b052a]) é particularmente atraente para as empresas que fornecem acesso à Internet. Em vez de manter manualmente listas de milhares de endereços fixos, esses endereços passam a ser atribuídos de forma dinâmica, à medida que os utilizadores estabelecem ligações à rede. Isto pode dificultar a identificação fácil da proveniência dos acessos registados em logs, sendo quase sempre necessário realizar etapas de processamento a posteriori, para identificar com precisão gamas de endereços e a sua proveniência. Ambas as soluções, inteiramente válidas e práticas de um ponto de vista técnico, dificultam o trabalho a quem pretenda conhecer com precisão a forma como se acede ao seu web site. A utilização de proxies torna impossível fazer contagens Página|21 precisas de quantas pessoas acedem e a utilização de endereços dinâmicos dificulta a identificação de quem acede (se esse grau de detalhe for necessário, o que varia de acordo com a natureza do web site). Outro pormenor do funcionamento dos browsers também se veio a revelar algo nefasto para a obtenção de estatísticas válidas. Com efeito, a possibilidade de manter localmente em cache as páginas consultadas facilita o trabalho dos utilizadores, por tornar mais rápidos os acessos consecutivos à mesma página. No entanto, ao recorrer a este artifício, uma sessão de consulta de páginas de um mesmo web site pode ficar insuficientemente registada nos logs deste – só ficam registados em log os acessos a páginas que não estavam na cache do utilizador [b025]. Se bem que isto seja útil para quem navega (por ser mais rápido) e alivie a carga de acessos ao servidor web, impede que os responsáveis pelo web site consigam obter respostas concretas a perguntas como “quais os caminhos de navegação que os utilizadores percorrem no nosso web site?” [b005]. Veja-se a imagem seguinte: Imagem 3: Caixa de diálogo de definições de cache de páginas web no browser Microsoft Internet Explorer. As opções variam entre utilizar sempre em primeiro lugar a versão da página que estiver em cache (opção Nunca) e não utilizar a versão em cache (opção Sempre que voltar a página) Tendo em vista a obtenção de métricas mais exactas, bem como a possibilidade de identificar com precisão os utilizadores individuais que acedem aos web sites, foram desenvolvidas novas soluções. Elas assentaram essencialmente em esforços para conseguir identificar univocamente cada utilizador que acedesse a cada página (proporcionando contagens mais exactas e possibilitando a criação de perfis de Página|22 navegação). Este objectivo raramente é conseguido na totalidade, mas isso não impediu a proliferação da tecnologia. Desta forma, a partir de determinado momento, a obtenção de informação sobre o acesso a web sites não ficou exclusivamente na mão dos logs mantidos pelos servidores. Numa tentativa de obter métricas fiáveis, surgiram soluções em que o esforço de recolha de informação foi deslocado para cada página web, através de métodos mais ou menos engenhosos de apresentar certos conteúdos: A colocação de contadores de acesso visíveis em certas páginas. O registo de acessos a páginas feito de maneira “secreta”, sem conhecimento directo por parte do utilizador. A partir de meados da década de 90 do século XX, muitas páginas começaram a mostrar contadores numéricos, que pretendiam indicar a quantidade de vezes que a página era consultada. De natureza textual, ou de natureza gráfica, podiam servir como uma medida de popularidade da página (quanto maior o número apresentado, mais pessoas teriam acedido à página). Na imagem seguinte mostramos alguns exemplos de estilos gráficos aplicáveis a este género de contadores. Imagem 4: Uma minúscula amostra de estilos aplicáveis a contadores de acessos a páginas web (Fonte: http://freelogs.com/) Página|23 Com o passar do tempo, esta ideia foi tendo cada vez menos aplicação, por se terem tornado óbvias várias limitações: Os números apresentados por um contador de acessos não são forçosamente exactos. A partir do momento em que compete ao webmaster de um web site a sua preparação inicial, é fácil fazer o contador começar logo por apresentar um número de acessos bastante grande… Se o contador for mantido com numeração exacta, pode dar-se o caso de o web site ter muito pouco tráfego e o número apresentado raramente aumentar. Isto não abona muito a favor do prestígio do web site. A passagem do tempo fez com se desenvolvessem novas metodologias para o cálculo de acessos. Utilizar os contadores tornou-se num obstáculo e não numa vantagem. Tal como a tecnologia evolui, também os gostos do público evoluem. Hoje, a utilização de contadores de acesso como elementos integrantes do desenho da página só raramente é utilizada em institucionais, ficando cada vez mais reservada para sites individuais. Veja-se o seguinte exemplo: Imagem 5: Página de uma pequena empresa com um contador localizado no canto inferior esquerdo (destaque) (Fonte: http://www.4ateapot.co.uk/) Página|24 Imagem 6: O mesmo contador, ampliado. Neste caso trata-se de uma aplicação do serviço FastCounter, que permite o processamento da contagem por outro web site que não o que apresenta o contador. Este serviço está integrado no pacote Small Business Server da Microsoft. Note-se que este tipo de informação tem um valor que apenas é habitualmente associado a funções de marketing – mostrar em que medida o web site agrada aos utilizadores, por exemplo. O recurso às próprias páginas para recolher informação de acessos, deu origem a outro aproveitamento técnico, este muito mais polémico. Pode ser identificado de várias maneiras, mas a que melhor expressa a forma como acabou por ser encarado é o termo web bug. Um web bug consiste num gráfico, habitualmente transparente (e, como tal, invisível na página), para além de ter dimensões muito reduzidas (ocupando normalmente apenas um pixel do écran). Na prática, esta imagem é colocada na página depois de ter sido executado um programa num web site externo que que está a ser consultado. Veja-se o seguinte exemplo de código HTML, detectado por volta de 1999, no web site do programa Quicken: <img src="http://ad.doubleclick.net/ad/pixel.quicken/NEW" width=1 height=1 border=0> A origem da imagem está situada num web site (ad.doubleclick.net) que não era o da página que estava a ser consultada (http://www.quicken.com). A linha de código não se refere directamente a uma imagem: ela faz uma chamada a um programa, que retorna uma imagem, um GIF transparente, que irá ocupar apenas 1 pixel do écran – na prática, fica invisível. Regra geral, o processamento deste tipo de informação fica a cargo de empresas que se dedicam ao processamento comercial de estatísticas de acesso, ou à recolha de dados com vista à constituição de perfis de potenciais clientes (para fins publicitários ou outros). Ou seja, é feita recolha de informação, sem que o utilizador disso se aperceba, pois apenas é colocado mais um elemento gráfico na página web Página|25 que estiver a consultar e não tem que haver nenhum elemento que indique que está a ser fornecida informação a terceiras partes. A polémica levantada em torno desta abordagem, juntamente com uma preocupação crescente com a necessidade de garantir a privacidade por parte de quem consulta páginas web, fez com que, com o passar do tempo, o uso de web bugs fosse diminuindo. Isto não quer dizer que tenham desaparecido por completo, nem que ideia subjacente ao seu uso (passar informação a terceiras partes) tenha deixado de interessar. Muito simplesmente, as soluções tecnológicas vão mudando com o tempo. Da lista dessas soluções também fazem parte os magic cookies de http ou, mais simplesmente, cookies [b052b]. Eles consistem em pequenos pacotes de informação que são enviados por um servidor web para um browser, sendo depois reenviados pelo browser de cada vez que voltar a aceder a esse servidor. Veja-se a imagem seguinte: Imagem 7: Lista de cookies entregues ao browser Microsoft Internet Explorer. Para cada um é identificado o nome do utilizador, o endereço do servidor web que o enviou e várias datas (o prazo de validade, datas de acesso, etc.) Um cookie contém informação arbitrariamente estabelecida pelo servidor web, a qual serve para atribuir um determinado estado a uma operação (navegação na web) que, no seu essencial, é stateless. Desta forma, em vez de cada consulta de página ser um evento único, torna-se possível saber quem está a consultar, o que é Página|26 que consultou da última vez que esteve no web site, etc. Por exemplo, o que se segue é o conteúdo do segundo cookie da lista que apresentámos em cima: PREFID=7a897a06d8729fa4:CR=1:TM=1126273418:LM=1126273418:S=awQvzumMjLpK_wbMgoo gle.com/1024261887833632111634209219924829734212* Os cookies podem ainda ser utilizados para: Manter listas de produtos, ao estilo do “carrinho de compras”, solução muito utilizada em web sites de comércio electrónico. Armazenar informação de autenticação dos utilizadores no primeiro acesso a um web site, tornando mais rápidos os acessos seguintes. Personalizar o acesso à informação, apresentando informação diferente para cada utilizador, com base em opções seleccionadas com antecedência (por exemplo, numa fase de registo). Enquanto mecanismo de identificação de utilizadores (se não de um utilizador individual, pelo menos de um ponto de acesso único – um posto de trabalho), os cookies aparentemente responderam a várias necessidades de obtenção de métricas. No entanto, uma das suas características essenciais pode dificultar esse uso: o facto de a sua existência poder ser inteiramente controlada pelo utilizador. De facto tal como é possível ver quais os cookies instalados num computador, também é possível apagar todos os que lá estiverem, ou até configurar os browsers para recusarem todos os cookies. Neste sentido, podemos afirmar que os cookies não constituem uma solução sólida para auxiliar a obtenção de métricas de acesso. Um web site pode estar configurado para exigir a colocação de cookies em todos os browsers que o visitarem, sem o que o seu conteúdo não aparece, ou aparece de forma parcial. Isto é aceitável para muitos utilizadores, mas outros limitar-se-ão a ignorá-lo e a procurar outro que não faça tais exigências. Noutros casos, o mesmo utilizador pode não dar hipóteses a que sejam constituídos perfis de uso das suas actividades de navegação, eliminando Página|27 os cookies entre cada visita a um web site, ou recusando pura e simplesmente a sua entrega9. Tal como os web bugs permitiram a recolha de informação por terceiras partes, também os cookies o acabaram por permitir. Através dos denominados “third-party cookies”, vários web sites procuraram passar informação sobre o seu uso, de forma automática, a empresas de recolha de dados. Esta abordagem tornou-se polémica pelas questões que levantou em torno da privacidade – ao consultar um web site, os utilizadores vêem de repente o seu computador ser invadido por pequenos “artefactos” de recolha de informação, plantados lá por uma empresa que muitas vezes desconhecem. O software existente A obtenção de métricas de acesso a web sites continua a ser uma tarefa inteiramente válida e, muitas vezes, essencial para avaliar o estado do desempenho de um determinado web site: desde saber muito simplesmente se recebe visitas, até caracterizar em profundidade as visitas que são feitas. A importância desta actividade reflecte-se por um lado na quantidade de software existente, por outro na quantidade da produção teórica que aborda o tema. A lista seguinte contém alguns dos títulos de software actualmente disponíveis. As suas capacidades são variáveis, tal como são os seus objectivos – uma maior orientação para a contabilização numérica, uma maior orientação para a obtenção de dados úteis para finalidades relacionadas com marketing, a possibilidade de acompanhar o bom funcionamento do web site com detecção de potenciais erros, etc. 9 Sobre este assunto, é muito recente a polémica que envolveu um relatório apresentado pela empresa americana de medição de audiências online comScore, relativo à eliminação de cookies pelos utilizadores (disponível online em http://www.comscore.com/press/release.asp?press=1389). Outras empresas e grupos de discussão (vejam-se os comentários no grupo webanalytics a partir de http://tech.groups.yahoo.com/group/webanalytics/message/10403) apresentaram rapidamente mais informação a completar ou a contrariar estes pontos de vista. Com ou sem relação com esta questão, o Internet Advertising Bureau [b057a] apresentou uma carta aberta às empresas comScore [b054a] e Nielsen/NetRatings [b059a] (http://www.iab.net/news/pr_2007_04_20.asp), pedindo uma validação por terceiras partes dos seus processos de medição. Página|28 Analog http://www.analog.cx Software gratuito, instalável no servidor web a analisar, ou em qualquer outra máquina, desde que tenha acesso aos ficheiros de log. Muito configurável e flexível, está orientado sobretudo para a contagem de elementos relativos aos acessos a páginas. AWStats http://awstats.sourceforge.net Software gratuito, instalável no servidor web a analisar, ou em qualquer outra máquina, desde que tenha acesso aos ficheiros de log. Está também orientado para a contagem de elementos relativos ao acesso às páginas web, oferecendo mais funcionalidades relacionadas com a geo-localização. HBX Analytics http://www.websidestory.com Software comercial, que faz análise de informação relativa à navegação no web site, ao grau de desempenho de web sites de comércio electrónico, ao impacto de campanhas específicas (de informação ou de marketing) e a múltiplos aspectos dependentes das características do web site (por sua vez ligados ao tipo de actividade da organização que o controla). É posicionado sobretudo como uma ferramenta de marketing. Omniture Site Catalyst http://www.omniture.com Software comercial, que cobre aspectos relacionados com o desempenho de web sites de comércio electrónico, a análise detalhada da percursos de navegação, a segmentação de visitantes do web site (em função da navegação que fazem) e a eficácia de campanhas de marketing. Página|29 OneStat http://www.onestat.com Software comercial que cobre aspectos como a contagem de visitantes, percursos percorridos, impacto de motores de pesquisa e desempenho de funcionalidades de comércio electrónico. Para web sites pequenos, oferece um serviço gratuito, em regime de outsourcing, baseado na utilização de contadores nas páginas. Urchin On Demand / Google Analytics http://www.google.com/analytics/ Começou por ser serviço de web analytics fornecido em regime de outsourcing – sem instalação de software nos clientes. Cobria aspectos relacionados com a caracterização dos visitantes do web site, o impacto de campanhas de marketing, o recurso a motores de pesquisa, acompanhamento do desempenho do comércio electrónico, análise de navegação, etc. Em 2005 a empresa foi comprada pela Google, que integrou o serviço e o disponibilizou, gratuitamente, sob o nome Google Analytics. Webalizer http://www.mrunix.net/webalizer Software gratuito, instalável no servidor web a analisar, ou em qualquer outra máquina, desde que tenha acesso aos ficheiros de log. Também orientado para a contagem de elementos relativos aos acessos. WebTrends http://www.webtrends.com Software comercial, instalável no cliente ou fornecido como serviço em regime de outsourcing. É um dos poucos a fornecer a possibilidade de recolher informação de tracking de utilização através de “first-party cookies” (em oposição aos third-party cookies referidos anteriormente). Também cobre o processamento da segmentação de visitantes, a análise de campanhas de e-mail e a análise de percursos de navegação. Página|30 Esta é apenas uma pequena amostra. A lista do software existente é muito extensa e cobre múltiplas necessidades (como pode ser visto da listagem acima, onde surge software gratuito, software comercial, software instalado localmente, serviços fornecidos em outsourcing, serviços baseados em contadores nas páginas, etc.) Do ponto de vista da actividade académica e científica, as questões relacionadas com a contagem e processamento de acessos a web sites nunca passaram despercebidas, quase desde que há dados suficientes para tirar conclusões (não esqueçamos nunca que estamos a lidar com um conjunto de tecnologias que, no seu essencial, foram inventadas há cerca de 15 anos). Desta forma, podemos identificar algumas das áreas que mais interesse têm suscitado à investigação: O reconhecimento em como a WWW não é formada apenas por páginas de natureza estática, disponibilizando também muita informação de forma dinâmica, sob a forma de informação armazenada em bases de dados, tem gerado grandes polémicas sobre a sua verdadeira dimensão (sobre este assunto vejam-se os excelentes comentários de Fjalar Ravia em http://www.fravia.com/tadimens.com). O estudo avançado dos padrões de utilização das zonas mais recônditas da web já tem vários anos [b005], surgindo como uma variante lógica do estudo de percursos de navegação dentro de um único web site. As considerações sobre a “realidade electrónica” em que a nossa vida se insere, apropriadamente baptizada de ciberespaço [b022, embora numa veia literária], já deram origem a muitas outras interpretações. Se olharmos para a WWW como uma das vertentes mais visíveis do “ciberespaço”, vemos também que ela apresenta um elevado grau de fragilidade ou, mais adequadamente, transitoriedade. O registo de acessos a um web site constitui, à sua maneira, uma máquina do tempo, na medida em que reflecte a forma como o site foi evoluindo, podendo a sua interpretação fornecer dados de interesse histórico. Ao mesmo tempo, a partir do momento em que é oferecida a possibilidade de identificar os pontos de acesso – Página|31 hiperligações – a partir das quais foram consultadas páginas do web site, ficamos com a possibilidade de mapear, nem que seja de uma forma parcial, pequenos segmentos desse ciberespaço, tentando de alguma forma reconhecer a multiplicidade de caminhos e de atalhos que ele forma [b008]. O estudo dos percursos de navegação como forma de medir o desempenho dos web sites, no que toca à capacidade de responder às necessidades dos utilizadores [b046]. Outras áreas não suscitam uma indicação directa de estudos específicos, pelo simples facto de as vermos em pleno e complexo desenvolvimento à nossa frente, todos os dias. Estamos a falar da delicada relação entre a navegação na web, o registo de acessos e o desejo de assegurar a privacidade. Estamos também a falar de questões relacionadas com a segurança dos web sites – é particularmente educativo pesquisar um ficheiro de log à procura dos acessos formatados à procura de fragilidades identificadas neste ou naquele software servidor web. Segurança e privacidade são duas áreas às quais é forçoso estar atento diariamente. A tomada de consciência, por parte de quadros dirigentes, da existência de fontes de informação com um carácter tão peculiar como o são os logs de acesso aos web sites, não deixa de lhes suscitar interesse e de provocar a curiosidade. Muito embora ocasionalmente se possam manifestar desejos do género “vamos ver o nosso web site é melhor que o dos outros”, a verdade é que há muitos casos em que é percebida a utilidade desses dados e se tenta dar-lhes um bom uso: para saber como se caracteriza o público do web site, para melhorar a resposta que é dada. Na verdade, não há uma solução perfeita para responder à questão fulcral: quem acede? As razões para isso são várias: A WWW é fundamentalmente anónima. Os protocolos nos quais ela se baseia não se prestam, de forma automática, à identificação unívoca de cada utilizador. Outras aplicações que aproveitam (ou aproveitaram a Internet), oferecem (ou ofereceram) graus diferentes de privacidade aos seus utilizadores (por exemplo, aplicações como os clientes FTP ou clientes Telnet Página|32 depreendem que haja uma identificação de um utilizador para aceder a um sistema). Os web sites que exigem um registo detalhado por parte dos seus utilizadores costumam fazê-lo com um objecto específico em vista – registo de clientes num contexto de comércio electrónico, por exemplo. Seguir esta abordagem em todos os web sites seria absurdo. A utilização de cookies resulta algo insuficiente, na medida em que, na maior parte dos casos, a associação é feita entre um computador específico (ou um browser específico) e um web site. Se vários utilizadores utilizarem o mesmo ambiente de trabalho, a recolha de informação que ele proporciona dificilmente poderá ser considerada muito exacta. Ainda não foi desenvolvida nenhuma solução “mágica” que permita fazer a identificação pessoal de um utilizador, sem que tal possa ser entendido como uma intromissão na privacidade. Página|33 O Tribunal de Contas O Tribunal de Contas (TC) é um dos órgãos de soberania da República Portuguesa, cuja finalidade constitucional consiste na “fiscalização da legalidade das despesas públicas e de julgamento das contas que a lei mandar submeter-lhe” 10 . Como parte da sua missão, contam-se as seguintes competências11: Fiscalizar a legalidade e regularidade das receitas e das despesas pública; Julgar as contas que a lei manda submeter-lhe, Dar parecer sobre a Conta Geral do Estado e sobre as das Regiões Autónomas Apreciar a gestão das finanças públicas Efectivar responsabilidades por infracções financeiras" O TC é ainda e entidade que assegura em Portugal a fiscalização da aplicação dos recursos financeiros oriundos da União Europeia em cooperação com outras instituições da União, em especial o Tribunal de Contas Europeu. O TC controla todas as entidade que administrem dinheiros públicos. Nesta categoria enquadram-se os serviços e organismos que integram a Administração Pública Central, Regional e Local, bem como as empresas públicas, associações e fundações. Isto representa um universo de mais de 12.000 entidades, de alguma forma obrigadas à prestação de contas e sujeitas a acções de auditoria A produção documental do TC é categorizada em Actos12, os quais se destinam às seguintes entidades: À Assembleia da República (Parecer sobre a Conta Geral do Estado e relatórios de auditoria em que se funda); 10 11 12 Artigo 214º, n.º 1, da Constituição da República Portuguesa. Informação extraída de [b048b]. A lista completa dos actos disponibilizados para o público em geral está disponível a partir de http://www.tcontas.pt/pt/actos/actos.shtm, com separação por tipologias. Página|34 Às Assembleias Legislativas das Regiões Autónomas (Pareceres sobre as Contas Regionais, produzidos pelas Secções Regionais da Madeira e dos Açores do TC); Aos responsáveis pelas entidades auditadas e aos órgãos que as tutelam ou superintendem; Ao Ministério Público, representado junto do TC; Às entidades por conta de quem actos e/ou contratos tenham sido praticados e/ou autorizados; Aos cidadãos em geral. Nos termos da lei e após comunicação às entidades interessadas, o TC pode publicitar os seus actos através dos meios de comunicação social, ou outos. É nesta óptica que se enquadra a publicitação dos actos no seu web site, conjunto documental sobre o qual o nosso trabalho vai incidir. Enquadramento normativo do TC São dois os diplomas que regulam o funcionamento do TC: A Lei do Orçamento e Processo do Tribunal de Contas, Lei n.º 98/97 de 26 de Agosto, alterada e republicada pela Lei n.º 48/2006 de 29 de Agosto. O Decreto-Lei n.º 440/99 de 2 de Novembro, que define a organização e estutura da Direcção-Geral do Tribunal de Contas, dos seus Serviços de Apoio e das Secções Regionais. Na secção da Bibliografia definida como “Literatura Cinzenta”, identificamos outros diplomas, de natureza interna, que regulam pormenores de funcionamento de alguns dos sistemas de informação do TC, relevantes para este trabalho. Página|35 Imagem 8: Organograma do Tribunal de Contas, incluindo a Direcção-Geral e as Secções Regionais da Madeira e Açores Orga anograma do Tribunal de Co ontas Página|36 Os Actos do Tribunal de Contas – disponibilização externa e interna. Os actos produzidos pelo Tribunal de Contas estão, regra geral, sujeitos ao princípio da publicidade. A esta regra aplicam-se, no entanto, algumas excepções. A publicitação dos actos do TC é orientada pelos seguintes princípios: Os acórdãos do TC que fixem jurisprudência, são publicados na I Série-A do Diário da República. O Relatório e Parecer sobre a Conta Geral do Estado, o Relatório Anual de Actividades, instruções e regulamentos são publicados na II Série do mesmo periódico. Na mesma série são publicados os valores e relações das entidades dispensadas de fiscalização prévia em cada ano e as que serão objecto de fiscalização concomitante de despesas emergentes dos actos e contratos dispensados de fiscalização prévia. Ainda na II Série são publicados os relatórios e as decisões que o TC entenda que devem ser publicados. Nos jornais oficiais o Governos Regionais da Madeira e dos Açores são publicados os actos equivalentes passados pelas Secções Regionais da Madeira e dos Açores do Tribunal de Contas. O TC goza da faculdade de decidir sobre a publicação de outros actos não constantes desta lista. Na prática, isto faz com que nem todos os actos produzidos pela instituição sejam divulgados para o exterior. Internamente, os actos do TC são disponibilizados de duas maneiras distintas: Como um dos produtos disponibilizados na Intranet institucional, com organização por tipo de acto, por ano, departamento de origem e eventual classificação temática. Na imagem seguinte é apresentada a lista geral de Actos do TC, tal como aparece no browser Internet Explorer: Página|37 Imagem 9: Página de acesso aos Actos do Tribunal de Contas na Intranet institucional, tal como estava visível em 17 de Julho de 2006 Através de um interface de pesquisa avançado, concretizado numa aplicação desenvolvida internamente, denominada TCJure. O funcionamento desta aplicação pressupõe um trabalho de preparação de documentos, no que toca ao preenchimento de metadados. A imagem seguinte mostra esse interface: Imagem 10: Formulário de pesquisa do sistema TCJure, tal como é disponibilizado através da intranet do Tribunal de Contas Para o exterior, os actos do TC são disponibilizados de duas maneiras distintas: Enviados para notificação de entidades abrangidas pela actividade do TC e para divulgação pontual nos órgãos de comunicação social. Página|38 No web site do TC, onde são disponibilizados em texto integral os actos designados para publicitação, com organização tipológica, anual e/ou temática, consoante o tipo de acto. Não é disponibilizado qualquer interface avançado de pesquisa. A imagem seguinte mostra a página do web site do TC que dá acesso às várias categorias de actos: Imagem 11: Página de acesso aos Actos do Tribunal de Contas, disponível no web site institucional em http://www.tcontas.pt/pt/actos/actos.shtm (imagem capturada em 2007-04-05). Página|39 No caso do web site, um dos conjuntos de actos, denominado Acórdãos e Sentenças, beneficia de um tratamento específico, com direito a um interface de pesquisa dedicado. É privilegiada a possibilidade de fazer buscas por campos descritivos específicos, ou pelo conteúdo textual integral, em detrimento de tratamentos adicionais a que tenham sido submetidos. A imagem seguinte mostra o interface de pesquisa de acórdãos e sentenças: Imagem 12: Formulário de pesquisa de Acórdão e Sentenças no web site do Tribunal de Contas, disponível no endereço http://www.tcontas.pt/cgi-bin/juris/db.cgi?db=juris&uid=&view_search=1 Note-se que a possibilidade de pesquisar por temas, disponibilizada no interface de pesquisa aqui apresentado, diz apenas respeito a uma organização temática de nível muito superior e que apenas é utilizada no contexto destes actos. Inclui apenas temas designados como Aquisição de Imóveis, Empreitadas, Empréstimos, Fornecimentos, Prestação de Serviços e Outros, dentro dos quais se agrupam todos os Acórdãos e Sentenças produzidos. Página|40 Tratamento temático da informação. O sistema de informação TCJure prevê que seja feito um tratamento temático dos documentos nele incluídos. Com essa finalidade, é disponibilizado um thesaurus, o qual foi elaborado com base nas áreas temáticas sobre as quais a actividade do TC incide. A imagem seguinte mostra uma visão geral da estrutura de dados deste sistema. A verde destacamos o segmento correspondente ao thesaurus: Imagem 13: Estrutura de dados do sistema TCJure, em uso interno no Tribunal de Contas (João Carlos Cardoso, Paulo Almeida, Nuno Ramalho, Lisboa/1997‐1998) A classificação temática é um trabalho levado a cabo por operadores humanos, fazendo parte do conjunto de competências de um dos departamentos dos Serviços de Apoio do TC, o Departamento de Consultadoria e Planeamento (DCP). Página|41 A possível irregularidade subjacente a qualquer trabalho de classificação levado a cabo por operadores humanos (com graus de formação e/ou conhecimento diferenciados) é visível nas diferenças existentes entre as classificações dos actos, com grandes variações na quantidade de detalhe , ou mesmo no grau de exactidão dos temas atribuídos. Este tratamento temático tem um grau de utilidade puramente interno, na medida em que o sistema TCJure apenas se encontra disponível dentro da instituição, a partir da sua Intranet13. Os documentos publicitados no web site não beneficiam da existências destes descritores, dado não haver qualquer relação entre os dois ambientes14. Classificação e recuperação – considerações finais. Do que foi atrás exposto, é possível apresentar várias conclusões quanto à forma como os documentos são classificados e recuperados, no âmbito dos vários sistemas de informação do Tribunal de Contas: Nem todos os actos que o TC produz são disponibilizados para download através do web site. Para as tipologias apresentadas no web site, a proporção é de aproximadamente 1/8 – 6145 documentos registados no sistema TCJure (em 20 de Abril de 2007), dos quais só 742 são disponibilizados para download no web site. 13 14 Entre Maio de 1998 e meados de 1999 (não conseguimos precisar a data), esteve disponível no web site do TC um interface público para o sistema TCJure. O desenvolvimento do sistema TCJure foi feito numa óptica alargada de integração de documentos e bases de dados existentes, estando particularmente orientado para servir como possível ponto central de toda a produção documental da instituição. Muito embora este sistema também esteja preparado para disponibilização através do web site externo, ainda não foi tomada uma decisão interna quanto a esta solução. A versão actual do web site do Tribunal de Contas foi densenvolvida numa óptica de disponibilização “estática” de documentos, sem atribuir uma importância muito grande a capacidades avançadas de pesquisa. Tais capacidades foram sempre deixadas para uma prevista integração futura com o TCJure. A versão actual da Intranet e uma futura versão do web site externo do TC, por se basearem em sistemas de gestão de conteúdos (versões de SharePoint Portal Server, da Microsoft), oferecerão desde a raiz capacidades avançadas de pesquisa que, até certo ponto, podem aliviar a necessidade de recorrer a um interface dedicado. É de esperar, no entanto, que mais tarde ou mais cedo, o sistema TCJure seja disponibilizado, ainda que parcialmente, para o exterior. Página|42 A informação que é disponibilizada para o exterior, através do web site institucional (e que constitui efectivamente o alvo do nosso trabalho), não recebe o mesmo tratamento que aquela que é disponibilizada internamente. O “processamento intelectual” dos documentos levado a cabo no âmbito do sistema TCJure não é aproveitado para o web site. A classificação temática actualmente existente é levada a cabo por operadores humanos, com base no conhecimento e percepção que cada um tem quanto ao conteúdo que é apresentado. A classificação temática utilizada situa-se a um nível conceptual/intelectual. A maior parte dos termos utilizados e aplicados nem sequer aparece explicitamente nos documentos. Os Acórdãos e Sentenças, que constituem as tipologias actualmente disponibilizadas no web site com um interface de pesquisa mais avançado, não utilizam o tratamento documental que lhes é dado no âmbito do sistema TCJure. Página|43 O web site do Tribunal de Contas A primeira versão do web site do Tribunal de Contas foi activada em Maio de 1998, disponibilizando inicialmente uma quantidade reduzida de documentos. Ela serviu assumidamente para a instituição marcar a sua presença na WWW. Permitiu, no entanto, levar a cabo iniciativas interessantes no que diz respeito à preparação de documentos, nomeadamente através da disponibilização temporária de um interface para o sistema TCJure. Através dele era possível elaborar pesquisas complexas sobre o conteúdo dos documentos, ou sobre meta-informação resultante do tratamento a que eram submetidos. Este interface deixou de ser disponibilizado ao público em 1999, mantendo-se em uso internamente, até aos dias de hoje. Imagem 14: Aspecto da primeira versão do web site do Tribunal de Contas (imagem capturada no em meados do ano 2000, apenas com algumas modificações em relação ao modelo inicial de 1998). Página|44 O reconhecimento do papel de crescente importância desempenhado pelo web site na divulgação da actividade da instituição, fez com que fosse planeada uma nova versão, orientada para a disponibilização de boa parte da produção documental do TC. Assim, a segunda versão do web site foi activada em 14 de Março de 2001: Imagem 15: Aspecto da segunda versão do web site, tal como foi disponibilizada em 14 de Março de 2001 (muito embora esta captura de imagem tenha sido feita antes dessa data, durante o período final de preparação). A percepção de uma necessidade de apresentar informação actualizada sobre os documentos publicitados no web site, levaram à realização de alterações na página inicial. Estas alterações privilegiaram um novo aspecto gráfico e o aumento da quantidade de informação inicialmente apresentada, tendo afectado apenas a página inicial. As restantes páginas mantiveram-se virtualmente inalteradas. Estas modificações ficaram activas a partir de 27 de Novembro de 2002. Com pequenas alterações, a página inicial do web site do TC mantém este aspecto até ao presente: Página|45 Imagem 16: Página inicial do web site do Tribunal de Contas em 4 de Fevereiro de 2004. Esta alteração levada a cabo em 2002 enfatizou a importância da divulgação dos documentos publicitados pelo TC. Ao trazer para a página de entrada pontos de acesso rápidos para os Actos mais recentes, ou para outros de conveniente divulgação, ficaram abertas as portas a uma disponibilização mais rápida de informação. O gráfico seguinte mostra de que forma os acessos ao web site evoluíram ao longo dos últimos seis anos, assinalando a tendência da evolução até ao fim de 2007: Página|46 Evoluçãão da quantidade e de pag ge views no w web site d do TC 800 0000 700 0000 R² = 0,917 600 0000 500 0000 400 0000 300 0000 200 0000 100 0000 0 Gráficoo 1: Evolução da quantidade de page p views no web w site do TC, para o perído com mpreendido entree Março de 2001 1e Março de 2007. Assinaalamos ainda a linha de tendêncca evolutiva (expo onencial) até ao final do presentee ano (coeficientte de correlação de 0,917). Para o início dee Maio de 2007 está prevista a activação da terceiraa versão do o web site do TC, a qual implicará alteraações profu undas na sua s estrutu ura. Pretend de-se agilizzar o acesso aos docu umentos, diminuíndo a quantidad de de níveiss de inform mação atravvés dos qu uais os utilizadores têêm que na avegar actu ualmente, q que no casso de algun ns dos Acttos, como os Relatórios de Au uditoria, poodem cheggar a ser cinco: c págin na inicial (1 1), listagem m de tipologgias de Acto os (2), listaagem de anos de Relattórios de Auditoria A (3 3), listagem m de todos os Relatórrios de Aud ditoria de u um determiinado ano (4) e págin na de um reelatório específico (5). A imagem segu uinte mostraa uma prevvisão do asp pecto futuroo: Página|47 Imagem 17: Aspecto da página inicial da terceira versão do web site do TC, que deverá ser activada no início do mês de Maio de 2007. Caracterização técnica do web site do TC O web site do Tribunal de Contas já passou por servidores de capacidade variável, tendo sempre em conta não só as necessidades imediatas, como as previsões de crescimento futuro. No Apêndice 3 fazemos um resumo da evolução da estrutura técnica que esteve e está na base do funcionamento do web site. O esquema seguinte mostra de que forma se articulam entre si os grandes intervenientes tecnológicos do web site do TC. Página|48 Estrutura de rede onde se insere o web site do Tribunal de Contas Internet Router externo Switch externo Zona externa Firewall externo Servidor web para as funções de deployment (integra servidor SGBD) Nesta zona fica situado o servidor web público. A futura utilização de um Sistema de Gestão de Conteúdos (baseado, provavelmente, numa versão do produto SharePoint da Microsoft), não deverá acarretar alterações no hardware. DMZ Firewall interno PCs com o ambiente de desenvolvimento Nesta zona os conteúdos são preparados (no PC com o ambiente de desenvolvimento) e “ensaiados”, no servidor de staging Servidor web para funções de staging. (integra servidor de ficheiros) Servidores de bases de dados (SQL Server) e da Intranet (SharePoint Portal Server) As ligações a tracejado mostram a prevista integração futura do web site com sistemas de informação internos – Intranet e bases de dados como o TCJure. Rede interna Imagem 18: Como se articulam entre si os grandes componentes tecnológicos da actual versão do web site do TC. São também dadas indicações quanto a algumas das modificações previstas para o futuro, tendo em conta a prevista utiização de um Sistema de Gestão de Conteúdos. Página|49 Esccolhas técnicas quee foram feeitas no prrocesso dee desenhoo do web site. O deesenho da versão v actu ual do web site do Tribunal de Contas C foi d deliberadam mente simp plificado, em m termos de d carga gráfica e dee tecnologiaas subjacen ntes. O facto de não haver uma carga apliccacional forrte integrada no site faacilitou decisões como o: O recursso à utilizaçção de SSI (Server Sid de Includes), para adiccionar direcctivas de proocessamentto às weeb. pááginas Elas servem para adiccionar dinamicamente coonteúdos às página as, com base em modelos préconstruíd dos, ou parra incluir in nformação directamen d te do servid dor. A utilizaação de chamadas CG GI com reccurso a cód digo escritoo em Perl. Esta linguageem suporta as capacid dades de pesquisa p noo conteúdoo do web site, a base dee dados dee Acórdãos e Sentençças e a baase de dad dos do Aud diting Standard ds Comitteee, desenvolvida no âm mbito da IN NTOSAI. A maaior parte dos d documentos existentes no web w site é disponibiliza d ada em forrmato PDF. A presen nça deste tipo t de fich heiros é massiva, m qu uando com mparada com os restaantes: Distribuiição de d documen ntos por formatos no w web site d do Tribun nal de Co ontas PPT:3 38 XLS:19 9 DOC:100 PDF:1825 G Gráfico 2: Quanttidade de docum mentos por formatto, no web site do d Tribunal de Coontas Página|50 Esta escolha baseou-se nas seguintes razões: O formato PDF é um standard de facto, no que toca à preparação de documentos para divulgação através da WWW. Esta situação é sustentada pela quantidade de plataformas computacionais (hardware e sistema operativo) para as quais existe o software de leitura deste formato (Adobe Acrobat Reader ou Adobe Reader) – 11 plataformas, cobrindo todas as versões de Windows, parte das versões mais divulgadas de Unix/Linux, Macintosh e equipamentos móveis (Pocket PC, Palm, telemóveis com sistema operativo Symbian). Esta variedade não tem um contraponto ao mesmo nível no caso do formato Word (o formato original da maior parte dos documentos disponibilizados no web site do Tribunal). Os ficheiros PDF podem apresentar, de forma unificada, conteúdos dispersos por uma variedade de ficheiros, como não raramente acontece com a documentação produzida internamente no Tribunal de Contas. Desta forma, é possível reunir num único ficheiro conjuntos como uma capa (em PowerPoint), o corpo de um relatório (em Word) e vários anexos (em Word ou em Excel). À visão unificada proporcionada pelo PDF contrapõe-se a necessidade de os utilizadores fazerem download de uma multiplicidade de ficheiros. Entre Março de 2001 e Março de 2001 foram feitos 5.509.080 pedidos de ficheiros PDF existentes no web site. O feedback que nos chega por parte dos utilizadores transmite um bom grau de aceitação deste formato. Pontualmente, alguns conteúdos são disponibilizados noutros formatos, nomeadamente Word e Excel (sobretudo quando se tratam de formulários). Os ficheiros em formato PowerPoint dizem respeito a apresentações disponibilizadas no âmbito de eventos organizados pelo TC. Página|51 Os logs de acesso ao web site do TC Na Introdução deste trabalho, fizemos uma caracterização básica dos ficheiros de log do web site do Tribunal de Contas. Os 2163 ficheiros que concentram a informação foram gerados por várias versões do software Internet Information Server da Microsoft, versões 5 e 6, parte integrante dos sistemas operativos Windows 2000 Advanced Server e Windows 2003 Enterprise Server. Ao longo dos seis anos a que estes ficheiros dizem respeito, o formato dos logs foi sempre o denominado Microsoft Extended Log Format. Houve três variantes no tempo, no que diz à quantidade de variáveis recolhidas e armazenadas: Entre 2001-03-14 e 2004-06-23, o formato recolheu a informação aqui indicada: #Software: Microsoft Internet Information Services 5.0 #Version: 1.0 #Date: 2001-03-14 11:56:13 #Fields: date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status cs(User-Agent) Em 2004-06-24 foi utilizada uma pequena variante, no que toca à quantidade de variáveis: #Software: Microsoft Internet Information Services 6.0 #Version: 1.0 #Date: 2004-06-24 05:14:59 #Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port csusername c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status Desde 2004-06-25 até ao presente, é feita a recolha da maior quantidade possível de variáveis relativas aos acessos ao web site: #Software: Microsoft Internet Information Services 6.0 #Version: 1.0 #Date: 2004-06-28 00:12:03 #Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken As diferenças entre formatos têm a ver com um processo contínuo de aferição da eficácia da recolha dos dados de acesso. Acabámos por optar pela recolha da maior Página|52 quan ntidade possível de metadadoss, tendo em e vista o seu aprooveitamentto de múlttiplas maneeiras e pela maior vaariedade po ossível de programass de análise (os quaiss podem, como c é óbvio, utilizarr as mesmas variáveis de maneeiras diferen ntes). As mudanças m de servidor, versão de d sistema operativo e versão d de servidorr web foram m tratadas de forma transparen nte - sempre que hou uve uma m migração dee um destees componeentes, os ficheiros de log foram mantidos m e copiados (se necessá ário). A infformação assim recolh hida é utilizzada todas as noites, às 00:01, para gerar uma págin na com taabelas e grráficos, quee resumem m todos oss dados recolhidos atté às 23:5 59:59 do dia anteerior. Estaa página, disponíveel permanentemente em http://www.tcon ntas.pt/diarrio.html, é gerada g através do proggrama Analog v5.91b beta1. As contagens c a apresentada as permitem m caracterizar os aceessos ao w web site de uma forma notoriam mente quan ntitativa – quantos q accessos foram feitos, a que ficheeiros, com que brow wsers e sisstemas opeerativos, a que horass do dia, etc. A ima agem seguinte mostraa o aspectoo do ínicio desta d página: Imaggem 19: Página web com informação relativa aoss acessos ao web b site do Tribunaal de Contas, disponível em http:///www.tcontas.p pt/diario.html o de activid dade desta versão do o web Para além destta recolha, activa dessde o início site, foi configurada a recoolha de dad dos para o serviço Gooogle Analyttics, desde o dia 7 dee Julho de 2006. 2 No entanto, e esta recolha apenas a tem m uma utilid dade parcia al, na Página|53 medida em qu ue só incid de sobre os acessos feitos à página p iniciial do web b site p://www.tcoontas.pt/ind dex.shtm). A imagem m seguintee mostra o aspecto o da (http informação provvidenciada por este seerviço: Imaggem 20: Vista paarcial do relatórioo Executivo, disponibilizado pelo serviço Google Analytics, A relativoo aos acessos feitos à págin na inicial do web b site do Tribunaal de Contas, para o período compreendido entre 2006-07-07 e 2 2006-07-28. Os loogs de aceesso utilizaados na reaalização deeste trabalh ho são os mesmos que q o Analog processa (o Googlee Analytics trabalha de d maneira diferente, baseando-sse na contaagem e caaracterizaçãão de acesssos feitos ao próprioo serviço, através dee um pequ ueno segmeento de cód digo adicionado no fin nal de cadaa página w web a tratar). Foi neceessário, noo entanto, proceder a alguma as operaçõões de lim mpeza dos logs (neceessárias e úteis em operações o de processsamento offfline, tamb bém necesssárias mas difíceis de d levar a cabo em tempo útil durantee o processsamento diário d noctu urno), com m o objectivvo de remover referências a acesssos internoos, quer oss que são feitos f peloss utilizadorres instituciionais, quee os que sãão feitos poor processo os de indexxação automáticos: Página|54 Acessos feitos por máquinas com os endereços IP 10.128.0.3 e 10.128.0.4, que identificam máquinas colocadas num troço de rede em DMZ e que têm a ver com processos automáticos de indexação de conteúdos, desencadeados a partir do software de gestão da Intranet institucional (baseado no SharePoint Portal Server 2003 da Microsoft). Acessos feitos a partir do endereço IP 194.65.143.156 os quais, pela arquitectura da rede do TC, denotam acessos a páginas feitos a partir da rede interna, por utilizadores locais. É possível que este endereço esconda acessos remotos, mas que tenham sido feitos através de um acesso extranet (sendo funcionalmente considerados como tráfego interno). Estas operações de limpeza foram levadas a cabo de forma simples, em ambiente de linha de comando (com e sem criação de batch files, caso a caso), recorrendo a uma versão Windows do comando grep de Unix, para fazer a selecção das linhas relevantes. Os ficheiro limpos daí resultantes, tornaram-se na base das operações de processamento que documentamos a seguir. Página|55 Estabelecer um ADN para os documentos do web site do TC Conforme já mencionámos, a maior parte dos documentos disponibilizados no sistema TCJure15 não é disponibilizada no web site. Ao mesmo tempo, acontece o processo inverso – documentos publicitados no web site mas que não são incluídos no TCJure16. A selecção de documentos para um processamento inicial passou então pelas seguintes fases: 1. Identificação dos documentos disponibilizados no web site que de facto se encontram registados no sistema TCJure. Este processo foi levado a cabo manualmente, a partir de listagens de conteúdo do web site, confrontadas com o conteúdo de algumas das tabelas associadas ao TCJure. De um total de 1003 documentos disponibilizados, estão registados 742. 2. Foram extraídos os descritores associados a cada um destes 742 documentos, com base em consultas ao sistema TCJure. A extracção foi levada a cabo em ambiente SQL Server, por manipulação directa das tabelas que integram o TCJure: Tabela: jure_documento_descritor Contém todas as relações entre documentos do TCJure e os termos contidos no thesaurs Tabela: thes_descritor Tabela primária do thesaurus, contém todos os seus termos Tabela: temp_codigos_documentos_website Tabela temporária, que contém os código dos documentos recolhidos na fase 1 - os documentos que estão no web site e que também se encontram registados no TCJure Com base nestas três tabelas foi utilizada a seguinte query de SQL para obter uma extensa listagem de todos os descritores associados a todos os documentos existentes no web site: 15 16 Recorremos à classificação proporcionada pelo sistema TCJure como um ponto de partida para o nosso trabalho, por ser a única que é aplicada de forma sistemática ao conjunto documental em estudo. Muito embora lhe reconheçamos limitações, tem a vantagem de existir e de se encontrar em uso corrente. Isto pode acontecer por razões distintas: devido a atrasos na alimentação do sistema TCJure (os quais, no entanto, só acontecem muito pontualmente), ou por se tratarem de documentos que, tradicionalmente, não são incluídos neste sistema documental. Tal é o caso da produção documental proveniente das Secções Regionais da Madeira e dos Açores. Página|56 SELECT TOP 100 PERCENT dbo.temp_codigos_documentos_website.codigo, dbo.Thes_descritor.cod_termo, dbo.Thes_descritor.termo FROM dbo.jure_documento_descritor INNER JOIN dbo.Thes_descritor ON dbo.jure_documento_descritor.cod_descritor = dbo.Thes_descritor.cod_termo INNER JOIN dbo.temp_codigos_documentos_website ON dbo.jure_documento_descritor.numero = dbo.temp_codigos_documentos_website.codigo ORDER BY dbo.temp_codigos_documentos_website.codigo O output desta query tem o seguinte aspecto: 19284 19284 30362 30362 30363 30363 30363 30363 43487 43487 43487 43487 43487 43487 43487 50662 50662 50662 50662 50662 [...] 11048 12083 11048 10694 10694 10510 11048 12083 12291 13722 11048 11059 11240 11663 10508 11361 11048 10913 12291 12812 [...] INSTRUÇÕES DO TRIBUNAL DE CONTAS ORGANIZAÇÃO DA CONTA INSTRUÇÕES DO TRIBUNAL DE CONTAS CONTA DE GERÊNCIA CONTA DE GERÊNCIA AUTONOMIA ADMINISTRATIVA INSTRUÇÕES DO TRIBUNAL DE CONTAS ORGANIZAÇÃO DA CONTA INSTRUÇÕES PARTICIPAÇÃO FINANCEIRA INSTRUÇÕES DO TRIBUNAL DE CONTAS INVENTÁRIO PARTICIPAÇÃO DO ESTADO SECTOR EMPRESARIAL PÚBLICO AUTARQUIA LOCAL PRESTAÇÃO DE CONTAS INSTRUÇÕES DO TRIBUNAL DE CONTAS FORMAÇÃO PROFISSIONAL INSTRUÇÕES CENTRO PROTOCOLAR [...] Tabela 1: Excerto da listagem dos descritores atribuídos a documentos constantes do web site do TC Foram encontrados 6018 descritores atribuídos no total. 3. O conjunto destes descritores foi depois processado, tendo em vista determinar qual o seu encabeçamento em termos do thesaurus interno. A contagem simples da quantidade de cada encabeçamento para cada documento permitiu a sua arrumação dentro de uma das 32 classes do thesaurus (correspondentes a cada um dos Top Terms). Página|57 4. O processamento desta lista de descritores foi levado a cabo através de um pequeno programa escrito em Basic17 (ver Anexo ...). Ele permitiu-nos traçar recursivamente a cadeia de relações para cada descritor descoberto na fase anterior, de forma a ser possível isolar o termo de topo do qual ele depende. Nem todos os 6018 descritores estão devidamente inseridos em relações formais dentro do Thesaurus. Por essa razão, muito embora praticamente todos os 742 documentos tivessem descritores, parte destes (2752) acabaram por não resultar na identificação de um termo de topo, por este simplesmente não se encontrar definido. 5. Na colocação de cada documento nas 32 classes foram utilizadas as seguintes regras: A classe com maior número de ocorrências foi automaticamente seleccionada; Classes com número idêntico de ocorrências levaram ao enquadramento do documento em cada uma que tenha sido identificada. Nestes casos, o mesmo documento ficou encabeçado por mais do que uma classe; Se a classe com maior número de ocorrências tiver sido a “Auxiliar de Informação”, ela foi removida da contagem, passando-se à classe seguinte com maior número de ocorrências. Se não tiverem sido identificadas mais classes, o documento foi excluído desta fase de processamento. Documentos para os quais não tenham sido identificados Top Terms, foram excluídos desta fase de processamento; Na prática, o resultado foi idêntico ao dos exemplos seguintes: 17 Na realização desta dissertação, não nos preocupámos em escolher uma única linguagem de scripting ou de programação, tendo em vista uniformizar todas as abordagens programáticas. Optámos por recorrer às soluções mais adequadas para cada caso, ou às soluções tecnicamente mais fáceis e vantajosas para nós. Página|58 69895 69895 69895 69895 69895 69895 69895 69895 69895 69895 69895 69895 69895 Finanças (Direito Financeiro) Direito Administração Pública Finanças (Direito Financeiro) 0 0 0 0 0 0 Finanças (Direito Financeiro) Finanças (Direito Financeiro) 0 Tabela 2: Top Terms identificados para os descritores atribuídos ao documento com o código 69895 do sistema TCJure, correspondente ao Relatório de Auditoria nº 47/2001 - 2ª Secção, disponível online em https://www.tcontas.pt/pt/actos/rel_auditoria/2001/47-2001.shtm. Foi utilizado o “0” para indicar descritores sem Top Term. Neste exemplo, o documento foi colocado na classe “Finanças (Direito Financeiro)”. 70618 70168 70168 70168 0 Economia 0 Finanças (Direito Financeiro) Tabela 3: Top Terms identificados para os descritores atribuídos ao documento com o código 70168 do sistema TCJure, correspondente ao Relatório de Auditoria nº 21/2002 - 2ª Secção, disponível online em https://www.tcontas.pt/pt/actos/rel_auditoria/2002/21-2002.shtm. Neste exemplo, o documento foi colocado nas classes “Economia” e “Finanças (Direito Financeiro)”. 69776 69776 69776 69776 69776 69776 Finanças (Direito Financeiro) Finanças (Direito Financeiro) Auxiliar de informação Auxiliar de informação 0 0 Tabela 4: Top Terms identificados para os descritores atribuídos ao documento com o código 69776 do sistema TCJure, correspondente ao Relatório de Auditoria nº 8/2001 - 2ª Secção, disponível online em https://www.tcontas.pt/pt/actos/rel_auditoria/2001/08-2001.shtm. As ocorrências do Top Term “Auxiliar de informação” foram ignoradas, tendo o documento sido colocado dentro da classe “Finanças (Direito Financeiro)”. A distribuição dos documentos pelas várias classes resultou na seguinte divisão: Página|59 Agriculturaa, pecuária e pesca 1 Educação 1 Entidade reeguladora 1 Indústria e energia 1 Transportees e comunicaações 1 Ambiente 3 Questões sociais s 3 Administraação interna 4 Tribunal (oorganização ju udiciária) 4 Cargos 6 Trabalho . Emprego 6 Organizaçõões internacioonais 7 Outros 11 Empresa e concorrênciaa 21 Administraação Pública 29 Economia 80 Finanças (Direito Financeiro) 249 Direito 493 Tabela 5: Diistribuição de doocumentos pelas várias classes de topo identificad das no thesauruss associado ao sistema TCJure. De acordo a com as reegras atrás definidas, há documeentos que podem m aparecer dentroo de mais do que uma destas classes. Percentu ualmente, a distribuiçãão é a segu uinte: Distrib buição d de docum mentoss por claasses (13 classes com 1 ou menos 11 occorrências) 49 5% Direito o 493 54% Empresa e concorrência 21 2% mia Econom 80 9% Administração Públicca 29 3% o Finaanças (Direito F Financeiro) 249 27% Gráfico 3: Distribuição dos documentos d disponibilizados no web w site do TC e registados no siistema TCJure, pelas p classes destee sistema de gesstão de informaçãão. Página|60 6. O mesmo programa que referimos na alínea anterior, foi expandido para prever a representação de uma versão de ADN dos documentos, com base nas classes do TCJure a que pertencem os termos de thesaurus atribuídos a cada um. O procedimento foi o seguinte: a. A partir da quantidade de encabeçamentos de cada documento (a quantidade de classes em que os descritores atribuídos os colocaram), foi calculada uma sequência de pesos. Cada encabeçamento pode ter pesos iguais ou diferentes. Note-se que na análise feita na alínea anterior nos preocupámos em definir uma colocação “definitiva” do documento numa classe (ou em mais do que uma se necessário), escolhendo para tal a classe com maior quantidade de descritores atribuídos. O cálculo que agora fazemos incluiu todas as classes pelas quais o documento é encabeçado, independentemente de terem a vez com muitos ou poucos descritores. b. A cada classe assim encontrada foi atribuído um peso entre 1 e 9, calculado como um rácio entre a quantidade de descritores que definem cada classe nesse documento, e a quantidade total de descritores utililizados para descrever esse documento. c. Isto permitiu-nos definir uma cadeia numérica para cada um dos 742 documentos, formada por dígitos entre 0 e 9, ficando com o seguinte aspecto: Página|61 Imaggem 21: Represeentação numéricaa de um ADN baaseado nas classses do TCJure, paara os 742 docu umentos em proceessamento (send do aqui mostradoos apenas os prim meiros 14). A mesma in nformação pode p ser também reprresentada ggraficamentte: Imagem m 22: Representtação grafica da mesma informaçção numérica da a imagem anterioor. A cada númeero foi atribuída uma u cor específfica. Página|62 Operações de text mining 7. Os 742 documentos que temos vindo a referir, traduzem-se fisicamente em 800 ficheiros PDF, na medida em que alguns se encontram repartidos por mais do que um ficheiro (Anexos de Relatórios, por exemplo). Estes 800 ficheiro foram foram convertidos do formato PDF (aquele em que são disponibilizados no web site) para o formato TXT. Para o efeito utilizámos a funcionalidade de Batch Processing, disponibilizada no software Adobe Acrobat Professional, versões 7 e 8. A conversão consistiu na gravação simples em formato TXT, com perca ocasional de informação (nomeadamente no que diga respeito a imagens e gráficos, de conteúdo não relevante para este trabalho). 8. O nosso objectivo seguinte consistiu na descoberta de palavras-chave dentro destes documentos. Para o efeito recorremos ao software SAS 9.1, de acordo com os segintes passos: a. Utilização do macro-comando %tmfilter para fazer pré-processamento do conjunto de 100 documentos: %tmfilter(dataset=work.txtinput, dir=C:\sas, destdir=C:\sas-html, language=portuguese); b. Foi utilizado o módulo Text Miner para fazer uma primeira extracção de palavras-chave (sem qualquer optimização em termos de stop ou start lists). Não foram feitas quaisquer alterações aos valores apresentados por omisssão, a não ser pela indicação da linguagem (Português). O diagrama relativo a esta operação foi o seguinte: c. A lista obtida ficou com 63.022 termos (entre palavras simples e termos compostos). Tal como é apresentada, a sua utilidade é reduzida, dada a quantidade de termos sem qualquer relevância. Página|63 d. Esta lista foi exportada do SAS para Excel, onde se sucederam as operações de selecção e eliminação de termos redundantes, ou pouco significativos, nomeadamente: i. Ordenação dos termos pela coluna Role (a qual indica a classificação de cada termo em função de uma part-of-speech do SAS / categoria gramatical). ii. Eliminação directa de termos classificados com as seguintes categorias gramaticais: 1. Todos os termos classificados como ADV (advérbios igualmente, respectivamente, eefctivamente, ...) [1624 termos] 2. Todos os termos classificados como AUX (auxiliares de verbos - é, foi, ser, tão, ...) [182 termos] 3. Todos os termos classificados como CONJ (conjunções - se, como, que, ou, ...) [84 termos] 4. Todos os termos classificados como DET (determinantes - o, a, os, as, ...) [20 termos] 5. Todos os termos classificados como INTERJ (interjeições - ora, aí, pois, pois é, ...) [23 termos] 6. Todos os termos classificados como PART (também advérbios, de negação ou de tempo - não, nada, nunca, jamais) [4 termos] 7. Todos os termos classificados como PREP (preposições - do, em, ao, da, ...) [435 termos] 8. Todos os termos classificados como PRON (determinantes e pronomes - se, uma, um, este, ...) [284 termos] Página|64 9. Todos os termos classificados como VERB (tempos verbais - tendo, sendo, pode, resulta, ...) [17750 termos] 10.Todos os termos classificados como VERBADJ (formas nominais de verbos - sido, referido, celebrado, previsto, ...) [7178 termos] iii. Com isto, a lista ficou reduzida a 35438 termos, sobre os quais incidiram novas operações de limpeza. 1. Eliminação de todos os termos que contenham sinais de pontuação ou outros caracteres não alfabéticos (%var, (c)/(a), ...) [171 termos] 2. Eliminação de todos os termos com uma frequência inferior a 80 (coluna FREQ - quantidade de vezes que o termo aparece na totalidade dos documentos) [28902 termos] 3. Eliminação de todos os termos que apareçam em menos de um décimo dos documentos (coluna NUMDOCS) [3118 termos] iv. Verificação manual da lista e eliminação de termos com pouca relevância, independentemente da sua frequência na colecção documental, ou do número de documentos em que aparecem (por exemplo, "a", "à", "a.", "aaf"...). v. Algumas operações de eliminação também devem ser entendida como de consolidação, na medida em que há termos repetidos, aos quais o SAS atribui uma categoria gramatical diferente (por exemplo, "acompanhamento" a ser considerado simultaneamente como substantivo e como nome próprio). Uma vez que não estamos a fazer qualquer análise Página|65 de contextos de utilização, optamos por aglutinar este género de ocorrências. vi. Eliminação de uma série de termos classificados como nomes próprios. e. A lista definitiva ficou 1612 termos. É com base nela que vamos fazer mais operações de processamento sobre os documentos. 9. Escolhemos as cinco classes mais representativas (aquelas com a maior quantidade de documentos atribuídos). Para cada uma delas foram geradas sequências de números aleatórios, obtidos a partir dos geradores disponíveis em random.org18, com valores entre um e a quantidade máxima de documentos identificados para cada classe. Obtivémos tabelas idênticas a esta para cada classe: 3 102538 Administração Pública 25 102729 Administração Pública 6 103319 Administração Pública 2 106081 Administração Pública 29 50662 Administração Pública 22 69890 Administração Pública 14 70057 Administração Pública 20 70276 Administração Pública 28 70279 Administração Pública 10 70286 Administração Pública 12 70303 Administração Pública ... Tabela 6: Atribuição de números aleatórios a cada um dos 756 documentos identificados para esta etapa de processamento. A primeira coluna contém o número aleatório, a segunda o código do documento no sistema TCJure e a terceira a classe que está a ser processada. 10.O conteúdo destas tabelas foi ordenado em função da primeira coluna (a dos números aleatórios), o que nos permitiu chegar a uma selecção de 20 documentos para cada classe. A junção dos resultados das cinco classes permite atingir o máximo teórico de 100 documentos. Na prática, dadas as 18 O recurso aos geradores de números aleatórios disponíveis online em www.random.org é comum em termos de prática académica ([b031] e [b018], por exemplo), como forma rápida de ter acesso a valores numéricos gerados de uma maneira puramente aleatória (neste caso a partir de “ruído atomosférico”, captado em frequências de rádio não ocupadas por postos emissores). Página|66 regras estabelecidas para a definição desta classificação, que permitem a colocação do mesmo documento dentro de mais do que uma classe, é natural que ocorram sobreposições. Tal foi o que aconteceu, pelo que o nosso conjunto de documentos de teste contém apenas 90 documentos do web site, por 10 deles estarem colocados em duas categorias diferentes simultaneamente. 11.Estes 90 documentos foram depois processados para se fazer a extracção de todas as frases no seu interior. Para estabelecer o que é uma frase, definimos as seguintes regras: a. Qualquer sequência de mais do que uma quebra de linha sequencial foi reduzida a apenas uma. b. Qualquer sequências de palavras terminadas por uma quebra de linha (o par de caracteres CR+LF, carriage return + line feed); c. Qualquer sequência de palavras terminadas por “. “ (um ponto final e um espaço) A nossa opção pelo conjunto ponto final+espaço tem a ver com características específicas deste conjunto documental, no qual abundam não só referências à numeração e organização interna dos próprios documentos (por exemplo, expressões como “alínea VIII.1”), como também referências sistemáticas a documentos numerados de alguma forma (por exemplo, “Lei n.º 98”). A preparação dos documentos (separação das frases) foi feita através de operações de edição em Word (versão 2007), com criação de um macrocomando apropriado (listado no Apêndice ...). Página|67 Conclusões Os objectivos que pretendíamos obter com este trabalho, estavam relacionados com formas diferentes de processar a informação disponibilizada no web site. Foram dois os nossos vectores de abordagem: Por um lado, trabalhar os logs de acesso ao web site, no sentido de encontrar as suas características básicas, sobretudo de natureza quantitativa: contabilizar acessos de forma cronológica e geográfica, por exemplo. Este objectivo corresponde à interpretação da informação básica providenciada por este tipo de dados. Ao manterem um rasto temporal de actividade, permitem levar a cabo um certo tipo de caracterização, útil no estabelecimento de uma identidade do web site. Por outro lado, fizemos incidir um conjunto de operações de processamento de dados, na área do text mining, sobre ficheiros disponibilizados no web site. Nesta etapa não nos preocupámos tanto com a forma como a informação foi utilizada, mas sim com as características intrínsecas dessa informação. O objectivo foi o de conseguir definir uma forma de classificar documentos, passível de ser automatizada. Estes dois vectores deram resultados aproveitáveis. Medições numéricas dos vários parâmetros associados à utilização de um web site são fáceis de obter e de interpretar. Servem para classificar melhor essas estruturas informativas, para detectar pontos de falha, para aferir a qualidade do serviço prestado. As operações que incidiram sobre texto, permitiram-nos ficar a conhecer melhor, não só o universo informativo que os documentos do web site encerram, como ainda alguns dos pomenores mais detalhados dos actuais sistemas de classificação de documentos em uso na instituição. Tal conhecimento é útil, numa óptica de aposta na melhoria constante dos serviços que são prestados (algo que nunca é de mais realçar, sobretudo no contexto da Função Pública e de serviços que podem prestar informações ao público em geral). Página|68 Não nos espantou que houvesse uma riqueza de classificação relativamente reduzida, com uma grande concentração de documentos em função de poucas classes de classificação. A verdade é que a instituição em causa não pode fugir a determinadas áreas temáticas. A forma por vezes intensa como o faz, acaba por ter reflexo na maneira como os documentos são classificados. Esta constatação não significa que não haja espaço para levar a cabo melhorias. Uma classificação mais “fina” e detalhada traria vantagens para todos os utilizadores, que internos, quer externos (muito embora estes apenas pouco ou nada contactem com os sistemas de classificação internos). O processamento posterior dos logs de acesso ao web site, numa tentativa de “chegar” aos utilizadores finais da informação, trouxe-nos resultados interessantes. Ele serviu para facilitar a definição de um “ADN” de utilizador, o qual constituiu a primeira tentativa sistemática de identificar modalidades de uso do web site. Não espanta que haja uma variedade relativamente reduzida de perfis de utilizador, na medida em ela corresponde ao âmbito temático (pouco variado, se assim quisermos dizer) da documentação disponibilizada no web site. As considerações que já fizémos, sobre a necessidade/possibilidade de ser feita uma classificação mais fina dos documentos, com aproveitamento de termos constantes do thesaurus que pouco são explorados, poderia facilitar a criação de perfis de utilização mais detalhados. Tal como o web site se encontra actualmente estruturado, não há propriamente lugar para um aproveitamento directo da informação obtida através destas operações de processamento. Mesmo a nova versão, que só será activada depois da data em que estas linhas estão a ser escritas, não prevê qualquer mecanismo de personalização de consultas, ou qualquer integração maior entre o web site e o tratamento feito através do sistema TCJure. Do ponto de vista de tratamento e disponibilização de informação, a situação é virtualmente a mesma, desde há seis anos para cá. Página|69 Uma futura abordagem ao tratamento dos documentos e à personalização das consultas poderia abranger os seguintes componentes: Um aproveitamento mais aprofundado das capacidades de classificação temática oferecidas pelo thesaurus do sistema TCJure, por parte dos operadores humanos que o utilizam. O aperfeiçoamento contínuo da lista de palavras-chave aqui apresentada (como ponto de partida), através da conjugação de operações de text-mining com a revisão e o aperfeiçoamento manual. A implantação, ao nível do web site, de um interface opcional de registo de preferências dos utilizadores, no qual seriam indicadas um conjunto de preferências iniciais, que estariam na base de uma cadeia de “ADN” personalizada, a qual ficaria depois sujeita a um processo de reformulação contínuo, com base nas escolhas sucessivas que cada utilizador faria nas sessões de consulta seguintes. Estes componentes teriam que passar por um extenso período de teste e validação, além de acarretarem diversas mudanças ao nível da forma como são processados internamente os documentos. No entanto, acreditamos que os ganhos justificariam o investimento. Página|70 Referências: Livros e artigos [1] (b001a) ARNOLD, Stephen E.: The Google Legacy, Infonortics, 2005 [2] (b002) ASADI, Saeid; XU, Jiajie; SHI, Yuan; DIEDRICH, Joachim; ZHOU, Xiaofang: “Calculation of Target Locations for Web Resources”, Proceedings of the 7th International Conference on Web Information Systems Engineering, Oct 23-26, 2006 (Wuhan, People’s Republic of China). Retirado da WWW em 2007-03-18 a partir de http://www.itee.uq.edu.au/~zxf/_papers/WISE06.pdf [3] (b003) AYRE, Rick; WILLMOTT, Don: “The Internet Means Business”, PC Magazine, May 16 (1995) 195-245. [4] (b001) AZCARRAGA, Arnulfo P.; YAP, JR., Teddy; CHUA, Tat Seng: “Comparing Keyword Extraction Techniques For WEBSOM Text Archives”, International Journal on Artificial Intelligence Tools, Vol. 11, No. 2 (2002) 219-232 Retirado da WWW em 2006-10-20 a partir de http://content.epnet.com/ContentServer.asp?T=P&P=AN&K=7229756&EbscoContent=dGJ yMNXb4kSeprI4v%2BbwOLCmrk%2Bep7VSsK64Ta%2BWxWXS&ContentCustomer=dGJy MOzprkiuqLdIuePfgeyx%2BEu3q64A&D=aph","EBSCO_APH","MIN00996 [5] (b003a) BARLOW, John Perry: Crime and Puzzlement, 1990 Retirado da WWW em 2006-06-19 a partir de http://www.eff.org/Misc/Publications/John_Perry_Barlow/HTML/crime_and_puzzlement_1.ht ml [6] (b003b) BARROSO, Luiz André; DEAN, Jeffrey; HÖLZLE, Urs: “Web Search for a Planet: The Google Cluster Architecture”, IEEE Micro, March-April 2003, 22-28 Retirado da WWW em 2006-06-10 a partir de http://216.239.37.132/papers/googlecluster-ieee.pdf [7] (b004) BEAUVISAGE, Thomas: “Sémantique des parcours des utilisateurs sur le Web”, Texto!, Décembre 2004. Retirado da WWW em 2005-09-08 a partir de http://www.revue-texto.net/Inedits/Beauvisage/Beauvisage_Parcours.html Página|71 [8] (b005) BERENDT, Betina; SPILIOPOULOU, Myra: “Analysis of navigation behaviour in web sites integrating multiple information systems”, The VLDB Journal (2000) 9: 56–75 [9] (b006) BERINSTEIN, Paula: “Wikipedia and Britannica. The Kid's All Right (And So's the Old Man)”, Searcher, Vol. 14 No. 3 - March (2006) Retirado da WWW em 2007-02-08 a partir de http://www.infotoday.com/searcher/mar06/berinstein.shtml [10] (b006a) BERNERS-LEE, Tim: The World Wide Web: A very short personal history Retirado da WWW em 2006-09-12 a partir de http://www.w3.org/People/Berners-Lee/ShortHistory [11] (b006b) BERRYMAN, M. J.; ALLISON, A.; ABBOTT, D.: Statistical Techniques for Text Classification Based on Word Recurrence Intervals, Fluctuation and Noise Letters, Vol. 3, No. 1 (2003) Retirado da WWW em 2006-09-15 a partir de http://www.eleceng.adelaide.edu.au/Personal/dabbott/publications/FNL_berryman2003.pdf [12] (b007) BLACKMAN, Stuart: “Nature has Wikipedia in its cites”, The Scientist, Volume 20, Issue 2 (February 2006), 18 [13] (b008) BRUNS, Axel: “The n-Dimensional Village: Coming to Terms with Cyberspatial Topography”, M/C Journal, Volume 1, Issue 4, Nov, 1998 http://journal.media-culture.org.au/9811/village.php [14] (b009) BURTON, Mary C.; WALTHER, Joseph B.: “The Value of Web Log Data in Use-Based Design and Testing”, Journal of Computer-Mediated Comunication, 6 (3) April 2001. Retirado da WWW em 2006-11-20 a partir de http://jcmc.indiana.edu/vol6/issue3/burton.html [15] (b010) BUSH, Vannevar: “As We May Think”, The Atlantic Monthly, Volume 176, No. 1, , July, 1945, 101-108 [16] (b011) CANTU-PAZ, E.: "On random numbers and the performance of genetic algorithms," Proceedings of the Genetic and Evolutionary Computation Conference, GECCO 2002, pp. 311-318, Morgan Kaufmann Publishers, San Francisco, 2002. [17] (b011a) CEGLOWSKI, Maciej: Building a Vector Space Search Engine in Perl Página|72 Retirado da WWW em 2006-11-20 a partir de http://www.perl.com/lpt/a/2003/02/19/engine.html [18] (b012) CHUNG, Kyusuk; MULLNER, Ross; YOUNG, Duckhye: “Access to Microdata on the Internet: Web-Based Analysis and Data Subset Extraction Tools”, Journal of Medical Systems, Vol. 26, No. 6, December 2002. [19] (b012a) CLOUGH, Bryan; MUNGO, Paul: Approaching Zero – Data Crime and the Computer Underworld, Faber and Faber Limited, London, 1993. [20] (b013) DAINOW, Brandt: “Web Analytics Breakthrough!”, iMedia Connection, August 18, 2005 Retirado da WWW em 2006-11-20 a partir de http://www.imediaconnection.com/content/6553.asp [21] (b014) DECEMBER, John: “Challenges for a Webbed Society”, ComputerMediated Communication Magazine, Volume 1, Number 8, November 1/1994, p. 7 [22] (b015) DEEMER, Charles: What is hypertext?, 1994 Retirado da WWW em 2006-11-20 a partir de http://www.geocities.com/cdeemer/essay.htm [23] (b016) DEMERS, Elizabeth; LEV, Baruch: ”A Rude Awakening: Internet Shakeout in 2000”, Review of Accounting Studies, 6, 331–359, 2001 [24] (b017) DENNING, Peter; HORNING, Jim; PARNAS, David; WEINSTEIN, Lauren: “Wikipedia Risks”, Inside Risks 186, Communications of the ACM, 48, 12 (2005), 152-152 [25] (b017a) DIAS, Guilherme Ataíde, “Avaliação do acesso a periódicos eletrônicos na web pela análise do arquivo de log de acesso”, Ciência da Informação, Brasília, v. 31, n. 1, jan./abr. (2002) 7-12 [26] (b018) FANKHAUSER, Niklaus; MÄSER, Pascal: “Identification of GPI anchor attachment signals by a Kohonen self-organizing map”, Bioinformatics, Vol. 21 no 9 2005, 1846-1852 [27] (b019) FIDERIO, Janet: “A Grand Vision”, Byte, October 1988, 237-244. [28] (b020) FLETCHER, Peter; POON, Alex; PEARCE, Ben; COMBER, Peter: Practical Web Traffic Analysis – Standards, Privacy, Techniques, Results, Glasshaus, Birmingham, 2002 Página|73 [29] (b020a) GAYO-AVELLO, Daniel; ÁLVAREZ-GUTIERREZ, Dário; GAYOAVELLO, José; Naïve Algorithms for Keyphrase Extraction and Text Summarization from a Single Document Inspired by the Protein Biosynthesis Process, Bio-ADIT 2004 - The First International Workshop on Biologically Inspired Approaches to Advanced Information Technology. A.J. Ijspeert et al. (Eds.): BioADIT 2004, LNCS 3141, pp. 440-455 [30] (b020a) GERTH, N.;MÄRTIN, C.;TIEDTKE, T.: “AWUSA - A Tool for Automated Website Usability Analysis”, in: Proceedings of the 9 th International Workshop on Design, Specification, and Verification of Interactive Systems DSV-IS' 2002, Rostock [31] (b020b) GETOOR, Lise: Link Mining: “A New Data Mining Challenge”, SIGKDD Explorations, Volume 4, Issue 2, 2003 [32] http://ftp.cs.umd.edu/~getoor/Publications/kdd-exp03.pdf [33] (b021) GIARLO, Michael J.: A Comparative Analysis of Keyword Extraction Techniques Retirado da WWW em 2006-10-20 a partir de http://www.lackoftalent.org/michael/papers/596.pdf [34] (b022) GIBSON, William: Neuromante, Gradiva, Lisboa, 1988 [35] (b023) GOODCHILD, Michael F.; HAINING, Robert P.: “GIS and spatial data analysis: Converging perspectives”, Papers in Regional Science 83, 363– 385 (2004) [36] (b024) GULLI, A.; SIGNORINI, A.: The Indexable Web is More than 11.5 billion pages, 2005 Retirado da WWW em 2006-03-03 a partir de http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf [37] (b025) HAIGH, Susan; MEGARITY, Janette: “Measuring Web Site Usage: Log File Analysis”, Network Notes #57, August 4, 1998, Information Technology Services, National Library of Canada [38] (b026) HEMENWAY, Kevin; CALISHAIN, Tara: Spidering Hacks, O’Reilly, 2003 Página|74 [39] (b027) HYÖTYNIEMI, Heikki: “Text Document Classification with SelfOrganizing Maps”, STeP'96-Genes, Nets and Symbols, Finnish Artificial Intelligence Society, pp. 64-72, 199 Retirado da WWW em 2005-10-10 a partir de http://lipas.uwasa.fi/stes/step96/step96/hyotyniemi3/ [40] (b028) KAHN, Paul; LENK, Krzysztof: Mapping web sites, RotoVision, 2001 [41] (b029) KAMDAR, Tapan Kamdar; JOSHI, Anupam: On Creating Adaptive Web Servers Using Weblog Mining, Technical Report TR-CS-00-05, Department of Computer Science and Electrical Engineering, University of Maryland, 2000 Retirado da WWW em 2005-10-10 a partir de http://ebiquity.umbc.edu/get/a/publication/42.pdf [42] KOEHLER, Wallace; "A longitudinal study of Web pages continued: a consideration of document persistence", Information Research, Vol. 9 No. 2, January 2004 Retirado da WWW em 2006-7-4 a partir de http://informationr.net/ir/9-2/paper174.html?CFID=1882946&CFTOKEN=28761087 &jsessionid=6830182771075673274112 [43] (b030) LEE, Juhnyoung; PODLASECK, Mark; SCHONBERG, Edith; HOCH, Robert; “Visualization and Analysis of Clickstream Data of Online Stores for Understanding Web Merchandising”, Data Mining and Knowledge Discovery, 5, 59–84, 2001 [44] (b031) LIU, Ying; CILIAX, Brian J.; BORGES, Karin; DASIGI, Venu; RAM, Ashwin; NAVATHE, Shamkant B.; DINGLEDINE, Ray: “Comparison of Two Schemes for Automatic Keyword Extraction from MEDLINE for Functional Gene Clustering”, Proceedings of the 2004 IEEE Computational Systems Bioinformatics Conference (CSB 2004) Retirado da WWW em 2006-10-20 a partir de http://conferences.computer.org/Bioinformatics/CSB2004/PDF/039_Liu_Ying_TextMining.pdf [45] (b032) MARTIN, Peter: “An Analysis of Random Number Generators for a Hardware Implementation of Genetic Programming using FPGAs and HandelC”, Proceedings of the Genetic and Evolutionary Computation Conference, GECCO 2002, Morgan Kaufmann Publishers, San Francisco, 2002. Página|75 [46] (b033) MASSEY, Louis: “Determination of Clustering Tendency With ART Neural Networks”, Proceedings of 4th Intl. Conf. on Recent Advances in Soft Computing, Nottingham, U.K., 12 & 13 December 2002. [47] (b034) MATSUO, Y; ISHIZUKA, M.: “Keyword Extraction From a Single Document Using Word Co-occurrence Statistical Information”, International Journal on Artificial Intelligence Tools, Vol. 13, No. 1 (2004), pp. 157-169 [48] (b034b) MAYR, Philipp: "Website entries from a web log file perspective – a new log file measure" in Proceedings of the AoIR -ASIST 2004 Workshop on Web Science Research Methods, Brighton, 2004 Retirado da WWW em 2007-01-18 a partir de http://eprints.rclis.org/archive/00002831/01/Mayr_full.pdf [49] (b034a) MORSHED, Ahsan-Ul: Towards the Automatic Classification of Documents in User-generated Classifications, PhD Thesis Proposal, Department of Information Technology & Communication, University of Trento, Trento, Italy, 2006. Retirado da WWW em 2007-01-18 a partir de http://eprints.biblio.unitn.it/archive/00000938/01/001.pdf [50] (b034b) NAHM, Un Young: Text Mining with Information Extraction, University of Texas, Austin, 2004 [51] (b035) NAUGHTON, John: A Brief History of the Future. The origins of the Internet, London, Weidenfeld & Nicolson, 1999 [52] (b036) NELSON, Theodor H.: “Managing Immense Storage”, Byte, January 1988, 225-238 [53] (b037) OAKES, Chris: “As Go Surfers, So Goes Alexa”, Wired News, Jul. 24, 1997 Retirado da WWW em 2006-03-18 a partir de http://wired-vig.wired.com/news/print/0,1294,5427,00.html [54] (b037a) OLIVEIRA, João Nuno; SANTOS, Leonel Duarte dos; AMARAL, Luís Alfredo Martins do: Guia de Boas Práticas na Construção de Web Sites da Administração Directa e Indirecta do Estado, Versão 3.0 de Fevereiro 2003, UMIC Retirado da WWW em 2006-03-18 a partir de http://www.umic.pt/images/stories/publicacoes/GuiaBoasPraticas.pdf Página|76 [55] (b038) ORTUÑO, M.; CARPENA, P.; BERNAOLA-GALVÁN, P.; MUÑOZ, E.; SOMOZA, A.M.: “Keyword detection in natural languages and DNA”, Europhysics Letters, 57(5), 2002, 759-764 [56] (b039) PEACOCK, Darren: “Statistics, Structures & Satisfied Customers: Using web log data to improve site performance”, Museums and the Web 2002 Retirado da WWW em 2007-03-18 a partir de http://www.archimuse.com/mw2002/papers/peacock/peacock.html [57] (b040) PERKOWITZ, Mike; ETZIONI, Oren: Adaptive Web Sites: Concept and Case Study, Department of Computer Science and Engineering, University of Washington, Seattle, 1999 Retirado da WWW em 2006-05-20 a partir de http://www.perkowitz.net/research/papers/cacm99.pdf [58] (b041) PETERSON, Eric T.: Web Site Measurement Hacks, O’Reilly, 2005 [59] (b042) PITKOW, J; BHARAT, K.: “WebViz: A Tool for WWW Access Log Analysis” in Proceedings of the Second WWW Conference, October, 1994. [60] (b043) PUNIN, John R.; KRISHNAMOORTY, Mukkai S.; ZAKI, Mohammed J.: Web Usage Mining - Languages and Algorithms, Retirado da WWW em 2005-11-10 a partir de http://www.cs.rpi.edu/~puninj/LOGML/TR01-3.pdf [61] (b044) READ, Brock: “Middlebury College History Department Limits Student' Use of Wikipedia”, Chronicle of Higher Education 2/16/2007, Vol. 53 Issue 24, A39-A39 [62] (b044a) SCHENKER, Adam; LAST, Mark; BUNKE, Horst; KANDEL, Abraham: “Classification of Web Documents Using Graph Matching”, in International Journal of Pattern Recognition and Artificial Intelligence, Vol. 18, No. 3 (2004) 475-496 [63] (b044a) SCHNEIDER, Fred B. (ed.): Trust in Cyberspace, National Academy of Sciences, Washington, 1998 Retirado da WWW em 2006-04-10 a partir de http://www.aci.net/kalliste/tic.htm [64] (b045) SHEARD, Judy; CEDDIA, Jason; HURST, John; TUOVINEN, Juhani: “Inferring Student Learning Behaviour from Website Interactions: A Usage Analysis”, Education and Information Technologies 8:3, 245–266, 2003. Página|77 [65] (b045a) SHIVAKUMAR, Narayanan; GARCIA-MOLINA, Hector: Building a Scalable and Accurate Copy Detection Mechanism, Department of Computer Science, Stanford, 1996 Retirado da WWW em 2006-04-10 a partir de http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=199651&format=text&compression=&name=1996-51.text [66] (b046) SPILIOPOULOU, Myra; POHLE, Carsten: “Data Mining for Measuring and Improving the Success of Web Sites”, Data Mining and Knowledge Discovery, 5, 85–114, 2001 [67] (b046a) STERLING, Bruce: Hacker Crackdown, Project Gutenberg Etext #101, 1994 [68] (b047) STVILIA, Besiki; TWINDALE, Michael B.; GASSER, Les; SMITH, Linda C.: Information Quality Discussions in Wikipedia, Graduate School of Library and Information Science, University of Illinois at Urbana-Champaign, 2005 Retirado da WWW em 2007-01-10 a partir de http://www.isrl.uiuc.edu/~stvilia/papers/qualWiki.pdf [69] (b048) TAN, Ah-hwee; YU, Philip S.: “Guest Editorial: Text and Web Mining”, Applied Intelligence 18, 239-241, 2003 [70] (b048a) TRIBUNAL DE CONTAS, O Tribunal de Contas na Actualidade, Lisboa, 2006 disponível online em http://www.tcontas.pt/pt/apresenta/actualidade/sit_act.pdf [71] (b049) TURBAN, Efraim; ARONSON, Jay E.; LIANG, Ting-Peng: Decision Support Systems and Information Systems, 7th Edition, 2004, Prentice-Hall [72] (b050) UZUN, Yasin: Keyword Extraction Using Naive Bayes Retirado da WWW em 2006-10-20 a partir de http://www.cs.bilkent.edu.tr/~guvenir/courses/cs550/Workshop/Yasin_Uzun.pdf [73] (b050a) WANG, Yong; HODGES, Julia; TANG, Bo: Classification of Web Documents Using a Naive Bayes Method, in Proceedings of the 15th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’03), 2003 [74] (b051) WEBSTER, Kathleen; PAUL, Kathryn: “Beyond Surfing: Tools and Techniques for Searching the Web”, Information Technology, January, 1996 Página|78 [75] (b051a) WOO, Seon-Mi; YOO, Chun-Sik: “Digital Library Retrieval Model Using Subject Classification Table and User Profile”, in Digital Libraries: International Collaboration and Cross-Fertilization, Springer Berlin / Heidelberg, 2004, 473-482 [76] (b051b) YANG, Kiduk: How do we find information on the Web?, School of Information and Library Science, University of North Carolina, 2001 [77] (b052) ZAÏANE, Osmar R.; XIN, Man; HAN, Jiawei, “Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs”, in Proceedings on the Advances in Digital Libraries Conference (ADL'98), Santa Babara, April (1998), 19-29 Página|79 Referências: Literatura cinzenta [78] (b048b) TRIBUNAL DE CONTAS, Relatório de Actividades e Contas 2005, Lisboa, 2006 disponível online em http://www.tcontas.pt/pt/actos/rel_anual/2005/rel2005.shtm [79] Resolução nº 3/00 – PG (Divulgação de actos do Tribunal na Internet), através da qual foi expressa a intenção de passar a disponibilizar, através do web site, uma quantidade e variedade de documentos muito maior do que a que era feita até ao momento. Tal intenção subentendia a necessidade de proceder a uma reestruturação do conteúdo. [80] Despacho nº 86/00 – GP de 2000/09/21 (Conteúdo do site do Tribunal de Contas na Internet), através do qual é definida a estrutura básica do web site (e que, com algumas alterações, se mantém basicamente idêntica até hoje). [81] Proposta nº 17/00 – GE, através da qual o Gabinete de Estudos fez várias sugestões sobre conteúdos a incluir. [82] Comunicação Interna 24/00 – DSTI de 2000/11/02, Informação nº 28/00 – SOI de 2000/11/14 e Informação nº 38/00 – DSTI de 2000/12/20, através das quais são feitos adiamentos às datas previstas de activação do novo web site. [83] Informação nº 12/01 – DSTI de 2001/02/07 (Memória descritiva da segunda versão do web site do Tribunal de Contas), através da qual é apresentado o aspecto final da nova versão, com justificação das escolhas de tecnologia e de desenho gráfico. Ao mesmo tempo é aberto o período de testes internos e recepção de sugestões. [84] Nota 12/01 – GP e Nota 13/01 – DG de 2001/02/12, através das quais se divulga internamente a existência da nova estrutura e se pedem observações e sugestões de alteração. [85] Comunicação Interna nº 5/01 – DGFP – DP de 2001/02/24, através da qual se procede a um ajuste na estrutura do web site, tendo em vista a disponibilização futura do Balanço Social da instituição. [86] Informação Conjunta nº 16/01 – DSTI e 17/01 – DCP de 2001/03/05, através da qual se dá conta do processo de recolha de sugestões. Foram Página|80 recebidas sugestões do Dr. Justino Janeiro (via e-mail), do DADI (através da Informação nº 22/01 – DADI) e do Dr. Rui Trindade (através de comentários manuscritos). [87] Proposta nº 06/02 – DCP de 2002/05/10, através da qual é proposta uma alteração na estrutura do web site, de forma a prever a inclusão de Notas para a Comunicação Social. Esta alteração foi levada a cabo. No entanto, a sua utilidade tem-se revelado diminuta, por não ser alimentada com informação. [88] Resolução nº 3/02/Nov.19 – 1ª S/PL de 2002/11/19 (Publicitação da Jurisprudência da 1ª Secção), que determina a necessidade de proceder à publicitação, no web site do TC, da Jurisprudência da 1ª Secção. [89] Informação s/n DCP – DSTI de 2002/11/25 (Proposta de nova versão do web site do Tribunal de Contas), através da qual, mais do que uma alteração profunda, é proposta uma modificação visual e funcional da página de entrada. O aspecto proposto é aprovado e é o que se mantém até ao presente. [90] Informação nº 4/03 – DSTI e Parecer nº 1/03 – DSTI de 2003/01/17 (Publicação de Acórdãos na Internet), através da qual se dá conta da evolução do processo de publicitação de Acórdãos e das dificuldades a ele inerente. [91] Despacho nº 38/03 – DG de 2003/04/03 (Procedimentos para publicitação de Acórdão da 1ª Secção na Internet), através do qual são fixadas as regras inerentes à divulgação deste tipo de documentos. [92] Despacho nº 32/05 – DG de 2005-03-16, no qual é lançado o processo de alterações ao web site, com vista à definição de uma nova estrutura e aspecto para o seu conteúdo. [93] Informação nº 1/06 – DCP-NC-Tec de 2005-05-04 (Reestruturação do web site do Tribunal de Contas), onde se dá conta das acções levadas a cabo face às alterações pretendidas. Página|81 Referências: Normas e standards [94] (b052a) RFC 2131 – Dynamic Host Configuration Protocol disponível online em http://tools.ietf.org/html/rfc2131 [95] (b052b) RFC 2965 – HTTP State Management Mechanism disponível online em http://tools.ietf.org/html/rfc2965 Página|82 Referências: Web sites [96] (b054a) comScore http://www.comscore.com/ Empresa americana que desenvolve a sua actividade na área da medição do uso da Internet em múltiplas vertentes, no que toca a actividades online e offline. [97] (b055) Cyber Geography Research http://www.cybergeography.org/atlas Repositórios de múltiplos exemplos de representação gráfica de informação de natureza maioritariamente numérica, de alguma forma relacionada com a área das Redes, Comunicações e Internet. Deixou de ser actualizado a partir de 2004. [98] (b056) Electronic Frontier Foundation http://www.eff.org Organização privada não-lucrativa, dedicada à defesa dos “direitos digitais”. A sua fundação data de 1990, tendo surgido como uma reacção às primeiras acções policiais levadas a cabo pelo governo norte-americano sobre a comunidade de hackers da época. [99] (b057) EPIC – Electronic Privacy Information Center http://www.epic.org Local de centralização de recursos relacionados com a “liberdade electrónica”. Entre os tópicos abordados contam-se os que dizem respeito à privacidade na consulta de informação e navegação em web sites. [100] Genetics Home Reference http://ghr.nlm.nih.gov/handbook/basics/dna;jsessionid=B64799F0C4404FF 95ABBBF440EFED596 [101] (b057b) Glossary of Interactive Advertising Terms http://www.iab.net/resources/glossary_a.asp Conjunto de definições apresentadas pelo IAB, relativas a conceitos no âmbito da utilização de conteúdos web. Página|83 [102] (b057a) Interactive Advertising Bureau (IAB) http://www.iab.net Organização destinada a promover e orientar os esforços de empresas que trabalhem nas áreas dos conteúdos online, correio electrónico, broadcasting interactivo, TV interactivo e conteúdos wireless, tendo em vista a medição da eficácia de campanhas publicitárias interactivas. [103] (b058) International Federation of Audit Bureaux of Circulations (IFABC) http://www.ifabc.org/welcome.asp Ponto de contacto e de reunião de esforços de uma grande quantidade de organizações espalhadas por todo o mundo, que de alguma forma estão envolvidas na quantificação da circulação de periódicos e de campanhas publicitárias. Portugal está representado através da Agência Portuguesa para o Controlo de Tiragem e Circulação (disponível em http://www.apct.pt). [104] (b058a) IFABC WWW Standards http://www.ifabc.org/standards.htm Em 2001, a IFABC estabeleceu definições para um conjunto de termos relacionados com a medição de valores de utilização de várias fontes de informação disponíveis na Internet. Podem ser consultadas neste endereço. [105] (b059) Links to Vannevar Bush References http://www.ausbcomp.com/~bbott/wik/bushref.htm Informação de referência para fundamentar a existência da WWW, com base no trabalho percursor de Vannevar Bush. [106] (b059a) Nielsen / NetRatings http://www.nielsen-netratings.com/ Uma das grandes empresas de medição de tráfego e padrões de utilização da Internet, de um ponto de vista quantitativo e qualitativo (para medição da efectividade de campanhas de marketing, por exemplo). [107] (b060) Platform for Privacy Preferences Project (P3P) http://www.w3.org/P3P/ Projecto nascido no seio do World Wide Web Consortium (W3C), destinado a normalizar a forma como os utilizadores podem controlar a recolha de informação pessoal pelos web sites que visitam. Página|84 [108] (b061) Project XANADU http://www.xanadu.net/ Informação de referência sobre outro universo informativo, que poderia ter assumido um papel precursor/concorrente/substituto da WWW. [109] (b062) The Web Bug FAQ http://www.eff.org/Privacy/Marketing/web_bug.html Informação de referência sobre esta técnica de recolha de dados em páginas web. Mantém-se válida do ponto de vista técnico, embora seja relativamente antiga. [110] (b062a) Web Mining – Patricio Galeas http://www.galeas.de/webmining.html Extensa lista de recursos na área de web mining, com indicação de investigadores, projectos de investigação e software. [111] (b063) Web Searchlores http://www.fravia.com Informação aprofundada sobre o funcionamento e exploração de todo o tipo de tecnologias de pesquisa de informação na WWW. [112] (b064) WebTrends – The Fundamental of Web Analytics http://www.webtrends.com/Resources/WebAnalyticsGlossary.aspx Glossário online, mantido por esta empresa, uma das mais representativas nesta área de mercado. Página|85 Apêndice 1: Hardware e software utilizados Na realização deste trabalho foram utilizadas as seguintes configurações de hardware e software: Vários modelos diferentes de PCs, todos com arquitectura Intel e sistemas operativos Microsoft – Windows XP (com Service Pack 2) e Windows Vista. Este equipamento foi utilizado para as tarefas de edição de texto e imagem, pré-processamento de dados e programação. Tivémos a possibilidade de utilizar vários servidores do Departamento de Sistemas e Tecnologias de Informação (DSTI) da Direcção-Geral do Tribunal de Contas (DGTC), com as seguintes características: o Servidor HP Proliant DL 380, com dois processadores e 3 GB de RAM, sistema operativo Windows 2003 Enterprise Server R2, a desempenhar as funções de servidor web (http://www.tcontas.pt), utilizando para tal o software servidor web Microsoft Internet Information Server v6. o Servidor UNISYS ESR2035, com oito processadores e 3 GB de RAM, sistema operativo Windows 2003 Enterprise Server R2, a desempenhar as funções de servidor primário de base de dados, utilizando para tal o SGBD Microsoft SQL Server 2000 Enterprise. Este servidor foi utilizado em todas as operações que envolveram a recolha e processamento de dados associados ao sistema TCJure. o Servidor HP Proliant ML ML570, com quatro processadores e 9 GB de RAM (destinado a utilização futura como servidor de base de dados e de aplicações para a versão online do sistema de entrada de contas), com sistema operativo Windows 2003 Enterprise Server R2. Este servidor foi utilizado como plataforma de virtualização19, tendo 19 Fomos levados a desenvolver as tarefas de processamento de dados associadas às operações de text mining em ambiente virtual por um conjunto de constrangimentos. Por um lado, a versão do software de data mining colocada à nossa disposição, SAS 9.1, apresentou desde sempre uma limitação cronológica de utilização, que impede o seu uso em datas posteriores a Maio de 2005. Foi para nós conveniente proceder à sua utilização num ambiente controlado, no qual o calendário pudesse ser alterado livremente, sem provocar impactos indesejados no funcionamento de outras aplicações, ou na carga de meta-informação associada a todo o tipo de documentos, no que diz respeito às datas registadas de Página|86 sido utilizado para o efeito o software Vmware Player, a executar uma máquina virtual criada originalmente em ambiente Microsoft Virtual PC. Software SAS 9.1, a correr sobre Windows XP (com Service Pack 2), num ambiente virtual (criado em Microsoft Virtual PC, posteriormente convertido para o formato VMWare Workstation e executado através do VMWare Player). Aplicações do pacote Microsoft Office 2007 (Word para operações de pesquisa e substituição de texto, Excel para servir de aplicação intermédia entre fontes de dados de outras proveniências – ouputs de SAS e de SQL Server – para ordenar e organizar dados e para gerar gráficos). Estes programas também foram utilizados sobre os sistemas operativos Windows XP e Windows Vista. Software Adobe Acrobat Professional 6.0 (para a conversão de documentos PDF para o formato TXT), a correr sobre Windows XP. Microsoft SQL Server 2000 Enterprise, a correr sobre Windows 2003 Server R2 Enterprise (para a recolha de dados de sistemas de informação do TC). Linguagem de programação Just BASIC v 1.01(ambiente integrado de edição e execução), para abordar programaticamente diversas operações de processamento de documentos. Utilitários variados para automatização de tarefas: o Comandos find e grep para busca de palavras em ficheiros; o Software A.F.9 Replace some bytes 1.2 para automatizar longas sequências de pesquisa e substituição de caracteres em documentos. (cont.) criação e modificação. Como forma de tornear o impacto das alterações de data na operação regular dos PCs utilizados, optámos por criar máquinas virtuais dedicadas a esse software, em ambiente Microsoft Virtual PC e/ou VMWare Workstation. Por outro lado, a recurso a máquinas virtuais trouxe uma vantagem acrescida. O máximo de memória física disponível nos PCs a que tivemos acesso foi 1 GB. Tal quantidade veio a revelar-se limitativa para levar a cabo com êxito determinadas operações de processamento mais exigentes. A utilização de uma máquina virtual, sob o software VMWare Player, a correr num servidor com 9 GB de RAM permitiu-nos ter acesso a um ambiente de processamento virtual, que dificilmente conseguiríamos concretizar com hardware real – um PC virtual com Windows XP e 3,5 GB de RAM. A maior lentidão associada a qualquer solução de virtualização conseguiu ser contornada não só pela quantidade de memória disponibilizada para este PC virtual, como ainda pelo elevado desempenho oferecido pelo servidor utilizado. Página|87 Apêndice 2: O anúncio do primeiro programa de processamento de ficheiros de log de servidores web A 3 de Novembro de 1993, foi anunciada ao mundo a existência de um programa chamado getsites, destinado a gerar relatórios sobre a utilização de servidores web. Fonte: The World Wide Web History Project (http://1997.webhistory.org/home.html) Imagem extraída de http://1997.webhistory.org/www.lists/www-talk.1993q4/0380.html Página|88 Apêndice 3: Evolução da estrutura informática do web site do Tribunal de Contas O web site do Tribunal de Contas já passou por servidores de capacidade variável, tendo sempre em conta não só as necessidades imediatas, como as previsões de crescimento futuro. Entre 1998 e 2000: um PC Unisys Aquanta DS com as seguintes características: 1 processador Intel Pentium II a 200 MHz. 128 MB de memória RAM. 1 disco rígido de 4 GB. Sistema operativo Microsoft Windows NT 4. Software servidor web Microsoft Internet Information Server 4. Entre 2000 e 2001: Um PC HP Vectra VL com as seguintes características: 1 processador Intel Pentium III a 500 MHz. 256 MB de memória RAM. 2 discos rígidos de 6 GB. Sistema operativo Microsoft Windows NT 4. Software servidor web Microsoft Internet Information Server 4. Entre 2001 e 2004: um servidor Unisys Aquanta ES2044, com as seguintes características: 4 processadores Intel Pentium III Xeon a 733 MHz 3 GB de memória. Página|89 6 discos rígidos de 9 GB em configuração RAID, divididos em 2 segmentos (2 discos em RAID 0, para o sistema operativo, SQL, swap e logs, 4 discos em RAID 5, para o web site e as bases de dados). Sistema operativo Windows 2000 Advanced Server, com Service Pack 4. Software servidor web Internet Information Server 5. Software servidor de base de dados SQL Server 2000 Enterprise Edition. De 2004 em diante: um servidor HP Proliant DL 380, com as seguintes características: 2 processadores Intel Xeon a 3.2 GHz 3 GB de memória. 4 discos rígidos de 36,4 GB em configuração RAID, configurados como um único disco lógico de 104 GB em RAID 5. Sobre ele foram configuradas quatro unidades para sistema operativo, área de swap, logs, web site e bases de dados. Sistema operativo Microsoft Windows 2003 Enterprise Edition R2. Software servidor web Microsoft Internet Information Server 6. Software servidor de base de dados Microsoft SQL Server 2000 Enterprise Edition. Página|90 Apêndice 4: Listagens em Basic Listagem 1: Programa utilizado para desdobrar um conjunto específico de termos do thesaurus do sistema TCJure, com vista a determinar para cada um qual o seu Top Term – logo, qual o seu encabeçamento em termos de grande área temática. ' ' Processamento do Thesaurus associado ao sistema TCJure ' Desdobramento de descritores: para cada um, indicar o respectivo TT '(seguindo a cadeia de relações) ' '----------------------------------------------------------------------------' ' Definição de arrays ' dim tt$(35,2) dim relacoes(6400,3) dim descritores$(8560,3) dim idTT$(2) dim descritoresTT$(8560,2) dim docDesc$(600,3) ' ' carrega o array de Top Terms ' tt$(0,0) = "Actividade Política" tt$(0,1) = str$(15514) tt$(1,0) = "Direito" tt$(1,1) = str$(15520) tt$(2,0) = "Economia" tt$(2,1) = str$(15539) tt$(3,0) = "Educação" tt$(3,1) = str$(15553) tt$(4,0) = "Empresa e concorrência" tt$(4,1) = str$(15559) tt$(5,0) = "Entidade reguladora" tt$(5,1) = str$(15565) tt$(6,0) = "Defesa" tt$(6,1) = str$(15566) tt$(7,0) = "Finanças (Direito Financeiro)" tt$(7,1) = str$(15567) tt$(8,0) = "Indústria e energia" tt$(8,1) = str$(15573) tt$(9,0) = "Organizações internacionais" tt$(9,1) = str$(15589) tt$(10,0) = "Política Internacional" tt$(10,1) = str$(15594) tt$(11,0) = "Administração interna" tt$(11,1) = str$(15599) tt$(12,0) = "Questões sociais" tt$(12,1) = str$(15600) tt$(13,0) = "Trabalho. Emprego" tt$(13,1) = str$(15614) tt$(14,0) = "Transportes e comunicações" tt$(14,1) = str$(15618) tt$(15,0) = "Tribunal (organização judiciária)" tt$(15,1) = str$(15624) Página|91 tt$(16,0) = "Outros" tt$(16,1) = str$(15636) tt$(17,0) = "Administração Pública" tt$(17,1) = str$(15637) tt$(18,0) = "Agricultura, pecuária e pesca" tt$(18,1) = str$(15650) tt$(19,0) = "Agro-Alimentar" tt$(19,1) = str$(15657) tt$(20,0) = "Ambiente" tt$(20,1) = str$(15658) tt$(21,0) = "Associação e Fundação privada" tt$(21,1) = str$(15663) tt$(22,0) = "Ciência e tecnologia" tt$(22,1) = str$(15665) tt$(23,0) = "Auxiliar de informação" tt$(23,1) = str$(15803) tt$(24,0) = "Cargos" tt$(24,1) = str$(15804) tt$(25,0) = "Empresas" tt$(25,1) = str$(15805) tt$(26,0) = "Geográficos" tt$(26,1) = str$(15806) tt$(27,0) = "Organismos" tt$(27,1) = str$(15807) tt$(28,0) = "Intervenções operacionais" tt$(28,1) = str$(15808) tt$(29,0) = "Programas" tt$(29,1) = str$(15809) tt$(30,0) = "Regulamentos" tt$(30,1) = str$(15810) tt$(31,0) = "Sistemas" tt$(31,1) = str$(15811) ' ' carrega o array de relacoes ' - 1o elemento: termo ' - 2o elemento: termo ' - 3o elemento: relacao ' open "c:\temp\todas_as_relacoes.txt" for input as #f for i = 0 to 6348 line input #f, relacoes(i,0) line input #f, relacoes(i,1) line input #f, relacoes(i,2) next i close #f ' ' carrega o array de descritores ' - 1o elemento: descritor ' - 2o elemento: código do descritor ' - 3o elemento: 0 se não for TT, 1 se for ' open "c:\temp\todos_os_descritores_com_tt.txt" for input as #f for i = 0 to 8553 line input #f, descritores$(i,0) line input #f, descritores$(i,1) line input #f, descritores$(i,2) next i close #f Página|92 ' ' carrega o array de descritores de cada documento ' - 1o elemento: nome do ficheiro pdf ' - 2o elemento: um dos descritores associados ' open "c:\temp\100_documentos_do_website.txt" for input as #f for i = 0 to 574 line input #f, docDesc$(i,0) line input #f, docDesc$(i,1) next i ' ' ciclo de pesquisa de TopTerms para todos os descritores do thesaurus ' carrega o array descritoresTT$ com pares descritor/top term respectivo ' for i= 0 to 8553 topT = NextInChain(val(descritores$(i,1))) if topT > 0 then print i,descritores$(i,0), " --------> ", idTT$(0) descritoresTT$(i,0) = descritores$(i,0) descritoresTT$(i,1) = idTT$(0) end if next i ' ' percorre a lista de descritores dos documentos e procura o respectivo TT ' Poderia ficar mais fácil se em vez do descritor por extenso ' tivesse já o seu código ' for i = 0 to 574 for j = 0 to 8553 if descritoresTT$(j,0) = docDesc$(i,1) then docDesc$(i,2) = descritoresTT$(j,1) end if next j print docDesc$(i,0), docDesc$(i,1), docDesc$(i,2) next i ' '----------------------------------------------------------------------------' ' processamento interno de relações ' function NextInChain(termo) r = 0 if isTT(termo) < 1 then while r <= 6348 if termo = relacoes(r,1) then if relacoes(r,2) = 2 then p = relacoes(r,0) v = NextInChain(p) end if end if r = r+1 wend rvalue = v else rvalue = termo end if NextInChain = rvalue end function ' Página|93 ' determina se um termo é TT ou não ' function isTT(t) ' cicloTT = 0 idTT$(0) = "" idTT$(1) = "" ' while cicloTT < 32 if val(tt$(cicloTT,1)) = t then ' idTT$(0) = tt$(cicloTT,0) idTT$(1) = tt$(cicloTT,1) ' rvalueTT = 1 exit while else rvalueTT = 0 end if cicloTT = cicloTT+1 wend isTT = rvalueTT end function Página|94 Apêndice 5: Macro-comandos de Word Listagem 1: Separação do conteúdo de um texto por frases, sendo “frase” definida da seguinte maneira: 1. Um conjunto de palavras terminado pelo par de caracteres CR+LF (carriage return + line feed); 2. Um conjunto de palavras terminado pelo par de caracteres “. ” (ponto final + espaço). Este segmento de código remove múltiplas repetições do caracter “.” (ponto final), por se tratar de um conteúdo que repetidamente ocorre nos documentos processados. São também removidas as sequências de múltiplos pares CR+LF (correspondentes a linhas vazias), sendo esta última operação repetida várias vezes. Finalmente, o texto do documento é convertido para letras minúsculas (como forma de facilitar a pesquisa posterior de palavras-chave) e o documento é gravado. Sub pontos_e_linhas() ' ' pontos_e_linhas Macro ' ' Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = ".." .Replacement.Text = "" .Forward = True .Wrap = wdFindContinue .Format = False .MatchCase = False .MatchWholeWord = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = ". " .Replacement.Text = "^p" .Forward = True .Wrap = wdFindContinue .Format = False .MatchCase = False Página|95 .MatchWholeWord = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = "^p^p" .Replacement.Text = "^p" .Forward = True .Wrap = wdFindContinue .Format = False .MatchCase = False .MatchWholeWord = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.Execute Replace:=wdReplaceAll Selection.WholeStory Selection.Range.Case = wdLowerCase ActiveDocument.Save End Sub Página|96