Uma proposta de modelo de representação do conhecimento contido no texto de artigos científicos publicados na web em formato legível por programas [*] A proposed knowledge representation model to the knowledge embedded in the text of scientifc articles web published in program readable format por Carlos H. Marcondes, Marília A. R. Mendonça e Luciana R. Malheiros Resumo: São reportados resultados de pesquisa com o objetivo de propor um modelo de publicação eletrônica de artigos científicos como texto, legível por pessoas, e simultaneamente, em formato legível por programas. Este conhecimento é identificado com os elementos de metodologia científica do artigo, em especial com a hipótese, como o elemento que estabelece novas relações entre fenômenos. No modelo proposto a estrutura de conhecimento contido em artigos científicos é explicitada e registrado em XML. O conhecimento registrado desta forma viabiliza seu processamento por programas inteligentes. Embora publicados na Web periódicos eletrônicos são ainda calcados no modelo de publicações em papel e não utilizam todo o potencial do meio eletrônico. O modelo proposto pretende ampliar estas potencialidades, viabilizando recuperação semântica e validação dos novos conhecimentos reportados pelos artigos. A pesquisa analisa um conjunto de artigos de periódicos científicos eletrônicos com o objetivo de validar o modelo, verificando em que medida os artigos se enquadram nele. Palavras-chave: Publicações eletrônicas; Metodológica científica; Comunicação científica; Representação do conhecimento; Ontologias. Abstract: This article reports results of a research with the aim of investigate the possibilities of electronic publishing journal articles both as text for human reading and in machine readable format recording the new knowledge contained in the article. This knowledge is identified with the scientific methodology elements such as problem, methodology, hypotheses, results, and conclusions. A model integrating all those elements is proposed which makes explicit and records in XML the article contribution, new knowledge and scientific novelty. The use of XML language to represent this knowledge enables its processing by intelligent software agents Despite the fact that electronic publishing is a common activity to scholars electronic journals are still based in the print model and do not take full advantage of the facilities offered by the Web environment. The proposed model aims to extend these facilities enabling semantic retrieval and validation of the knowledge contained in articles. The research analyses a set of electronic journal articles with the aim of validate the model, verifying their compliance with the model. Keywords: Electronic publishing; Scientific methodology; Scientific communication; Knowledge representation; Ontologies. 1. Introdução Publicações científicas na Web se tornaram uma realidade. A maior parte dos periódicos têm hoje versões eletrônicas. Artigos científicos são o grande veiculo através do qual são disseminados os novos conhecimentos. Hoje existem dois obstáculos para o acesso e utilização em larga escala deste conhecimento: o grande número de publicações, a chamada "explosão informacional", fenômeno fundador da Ciência da Informação, que atinge mais alto grau com o surgimento da Web e das publicações eletrônicas; e o fato desse conhecimento estar inserido no texto dos artigos de forma não estruturada, legível somente por pessoas. De Roure (2001), ao propor uma antevisão do futuro ambiente de trabalho do cientista, chamado de E-Science, comenta, ao se referir ao componente de conhecimento deste ambiente: "knowledge acquisition set the challenge of getting hold of the information that is around, and turning it into knowledge by making it usable. This might involve for instance, making tacit knowledge explicit, identifying gaps in the knowledge already held, acquiring and integrating knowledge from multiple sources (e.g. different experts, or distributed sources on the web), or acquiring knowledge from unstructured media (e.g. natural language or diagrams" (DE ROURE, 2001, p. 56.) "Examples are the integration of authoring and reviewing processes in on-line documents. Such environments allow structured discussions of the evolution and development of an idea, paper or concept. The structured discussion is another annotation that can be held in perpetuity. This means that the reason for a position in a paper or design choice is linked to the object of discussion itself" (DE ROURE, 2001, p. 59.) A Comunicação Científica (MEADOWS, 1999) tem sido o mecanismo através do qual novos conhecimentos são incorporados a uma área de conhecimento, garantindo assim o chamado "conhecimento público" (ZIMAN, 1979). Mesmo hoje, utilizando as facilidades da tecnologia da informação para prover acesso ao texto completo de artigos, a Comunicação Científica depende de um longo e demorado processo social, onde textos científicos, após publicados, são lidos por pesquisadores, avaliados, criticados e citados, passando pelos chamados filtros de qualidade, até que o novo conhecimento possa enfim ser incorporado ao corpo da Ciência. Apesar de desenvolvimentos importantes na Análise Documentária (SMIT, 1987), seu objetivo continua sendo o de prover acesso. Existe uma divisão implícita de trabalho: cabe à Análise de Documentária indexar para prover acesso, enquanto, ao usuário, um pesquisador/leitor, cabe o processamento do conteúdo do texto em termos de sua validade, coerência e confiabilidade para a Ciência. O repositório deste novo conhecimento é o artigo científico. Apesar de todas as possibilidades de publicação no ambiente Web, periódicos eletrônicos são, ainda hoje, calcadas no modelo impresso, não aproveitando as potencialidades do ambiente Web. Miranda e Simeão (2002) em pesquisa sobre periódicos eletrônicos, destacam o pouco uso de características típicas do ambiente Web como interatividade, hipertextualidade, multimediação nos sites de acesso de distribuidores internacionais de periódicos eletrônicos como Elsevier, Galé, Ovid, Springer, ProQuest, SciELO, etc.. Desde o advento do computador pesquisas tem sido desenvolvidas no sentido de utiliza-lo como extensão das capacidades cognitivas humanas (LÉVY, 1993). A passagem de documentos em papel para documentos digitais, constitui-se numa mudança de qualidade, cujas conseqüências ainda não estão totalmente claras. O documento digital tem a possibilidade de se constituir numa nova e poderosa ferramenta cognitiva, em especial no contexto do projeto Web Semântica (BERNERS-LEE, 2001). A Ciência da Informação pode avançar mais que simplesmente facilitar o acesso a textos científicos? Artigos científicos têm como objetivo serem portadores de conhecimento novo. Qual é a forma desse conhecimento? Como identifica-lo nos textos de artigos científicos? Como extraí-lo e formaliza-lo? Como agenciar programas para ajudar a processar este conhecimento? Estas questões constituem nossa agenda de pesquisa. Como é discutido na Filosofia, conhecimento consiste em estabelecer relações entre fenômenos da realidade. Os manuais de metodologia científica estabelecem (MATTAR NETO, 2002), (ALVESMAZOTTI, 2002), (MARCONI & LAKATOS, 2004) que, entre os elementos de metodologia científica, em especial é a hipótese aquele que encerra uma relação. Também na área de Ciência da Computação (SOWA, 2000) uma base de conhecimento é formada por fatos e por regras de produção. Estas consistem em relações entre fatos ou fenômenos, representada sob a forma de cláusulas em lógica de primeira ordem, do tipo Se (fato ou fenômeno) então (fato ou fenômeno). Enquanto para a Ciência da Informação (BARRETO, 1999), conhecimento é um processo ocorrendo na mente de pessoas, a Ciência da Computação se preocupa com o aspecto representacional do conhecimento para que ele possa ser processado por programas; é nessa acepção que representação do conhecimento é utilizado nesta pesquisa. A partir destas colocações, pode-se conjecturar se o artigo científico publicado na Web, que é construído e estruturado dentro de um formalismo estrito, especialmente nas Ciências da Saúde, não poderia evoluir no sentido de se constituir num objeto digital que incluísse, além de suas partes textuais, o conhecimento novo representado em meio legível por computador? Seria possível, através um editor de textos científicos, como subproduto do processo de editar/publicar eletronicamente um artigo, extrair também esse conhecimento e representá-lo em formato legível por programas, em linguagem XML[1]? Carr (2004) afirma que "in order to allow documents to unambiguously interpreted by both human readers and software agents, knowledge should be an explicit part of document representation". Assim tornar-se-ia possível agenciar programas agentes de "software"[2] para apoiar pesquisadores em tarefas como validar esse conhecimento, coteja-lo com o conhecimento já existente, relaciona-lo com ontologias disponíveis na Web, em especial na área de Ciências da Saúde, como UMLS - Unified Medical Language System, <http://www.nlm.nih.gov/pubs/factsheet/umls.html>, verificar sua coerência, seu grau de "novidade" ou sua contribuição para determinada área do conhecimento, cotejá-lo e recupera-lo semanticamente. Esta pesquisa parte portanto das seguintes hipóteses: * o conhecimento científico consiste em estabelecer (novas) relações entre fenômenos; * artigos científicos possuem, além da estrutura textual, chamada aqui de "estrutura superficial", uma "estrutura profunda" ou "estrutura de conhecimento", que pode ser extraída do texto e representada em formato legível por programas. Para viabilizar e fornecer subsídios para a construção deste editor de textos científicos, que concretize esta proposta, deve ser desenvolvido um modelo do conhecimento contido no texto de artigos. Propor e discutir tal modelo é o objetivo desse trabalho. Um modelo inicial é proposto em Marcondes (2005a, b e c). Esta pesquisa analisa artigos de periódicos eletrônicos da área de Ciências da Saúde a partir desse modelo, para validá-lo e aperfeiçoá-lo. A seguir as bases conceituais que embasaram o modelo proposto são apresentadas e discutidas; a seguir o modelo é exposto e discutido; finalmente, são apresentadas algumas conclusões e levantadas novas questões suscitadas pela pesquisa. 2. Bases conceituais e teóricas 2.1 Conhecimento como relação Em que consiste o conhecimento? Essa é uma discussão que vem assumindo uma centralidade cada na Ciência da Informação, tanto quanto em outras áreas do conhecimento. Quais as possibilidades e quais as formas de termos acesso a ele? Existe um conhecimento público, intersubjetivo, ou, ao contrário, o conhecimento é um processo individual? Estas são perguntas que há muito tempo a Filosofia vem se fazendo. A trajetória histórica da Filosofia, desde os gregos, segundo Michel Dummett, citado por Marcondes (2004, p. 9), abrange o enfoque a três questões: a questão ontológica - o ser, seus componentes fundamentais, seus estados, com os pré-socráticos; a questão do conhecimento - suas condições e possibilidades - desde o estabelecimento do método científico com Descartes, Bacon e Galileu, passando pelos empiristas com Locke, Berkley e Hume, até a síntese formulada por Kant; evoluindo mais recentemente, a partir de fins do século XIX e início do século XX, quando a humanidade passa pelo impacto crescente da Ciência, para a questão da linguagem como viabilizadora do conhecimento - a Filosofia da Linguagem. Mas a preocupação com a correção da linguagem que levaria ao conhecimento científico já é uma preocupação da Ciência, antes da Filosofia da Linguagem, com o Discurso do Método, de Descartes (2005) e com o Novo Organum, de Bacon (1973). Esta preocupação se consubstanciou, ao longo da evolução da Ciência desde o século XVI, no chamado Método Científico. "As ciências utilizam da razão (ou pensamento) para estudar seus objetos. O pensamento pode ser definido como a capacidade de estabelecer relações por meio do processo de unir ou separar conceitos e objetos: a realidade é composta de complexos, e esses complexos tem ligações com algumas coisas e não com outras. Pensar é justamente o processo de descobrir ou realizar associações e disjunções, ou seja, de traçar relacionamentos. Como o significado de um complexo encontra-se nos relacionamentos que ele estabelece com outros complexos, cada relacionamento descoberto ou inventado é um significado, e grandes ordens de sistemas de relacionamentos constituem grandes corpos de significados." (Mattar Neto, 2002, p. 33). Textos científicos, em especial, os artigos científicos, têm como objetivo serem portadores de conhecimento novo. Como é desde há muito discutido na Filosofia, desde Aristóteles, passando por Kant - para quem que a Relação é um dos seus quatro conceitos puros do entendimento ou categorias, (KANT, 2001, p. 70) -, até moderna Lógica Formal conhecimento consiste em estabelecer relações entre fenômenos da realidade. Como os manuais de metodologia científica estabelecem, entre os elementos de metodologia científica, em especial é a hipótese o componente que encerra uma relação. Em Ciência, o grau certeza desta relação vai diferenciar uma hipótese, que tem ainda um caráter conjectural, de uma lei. "A hipótese poderá ser simbolizada de duas formas: "Se x, então y, sob as condições r e s", ou "Se x1, x2 e x3, então y" (MARCONI & LAKATOS, 2004, p.141), ou seja, dada certa condição X seguese como conseqüência Y. Ou então: "As leis científicas são enunciados gerais que indicam relações entre dois ou mais fatores"... "em todos os casos em que se realizam as condições A, serão realizadas as condições B" (Alves-Mazotti, 2002, p. 11). Popper (2004, p. 27) afirma que "Um cientista, seja teórico ou experimental, formula enunciados ou sistemas de enunciados e verifica-os um a um. No campo das ciências empíricas, ele formula hipóteses ou sistemas de teorias, e submete-os a teste, confrontando-os com a experiência". Tanto um enunciado enquanto relação entre conceitos, quanto sistema, trazem implícita a idéia de relação. Outro estudioso da forma dos enunciados científicos foi Karl Hempel. Hempel afirma que a Ciência, além de relacionar fenômenos, busca explicá-los, relacionando fenômenos com sua explicação. Segundo este autor "a scientific explanation consist of two major "constituints": an explanandum, a sentence "describing the phenomenon to be explained" and an explanans, "the class of those sentences which are adduced to account for the phenomenon" (HEMPEL, 1965, p.247). Neste sentido, as hipóteses, enquanto propostas de relações entre fenômenos, têm importância decisiva enquanto manifestação do conhecimento novo em Ciência. Marconi e Lakatos (2004, p. 141) expressam assim este fato: "podemos considerar a hipótese como um enunciado geral de relações entre variáveis (fatos,fenômenos)". A manifestação concreta deste novo conhecimento, nos marcos institucionais da Ciência, é o artigo científico, especificamente, seu texto. É em torno da hipótese que se orienta e se organiza toda a pesquisa científica, e, conforme sugerido aqui, em torno dela que se organiza toda a argumentação no texto de um artigo científico: "não é possível dar qualquer passo adiante, em uma pesquisa, se, depois de enunciar a dificuldade (problema) que originou a pesquisa, não iniciarmos com uma explicação para ela - enquanto uma hipótese -, pois a função da hipótese é orientar nossa busca de ordem entre os fatos" (MARCONI & LAKATOS, 2004, p.143). Todo artigo ou propõe enquanto um problema, ou desenvolve e quantifica de forma original, ou recontextualiza uma hipótese já estabelecida por outro autor. Sob alguma destas formas, uma hipótese (ou relação entre fenômenos) deve aparecer implicitamente no texto de artigos científicos. 2.2 A Ciência da Informação e a análise de textos de artigos científicos A Ciência da Informação tem uma dívida muito forte com a Filosofia da Linguagem. Este movimento filosófico iniciado em fins do século XIX e início do século XX, estudava a linguagem como forma de acesso ao conhecimento, daí a sua ênfase em aperfeiçoar a linguagem como instrumento de acesso ao conhecimento, sua estrutura lógica (Frege, Carnap Wittgestein, Russel, Hempel). A Ciência da Informação herda da Filosofia da Linguagem a sua ênfase na análise do texto escrito como da manifestação lingüística capaz de conter ou veicular o conhecimento. Se textos de artigos científicos podem conter conhecimento, o movimento da Ciência da Informação é prover acesso aos mesmos. A Ciência da Informação tem como um dos problemas sobre o qual se debruça desde os seus primórdios, a questão de otimizar a Comunicação Científica. No entanto o processo de análise/representação temática empreendida pela Ciência da Informação visa somente à sua recuperação em sistemas automatizados e à identificação superficial de seu conteúdo, mais especificamente sobre o quê é o texto, seu "aboutness"[3]; este "sobre o quê" é expresso nas linguagens de representação temática por descritores que não mantém nenhuma relação semântica entre si. O trabalho de identificar o conhecimento contido no texto, as relações entre fenômenos, sua validade, sua coerência, sua contribuição para a Ciência, fica a cargo do leitor, o cientista, para quem todos os esforços dos sistemas de informação bibliográficos têm sido, no máximo, prover acesso. Na literatura brasileira de Ciência da Informação também surgem trabalhos importantes de análise de textos para fins de documentação. Estes trabalhos, entre os quais os mais significativos são a produção do Grupo Temma, (SMIT, 1987) formado por pesquisadores da USP, incorpora à análise documentária o aporte da Semiologia e da Lingüística Estrutural de Saussure e Fillmore. Mais especificamente, o trabalho de Kobashi (1996), incorpora à análise documentária os aportes de Gardin (2001), sobre o raciocínio lógico contido em textos científicos e de Van Dijk (KINTSH, 1978), sobre macro-estruturas textuais. No entanto o objetivo da análise documentária de textos é ainda sua indexação, elaboração de resumos, com vistas a sua recuperação. No que diz respeito ao texto de artigos científicos, pesquisas na área de Ciência da Informação logo perceberam que a estrutura altamente formalizada de artigos científicos poderia ser relacionada com seu conteúdo e, no mínimo, otimizar o acesso a este, num ambiente de sistemas automatizados de recuperação de informações. Os trabalhos de Kando (1997, 1999), por exemplo, propõe uma discriminação bastante profunda e exaustiva da estrutura tradicional do texto de um artigo científico - Introdução, Material e Métodos, Discussão e Conclusões - (chamada de primeiro nível) em mais dois níveis de detalhe, onde os componentes de um artigo científico, seus dados, a argumentação do autor, etc. são identificados. O autor utiliza esta divisão da estrutura do texto de artigos e a marcação destes elementos para otimizar a recuperação mais precisa do conteúdo dos artigos. Nestes trabalhos, como nos de Kando, a estrutura dos textos de artigos científicos é altamente analisada, decomposta em seus componentes, para que o "aboutness" do texto possa ser extraído pelo documentalista com mais precisão, servir para melhor indexar o texto com vistas a sua recuperação; a identificação do conhecimento contido no texto do artigo, sua avaliação e integração ao "corpus" de conhecimento de uma determinada área, todas estas operações ficam a cargo do leitor. Estes trabalhos não ultrapassam a proposta histórica da Ciência da Informação, de prover acesso a documentos para pesquisadores. 2.3 A Ciência da Informação e a Ciência da Computação É histórica a aliança entre a Ciência da Informação e a Ciência da Computação para o tratamento e recuperação de informações utilizando o computador. Desde os trabalhos pioneiros de Luhn (1968) ainda na década de 50 com os índices KWIC, passando por de Salton (1983) com a experiência do sistema SMART e com a indexação vetorial, que vários pesquisadores de ambas as áreas têm se engajado em pesquisas sobre recuperação de informações. Na área de Inteligência Artificial e Sistemas Especialistas uma base de conhecimento é formada por fatos e pelas chamadas "regras de produção". Estas não são mais que relações entre fatos ou fenômenos, na forma de cláusulas binárias Se (fato ou fenômeno) então (fato ou fenômeno). Esforço significativo de pesquisa na área de Sistemas Especialistas consiste em formalizar o processo de aquisição de conhecimento, que consiste em formalizar o conhecimento de um especialista humano, representando-o por exemplo sob a forma de regras de produção. A Ciência da Computação se preocupa com o aspecto representacional do conhecimento, de modo a tornar viável seu processamento por programas. Várias outras pesquisa, na área de Ciência da Computação, avançam diferentes propostas na linha de extração de texto ("text extraction") para visando categorização automática de documentos (LANGER, 2004) e criação automática de resumos (PAICE, 1993), (TEUFFEL, 1998). No entanto, devido às limitações dos modelos de análise de linguagem natural, a opção de extração de textos, mais pragmática embora mais limitada, pois não chega a se constituir em processamento de linguagem natural, tem se mostrado resultados práticos interessantes. No entanto, esta alternativa para o problema proposto não leva em conta nem as possibilidade oferecidas por um modelo da estrutura de conhecimento contida nos textos de artigos científicos nem as oferecidas pela interação com o autor/pesquisador num ambiente de autoria inteligente, para guiar o processamento e extrair o conhecimento de textos no momento da sua produção/edição/publicação em ambiente Web. Se através de um ambiente de autoria, um editor de textos científicos, for possível, como subproduto do processo de editar/publicar eletronicamente um artigo, capturar também a relação estabelecida no artigo e representa-la em formato legível por programas, utilizando-se por exemplo a linguagem XML, torna-se possível agenciar programas, os agentes inteligentes, para apoiar o pesquisador no seu trabalho de validar o conhecimento contido em artigos, coteja-lo com o conhecimento já existente, verificar sua coerência, verificar seu grau de "novidade" ou sua contribuição para determinada área do conhecimento, compará-lo e recupera-lo semanticamente com muito mais precisão. 3. Modelo Proposto O resultado dessa pesquisa é a proposta de um modelo. Um ponto de partida fundamental para o desenvolvimento de um ambiente Web de autoria e recuperação de informações como o descrito anteriormente é o estabelecimento de um modelo para este processo. Um tal modelo inicial foi delineado em Marcondes (2005a) com base na literatura de comunicação científica, publicações eletrônicas, Web Semântica, Epistemologia e Filosofia da Ciência e Ciência da Computação. O modelo se desdobra em três níveis: primeiro, um ambiente Web de publicações eletrônicas e recuperação de informações no qual pesquisadores editam e publicam seus artigos segundo o esquema proposto possibilitando agenciar programas agentes inteligentes para validar o conhecimento contido nos artigos, verificar sua consistência, identificar indícios de novidade científica e recuperar de forma semanticamente mais rica o conhecimento contido nestes artigos. Este nível do modelo esta ilustrado na Figura 1; deve permitir ao pesquisador simultaneamente ao editar/publicar seu artigo, capturar os elementos do raciocínio científico de modo a permitir registrálos e identificá-los individualmente. Segundo, modelo de tipos de raciocínio em artigos científicos e consequentemente a estrutura dos componentes lógicos do artigo como Problema, Hipóteses, Resultados, Conclusões; e terceiro, modelo de representação desses componentes lógicos em formato legível por programas, em linguagem XML. A pesquisa relativa ao primeiro nível do modelo, o ambiente Web para editar/publicar artigos não será desenvolvida neste momento. Este artigo trata especificamente da validação do modelo de tipos de raciocínio e estrutura lógica dos componentes do artigo, os níveis 2 e 3; esta validação consiste em analisar e processar manualmente o que faria um editor científico que permitisse publicação e registro simultâneos de textos de artigos e do conhecimento aí contido em formato legível por programas. Espera-se que a análise empírica de artigos reais e a sistematização dos resultados dessa análise possa fornecer subsídios para reformulação e aperfeiçoamento do modelo. A seguir o modelo é descrito e são apresentados os resultados da análise. Os artigos analisados foram escolhidos na área de Ciências da Saúde devido ao alto grau de formalização e padronização da sua documentação. A pesquisa analisou 20 artigos da versão eletrônica do periódico Memórias do Instituto Oswaldo Cruz, <http://www.scielo.br/revistas/mioc>, e outros 20 do periódico Brazilian Journal of Medical and Biological Research, <http://www.scielo.br/revistas/bjmbr>. Artigos científicos, em especial nessa área, tem uma estrutura altamente formalizada, a assim chamada IMRAD, "Introduction, Methods, Results, and Discussion", cujo objetivo é, literalmente, refletir o método científico. A análise de um artigo inicia-se por classifica-lo com base no modelo de raciocínio empregado. Esta classificação é baseado em Hutchins (1997) e Gross (1990) e em textos de e sobre Pierce (HOFFMAN.1997), um dos maiores estudiosos de Lógica. Baseado nestas propostas considerou-se a seguinte classificação: artigos podem ser teóricos ou experimentais; artigos teóricos seriam os que propõe novas hipóteses; artigos experimentais testam experimentalmente hipóteses já formuladas ou formulam e testam experimentalmente uma nova hipótese; estes podem usar os métodos de raciocínio dedutivo (no primeiro caso) ou indutivo (no segundo). Artigos teóricos se caracterizam por discutirem questões de maior abrangência. Analisam criticamente diversas hipóteses anteriores, mostrando suas fragilidades. Estes artigos são os que têm mais potencial de apresentarem contribuições para a Ciência, já que discutem ou questionam o paradigma vigente (OLIVA, 1994). Sua contribuição é a formulação de uma nova hipótese, indicando um novo caminho de pesquisa. O tipo de raciocínio empregado é o abdutivo ou seja, o "insight" e a formulação de novas hipóteses. Artigosteóricos-abdutivos não trazem resultados experimentais. Artigos experimentais se dividem em dedutivos e indutivos. Ambos se caracterizam por discutirem questões num escopo de abrangência limitado. Não discutem os rumos de uma teoria científica, mas se limitam a confirma-la ou aperfeiçoa-la. Sempre trazem resultados experimentais. A característica dos artigos que utilizam o raciocínio dedutivo é trabalharem a partir de hipóteses já formuladas anteriormente, cujas referências vêem citadas, aplicando-as a um contexto específico. Os artigos que utilizam o raciocínio indutivo se caracterizam por formularem e testarem uma proposta com um certo grau de originalidade, dentro do paradigma científico vigente. Os componentes identificados, que formam o modelo de análise, são os seguintes; um artigo científico se organiza a partir de um PROBLEMA; um PROBLEMA expressa uma carência, insatisfação ou deficiência conceitual com o atual estado de coisas num domínio de conhecimento. A partir do PROBLEMA, este é inserido numa relação que pode resolver a carência ou deficiência; esta relação é a HIPÓTESE. Uma HIPÓTESE enuncia relações entre fenômenos. Uma HIPÓTESE se desdobra em ANTECEDENTE, TIPO-RELAÇÃO e CONSEQUENTE. Um autor num artigo pode formular uma hipótese original - HIPÓTESE(o) ou tomar a hipótese anterior HIPÓTESE(a) - de outros autores; neste caso uma ou mais citações referentes à HIPÓTESE(a) CITAÇÕES(h) - são feitas. Um autor também pode analisar várias HIPÓTESE(a) para mostrar que elas são insatisfatórias como soluções para o PROBLEMA e formular sua HIPÓTESE(o). Um artigo teórico-abdutivo se justifica simplesmente por propor uma nova HIPÓTESE(o). A hipótese, num artigo experimental, deve ter uma MANIFESTAÇÃO concreta observável empiricamente. Em um artigo científico, significa ter RESULTADOS observados segundo determinada MEDIDA, em determinado CONTEXTO segundo determinada METODOLOGIA. Este CONTEXTO onde os fenômenos relacionados na HIPÓTESE são observados pode ser desdobrado em AMBIENTE - comunidade ou instituição onde o fenômeno ocorre -, ESPAÇO - o lugar onde o fenômeno ocorre -, TEMPO ou época em que o fenômeno ocorre e GRUPO de indivíduos onde o fenômeno ocorre. O desenvolvimento do raciocínio num artigo teórico-abdutivo segue o seguinte padrão: * dado um PROBLEMA, com os seguintes aspectos e dados * os seguintes Autores/HIPÓTESES anteriores para sua solução não são satisfatórias por causa das seguintes CRÍTICAS, * diante disso, propomos a seguinte HIPÓTESE original O desenvolvimento do raciocínio num artigo experimental-dedutivo segue o seguinte padrão: * dado um PROBLEMA, com os seguintes aspectos e dados, * os seguinte Autores formularam HIPÓTESES anteriores para sua solução, * diante disso, escolhemos a seguinte (uma das HIPÓTESE anteriores). * este fenômeno descrito na HIPÓTESE tem a seguinte MANIFESTAÇÃO, * testamos, ampliamos ou re-contextualizamos esta HIPÓTESE no seguinte CONTEXTO e estes testes apresentaram os seguintes RESULTADOS. O desenvolvimento do raciocínio num artigo experimental indutivo segue o seguinte padrão: * dado um PROBLEMA, com os seguintes aspectos e dados, * (uma solução para este PROBLEMA pode se basear na seguinte HIPÓTESE), * desenvolvemos a seguinte solução baseada nessa HIPÓTESE, que teria a seguinte MANIFESTAÇÃO empírica, * testamos esta MANIFESTAÇÃO e estes testes apresentaram os seguintes RESULTADOS. Depois de classificados quanto ao tipo de raciocínio científico, artigos são analisador, identificadose os componentes descritos anteriormente. Numa segunda fase de análise, os componentes da HIPÓTESE são relacionados ao "conhecimento público" de uma determinada área, identificando-os com termos contidos numa base de conhecimento disponível na Web, no caso a UMLS (para os ANTECEDENTE e CONSEQUENTE) e UMLS Semantic Network (para TIPO DE RELAÇÃO). Um exemplo de artigo analisando segundo este modelo pode ser visto na Figura 2. A representação do conhecimento nele contido em linguagem XML seria a seguinte: <?xml version="1.0" encoding="ISO8859-1" ?> <estrutura_de_conhecimento art-id="352387"> <fato></fato> <problema><!-- Pergunta ou Questao--> tipos de HPV prevalentes no grupo testado? </problema> <relacao metodo="dedutivo"> <hipotese tipo="anterior"> <citacao>(Lorincz et al. 1992)</citacao> <citacao>(IARC 1995)</citacao> <citacao>(Muñoz 2000)</citacao> <citacao>(Sherman et al. 1994). </citacao> <antecedente>HPV (Papillomavirus Humano) </antecedente> <tiporelacao>causa ("causes"(T147)/UMLS SN)</tiporelacao> <consequente>lesoes pre-neoplasicas e neoplasicas (Infecções Tumorais por Vírus, Neoplasias do Colo) </consequente> </hipotese> </relacao> <manifestacao> <resultado>Tabela 1, Tabela 2</resultado> <contexto> <ambiente></ambiente> <local>Distrito Federal</local> <local>Brasil</local> <tempo></tempo> <grupo>Mulheres</grupo> </contexto> <metodologia></metodologia> </manifestacao> <conclusao> A infecção por certos tipos de HPV pode ser a causa do câncer cervical de várias mulheres </conclusao> <conclusao> O HPV-16 é o mais comum na nossa população </conclusao> </estrutura_de_conhecimento> O registro do conhecimento contido no artigo desta forma permitiria por exemplo, os seguintes tipos de recuperação: * que artigos (também) tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?" * "que artigos tem hipóteses relacionando outros fatores que não HPV como causa de lesões préneoplásicas e neoplásicas em mulheres?" * que artigos tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em outros grupos?" * que artigos tem hipóteses relacionando HPV como causa de outras patologias em mulheres?" * em que diferentes condições contextuais existem artigos com hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?" 4. Conclusões A importância em marcar os elementos descritos e registrá-los em formato legível por programas como proposto é viabilizar que programas agentes de "software" ou sistemas de recuperação de informações possam fazer diversas inferências baseados nestas relações e auxiliar pesquisadores em tarefas que hoje são demoradas e pouco formalizadas, como acessar e recuperar de forma semanticamente mais rica informação relevante, verificar a originalidade, validade, coerência e importância de contribuições para a Ciência. A agenda de pesquisa a ser desenvolvida se desdobra em pelo menos três etapas. Na etapa descrita aqui, trata-se de propor e validar um modelo para o conhecimento contido no texto de artigos científicos em um formato legível por programas, usando linguagem XML. A medida que o conhecimento contido em artigos científicos possa ser extraído e registrado em formato legível por programas, através de um ambiente de autoria, um editor de textos científicos, artigos publicados segundo esse modelo podem ser recuperados de forma semanticamente muito mias rica e precisa. O desenvolvimento deste ambiente de autoria, as estratégias a serem aí utilizadas para extrair o conhecimento contido no texto de um artigo científico durante o processo de sua edição/publicação na Web, constituem uma outra etapa dessa pesquisa. Por fim, o modelo pode ser útil também para sinalizar indícios de novas descobertas, artigos que seguem o padrão de raciocínio abdutivo e quando alguns ou todos os elementos de uma HIPÓTESE não puderem ser mapeados no "conhecimento estabelecido". Esta alternativa vai ser explorada na etapa seguinte da pesquisa, ao se analisar também artigos científicos modelares que veiculam descobertas significativas para avaliar em que medida estes se desviam do padrão identificado. Figura 1 Figura 2 FORMULÁRIO PARA ANÁLISE DE ARTIGOS Periódico: Memórias do Instituto Oswaldo Cruz <http://www.scielo.br/revistas/mioc> Referência do Artigo CAMARA, Geni NL, CERQUEIRA, Daniela M, OLIVEIRA, Ana PG et al. Prevalence of human papillomavirus types in women with pre-neoplastic and neoplastic cervical lesions in the Federal District of Brazil. Mem. Inst. Oswaldo Cruz. [online]. Oct. 2003, vol.98, no.7 [cited 10 March 2005], p.879-883. Available from World Wide Web: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S007402762003000700003&lng=en&nrm=iso>. ISSN 0074-0276 MÉTODO Dedutivo: X Indutivo: Abdutivo: PROBLEMA (transcrever do texto) As a contribution to the public health authorities in planning prophylactic and therapeutic vaccine strategies, we describe the prevalence of human papillomavirus (HPV) types in women presenting abnormal cytological results in Pap smear screening tests in the Federal District, Central Brazil.(Abstract) In contrast to what is observed in developed countries, cervical cancer mortality in Brazil is still high.(Introdução) HIPÓTESE anterior (transcrever do texto) The chronic infection by certain types of human papillomavirus (HPV) is definitely related to the incidence of cervical cancer (Lorincz et al. 1992, IARC 1995) and the HPVs -16, 18, -31, -33, -35, -45, -51, -52, and -58 can now be considered as cervical carcinogenic agents (Muñoz 2000). Squamous carcinomas and adenocarcinomas are the most frequent cervical neoplasias, and may develop from intraepithelial lesions, easily detected in preventive cytological exams (Sherman et al. 1994). Relação normalizada HPV esta relacionado com lesões pré-neoplasticas e neoplásticas a)A infecção por certos tipos de HPV pode ser a causa do câncer cervical de várias mulheres b) O HPV-16 é o mais comum na nossa população Antecedente: HPV, diversos tipos / Papillomavirus Humano Tipo de relação: causa / "causes", T147 UMLS SN Conseqüente: lesões pré-neoplasticas e neoplásticas em mulheres, câncer cervical, neoplasias / Infecções Tumorais por Vírus, Neoplasias do Colo Citações: (Lorincz et al. 1992, IARC 1995), (Muñoz 2000), (Sherman et al. 1994). MANIFESTAÇÃO Resultado: Medida: prevalência Contexto: Ambiente: Local: Distrito Federal, Brasil Tempo: Grupo: mulheres Metodologia: CONCLUSÕES Observações: Notas [*] Participaram desta pesquisa como Bolsistas de Iniciação Científica Ariane Silva Santa Rita Ferreira, Henrique Mendonça, Vera Rolim [1] XML- Extensible Markup Language, Linguagem de Marcação Extensível ,um padrão do W3C. <http://www.w3c.org/xml> [2] Ver definição de agentes de software na Wikipedia em <http://en.wikipedia.org/wiki/Software_agents> [3] Ver a definição de Binger Hjorland em <http://www.db.dk/bh/Core%20Concepts%20in%20LIS/articles%20a-z/aboutness.htm> Referências bibliográficas ALVES_MAZZOTTI, Alda; GEWANDSZNAJDER, Fernando. O Método nas Ciências naturais e sociais: pesquisa quantitativa e qualitativa. São Paulo : Pioneira Thomson Learning, 2002. BACON, Francis. Novum organum. São Paulo : Abril Cultural, 1973. (Coleção Os pensadores, 13). BARRETO, Aldo de Albuquerque. A oferta e a demanda da informação: condições técnicas, econômicas e políticas. Ciência da Informação, Brasília, v..28, n.2, maio/ago. 1999. p.168-142. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019651998000200003&lng=pt&nrm=iso>. Acesso em 18 junho 2005. BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific American, May, 2001. Disponível em <http://www.scian.com/2001/0501issue/0501berners-lee.html>, Acesso em 24 maio 2001. CARR, L.; MILES-BOARD, T.; WOUKEU, A.; WILLS, G.; HALL, W. The case for explicit knowledge in documents. In: THE ACM SYMPOSIUM ON DOCUMENT ENGINEERING, 2004, Milwaukee, Wiscosin. Proceedings... Milwaukee: ACM, 2004, p. 90-98. Disponível em: <http://www.eprints.ecs.soton.ac.uk/9360/> Acesso em: 07 ago. 2005. DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the Semantic Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI Core e-Science Programme). 2001. DESCARTES, René. Discurso do método. São Paulo : Martin Claret, 2005. (Coleção Obra prima de cada autor). GARDIN, Jean-Claude. Vers un remodelage des publications savantes: ses rapports avec sciences de l'information. In: Chaudiron, Stéphane, Fhlur, Christian. Filtrage et résumé automatique de l' information sur les réseaux., Conference invitee - Colloque ISKO-France, 3. 5-6 juillet, 2001. Univesité de Nanterre - Paris X, 2001. GROSS, Alan G. The Rhetoric of Science. Cambridge, Massachusetts; Londres, Inglaterra : Harvard University Press,1990. HEMPEL, Karl. Aspects of scientific explanation and other essays in the philosophy of science. New York : Free Press, 1965. HOFFMANN, Michael. Is there a "Logic" of Abduction? In: CONGRESS OF THE IASS- AIS International Association for Semiotics Studies, Guadalajara, Mexico, 1997, 6th, Proceeedings... Disponível em <http://www.unibielefeld.de/idm/personen/mhoffman/papers/abduction-logic.html>. Acesso em 14 dez. 2005. HUTCHINS, John. On the structure of scientific texts. In: UEA Papers in Linguistics, 5 th., 1977, Norwich. Proceedings...Norwich, UK: University of East Anglia, 1977. p. 18-39.Disponível em: <http://ourworld.compuserve.com/homepages/wjhutchins/UEAP/L-1977.pdf>. Acesso em: 30 mar. 2006. KANDO, Noriko. Text-level structure of research papers: implications for text-based information processing systems. In: ANNUAL BCS-IRSG COLLOQUIUM ON IR RESEARCH, 19th., 1997, Aberdeen. Proceedings... Aberdeen, Scotland: Springer-Verlag, 1997. p. 68-81. Disponível em : <http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:Da9bLQqHqRQJ:research.nii.ac.jp/~k ando/>. Acesso em: 03 out. 2005. KANDO, Noriko. Text structure analysis as a tool to make retrieved documents usable. In: INTERNATIONAL WORKSHOP ON INFORMATION RETRIEVAL WITH ASIAN LANGUAGES, 4th., 1999, Taipei. Proceedings... Taipei, Taiwan: Academia Sinica, 1999. p. 126-135. Disponível em: <http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:ZFHr2MhHmWYJ:research.nii.ac.jp/~ kando/>. Acesso em: 03 out. 2005. KANT, Immanoel. Crítica da Razão Pura. São Paulo : Nova Cultural, 1991. (Coleção os Pensadores, 7). KINTSH, Walter; VAN DIJK, Teun A. Towards a model of text comprehension and production. Psycological Review, v. 84, n. 5, Sept. 1972. p.363-393. KOBASHI, Nair. A elaboração de informações documentais: em busca de uma metodologia. Tese (doutorado), Escola de Comunicação e Artes, USP. São Paulo, 1994. LANGER, Hangen; LÜNGEN, Harald; BAYERL, Petra Sakia. Text Type Structure and Logical Document Structure. 2004. Disponível em <http://acl.ldc.upenn.edu/acl2004/discourseannotation/pdf/langer.pdf>. Acesso em 8 de nov. 2005. LÉVY, Pierre, As tecnologias da inteligência: o futuro do pensamento na era da informática. Rio de Janeiro : Ed. 34, 1993. 208 p. (Coleção Trans). LUHN, H. P. Keyword-in-context Index for Technical Literature (KWIC Index) Yorktown Heights, NY, International Business Machines Corp, 1959. MEADOWS, Arthur Jack. A comunicação científica. Brasília : Briquet de Lemos, 1999. MARCONDES, Carlos H. From scientific communication to public knowledge: the scientific article Web published as a knowledge base. In: Egelen, Jan, Dobreva, Milena, ed. ICCC ElPub - INTERNATIONAL CONFERENCE ON ELECTRONIC PUBLISHING, Leuven, Bélgica, 2005, 9, Proceedings... Leuven, Bélgica, 2005. p.119-27. Disponível em <http://elpub.scix.net> MARCONDES, Carlos H; MENDONÇA, Marília A. R; MALHEIROS, Luciana. A estrutura dos elementos de metodologia científica no textos de artigos de periódicos eletrônicos em Ciências da Saúde. In: International Conference on Health Information and Libraries, 9, Salvador, Bahia, Brasil, Proceedings... Salvador, 2005. Disponível em <http//www.icml9.org/program/track5/public/documents/Carlos Henrique Marcondes-112049.doc>. MARCONDES, Carlos H. Da comunicação científica ao conhecimento público: artigos científicos digitais como bases de conhecimento. In: ENANCIB - Encontro da Associação Nacional de Pesquisa e Pós-graduação em Ciência da Informação, 6, nov. 2005, Florianópolis, Santa Catarina, Brasil, Anais... , 2005. (Anais em CD-ROM). MARCONDES, Danilo. Filosofia analítica. Rio de Janeiro : Jorge Zahar, 2004. (Coleção Passo a passo). MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia científica. São Paulo : Editora Atlas, 2004. MATTAR NETO, José Augusto. Metodologia científica na era da informática. São Paulo : Saraiva, 2002. MIRANDA, Antonio; SIMEÃO, Elmira. A conceituação de massa documental e o ciclo de interação entre tecnologia e o registro do conhecimento. DataGramaZero, v.3, n. 4, ago. 2002. Disponível em <http://www.dgz.org/ago02/Art_03.htm>, acesso em 15 nov. 2003. OLIVA, Alberto. Kuhn: o normal e o revolucionário na reprodução da racionalidade científica. In: PORTOCARRERO, Vera (org). Filosofia, história e sociologia das ciências. Rio de Janeiro : Ed. FIOCRUZ, 1994. p. 67-102. PAICE, Chris D.; JONES, Paul A. The identification of important concepts in highly structured technical papers. In: ANNUAL INTERNATIONAL ACM/SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 16th., 1993, Pittsburgh. Proceedings... Pittsburgh, PA: ACM, 1993. p. 69-78. Disponível em: <http://www.ils.unc.edu/~cablake/inls110_S06/Refs/PaiceJones.pdf>. Acesso em: 30 abr. 2006. POPPER, Karl. A lógica da pesquisa científica. São Paulo : Ed. Cultrix, Ed. USP, 2001. SALTON, G.; MCGILL, M. J. Introduction to Modern Information Retrieval. New York : McGraw-Hill Book Company, 1983. SMIT, Johanna. Análise documentária: análise da síntese. Brasília : IBICT, 1987. SOWA, John. Knowledge representation: logical, philosophical and computacional foudations. Pacific Grove : Brooks/Cole, 2000. TEUFEL, Simone. Meta-discourse markers and problem-structuring in scientific articles. In: WORKSHOP DISCOURSE STRUCTURE AND DISCOURSE MARKERS, 1998, Montreal. Proceedings...Montreal: ACL, 1998. p. 43-49. Disponível em: <http://acl.ldc.upenn.edu/w/w98/0307.pdf>. Acesso em: 08 nov. 2005. ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia, São Paulo : Ed. da Universidade de São Paulo, 1979. Sobre os autores / About the Authors: Carlos H. Marcondes [email protected] Departamento de Ciência da Informação Marília A. R. Mendonça [email protected] Departamento de Ciência da Informação Luciana R. Malheiros [email protected] Departamento de Fisiologia e Farmacologia Universidade Federal Fluminense, Niterói - RJ, Brasil