forleg

Propaganda
Uma proposta de modelo de representação do conhecimento contido no texto de artigos científicos
publicados na web em formato legível por programas [*]
A proposed knowledge representation model to the knowledge embedded in the text of scientifc
articles web published in program readable format
por Carlos H. Marcondes, Marília A. R. Mendonça e Luciana R. Malheiros
Resumo: São reportados resultados de pesquisa com o objetivo de propor um modelo de
publicação eletrônica de artigos científicos como texto, legível por pessoas, e simultaneamente, em
formato legível por programas. Este conhecimento é identificado com os elementos de metodologia
científica do artigo, em especial com a hipótese, como o elemento que estabelece novas relações
entre fenômenos. No modelo proposto a estrutura de conhecimento contido em artigos científicos é
explicitada e registrado em XML. O conhecimento registrado desta forma viabiliza seu
processamento por programas inteligentes. Embora publicados na Web periódicos eletrônicos são
ainda calcados no modelo de publicações em papel e não utilizam todo o potencial do meio
eletrônico. O modelo proposto pretende ampliar estas potencialidades, viabilizando recuperação
semântica e validação dos novos conhecimentos reportados pelos artigos. A pesquisa analisa um
conjunto de artigos de periódicos científicos eletrônicos com o objetivo de validar o modelo,
verificando em que medida os artigos se enquadram nele.
Palavras-chave: Publicações eletrônicas; Metodológica científica; Comunicação científica;
Representação do conhecimento; Ontologias.
Abstract: This article reports results of a research with the aim of investigate the possibilities of
electronic publishing journal articles both as text for human reading and in machine readable format
recording the new knowledge contained in the article. This knowledge is identified with the scientific
methodology elements such as problem, methodology, hypotheses, results, and conclusions. A
model integrating all those elements is proposed which makes explicit and records in XML the
article contribution, new knowledge and scientific novelty. The use of XML language to represent
this knowledge enables its processing by intelligent software agents Despite the fact that electronic
publishing is a common activity to scholars electronic journals are still based in the print model and
do not take full advantage of the facilities offered by the Web environment. The proposed model
aims to extend these facilities enabling semantic retrieval and validation of the knowledge contained
in articles. The research analyses a set of electronic journal articles with the aim of validate the
model, verifying their compliance with the model.
Keywords: Electronic publishing; Scientific methodology; Scientific communication; Knowledge
representation; Ontologies.
1. Introdução
Publicações científicas na Web se tornaram uma realidade. A maior parte dos periódicos têm hoje
versões eletrônicas. Artigos científicos são o grande veiculo através do qual são disseminados os
novos conhecimentos. Hoje existem dois obstáculos para o acesso e utilização em larga escala
deste conhecimento: o grande número de publicações, a chamada "explosão informacional",
fenômeno fundador da Ciência da Informação, que atinge mais alto grau com o surgimento da Web
e das publicações eletrônicas; e o fato desse conhecimento estar inserido no texto dos artigos de
forma não estruturada, legível somente por pessoas.
De Roure (2001), ao propor uma antevisão do futuro ambiente de trabalho do cientista, chamado
de E-Science, comenta, ao se referir ao componente de conhecimento deste ambiente:
"knowledge acquisition set the challenge of getting hold of the information that is around, and
turning it into knowledge by making it usable. This might involve for instance, making tacit
knowledge explicit, identifying gaps in the knowledge already held, acquiring and integrating
knowledge from multiple sources (e.g. different experts, or distributed sources on the web), or
acquiring knowledge from unstructured media (e.g. natural language or diagrams" (DE ROURE,
2001, p. 56.)
"Examples are the integration of authoring and reviewing processes in on-line documents. Such
environments allow structured discussions of the evolution and development of an idea, paper or
concept. The structured discussion is another annotation that can be held in perpetuity. This means
that the reason for a position in a paper or design choice is linked to the object of discussion itself"
(DE ROURE, 2001, p. 59.)
A Comunicação Científica (MEADOWS, 1999) tem sido o mecanismo através do qual novos
conhecimentos são incorporados a uma área de conhecimento, garantindo assim o chamado
"conhecimento público" (ZIMAN, 1979). Mesmo hoje, utilizando as facilidades da tecnologia da
informação para prover acesso ao texto completo de artigos, a Comunicação Científica depende de
um longo e demorado processo social, onde textos científicos, após publicados, são lidos por
pesquisadores, avaliados, criticados e citados, passando pelos chamados filtros de qualidade, até
que o novo conhecimento possa enfim ser incorporado ao corpo da Ciência.
Apesar de desenvolvimentos importantes na Análise Documentária (SMIT, 1987), seu objetivo
continua sendo o de prover acesso. Existe uma divisão implícita de trabalho: cabe à Análise de
Documentária indexar para prover acesso, enquanto, ao usuário, um pesquisador/leitor, cabe o
processamento do conteúdo do texto em termos de sua validade, coerência e confiabilidade para a
Ciência.
O repositório deste novo conhecimento é o artigo científico. Apesar de todas as possibilidades de
publicação no ambiente Web, periódicos eletrônicos são, ainda hoje, calcadas no modelo impresso,
não aproveitando as potencialidades do ambiente Web. Miranda e Simeão (2002) em pesquisa
sobre periódicos eletrônicos, destacam o pouco uso de características típicas do ambiente Web
como interatividade, hipertextualidade, multimediação nos sites de acesso de distribuidores
internacionais de periódicos eletrônicos como Elsevier, Galé, Ovid, Springer, ProQuest, SciELO,
etc..
Desde o advento do computador pesquisas tem sido desenvolvidas no sentido de utiliza-lo como
extensão das capacidades cognitivas humanas (LÉVY, 1993). A passagem de documentos em
papel para documentos digitais, constitui-se numa mudança de qualidade, cujas conseqüências
ainda não estão totalmente claras. O documento digital tem a possibilidade de se constituir numa
nova e poderosa ferramenta cognitiva, em especial no contexto do projeto Web Semântica
(BERNERS-LEE, 2001).
A Ciência da Informação pode avançar mais que simplesmente facilitar o acesso a textos
científicos? Artigos científicos têm como objetivo serem portadores de conhecimento novo. Qual é
a forma desse conhecimento? Como identifica-lo nos textos de artigos científicos? Como extraí-lo e
formaliza-lo? Como agenciar programas para ajudar a processar este conhecimento? Estas
questões constituem nossa agenda de pesquisa.
Como é discutido na Filosofia, conhecimento consiste em estabelecer relações entre fenômenos da
realidade. Os manuais de metodologia científica estabelecem (MATTAR NETO, 2002), (ALVESMAZOTTI, 2002), (MARCONI & LAKATOS, 2004) que, entre os elementos de metodologia
científica, em especial é a hipótese aquele que encerra uma relação.
Também na área de Ciência da Computação (SOWA, 2000) uma base de conhecimento é formada
por fatos e por regras de produção. Estas consistem em relações entre fatos ou fenômenos,
representada sob a forma de cláusulas em lógica de primeira ordem, do tipo Se (fato ou fenômeno)
então (fato ou fenômeno). Enquanto para a Ciência da Informação (BARRETO, 1999),
conhecimento é um processo ocorrendo na mente de pessoas, a Ciência da Computação se
preocupa com o aspecto representacional do conhecimento para que ele possa ser processado por
programas; é nessa acepção que representação do conhecimento é utilizado nesta pesquisa.
A partir destas colocações, pode-se conjecturar se o artigo científico publicado na Web, que é
construído e estruturado dentro de um formalismo estrito, especialmente nas Ciências da Saúde,
não poderia evoluir no sentido de se constituir num objeto digital que incluísse, além de suas partes
textuais, o conhecimento novo representado em meio legível por computador? Seria possível,
através um editor de textos científicos, como subproduto do processo de editar/publicar
eletronicamente um artigo, extrair também esse conhecimento e representá-lo em formato legível
por programas, em linguagem XML[1]? Carr (2004) afirma que "in order to allow documents to
unambiguously interpreted by both human readers and software agents, knowledge should be an
explicit part of document representation". Assim tornar-se-ia possível agenciar programas agentes
de "software"[2] para apoiar pesquisadores em tarefas como validar esse conhecimento, coteja-lo
com o conhecimento já existente, relaciona-lo com ontologias disponíveis na Web, em especial na
área de Ciências da Saúde, como UMLS - Unified Medical Language System,
<http://www.nlm.nih.gov/pubs/factsheet/umls.html>, verificar sua coerência, seu grau de "novidade"
ou sua contribuição para determinada área do conhecimento, cotejá-lo e recupera-lo
semanticamente.
Esta pesquisa parte portanto das seguintes hipóteses:
* o conhecimento científico consiste em estabelecer (novas) relações entre fenômenos;
* artigos científicos possuem, além da estrutura textual, chamada aqui de "estrutura superficial",
uma "estrutura profunda" ou "estrutura de conhecimento", que pode ser extraída do texto e
representada em formato legível por programas.
Para viabilizar e fornecer subsídios para a construção deste editor de textos científicos, que
concretize esta proposta, deve ser desenvolvido um modelo do conhecimento contido no texto de
artigos. Propor e discutir tal modelo é o objetivo desse trabalho. Um modelo inicial é proposto em
Marcondes (2005a, b e c). Esta pesquisa analisa artigos de periódicos eletrônicos da área de
Ciências da Saúde a partir desse modelo, para validá-lo e aperfeiçoá-lo.
A seguir as bases conceituais que embasaram o modelo proposto são apresentadas e discutidas; a
seguir o modelo é exposto e discutido; finalmente, são apresentadas algumas conclusões e
levantadas novas questões suscitadas pela pesquisa.
2. Bases conceituais e teóricas
2.1 Conhecimento como relação
Em que consiste o conhecimento? Essa é uma discussão que vem assumindo uma centralidade
cada na Ciência da Informação, tanto quanto em outras áreas do conhecimento. Quais as
possibilidades e quais as formas de termos acesso a ele? Existe um conhecimento público,
intersubjetivo, ou, ao contrário, o conhecimento é um processo individual? Estas são perguntas que
há muito tempo a Filosofia vem se fazendo. A trajetória histórica da Filosofia, desde os gregos,
segundo Michel Dummett, citado por Marcondes (2004, p. 9), abrange o enfoque a três questões: a
questão ontológica - o ser, seus componentes fundamentais, seus estados, com os pré-socráticos;
a questão do conhecimento - suas condições e possibilidades - desde o estabelecimento do
método científico com Descartes, Bacon e Galileu, passando pelos empiristas com Locke, Berkley
e Hume, até a síntese formulada por Kant; evoluindo mais recentemente, a partir de fins do século
XIX e início do século XX, quando a humanidade passa pelo impacto crescente da Ciência, para a
questão da linguagem como viabilizadora do conhecimento - a Filosofia da Linguagem. Mas a
preocupação com a correção da linguagem que levaria ao conhecimento científico já é uma
preocupação da Ciência, antes da Filosofia da Linguagem, com o Discurso do Método, de
Descartes (2005) e com o Novo Organum, de Bacon (1973). Esta preocupação se consubstanciou,
ao longo da evolução da Ciência desde o século XVI, no chamado Método Científico.
"As ciências utilizam da razão (ou pensamento) para estudar seus objetos. O pensamento pode ser
definido como a capacidade de estabelecer relações por meio do processo de unir ou separar
conceitos e objetos: a realidade é composta de complexos, e esses complexos tem ligações com
algumas coisas e não com outras. Pensar é justamente o processo de descobrir ou realizar
associações e disjunções, ou seja, de traçar relacionamentos. Como o significado de um complexo
encontra-se nos relacionamentos que ele estabelece com outros complexos, cada relacionamento
descoberto ou inventado é um significado, e grandes ordens de sistemas de relacionamentos
constituem grandes corpos de significados." (Mattar Neto, 2002, p. 33).
Textos científicos, em especial, os artigos científicos, têm como objetivo serem portadores de
conhecimento novo. Como é desde há muito discutido na Filosofia, desde Aristóteles, passando
por Kant - para quem que a Relação é um dos seus quatro conceitos puros do entendimento ou
categorias, (KANT, 2001, p. 70) -, até moderna Lógica Formal conhecimento consiste em
estabelecer relações entre fenômenos da realidade. Como os manuais de metodologia científica
estabelecem, entre os elementos de metodologia científica, em especial é a hipótese o
componente que encerra uma relação. Em Ciência, o grau certeza desta relação vai diferenciar
uma hipótese, que tem ainda um caráter conjectural, de uma lei.
"A hipótese poderá ser simbolizada de duas formas: "Se x, então y, sob as condições r e s", ou "Se
x1, x2 e x3, então y" (MARCONI & LAKATOS, 2004, p.141), ou seja, dada certa condição X seguese como conseqüência Y. Ou então: "As leis científicas são enunciados gerais que indicam
relações entre dois ou mais fatores"... "em todos os casos em que se realizam as condições A,
serão realizadas as condições B" (Alves-Mazotti, 2002, p. 11).
Popper (2004, p. 27) afirma que "Um cientista, seja teórico ou experimental, formula enunciados
ou sistemas de enunciados e verifica-os um a um. No campo das ciências empíricas, ele formula
hipóteses ou sistemas de teorias, e submete-os a teste, confrontando-os com a experiência". Tanto
um enunciado enquanto relação entre conceitos, quanto sistema, trazem implícita a idéia de
relação.
Outro estudioso da forma dos enunciados científicos foi Karl Hempel. Hempel afirma que a Ciência,
além de relacionar fenômenos, busca explicá-los, relacionando fenômenos com sua explicação.
Segundo este autor "a scientific explanation consist of two major "constituints": an explanandum, a
sentence "describing the phenomenon to be explained" and an explanans, "the class of those
sentences which are adduced to account for the phenomenon" (HEMPEL, 1965, p.247).
Neste sentido, as hipóteses, enquanto propostas de relações entre fenômenos, têm importância
decisiva enquanto manifestação do conhecimento novo em Ciência. Marconi e Lakatos (2004, p.
141) expressam assim este fato: "podemos considerar a hipótese como um enunciado geral de
relações entre variáveis (fatos,fenômenos)". A manifestação concreta deste novo conhecimento,
nos marcos institucionais da Ciência, é o artigo científico, especificamente, seu texto. É em torno
da hipótese que se orienta e se organiza toda a pesquisa científica, e, conforme sugerido aqui, em
torno dela que se organiza toda a argumentação no texto de um artigo científico:
"não é possível dar qualquer passo adiante, em uma pesquisa, se, depois de enunciar a dificuldade
(problema) que originou a pesquisa, não iniciarmos com uma explicação para ela - enquanto uma
hipótese -, pois a função da hipótese é orientar nossa busca de ordem entre os fatos" (MARCONI &
LAKATOS, 2004, p.143).
Todo artigo ou propõe enquanto um problema, ou desenvolve e quantifica de forma original, ou recontextualiza uma hipótese já estabelecida por outro autor. Sob alguma destas formas, uma
hipótese (ou relação entre fenômenos) deve aparecer implicitamente no texto de artigos científicos.
2.2 A Ciência da Informação e a análise de textos de artigos científicos
A Ciência da Informação tem uma dívida muito forte com a Filosofia da Linguagem. Este
movimento filosófico iniciado em fins do século XIX e início do século XX, estudava a linguagem
como forma de acesso ao conhecimento, daí a sua ênfase em aperfeiçoar a linguagem como
instrumento de acesso ao conhecimento, sua estrutura lógica (Frege, Carnap Wittgestein, Russel,
Hempel).
A Ciência da Informação herda da Filosofia da Linguagem a sua ênfase na análise do texto escrito
como da manifestação lingüística capaz de conter ou veicular o conhecimento.
Se textos de artigos científicos podem conter conhecimento, o movimento da Ciência da
Informação é prover acesso aos mesmos. A Ciência da Informação tem como um dos problemas
sobre o qual se debruça desde os seus primórdios, a questão de otimizar a Comunicação
Científica.
No entanto o processo de análise/representação temática empreendida pela Ciência da Informação
visa somente à sua recuperação em sistemas automatizados e à identificação superficial de seu
conteúdo, mais especificamente sobre o quê é o texto, seu "aboutness"[3]; este "sobre o quê" é
expresso nas linguagens de representação temática por descritores que não mantém nenhuma
relação semântica entre si. O trabalho de identificar o conhecimento contido no texto, as relações
entre fenômenos, sua validade, sua coerência, sua contribuição para a Ciência, fica a cargo do
leitor, o cientista, para quem todos os esforços dos sistemas de informação bibliográficos têm sido,
no máximo, prover acesso.
Na literatura brasileira de Ciência da Informação também surgem trabalhos importantes de análise
de textos para fins de documentação. Estes trabalhos, entre os quais os mais significativos são a
produção do Grupo Temma, (SMIT, 1987) formado por pesquisadores da USP, incorpora à análise
documentária o aporte da Semiologia e da Lingüística Estrutural de Saussure e Fillmore. Mais
especificamente, o trabalho de Kobashi (1996), incorpora à análise documentária os aportes de
Gardin (2001), sobre o raciocínio lógico contido em textos científicos e de Van Dijk (KINTSH, 1978),
sobre macro-estruturas textuais. No entanto o objetivo da análise documentária de textos é ainda
sua indexação, elaboração de resumos, com vistas a sua recuperação.
No que diz respeito ao texto de artigos científicos, pesquisas na área de Ciência da Informação
logo perceberam que a estrutura altamente formalizada de artigos científicos poderia ser
relacionada com seu conteúdo e, no mínimo, otimizar o acesso a este, num ambiente de sistemas
automatizados de recuperação de informações. Os trabalhos de Kando (1997, 1999), por exemplo,
propõe uma discriminação bastante profunda e exaustiva da estrutura tradicional do texto de um
artigo científico - Introdução, Material e Métodos, Discussão e Conclusões - (chamada de primeiro
nível) em mais dois níveis de detalhe, onde os componentes de um artigo científico, seus dados, a
argumentação do autor, etc. são identificados. O autor utiliza esta divisão da estrutura do texto de
artigos e a marcação destes elementos para otimizar a recuperação mais precisa do conteúdo dos
artigos.
Nestes trabalhos, como nos de Kando, a estrutura dos textos de artigos científicos é altamente
analisada, decomposta em seus componentes, para que o "aboutness" do texto possa ser extraído
pelo documentalista com mais precisão, servir para melhor indexar o texto com vistas a sua
recuperação; a identificação do conhecimento contido no texto do artigo, sua avaliação e
integração ao "corpus" de conhecimento de uma determinada área, todas estas operações ficam a
cargo do leitor. Estes trabalhos não ultrapassam a proposta histórica da Ciência da Informação, de
prover acesso a documentos para pesquisadores.
2.3 A Ciência da Informação e a Ciência da Computação
É histórica a aliança entre a Ciência da Informação e a Ciência da Computação para o tratamento e
recuperação de informações utilizando o computador. Desde os trabalhos pioneiros de Luhn (1968)
ainda na década de 50 com os índices KWIC, passando por de Salton (1983) com a experiência do
sistema SMART e com a indexação vetorial, que vários pesquisadores de ambas as áreas têm se
engajado em pesquisas sobre recuperação de informações.
Na área de Inteligência Artificial e Sistemas Especialistas uma base de conhecimento é formada
por fatos e pelas chamadas "regras de produção". Estas não são mais que relações entre fatos ou
fenômenos, na forma de cláusulas binárias Se (fato ou fenômeno) então (fato ou fenômeno).
Esforço significativo de pesquisa na área de Sistemas Especialistas consiste em formalizar o
processo de aquisição de conhecimento, que consiste em formalizar o conhecimento de um
especialista humano, representando-o por exemplo sob a forma de regras de produção. A Ciência
da Computação se preocupa com o aspecto representacional do conhecimento, de modo a tornar
viável seu processamento por programas.
Várias outras pesquisa, na área de Ciência da Computação, avançam diferentes propostas na linha
de extração de texto ("text extraction") para visando categorização automática de documentos
(LANGER, 2004) e criação automática de resumos (PAICE, 1993), (TEUFFEL, 1998). No entanto,
devido às limitações dos modelos de análise de linguagem natural, a opção de extração de textos,
mais pragmática embora mais limitada, pois não chega a se constituir em processamento de
linguagem natural, tem se mostrado resultados práticos interessantes. No entanto, esta alternativa
para o problema proposto não leva em conta nem as possibilidade oferecidas por um modelo da
estrutura de conhecimento contida nos textos de artigos científicos nem as oferecidas pela
interação com o autor/pesquisador num ambiente de autoria inteligente, para guiar o
processamento e extrair o conhecimento de textos no momento da sua produção/edição/publicação
em ambiente Web.
Se através de um ambiente de autoria, um editor de textos científicos, for possível, como
subproduto do processo de editar/publicar eletronicamente um artigo, capturar também a relação
estabelecida no artigo e representa-la em formato legível por programas, utilizando-se por exemplo
a linguagem XML, torna-se possível agenciar programas, os agentes inteligentes, para apoiar o
pesquisador no seu trabalho de validar o conhecimento contido em artigos, coteja-lo com o
conhecimento já existente, verificar sua coerência, verificar seu grau de "novidade" ou sua
contribuição para determinada área do conhecimento, compará-lo e recupera-lo semanticamente
com muito mais precisão.
3. Modelo Proposto
O resultado dessa pesquisa é a proposta de um modelo. Um ponto de partida fundamental para o
desenvolvimento de um ambiente Web de autoria e recuperação de informações como o descrito
anteriormente é o estabelecimento de um modelo para este processo. Um tal modelo inicial foi
delineado em Marcondes (2005a) com base na literatura de comunicação científica, publicações
eletrônicas, Web Semântica, Epistemologia e Filosofia da Ciência e Ciência da Computação.
O modelo se desdobra em três níveis: primeiro, um ambiente Web de publicações eletrônicas e
recuperação de informações no qual pesquisadores editam e publicam seus artigos segundo o
esquema proposto possibilitando agenciar programas agentes inteligentes para validar o
conhecimento contido nos artigos, verificar sua consistência, identificar indícios de novidade
científica e recuperar de forma semanticamente mais rica o conhecimento contido nestes artigos.
Este nível do modelo esta ilustrado na Figura 1; deve permitir ao pesquisador simultaneamente ao
editar/publicar seu artigo, capturar os elementos do raciocínio científico de modo a permitir registrálos e identificá-los individualmente. Segundo, modelo de tipos de raciocínio em artigos científicos e
consequentemente a estrutura dos componentes lógicos do artigo como Problema, Hipóteses,
Resultados, Conclusões; e terceiro, modelo de representação desses componentes lógicos em
formato legível por programas, em linguagem XML.
A pesquisa relativa ao primeiro nível do modelo, o ambiente Web para editar/publicar artigos não
será desenvolvida neste momento. Este artigo trata especificamente da validação do modelo de
tipos de raciocínio e estrutura lógica dos componentes do artigo, os níveis 2 e 3; esta validação
consiste em analisar e processar manualmente o que faria um editor científico que permitisse
publicação e registro simultâneos de textos de artigos e do conhecimento aí contido em formato
legível por programas. Espera-se que a análise empírica de artigos reais e a sistematização dos
resultados dessa análise possa fornecer subsídios para reformulação e aperfeiçoamento do
modelo. A seguir o modelo é descrito e são apresentados os resultados da análise.
Os artigos analisados foram escolhidos na área de Ciências da Saúde devido ao alto grau de
formalização e padronização da sua documentação. A pesquisa analisou 20 artigos da versão
eletrônica do periódico Memórias do Instituto Oswaldo Cruz, <http://www.scielo.br/revistas/mioc>, e
outros 20 do periódico Brazilian Journal of Medical and Biological Research,
<http://www.scielo.br/revistas/bjmbr>. Artigos científicos, em especial nessa área, tem uma
estrutura altamente formalizada, a assim chamada IMRAD, "Introduction, Methods, Results, and
Discussion", cujo objetivo é, literalmente, refletir o método científico.
A análise de um artigo inicia-se por classifica-lo com base no modelo de raciocínio empregado.
Esta classificação é baseado em Hutchins (1997) e Gross (1990) e em textos de e sobre Pierce
(HOFFMAN.1997), um dos maiores estudiosos de Lógica.
Baseado nestas propostas considerou-se a seguinte classificação: artigos podem ser teóricos ou
experimentais; artigos teóricos seriam os que propõe novas hipóteses; artigos experimentais
testam experimentalmente hipóteses já formuladas ou formulam e testam experimentalmente uma
nova hipótese; estes podem usar os métodos de raciocínio dedutivo (no primeiro caso) ou indutivo
(no segundo).
Artigos teóricos se caracterizam por discutirem questões de maior abrangência. Analisam
criticamente diversas hipóteses anteriores, mostrando suas fragilidades. Estes artigos são os que
têm mais potencial de apresentarem contribuições para a Ciência, já que discutem ou questionam
o paradigma vigente (OLIVA, 1994). Sua contribuição é a formulação de uma nova hipótese,
indicando um novo caminho de pesquisa. O tipo de raciocínio empregado é o abdutivo ou seja, o
"insight" e a formulação de novas hipóteses. Artigosteóricos-abdutivos não trazem resultados
experimentais.
Artigos experimentais se dividem em dedutivos e indutivos. Ambos se caracterizam por discutirem
questões num escopo de abrangência limitado. Não discutem os rumos de uma teoria científica,
mas se limitam a confirma-la ou aperfeiçoa-la. Sempre trazem resultados experimentais.
A característica dos artigos que utilizam o raciocínio dedutivo é trabalharem a partir de hipóteses já
formuladas anteriormente, cujas referências vêem citadas, aplicando-as a um contexto específico.
Os artigos que utilizam o raciocínio indutivo se caracterizam por formularem e testarem uma
proposta com um certo grau de originalidade, dentro do paradigma científico vigente.
Os componentes identificados, que formam o modelo de análise, são os seguintes; um artigo
científico se organiza a partir de um PROBLEMA; um PROBLEMA expressa uma carência,
insatisfação ou deficiência conceitual com o atual estado de coisas num domínio de conhecimento.
A partir do PROBLEMA, este é inserido numa relação que pode resolver a carência ou deficiência;
esta relação é a HIPÓTESE. Uma HIPÓTESE enuncia relações entre fenômenos. Uma
HIPÓTESE se desdobra em ANTECEDENTE, TIPO-RELAÇÃO e CONSEQUENTE. Um autor num
artigo pode formular uma hipótese original - HIPÓTESE(o) ou tomar a hipótese anterior HIPÓTESE(a) - de outros autores; neste caso uma ou mais citações referentes à HIPÓTESE(a) CITAÇÕES(h) - são feitas.
Um autor também pode analisar várias HIPÓTESE(a) para mostrar que elas são insatisfatórias
como soluções para o PROBLEMA e formular sua HIPÓTESE(o).
Um artigo teórico-abdutivo se justifica simplesmente por propor uma nova HIPÓTESE(o).
A hipótese, num artigo experimental, deve ter uma MANIFESTAÇÃO concreta observável
empiricamente. Em um artigo científico, significa ter RESULTADOS observados segundo
determinada MEDIDA, em determinado CONTEXTO segundo determinada METODOLOGIA. Este
CONTEXTO onde os fenômenos relacionados na HIPÓTESE são observados pode ser
desdobrado em AMBIENTE - comunidade ou instituição onde o fenômeno ocorre -, ESPAÇO - o
lugar onde o fenômeno ocorre -, TEMPO ou época em que o fenômeno ocorre e GRUPO de
indivíduos onde o fenômeno ocorre.
O desenvolvimento do raciocínio num artigo teórico-abdutivo segue o seguinte padrão:
* dado um PROBLEMA, com os seguintes aspectos e dados
* os seguintes Autores/HIPÓTESES anteriores para sua solução não são satisfatórias por causa
das seguintes CRÍTICAS,
* diante disso, propomos a seguinte HIPÓTESE original
O desenvolvimento do raciocínio num artigo experimental-dedutivo segue o seguinte padrão:
* dado um PROBLEMA, com os seguintes aspectos e dados,
* os seguinte Autores formularam HIPÓTESES anteriores para sua solução,
* diante disso, escolhemos a seguinte (uma das HIPÓTESE anteriores).
* este fenômeno descrito na HIPÓTESE tem a seguinte MANIFESTAÇÃO,
* testamos, ampliamos ou re-contextualizamos esta HIPÓTESE no seguinte CONTEXTO e estes
testes apresentaram os seguintes RESULTADOS.
O desenvolvimento do raciocínio num artigo experimental indutivo segue o seguinte padrão:
* dado um PROBLEMA, com os seguintes aspectos e dados,
* (uma solução para este PROBLEMA pode se basear na seguinte HIPÓTESE),
* desenvolvemos a seguinte solução baseada nessa HIPÓTESE, que teria a seguinte
MANIFESTAÇÃO empírica,
* testamos esta MANIFESTAÇÃO e estes testes apresentaram os seguintes RESULTADOS.
Depois de classificados quanto ao tipo de raciocínio científico, artigos são analisador, identificadose os componentes descritos anteriormente. Numa segunda fase de análise, os componentes da
HIPÓTESE são relacionados ao "conhecimento público" de uma determinada área, identificando-os
com termos contidos numa base de conhecimento disponível na Web, no caso a UMLS (para os
ANTECEDENTE e CONSEQUENTE) e UMLS Semantic Network (para TIPO DE RELAÇÃO).
Um exemplo de artigo analisando segundo este modelo pode ser visto na Figura 2. A
representação do conhecimento nele contido em linguagem XML seria a seguinte:
<?xml version="1.0" encoding="ISO8859-1" ?>
<estrutura_de_conhecimento art-id="352387">
<fato></fato>
<problema><!-- Pergunta ou Questao-->
tipos de HPV prevalentes no grupo testado?
</problema>
<relacao metodo="dedutivo">
<hipotese tipo="anterior">
<citacao>(Lorincz et al. 1992)</citacao>
<citacao>(IARC 1995)</citacao>
<citacao>(Muñoz 2000)</citacao>
<citacao>(Sherman et al. 1994). </citacao>
<antecedente>HPV (Papillomavirus Humano) </antecedente>
<tiporelacao>causa ("causes"(T147)/UMLS SN)</tiporelacao>
<consequente>lesoes pre-neoplasicas e neoplasicas (Infecções Tumorais por Vírus,
Neoplasias do Colo) </consequente>
</hipotese>
</relacao>
<manifestacao>
<resultado>Tabela 1, Tabela 2</resultado>
<contexto>
<ambiente></ambiente>
<local>Distrito Federal</local>
<local>Brasil</local>
<tempo></tempo>
<grupo>Mulheres</grupo>
</contexto>
<metodologia></metodologia>
</manifestacao>
<conclusao>
A infecção por certos tipos de HPV pode ser a causa do câncer cervical de várias
mulheres
</conclusao>
<conclusao>
O HPV-16 é o mais comum na nossa população
</conclusao>
</estrutura_de_conhecimento>
O registro do conhecimento contido no artigo desta forma permitiria por exemplo, os seguintes tipos
de recuperação:
* que artigos (também) tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e
neoplásicas em mulheres?"
* "que artigos tem hipóteses relacionando outros fatores que não HPV como causa de lesões préneoplásicas e neoplásicas em mulheres?"
* que artigos tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e
neoplásicas em outros grupos?"
* que artigos tem hipóteses relacionando HPV como causa de outras patologias em mulheres?"
* em que diferentes condições contextuais existem artigos com hipóteses relacionando HPV como
causa de lesões pré-neoplásicas e neoplásicas em mulheres?"
4. Conclusões
A importância em marcar os elementos descritos e registrá-los em formato legível por programas
como proposto é viabilizar que programas agentes de "software" ou sistemas de recuperação de
informações possam fazer diversas inferências baseados nestas relações e auxiliar pesquisadores
em tarefas que hoje são demoradas e pouco formalizadas, como acessar e recuperar de forma
semanticamente mais rica informação relevante, verificar a originalidade, validade, coerência e
importância de contribuições para a Ciência.
A agenda de pesquisa a ser desenvolvida se desdobra em pelo menos três etapas. Na etapa
descrita aqui, trata-se de propor e validar um modelo para o conhecimento contido no texto de
artigos científicos em um formato legível por programas, usando linguagem XML.
A medida que o conhecimento contido em artigos científicos possa ser extraído e registrado em
formato legível por programas, através de um ambiente de autoria, um editor de textos científicos,
artigos publicados segundo esse modelo podem ser recuperados de forma semanticamente muito
mias rica e precisa. O desenvolvimento deste ambiente de autoria, as estratégias a serem aí
utilizadas para extrair o conhecimento contido no texto de um artigo científico durante o processo
de sua edição/publicação na Web, constituem uma outra etapa dessa pesquisa.
Por fim, o modelo pode ser útil também para sinalizar indícios de novas descobertas, artigos que
seguem o padrão de raciocínio abdutivo e quando alguns ou todos os elementos de uma
HIPÓTESE não puderem ser mapeados no "conhecimento estabelecido". Esta alternativa vai ser
explorada na etapa seguinte da pesquisa, ao se analisar também artigos científicos modelares que
veiculam descobertas significativas para avaliar em que medida estes se desviam do padrão
identificado.
Figura 1
Figura 2
FORMULÁRIO PARA ANÁLISE DE ARTIGOS
Periódico: Memórias do Instituto
Oswaldo Cruz
<http://www.scielo.br/revistas/mioc>
Referência do Artigo
CAMARA, Geni NL, CERQUEIRA, Daniela M, OLIVEIRA, Ana PG et al. Prevalence of
human papillomavirus types in women with pre-neoplastic and neoplastic cervical lesions
in the Federal District of Brazil. Mem. Inst. Oswaldo Cruz. [online]. Oct. 2003, vol.98, no.7
[cited 10 March 2005], p.879-883. Available from World Wide Web:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S007402762003000700003&lng=en&nrm=iso>. ISSN 0074-0276
MÉTODO
Dedutivo: X
Indutivo:
Abdutivo:
PROBLEMA (transcrever do texto)
As a contribution to the public health authorities in planning prophylactic and therapeutic
vaccine strategies, we describe the prevalence of human papillomavirus (HPV) types in
women presenting abnormal cytological results in Pap smear screening tests in the
Federal District, Central Brazil.(Abstract)
In contrast to what is observed in developed countries, cervical cancer mortality in Brazil
is still high.(Introdução)
HIPÓTESE anterior (transcrever do texto)
The chronic infection by certain types of human papillomavirus (HPV) is definitely related
to the incidence of cervical cancer (Lorincz et al. 1992, IARC 1995) and the HPVs -16, 18, -31, -33, -35, -45, -51, -52, and -58 can now be considered as cervical carcinogenic
agents (Muñoz 2000). Squamous carcinomas and adenocarcinomas are the most
frequent cervical neoplasias, and may develop from intraepithelial lesions, easily detected
in preventive cytological exams (Sherman et al. 1994).
Relação normalizada
HPV esta relacionado com lesões pré-neoplasticas e neoplásticas
a)A infecção por certos tipos de HPV pode ser a causa do câncer cervical de várias
mulheres
b) O HPV-16 é o mais comum na nossa população
Antecedente: HPV, diversos tipos / Papillomavirus Humano
Tipo de relação: causa / "causes", T147 UMLS SN
Conseqüente: lesões pré-neoplasticas e neoplásticas em mulheres, câncer cervical,
neoplasias / Infecções Tumorais por Vírus, Neoplasias do Colo
Citações: (Lorincz et al. 1992, IARC 1995), (Muñoz 2000), (Sherman et al. 1994).
MANIFESTAÇÃO
Resultado:
Medida: prevalência
Contexto:
Ambiente:
Local: Distrito Federal, Brasil
Tempo:
Grupo: mulheres
Metodologia:
CONCLUSÕES
Observações:
Notas
[*] Participaram desta pesquisa como Bolsistas de Iniciação Científica Ariane Silva Santa Rita
Ferreira, Henrique Mendonça, Vera Rolim
[1] XML- Extensible Markup Language, Linguagem de Marcação Extensível ,um padrão do W3C.
<http://www.w3c.org/xml>
[2] Ver definição de agentes de software na Wikipedia em
<http://en.wikipedia.org/wiki/Software_agents>
[3] Ver a definição de Binger Hjorland em
<http://www.db.dk/bh/Core%20Concepts%20in%20LIS/articles%20a-z/aboutness.htm>
Referências bibliográficas
ALVES_MAZZOTTI, Alda; GEWANDSZNAJDER, Fernando. O Método nas Ciências naturais e
sociais: pesquisa quantitativa e qualitativa. São Paulo : Pioneira Thomson Learning, 2002.
BACON, Francis. Novum organum. São Paulo : Abril Cultural, 1973. (Coleção Os pensadores, 13).
BARRETO, Aldo de Albuquerque. A oferta e a demanda da informação: condições técnicas,
econômicas e políticas. Ciência da Informação, Brasília, v..28, n.2, maio/ago. 1999. p.168-142.
Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019651998000200003&lng=pt&nrm=iso>. Acesso em 18 junho 2005.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific American,
May, 2001. Disponível em <http://www.scian.com/2001/0501issue/0501berners-lee.html>, Acesso
em 24 maio 2001.
CARR, L.; MILES-BOARD, T.; WOUKEU, A.; WILLS, G.; HALL, W. The case for explicit knowledge
in documents. In: THE ACM SYMPOSIUM ON DOCUMENT ENGINEERING, 2004, Milwaukee,
Wiscosin. Proceedings... Milwaukee: ACM, 2004, p. 90-98. Disponível em:
<http://www.eprints.ecs.soton.ac.uk/9360/> Acesso em: 07 ago. 2005.
DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the Semantic
Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI Core e-Science
Programme). 2001.
DESCARTES, René. Discurso do método. São Paulo : Martin Claret, 2005. (Coleção Obra prima de
cada autor).
GARDIN, Jean-Claude. Vers un remodelage des publications savantes: ses rapports avec sciences
de l'information. In: Chaudiron, Stéphane, Fhlur, Christian. Filtrage et résumé automatique de l'
information sur les réseaux., Conference invitee - Colloque ISKO-France, 3. 5-6 juillet, 2001.
Univesité de Nanterre - Paris X, 2001.
GROSS, Alan G. The Rhetoric of Science. Cambridge, Massachusetts; Londres, Inglaterra :
Harvard University Press,1990.
HEMPEL, Karl. Aspects of scientific explanation and other essays in the philosophy of science. New
York : Free Press, 1965.
HOFFMANN, Michael. Is there a "Logic" of Abduction? In: CONGRESS OF THE IASS- AIS
International Association for Semiotics Studies, Guadalajara, Mexico, 1997, 6th, Proceeedings...
Disponível em <http://www.unibielefeld.de/idm/personen/mhoffman/papers/abduction-logic.html>.
Acesso em 14 dez. 2005.
HUTCHINS, John. On the structure of scientific texts. In: UEA Papers in Linguistics, 5 th., 1977,
Norwich. Proceedings...Norwich, UK: University of East Anglia, 1977. p. 18-39.Disponível em:
<http://ourworld.compuserve.com/homepages/wjhutchins/UEAP/L-1977.pdf>. Acesso em: 30 mar.
2006.
KANDO, Noriko. Text-level structure of research papers: implications for text-based information
processing systems. In: ANNUAL BCS-IRSG COLLOQUIUM ON IR RESEARCH, 19th., 1997,
Aberdeen. Proceedings... Aberdeen, Scotland: Springer-Verlag, 1997. p. 68-81. Disponível em :
<http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:Da9bLQqHqRQJ:research.nii.ac.jp/~k
ando/>. Acesso em: 03 out. 2005.
KANDO, Noriko. Text structure analysis as a tool to make retrieved documents usable. In:
INTERNATIONAL WORKSHOP ON INFORMATION RETRIEVAL WITH ASIAN LANGUAGES, 4th.,
1999, Taipei. Proceedings... Taipei, Taiwan: Academia Sinica, 1999. p. 126-135. Disponível em:
<http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:ZFHr2MhHmWYJ:research.nii.ac.jp/~
kando/>. Acesso em: 03 out. 2005.
KANT, Immanoel. Crítica da Razão Pura. São Paulo : Nova Cultural, 1991. (Coleção os
Pensadores, 7).
KINTSH, Walter; VAN DIJK, Teun A. Towards a model of text comprehension and production.
Psycological Review, v. 84, n. 5, Sept. 1972. p.363-393.
KOBASHI, Nair. A elaboração de informações documentais: em busca de uma metodologia. Tese
(doutorado), Escola de Comunicação e Artes, USP. São Paulo, 1994.
LANGER, Hangen; LÜNGEN, Harald; BAYERL, Petra Sakia. Text Type Structure and Logical
Document Structure. 2004. Disponível em
<http://acl.ldc.upenn.edu/acl2004/discourseannotation/pdf/langer.pdf>. Acesso em 8 de nov. 2005.
LÉVY, Pierre, As tecnologias da inteligência: o futuro do pensamento na era da informática. Rio de
Janeiro : Ed. 34, 1993. 208 p. (Coleção Trans).
LUHN, H. P. Keyword-in-context Index for Technical Literature (KWIC Index)
Yorktown Heights, NY, International Business Machines Corp, 1959.
MEADOWS, Arthur Jack. A comunicação científica. Brasília : Briquet de Lemos, 1999.
MARCONDES, Carlos H. From scientific communication to public knowledge: the scientific article
Web published as a knowledge base. In: Egelen, Jan, Dobreva, Milena, ed. ICCC ElPub -
INTERNATIONAL CONFERENCE ON ELECTRONIC PUBLISHING, Leuven, Bélgica, 2005, 9,
Proceedings... Leuven, Bélgica, 2005. p.119-27. Disponível em <http://elpub.scix.net>
MARCONDES, Carlos H; MENDONÇA, Marília A. R; MALHEIROS, Luciana. A estrutura dos
elementos de metodologia científica no textos de artigos de periódicos eletrônicos em Ciências da
Saúde. In: International Conference on Health Information and Libraries, 9, Salvador, Bahia, Brasil,
Proceedings... Salvador, 2005. Disponível em
<http//www.icml9.org/program/track5/public/documents/Carlos Henrique Marcondes-112049.doc>.
MARCONDES, Carlos H. Da comunicação científica ao conhecimento público: artigos científicos
digitais como bases de conhecimento. In: ENANCIB - Encontro da Associação Nacional de
Pesquisa e Pós-graduação em Ciência da Informação, 6, nov. 2005, Florianópolis, Santa Catarina,
Brasil, Anais... , 2005. (Anais em CD-ROM).
MARCONDES, Danilo. Filosofia analítica. Rio de Janeiro : Jorge Zahar, 2004. (Coleção Passo a
passo).
MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia científica. São Paulo : Editora
Atlas, 2004.
MATTAR NETO, José Augusto. Metodologia científica na era da informática. São Paulo : Saraiva,
2002.
MIRANDA, Antonio; SIMEÃO, Elmira. A conceituação de massa documental e o ciclo de interação
entre tecnologia e o registro do conhecimento. DataGramaZero, v.3, n. 4, ago. 2002. Disponível em
<http://www.dgz.org/ago02/Art_03.htm>, acesso em 15 nov. 2003.
OLIVA, Alberto. Kuhn: o normal e o revolucionário na reprodução da racionalidade científica. In:
PORTOCARRERO, Vera (org). Filosofia, história e sociologia das ciências. Rio de Janeiro : Ed.
FIOCRUZ, 1994. p. 67-102.
PAICE, Chris D.; JONES, Paul A. The identification of important concepts in highly structured
technical papers. In: ANNUAL INTERNATIONAL ACM/SIGIR CONFERENCE ON RESEARCH
AND DEVELOPMENT IN INFORMATION RETRIEVAL, 16th., 1993, Pittsburgh. Proceedings...
Pittsburgh, PA: ACM, 1993. p. 69-78. Disponível em:
<http://www.ils.unc.edu/~cablake/inls110_S06/Refs/PaiceJones.pdf>. Acesso em: 30 abr. 2006.
POPPER, Karl. A lógica da pesquisa científica. São Paulo : Ed. Cultrix, Ed. USP, 2001.
SALTON, G.; MCGILL, M. J. Introduction to Modern Information Retrieval. New York : McGraw-Hill
Book Company, 1983.
SMIT, Johanna. Análise documentária: análise da síntese. Brasília : IBICT, 1987.
SOWA, John. Knowledge representation: logical, philosophical and computacional foudations.
Pacific Grove : Brooks/Cole, 2000.
TEUFEL, Simone. Meta-discourse markers and problem-structuring in scientific articles. In:
WORKSHOP DISCOURSE STRUCTURE AND DISCOURSE MARKERS, 1998, Montreal.
Proceedings...Montreal: ACL, 1998. p. 43-49. Disponível em:
<http://acl.ldc.upenn.edu/w/w98/0307.pdf>. Acesso em: 08 nov. 2005.
ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia, São Paulo : Ed. da Universidade de
São Paulo, 1979.
Sobre os autores / About the Authors:
Carlos H. Marcondes
[email protected]
Departamento de Ciência da Informação
Marília A. R. Mendonça
[email protected]
Departamento de Ciência da Informação
Luciana R. Malheiros
[email protected]
Departamento de Fisiologia e Farmacologia
Universidade Federal Fluminense, Niterói - RJ, Brasil
Download