Apresentação - DI @ UMinho

Propaganda
XML na Demografia Histórica:
Anotação de Registos Paroquiais
Rafael Félix,
Fernanda Faria,
Maribel Santos,
Pedro Henriques
Universidade do Minho
Guimarães/Braga - Portugal
20 -22, Nov. 2002
III Conf. da APSI
1
Objectivo da Comunicação
Propor a anotação em XML
dos registos paroquiais (RPs)
– baptizado, casamento e óbito –
de modo a construir
uma base documental que suporte o estudo
da evolução demográfica segundo o MRP
(Método de Reconstituição de Paróquias)
20 -22, Nov. 2002
III Conf. da APSI
2
Objectivo da Comunicação
Constitui-se assim
uma base mais rica que as tradicionais
bases de dados paroquiais
no sentido em que se abrem novas
possibilidades de exploração da informação
20 -22, Nov. 2002
III Conf. da APSI
3
Plano da Comunicação

Caracterização do contexto de trabalho
SEED
 XML
Os RPs e a Aquisição de dados
Os RPs em XML
 Anotação
 Edição e Validação
 Processamento
Potencialidades da Anotação




20 -22, Nov. 2002
III Conf. da APSI
4
Caracterização do contexto de trabalho
Estudo da Evolução Demográfica com base no
levantamento dos registos paroquiais seguindo o
MRP; o SEED
Processamento de documentos estruturados com
base na sua anotação em XML
20 -22, Nov. 2002
III Conf. da APSI
5
SEED (estudo evolução demográfica)
Sistema informático para
Auxiliar os Demógrafos na realização das
análises dos dados (indivíduos+famílias) que
lhes permitem compreender a evolução do
comportamento das populações (rurais e
urbanas) ao longo dos séculos e em zonas
distintas
20 -22, Nov. 2002
III Conf. da APSI
6
SEED: Objectivo do Estudo
Permite o estudo da
Fecundidade
Nupcialidade
Mortalidade
.....
sendo suportado pelo MRP que se baseia no
cruzamento de registos de
Baptizado
Casamento
Óbito
20 -22, Nov. 2002
III Conf. da APSI
7
SEED: Arquitectura para Análise de
Dados e Extracção de Conhecimento
5
3
Módulo Dedutivo
2
Base
de
Dados
Central
Extracção de
Dados
Transformação
de Dados
Sistema Baseado em Conhecimento
Módulo de
Consolidação de Dados
Módulo OLAP/EIS
Sistema de Informação
Geográfica
1
Aquisição de Dados
4
Bases de
Dados
Sistema de Raciocínio Baseado
em Casos
20 -22, Nov. 2002
III Conf. da APSI
Módulo de Descoberta de
Conhecimento
8
Anotação de documentos em XML
XML: meta-linguagem para anotação de documentos
organizados em tipos
Com XML podem definir-se sistemas de anotação (linguagens
específicas) para:
cartas, memorandos, relatórios, manuais, poemas,
certidões, declarações, petições, exames, pautas,
horários, etc ...
20 -22, Nov. 2002
III Conf. da APSI
9
Anotação de documentos em XML
DTD ou XML-Schema: para cada tipo, define as
marcas possíveis, seus atributos e a maneira como
se agrupam
<!ELEMENT carta (remete, destino, data, assunto, abertura, corpo, fecho)>
< xs:element name = “carta”>
<xs:complexType>
<xs:sequence>
<xs:element name = “remete”>
...
<xs: element name = “fecho”>
</xs:sequence> </xs:complexType> </ xs:element >
20 -22, Nov. 2002
III Conf. da APSI
10
Anotação de documentos em XML
Um documento anotado: evidencia a sua
estrutura geral e a interpretação de
elementos nele contidos, sem informação
quanto à formatação ou transformação
<livro>
<abertura>Este livro hade servir ...</abertura>
<registo>
Aos <data valor=“18000102” deQue=“Bapt”>dois dias do mes de Janeiro do
anno de mil e oitocentos</data>, n’esta <local>Igreja Paroquial da Villa das
Lages do Pico</local> ...
</registo>
</livro>
20 -22, Nov. 2002
III Conf. da APSI
11
Anotação de documentos em XML
Um documento anotado: pode ser validado e
posteriormente processado
Validar = verificar a estrutura face ao DTD/Schema (Parsing)
Processar = formatar | transformar | pesquisar | extrair
20 -22, Nov. 2002
III Conf. da APSI
12
Anotação de documentos em XML
XSL: linguagem para processamento de
documentos anotados
XSLT – linguagem de transformação
Xpath – linguagem de selecção
XSL Formating Objects – linguagem para especificação de formatações
20 -22, Nov. 2002
III Conf. da APSI
13
Plano da Comunicação




20 -22, Nov. 2002
III Conf. da APSI
14
Caracterização do contexto de trabalho
 SEED
 XML
Os RPs e a Aquisição de dados
Os RPs em XML
 Anotação
 Edição e Validação
 Processamento
Potencialidades da Anotação
Os RPs e a Aquisição de dados
Como era
Leitura local e exaustiva dos RPs
 extracção manual dos dados necessários
para reconstituição de famílias
 bases de dados paroquiais
20 -22, Nov. 2002
III Conf. da APSI
15
Os RPs e a Aquisição de dados
Como poderia ser
Digitalização integral do documento
 anotação
 processamento automático
 bases de dados, etc. ...
20 -22, Nov. 2002
III Conf. da APSI
16
Os RPs e a Aquisição de dados
Devido às limitações actuais do SW para OCR,
Como tem de ser
Edição/Anotação manual auxiliada do
documento integral
 processamento automático
 bases de dados, etc. ...
20 -22, Nov. 2002
III Conf. da APSI
17
Plano da Comunicação

Caracterização do contexto de trabalho
 SEED
 XML
Os RPs e a Aquisição de dados

Os RPs em XML

Anotação
 Edição e Validação
 Processamento
Potencialidades da Anotação


20 -22, Nov. 2002
III Conf. da APSI
18
Anotação de RPs em XML
A Anotação dos Registos Paroquiais
requer
a criação de um novo dialecto de XML
específico para essa família de
documentos: Schema-RP
20 -22, Nov. 2002
III Conf. da APSI
19
Anotação de RPs em XML
As grandes decisões:



20 -22, Nov. 2002
III Conf. da APSI
20
DTD versus XML-Schema
3 Sistemas de Anotação versus 1
único
Escolha dos Elementos apropriados
e seus Atributos
Anotação de RPs em XML
1ªfase:
Elementos para identificar os dados explícitos
no texto:
nome, morada, idade, profissão, ...
Elementos para identificar a “personagem” a
quem os dados se referem:
noivo, noiva, falecido, pai, mãe, .......
O mesmo Elemento é aberto várias vezes com
conteúdos diversos
20 -22, Nov. 2002
III Conf. da APSI
21
Anotação de RPs em XML
2ªfase:
Elementos que identificam em simultâneo os
dados explícitos no texto e a
“personagem” a quem se referem:
noivo.nome, noivo.morada, noiva.idade, noiva.profissão,
...
O número de Elementos distintos aumenta
consideravelmente;
e a sua ortografia é pesada
20 -22, Nov. 2002
III Conf. da APSI
22
Anotação de RPs em XML
3ªfase:
Elementos genéricos que identificam os dados
explícitos no texto:
nome, morada, idade, profissão, ...
combinados com Atributos cujos valores (“noivo”, “noiva”,
“pai”, “mãe”) especificam a “personagem” a quem se
referem:
nome - deQuem, local - deQue,
Idade - deQuem, data - deQue, ...
O número de Elementos e Atributos é reduzido;
o sistema de anotação fica bem legível
20 -22, Nov. 2002
III Conf. da APSI
23
Anotação em Schema-RP:
Exemplo de 1 Registo de casamento
<registo>
<notaMargem>
<numero>6</numero>
<nome deQuem="individuo">Francisca Maria</nome>
</notaMargem>
<texto>Aos <data deQue="obito" deQuem="individuo"
norm="1876-01-28">vinte e oito dias do mez de janeiro
do anno de mil oitocentos setenta e seis</data>, ás
<hora deQue="obito" deQuem="individuo"
norm="02:00">duas horas da noite</hora>, <local
deQue="obito" deQuem="individuo" tipo="lugar">em huma
caza da Canada do Ajudante, ......
E para constar lavrei em duplicado este assento, que
assigno. ???????.__
</texto>
<assinatura>O'Vigario Antonio Homem da Costa</assinatura>
</registo>
20 -22, Nov. 2002
III Conf. da APSI
24
Edição/Validação de RPs em XML
Características desejáveis para um Editor:
 Associação fácil do DTD/XML-Schema
ao novo documento
 Escrita ágil do novo texto base, ou fácil
abertura dum existente
 Indicação dos Elementos/Atributos que
se podem escolher em cada momento
 Indicação dos Valores possíveis para
cada Atributo
 Integração dum Parser
20 -22, Nov. 2002
III Conf. da APSI
25
Edição/Validação de RPs em XML
Alternativas:
 XML-Spy (Altova)
 X-Metal (SoftQuad)
 Document Editor (Altova)
Por satisfazer bem todos os requisitos a
escolha recaiu sobre o XML-Spy
20 -22, Nov. 2002
III Conf. da APSI
26
Edição/Validação:
Exemplo de uma sessão
20 -22, Nov. 2002
III Conf. da APSI
27
Edição/Validação de RPs em XML
Fases da Edição:
 Anotação com os Elementos (inserção
das “marcas” abertura/fecho)
 Anotação com os Atributos (adição dos
atributos a cada elemento e indicação
do seu valor em função do contexto)
20 -22, Nov. 2002
III Conf. da APSI
28
Processamento de RPs em XML
Caso 1: Visualização em HTML
Foi criada uma style-sheet XSL para gerar
páginas HTML a partir de um livro de
registos anotado em Schema-RP
Assim, através de browser W W W é
possível ver os registos num formato
análogo ao original
20 -22, Nov. 2002
III Conf. da APSI
29
Visualização em HTML:
Exemplo
20 -22, Nov. 2002
III Conf. da APSI
30
Processamento de RPs em XML
Caso 2: Geração de SQL para alimenção da BDP
Foi criada uma style-sheet XSL para gerar SQL
com vista a inserir nas tabelas de Indivíduos e
Famílias (da BDP) os dados relevantes que se
podem extrair de cada registo anotado em
Schema-RP
As complexas relações familiares e a dificuldade na
identificação de Indivíduos não permitiu a
alimentação automática (em 1 só passo) da
BDP
20 -22, Nov. 2002
III Conf. da APSI
31
Processamento de RPs em XML
Caso 2: Geração de SQL para alimenção da BDP
Solução: sistema semi-automático, em 2
passos:
1ºpasso: via uma interface (interactiva) em VB
todos os Indivíduos são identificados e
certos campos codificados;
daqui resulta um novo doc. XML sem
ambiguidades e com “chaves”
2ºpasso: é gerado código SQL para inserção
dos registos na BDP a partir desse novo
documento XML
20 -22, Nov. 2002
III Conf. da APSI
32
Plano da Comunicação




20 -22, Nov. 2002
III Conf. da APSI
33
Caracterização do contexto de trabalho
 SEED
 XML
Os RPs e a Aquisição de dados
Os RPs em XML
 Anotação
 Edição e Validação
 Processamento
Potencialidades da Anotação
Potencialidades da Anotação
Para além da BD Paroquial que suporte as
análises
fica-se com uma base documental com os
documentos originais
disponíveis para
formatação (visualização/impressão)
pesquisa e criação de índices
análises linguísticas diversas (ortografia,
estilos, análises de assinaturas, etc.)
...
20 -22, Nov. 2002
III Conf. da APSI
34
Conclusão
No contexto da Exploração de Registos
Paroquiais com vista à construção dum
Repositório de Conhecimento Demográfico,
Propôs-se o uso de uma linguagem específica
XML para armazenamento integral dos
documentos anotados,
Com vista a aumentar a automatização da
aquisição e as potencialidades de
exploração
20 -22, Nov. 2002
III Conf. da APSI
35
Conclusão
O XML-Schema para a linguagem Schema-RP
foi criado
A edição está (semi-)resolvida
Foram desenvolvidas duas transformações
(visualização HTML e geração de SQL)
O sistema está aberto a novas aplicações
... e a novas interfaces: multi-modais,
para PDAs
20 -22, Nov. 2002
III Conf. da APSI
36
Equipe


Os Autores
Consultores
 Orlando
Belo
 Paulo Novais


20 -22, Nov. 2002
III Conf. da APSI
37
Estagiários
Grupos de Projecto (Opção 3)
Colaboradores





Anália Lourenço
Sérgio Passos
Américo, Jorge,
Sandra Lopes
Cristina, Sandra
António, Celeste,
Paula






20 -22, Nov. 2002
III Conf. da APSI
38
Alexandre, António,
Manuel
Candida, M.Manuel,
Nádea
Pedro, Solange
Rafael Félix
Patrícia Leite
Fernanda Faria
Download