XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques Universidade do Minho Guimarães/Braga - Portugal 20 -22, Nov. 2002 III Conf. da APSI 1 Objectivo da Comunicação Propor a anotação em XML dos registos paroquiais (RPs) – baptizado, casamento e óbito – de modo a construir uma base documental que suporte o estudo da evolução demográfica segundo o MRP (Método de Reconstituição de Paróquias) 20 -22, Nov. 2002 III Conf. da APSI 2 Objectivo da Comunicação Constitui-se assim uma base mais rica que as tradicionais bases de dados paroquiais no sentido em que se abrem novas possibilidades de exploração da informação 20 -22, Nov. 2002 III Conf. da APSI 3 Plano da Comunicação Caracterização do contexto de trabalho SEED XML Os RPs e a Aquisição de dados Os RPs em XML Anotação Edição e Validação Processamento Potencialidades da Anotação 20 -22, Nov. 2002 III Conf. da APSI 4 Caracterização do contexto de trabalho Estudo da Evolução Demográfica com base no levantamento dos registos paroquiais seguindo o MRP; o SEED Processamento de documentos estruturados com base na sua anotação em XML 20 -22, Nov. 2002 III Conf. da APSI 5 SEED (estudo evolução demográfica) Sistema informático para Auxiliar os Demógrafos na realização das análises dos dados (indivíduos+famílias) que lhes permitem compreender a evolução do comportamento das populações (rurais e urbanas) ao longo dos séculos e em zonas distintas 20 -22, Nov. 2002 III Conf. da APSI 6 SEED: Objectivo do Estudo Permite o estudo da Fecundidade Nupcialidade Mortalidade ..... sendo suportado pelo MRP que se baseia no cruzamento de registos de Baptizado Casamento Óbito 20 -22, Nov. 2002 III Conf. da APSI 7 SEED: Arquitectura para Análise de Dados e Extracção de Conhecimento 5 3 Módulo Dedutivo 2 Base de Dados Central Extracção de Dados Transformação de Dados Sistema Baseado em Conhecimento Módulo de Consolidação de Dados Módulo OLAP/EIS Sistema de Informação Geográfica 1 Aquisição de Dados 4 Bases de Dados Sistema de Raciocínio Baseado em Casos 20 -22, Nov. 2002 III Conf. da APSI Módulo de Descoberta de Conhecimento 8 Anotação de documentos em XML XML: meta-linguagem para anotação de documentos organizados em tipos Com XML podem definir-se sistemas de anotação (linguagens específicas) para: cartas, memorandos, relatórios, manuais, poemas, certidões, declarações, petições, exames, pautas, horários, etc ... 20 -22, Nov. 2002 III Conf. da APSI 9 Anotação de documentos em XML DTD ou XML-Schema: para cada tipo, define as marcas possíveis, seus atributos e a maneira como se agrupam <!ELEMENT carta (remete, destino, data, assunto, abertura, corpo, fecho)> < xs:element name = “carta”> <xs:complexType> <xs:sequence> <xs:element name = “remete”> ... <xs: element name = “fecho”> </xs:sequence> </xs:complexType> </ xs:element > 20 -22, Nov. 2002 III Conf. da APSI 10 Anotação de documentos em XML Um documento anotado: evidencia a sua estrutura geral e a interpretação de elementos nele contidos, sem informação quanto à formatação ou transformação <livro> <abertura>Este livro hade servir ...</abertura> <registo> Aos <data valor=“18000102” deQue=“Bapt”>dois dias do mes de Janeiro do anno de mil e oitocentos</data>, n’esta <local>Igreja Paroquial da Villa das Lages do Pico</local> ... </registo> </livro> 20 -22, Nov. 2002 III Conf. da APSI 11 Anotação de documentos em XML Um documento anotado: pode ser validado e posteriormente processado Validar = verificar a estrutura face ao DTD/Schema (Parsing) Processar = formatar | transformar | pesquisar | extrair 20 -22, Nov. 2002 III Conf. da APSI 12 Anotação de documentos em XML XSL: linguagem para processamento de documentos anotados XSLT – linguagem de transformação Xpath – linguagem de selecção XSL Formating Objects – linguagem para especificação de formatações 20 -22, Nov. 2002 III Conf. da APSI 13 Plano da Comunicação 20 -22, Nov. 2002 III Conf. da APSI 14 Caracterização do contexto de trabalho SEED XML Os RPs e a Aquisição de dados Os RPs em XML Anotação Edição e Validação Processamento Potencialidades da Anotação Os RPs e a Aquisição de dados Como era Leitura local e exaustiva dos RPs extracção manual dos dados necessários para reconstituição de famílias bases de dados paroquiais 20 -22, Nov. 2002 III Conf. da APSI 15 Os RPs e a Aquisição de dados Como poderia ser Digitalização integral do documento anotação processamento automático bases de dados, etc. ... 20 -22, Nov. 2002 III Conf. da APSI 16 Os RPs e a Aquisição de dados Devido às limitações actuais do SW para OCR, Como tem de ser Edição/Anotação manual auxiliada do documento integral processamento automático bases de dados, etc. ... 20 -22, Nov. 2002 III Conf. da APSI 17 Plano da Comunicação Caracterização do contexto de trabalho SEED XML Os RPs e a Aquisição de dados Os RPs em XML Anotação Edição e Validação Processamento Potencialidades da Anotação 20 -22, Nov. 2002 III Conf. da APSI 18 Anotação de RPs em XML A Anotação dos Registos Paroquiais requer a criação de um novo dialecto de XML específico para essa família de documentos: Schema-RP 20 -22, Nov. 2002 III Conf. da APSI 19 Anotação de RPs em XML As grandes decisões: 20 -22, Nov. 2002 III Conf. da APSI 20 DTD versus XML-Schema 3 Sistemas de Anotação versus 1 único Escolha dos Elementos apropriados e seus Atributos Anotação de RPs em XML 1ªfase: Elementos para identificar os dados explícitos no texto: nome, morada, idade, profissão, ... Elementos para identificar a “personagem” a quem os dados se referem: noivo, noiva, falecido, pai, mãe, ....... O mesmo Elemento é aberto várias vezes com conteúdos diversos 20 -22, Nov. 2002 III Conf. da APSI 21 Anotação de RPs em XML 2ªfase: Elementos que identificam em simultâneo os dados explícitos no texto e a “personagem” a quem se referem: noivo.nome, noivo.morada, noiva.idade, noiva.profissão, ... O número de Elementos distintos aumenta consideravelmente; e a sua ortografia é pesada 20 -22, Nov. 2002 III Conf. da APSI 22 Anotação de RPs em XML 3ªfase: Elementos genéricos que identificam os dados explícitos no texto: nome, morada, idade, profissão, ... combinados com Atributos cujos valores (“noivo”, “noiva”, “pai”, “mãe”) especificam a “personagem” a quem se referem: nome - deQuem, local - deQue, Idade - deQuem, data - deQue, ... O número de Elementos e Atributos é reduzido; o sistema de anotação fica bem legível 20 -22, Nov. 2002 III Conf. da APSI 23 Anotação em Schema-RP: Exemplo de 1 Registo de casamento <registo> <notaMargem> <numero>6</numero> <nome deQuem="individuo">Francisca Maria</nome> </notaMargem> <texto>Aos <data deQue="obito" deQuem="individuo" norm="1876-01-28">vinte e oito dias do mez de janeiro do anno de mil oitocentos setenta e seis</data>, ás <hora deQue="obito" deQuem="individuo" norm="02:00">duas horas da noite</hora>, <local deQue="obito" deQuem="individuo" tipo="lugar">em huma caza da Canada do Ajudante, ...... E para constar lavrei em duplicado este assento, que assigno. ???????.__ </texto> <assinatura>O'Vigario Antonio Homem da Costa</assinatura> </registo> 20 -22, Nov. 2002 III Conf. da APSI 24 Edição/Validação de RPs em XML Características desejáveis para um Editor: Associação fácil do DTD/XML-Schema ao novo documento Escrita ágil do novo texto base, ou fácil abertura dum existente Indicação dos Elementos/Atributos que se podem escolher em cada momento Indicação dos Valores possíveis para cada Atributo Integração dum Parser 20 -22, Nov. 2002 III Conf. da APSI 25 Edição/Validação de RPs em XML Alternativas: XML-Spy (Altova) X-Metal (SoftQuad) Document Editor (Altova) Por satisfazer bem todos os requisitos a escolha recaiu sobre o XML-Spy 20 -22, Nov. 2002 III Conf. da APSI 26 Edição/Validação: Exemplo de uma sessão 20 -22, Nov. 2002 III Conf. da APSI 27 Edição/Validação de RPs em XML Fases da Edição: Anotação com os Elementos (inserção das “marcas” abertura/fecho) Anotação com os Atributos (adição dos atributos a cada elemento e indicação do seu valor em função do contexto) 20 -22, Nov. 2002 III Conf. da APSI 28 Processamento de RPs em XML Caso 1: Visualização em HTML Foi criada uma style-sheet XSL para gerar páginas HTML a partir de um livro de registos anotado em Schema-RP Assim, através de browser W W W é possível ver os registos num formato análogo ao original 20 -22, Nov. 2002 III Conf. da APSI 29 Visualização em HTML: Exemplo 20 -22, Nov. 2002 III Conf. da APSI 30 Processamento de RPs em XML Caso 2: Geração de SQL para alimenção da BDP Foi criada uma style-sheet XSL para gerar SQL com vista a inserir nas tabelas de Indivíduos e Famílias (da BDP) os dados relevantes que se podem extrair de cada registo anotado em Schema-RP As complexas relações familiares e a dificuldade na identificação de Indivíduos não permitiu a alimentação automática (em 1 só passo) da BDP 20 -22, Nov. 2002 III Conf. da APSI 31 Processamento de RPs em XML Caso 2: Geração de SQL para alimenção da BDP Solução: sistema semi-automático, em 2 passos: 1ºpasso: via uma interface (interactiva) em VB todos os Indivíduos são identificados e certos campos codificados; daqui resulta um novo doc. XML sem ambiguidades e com “chaves” 2ºpasso: é gerado código SQL para inserção dos registos na BDP a partir desse novo documento XML 20 -22, Nov. 2002 III Conf. da APSI 32 Plano da Comunicação 20 -22, Nov. 2002 III Conf. da APSI 33 Caracterização do contexto de trabalho SEED XML Os RPs e a Aquisição de dados Os RPs em XML Anotação Edição e Validação Processamento Potencialidades da Anotação Potencialidades da Anotação Para além da BD Paroquial que suporte as análises fica-se com uma base documental com os documentos originais disponíveis para formatação (visualização/impressão) pesquisa e criação de índices análises linguísticas diversas (ortografia, estilos, análises de assinaturas, etc.) ... 20 -22, Nov. 2002 III Conf. da APSI 34 Conclusão No contexto da Exploração de Registos Paroquiais com vista à construção dum Repositório de Conhecimento Demográfico, Propôs-se o uso de uma linguagem específica XML para armazenamento integral dos documentos anotados, Com vista a aumentar a automatização da aquisição e as potencialidades de exploração 20 -22, Nov. 2002 III Conf. da APSI 35 Conclusão O XML-Schema para a linguagem Schema-RP foi criado A edição está (semi-)resolvida Foram desenvolvidas duas transformações (visualização HTML e geração de SQL) O sistema está aberto a novas aplicações ... e a novas interfaces: multi-modais, para PDAs 20 -22, Nov. 2002 III Conf. da APSI 36 Equipe Os Autores Consultores Orlando Belo Paulo Novais 20 -22, Nov. 2002 III Conf. da APSI 37 Estagiários Grupos de Projecto (Opção 3) Colaboradores Anália Lourenço Sérgio Passos Américo, Jorge, Sandra Lopes Cristina, Sandra António, Celeste, Paula 20 -22, Nov. 2002 III Conf. da APSI 38 Alexandre, António, Manuel Candida, M.Manuel, Nádea Pedro, Solange Rafael Félix Patrícia Leite Fernanda Faria