Linguagens para Apresentação de Texto e Multimídia Introdução Documento é a unidade de informação (Ex: E-mail, Página Web, Livro, Capítulo, Passagem, etc.) Documento : Sintaxe Estilo de apresentação Texto + Estrutura + Outras Mídias + Meta Dados Semântica Metadados: são dados sobre os dados armazenados Metadados descritivos : autor, data de publicação, tamanho, etc. Metadados semânticos : coleção de artigos biomédicos Ontologias: taxonomia hierárquica de termos descrevendo áreas de conhecimento Padrões: MARC(Machine Readabll Cataloging Record), Z39.2, BibTex, RDF SGML (The Standard Generalized Markup Language, reconhecida como padrão em 1986, padrão ISO (8879)) é uma meta linguagem que procura balancear todas as característica dos documentos. (Antes das linguagens, veremos algumas características de textos) Textos Codificação: EBCDIC-7bits; ASCII-7bits; ISO-LATIN-8bits; UNICODE(ISSO-10616)-16bits; Formatos Binários: Word, etc ASCII: Tex, RTF(Rich Text Format) Formatos para Impressão: PDF e Postscript Formatos para Troca: MIME (Multiporpouse Internet Mail Exchange) Textos comprimidos: Zip Teoria da Informação A quantidade de informação em um documento é proporcional a distribuição de símbolos nele Ex: um texto com apenas um símbolo conduz pouca informação Definição Entropia (quantifica o conteúdo de informação do texto) s o número de símbolos em um alfabeto Sejam: pi a probabilidade de ocorrência do i-ésimo símbolo (baseado na frequência de ocorrência do símbolo) E = - Σ∀i pi log2 pi Exemplos: seja s=2 então se p1 = p2 = 0.5 >==> E=1 se p1 = 1 p2 = 0 >==> E=0 Freqüência de ocorrência de palavras: Lei de Zipf para textos em linguagem natural Objetivo: Capturar a distribuição de freqüências entre palavras A lei de Zipf Sejam: freqk o número de ocorrência da palavra k em um texto < k1, k2, k3, ..., kt> ranking de palavras onde i<j => freqk > freqk i j θ uma constante que depende do texto, em geral, 1,5 < θ < 2,0. Então: freqk = 1/ i θ * freqk i 1 Obs: as palavras mais freqüentes no texto são chamadas Stopwords Distribuição de palavras entre documentos: fração de documentos contêm uma palavra com freqüência k. Modelos derivados de distribuição binomial ou distribuição de Poisson Baseado na distribuição binomial, sendo p, α parâmetros empíricos dependentes da coleção, temos F(k) = C α+k-1, k pk (1+p)-α-k onde C α+k-1, k é o número de combinaões possíveis de α+k-1 elementos combinados em subconjuntos de k elementos Tamanho do Vocabulário: Lei de Heaps. O tamanho do vocabulário de um texto com n palavras é V = k x nβ, onde k e β dependem da coleção, em geral 10 < k < 100 e 0 < β < 1. Tamanho das palavras: média é constante; tamanha da maior palavra cresce com o texto; Modelo de similaridade: distância de edição entre duas strings é o número de inserções, remoções e substituições de caracteres necessários para transformar uma palavra na outra Introdução às Linguagens de Marcas (Markup Languages) Marcas é tudo que não acrescenta conteúdo ao documento, por exemplo, aparência do texto Existem dois tipos de marcação: Marcação procedimental: indicações de apresentação, escondidas do usuário(Word) ou visíveis ao usuário(Latex). Marcação descritiva: indicações da função ou propósito da informação contida no documento (XML) O documento é representado por três componentes: Conteúdo; Estrutura; Estilo. SGML (Standard Generalized Markup Language) É uma meta linguagem que define regras para definir linguagens de marcas Motivação: Definir uma linguagem de marcas para a apresentação de informações em texto; Reconhecida como padrão em 1986, padrão ISO (8879); Descrição da estrutura do documento pela DTD (Document Type Declaration) Exemplo: Figura 6.3 Pg 151 Livro Texto <!--SGML DTD for electronic messages --> <!ELEMENT e-mail - - (prolog, contents) > <!ELEMENT prolog - - (sender, address+, subject?, Cc*) > <!ELEMENT (sender I address I subject f Cc) - 0 (#PCDATA) > <!ELEMENT contents - - (par ( image I audio)+ > <!ELEMENT par - 0 (ref ( #PCDATA)+ > - 0 EMPTY > <!ELEMENT (image I audio) - - (#NDATA) > <!ATTLIST e-mail . id ID #REQUIRED date-sent DATE #REQUIRED public > status <!ATTLIST ref id IDREF #REQUIRED> <!ATTLIST (image I audio ) id ID <!--Example !"#$ %&of'use (#of (previous )%&'DTD--> *,++) <e-mail id=94108rbv date-sent=02101998> <prolog> <sender> Pablo Neruda </sender> <address> Federico Garcia Lorca </address> <address> Ernest Hemingway </address> <subject> Pictures of my house in Isla Negra <Cc> Gabriel Garcia Marquez </Cc> </prolog> <contents> <par> As promised in my previous letter, I am sending two digital pictures to show you my house and the splendid view of the Pacific Ocean from my bedroom (photo <ref idref=F2>). </par> <image id=F1> "photol.gif" </image> <image id=F2> "photo2.jpg" </image> <par> Regards from the South, Pablo. </contents> </e-mail> Figure 6.3 DTD for struct.uring electronic mails and an example of its use. HTML (HyperText Markup Language) Derivação do SGML para aplicação em hipertextos e multimídia Não requer referência a um DTD, embora exista um Possibilita links e mídias embarcadas tais como imagem e som Não há uma separação quanto a apresentação e conteúdo; Iniciativas de usar CSS (cascate style sheets) tiveram dificuldades de suporte por Browsers Exemplo (Figura 6.4 do Livro Texto) <html> <head> <title>HTML Example</title> <meta name=rby content="Just an example"> </head> <body> <hl>HTML Example</hl> <p> <hr> <p> HTML has many <i>tags</i>, among them: <u1> <li>links to other <a href=http://www.w3c.org/>pages</a> (from anchor), <li> paragraphs (p), headings (hl, h2, etc), font types (b, i), <1i> horizontal rules (hr). indented lists and items (u1, li), <li> image: (img), tables, forms, etc. </u1> <p> <hr> <p> ' '' ,+ * <img align=left src="at_work.gif"> </bodV> </html> HT'ML example __________________________________________________________________________ HTML has many tags, among them: • links to other pagei (a from anchor), • v paragraphs (p), heading (hl, h2, etc., font types (b, l), • horizontal rules (hr), indented lists and items (u1, li), • v images (img), tables, forms, etc. __________________________________________________________________________ This page is always under construction. Figure 6.4 Example of an HTML document and how it is seen in a browser. XML (eXtensible Markup Language) É uma meta linguagem mais simples e mais rígida que o SGM; XML tem 20% da complexidade e 80% da funcionalidade da SGML (Edwards 1997); O é DTD opcional; É um padrão para troca de informações entre diversas plataformas, pois possibilita a descrição de dados em um arquivo de formato texto Separa: conteúdo(texto), significado/estrutura(DTD) e apresentação(XSL: eXtended Style Language) que permite que documentos possam ser apresentado em diversos formatos; Aplicação Distribuição de parte do processamento para os clientes; Agentes inteligentes podem descobrir informações precisas na Web Armazenamento em Bases de Dados conciliando estrutura/diversidade de apresentação Exemplos BSML ou Bioinformatic Sequence Markup Language; CML permite descrever e visualizar moléculas químicas complexas; MathML ou Mathematical Markup Language: permite a formatação de fórmulas matemáticas e científicas; GedML ou Genealogical Data Markup Language: utilizada para codificação de dados genealógicos. Multimídia: Tipos de Mídia: texto, som , imagem e vídeo Formatos de armazenamento Exemplos: Som - MID, WAVE, MP3 Imagem - BMP(BitMapped), TIFF(Tagged Image File Format), JPEG(Joint Photoghraphic Experts Group), GIF(Graphic Interchange Format) Vídeo - MPEG(Moving Picture Experts Group), AVI, FLI Imagens Textuais Obtidas por meio de Scanner OCR extrai texto de imagens textuais Gráficos e Realidade Virtual Padrões definidos: 2D : CGM - Computer Graphic Metafile (ISO 8632) 3D : VRML (Virtual Reality Modeling Language) (ISSO/IEC 14772-1) HyTime (Hypermedia/Time-based Structuring Language) Metalinguagem (Arquitetura SGML) que define estruturas Hypermídia genéricas Permite o uso de DTDs Inclui: Localização complexa de documentos-objetos Relacionamentos entre documentos-objetos (hyperlinks) Dimensionamento entre associações de documentos-objetos