Linguagens para Apresentação de Texto e Multimídia

Propaganda
Linguagens para Apresentação de Texto e Multimídia
Introdução
Documento é a unidade de informação (Ex: E-mail, Página Web, Livro,
Capítulo, Passagem, etc.)
Documento :
Sintaxe
Estilo de apresentação
Texto + Estrutura +
Outras Mídias +
Meta Dados
Semântica
Metadados: são dados sobre os dados armazenados
Metadados descritivos : autor, data de publicação, tamanho, etc.
Metadados semânticos : coleção de artigos biomédicos
Ontologias: taxonomia hierárquica de termos descrevendo áreas
de conhecimento
Padrões: MARC(Machine Readabll Cataloging Record), Z39.2,
BibTex, RDF
SGML (The Standard Generalized Markup Language, reconhecida
como padrão em 1986, padrão ISO (8879)) é uma meta linguagem que
procura balancear todas as característica dos documentos.
(Antes das linguagens, veremos algumas características de textos)
Textos
Codificação: EBCDIC-7bits; ASCII-7bits; ISO-LATIN-8bits;
UNICODE(ISSO-10616)-16bits;
Formatos
Binários: Word, etc
ASCII: Tex, RTF(Rich Text Format)
Formatos para Impressão: PDF e Postscript
Formatos para Troca: MIME (Multiporpouse Internet Mail Exchange)
Textos comprimidos: Zip
Teoria da Informação
A quantidade de informação em um documento é proporcional a distribuição de
símbolos nele
Ex: um texto com apenas um símbolo conduz pouca informação
Definição Entropia (quantifica o conteúdo de informação do texto)
s o número de símbolos em um alfabeto
Sejam:
pi a probabilidade de ocorrência do i-ésimo símbolo (baseado na
frequência de
ocorrência do símbolo)
E = - Σ∀i pi log2 pi
Exemplos: seja s=2 então
se p1 = p2 = 0.5
>==>
E=1
se p1 = 1 p2 = 0
>==>
E=0
Freqüência de ocorrência de palavras: Lei de Zipf para textos em
linguagem natural
Objetivo: Capturar a distribuição de freqüências entre palavras
A lei de Zipf
Sejam:
freqk o número de ocorrência da palavra k em um texto
< k1, k2, k3, ..., kt> ranking de palavras onde i<j => freqk > freqk
i
j
θ uma constante que depende do texto, em geral, 1,5 < θ < 2,0.
Então:
freqk = 1/ i θ * freqk
i
1
Obs: as palavras mais freqüentes no texto são chamadas Stopwords
Distribuição de palavras entre documentos: fração de documentos
contêm uma palavra com freqüência k. Modelos derivados de
distribuição binomial ou distribuição de Poisson
Baseado na distribuição binomial, sendo p, α parâmetros empíricos
dependentes da coleção, temos
F(k) = C α+k-1, k pk (1+p)-α-k
onde C α+k-1, k é o número de combinaões possíveis de α+k-1 elementos
combinados em subconjuntos de k elementos
Tamanho do Vocabulário: Lei de Heaps. O tamanho do vocabulário
de um texto com n palavras é V = k x nβ, onde k e β dependem da
coleção, em geral 10 < k < 100 e 0 < β < 1.
Tamanho das palavras: média é constante; tamanha da maior
palavra cresce com o texto;
Modelo de similaridade: distância de edição entre duas strings é o
número de inserções, remoções e substituições de caracteres
necessários para transformar uma palavra na outra
Introdução às Linguagens de Marcas (Markup Languages)
Marcas é tudo que não acrescenta conteúdo ao documento, por exemplo,
aparência do texto
Existem dois tipos de marcação:
Marcação procedimental: indicações de apresentação, escondidas do
usuário(Word) ou visíveis ao usuário(Latex).
Marcação descritiva: indicações da função ou propósito da informação contida
no documento (XML)
O documento é representado por três componentes: Conteúdo; Estrutura; Estilo.
SGML (Standard Generalized Markup Language)
É uma meta linguagem que define regras para definir linguagens de marcas
Motivação: Definir uma linguagem de marcas para a apresentação de
informações em texto;
Reconhecida como padrão em 1986, padrão ISO (8879);
Descrição da estrutura do documento pela DTD (Document Type Declaration)
Exemplo: Figura 6.3 Pg 151 Livro Texto
<!--SGML DTD for electronic messages -->
<!ELEMENT e-mail
- - (prolog, contents) >
<!ELEMENT prolog
- - (sender, address+, subject?, Cc*) >
<!ELEMENT (sender I address I subject f Cc) - 0 (#PCDATA) >
<!ELEMENT contents
- - (par ( image I audio)+ >
<!ELEMENT par
- 0 (ref ( #PCDATA)+ >
- 0 EMPTY >
<!ELEMENT (image I audio) - - (#NDATA) >
<!ATTLIST e-mail
.
id
ID
#REQUIRED
date-sent
DATE
#REQUIRED
public >
status
<!ATTLIST ref
id
IDREF
#REQUIRED>
<!ATTLIST (image I audio )
id
ID
<!--Example
!"#$ %&of'use
(#of
(previous
)%&'DTD-->
*,++)
<e-mail id=94108rbv date-sent=02101998>
<prolog>
<sender> Pablo Neruda </sender>
<address> Federico Garcia Lorca </address>
<address> Ernest Hemingway </address>
<subject> Pictures of my house in Isla Negra
<Cc> Gabriel Garcia Marquez </Cc>
</prolog>
<contents>
<par>
As promised in my previous letter, I am sending two digital
pictures to show you my house and the splendid view of the
Pacific Ocean from my bedroom (photo <ref idref=F2>).
</par>
<image id=F1> "photol.gif" </image>
<image id=F2> "photo2.jpg" </image>
<par>
Regards from the South, Pablo.
</contents>
</e-mail>
Figure 6.3 DTD for struct.uring electronic mails and an example of its use.
HTML (HyperText Markup Language)
Derivação do SGML para aplicação em hipertextos e multimídia
Não requer referência a um DTD, embora exista um
Possibilita links e mídias embarcadas tais como imagem e som
Não há uma separação quanto a apresentação e conteúdo;
Iniciativas de usar CSS (cascate style sheets) tiveram dificuldades de suporte
por Browsers
Exemplo (Figura 6.4 do Livro Texto)
<html>
<head> <title>HTML Example</title>
<meta name=rby content="Just an example">
</head>
<body> <hl>HTML Example</hl>
<p>
<hr>
<p>
HTML has many <i>tags</i>, among them: <u1>
<li>links to other <a href=http://www.w3c.org/>pages</a>
(from anchor),
<li> paragraphs (p), headings (hl, h2, etc), font types (b, i),
<1i> horizontal rules (hr). indented lists and items (u1, li),
<li> image: (img), tables, forms, etc.
</u1>
<p>
<hr>
<p>
' '' ,+
*
<img align=left src="at_work.gif">
</bodV>
</html>
HT'ML example
__________________________________________________________________________
HTML has many tags, among them:
• links to other pagei (a from anchor),
• v paragraphs (p), heading (hl, h2, etc., font types (b, l),
• horizontal rules (hr), indented lists and items (u1, li),
• v images (img), tables, forms, etc.
__________________________________________________________________________
This page is always under construction.
Figure 6.4 Example of an HTML document and how it is seen in a
browser.
XML (eXtensible Markup Language)
É uma meta linguagem mais simples e mais rígida que o SGM;
XML tem 20% da complexidade e 80% da funcionalidade da SGML (Edwards
1997);
O é DTD opcional;
É um padrão para troca de informações entre diversas plataformas, pois
possibilita a descrição de dados em um arquivo de formato texto
Separa: conteúdo(texto), significado/estrutura(DTD) e apresentação(XSL:
eXtended Style Language) que permite que documentos possam ser
apresentado em diversos formatos;
Aplicação
Distribuição de parte do processamento para os clientes;
Agentes inteligentes podem descobrir informações precisas na Web
Armazenamento em Bases de Dados conciliando estrutura/diversidade de
apresentação
Exemplos
BSML ou Bioinformatic Sequence Markup Language;
CML permite descrever e visualizar moléculas químicas complexas;
MathML ou Mathematical Markup Language: permite a formatação de
fórmulas matemáticas e científicas;
GedML ou Genealogical Data Markup Language: utilizada para codificação de
dados genealógicos.
Multimídia: Tipos de Mídia: texto, som , imagem e vídeo
Formatos de armazenamento
Exemplos:
Som - MID, WAVE, MP3
Imagem - BMP(BitMapped), TIFF(Tagged Image File Format), JPEG(Joint
Photoghraphic Experts Group), GIF(Graphic Interchange Format)
Vídeo - MPEG(Moving Picture Experts Group), AVI, FLI
Imagens Textuais
Obtidas por meio de Scanner
OCR extrai texto de imagens textuais
Gráficos e Realidade Virtual
Padrões definidos:
2D : CGM - Computer Graphic Metafile (ISO 8632)
3D : VRML (Virtual Reality Modeling Language) (ISSO/IEC 14772-1)
HyTime (Hypermedia/Time-based Structuring Language)
Metalinguagem (Arquitetura SGML) que define estruturas Hypermídia
genéricas
Permite o uso de DTDs
Inclui: Localização complexa de documentos-objetos
Relacionamentos entre documentos-objetos (hyperlinks)
Dimensionamento entre associações de documentos-objetos
Download