Slide 1 - Técnico Lisboa

Propaganda
Gestão e Tratamento de
Informação
1º Semestre 2009/2010
DEI IST
Corpo docente



Pável Calado
Bruno Martins
Paulo Carreira
Organização das aulas


Aulas teóricas
Aulas de laboratório

Grupos de três elementos


Apoio no software a ser utilizado


inscrições na página da cadeira no Fénix iniciam-se
hoje, 18h, terminam 2/10, 23h59
SW open-source
Apoio na resolução dos mini-projectos
Avaliação

Exame (60%)



21/1/2010
4/2/2010
4 Mini-Projectos (40%), todos de igual valor





Enunciado é distribuído na aula teórica
Alunos têm cerca de 2/3 semanas para resolver
Entrega dos alunos feita na aula teórica
Solução e correcções mostradas na aula teórica
Conteúdo: uma parte teórica/prática e outra de
SW
Calendário Mini-Projectos

MP1



MP2



Entrega enunciado: 16/10
Entrega alunos: 6/11
MP3



Entrega enunciado: 25/9
Entrega alunos: 16/10
Entrega enunciado: 6/11
Entrega alunos: 27/11
MP4


Entrega enunciado: 27/11
Entrega alunos: 18/12
Programa




Gestão de dados XML
 Linguagens de interrogação e modificação: XPath, XSLT,
XQuery, XQuery Update
 Armazenamento de dados XML
Extracção de Informação
 Extracção de dados da Web
 Técnicas de extracção de informação a partir de texto
 Hidden Markov Models
 Ferramentas: Mallet, GATE, MinorThird, UIMA
Integração de dados e esquema
 Global-as-view vs local-as-view
 Mediadores e wrappers
 Systems: LSD, TSIMMIS, Information Manifold
Transformação e limpeza de dados
 Discrepâncias de esquemas e dados
 Detecção e eliminação de duplicados
 Fusão de informação
Gestão de dados XML



XML é vastamente utilizada como linguagem
de troca de dados na Internet
DTD, XMLSchema, XPath, XSLT são
assuntos já conhecidos
A linguagem XQuery é a linguagem de
interrogação de dados XML que vamos
estudar aqui
Extracção de informação
Extracção de dados estruturados a partir da Web
(docs HTML, XML)
Extracção de dados estruturados a partir de texto
1.
2.

Tb. conhecido por prospecção de texto (text mining)
Desafios da Web:






Número grande de fontes de dados
Páginas Web devem ser transformadas em dados
estruturados
Falta de controlo sobre os dados
Fontes têm restrições de entrada e saída
Natureza distribuída da Web pode tornar a integração de
dados muito lenta
Extracção de dados estruturados a
partir de texto


Como descobrir estrutura em dados não
estruturados
Exemplo (http://www.imdb.com)
Elegant redhead Nicole Kidman, known as one of
Hollywood's top Australian imports, was actually
born in Honolulu, Hawaii, to Anthony (a
biochemist and clinical psychologist) and
Janelle (a nursing instructor) Kidman. ...

Algumas técnicas de aprendizagem
automática (Machine Learning) podem ser
usadas
Integração de dados e esquema


Integrar dados oriundos de múltiplas fontes
de dados heterógeneas
Desafios:



Acesso aos dados
Resolver as diferenças existentes ao nível de
esquema e dados
Executar a integração de forma eficiente
Transformação e limpeza de dados


Durante e após a integração, alguns problemas
com os dados precisam de ser resolvidos
Exemplo:
Filmes (id, título, realizador, ano, ano_ult_remake)
(1|Casablanca|Weir|1942|1940)
(2|Dead Poets Society|Curtiz|1989|-)
(3|Rman Holiday|Wylder|1953|-)
(4|Casblanca|Weir|1940|1950)

Detecção e eliminação de duplicados é um dos
aspectos que vamos estudar
Software utilizado

Pacotes de SW open source:

Interrogação de dados XML, integração e limpeza de dados



Extracção de dados da Web


Saxon - Java API for XML processing, supporting SAX, DOM, XPath
2.0, XSLT 2.0 and XQuery 1.0 http://saxon.sourceforge.net/
SimPack - Java Library of similarity functions
http://www.ifi.uzh.ch/ddis/simpack.html
RoadRunner - Java Library for Automated Web Data Extraction
http://www.dia.uniroma3.it/db/roadRunner/software.html
Extracção de dados a partir de texto
Minorthird - Java Library for ML-based Text Annotation and
Classification
http://minorthird.sourceforge.net/
 LingPipe - Java Framework for General Text Mining
http://alias-i.com/lingpipe/

Bibliografia



Não há um livro único
Algumas partes da matéria cobertas por artigos
Livros:

Data on the Web: From Relations to Semistructured Data and XML
Serge Abiteboul, Peter Buneman, Dan Suciu
Morgan Kaufmann Publishers
2000 (4 ex. Bib IST Tagus)

XQuery from the Experts: A Guide to the W3C XML Query Language
Howard Katz, Don Chamberlin, Denise Draper, Mary Fernandez,
Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim
Tivy, Philip Wadler
Addison-Wesley
2004

Data Quality: Concepts, Methodologies and Techniques
Carlo Batini, Monica Scannapieco
Springer
2006 (4 ex. Bib. IST Tagus)
Outras informações

Questões?
Download