1º Exame - Técnico Lisboa

Nome:
Número:
INSTITUTO SUPERIOR TÉCNICO
DEPARTAMENTO DE ENGENHARIA INFORMÁTICA
Sistemas de Apoio à Decisão
1º Exame (LEIC Tagus)
26 de Junho 2004
Não se esqueçam de identificar todas as folhas de respostas!
Duração: 2H30
Perguntas obrigatórias – corresponde à matéria das aulas teóricas: Motivação,
Modelo multidimensional, Desenho DW, Arquitectura DW, Implementação DW,
Transformação de dados, Descrição de conceitos, Classificação e Previsão, Regras de
associação.
Perguntas opcionais (responder a 2 obrigatoriamente) – corresponde às
apresentações de TIs das aulas práticas: Framework Business Dimensional Lifecycle de
R. Kimball, Técnicas de refrescamento, Record linkage, Funções de string matching e
aprendizagem.
Grupo 1 – Datawarehouse e Modelo multidimensional (3,5 valores)
1. Indique quais as características que um datawarehouse, como conjunto
centralizado de dados, deve possuir de modo a oferecer uma boa qualidade de
dados às operações de suporte à decisão. Justifique.
2. Suponha que um DW contém as seguintes dimensões: Data, Espectador,
Localização e Jogo, e uma medida (ou facto): preço, onde preço é o valor que o
espectador paga para ver um jogo numa determinada data. O Jogo tem
associado o preço base do bilhete. Os espectadores podem ser estudantes,
adultos ou de 3ª idade. Cada categoria de espectador tem um desconto diferente
para o bilhete. No caso dos estudantes, o desconto é 50%, e no caso das
pessoas de 3ª idade é 75%. Os adultos pagam o bilhete por inteiro. Desenhe um
diagrama em estrela para este DW.
1
Nome:
3.
Número:
Suponha o seguinte esquema em estrela dado nas aulas teóricas:
TIMES
(timeid, date, week, month, quarter, year, holiday_flag)
PRODUCTS
pid timeid locid sales
SALES (Fact table)
LOCATIONS
(locid, city, state, country)
(pid, pname, category, price)
Escreva em SQL as interrogações que lhe permitem calcular:
a) Qual o total de vendas (sales) por ano?
b) Qual o total de vendas por estado?
c) Qual o total de vendas por ano e por estado?
d) Generalizando, e dado o número de dimensões desta estrela, quantas
interrogações de agregação do tipo “total de vendas” são possíveis obter?
Indique qual o operador OLAP envolvido em cada uma destas interrogações.
Grupo 1 - Resposta
2
Nome:
Número:
Grupo 1 - Resposta
3
Nome:
Número:
Grupo 2 – Desenho lógico e físico de datawarehouse (4 valores)
1. O que são medidas aditivas? Dê um exemplo. E o que são medidas factless? Dê
um exemplo.
2. Quais os três tipos de soluções propostos por R. Kimball para actualizar uma
tabela de dimensões quando os dados fonte são actualizados? Comente.
Nota: O nome dado a este tipo de actualização é “Tracking slowly changing
dimensions”.
3. Uma vista multidimensional sobre os dados pode ser implementada em
tecnologia ROLAP (bases de dados relacionais) ou MOLAP (bases de dados
multidimensionais). Descreva brevemente cada uma destas técnicas de
implementação.
4. Explique porque é que a mediana é uma medida holística.
Grupo 2 - Resposta
4
Nome:
Número:
Grupo 2 - Resposta
5
Nome:
Número:
Grupo 3 - Arquitectura de DW e Transformação de dados (5 valores)
1. Numa arquitectura de DW típica, qual a diferença entre componentes de backend e componentes de front-end. Dê dois exemplos de cada.
2. Uma arquitectura de DW pode ser desenvolvida de duas maneiras distintas: topdown ou bottom-up. Diga sucintamente em que consiste cada uma. Baseado
nessas duas aproximações, diga também em que consiste a aproximação
híbrida e qual a sua vantagem. Pode recorrer a exemplos para ilustrar melhor a
sua explicação.
3. Que tipos de dados sujos (dirty data) conhece? Quais as suas causas mais
comuns?
4. Em que medida a agregação em cubos de dados pode ser considerada como
uma técnica de redução de dados? Exemplifique.
Grupo 3 - Resposta
6
Nome:
Número:
Grupo 3 - Resposta
7
Nome:
Número:
Grupo 4 – Classificação e previsão, Regras de Associação (4,5 valores)
1. Descreva sucintamente o algoritmo ID3 (dado na aula teórica) para construção de
uma árvore de decisão. Não se esqueça de indicar quais as condições de paragem do
algoritmo.
2. Uma base de dados tem as seguinte quatro transacções:
TID
Data
T100 2/2/04
T200 10/2/04
T300 20/2/04
T400 28/2/04
Items comprados
{K, A, D, B}
{D, A, C, E, B}
{C, A, B, E}
{B, A, D}
Calcule todos os itemsets frequentes usando o algoritmo Apriori.
Grupo 4 - Resposta
8
Nome:
Número:
Grupo 4 - Resposta
9
Nome:
Número:
Grupo 5 – Miscelânia (3 valores)
Responda a 2 das seguintes perguntas:
1. Explique quais as diferentes tarefas da fase de planeamento e gestão de projecto do
ciclo de vida dimensional do negócio (Business Dimensional Lifecycle) tal como
proposto por R. Kimball.
2. Distinga muito brevemente as seguintes três actividades: limpeza e transformação de
dados, carregamento do DW e refrescamento do DW. No caso de refrescamento de
DW, explique também sucintamente as duas fases do processo de manutenção de
tabelas de dados sumarizados ou agregados, tal como proposto no artigo “Maintenance
of Data Cubes and Summary Tables in a Warehouse”, 1997.
3. A teoria de Record Linkage proposta por Fellegi and Sunter é baseado nos conceitos
de registos ligados, não ligados ou provavelmente ligados. Suponha as duas relações:
Estudante (numero, nome, morada)
Pessoa (BI, nome, morada)
De acordo com a teoria acima referida, diga como calcula a probabilidade de um registo
de Estudante corresponder (ou fazer match) a um registo de Pessoa.
4. Suponha que se querem comparar dois campos do tipo String e descobrir se são
semelhantes aplicando uma função de string matching. Se os dois campos a comparar
forem dois nomes de pessoas, indique um algoritmo de string matching que poderia ser
adequado. Justifique. Se agora os dois campos a comparar corresponderem a dois
documentos, por exemplo duas páginas de jornal, diga se o mesmo algoritmo escolhido
anteriormente será adequado. Se não o considerar adequado, indique outro algoritmo
de string matching. Justifique.
Grupo 5 - Resposta
10
Nome:
Número:
Grupo 5 - Resposta
11