O Futuro do Comércio Electrónico B2B

Nome:
Número:
INSTITUTO SUPERIOR TÉCNICO
DEPARTAMENTO DE ENGENHARIA INFORMÁTICA
Sistemas de Apoio à Decisão
2º Exame (LEIC Tagus)
6 de Julho 2004
Não se esqueçam de identificar todas as folhas de respostas!
Duração: 2H30
Perguntas obrigatórias – corresponde à matéria das aulas teóricas: Motivação,
Modelo multidimensional, Desenho DW, Arquitectura DW, Implementação DW,
Transformação de dados, Descrição de conceitos, Classificação e Previsão, Regras de
associação.
Perguntas opcionais (responder a 2 obrigatoriamente) – corresponde às
apresentações de TIs das aulas práticas: Framework Business Dimensional Lifecycle de
R. Kimball, Técnicas de refrescamento, Record linkage, Funções de string matching e
aprendizagem.
Grupo 1 – Datawarehouse e Modelo multidimensional (4 valores)
1. Suponha que um DW para uma universidade contém as seguintes dimensões:
Aluno, Disciplina, Tempo e Docente e uma medida: nota. A dimensão Tempo
inclui a hierarquia: semestre < ano lectivo.
a. Desenhe o esquema em floco de neve (snowflake) correspondente.
b. Suponha que se pretende também guardar a média das notas de um
aluno nas várias disciplinas ao longo do tempo. Desenhe o esquema em
estrela com dados agregados que podem ser derivados dos dados
guardados no esquema de a.
Nota: Cada registo da tabela de factos em a. guarda uma combinação:
aluno, disciplina, semestre, professor.
2. Indique e explique sucintamente três diferenças importantes entre sistemas
OLTP e sistemas OLAP.
1
Nome:
3.
Número:
Suponha o seguinte cubo dado nas aulas teóricas:
Droit Philo Phys Info
1996
18
24
7
15
1997
15
9
12
25
8
1998
8 25
18
5
7
5
Janv
7
18
5
5 5 17
8
Févr
12
15
9
8
12
6
Mars
25
22
12
18 18
Apresente o cubo resultante das seguintes operações OLAP:
a) Roll-up.
b) Drill-down.
c) Slice seguido de um roll-up.
Para cada uma das operações, indique quais os parâmetros usados.
Grupo 1 - Resposta
2
Nome:
Número:
Grupo 1 - Resposta
3
Nome:
Número:
Grupo 2 – Desenho lógico e físico de datawarehouse (4 valores)
1. Dê um exemplo de uma medida semi-aditiva e de uma não aditiva. Justifique.
2. Considere o esquema do DW do Grupo 1, Pergunta 1. Suponha adicionalmente
que a dimensão Disciplina inclui a hierarquia: disciplina < licenciatura e a
dimensão Docente inclui a hierarquia: docente < departamento. Diga qual o
número máximo de agregações (ou cuboids) que podem ser formadas,
atendendo aos atributos relevantes de cada dimensão.
3. Indique e explique dois factores que se devem ter em conta na escolha da
informação agregada (ou cuboids) a materializar.
4. Explique sucintamente os passos do método de construção de um cubo
multidimensional baseado em arrays (multiway array aggregation).
Grupo 2 - Resposta
4
Nome:
Número:
Grupo 2 - Resposta
5
Nome:
Número:
Grupo 3 - Arquitectura de DW e Transformação de dados (5 valores)
1. Numa arquitectura de DW típica, o que são os metadados (metadata). Diga que
tipos de metadados são guardados para suportar o processo de ETL (ou data
staging).
2. Diga em que medida a selecção de atributos relevantes é uma técnica de
redução de dados. Exemplifique.
3. A geração automática de hierarquias de conceitos pode ser efectuada com
recurso à heurística: o atributo com maior número de valores distintos é
colocado no nível mais baixo da hierarquia. Um exemplo é: rua < cidade <
estado < país. Dê um contra-exemplo, ou seja um caso para o qual a heurística
não funcione.
4. Diga qual a utilidade de se efectuar uma análise descriptiva e sumarizada de
dados usando técnicas de estatística. De que modo este tipo de análise permite
tirar conclusões sobre o tipo de pré-processamento que deve ser feito sobre os
dados fonte antes de os carregar num DW? Exemplifique.
Grupo 3 - Resposta
6
Nome:
Número:
Grupo 3 - Resposta
7
Nome:
Número:
Grupo 4 – Classificação e previsão, Regras de Associação (4 valores)
1. Suponha o seguinte conjunto de dados devidamente etiquetado:
age
income
student
credit_rating
buys_computer
<=30
high
no
fair
no
<=30
high
no
excellent
no
31…40
high
no
fair
yes
>40
medium
no
fair
yes
>40
low
yes
fair
yes
>40
low
yes
excellent
no
31…40
low
yes
excellent
yes
<=30
medium
no
fair
no
<=30
low
yes
fair
yes
>40
medium
yes
fair
yes
<=30
medium
yes
excellent
yes
31…40
medium
no
excellent
yes
31…40
high
yes
fair
yes
>40
medium
no
excellent
no
8
Nome:
Número:
Calcule o ganho de informação para os atributos: credit_rating, income. Sabendo que o
ganho de informação dos atributos age e student é 0.246 e 0.151, respectivamente, e
que o attribute relevance threshold é 0.1, diga quais os atributos que escolheria como
relevantes para distinguir entre os compradores e não compradores de computadores.
2. Uma base de dados tem as seguinte quatro transacções:
TID
T100
T200
T300
T400
Items comprados
{A, B, D}
{A, B, C, D, E}
{A, B, C, E}
{A, B, D}
Calcule todos os itemsets frequentes usando o algoritmo Apriori. Ilustre a operação de
pruning em cada passo.
Grupo 4 - Resposta
9
Nome:
Número:
Grupo 4 - Resposta
10
Nome:
Número:
Grupo 5 – Miscelânia (3 valores)
Responda a 2 das seguintes perguntas:
1. Enuncie e explique as tarefas que compõem a fase de levantamento de requisitos
de um projecto de DW de acordo com o Business Dimensional Lifecycle de R.
Kimball.
2. Um esquema de dados de um DW pode ser encarado como um conjunto de vistas
materializadas sobre as tabelas dos sistemas fonte. Quando os dados fonte são
alterados, a informação armazenada nessas vistas pode ficar inconsistente. Diga
porquê exemplificando e apresente uma solução possível.
3. Diga em que consiste o método de blocking usado para pré-processar um conjunto
de registos de dados sobre o qual se pretende executar técnicas de record linkage
(de acordo com o método de Fellegi and Sunter).
4. Suponha que tem as seguintes duas relações:
Pessoa (BI, nome)
Estudante (numero, nome)
Escreva em SQL a interrogação que retorna os pares (BI, numero) que correspondem
aos tuplos de Pessoa e Estudante que são considerados semelhantes. Assuma que a
função de string matching usada é: editDistance(str1, str2) e que a distância máxima
permitida entre dois nomes é de 2.
Qual o problema que a execução desta interrogação num SGBD levanta quando
Pessoa e Estudante contêm milhares de registos? Apresente uma solução que se
baseia na redução do número de tuplos que vão ser comparados através da função de
edit distance.
5. Explique o funcionamento de um índice bitmap e indique qual a vantagem da sua
utilização para indexar dados num DW.
6. Considere a seguinte interrogação sobre o DW da pergunta 1 do Grupo 1:
select discID, avg(nota)
from Notas N, Disciplina D
where N.discID = D.discID
group by discID
Indique duas técnicas para modificar um SGBD relacional de modo a suportar online
aggregation para esta interrogação.
7. Quais os príncipios fundamentais da componente de aprendizagem activa do
sistema ALIAS?
8. Em que consiste a técnica de adaptive name matching proposta por W. Cohen? Em
que medida esta técnica resolve os problemas das soluções ditas de matching
estático?
11
Nome:
Número:
9. Quais os objectivos das benchamrks TPC-H e R e quais as diferenças entre as
duas?
10. Explique o que é um Hidden Markov Model e como pode ser usado para segmentar
um campo de texto que contém uma morada.
11. O que são q-grams?
Exemplifique para uma dada string. Qual o papel
desempenhado pelos q-grams no algoritmo para detectar se um tuplo a ser inserido
num DW é ou não semelhante a algum tuplo que já esteja armazenado?
12. Considere o conjunto de treino da pergunta 1 do Grupo 4. Diga como pode utilizar
um classificador de redes bayesianas para classificar uma amostra com os
seguintes valores: age = 29, income = medium, student = yes, credit_rating = fair.
13. Imagine que deve escolher um sistema que suporte a execução de regras de
associação sobre um conjunto de alguns Terabytes de dados. Que critérios teria em
conta?
Grupo 5 - Resposta
12
Nome:
Número:
Grupo 5 - Resposta
13