Nome: Número: INSTITUTO SUPERIOR TÉCNICO DEPARTAMENTO DE ENGENHARIA INFORMÁTICA Sistemas de Apoio à Decisão 1º Exame (LEIC Tagus) 26 de Junho 2004 Não se esqueçam de identificar todas as folhas de respostas! Duração: 2H30 Perguntas obrigatórias – corresponde à matéria das aulas teóricas: Motivação, Modelo multidimensional, Desenho DW, Arquitectura DW, Implementação DW, Transformação de dados, Descrição de conceitos, Classificação e Previsão, Regras de associação. Perguntas opcionais (responder a 2 obrigatoriamente) – corresponde às apresentações de TIs das aulas práticas: Framework Business Dimensional Lifecycle de R. Kimball, Técnicas de refrescamento, Record linkage, Funções de string matching e aprendizagem. Grupo 1 – Datawarehouse e Modelo multidimensional (3,5 valores) 1. Indique quais as características que um datawarehouse, como conjunto centralizado de dados, deve possuir de modo a oferecer uma boa qualidade de dados às operações de suporte à decisão. Justifique. 2. Suponha que um DW contém as seguintes dimensões: Data, Espectador, Localização e Jogo, e uma medida (ou facto): preço, onde preço é o valor que o espectador paga para ver um jogo numa determinada data. O Jogo tem associado o preço base do bilhete. Os espectadores podem ser estudantes, adultos ou de 3ª idade. Cada categoria de espectador tem um desconto diferente para o bilhete. No caso dos estudantes, o desconto é 50%, e no caso das pessoas de 3ª idade é 75%. Os adultos pagam o bilhete por inteiro. Desenhe um diagrama em estrela para este DW. 1 Nome: 3. Número: Suponha o seguinte esquema em estrela dado nas aulas teóricas: TIMES (timeid, date, week, month, quarter, year, holiday_flag) PRODUCTS pid timeid locid sales SALES (Fact table) LOCATIONS (locid, city, state, country) (pid, pname, category, price) Escreva em SQL as interrogações que lhe permitem calcular: a) Qual o total de vendas (sales) por ano? b) Qual o total de vendas por estado? c) Qual o total de vendas por ano e por estado? d) Generalizando, e dado o número de dimensões desta estrela, quantas interrogações de agregação do tipo “total de vendas” são possíveis obter? Indique qual o operador OLAP envolvido em cada uma destas interrogações. Grupo 1 - Resposta 2 Nome: Número: Grupo 1 - Resposta 3 Nome: Número: Grupo 2 – Desenho lógico e físico de datawarehouse (4 valores) 1. O que são medidas aditivas? Dê um exemplo. E o que são medidas factless? Dê um exemplo. 2. Quais os três tipos de soluções propostos por R. Kimball para actualizar uma tabela de dimensões quando os dados fonte são actualizados? Comente. Nota: O nome dado a este tipo de actualização é “Tracking slowly changing dimensions”. 3. Uma vista multidimensional sobre os dados pode ser implementada em tecnologia ROLAP (bases de dados relacionais) ou MOLAP (bases de dados multidimensionais). Descreva brevemente cada uma destas técnicas de implementação. 4. Explique porque é que a mediana é uma medida holística. Grupo 2 - Resposta 4 Nome: Número: Grupo 2 - Resposta 5 Nome: Número: Grupo 3 - Arquitectura de DW e Transformação de dados (5 valores) 1. Numa arquitectura de DW típica, qual a diferença entre componentes de backend e componentes de front-end. Dê dois exemplos de cada. 2. Uma arquitectura de DW pode ser desenvolvida de duas maneiras distintas: topdown ou bottom-up. Diga sucintamente em que consiste cada uma. Baseado nessas duas aproximações, diga também em que consiste a aproximação híbrida e qual a sua vantagem. Pode recorrer a exemplos para ilustrar melhor a sua explicação. 3. Que tipos de dados sujos (dirty data) conhece? Quais as suas causas mais comuns? 4. Em que medida a agregação em cubos de dados pode ser considerada como uma técnica de redução de dados? Exemplifique. Grupo 3 - Resposta 6 Nome: Número: Grupo 3 - Resposta 7 Nome: Número: Grupo 4 – Classificação e previsão, Regras de Associação (4,5 valores) 1. Descreva sucintamente o algoritmo ID3 (dado na aula teórica) para construção de uma árvore de decisão. Não se esqueça de indicar quais as condições de paragem do algoritmo. 2. Uma base de dados tem as seguinte quatro transacções: TID Data T100 2/2/04 T200 10/2/04 T300 20/2/04 T400 28/2/04 Items comprados {K, A, D, B} {D, A, C, E, B} {C, A, B, E} {B, A, D} Calcule todos os itemsets frequentes usando o algoritmo Apriori. Grupo 4 - Resposta 8 Nome: Número: Grupo 4 - Resposta 9 Nome: Número: Grupo 5 – Miscelânia (3 valores) Responda a 2 das seguintes perguntas: 1. Explique quais as diferentes tarefas da fase de planeamento e gestão de projecto do ciclo de vida dimensional do negócio (Business Dimensional Lifecycle) tal como proposto por R. Kimball. 2. Distinga muito brevemente as seguintes três actividades: limpeza e transformação de dados, carregamento do DW e refrescamento do DW. No caso de refrescamento de DW, explique também sucintamente as duas fases do processo de manutenção de tabelas de dados sumarizados ou agregados, tal como proposto no artigo “Maintenance of Data Cubes and Summary Tables in a Warehouse”, 1997. 3. A teoria de Record Linkage proposta por Fellegi and Sunter é baseado nos conceitos de registos ligados, não ligados ou provavelmente ligados. Suponha as duas relações: Estudante (numero, nome, morada) Pessoa (BI, nome, morada) De acordo com a teoria acima referida, diga como calcula a probabilidade de um registo de Estudante corresponder (ou fazer match) a um registo de Pessoa. 4. Suponha que se querem comparar dois campos do tipo String e descobrir se são semelhantes aplicando uma função de string matching. Se os dois campos a comparar forem dois nomes de pessoas, indique um algoritmo de string matching que poderia ser adequado. Justifique. Se agora os dois campos a comparar corresponderem a dois documentos, por exemplo duas páginas de jornal, diga se o mesmo algoritmo escolhido anteriormente será adequado. Se não o considerar adequado, indique outro algoritmo de string matching. Justifique. Grupo 5 - Resposta 10 Nome: Número: Grupo 5 - Resposta 11