BANCO DE DADOS II TEMAS AVANÇADOS DE BANCOS DE DADOS. Introdução ao modelo multidimencional . MsC. Leoder Alemañy Socarrás Inteligencia de Negocio Aplicativos Os aplicativos informáticos podem classificar-se em dois grandes grupos: OLTP (Procesamiento Transaccional en Línea) OLAP (Procesamiento Analítico en Línea). OLTP – Procesamiento Transaccional en Línea • São sistemas operacionais que capturam transacções e as alojam em Banco de dados. • Exemplos: Aplicativos para caixas automáticos. Aplicativos para realizar operações bancárias. Aplicativos de vendas de produtos on-line. Aplicativos para reservaciones de hotéis on-line. OLTP Características: • Transacções em tempo real (com dia a dia). • Dados alojados mudam continuamente (INSERT, DELETE, UPDATE). • Mantêm os dados. • Estruturas de dados optimizadas – normalizadas. • Limitado para a tomada de decisões, as consultas históricas produzem um impacto na operação do sistema. • Usa Diagrama Entidade Relação. Necessidades de análises de dados Necessidades de análises de dados • ¿Quantos sapatos do 41 de cor vermelha se venderam no último mês na zona norte, este e sul; comparados com as vendas do mesmo mês no ano passado? • ¿Que tipo de cliente me tem estado comprando o BMW 320i durante os últimos 10 anos? • ¿Quais são as 25 primeiras marcas, por produtos, estilos e regiões de Espanha classificadas pela margem de vendas em euros? Necessidades de gestão de dados • ¿Que desconto deveríamos oferecer para incrementar significativamente as vendas? • O produto de tipo A vendeu-se bem mais que o produto de tipo B. Encontrar padrões de correlação entre estes tipos de produtos e extrair similitudes/diferenças. • ¿Quais são as tendências em minhas vendas? OLAP – Procesamiento analítico en línea • Os sistemas OLAP encarregam-se do processamento analítico dos dados e estão focados a apoiar a tomada de decisões em determinada entidade. Características: • Optimizado para responder rapidamente a consultas. • Proporciona uma vista de dados multidimensional. • Alojam grandes volumes de dados. • Estão destinados a diretores. • Seus dados encontram-se geralmente desnormalizados. OLAP - Ejemplos • OLAP en el Marketing • Sistemas de Información para ejecutivos • Alertas. • Toma de decisiones. • OLAP en la Actividad Financiera • Reportes analíticos. • Planeamiento. • Análisis. • Análise de produtos. • Análise de Clientes. • Análise de Facturação. • OLAP en Otros Usos • Análise da Produção. • Análise de Serviços ao cliente. • Evolução do Custo do produto. OLTP y OLAP OLTP OLAP Usuario Operativos, Profesionales TI Trabajadores de conocimiento Uso Predecible, Repetitivo Heurístico Accesos Alta Media y baja Tipo acceso R/W - actualización al campo Lectura - Sumarización T. respuesta Segundos Segundos a minutos Contenido Valores elementales Datos sumarizados, derivados Estabilidad Dinámicos Estáticos hasta su actualización Función Operaciones día a día Soporte a las decisiones Diseño BD Orientado a la aplicación Orientado al tema (sujeto) Estructura Transaccional (NORMALIZADA) Consultas (DESNORMALIZADA) # filas cientos millones # usuarios miles cientos DB Size 100 MB-GB 100GB-TR métrica rendimiento de la transacción rendimiento de la consulta OLAP - OLTP OLTP OLAP Diagrama E-R Cubos Entidad Atributo Relación Hechos Dimensiones Jerarquías Medidas Normalización Integridad Referencial Codificación Granularidad UML Lenguaje de Modelamiento Unificado UDM modelo dimensional unificado Análisis Diseño Desarrollo Implementación Explotación Diseño Carga Explotación Armazém de dados (Data Warehouse) •Um armazém de dados é uma colecção de dados orientada a temas, integrada, não volátil e de tempo variante, que brinda suporte à tomada de decisões. Orientados por temas O armazém de dados está orientado pelas principais áreas de temáticas da empresa que têm sido definidas no modelo de dados de alto nível. Exemplos de áreas de temáticas: - Clientes - Produtos - Transacção ou actividade - Políticas - Reclamos - Contas Orientados por temas A cada área de aspecto principal é implementada fisicamente como uma série de tabelas relacionadas no armazém de dados. Um área de aspecto principal pode constar de 10, 100 ou inclusive mais tabelas físicas que estão relacionadas. Exemplo Dados integrados Dados integrados de diferentes fontes de dados operacionais. Exemplo Dados não voláteis • Os dados alojados não se modificam nem actualizam nunca, só se acrescentam novos dados. Dados variáveis no tempo • Dados relativos a um período de tempo e incrementamse periodicamente. Nível de arquitectura Nível de arquitectura • O nível operacional dos dados mantém somente os dados primitivos orientados ao aplicativo e serve em primeiro lugar à comunidade de alto desempenho de processamento transacional. • O nível de dados do armazém de dados mantém dados integrados e históricos primitivos que não podem ser actualizar. Ademais, alguns dados derivados encontram-se neste nível. • O nível departamental dos dados, ou nível de data mart, contém quase exclusivamente dados derivados. Este nível é ajustado, segundo os requisitos do utente final, numa forma especialmente agradável para as necessidades do departamento. Nível de arquitectura Análisis heurístico Desenho de um armazém de dados A granularidad é considerado o aspecto a mais importância no desenho de um armazém de dados. • A granularidad refere-se ao nível de detalhes ou resumo das unidades de dados no armazém de dados. Quanto mais detalhe exista, menor será o nível de granularidad. Quanto menos detalhe exista, maior será o nível de granularidad. Exemplo Desenho de um armazém de dados O segundo tópico de maior importância no desenho do DWH (após a granularidad) é o particionamiento. •O particionamiento dos dados refere-se à ruptura dos dados em unidades físicas separadas que podem ser manipuladas independentemente. Desenho de um armazém de dados • Por data • Por linha de negócio • Por geografia • Por unidade organizacional • Por todo o anterior Desenho de um armazém de dados • Quando existem muitas tabelas, é recomendável misturar fisicamente algumas das tabelas (desnormalización). Conceptualizando •Facto: Evento específico que constitui a unidade fundamental de análise de dados, para a tomada de decisões. Exemplos: vendas, exportações, investimentos, etc. •Dimensões: É uma entidade de negócios respeito da qual se devem calcular as métricas. Exemplos: clientes, produtos, tempo, etc. Conceptualizando •Medidas: Valores quantitativos que alojam as métricas do negócio. Estão representados por colunas numéricas na tabela de factos. Estes dados provem/provêm directamente dos sistemas OLTP. Conceptualizando • Cubo: A ideia fundamental do modelo multidimensional é que os dados de negócio podem ser representados como um tipo de cubo de dados. Nos cubos a cada cela contém um valor e as arestas do cubo definem dimensões naturais de análises. Desenho lógico de um armazém de dado transformações Esquema fonte Esquemas lógicos intermediários Esquemas lógicos DWH Modelos básicos dimensionais Estrella Copo de Nieve DESENHO FÍSICO MOLAP - OLAP Multidimensional Os dados origem e suas agregações estão numa estrutura multidimensional. AGREGACIONES Y DATOS Vista de Usuario Base de Datos Relacional Base de Datos Multidimensional Características • Provê excelente rendimento e compressão de dados. • Melhor tempo de resposta, depende das agregações. • Estrutura optimizada para maximizar as consultas. • Apropriado para cubos de rápida resposta. ROLAP - OLAP Relacional • A informação do cubo, seus dados, sua agregação, são alojar num banco de dados relacional. • Não copia a BD original, acede às tabelas origem. • É mais lenta que as outras estratégias (MOLAP ou HOLAP). • Utiliza-se para poupar espaço de armazenamento em grandes BD de baixa frequência de consulta. AGREGACIONES Y DATOS Base de Datos Relacional Base de Datos Multidimensional Vista de Usuario HOLAP – OLAP Híbrido •Combina características de MOLAP e ROLAP. •As agregações alojem-se numa estrutura multidimensional e os dados, na BD original. •Cubos mais pequenos que MOLAP e mais rápidos que ROLAP. DATOS Base de Datos Relacional AGREGACIONES Base de Datos Multidimensional Vista de Usuario Características Vantagens e desvantagens Conclusiones • O modelo de dados mais estendido é o modelo relacional • Modelo baseia-se na normalização de bancos de dados. • Um campo em sistemas OLAP pode conter valores múltiplos. • Modelos OLAP permitem a tomada de decisões. BFA Tarefa • Exercício 1 da Clase Práctica # 1