Slides - Técnico Lisboa

Propaganda
Arquitectura de DW
SAD Tagus 2004/05
H. Galhardas
Arquitectura multi-nível
other
Metadata
sources
Operational
DBs
Extract
Transform
Load
Refresh
Monitor
&
Integrator
OLAP Server
Serve
Data
Warehouse
Analysis
Query
Reports
Data mining
Data Marts
Data Sources
2004/05
Data Storage
OLAP Engine Front-End Tools
Sistemas de Apoio à Decisão
(LEIC Tagus)
Arquitectura multi-nível
Metadata
other
Monitor
&
Integrator
OLAP Server
sources
Operational
DBs
Extract
Data Transform
Staging Load
Refresh
Data
Warehouse
Serve
Analysis
Query
Reports
Data mining
Data Marts
Data
Sources
2004/05
Sistemas de Apoio à Decisão
Data Storage
OLAP Engine Front-End Tools
(LEIC Tagus)
Componentes
Back-end: dizem respeito à ligação entre as fontes de
dados e os repositórios de dados, e o modo como esta
ligação se efectua


DW, data marts, ODS (operational data store), área de retenção
(staging area)/processos de ETL
Metadata: representação da camada semântica do DW
Front-end: consiste no conjunto de ferramentas que
permitem aceder, interagir e explorar a informação
guardada no DW

2004/05
Ferramentas de reporting, OLAP, data mining
Sistemas de Apoio à Decisão
(LEIC Tagus)
Componentes de back-end
Metadata
other
Monitor
&
Integrator
OLAP Server
sources
Operational
DBs
Extract
Data Transform
Staging Load
Refresh
Data
Warehouse
Serve
Data Marts
Data Sources
2004/05
Data Storage
Sistemas de Apoio à Decisão
(LEIC Tagus)
OLAP Engine
Fontes de dados de backend(room)
Fontes de dados

Bases de dados hierárquicas e relacionais , ficheiros de texto,
sistemas ERP, etc
Área de retenção (data staging area)

A maior parte das transformações de dados têm lugar aqui, por
exemplo, conversão de chaves, criação de dimensões
conformes, etc
Servidores OLAP e de apresentação

Plataformas onde os dados (organizados em data marts) são
guardados para serem interrogados pelos utilizadores finais,
sistemas de reporting e outras aplicações
Catálogo de metadados

2004/05
Conjunto de informação que descreve o DW e suporta a sua criação,
utilização e manutenção
Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de Back-end (room)
(1)
Área de retenção ou processo ETL (ExtractionTransformation-Load)
Ferramentas e técnicas aplicadas
 Código desenvolvido ou ferramentas “third-party”

2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end (room)
(2)

Desafios de extracção:





Tarefas de transformação:








Múltiplas fontes de dados heterógeneas
Geração de código para extrair dados de ficheiros
Modo de extracção relativamente a: frequência de extracção, identificação
de registos modificados, refrescamento completo
Transferência de dados: tem que ser eficiente, usar técnicas de
compressão
Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas
Manutenção das “slowly changing dimensions”
Verificar restrições de integridade
Desnormalização
Conversão de dados, cáculo e agregação
Desduplicação
Tratamentode valores nulos
Serviços de carregamento:



Dependem da platafoma alvo
Várias plataformas alvo
Optimização do carregamento
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end (room)
(2)

Desafios da extracção:





Tarefas de transformação:








Múltiplas fontes de dados heterógeneas
Geração de código para extrair dados de ficheiros
Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento
completo
Transferência de dados: tem que ser eficiente, usar técnicas de compressão
Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em
descrições completas
Manutenção das “slowly changing dimensions”
Verificar restrições de integridade
Desnormalização
Conversão de dados, cáculo e agregação
Desduplicação
Tratamentode valores nulos
Serviços de carregamento:



Dependem da platafoma alvo
Várias plataformas alvo
Optimização do carregamento
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Serviços de back-end (room)
(2)

Desafios da extracção:





Tarefas de transformação:








Múltiplas fontes de dados heterógeneas
Geração de código para extrair dados de ficheiros
Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados,
refrescamento completo
Transferência de dados: tem que ser eficiente, usar técnicas de compressão
Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas
Manutenção das “slowly changing dimensions”
Verificar restrições de integridade
Desnormalização
Conversão de dados, cáculo e agregação
Desduplicação
Tratamentode valores nulos
Serviços de carregamento:



Dependem da platafoma alvo
Várias plataformas alvo
Optimização do carregamento
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
ODS (1)
ODS
Data
Staging
Data
Warehouse
Data Sources
Duas definições possíveis:
1) Ponto de integração de sistemas operacionais
2) Repositório de informação actualizados e detalhados
para suporte à decisão
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
ODS (2)
Nível intermediário antes do DW
Dados integrados, ligeiramente
agregados
 Suporta a análise de dados actualizados
 Entrada para a área de retenção

2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Características de ODS
Priorities
Ease of use, flexible data access
Response Time Seconds to minutes
Database
Relational
Data Content
Organized by subject, current value data,
integrated
Nature of Data
Dynamic
Processing
Structured, analytical
End Users
Information consumers, DBAs, clerical users
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Área de retenção vs ODS



Não é um complemento aos sistemas
operacionais e às suas dificuldades de
manipular informação
Não é implementada necessariamente
numa BDR
Não complementa os dados operacionais
com timestamp
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados
Data about data, dictionary of terms, documentation...




Essenciais para a gestão dos repositórios de dados e do
processo de construção de um DW
Arquitectura complexa
Grandes volumes de dados
Dois tipos principais:
Metadados de back-room: suportam o processo de ETL
Metadados de front-room: descritivos, suporta as
ferramentas de interrogação e de reporting
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados dos sistemas
fonte
Especificações das fontes

Ex: esquemas de dados
Informação descritiva das fontes




Dono
Descrição do negócio
Frequências de actualização
Métodos de acesso, direitos, privilégios e passwds
Informação do processo


2004/05
Código ou ferramenta para implementar extracção
Resultados de processos de extracção
Sistemas de Apoio à Decisão
(LEIC Tagus)
Metadados da área de retenção
Gestão das tabelas de dimensões





Transformação e agregação




Esquemas de dimensões conformes e factos
Políticas de actualização de dimensões (“Slowly changing
dimension”)
Atribuições de chaves surrogate para cada chave de
produção
Snapshot de tabelas de dimensões
Limpeza de dados, especificação de conversões
Correspondência entre esquemas
Definições de agregados, estatísticas de utilização, etc
Auditoria e documentação

Proveniência de dados
(data lineage) e registos de auditoria
Sistemas de Apoio à Decisão
2004/05
(LEIC Tagus)
Metadados de front-end
Nomes de negócio, descrições para colunas,
tabelas e agrupamentos
 Definições de interrogações e de reporting
 Especificação de ferramentas de visualização
 Perfis de utilizadores individuais
 etc

2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Problemas


Existem metadados por todo o lado
Não existem standards universalmente
usados



Não é possível transferir os metadados entre
ferramentas
Nem sempre são completos e
consistentes
Dificilmente aceites como importante pelo
negócio
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Standard de metadados
Formato comum partilhado pelos processos e
repositórios
MDIS (Metadata Coalition)
 Common Warehouse Metamodel (OMG at
www.omg.org)


Iniciativa não standard:

2004/05
Microsoft ’s Meta Data Coalition (MDC) -fusão
com OMG sept. 2000
Sistemas de Apoio à Decisão
(LEIC Tagus)
OMG Metamodel
Architecture
Standard OMG Components
Modeling Language: UML
Metadata Interchange: XMI
Metadata API:
MOF IDL Mapping
2004/05
M
I
D
D
L
E
W
A
R
E
Meta-metamodel
Layer (M3)
MOF: Class, Attribute,
Operation,
Association
Metamodel
Layer(M2)
UML: Class, Attribute
CWM: Table, Column
ElementType, Attribute
A
P
Metadata/Model
P
Layer(M1)
L
I
C
A
T
I
User Data/Object
O
Layer (M0)
N
Sistemas de Apoio à Decisão
(LEIC Tagus)
Stock: name, price
<Stock name=“IBM”
price=“112”/>
Arquitectura multi-nível
OLAP Server
Serve
Data
Warehouse
Analysis
Query
Reports
Data mining
OLAP Engine Front-End Tools
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Arquitecturas de servidor OLAP
Relational OLAP (ROLAP)



Usa SGBDs relacionais ou relacional extendido para armazenar e
gerir os dados do datawarehouse e usa middleware OLAP para
suportar funcinalidades específicas do OLAP.
Inclui optimização suportada pelo SGBDR, implementa lógica de
navegação de agregação e serviços/ferramentas adicionais
Maior escalabilidade
Multidimensional OLAP (MOLAP)


Motor de armazenamento multidimensional baseado em arrays
(sparse matrix techniques)
Indexação rápida de dados sumarizados pré-calculados
Hybrid OLAP (HOLAP)

Flexibilidade: baixo nível: relacional, alto nível: array
Specialized SQL servers
Suporte especializado para interrogações SQL sobre esquemas
Sistemas de Apoio à Decisão
2004/05em estrela e floco de neve (LEIC Tagus)

Front-end applications
Processamento de informação

Interrogações, análise estatística, relatórios usando
cross-tabulations, tabelas, gráficos.
Processamento analítico

Análise de dados multidimensionais através de
operações OLAP (slice/dice, drill-down, roll-up,
pivoting, etc)
Exploração de dados (data mining)

2004/05
Descoberta de informação encontrando padrões
escondidos, associações,construíndo modelos
analíticos, executando classificação e previsão, and
apresentando os resultados através de ferramentas
de visualização adequadas.
Sistemas de Apoio à Decisão
(LEIC Tagus)
An OLAM Architecture
Mining query
Mining result
Layer4
User Interface
User GUI API
OLAM
Engine
OLAP
Engine
Layer3
OLAP/OLAM
Data Cube API
Layer2
MDDB
MDDB
Metadata
Filtering&Integration
Database API
Filtering
Data cleaning
Databases
2004/05
Data
Sistemas de Apoio à Warehouse
Decisão
Data integration
(LEIC Tagus)
Layer1
Data
Repository
From OLAP to OLAM
Why online analytical mining?




High quality of data in data warehouses
 DW contains integrated, consistent, cleaned data
Available information processing structure surrounding data
warehouses
 ODBC, OLEDB, Web accessing, service facilities, reporting and
OLAP tools
OLAP-based exploratory data analysis
 mining with drilling, dicing, pivoting, etc.
On-line selection of data mining functions
 integration and swapping of multiple mining functions,
algorithms, and tasks.
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Bibliografia




(Livro) Data Mining: Concepts and Techniques, J.
Han & M. Kamber, Morgan Kaufmann, 2001 (Secção
2.3)
(Livro) The Data Warehouse Lifecycle Toolkit, R.
Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)
(Livro) Data Warehouse, from Architecture to
Implementation, B. Devlin, Addison Wesley, 1997.
(Artigo) An Overview of Data Warehousing and
OLAP Technology, S. Chaudhuri & U. Dayal,
SIGMOD Record, March 1997
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Diferentes modelos de
arquitectura




Single-tier
Two-tier
Three-tier
Multi-tier
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Single-tier
Operational
DBs
Serve
OLAP,
Data Mining
OLTP



Dados são todos tratados como real-time
Vantagem: Dados não estão replicados =>necessidades
de armazenamento baixas e fácil manutenção
Desvantagens: disponibilidade dos dados para OLAP e
degradação de desempenho para OLTP
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Single-tier applications

Well suited for:
Applications generating large amounts of real
data
 Data is well modeled and internally consistent
 Updates consist basically on adding records


Ex: point-of-sale and telephone-call data
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Virtual data warehouse


A way to rapidly implement a DW without storing multiple
copies of data
Consists of:



Inumerous inconvenients:




2004/05
A set of views over operational databases
Only some of the possible summary views may be materialized
Data is structured to optimize operational processes
No reconciliation is done => no data quality concerns
Consistency problems with user-defined data derivations
Possible meaningless user queries because access to all data
Sistemas de Apoio à Decisão
(LEIC Tagus)
Two-tier
Operational
DBs
Serve
OLTP
Derived
Data



Serve
OLAP,
Data Mining
Two diff. data usages are recognized
Advantage: The contention between the 2 types of data
is solved
Inconvenient: high level of data duplication and thus data
de Apoio à Decisão
storage
requirements Sistemas(LEIC
Tagus)
2004/05
Two-tier applications

Well suited for:
Decision-support applications requiring
summary-level data derived primarily from
single data sources
 Homogeneous computing environment limited
to a small amount of HW and SW platforms


Ex: any company in the early/middle
stages of decision support implementation
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Three-tier
Operational
DBs
Serve
OLTP
Reconciled
Data



Derived
Data
Serve
OLAP,
Data Mining
Recognizes that the transformation op. data into derived data requires 2
steps
Data reconciliation requires to understand relationships between data
sets, their role in the business, and to build an ingle, logical image of the
enterprise data model
Data derivation is simpler
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Three-tier applications

Well suited for:




Decision-support applications requiring summarylevel data derived different data sources
The reconciled data model is usually a
normalized relational data model
Some data transformation and most cleaning
are applied when reconciling data
Ex: fusioning customer data from distinct
sources
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Enterprise warehouse
Collects all of the information about subjects
spanning the entire organization
 Provides corporate-wide integration from one
or more operational data sources
 Large amounts of data

2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Data marts





2004/05
Each indivudual department implements its own
decision/management IS
Consists of a subset of corporate-wide data that is of
value to a specific groups of users.
Its scope is confined to selected groups, such as
marketing data mart
Implementation cycle of a data mart is weeks instead of
months (short-term productivity benefits)
Independent vs. dependent (directly from warehouse)
data mart
Sistemas de Apoio à Decisão
(LEIC Tagus)
DW Design Process


Top-down, bottom-up approaches or a
combination of both (hybrid approach)
Bottom-up:




Starts with experiments and prototypes (rapid)
Derive the DW schema from the data source
schemas
Allows to move forward at less expense and evaluate
the benefits, but harder to grow.
Top-down:



2004/05
Starts with overall design and planning (mature)
First, get to the DW conceptual schema, then convert
data source schema into the global schema
Robust but slow and expensive
Sistemas de Apoio à Decisão
(LEIC Tagus)
Hybrid approah
2004/05
Sistemas de Apoio à Decisão
(LEIC Tagus)
Download