Data Warehouse

Propaganda
JOÃO CARVALHO
Data
Warehouses
DEFINIÇÃO

Um Data Warehouse é um sistema de
computação utilizado para armazenar
informações relativas às actividades de uma
organização em bases de dados, de forma
consolidada. O desenho da base de dados favorece
os relatórios, a análise de grandes volumes de
dados e a obtenção de informações estratégicas
que podem facilitar a tomada de decisão.
FUNCIONAMENTO
O Data Warehouse possibilita a análise de
grandes volumes de dados, recolhidos dos
sistemas transaccionais.
 São as chamadas séries históricas que
possibilitam uma melhor análise de eventos
passados.
 Por definição, os dados num Data Warehouse não
são voláteis, ou seja, eles não mudam, salvo
quando é necessário fazer correcções de dados
previamente carregados.
 Os dados estão disponíveis somente para leitura
e não podem ser alterados.

ARQUITECTURA

Um data warehouse é constituído por 3 partes:

Armazenamento

Modelagem

Metadado
ARMAZENAMENTO


É feito num depósito único mas que seja de
rápido acesso para as análises.
Tal armazenamento tem que possuir um histórico
com todos os dados possíveis para que possa se
ter uma análise mais apurada.
MODELAGEM
Os sistemas de base de dados tradicionais
utilizam a normalização no formato de dados
para garantir consistência dos dados e uma
minimização do espaço de armazenamento
necessário.
 Algumas transacções e consultas em bases de
dados normalizadas podem se tornar lentas
devido às operações de junção entre tabelas.
 Um Data Warehouse utiliza dados num formato
sem padrão definido.
 Essa maneira de reordenar os dados chama-se
Modelagem Dimensional, e o resultado da
modelagem é o Modelo Dimensional, ou MD.

METADADO
O conceito Metadado é considerado como sendo
os "dados sobre dados", isto é, os dados sobre os
sistemas que operam com estes dados.
 Um repositório de metadados é uma ferramenta
essencial para a gestão de um Data Warehouse no
momento de converter dados em informações
para o negócio.
 Entre outras coisas, um repositório de metadados
bem construído deve conter informações sobre a
origem dos dados, regras de transformação,
nomes e alias, formatos de dados, etc.

ACESSO
O Data Warehouse é normalmente acedido
através de Data Marts, que são pontos específicos
de acesso a subconjuntos do Data Warehouse.
 Os Data Marts são construídos para responder
prováveis perguntas de um tipo específico de
utilizador.
 um Data Mart financeiro poderia armazenar
informações consolidadas dia-a-dia para um
gestor e em periodicidades maiores (semana,
mês, ano) para um utilizador no nível da
directoria.

EXTRACÇÃO DE DADOS



Os dados introduzidos num Data Warehouse
geralmente passam por uma área conhecida como
área de estágio.
O estágio de dados ocorre quando existem
processos periódicos de leitura de dados.
Os dados podem passar então por um processo de
qualidade, de normalização e gravação dos dados
no Data Warehouse.
FERRAMENTAS

OLAP

Data mining
OLAP

As ferramentas OLAP (do inglês, Online
Analytical Processing) são geralmente
desenvolvidas para trabalhar com bases de dados
desnormalizados (sem padrões pré-definidos),
embora existam ferramentas que trabalham com
esquemas especiais de armazenamento, com
dados (informações) normalizados.
OLAP

Essas ferramentas são capazes de navegar pelos
dados de um Data Warehouse, possuindo uma
estrutura adequada tanto para a realização de
pesquisas como para a apresentação de
informações
OLAP
Nas ferramentas de navegação OLAP, é possível
navegar entre diferentes níveis de
granularidades (detalhe) de um cubo de dados.
 Através de um processo chamado Drill o
utilizador pode aumentar (Drill down) ou
diminuir (Drill up) o nível de detalhe dos dados.

OLAP

Outra possibilidade apresentada pela maioria
das ferramentas de navegação OLAP é o recurso
chamado Slice and dice.

Esse recurso é usado para criar visões dos dados por
meio da sua reorganização, de forma que eles possam
ser examinados sob diferentes perspectivas.
DATA MINING


Data Mining ou mineração de dados, é o processo
de descoberta de padrões existentes em grandes
massas de dados.
Apesar de existir ferramentas que ajudam na
execução do processo, o Data mining não tem
automatização simples (muitos discutem se é
sequer factível) e precisa ser conduzido por uma
pessoa, preferencialmente com formação em
Estatística ou áreas afins.
CARACTERÍSTICAS
DE UM DATA
WAREHOUSE

Orientado a assunto

Integrado

Não volátil

É variável consoante o tempo
ORIENTADO A ASSUNTO


Os warehouse são feitos para responder
abordagens sobre certos assuntos como, saber
mais sobre as vendas da empresa, ou sobre os
resultados das actuações das equipas de
marketing em determinadas regiões.
O warehouse é feito para responder perguntas
sobre certos assuntos como: “Quais foram os
melhores clientes em um determinado período?”,
“Qual foi o lucro obtido sobre uma campanha de
em uma determinada região?”.
INTEGRADO

Um Data Warehouse, armazena dados de várias
fontes de dados, mas é comum que as
informações sejam cadastradas em formatos e
padrões diferentes nas diversas fontes de dados,
para ser possível relacionar informações entre os
sistemas, estas informações devem ser
previamente tratadas antes de serem
armazenadas no warehouse, neste processo
diversas actividades são feitas, tais como:
INTEGRADO

Conversão de datas para um formato único

Resolução de conflitos entre nomes

Conversão de medidas
NÃO VOLÁTIL

Num warehouse somente existem duas operações
a serem feitas:

Carregamento de dados

Consulta.
NÃO VOLÁTIL


Dizer que um Data Warehouse não é volátil
significa que as informações registadas não são
actualizadas, o que é feito é que um novo registo
é gravado e este passa a ser utilizado de um certo
tempo em diante.
Isto possibilita que consultas realizadas para um
certo período retornam sempre o mesmo
resultado, pois os registos não foram
actualizados.
VARIÁVEL COM O TEMPO

Ser variável com o tempo significa somente que
os Data Warehouses mantêm um histórico por
muito mais tempo que um sistema de dados
operacional ou transaccional, enquanto os
sistemas OLTP (online transaction processing)
guardam históricos por um curto período, para
não reduzir a performance do sistema, os
warehouses guardam um histórico por muito
tempo, assim possibilitando que análises de
tendências ao longo do tempo sejam feitas com
suas informações.
Download