Data Warehouse

Propaganda
Planejamento Estratégico de TI
Prof.: Fernando Ascani
Data Warehouse - Conceitos
Hoje em dia uma organização precisa utilizar toda informação disponível para
criar e manter vantagem competitiva.
Sai na frente a organização que consegue tomar decisões corretas e rápidas.
Com esta importante tarefa nas mãos, profissionais tomadores de decisão tais
como executivos, gerentes e analistas, exigem dos sistemas de suporte à
decisão (Decision Support Systems - DSS) mais recursos para análise, frontends que suportem consultas ad hoc, interfaces gráficas apropriadas, etc.
Data Warehouse - Conceitos
A ideia de Data Warehouse é integrar os dados internos e externos de uma
organização em uma estrutura única permitindo uma melhor utilização dos
dados pelos analistas, gerentes e executivos.
Uma vez obtida a integração, sistemas como OLAP (On-Line Analytical
Processing) e data mining fornecem mecanismos sofisticados para análise dos
dados.
Estudar e conhecer a tecnologia de Data Warehouse pode ajudar os
empresários a descobrir novas formas de competir em uma economia
globalizada, trazendo melhores produtos ou serviços para o mercado, mais
rápida do que os concorrentes, sem aumentar o custo do produto ou do
serviço.
Data Warehouse - Conceitos
Não existem ainda metodologias formais para implementação de um Data
Warehouse, ela deve ser adaptada às características e às expectativas de
cada empresa, mas o principal objetivo em todas elas é o de descobrir
maneiras diferentes de atuar no mercado e quais as mudanças internas que
devem
ocorrer
para
atender
as
novas
realidades.
Nas últimas décadas, a tecnologia da informação evoluiu consideravelmente,
dos primeiros computadores centrais até os atuais sistemas distribuídos.
Essa visão moderna e descentralizada busca obter vantagens, principalmente
em termos de acessibilidade, disponibilidade e custo.
Data Warehouse - Definição
Data Warehouse, cuja tradução literal é Armazém de Dados (ou ainda
Depósito de Dados), pode ser definido como um banco de dados destinado a
sistemas de apoio à decisão e cujos dados foram armazenados em estruturas
lógicas dimensionais, possibilitando o seu processamento analítico por
ferramentas especiais (OLAP e Mining).
Segundo W.H.Inmon, considerado um pioneiro no tema, um Data Warehouse é
uma coleção de dados orientada por assuntos, integrada, variante no tempo,
que tem por objetivo dar suporte aos processos de tomada de decisão.
O Data Warehouse é um banco de dados contendo dados extraídos do
ambiente de produção da empresa, que foram selecionados e depurados,
tendo sido otimizados para processamento de consulta e não para
processamento de transações.
Data Warehouse - Definição
Em geral, um Data Warehouse requer a consolidação de outros recursos de
dados além dos armazenados em base de dados relacionais, incluindo
informações provenientes de planilhas eletrônicas, documentos textuais, etc.
De acordo com Richard Hackathorn (outro pioneiro no tema), o objetivo de um
Data Warehouse é fornecer uma "imagem única da realidade do negócio".
De uma forma geral, sistemas de Data Warehouse compreendem um conjunto
de programas que extraem dados do ambiente de dados operacionais da
empresa, um banco de dados que os mantém, e sistemas que fornecem estes
dados aos seus usuários.
Data Warehouse - Definição
Esses dados deverão estar “mastigados”, integrados e disponíveis, permitindo
diversas formas de consultas, através dos mecanismos amistosos das
ferramentas dos usuários.
Por “mastigados” entenda-se todo um processo de identificação, catalogação,
coleta, disponibilização e transformação (dos dados) em informações
necessárias aos negócios da empresa.
Por identificação entenda-se um processo de modelagem de dados voltado
para áreas específicas a serem atendidas pelo DW, na qual os dados serão
analisados segundo uma ótica própria.
Data Warehouse - Definição
A catalogação objetiva a identificação clara e concisa das informações
gerenciais e possibilitará a busca por assuntos e palavras-chaves.
As ações de extração/transformação/carga definirão procedimentos de busca,
transformação e carga de dados oriundos das diversas fontes existentes na
empresa, além de seus procedimentos de manutenção.
Os subprocessos de transformação definirão as estratégias e rotinas de
consolidação, sumarização e agregação dos dados e os mecanismos de
disponibilização assegurarão o seu uso amistoso através de interfaces
gráficas.
Data Warehouse
Sistemas de Data Warehouse revitalizam os sistemas da empresa, pois:
•
•
•
•
Permitem que sistemas mais antigos continuem em operação;
Consolidam dados inconsistentes dos sistemas mais antigos em conjuntos
coerentes;
Extraem benefícios de novas informações oriundas das operações
correntes;
Provém ambiente para o planejamento e arquitetura de novos sistemas de
cunho operacional.
Como se vê, existem diferentes visões do que seria um data warehouse: uma
arquitetura, um conjunto de dados semanticamente consistente com o objetivo
de atender diferentes necessidades de acesso a dados e extração de
relatórios, ou ainda, um processo em constante evolução, que utiliza dados de
diversas fontes heterogêneas para dar suporte a consultas ad-hoc, relatórios
analíticos e à tomada de decisão.
Data Warehouse - Data Mart
O termo Data Mart (Mercado de Dados) significa, nesse cenário, depósito de
dados que atende a certas áreas específicas da empresa e voltadas (também)
para o processo decisório gerencial.
Data Mart e Data Warehouse podem ser definidos como espécies do mesmo
tipo, ficando a diferença entre eles centrada no escopo do projeto e nos limites
de suas abrangências.
O Data Warehouse é normalmente acessado através de Data Marts, que são
pontos específicos de acesso a subconjuntos do Data Warehouse.
Os Data Marts são construídos para responder prováveis perguntas de um tipo
específico de usuário. Por exemplo: um Data Mart financeiro poderia
armazenar informações consolidadas dia-a-dia para um usuário gerencial e em
periodicidades maiores (semana, mês, ano) para um usuário no nível da
diretoria.
Um Data Mart pode ser composto por um ou mais cubos de dados.
Data Warehouse / Data Mart
Existem várias maneiras de extrair (recuperar) informações de um Data
Warehouse, as formas de extração mais comuns no mercado hoje são:
• Ferramentas de consulta e emissão de relatórios;
• EIS (Executive Information Systems);
• Ferramentas OLAP;
• Ferramentas Data mining.
A diferença básica entre ferramentas OLAP e Data Mining está na maneira
como a exploração dos dados é abordada.
Com ferramentas OLAP a exploração é feita na base da verificação, isto é, o
analista conhece a questão, elabora uma hipótese e utiliza a ferramenta para
confirmá-la.
Com Data Mining, a questão é total ou parcialmente desconhecida e a
ferramenta é utilizada para a busca de conhecimento.
Data Mining
Data Mining (Mineração de Dados ou Prospecção de Dados) é o processo de
explorar grandes quantidades de dados à procura de padrões consistentes,
como regras de associação ou sequências temporais, para detectar
relacionamentos sistemáticos entre variáveis, detectando assim novos
subconjuntos de dados.
Data Mining é uma tecnologia que emergiu da intersecção de três áreas:
estatística clássica, inteligência artificial e aprendizado de máquina, sendo a
primeira a mais antiga delas.
Data Mining
Pode ser entendido como o processo de extração de informações sem
conhecimento prévio, de um grande banco de dados e seu uso para tomada
de decisões.
Ferramentas de Data Mining realizam análise de grandes volumes de dados e
podem descobrir padrões interessantes frequentes nos dados.
Observa-se que o Data Mining é parte de um processo maior conhecido como
KDD (Knowledge Discovery in Databases) – em português, Descoberta de
Conhecimento em Bases de Dados – que permite a extração não trivial de
conhecimento previamente desconhecido e potencialmente útil de um banco
de dados.
Data Mining
Bancos de Dados de Transações : tickets de supermercado, por exemplo:
Trans_ID
ItensComprados
TR100
Pão, Leite, Açucar
...
...
Consultas Clássicas : “Quantas transações incluem o item ‘Pão’ ”?
Data Mining : “Quais itens têm boa saída conjuntamente?”
Exemplo: se impressoras são normalmente compradas conjuntamente com um
computador, então uma boa estratégia seria oferecer modelos caros de
impressoras com desconto para clientes que compram certas marcas de
computadores.
Data Mining
Os métodos tradicionais de Data Mining são:
•
Classificação – Associa ou classifica um item a uma ou várias classes
categóricas pré-definidas.
•
Modelos de Relacionamento entre Variáveis – Associa um item a uma ou
mais variáveis de predição de valores reais, consideradas variáveis
independentes ou exploratórias
•
Análise de Agrupamento (Cluster) - Associa um item a uma ou várias
classes categóricas (ou Clusters), em que as classes são determinadas
pelos dados, diversamente da classificação em que as classes são prédefinidas.
Data Mining
•
Sumarização – Determina uma descrição compacta para um dado
subconjunto.
•
Modelo de Dependência – Descreve dependências significativas entre
variáveis.
•
Regras de Associação – Determinam relações entre campos de um banco
de dados.
•
Análise de Séries Temporais – Determina características sequenciais, como
dados com dependência no tempo.
Data Mining – Aplicações
Análise Financeira
•
Predição de pagamentos de empréstimos, política de créditos para clientes.
•
Classificação e clustering de clientes para fins de marketing direcionado.
•
Detecção de lavagem de dinheiro e outros crimes financeiros. Necessita
integração de diferentes bancos de dados : dados bancários, registros de
polícias estaduais e federais.
Download