Data Warehouse e Data Mart como Ferramentas de

Propaganda
ANA PAULA SILVA
Data Warehouse e Data Mart como Ferramentas de Inteligência em
negócios (BI)
Universidade Estadual de Maringá.
Departamento de Informática, Curso de Pós
Graduação em Tecnologia de Desenvolvimento
para a WEB.
MARINGÁ
2004
2
ANA PAULA SILVA
Data Warehouse e Data Mart como Ferramentas de Inteligência em
negócios (BI)
Monografia apresentada como requisito parcial
à obtenção do grau de Especialista em
Desenvolvimento para WEB, Curso de Pós
Graduação em Desenvolvimento para WEB,
Departamento de Informática, Universidade
Estadual de Maringá.
Orientador: Prof. Dr. José Tarcísio Pires
Trindade
MARINGÁ
2004
3
AGRADECIMENTOS
Ao Professor José Tarcísio pela paciência.
Ao Coordenador do Curso Wesley Romão pelo incentivo.
À minha amiga Rosely Locatelli.
Aos meus pais e ao meu irmão.
4
SUMÁRIO
RESUMO.....................................................................................................................7
INTRODUÇÃO ............................................................................................................8
2. BUSINESS INTELLIGENCE BI .............................................................................10
2.1 CONCEITO DE BI ...............................................................................................10
2.2. BI PARA SOBREVIVÊNCIA DA EMPRESA......................................................12
2. 3 O VALOR DO BI NAS EMPRESAS ..................................................................13
2. 4 EXEMPLO DE UTILIZAÇÃO DA INFORMAÇÃO DO BI ...................................14
2. 5. CASOS EM QUE É ACONSELHADO A UTILIZAÇÃO DO BI..........................14
2.6. A MANUTENÇÃO DE UM BI.............................................................................15
2.7. UMA NOVA GERAÇÃO DE BI ...........................................................................15
3. FERRAMENTAS DE BI .........................................................................................17
3.1 APLICAÇÕES DE BI ...........................................................................................22
4. DATA WAREHOUSE ............................................................................................25
4.1 O QUE É DATA WAREHOUSE? ........................................................................28
4.2 POR QUE UTILIZAR DATA WAREHOUSE ........................................................29
4.3 PRINCÍPIOS DIRECIONADORES DE UM AMBIENTE DATA WAREHOUSE. ..30
4.3.1 GRANULARIDADE ..........................................................................................30
4.3.2 ATUALIZAÇÃO E TEMPO DE RETENÇÃO DOS DADOS ..............................33
4.3.3 DISPONIBILIDADE ..........................................................................................33
4.4.4 ESCALABILIDADE ...........................................................................................34
4.5 ARQUITETURA DO AMBIENTE DE DATA WAREHOUSE ................................34
4.5.1 ORIENTAÇÃO POR ASSUNTO ............................................................................... 34
4.5.2 INTEGRAÇÃO ...........................................................................................................35
4.5.3 VARIAÇÃO NO TEMPO...........................................................................................36
4.5.4 NÃO VOLATILIDADE..............................................................................................37
4.5.5 DADOS ....................................................................................................................... 37
4.5.5.1 LOCALIZAÇÃO DOS DADOS........................................................................ 38
4.5.5.2 CREDIBILIDADE DOS DADOS ..................................................................... 39
4.5.5.3 SUMARIZAÇÃO ............................................................................................... 40
4.5.5.4 NÍVEIS DE SUMARIZAÇÃO........................................................................... 41
4.5.5.5 CONSIDERAÇÕES SOBRE VOLUME DE DADOS................................... 43
5
4.5.6 POLÍTICA, TRANSFORMAÇÕES, ARMAZENAMENTOS E ANÁLISE.............44
4.5.7 METADADOS ............................................................................................................ 45
4.6 TIPOS DE MODELAGENS EM DW ........................................................................... 45
4.6.1 MODELAGEM FLOCO DE NEVE - SNOWFLAKE........................................ 46
4.6.2 MODELAGEM ESTRELA - STAR..................................................................... 46
4.7 TIPOS DE TABELAS UTILIZADAS NA ARQUITETURA DW ...............................47
4.7.1 TABELA DE FATOS - FACT TABLE................................................................ 47
4.7.2 TABELAS INFORMACIONAIS - INFORMATION TABLE............................ 47
4.8 DATA MART................................................................................................................... 49
5. DATA MART..........................................................................................................50
6 - DATA WAREHOUSE X DATA MART ..................................................................52
7. DATA WAREHOUSE X DATA MART: COMO ELES PODEM AJUDÁ-LO ...........54
CONCLUSÕES .........................................................................................................56
REFERÊNCIAS.........................................................................................................57
6
LISTA DE TABELAS E QUADROS
QUADRO I DEMONSTRATIVO DAS FERRAMENTAS E FORNECEDORES E
ETAPAS DE BUSINESS INTELLIGENCE.
FIGURA 01 – INTEGRAÇÃO DOS DADOS.
FIGURA 02 – PARÂMETROS DE CREDIBILIDADE DOS DADOS.
FIGURA 03 – SUMARIZAÇÃO.
FIGURA 04 – ESTRUTURAS DOS NÍVEIS DE SUMARIZAÇÃO.
FIGURA 05 – VOLUME DOS DADOS.
TABELA COMPARATIVA ENTRE SNOWFLAK E STAR.
7
RESUMO
Nas últimas décadas, com a disseminação do uso de microcomputadores, as
empresas preocuparam-se apenas com a automatização de seus processos,
gerando assim, uma grande massa de dados obsoletos.
As constantes mudanças
na economia globalizada tem forçado os diretores e
gerentes a tomarem decisões cada vez mais rápidas e precisas que podem definir o
futuro de seus empreendimentos.
Surge então a necessidade de abstrair informações relevantes destes dados. Uma
alternativa encontrada para facilitar a obtenção destas informações está na
implantação de uma arquitetura de DATA WAREHOUSE que é o processo de
interação dos dados corporativos de uma empresa em um único base de dados
onde, os usuário finais podem facilmente executar consultas, gerar relatórios e fazer
análises, criando um ambiente de suporte a decisão que alavanca dados
armazenados em diferentes fontes e os organiza e entrega aos tomadores de
decisões da empresa, independente da plataforma que utiliza ou de seu nível de
qualificação técnica.
Para podermos falar sobre Data Warehouse e Data Mart, faz-se necessário uma
introdução sobre Business Intelligence para melhor entendimento.
Este trabalho visa esclarecer algumas dúvidas sobre Data Warehouse, no que se
refere a necessidade de informações mais relevantes. Quem e como devemos
utilizá-los bem como fazer uma comparação entre duas ferramentas mais usadas
que são Data Warehouse e Data Mart. Para isso, tem-se a necessidade de uma
breve explicação sobre BI.
Business Intelligence é o conjunto de conceitos, métodos e recursos tecnológicos
que habilitam a obtenção e distribuição por toda a empresa, de informações para
análise, disponibilizando aos gestores nos diversos níveis, tanto o diagnóstico de
seu negócio, com base em fatos acontecidos, como a sinalização de tendências,
elementos fundamentais para suportar a tomada de decisão.
8
INTRODUÇÃO
Nas últimas décadas, com a disseminação do uso de microcomputadores, as
empresas de modo geral, preocuparam-se apenas com a automatização de seus
processos, gerando assim, uma grande massa de dados obsoletos. Atualmente, as
constantes mudanças na economia globalizada têm forçado os diretores e gerentes
a tomarem decisões cada vez mais rápidas e precisas que podem definir o futuro de
seus empreendimentos. Com o foco nessa realidade é que surgiu o conceito de
inteligência para negócios ou Business Intelligence.
Business Intelligence são as lentes multifocais que permitem executar uma visão
estratégica através das informações operacionais de uma empresa, com o mínimo
de distorção possível e com uma abrangência maior para avaliação dos resultados.
Com esta aplicação analítica, pretende-se determinar novas estratégias de
mercados e novos produtos. Business Intelligence é a construção deste modelo de
inteligência de negócios que pode ser facilmente entendido, medido e, seguramente
está comprometido com os resultados de todos os níveis da empresa. Com os
resultados obtidos, será feita uma visão estratégica única, com coerência e sem
distorção das informações obtidas, para que sejam definidos novos objetivos e
metas a serem alcançadas ou apenas para medir a posição da empresa até o
momento.
Business Intelligence utiliza-se de uma combinação de outras
ferramentas, dentre elas, destacamos neste trabalho: Data Warehouse; que
armazena um enorme volume de dados da sua empresa e transforma estes dados
brutos em informação; OLAP: analisa uma mesma informação de diferentes formas
para ajudar na tomada exata de uma decisão; Data Mining (ou mineração de dados);
é o processo de extrair informação válida, previamente desconhecida e de máxima
abrangência a partir de grandes bases de dados, usando-as para efetuar decisões
cruciais; Data Mart: agrega a informação por setores, além de melhorar a
performance torna o acesso mais simples para o usuário final; entre outros que
serão comentados e mostrados.
Mas para o propósito desse trabalho discorreremos, com mais detalhes, sobre Data
Warehouse e Data Mart como ferramentas de Inteligência para negócios (BI). No
9
capítulo 4 conceituaremos o Data Warehouse, falando sobre sua estrutura, modo de
uso, onde e como utiliza-lo, além de outros conceitos relacionados. No capítulo 5
abordamos o que vem a ser o Data Mart conceitos, estruturas além de comparações
entre as duas ferramentas.
Mas além de todas estas ferramentas agregadas, ainda é preciso deter um profundo
conhecimento de seu negócio, para a aquisição de uma aplicação analítica como
estas aqui apresentadas. Será necessário traçar objetivos, metas, táticas e
estratégias com estas ferramentas, pois elas agregam um alto valor a informação em
análise. Mesmo com o sistema todo implantado e gerando seus relatórios dinâmicos,
serão necessários alguns ajustes tanto técnicos quanto operacionais, para a
expansão dos resultados obtidos ou para que se possa aprender com os erros e
acertos. Isto é a Inteligência de seu Negócio. Isto é Business Intelligence. Estas
questões são abordadas no capítulo 2 onde também discorreremos sobre conceitos,
valor de BI para sobrevivência das empresas, valor de Bi nas empresas, exemplo de
utilização, casos em que é aconselhado a utilização de BI, Manutenção e por fim as
ferramentas de BI.
Nos capítulos 6 e 7, fazemos uma comparação entre Data Warehouse e Data Mart
e como eles podem ajuda-lo.
Por fim, apresentamos nossas conclusões sobre o presente trabalho.
10
2. BUSINESS INTELLIGENCE BI
A economia globalizada resume-se a uma palavra: velocidade. Os negócios, os
clientes e os produtos sofrem mudanças em ritmo nunca antes observado.
Para alcançar o sucesso, as empresas devem oferecer uma experiência superior ao
cliente, ganhar conhecimento em tempo real, tomar decisões mais rapidamente e
aperfeiçoar o desempenho dos negócios. Os executivos devem examinar e
compreender tanto os processos tradicionais como os de e-Business, reunindo
informações de diversas fontes.
A resposta para estes desafios chama-se Business Intelligence.
2.1 CONCEITO DE BI
Business Intelligence é o conjunto de conceitos, métodos e recursos tecnológicos
que habilitam a obtenção e distribuição por toda a empresa, de informações para
análise, disponibilizando aos gestores nos diversos níveis, tanto o diagnóstico de
seu negócio, com base em fatos acontecidos, como a sinalização de tendências,
elementos fundamentais para suportar a tomada de decisão.
“Um grande centro de ferramentas de software, incluindo DSS (Sistemas de suporte
a decisão), EIS(Sistemas de informação executivo), OLAP (Processo analítico online) e data mining, que extraem dados de forma ordenada para encontrar
tendências e parcerias que podem contribuir na direção do seu negócio.”,
[Greengard, 1999]
“É uma aplicação tecnológica que permite as corporações coletar, agregar e analisar
todos os dados transacionais para melhor entender e obter “insight” sobre o seu
negócio. Uma das melhores aplicações de BI na atualidade é a análise dos dados
11
seus clientes de forma a obter um melhor entendimento do comportamento deles e
melhorar o gerenciamento do relacionamento para com estes.”, [Simoudis, 1998]
“O mercado aponta o BI como o conjunto de ferramentas que interagem entre si,
objetivando levar a um número maior de usuários informações vitais para o
gerenciamento de seus negócios. Estão contidas neste conceito todas as
tecnologias e ferramentas de gerenciamento de informações já conhecidas no
passado, como a tecnologia de OLAP, a Data Warehouse, o Data Mining, o DSS,
Data Mart e EIS, ou seja, todas as ferramentas e processos disponíveis para coleta,
armazenamento e distribuição de dados gerencias.”, ..., a seguir o autor, cita que o
BI
está
disponível
no
produto
destes
através
de
quatro
ferramentas:
“SIGAEIS(executive Information System ), a integração com os produtos MS office, o
Seagate Crystal Report e o SIGAWF(Workflow)” [Microsiga, 1999]
“O conceito de BI traz uma nova abordagem e integra toda a tecnologia que possa
prover ao usuário um poder de análise que ele não tem, permitindo transformar os
dados transacionais em informação. Além disso, olhar para o futuro, embasado em
projeções e decisões com informações mais precisas”, por Antonio Paulo Hill, diretor
para a América Latina da Hyperion. [Informática Hoje, 1999]
Atualmente dentro de cada negócio é usado BI para trabalhar de maneira inteligente
apontando novos caminhos de lucratividade e viabilidade, retornando a informação
de qual a melhor maneira de obter o maior retorno sobre o investimento aplicado.
Estas são algumas das características de BI: [www.bi-magazine.com]
a) extrair e integrar dados de múltiplas fontes;
b) fazer uso da experiência;
c) analisar dados contextualizados;
d) trabalhar com hipóteses;
e) procurar relações de causa e efeito;
f) transformar os registros obtidos em informação útil para o conhecimento
empresarial;
12
2.2. BI PARA SOBREVIVÊNCIA DA EMPRESA
Nos últimos anos, a demanda mostra que no mundo de BI não tem lugar para a
superficialidade ou modismo, é inegável que atualmente algo está mudando de
maneira
substancial.
Nos
últimos
anos,
a
demanda
de
profissionais
do
conhecimento, especializados na sua geração, difusão e aplicação tem crescido sem
parar. A necessidade de sistemas de inteligência para converter os dados em
critérios objetivos, para a tomada de decisões, é uma realidade generalizada.
Existem alguns elementos irrenunciáveis que podem contribuir para o sucesso da
empresa, os quais pode-se resumir fundamentalmente em quatro:
1º) O âmbito de diferenciação entre as empresas tem-se deslocado do retorno das
operações ao informal, da mera gestão da transação a contribuição e valor ao
cliente através de cada oportunidade de contato, da automatização de processos
mecânicos a mecanização de processos inteligentes; de considerar exclusivamente
os aspectos tangíveis nos processos de tomadas de decisões a dar uma importância
cada vez maior ao intangível;
2º) Cada vez em maior medida, a empresa vai adotando estruturas funcionais
orientadas a garantir que existe uma adequada interação com o retorno; interação
esta que deve ser rápida, eficiente e que permita ativar os mecanismos pertinentes
para dar uma resposta oportuna às ameaças e oportunidades que podem surgir;
3º) O conhecimento, elemento básico na atividade de toda empresa, não tem tido
normalmente a atenção que merecia, devido a seu caráter intangível. Atualmente se
considera o mais importante e é uma tendência muito divulgada tratar de fazer o
conhecimento tangível através de sistemas de documentação e publicação;
4º) Não se pode deixar de incluir a diferenciação das características de certas
decisões e sua disposição em função de seus interesses para a empresa, quer seja
13
de caráter tangível ou intangível, por seus efeitos em curto ou longo prazo e o poder
conhecer, mediante simulações, os efeitos e algumas decisões.
2. 3 O Valor do BI nas Empresas
No mercado atual, as empresas precisam levar vantagens das informações que têm.
Toda empresa que pretenda alcançar os níveis adequados de competência
necessita converter os dados em conhecimento, analisando e utilizando a
informação para apoiar a tomada de decisão e a definição de estratégia de negócio,
que permitam alcançar o êxito.
Velocidade é a última palavra em negócios para empresas que buscam vantagens
competitivas. Responder prontamente às demandas de seus clientes, assim como
perceber antecipadamente tendências que viabilizam novas oportunidades de
mercado, é a chave do sucesso para manter e expandir negócios no mundo de hoje.
Direcionar estrategicamente as ações de sua empresa em busca desses objetivos
depende fundamentalmente de ter informações precisas e imediatas, que garantam
uma aplicação eficaz de seus esforços e investimentos.
A integração de toda a informação, procedente das operações da empresa, em uma
plataforma de BI inter-relacionada com sua cadeia de valor, está se convertendo em
um fator crítico de êxito essencial para a competitividade, e ainda mais, para a
sobrevivência das empresas.
Os sistemas de BI proporcionam os meios para poder integrar e analisar a
informação. Incluem capacidades de análise multidimensional que permitem navegar
e aprofundar a partir dos dados, agregando e desagregando “online” pelas
dimensões que se considera mais importante e permitindo a definição e continuação
dos indicadores de negócios mais relevantes da empresa. Este tipo de informação
pode ser útil sempre que haja a necessidade de se realizar uma análise da
informação sobre qualquer aspecto de sua cadeia de valor.
14
Os sistemas de BI se baseiam na integração e na universalização da informação,
para dar resposta às necessidades analíticas, quer dizer, todos os departamentos da
empresa proporcionarão informação e ao mesmo tempo se beneficiarão dela, porém
não somente da informação do seu próprio departamento, mas também poderão ter
acesso a qualquer tipo de informação que lhes seja de utilidade em sua área de
negócio, mesmo que essa informação provenha de qualquer outro departamento.
2. 4 EXEMPLO DE UTILIZAÇÃO DA INFORMAÇÃO DO BI
Em uma empresa, tem-se uma informação periódica sobre as vendas realizadas aos
clientes, sobre o esforço da rede comercial e sobre os pedidos feitos aos
fornecedores. Pode-se integrar e cruzar toda esta informação para analisar, por
exemplo, em que lugares vende-se mais cada tipo de produto, quem são os clientes
mais rentáveis, qual é a relação entre o esforço comercial e as operações fechadas,
e de que fornecedores compra-se a maior parte dos produtos vendidos.
2. 5. CASOS EM QUE É ACONSELHADO A UTILIZAÇÃO DO BI
Qualquer empresa precisa integrar a informação procedente de sua cadeia de valor,
com o objetivo de analisar para poder tomar decisões acertadas e definir estratégias
eficientes de negócio. Qualquer empresa que tenha “resolvido” suas necessidades
de informação operacionais, vai traçar necessidades de informação analítica, que
devem ser resolvidas com a implantação de um sistema de BI.
Qualquer analista de negócio que tenha que realizar uma função de planejamento e
gestão irá beneficiar em grande medida de um sistema de BI pela facilidade de
análise que mostra este tipo de ferramenta e pela autonomia que confere este tipo
de sistema.
15
2.6. A MANUTENÇÃO DE UM BI
A manutenção de um sistema de BI implica na execução, periódica ou não, de uma
grande quantidade de processos, análise e limpeza da fonte de dados, cargas
adicionais de dimensão e tabela de tabela de fatos , cálculo de tabelas agregadas,
atualização e distribuição de relatórios e análise, etc.. Todos esses processos devem
ser executados em uma determinada ordem, pois sua execução estará sujeita a
diversos fatores, tais como: disponibilidade de certa máquina, de certo arquivo ou
simplesmente certo dia a certa hora. Quando se apresenta alerta, anormalidades ou
erros, deve-se corrigir sem que em nenhum momento perca-se a disponibilidade ou
a veracidade da informação oferecida.
Para que isto aconteça, a melhor estratégia ainda é a prevenção. Durante a fase de
desenvolvimento do sistema deve-se estudar cuidadosamente os pontos críticos do
funcionamento do sistema, quer dizer, deve-se elaborar uma lista de “tudo o que
pode falhar” e preparar os correspondentes algoritmos de atuação.
2.7. UMA NOVA GERAÇÃO DE BI
Na atualidade, as empresas são valorizadas não unicamente pela qualidade de seus
produtos ou serviços, mas também pelo grau em que dividem informação com seus
clientes, empregados, fornecedores ou sócios. A maioria das organizações têm uma
grande quantidade de dados, todavia possuem uma carência no conhecimento
destes dados, e como estes estão organizados e distribuídos. É por isso que surge a
necessidade ou conceito de BI, o qual se encarrega de englobar todos os sistemas
de informação de uma empresa para obter não somente dados ou conhecimento,
mas também uma verdadeira inteligência de negócio que concede vantagens
competitivas às organizações. A metodologia de BI tem a capacidade de consolidar
informação e analisar essa informação com a suficiente velocidade e precisão para
descobrir vantagens e poder tomar decisões estratégicas de negócio.
16
Os diferentes tipos de software são classificados nas seguintes categorias:
a) Tecnológicos: bases de dados otimizados por freqüência, alto volume de
informação e consultas multidimensionais;
b) Aplicações Analíticas: aplicações pré-fabricadas com medidas definidas,
metodologias e processos já predestinados para administrar problemas de negócios
associados com mercados específicos ou verticais ou áreas funcionais de uma
empresa;
c) Ferramentas de Análise: aplicações que não são de mercados verticais ou função
de negócio específicos, mas podem prover de funções essenciais como a
visualização de dados, informes e consultas;
d) Plataformas de Desenvolvimento: incluem blocos de informações para adaptar ou
desenvolver aplicações analíticas que resolvem as necessidades de negócio.
Plataformas que podem incluir linguagens de programação como Java, Visual Basic
e/ou moldes pré-configurados ou objetos. Algumas das mais avançadas plataformas
provém de uma interface de usuário muito amigável para manipular estes elementos
sem programar códigos.
Para resolver os problemas das ferramentas de BI, aparece a nova geração de
sistemas de Business Performance, que melhoram a utilidade dos sistemas. As
soluções de Business Performance se dividem em 3 grandes grupos: - no primeiro
se reflete o desenvolvimento de aplicações de uso analítico mais simples de utilizar,
e aplicações analíticas já desenvolvidas anteriormente. Estas aplicações devem
melhorar a geração de alto rendimento de negócio com Dashboards e Scorecards
(permitindo incorporar, se deseja, as medidas ou controles do negócio que se quer
aplicar) ; - o segundo grupo encorpora soluções e acesso a informação
personalizada através do uso interno de portais corporativos e de e-business; - o
terceiro grupo está desenhado para suportar a tomada de decisões em tempo real
através do acesso imediato ao sistema de Data Warehouse ou diretamente às
tabelas, motores automatizados de decisão e recomendações analíticas de baixo
pedidos do usuário.
17
3. FERRAMENTAS DE BI
Conforme comentamos no capítulo anterior, podemos contar com um amplo e
variado leque de ferramentas para implementação do conceito de BI. Algumas delas
são descritas a seguir.
- Datawarehouse
São os grandes base de dadoss de dados [Informática Hoje, 1999]; poderia-se
perguntar: mas já não existem os bancos de dados tradicionais? A resposta seria
sim, mas não conseguimos imaginar uma empresa que adote a filosofia de guardar
todos os seus dados transacionais (movimentações diárias, como por exemplo:
entradas e saídas de itens de estoque) numa única base. Isto exigiria uma grande
capacidade de armazenamento, o que teria um custo elevado, além de interferir na
velocidade de processamento, o que demandaria um tempo maior de operação. Por
estes motivos os dados que não precisam necessariamente estar disponíveis on-line
(acessados a qualquer momento), ficam disponíveis em outra base para quando se
fizer necessária uma consulta. Esta “outra-base” é estruturada de forma a facilitar
este processo de consulta, além de contar com recursos de pré-processamento
como por exemplo o conceito de ETL (Extraction , transformation and load), que
compreende a fase de alimentação do que denominamos datawarehouse.
Datamarts
Outra ferramenta de BI é o Data Mart que é, na verdade um pequeno Data
Warehouses; assim poderíamos definir os Data Marts, como ferramentas que se
utilizam da mesma concepção do Data Warehouse. A diferença entre um e outro fica
por conta da especialização por um determinado assunto ou área da empresa, como
por exemplo podemos ter um um Data Mart específico para marketing. [Informática
Hoje, 1999]
SQL
18
O SQL é um exemplo, dentro das muitas linguagem de consulta disponíveis para
pesquisar dados. Associadas ou não ao banco de dados para os quais foram
desenvolvidas originalmente, estas ferramentas são poderosas aliadas para a
pesquisa de dados, desde que se conheça o vocabulário inerente a cada uma delas,
e também a denominação dos dados no banco de dados. Se o problema for
consultar determinados clientes que estejam cadastrados sob um típico específico,
como por exemplo um canal de venda, utilize o comando SELECT, e não esqueça
da sentença apropriada: SELECT client WHEN type = XXXX. [Microsof, 1997]
Data Mining (Query tools – Ferramentas de consulta, Statistical techniques –
técnicas estatísticas, Visualization - Visualização, OLAP Análise on-line de
processos, Case-based learning – Aprendizado baseado em casos, decision trees –
Árvore de decisão, Association rules – Regras de associação, Neural networks –
Redes Neurais e Genetic Algorithms – Algoritmos genéticos)
Não é nosso propósito aqui identificar cada uma das ferramentas que encontramos
sobre o “manto” do Data Mining, já que o foco de nosso trabalho concentra-se nas
ferramentas de Data Warehouse e Data Mart. O importante é salientar que o Data
Mining é um conceito de “mineração” de dados, de forma a atendermos as nossas
necessidades de informações, através de regras existentes dentro das ferramentas,
consideradas em alguns casos como verdadeiras “caixas pretas” [Adriaans , 1996].
Não precisamos conhecer o conteúdo das referidas “caixas pretas”, como no caso
dos comandos SQL. Mas precisaremos de alguém mais técnico para montar estas
regras, e a partir daí, é só efetuar a pesquisa.
Apesar do termo Data Mining ter se tornado bastante popular nos últimos anos,
existe ainda uma certa confusão quanto a sua definição. Data Mining (ou Mineração
de Dados) é o processo de extrair informação válida, previamente desconhecida e
de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar
decisões cruciais. Este processo vai muito além da simples consulta a um banco de
dados, no sentido de que permite aos usuários explorar e inferir informação útil a
partir de dados, descobrindo relacionamentos escondidos no banco de dados.
19
Pode ser considerada uma forma de descobrimento de conhecimento em bancos de
dados, sendo uma área de pesquisa de bastante evidência no momento, envolvendo
inteligência artificial e banco de dados.
Data Mining pode ser utilizado com os
seguintes objetivos:
Explanatório: explicar algum evento ou medida observada, tal como: “porque a
venda de sorvetes caiu no Rio de Janeiro”;
Confirmatório: confirmar uma hipótese. Uma companhia de seguros, por exemplo,
pode querer examinar os registros de seus clientes para determinar se famílias de
duas rendas têm mais probabilidade de adquirir um plano de saúde do que famílias
de uma renda;
Exploratório: analisar os dados buscando relacionamentos novos e não previstos.
Uma companhia de cartão de crédito pode analisar seus registros históricos para
determinar que fatores estejam associados a pessoas que representam risco para
créditos.
Especialmente devido ao alto custo envolvido, estas ferramentas vinham sendo
usadas
quase
que
unicamente
por
grandes
corporações
e
instituições
governamentais. A maior parte das atividades de Data Mining ficava restrita a
especialistas, com empresas oferecendo seus serviços de análise, mas sem
entregar aos clientes seus métodos e ferramentas. Com o grande aumento do
volume de dados nas empresas e com o crescimento do uso de tecnologia de banco
de dados, especialmente de Datawarehouse, as técnicas de DataMining assumiram
papel importante no suporte aos processos de tomada de decisão e devem, aos
poucos, ganhar mercado entre as empresas de menor porte.
DSS/EIS
Tanto o DSS (Decision Suport System – Sistema de Suporte à Decisão) ou o EIS
(Executive Information System – Sistema de Informação Executiva) são direcionados
para os executivos de empresas no sentido de facilitar o exercício da principal
função deste dentro da empresa: tomada de decisão. [Microsiga, 1999]
20
Dependendo do produto e/ou do fabricante teremos uma esta “facilidade” para
obtenção das informações, porque, no geral, estas já estão formatadas de acordo
com as “previsíveis” necessidades destes executivos. O problema começa quando
não se acerta nesta “previsibilidade”, ou algum detalhe adicional que sempre o
executivo necessita, ou ainda quando esbarramos na falta de disposição ou tempo
do mesmo, para entender alguns comandos necessários para atender ao detalhe
requerido.
Geradores de relatórios (Ex. Crystal Report)
Se tivermos a nossa disposição dados porque não gerar informações formatadas de
acordo com a nossa necessidade, estas são as funções principais dos geradores de
relatórios, a exemplo do Crystal Report. [Microsiga, 1999] Logicamente o processo
de geração das informações não é tão simples assim. Neste processo utilizam-se
regras de consulta, e se estamos falando de Crystal Report, não podemos esquecer
de SQL, pois o Crystal Report é justamente o gerador de relatórios do SQL.
Portanto, vale o que foi comentado no item SQL, deve haver um conhecimento
acerca das referidas regras, além do principal: saber o nome de um campo da forma
que está escrito no banco de dados, e se você pensa que digitar o nome cliente para
procurar informações sobre clientes, pode ter uma surpresa, cliente pode estar
escrito como client, clien, etc...
CRM
CRM, este é o conceito do momento. Seja os fabricantes de ERP ou consultoria
especializadas na área de marketing/vendas, todos estão interessados no filão do
CRM (Customer Relation Management). O referido conceito trata da integração das
áreas de vendas, que normalmente contam com um sistema específico de
informações de faturamento que não está interligado ao de telemarketing, que
responde pelo contato com o cliente, ou ainda ao setor de atendimento ao cliente.
Ao efetuarmos uma integração destas áreas/sistemas proporcionaremos uma
integração plena do contato com o cliente, o que otimizará as decisões inerentes a
este verdadeiro patrimônio da empresa. Dentro deste conceito pode-se embutir
21
alguns dos componentes acima para efetuar o processo de integração. [Network
Computing, 1999]
Conforme a tabela abaixo faremos o demonstrativo das ferramentas, fornecedores e
etapas da metodologia.
Ferramenta
Fornecedor(es)
Etapas da Metodologia
3)
Depuração
de
Dados
Oracle,Microsoft, Ardent, Informix,
Datawarehouse
5.1) Seleção do Método de Extração
SAS institute, IBM e Sybase
6) Execução do Processo
Oracle,
Microsoft,
Ardent, 5.1) Seleção do Método de Extração
Informix, SAS institute, IBM e 6) Execução do Processo
Datamarts
Sybase
2)
Análise
de
Dados
Microsoft
SQL
3)
Depuração
de
Dados
4) Agregação de Dados
2)
Análise
de
Dados
Oracle
Oracle
3)
Depuração
de
Dados
4) Agregação de Dados
5.1) Seleção do Método de Extração
5.2) Seleção do Método de
Microsoft
DSS
Exploração
6) Execução do Processo
5.1) Seleção do Método de Extração
Oracle, Microsoft, Informix, Pilot,
Rollup/Olap
5.2) Seleção do Método de
Seagate, Hyperion,
Exploração
5.2) Seleção do Método de
Exploração
Cubo
Oracle, Microsoft, Cognos e Baan 5.3) Seleção do Método de
Visualização
6) Execução do Processo
5.3) Seleção do Método de
SAS institute, SPSS Inc e Unica
Técnicas
Visualização
Technology
Estatísticas
6) Execução do Processo
5.3) Seleção do Método de
Sybase, ZTI e Consist
Visualização
Visualização
6) Execução do Processo
Business
Objects,
Cognos, 5.3) Seleção do Método de
Angoss International, IBM, Accrue Exploração
Árvore
de
Software,
Oracle,
Salford 6) Execução do Processo
Decisão
Systems, SAS institute, SGI,
SPSS Inc e Única Technology
5.3) Seleção do Método de
Regras
de IBM, Accrue Software, SAS
Exploração
Institute, SGI e SPSS inc.
Associação
6) Execução do Processo
CA,
Angoss
International, 5.3) Seleção do Método de
Redes Neurais
Cognos, HNC Software, IBM, Exploração
Accrue Software, Neural Ware, 6) Execução do Processo
22
Oracle Corp, SAS institute, SPSS
Inc e Única Technology
Algoritmos
Genéticos
Ariel Dolan, Trajan
Wizsoft e Oingo.
Software,
5.3) Seleção do Método
Exploração
6) Execução do Processo
de
Entre os fatores a se ter em conta na hora de escolher aplicações analíticas, como
parte da estratégia BI global, está, em primeiro lugar, aliar-se com provedores de
comprovada experiência no mundo BI. Essa aliança permitirá capturar sua sabedoria
tecnológica e de negócio de maneira rápida, o que de outra forma exigiria tempo,
recursos e conhecimento dentro da própria empresa.
É também fundamental adotar uma aproximação integrada com os padrões BI da
empresa, somente assim se garantirá coerência de informação, minimizar os custos
de implantação, suporte, manutenção e formação ao usuário.
A rapidez de implantação é outro dos pontos críticos. É fundamental que a
tecnologia analítica adotada permita apoiar os processos de negócio com a mesma
rapidez que o mercado exige.
As aplicações analíticas representam a evolução das ferramentas tradicionais de BI,
e contribuem conteúdo de negócio altamente especializado nas diferentes áreas de
uma empresa. A possibilidade de dispor de poderosas ferramentas analíticas
baseadas nas melhores práticas de negócio, oferece um alto valor diferencial a
todos aqueles gerentes de empresa que desejam converter a informação disponível
em sua empresa em benefício de negócio.
No contexto empresarial existem inúmeras frentes de aplicação, em função da
variedade de áreas/atividades encontradas dentro de uma empresa, conforme
destacado na seção 2.1:
3.1 APLICAÇÕES DE BI
23
Aplicações de BI são muito variadas, vamos discorrer sobre algumas que
consideramos importantes, dentro do contexto deste nosso trabalho, iniciado por
marketing.
Marketing
A American Software [American , 1999] se presta a oferecer um produto, com a
etiqueta de BI, que vem de encontro à grande necessidade dos gerentes atuais: a
análise dos seus clientes. A próxima geração do softwares da American são
conectados aos sistemas de ERP através de sofisticadas ferramentas de OLAP
(processamento analítico on-line) e tecnologias de Data Warehouse.
Vendas
A neovista [Neo Vista, 1999], na sua versão de BI para empresas de varejo,
denominada de RDS-Assort, possibilita, através do uso de avançadas técnicas de
descobrimento, o uso de detalhes de estocagem e nível de performace de vendas,
para assessorar o nível corporativo no sentido do planejamento do tempo adequado
de distribuição de itens para as lojas que compõe a rede de varejo.
Finanças
Imaginemos o número de transações de um banco: depósitos, retiradas,
transferências, etc...; este número de transações pode chegar a casa dos gigabytes;
entretanto apenas 10% deste total é analisado como forma de melhorar as decisões
que são tomadas. Para um banco é fácil monitorar as transações efetuadas pelos
clientes, mas é muito difícil predizer quais produtos os clientes poderão se interessar
no futuro, e justamente neste ponto que se enquadra o BI: na predição do
comportamento destes clientes no futuro através dos dois processos, segundo este
autor, que tem o BI, o armazenamento de dados e a mineração de dados.
[Simoudis, 1998].
24
Uma das atividades onde fica claro a aplicação do conceito de BI, dentro do
processo de controladoria/finanças, é a de crédito. É fácil observar a quantidade de
dados que podem ser trabalhados a partir das constantes e inúmeras análise de
crédito efetuadas para clientes. Os critérios podem ser os mais diversos, mas ao
final ficam definidas algumas regras que viabilizaram a aprovação ou não de crédito
para um histórico de clientes, que podem ser utilizadas para análise de futuros
clientes. (SSBI - Softwares & Soluções em Business Intelligence)
Produção
Numa combinação de produtos (BrioQuery Designer, BrioQuery Explorer, BrioQuery
Explorer, BrioQUery Navigator, Brio.Insight, Brio.QuickView e o Brio.Enterprise
Server ), que representam a sua solução de BI integrada, a Brio Technology [Brio,
1999], foca a sua atuação, entre outros pontos, no suporte às necessidades de
decisão, em função de informações sobre produção e consumo.
O processo produtivo enseja uma cuidadosa análise no que se refere a atividades
como: custeio de produção, controle de estoque, mensuração de consumo de
materiais, planejamento da capacidade, acompanhamento de lead-time, etc... De
posse de um histórico, contidos em uma base de dados, podem ser criados cenários
que permitam traçar comportamentos futuros para um produto ou servir de
comparativo para a produção de um novo item de produção. Neste contexto, o
conceito de BI vem de encontro a atender a elaboração destes cenários.
Diversas são as empresas que já contam com a aplicação de BI no
acompanhamento do seu processo produtivo. Imaginemos a necessidade que os
executivos de produção têm no sentido de acompanhar a operação diária de uma
fábrica e ainda os custos inerentes a esta operação. Este acompanhamento já é
possível, possibilitando a estes executivos obter, rapidamente, uma visão do referido
processo, de forma a constituir um real elemento de visualização da situação atual.
(SSBI - Softwares & Soluções em Business Intelligence)
25
4. DATA WAREHOUSE
Data Warehouse pode ser descrito como um conjunto de tecnologias de suporte à
decisão, cuja intenção é permitir que executivos, gerentes e analistas do negócio
tomem decisões melhores e mais rápidas. Noções básicas sobre banco de dados,
modelo de entidades e relacionamentos não serão aqui apresentadas, podendo ser
encontradas em diversos livros-textos.
Para se entender o avanço que culminou na chegada do conceito de Data
Warehouse para a Tecnologia da Informação, é preciso lembrar como evoluíram os
processos tecnológicos na área.
Por volta de 1970, a época de uma nova tecnologia de armazenamento e acesso a
dados, havia chegado: a introdução do armazenamento em disco, ou DASD (direct
access storage device, ou dispositivo de armazenamento de acesso direto), surgiu
um novo tipo de software conhecido como SGBD ou sistema de gerenciamento de
banco de dados. Com o DASD e o SGBD surgiu a idéia de um “banco de dados”,
também definido como uma única fonte de dados para todo o processamento.
O banco de dados promoveu uma visão de uma organização “baseada em dados”,
em que o computador poderia atuar como coordenador central para atividades de
toda a empresa. Nesta visão, o banco de dados tornou-se um recurso corporativo
básico. Pela primeira vez as pessoas não estavam vendo os computadores apenas
como misteriosos dispositivos de previsão. Em vez disso, os computadores eram
vistos como uma verdadeira ferramenta para a vantagem competitiva. A idéia dos
sistemas de informação para os negócios começou a tomar forma. Em outras
palavras, os computadores tornaram-se importantes máquinas de negócios,
aonde as empresas alcançaram mais eficiência.
Nas décadas de 70 e 80, grandes aperfeiçoamentos tecnológicos resultaram em
novos sistemas de informação que custavam bem menos e eram bem mais
poderosos. Com o surgimento dos bancos de dados relacionais a informatização nas
26
Empresas já acontecia a passos largos: as pessoas mais influentes e poderosas
tinham acesso aos microcomputadores e a sua facilidade de uso aumentou muito.
Com o processamento de transações online de alta performance, surgiram os
sistemas de reservas aéreas em nível mundial, sistemas bancários globais e cartões
de créditos internacionais.
A chegada de novas tecnologias, como os computadores pessoais e as linguagens
de 4ª geração, permitiu-se que o usuário final assumisse um papel mais ativo,
controlando diretamente os sistemas e os dados, fora do domínio do clássico
processamento de dados.
Com essa evolução, as empresas começaram a perceber que poderiam analisar de
forma otimizada seus dados, ou seja, descobriram que poderiam incrementar seus
recursos de Business Intelligence (BI). Essa descoberta muda o enfoque que até
então fora atribuído ao conjunto de informações (Sistemas). Nasce um novo
conceito para a tecnologia da informação, aonde os sistemas informatizados
passaram a pertencer a dois grupos:
Sistemas que tratam o negócio: Dão suporte ao dia a dia do negócio da empresa,
garantem
a
operação
da
empresa,
e
são
chamados
de
SISTEMAS
TRANSACIONAIS; e;
Sistemas que analisam o negócio: Sistemas que ajudam a interpretar o que ocorreu
e a decidir sobre estratégias futuras para a empresa – compreendem os SISTEMAS
DE SUPORTE A DECISÃO.
Com a chegada de novas ferramentas tecnológicas de análise de informação, os
gerentes começaram a exigir dos Sistemas Transacionais respostas às suas
solicitações. Como esses sistemas foram desenvolvidos para garantir a operação
da Empresa, não estavam preparados para gerar e armazenar as informações
estratégicas necessárias a um Business Intelligence eficiente.
Em atendimento às solicitações dos gestores em relação à deficiência da análise de
informação nos sistemas legados, surgiu no mercado os chamados Programas
Extratores. Esses programas extraem informações dos Sistemas Transacionais com
27
o intuito de trabalhá-las em outros ambientes. Muitas vezes essas extrações
ocorriam em arquivos intermediários, onde as informações sofriam novos
tratamentos. Isso provocava uma falha na integridade das informações acarretando,
muitas vezes, uma falta de credibilidade dos dados, uma queda da produtividade e a
informação sendo publicada com valores diferentes.
Além disso, pelo fato de que os Sistemas Transacionais geravam um grande volume
de dados e pela diversidade dos sistemas implantados nas empresas as pesquisas
(relatórios) realizadas eram produzidas muito lentamente. Nos tempos do Clipper e
do Cobol fazer um relatório desse nível significava perder muitas horas sobre o
computador, pois se fazia necessário que fossem extraídos os dados de vários
sistemas, muitas vezes esses não conversavam entre si.
Apesar dessas razões, é importante salientar que é possível a prática de Business
Intelligence com os sistemas operacionais da empresa, e com outras fonte de
dados, como planilhas eletrônicas e dados em papel, mas esse procedimento
implica em grande possibilidade de equívocos, já que esses dados são oriundos
de várias fontes independentes, e não possuem entre si relação de integridade.
Outro fator importante que prejudicava as decisões foi a falta de registro dos fatos
históricos nos Sistemas Transacionais, pois estes trabalhavam com uma situação
instantânea dos negócios.
Para resolver este problema, começou-se a estudar uma forma de se armazenar a
informação contida nos sistemas transacionais numa base de dados central, para
que houvesse integração total dos dados da empresa. Além disso, era necessário
manter o histórico das informações e fazer com que ela fosse disposta
dimensionalmente, ou seja, o analista de negócios poderia visualizar um mesmo fato
através de diversas dimensões diferentes. O nome dado a essa modalidade de
Sistema de Apoio à Decisão foi o Data Warehouse, ou em português, Armazém de
Dados.
Com o surgimento do DATA WAREHOUSE são necessários novos métodos de
estruturação de dados, tanto para armazenamento quanto para a recuperação de
informações. Cabe ressaltar que as perspectivas e técnicas necessárias para
28
projetar o DATA WAREHOUSE são profundamente diferente dos SISTEMAS
TRANSACIONAIS. Os usuários, o conteúdo dos dados, a estrutura dos dados, o
hardware e o software, a administração, o gerenciamento dos sistemas, o ritmo
diário, as solicitações, as respostas e o volume de informações são diferentes.
Entender essa tecnologia com certeza ajudará os empresários a descobrir novas
tendências e caminhos para competir numa economia globalizada, onde a
concorrência é acirrada, trazendo melhores produtos ou serviços para o mercado
com maior rapidez sem aumento dos custos. [www.whbrasil.com.br]
4.1 O QUE É DATA WAREHOUSE?
O termo Data warehousing designa um ambiente, e não um produto. Constitui uma
arquitetura que provê informações de suporte à decisão que são difíceis de serem
acessadas no ambiente operacional.
A tecnologia data warehousing abrange um conjunto de tecnologias e componentes
que se destinam a efetuar a integração dos bancos de dados operacionais em um
ambiente que permita o uso estratégico dos dados.
Data Warehouse é o ambiente formado por um conjunto de técnicas e bancos de
dados integrados, projetados para suportar as funções dos sistemas de apoio à
decisão, onde cada unidade de dados está relacionada a um determinado assunto,
ou fato. Esse ambiente que proporciona informações aos gerentes e diretores de
empresas, com o objetivo de auxiliar decisões, possibilitando, por exemplo, a análise
das tendências dos seus clientes com base nos dados históricos aumentando a
satisfação e fidelidade dos mesmos.
O planejamento do negócio representa e define todos os elementos-chave para o
sucesso da organização. Um desses elementos é a definição de estratégias que
traçam a abordagem para implementar um DW. Os critérios a seguir devem ser
considerados para assegurar que a companhia obtenha uma solução de DW
tecnicamente correta:
29
Identificar e analisar atividades essenciais para a missão do negócio;
Consultar o planejamento do negócio para a orientação da organização;
Criar ferramentas de acesso que conectem o processo aos dados;
Construir modelos de dados que suportem o processo.
4.2 POR QUE UTILIZAR DATA WAREHOUSE
Como dito anteriormente, no ambiente competitivo atual, entender e gerenciar
informações torna-se crucial para que as empresas possam tomar decisões
oportunas e responder às mudanças nas condições do negócio. Com a proliferação
de tecnologias de processamento de dados para diversos sistemas aplicativos de
negócio, dificultou-se a tarefa de localizar e integrar dados para o suporte a decisão,
e à medida que o poder para a tomada de decisões é distribuído a todos os níveis
da organização, mais pessoas precisam ter acesso a informações necessárias para
este fim, tudo isso, objetivando apenas um quesito: a produtividade.
A promessa do Data Warehouse ou armazém de dados, se resume nesta palavra:
produtividade, ou seja: ganho de tempo e dinheiro com qualquer informação
acessível aos executivos no momento e no formato que eles determinarem.
Segundo o International Data Corporation (IDC) (http://www.datawarehouse.inf.br),
estes armazéns constituem a melhor chance para a tecnologia da informação
mostrar ao que veio e derrubar o famoso paradoxo da produtividade. Até hoje todos
os investimentos feitos em computadores, softwares e similares não aumentaram a
produtividade da economia mundial. As taxas de retorno encontradas pelo IDC ao
analisar 62 Data Warehouses são um indício dessa possibilidade, estas taxas, três
anos após o investimento, giram em torno de 400% .
Só que reconciliar o abalado casamento entre tecnologia e negócios não é uma
tarefa fácil. "Não adianta o pessoal de informática criar bases de dados poderosas
se os gestores de negócios não souberem usar a informação", diz Timótio Louback,
30
(http://www.datawarehouse.inf.br) diretor de tecnologia da informação da Golden
Cross. Esta empresa abordou a seguinte filosofia – conquistar um novo cliente pode
custar sete vezes mais que manter um cliente antigo.
Com a utilização de um Data Warehouse é possível obter uma melhoria significativa
na produtividade dos tomadores de decisões corporativos, trazendo os seguintes
benefícios:
Melhor rotatividade no estoque de produtos;
Melhor custo de lançamento de produtos com aprimoramentos da seleção de
mercado alvo;
Determinação da eficácia de programas de marketing, permitindo eliminar
programas fracos e aprimorar os fortes.
4.3 PRINCÍPIOS DIRECIONADORES DE UM AMBIENTE DATA WAREHOUSE.
A forma como um ambiente Data Warehouse é estruturado é determinada por
decisões de como armazenar e distribuir os dados, assim como pelos modelos
lógicos e físico do Data Warehouse (GOODYER et al, 1999.). Estas decisões devem
estar baseadas nos requisitos dos usuários, que irão direcionar o desenho da
arquitetura do Data Warehouse:
4.3.1 GRANULARIDADE
Determina o grau de sumarização dos dados contidos no Data Warehouse. O nível
de sumarização deve ser determinado pelos requisitos de negócios. Em um mesmo
ambiente de Data Warehouse, podem existir diferentes níveis de granularidade, pois
ao contrário dos dados detalhados, as visões dimensionais e os próprios agregados
31
podem apresentar como dados já sumarizados. Em geral, quanto maior o nível de
granularidade, maior será o número de acessos a estes dados, além de serem mais
rápidos e mais eficientes.
Granularidade nada mais é do que o nível de detalhe ou de resumo dos dados
existentes num DW (Data Warehouse). Quanto maior for o nível de detalhes, menor
será o nível de granularidade. O nível de granularidade afeta diretamente o volume
de dados armazenados no DW, e ao mesmo tempo o tipo de consulta que pode ser
respondida.
Quando se tem um nível de granularidade muito alto o espaço em disco e o número
de índices necessários, tornam-se bem menores, porém há uma correspondente
diminuição da possibilidade de utilização dos dados para atender a consultas
detalhadas.
A Figura acima exemplifica o conceito acima, utilizando os dados históricos das
vendas de um produto. O nível de granularidade muito baixo pode ser caracterizado
pelo armazenamento de cada uma das vendas ocorridas para este produto, e um
nível muito alto de granularidade seria o armazenamento dos somatórios das vendas
ocorridas por mês.
Com o nível de granularidade muito baixo, é possível responder a praticamente
qualquer consulta, mas uma grande quantidade de recursos computacionais é
necessária para responder perguntas muito específicas. No entanto, no ambiente de
32
DW, dificilmente um evento isolado é examinado, é mais provável que ocorra a
utilização da visão de conjunto dos dados.
Os dados levemente resumidos compreendem um nível intermediário na estrutura
do DW, são derivados do detalhe de baixo nível encontrado nos dados detalhados
atuais. Este nível do DW é quase sempre armazenado em disco. Na passagem para
este nível os dados sofrem modificações. Por exemplo, se as informações nos dados
detalhados atuais são armazenadas por dia, nos dados levemente resumidos estas
informações podem estar armazenadas por semanas. Neste nível o horizonte de
tempo de armazenamento normalmente fica em cinco anos e após este tempo os
dados sofrem um processo de envelhecimento e podem passar para um meio de
armazenamento alternativo.
Os dados altamente resumidos são compactos e devem ser de fácil acesso, pois
fornecem informações estatísticas valiosas para os Sistemas de Informações
Executivas (EIS), enquanto que nos níveis anteriores ficam as informações
destinadas aos Sistemas de Apoio a Decisão (SAD), que trabalham com dados mais
analíticos procurando analisar as informações de forma mais ampla.
O balanceamento do nível de granularidade é um dos aspectos mais críticos no
planejamento de um DW, pois na maior parte do tempo há uma grande demanda por
eficiência no armazenamento e no acesso aos dados, bem como pela possibilidade
de analisar dados em maior nível de detalhes. Quando uma organização possui
grandes quantidades de dados no DW, faz sentido pensar em dois ou mais níveis de
granularidade, na parte detalhada dos dados. Na realidade, a necessidade de
existência de mais de um nível de granularidade é tão grande, que a opção do
projeto que consiste em duplos níveis de granularidade deveria ser o padrão para
quase todas as empresas.
O chamado nível duplo de granularidade, ilustrado na Tabela 3, se enquadra nos
requisitos da maioria das empresas. Na primeira camada de dados ficam os dados
que fluem do armazenamento operacional e são resumidos na forma de campos
apropriados para a utilização de analistas e gerentes. Na segunda camada, ou nível
de dados históricos, ficam todos os detalhes vindos do ambiente operacional. Como
33
há uma verdadeira montanha de dados neste nível, faz sentido armazenar os dados
em um meio alternativo como fitas magnéticas.
Com a criação de dois níveis de granularidade no nível detalhado do DW, é possível
atender a todos os tipos de consultas, pois a maior parte do processamento analítico
dirige-se aos dados levemente resumidos que são compactos e de fácil acesso. E
para ocasiões em que um maior nível de detalhe deve ser investigado existe o nível
de dados históricos. O acesso aos dados do nível histórico de granularidade é caro,
incômodo e complexo, mas caso haja necessidade de alcançar esse nível de
detalhe. [site www.whbrasil.com.br].
4.3.2 ATUALIZAÇÃO E TEMPO DE RETENÇÃO DOS DADOS
Este fator basicamente se relaciona a duas questões:
O quão atuais devem estar os dados de acordo com os requisitos de negócio?
Quanto tempo os dados devem estar armazenados entes de arquivá-los?
Estas questões são extremamente importantes pois impactam diretamente na
capacidade dos dispositivos de armazenamento, no tráfego da rede, e além disso,
nos processos de extração, transformação e carga dos dados, que tomarão mais
tempo à medida que a granularidade for menor, diminuindo assim a janela de
disponibilidade do ambiente de Data Warehouse.
4.3.3 DISPONIBILIDADE
A disponibilidade do ambiente de Data Warehouse deve ser determinada pelos
requisitos dos usuários. Isto pode afetar diretamente na forma como a arquitetura
técnica será projetada, tornando os custos mais altos conforme a necessidade de
implantar hardaware e software para garantí-la.
34
4.4.4 ESCALABILIDADE
Este é um ponto ao qual se deve ter bastante atenção, pois se encontra em
crescimento
contínuo.
Esta
preocupação
deve
direcionar
o
projeto
de
implementação da infra-estrutura técnica.
4.5 ARQUITETURA DO AMBIENTE DE DATA WAREHOUSE
Vários elementos constituem ou caracterizam a arquitetura de Data Warehouse, que
será detalhado a seguir. Segundo Inmon (http://www.dwbrasil.com.br), um DW deve
ser orientado por assuntos, integrado, variável no tempo e não volátil. Essas são as
principais características de um DW.
4.5.1 ORIENTAÇÃO POR ASSUNTO
A orientação por assunto é uma característica marcante de um DW, pois toda
modelagem será voltada em torno dos principais assuntos da empresa. Enquanto
todos os sistemas transacionais estão voltados para processos e aplicações
específicas, os DWs objetivam assuntos. Os assuntos são o conjunto de
informações relativas à determinada área estratégica de uma empresa.
Numa revenda de carros, quais seriam as áreas e os assuntos? Poderiam ser as
áreas de marketing, financeira dentre outras. Dentro dessas áreas poderiam surgir
vários assuntos. Por exemplo, vendas e serviços. Os assuntos darão origem às
tabelas denominadas tabelas de fatos.
35
4.5.2 INTEGRAÇÃO
Esta característica talvez seja a mais importante do DW. É através dela que será
padronizada uma representação única para os dados de todos os sistemas que
formarão a base de dados do DW. Por isso, grande parte do trabalho na construção
de um DW está na análise dos sistemas transacionais e dos dados que eles contêm.
Esses dados geralmente encontram-se armazenados em vários
padrões de
codificação, isso se deve aos inúmeros sistemas existentes nas empresas, e que
eles tenham sido codificados por diferentes analistas. Isso quer dizer que os
mesmos dados podem estar em formatos diferentes. Por exemplo, em um sistema
transacional, um analista convencionou que o sexo seria 1 para masculino e 0 para
feminino, já em outro sistema outro analista armazena a mesma informação com M
para masculino e F para feminino, e por fim outro programador achou melhor colocar
H para masculino e M para feminino. Verifica-se então, que são as mesmas
informações, porém em formatos diferentes, e isso num DW jamais poderá
acontecer. Portanto, deve existir uma integração de dados, convencionando-se uma
maneira uniforme de armazenamento dos mesmos. Se forem poucos sistemas
transacionais não causará grandes problemas, mas se existirem vários sistemas a
integração do sistema poderá se tornar uma tarefa bem mais trabalhosa. A figura
abaixo demonstra este conceito.
36
4.5.3 VARIAÇÃO NO TEMPO
Os Data Warehouses são variáveis em relação ao tempo, isso significa que deve –
se manter o histórico dos dados durante um período de tempo muito superior ao dos
sistemas transacionais.
Num DW é normal manter um horizonte de tempo bem superior ao dos sistemas
transacionais, enquanto em sistemas OLTP(Processo transacional on line) mantémse um histórico curto dos dados, no DW guarda-se esses dados num período maior.
Isso é bastante lógico porque num sistema transacional a finalidade é de fornecer as
informações no momento exato, já no Data Warehouse, o principal objetivo é
analisar o comportamento das infromações durante um período de tempo maior.
Fundamentados nessa variação, os gerentes tomam as decisões em cima de fatos e
não de intuições.
Seguindo a mesma linha de raciocínio é válido dizer que os dados nos sistemas
transacionais estão sendo atualizados constantemente, cuja exatidão é válida
somente para o momento de acesso. Os dados existentes num DW são como
fotografias que os refletem num determinado momento do tempo. Essas fotografias
são chamadas de snapshots.
A dimensão tempo sempre estará presente em qualquer fato de um DW. Isso ocorre
porque, como dito anteriormente, os dados refletem um determinado momento e
obrigatoriamente deverá conter uma chave de tempo para expressar a data em que
os dados foram extraídos. Portanto, pode-se dizer que os dados armazenados
corretamente no DW não serão mais atualizados, tendo-se assim uma imagem fiel
da época em que foram gerados.
37
4.5.4 NÃO VOLATILIDADE
No DW existem somente duas operações, a carga inicial e as consultas dos frontends aos dados. Isso pode ser afirmado porque a maneira como os dados são
carregados e tratados é completamente diferente dos sistemas transacionais.
Enquanto nesses sistemas têm-se vários controles e atualizações de registros, no
DW há somente inserções e consultas dos dados. Por exemplo, num sistema de
contabilidade pode ser feita alterações nos registros. Já no DW, o que acontece é
somente ler os dados na origem e gravá-los no destino, ou seja, no banco
multidimensional.
Deve-se considerar que os dados sempre passam por filtros antes de serem
inseridos no DW. Com isso muitos deles jamais saem do ambiente transacional, e
outros são tão resumidos que não se encontram fora do DW. "A maior parte dos
dados é física e radicalmente alterada quando passam a fazer parte do DW. Do
ponto de vista de integração, não são mais os mesmos dados do ambiente
operacional. À luz destes fatores, a redundância de dados entre os dois ambientes
raramente ocorre, resultando em menos de 1% de duplicações", essa definição é
dada por Inmon (http://www.dwbrasil.com.br), e é muito válida.
4.5.5 DADOS
Os dados encontram-se em base de dadoss que constituem uma das maiores
preocupações do ambiente de DW. O emprego ou não de qualquer dos base de
dadoss depende, exclusivamente, da arquitetura a ser adotada pela empresa. Outras
características importantes sobre os dados estão descritas a seguir.
38
4.5.5.1 LOCALIZAÇÃO DOS DADOS
Os dados podem estar fisicamente armazenados de três formas:
•
Único local centralizando
Neste caso, o banco de dados em um DW integrado, procura maximizar o poder de
processamento e agilizar a busca dos dados. Esse tipo de armazenagem é bastante
utilizado, porém há o inconveniente do investimento em hardware para comportar a
base de dados muito volumosa, e o poderio de processamento elevado para atender
satisfatoriamente as consultas simultâneas de muitos usuários.
•
Distribuídos
São Data Marts, armazenados por áreas de interesse. Por exemplo, os dados da
gerência financeira num servidor, dados de marketing noutro e dados da
contabilidade num terceiro lugar. Essa pode ser uma saída interessante para quem
precisa de bastante desempenho, pois isso não sobrecarrega um único servidor, e
as consultas serão sempre atendidas em tempo satisfatório.
•
Níveis de detalhes
As unidades de dados são mantidas no DW de acordo com o nível de detalhe. Podese armazenar dados altamente resumidos num servidor, dados resumidos em outro
nível de detalhe no segundo servidor e os dados mais detalhados (atômicos), num
terceiro servidor. Os servidores do primeiro nível de detalhe podem ser otimizados
para suportar um grande número de acessos e um baixo volume de dados,
enquanto alguns servidores nas outros níveis de detalhes podem serem adequados
para processar grandes volumes de dados, mas baixo número de acessos.
39
Para mudar de nível é necessário que ocorra um dos seguintes eventos: os dados
são sintetizados, arquivados ou eliminados.
O processo de sintetização interage no nível mais alto de detalhamento (dados
detalhados atuais) para os níveis seguintes (levemente e altamente resumidos).
Quando termina determinado período de tempo (semana, mês, trimestre, ano), os
dados são indexados por estes períodos e armazenados nos seus respectivos níveis
de detalhamento. Para facilitar o acesso aos dados, estes devem estar sintetizados
e indexados de várias maneiras.
Portanto, ao mesmo tempo que ocorre o
agrupamento por datas, também pode ocorrer a sintetização por grupos e
subgrupos.
Cada nível possui um horizonte de tempo definido para a permanência dos dados.
Então o fato de os dados serem transportados para níveis mais elevados não implica
na
exclusão
do
nível
anterior.
Um
processo
denominado
processo
de
envelhecimento ocorre quando este limite é ultrapassado, e portanto os dados
podem ser transferidos para meios de armazenamentos alternativos ou passar de
dados detalhados atuais para dados detalhados antigos.
4.5.5.2 CREDIBILIDADE DOS DADOS
A credibilidade dos dados é muito importante para o sucesso de qualquer projeto.
Discrepâncias simples de todo tipo podem causar sérios problemas quando se
deseja extrair dados para suportar decisões estratégicas para o negócio das
empresas. Dados vulneráveis podem resultar em relatórios inúteis, como uma lista
de pacientes do sexo masculino e grávidos, por exemplo. A existência de dados de
má qualidade disponibilizados em um DW resultará em um suporte à decisão de
baixo nível com altos riscos para o negócio. Detalhes aparentemente simples, como
um CEP errado, podem não ter nenhum impacto.
40
Um conjunto de características normalmente utilizadas para verificar a qualidade dos
dados, e indica algumas das maneiras de medir o nível de qualidade dos mesmos do
DW. Veja a figura abaixo.
4.5.5.3 SUMARIZAÇÃO
Sumarização é o nível de detalhe ou de resumo dos dados existentes em um DW.
Quanto maior for o nível de detalhes, menor será o nível de sumarização. Este nível
afeta diretamente o volume de dados armazenados no DW, e ao mesmo tempo o
tipo de consulta solicitada.
Quando se tem um nível de sumarização muito alto o espaço em disco e o número
de índices necessários tornam-se bem menores, porém há uma correspondente
diminuição da possibilidade de utilização dos dados para atender a consultas
detalhadas.
O conceito utilizando os dados históricos das vendas de um produto. O nível de
Sumarização muito baixo pode ser caracterizado pelo armazenamento de cada uma
das vendas ocorridas para este produto, e um nível muito alto seria o
armazenamento dos somatórios das vendas ocorridas por mês.
Com o nível de sumarização muito baixo, é possível responder a praticamente
qualquer consulta, mas uma grande quantidade de recursos computacionais é
necessária para responder perguntas muito específicas. No entanto, no ambiente de
41
DW, dificilmente um evento isolado é examinado, é mais provável que ocorra a
utilização da visão de conjunto dos dados.
O exemplo a seguir demonstra claramente a importância da sumarização em um
ambiente de DW:
Um usuário poderia perguntar: “Mostre-me o total de vendas neste mês”. Isso seria
interpretado pelo banco de dados como, “some todas as vendas em cada dia deste
mês”. Se há uma média de 2000 transações de vendas por dia em cada uma das
200 lojas e os dados estiverem armazenados em um nível transacional (banco de
dados convencional), essa consulta teria de processar 40.000.000 de linhas para
responder. Uma consulta de sumarização intensiva como essa consumiria recursos
consideráveis de hardware, neste caso a pré-sumarização é bastante útil. Ela
permite usar os resultados intermediários reduzindo significativamente os recursos
necessários para obter o resultado final.
Avaliando o valor dos agregados, considere uma solicitação das vendas de julho. Se
já existir uma tabela de agregados para registrar vendas mensais por loja, a consulta
terá que processar apenas 2000 linhas (total de juros para cada loja). Comparada as
40.000.000 de linhas que esta mesma consulta teria de processar, a economia de
recursos é imensa.
4.5.5.4 NÍVEIS DE SUMARIZAÇÃO
O DW possui estruturas distintas e diferentes níveis de sumarização que o descreve
de acordo com o tipo dos dados:
1. Dados atuais: são sem dúvida os que mais exigem atenção, pois refletem os
acontecimentos mais recentes, são volumosos e são armazenados em disco
(Gerenciamento complexo e caro).
2. Dados antigos: são acessados com menor freqüência e armazenados com nível
de detalhe consistente com o detalhe dos dados atuais.
42
3. Dados ligeiramente resumidos: são encontrados no nível atual de detalhe e
compreendem um nível intermediário na estrutura do DW, são derivados do detalhe
de baixo nível encontrado nos dados detalhados atuais. Este nível no DW é quase
sempre armazenado em disco. Na passagem para este nível os dados sofrem
modificações, por exemplo: se as informações nos dados detalhados atuais são
armazenadas por dia, nos dados levemente resumidos estas informações podem
estar armazenadas por semanas. Neste nível o horizonte de tempo de
armazenamento normalmente gira em torno de cinco anos e após este tempo os
dados sofrem um processo de envelhecimento e podem passar para um meio de
armazenamento alternativo.
4. Dados altamente resumidos: são compactos e devem ser de fácil acesso, pois
fornecem informações estatísticas valiosas para os sistemas de informações
executivas (EIS), enquanto que nos níveis anteriores ficam as informações
destinadas aos sistemas de apoio a decisão (SAD), que trabalham com dados mais
analíticos procurando analisar as informações de forma mais ampla.
5. Balanceamento do nível de sumarização: é um dos aspectos mais críticos no
planejamento de um DW, pois na maior parte do tempo há uma grande demanda por
eficiência no armazenamento e no acesso aos dados, bem como pela possibilidade
de analisar dados em maior nível de detalhes. Quando uma organização possui
grandes quantidades de dados no DW, faz sentido pensar em dois ou mais níveis de
sumarização na parte detalhada dos dados. Na realidade, a necessidade de
existência de mais de um nível de sumarização é tão grande, que a opção do projeto
que consiste em duplos níveis de sumarização deveria ser o padrão para quase
todas as empresas.
6. Nível duplo de sumarização: este nível se enquadra nos requisitos da maioria das
empresas. Na primeira camada de dados ficam os que fluem do armazenamento
operacional e são resumidos na forma de campos apropriados para a utilização de
analistas e gerentes. Na segunda camada, ou nível de dados históricos, ficam todos
os detalhes vindos do ambiente operacional. Como há uma verdadeira montanha de
dados neste nível, faz sentido armazenar os dados em um meio alternativo como
fitas magnéticas. Com a criação de dois níveis de sumarização no nível detalhado do
DW, é possível atender a todos os tipos de consultas, pois a maior parte do
43
processamento analítico dirige-se aos dados levemente resumidos que são
compactos e de fácil acesso. E para ocasiões em que um maior nível de detalhe
deve ser investigado existe o nível de dados históricos. O acesso aos dados do nível
histórico de sumarização é caro, incômodo e complexo, mas caso haja necessidade
de alcançar esse nível de detalhe, lá estará ele.
A figura abaixo ilustra a estrutura dos níveis de sumarização em um DW.
4.5.5.5 Considerações sobre volume de dados
Volume de dados é o primeiro aspecto que vem à mente durante a avaliação dos
custos e benefícios do DW. Na realidade, a flexibilidade de uso e a adaptabilidade a
mudanças são questões mais críticas. Mas, quando um volume de dados passa de
pequeno para modesto, de modesto para grande, e, posteriormente para excessivo
em um ambiente de DW? Fatores como: sumarização, volume bruto e volatilidade dos
dados, requisitos de acesso, complexidade de relacionamento entre os dados,
44
requisitos de disponibilidade e outros fatores afetam diretamente a grandeza de um
banco de dados em um ambiente de DW.
A Figura acima demonstra a complicada relação entre as grandezas quando se refere
ao ambiente de DW.
4.5.6 POLÍTICA, TRANSFORMAÇÕES, ARMAZENAMENTOS E ANÁLISE
Em um DW existem vários componentes que regem sua estrutura, como se fossem
conceitos básicos que devem ser esclarecidos em um projeto desse perfil, tais como:
1. Política: determina quais informações serão incluídas e a sua freqüência de
atualizações;
2. Transformações: os dados devem ser filtrados antes de armazenados;
3. Armazenamentos: os dados devem ser armazenados para maximizar a
flexibilidade e administração do sistema;
4. Análise: examina a necessidade de corporação quanto ao modelo analítico;
5. Acesso: habilidade de manipular dados em um DW.
45
4.5.7 METADADOS
Este é o componente mais importante do ambiente de DW, por se tratar dos dados de
controle do projeto. Não tendo uma definição muito clara para a maioria das pessoas
esse conceito é confuso. O interessante é que os metadados são dados que fazem
referência a outros dados.
Todas as fases de um projeto de Data Warehouse, desde a modelagem até a
visualização da informação, geram metadados. Neles estarão contidas informações
como: atributos das tabelas agregadas utilizadas, cálculos necessários, descrições,
periodicidade das cargas, histórico de mudanças, dentre outras, mantendo
informações sobre "o que e onde está" no DW. Tipicamente os metadados mantêm
informações sobre os seguintes aspectos:
1. A estrutura dos dados, segundo a visão do programador;
2. A estrutura dos dados, segundo a visão dos analistas de SAD;
3. A fonte de dados que alimenta o DW;
4. A transformação sofrida pelos dados no momento de sua migração para o
DW;
5. O modelo de dados;
6. O relacionamento entre o modelo de dados e o DW;
7. O histórico das extrações de dados.
4.6 TIPOS DE MODELAGENS EM DW
46
Uma das características marcantes que diferencia a modelagem convencional da
modelagem multidimensional utilizada na arquitetura Data Warehouse, é a quebra
do paradigma das formas de normalização das tabelas, podendo não existir nesta
última, aplicação deste conceito.
Basicamente existem dois tipos de modelagem de banco de dados para Data
Warehouse: Floco de Neve (Snowflake) e Estrela (Star), explicadas com maiores
detalhes a seguir.
4.6.1 MODELAGEM FLOCO DE NEVE - SNOWFLAKE
Quando o espaço em disco é uma das limitações do ambiente de Data Warehouse,
usa-se este tipo de modelagem, pois é normalizado e não permite redundância dos
dados, ocupando assim um espaço menor em disco. Sendo normalizado o número
de registros obtidos nas respostas das consultas executadas são menores em
comparação com a modelagem Star. Uma das desvantagens desta modelagem é a
drástica perda de desempenho, devido à complexidade das consultas executadas.
4.6.2 MODELAGEM ESTRELA - STAR
Esta modelagem não é normalizada, portanto, possui características contrárias à
anterior. Será feito a seguir uma tabela comparativa dos dois tipos de modelagem.
47
Características
Modelagem Star
Modelagem Snowflake
Tempo de Leitura
Rápido
Lento
Número de Registros
Maior quantidade.
Menor quantidade.
Número de Tabelas
Menor
Maior
Tempo de Consulta
Rápido
Lento
4.7 TIPOS DE TABELAS UTILIZADAS NA ARQUITETURA DW
Dois tipos de tabelas são utilizadas para a implementação da arquitetura DW. A tabela
de fatos conhecida como fact table, e a tabela informacional, conhecida como
information table.
4.7.1 TABELA DE FATOS - FACT TABLE
As tabelas de fatos não mudam de acordo com o tempo e são tabelas de grande
porte, podendo incluir milhões de registros. As informações destas tabelas
correspondem às medidas referentes às vendas, total de número de venda, dentre
outros.Tabelas de fatos usualmente são tabelas normalizadas.
4.7.2 TABELAS INFORMACIONAIS - INFORMATION TABLE
48
As Tabelas Informacionais são pequenas e contém dados que variam em relação ao
tempo. Por exemplo, uma tabela informacional é alterada quando o cliente muda de
endereço.
O tamanho da tabela informacional de clientes pode ser muito pequena se comparado
com o conteúdo da tabela de fatos de vendas que contém todas as vendas de 1999
por exemplo. As tabelas informacionais são as menores tabelas do Data Warehouse.
Quatro tipos de dimensões podem ser representadas pelas tabelas informacionais:
estrutural, informacional, particionada e categórica. Será feita uma descrição sucinta
de cada tipo de dimensão:
Dimensão estrutural: apresenta de maneira hierárquica uma informação. As mais
comuns são: geográfica (cidade, estado, país), tempo (ano, mês, dia), elemento
(nome, tipo, categoria, departamento);
Dimensão Informacional: Esta dimensão é dada através de campos calculados. Por
exemplo, Quantidade de vendas por produto e região.
Dimensão Partição: a dimensão de partição é usada quando duas ou mais dimensões
são construídas com a mesma estrutura. Por exemplo, você cria dimensões para
vendas futuras e vendas atuais. A estrutura das duas é a mesma, somente os valores
são diferentes.
Dimensão Categórica: é construída para agrupar valores de seu interesse. Por
exemplo, para construir uma dimensão categórica atendendo as necessidades do
negócio, querendo obter informações sobre a renda familiar de seus clientes. Esta
informação poderia ser agrupada da seguinte maneira: de 0 a 5 salários, de 5 a 10
salários, de 10 a 15 salários, de 15 a 20 salários e assim sucessivamente. E assim
extraindo informações destes dados para saber em qual categoria de família estão o
maior índice dos clientes.
49
4.8 DATA MART
Representa um subconjunto de dados do DW, permite acesso descentralizado e
atualmente serve de fonte para os dados que comporão bancos de dados
individuais, direcionados a um departamento ou a uma área específica do negócio,
normalmente são modelados em um esquema estrela, de acordo com as
necessidades específicas do usuário final. Uma das principais vantagens de seu
emprego é a possibilidade de retorno rápido, garantindo um maior envolvimento do
usuário final, capaz de avaliar os benefícios extraídos de seu investimento.
50
5. DATA MART
A tecnologia usada tanto no DW como no Data Mart é a mesma, as variações que
ocorrem são mínimas, em volume de dados e na complexidade de carga. A principal
diferença é a de que os Data Marts são voltados somente para uma determinada
área, já o DW é voltado para os assuntos da empresa toda. Portanto, cabe a cada
empresa avaliar a sua demanda e optar pela melhor solução. O maior atrativo para
implementar um Data Mart é o seu custo e prazo. Segundo estimativas, enquanto
um Data Mart custa em torno de US$ 100 mil a US$ 1 milhão e leva cerca de 120
dias para estar pronto, um DW integral começa em torno dos US$ 2 milhões e leva
cerca
de
um
ano
para
estar
consolidado.
www_datawarehouse_inf_br-
DATAMART.htm
A criação de um Data Warehouse requer tempo, dinheiro e considerável esforço
gerencial. Muitas companhias ingressam num projeto de Data Warehouse focando
necessidades especiais de pequenos grupos dentro da organização. Estes
pequenos armazenamentos de dados são chamados de Data Mart. Um Data Mart é
um pequeno Data Warehouse que fornece suporte à decisão de um pequeno grupo
de pessoas.
Algumas organizações são atraídas aos Data Marts não apenas por causa do custo
mais baixo e um tempo menor de implementação, mas também por causa dos
correntes avanços tecnológicos. São elas que fornecem um SAD customizado para
grupos pequenos de tal modo que um sistema centralizado pode não estar apto a
fornecer. Data Marts podem servir como veículo de teste para companhias que
desejam explorar os benefícios do Data Warehouse.
Há um consenso entre os fornecedores de soluções de Data Warehouse. A idéia é
começar pequeno, mas pensando grande. E é o que está acontecendo. Na maioria
dos casos, as empresas que optam pelo Data Warehouse iniciam o processo a partir
de uma área específica da empresa para depois ir crescendo aos poucos. Mesmo
nos casos de “Full Warehouse” ou Data Warehouse completos - como o da
51
Previdência Social da Holanda e Noruega - o processo costuma ser organizado a
partir dos Data Marts.
A variação de custo e duração de um projeto de Data Warehouse depende do
tamanho e da infra-estrutura da base de dados a ser trabalhada e também da
necessidade de “poder de fogo” (do quão estratégico e eficiente tem que ser o
sistema para o cliente). Acima de tudo, a empresa tem que saber identificar quais
são os tipos de informações mais valiosos.
O Data Warehouse pode ser uma decisão estratégica, mas não pode ser encarado
com imediatismo, ou seja, não é apenas algo que se realiza aos poucos, mas
também é um processo contínuo de atualização e consolidação dos dados
corporativos. Por isso, os investimentos em um sistema desse tipo não devem nem
podem ser feitos de uma única vez, mas de forma gradual ao longo do tempo.
52
6 - DATA WAREHOUSE X DATA MART
É preciso ter em mente que as diferenças entre Data Mart e Data Warehouse são
apenas com relação ao tamanho e ao escopo do problema a ser resolvido. Portanto,
as definições dos problemas e os requisitos de dados são essencialmente os
mesmos para ambos. Enquanto um Data Mart trata de problema departamental ou
local, um Data Warehouse envolve o esforço de toda a companhia para que o
suporte à decisões atue em todos os níveis da organização. Sabendo-se as
diferenças entre escopo e tamanho, o desenvolvimento de um Data Warehouse
requer tempo, dados e investimentos gerenciais muito maiores que um Data Mart.
Por muitos anos, todos os sistemas que extraíam dados de sistemas legados e os
armazenavam de maneira utilizável para suporte à decisão eram chamados Data
Warehouses. Ao longo dos últimos anos, uma distinção tem sido feita entre os
corporativos Data Warehouses e os departamentais Data Marts, mesmo que
geralmente o conceito ainda continue sendo chamado de data warehousing.
Debates na indústria em geral indicam que aproximadamente 70 a 80 por cento de
todos os Data Warehouses atualmente em produção são, de fato, Data Marts. Na
Conferência do Meta Group/DCI 1997 Data Warehouse World Conference, de
fevereiro de 1997 observou-se que “o foco dos departamentos de informática tem se
transferido da justificação do custo de implementação de Data Warehouses para a
entrega de aplicações de Data Marts.”
Os Data Marts atendem as necessidades de unidades específicas de negócio ao
invés das da corporação inteira. Eles otimizam a entrega de informação de suporte à
decisão e se focam na gerência sumarizada e/ou dados exemplificativos ao invés do
histórico de níveis atomizados. Eles podem ser apropriados e gerenciados por
pessoal fora do departamento de informática das corporações.
53
A crescente popularidade desses mal definidos Data Marts em cima da popularidade
dos grandes sistemas de Data Warehouses corporativos é baseada em muitos bons
motivos:
•
Os Data Marts têm diminuído drasticamente o custo de implementação e
manutenção de sistemas de apoio à decisão e têm os posto ao alcance de um
número muito maior de corporações;
•
Eles podem ser prototipados muito mais rápido, com alguns pilotos sendo
construídos entre 30 e 120 dias e sistemas completos sendo construídos entre 3 e
seis meses;
•
Os Data Marts têm o escopo mais limitado e são mais identificados com grupos
de necessidades dos usuários, o que se traduz em esforço/time concentrado.
•
Os
departamentos
autônomos
e
as
pequenas
unidades
de
negócio
freqüentemente preferem construir o seu próprio sistema de apoio à decisão via
Data Marts. Muitos departamentos de informática estão vendo a efetividade deste
approach e estão agora construindo o Data Warehouse por assunto ou um Data
Mart por vez, gradualmente ganhando experiência e garantindo o suporte dos
fatores chave de gerenciamento e vendo, então, benefícios concretos muitas vezes
ao ano. Começando com planos modestos e os desenvolvendo na medida que se
adquire mais conhecimento sobre as fontes de dados e as necessidades dos
usuários faz com que as organizações justifiquem os Data Marts na medida em que
progridem.
Algumas vezes, projetos que começam como Data Warehouses se transformam em
Data Marts. Quando as organizações acumulam grandes volumes de dados
históricos para suporte à decisão que se mostram pouco ou nunca utilizados, elas
podem reduzir o armazenamento ou arquivamento de informação e contrair o seu
Data Warehouse em um Data Mart mais focado. Ou elas podem dividir o warehouse
em vários Data Marts, oferecendo tempos de resposta mais rápido, acesso mais fácil
e menos complexidade para os usuários finais.
54
[ www.datawarehouse.inf.br ]
7. Data Warehouse x Data Mart: Como eles podem ajudá-lo
Quantos de nós têm uma compreensão clara da diferença entre um Data Warehouse
e um Data Mart ? Parece que poucos sabem isso com clareza. Sem esta
compreensão, dificilmente conseguiremos utilizar a arquitetura certa para o trabalho
certo.
Data Warehouse são como grandes containers de dados por assunto, detalhados,
não voláteis, históricos, integrados e estão focados sobre o propósito de um
departamento ou da empresa toda. Além disso, são vistos como a fonte de dados
para geração dos sistemas de apoio a decisão.
Um Data Warehouse é a de uma caixa grande de Lego, aquele brinquedo plástico
para crianças que constrói carros, prédios, cidades e até um pequeno mundo. Pode
construir qualquer coisa com esses blocos, seja com formas genéricas, unificadas,
como um robô, uma casa ou um avião. Você só está limitado por sua imaginação e o
número de blocos. Data Warehouses trabalham do mesmo modo. Você pode
construir qualquer visão de dados que queira dos pedaços genéricos de um Data
Warehouse, e estará limitado somente pela sua tecnologia e os dados que puderem
ser
adquiridos
de
seus
sistemas
operacionais.
Mas o que é Data Mart ? Data Mart está baseado em um jogo de exigências de
usuário. Usando a analogia do Lego, poderíamos construir coisas baseadas nas
exigências conhecidas. A casa, o robô e o avião, todo tiveram estipulações
arquitetônicas que foram seguidas para construí-los. O mesmo pode ser dito para o
Data Mart. Ele pode resolver um problema empresarial particular. Por exemplo, se a
corporação não puder determinar a rentabilidade de seus produtos, pode ser
construído um Data Mart para analisar produto e rendas (mercado de rentabilidade
dos produtos). Talvez nós o construímos para analisar os canais de vendas, ou para
determinar a efetividade de nossas campanhas de vendas, ou ainda outro para
55
estudar as regiões onde estão concentrados nossos melhores clientes. Cada Data
Mart reflete uma visão empresarial distinta requerendo cruzamentos de dados e
tendo questões para serem respondidas.
"Foco" talvez seja a característica mais importante de um Data Mart. Tamanho não
determina um Data Mart, eles existem em todos os tamanhos desde alguns
megabytes de dados até terabytes. Por exemplo, seu primeiro Data Mart pode conter
os dados e respostas somente para algumas questões simples então, pode ser um
banco de dados relativamente pequeno. Por outro lado, temos clientes corporativos
que contém vários gigabytes em tamanho entretanto, em todos os casos os Data
Marts são ainda um subconjunto dos dados contidos no Data Warehouse e assim é
geralmente menor em tamanho que o mesmo. Um Data Mart pode ser disposto com
o Data Warehouse. Muitas pessoas pensam que um Data Mart deve ser separado
fisicamente do Data Warehouse o que não é verdadeiro. Você pode construir Stars
Schemas dentro do ambiente de Data Warehouse para um propósito empresarial
particular. A funcionalidade implementada nesses schemas é a determinação
fundamental de se é um Data Mart ou não.
Nenhuma única tecnologia ou técnica é indicativa de um Data Mart. Eles entram em
todos os tipos de sabores tecnológicos. Cinco anos atrás, nós tínhamos como
limitação tecnológica construir Data Marts com bancos de dados relacionais. Hoje,
nós temos uma imensidão de tecnologias que apóiam diferentes tipos de bancos
relacionais e bancos de dados multidimensionais. Cada uma destas tecnologias é
perfeitamente satisfatória para construção de qualquer Data Mart.
[ www.datawarehouse.inf.br]
56
CONCLUSÕES
O bem mais precioso que uma empresa possui, independente de seu porte, é o seu
banco de dados, lá está toda sua história, um passado capaz de trazer mudanças e
benefícios incalculáveis no futuro, o meio mais eficiente para este fim, sem dúvida
alguma é o Data Warehouse ou Data Mart, infelizmente, disponível para poucos.
A partir dos Data Warehouse e Data Mart, que são basicamente sistemas de apoio a
decisão (SAD), são ferramentas de BI, fundamentais no fornecimento de informações
táticas e estratégicas aos gerentes, chefes e administradores em geral.
Tomando como base todo o material coletado, fica claro, através do presente trabalho,
que Data Warehouse e Data Mart são realmente tecnologias fundamentais que terão
que serem adotadas por toda a empresa ou corporação que realmente deseja
sobreviver no mercado altamente competitivo e globalizadas. Isso estimula a
comunidade científica a continuar suas pesquisas com vista a melhora de tecnologias
e novas descobertas.
57
REFERÊNCIAS
Adriaans , 1996 ADRIAANS, PIETER AND DOLF ZANTINGE – “Data Mining”,
Addison-Wesley Longman 1996.
American , 1999 AMERICAN SOFTWARE – “Easy-to-use Inventory Performace
Data Mart delivers quick insight regarding a company’s inventory investment”,
www.intemprise.com , Março/ 1999
Brio, 1999 BRIO TECHNOLOGY – “Brio Technology Announces New Brio ONE
Business Plataform”, www.brio.com, Agosto/1999
Coleman, 1996 COLEMAN, ARNOLD, BODOFF, DOLLIN, GILCHRIST, HAYES e
JEREMAES – “Desenvolvimento Orientado a Objetos – Método Fusion” Editora
Campus
Coulson-Thomas, 1994 COLIN COULSON-THOMAS – “Reengenharia dos
Processos Empresariais – Mito & Realidade” Editora Record.
Fayyad, Shapiro e Smyth, 1996 USAMA FAYYAD, GREGORY PIATETSKYSHAPIRO, AND PADHRAIC SMYTH – “From Data Mining to knowledge Discovery in
Databases”. AI Magazine, 1996.
Greengard, 1999 SAMUEL GREENGARD – “How to Profit From Business
Intellingence”, www.beyondcomputingmag.com, Jan/Feb 1999
http://www.brasoftware.com.br visitado em 15 de novembro de 2003.
http://www.datawarehouse.inf.br visitado em 18 de setembro de 2003.
http://www.dwbrasil.com.br visitado em 18 de maio de 2003.
58
http://www.ibm.com.br visitado em 15 de novembro de 2003.
Informática Hoje, 1999 INFORMÁTICA HOJE – “Business Intelligence: O Poder da
Informação”, Agosto/1999.
Inmon, W.H.,Welch J.D.,Glassey, Katherine L.Gerenciando Data Warehouse, 1º
ed. Makron Books,1999.
Ivã Cielo encontra-se no site www.datawarehouse.inf.br consulta efetuada em
janeiro de 2004.
Machado,
Felipe
N.R.
Projeto
de
Data
Warehouse
uma
Visão
Multidimensional,1ºed. Érica, 2000.
Microsiga, 1999 MICROSIGA MAGAZINE – “Business Intelligence”, Julho/1999.
Microsof, 1997 MICROSOFT – “Manual de SQL”- Edição 1997
Neo Vista, 1999 NEO VISTA SOFTWARE, www.neovista.com, consulta efetuada
em Setembro/1999
Network Computing, 1999 NETWORK COMPUTING – “Rumo à conquista do
cliente”, Novembro/1999.
Simoudis, 1998 EVANGELOS SIMOUDIS – “Better Understanding Of Costumer
Data Through Business Intelligence”, www.customeranalytics.com, Nov/1998
Singh, S. Harry Data Warehouse Conceitos, Tecnologias, Implementação e
Gerenciamento, Makron Books
Sturm, Jake Data Warehouse With Microsoft SQL 7.0: Reference Technical,
Microsoft Press, 1999
Download