Data Warehousing é um conjunto de tecnologias

Propaganda
Unidade IV – Ferramentas de Sistemas de apoio à decisão
Data Warehousing é um conjunto de tecnologias que permitem converter uma grande
quantidade de dados em informação utilizável. Transforma um banco de dados operacional
num ambiente que permite o uso estratégico dos dados. É um ambiente e não um produto.
Uma característica importante do data warehouse é que ele é um banco de dados
desenhado para tarefas analíticas usando dados de diferentes aplicações.
Motivos que tornam útil a aplicação da tecnologia na empresa:
- Ao invés de dados acumulados os usuários querem informações;
- Decisões precisam ser tomadas rapidamente e de maneira correta, usando todos os
dados disponíveis;
- Usuários dominam negócios e não computadores;
- A quantidade de dados dobra a cada 18 meses;
- A competição está aquecendo áreas de inteligência de negócio e dando cada vez mais
valor à informação;
- A adoção da tecnologia do Data Warehouse melhora a produtividade da empresa e a
qualidade de seus serviços;
- Eficiência não é mais a chave para o sucesso: a flexibilidade tomou esse lugar.
Um fator crítico para o sucesso é ter a habilidade para usar as informações de forma eficaz.
O uso estratégico de dados podem resultar em descobertas não detectadas anteriormente.
Com o conhecimento dessas informações, uma empresa pode formular estratégias de
mercado, negócios e vendas mais eficientes.
Os data warehouses são usados em três meios distintos:
- Gerando relatórios e gráficos, trazendo informações necessárias para sua criação em
uma única fonte de dados. Isso elimina o maior problema de atrasos e erros: a
fragmentação de dados em diversas transações de banco de dados.
- O data warehouse é utilizado para o OLAP. O OLAP compara dados e tem a capacidade
de responder a perguntas como: "E se?" e "Porque?". Verifica hipóteses.
- E como terceira maior utilização do data warehouse, temos o data mining. Sendo uma
tecnologia relativamente nova, o data mining "garimpa" as informações, revelando
padrões e relações escondidas. Gera hipóteses. Data mining não é adequado para
qualquer empresa: seu uso requer tecnologias de inteligência e a vontade de explorar as
possibilidades antes escondidas.
Arquitetura Data Warehouse
A arquitetura do data warehouse é baseada num sistema de banco de dados relacional.
Quando um dado entra em um data warehouse ele é transformado em uma estrutura
integrada. O processo pode envolver filtragem e compactação de dados. O data warehouse
guarda informações de cinco ou mais anos; portanto é um grande banco de dados. É, mais
ou menos, quatro vezes maior que o banco de dados relacional, porque além dos dados
gerais guarda várias camadas de dados sobre dados e ainda vários níveis de consolidações.
Processos envolvidos na criação de um sistema de data warehouse:
 - Remover dados que não fazem parte do cenário do banco de dados operacional;
 - Converter nome de campos e definições para padrões comuns;
 - Calcular dados derivados e resumos;
 - Estabelecer padrões para dados faltantes/incorretos;
Dificuldades encontradas nesse processo:
 - Muitas vezes os bancos de dados não são homogêneos;
 - Padrões de dados distintos (sistema métrico X Inglês).
Metadados:
Os metadados são dados sobre dados (informações sobre certos dados do sistema) que
descrevem o data warehouse. Os metadados técnicos incluem:
 - Informações sobre fonte de dados;
 - Descrição de transformações, autorizações de acesso, aquisição de dados, etc. ...
Os metadados de negócio incluem:
 - Áreas de assunto, Internet home pages, relatórios, ...
Quais são as utilizações dos metadados?
 - Fornecer acesso ao usuário para entender o conteúdo e encontrar dados;
 - Deve ser a porta de entrada do ambiente de data warehouse;
 - Deve ser de fácil distribuição.
Ferramentas de acesso:
As ferramentas de acesso são importantes, pois a principal razão do data warehouse é
prover informações para os usuários a fim de os mesmos possam tomar decisões
estratégicas. Conhecendo informações, podemos formular efetivas estratégias de
marketing, negócios e vendas.
Datamart:
É um subset do Data Warehouse (vários datamarts podem formar um data warehouse).
Construído com um escopo menor de informações, segmentado para uma determinada área
ou assunto. Por ser menor, possibilita a Análise Multidimensional, com os cruzamentos e
visões previamente calculados, visando aumentar a velocidade na consulta das informações.
O datamart muitas vezes é visto como uma alternativa ao data warehouse, pois custa
menos e leva menos tempo para ser projetado e implementado. É criado para um grupo
dirigido de usuários, normalmente um setor de uma empresa.
Problemas do datamart:
 - Escalabilidade em situações onde os datamarts crescem rapidamente em múltiplas
dimensões;
Construindo um Data Warehouse
Pontos a serem considerados:
a) Design:
Para ser bem sucedido, o designer do data warehouse precisa considerar todos os
componentes do data warehouse como parte de um sistema complexo. Também não se
deve esquecer de todas as possibilidades de fontes de dados e todos seus requerimentos de
uso.
Em geral, o ponto mais importante no desenho de um data warehouse é consolidar dados,
muitas vezes heterogêneos numa base de dados única. Esta é a razão pela qual o desenho
do data warehouse é difícil.
O data warehouse é um negócio dirigido que requer constantes interações com os usuários
finais e nunca está terminado.
O conteúdo dos dados de um data warehouse não deve ser tão detalhado quanto o banco
de dados operacional
Metadados:
Definem os conteúdos e localizações dos dados; relações entre o banco de dados
operacional e o data warehouse e as visões de negócio para que o data warehouse seja
acessível pelas ferramentas de usuário final.
Distribuição de dados:
O volume de dados tende a continuar crescendo. Por isso é necessário saber como os dados
serão divididos entre os servidores e como os usuários deverão acessar cada tipo de dado.
A distribuição dos dados podem ser feitas, por exemplo, por área (Recursos humanos,
Marketing), localização geográfica ou tempo (mês, ano).
Ferramentas:
As ferramentas disponíveis hoje ajudam a fazer a transformação, a limpeza, a
movimentação dos dados, dúvidas de usuário final, relatórios e análise de dados. Também
pode ser utilizada uma ferramenta CASE
Método a ser seguido para um desenho de data warehouse:
1. - Escolher o assunto do problema;
2. - Decidir o que uma tabela de fatos representa;
3. - Identificar e adaptar as dimensões (se elas forem incompletas, tornam inútil o data
warehouse);
4. - Escolher os fatos;
5. - Armazenar pré-cálculos na tabela de fatos;
6. - Arredondar a dimensão das tabelas;
7. - Escolher o período de duração do banco de dados;
8. - Decidir prioridades e modos de consulta.
Além disso, se preparar para o design com entrevistas é um ponto crucial. Os usuários não
têm opinião sobre o desenho do data warehouse, eles tem opinião sobre o que é importante
na sua vida de negócios.
b) Considerações técnicas
Questões iniciais que poderiam ser levantadas:
 - Qual a plataforma de hardware que poderia suportar o data warehouse?
 - Qual o sistema de gerenciamento de banco de dados que suporta o banco de dados
do data warehouse?
 - Qual as necessidades de infra-estrutura de comunicações que conecta os
datamarts, sistemas operacionais, warehouse e usuários finais?
 - Que plataforma de hardware e o software que suporte o repositório dos
metadados?
 - Qual o sistema de gerenciamento de framework que habilita o gerenciamento
centralizado e administração do ambiente?
Plataforma de hardware
Freqüentemente, a escolha a ser tomada é entre um UNIX ou Windows NT e um Mainframe.
Nós temos que levar em consideração qual plataforma será melhor para a construção do
data warehouse e seu crescimento.
Um mainframe não é tão aberto e flexível quanto um sistema cliente/servidor. Um moderno
servidor (não mainframe) pode suportar um grande volume de dados e um grande número
de interfaces gráficas diferentes para os usuários finais. Estes sistemas, entretanto, são
mais difíceis de gerenciar e de integrar num sistema existente, além de muitas vezes
requererem habilidades e uma nova estrutura organizacional.
Abordagem balanceada
Um importante ponto é o correto balanço entre os componentes de computação (por
exemplo, entre o número de processadores e a largura de banda de I/O).
O problema maior num data warehouse é o tamanho e o número de discos. O espaço em
disco deve ser de 2,5 a 3x maior que a quantidade de dados que possui hoje.
Para balancear o sistema, é importante colocar o correto número de processadores para
gerenciar todas as operações de I/O do disco.
A arquitetura de hardware deve ser otimizada para escalabilidade de pesquisa paralela.
Infra-Estrutura de Comunicações
Um usuário típico de data warehouse exige uma largura de banda relativamente alta para
interagir com um data warehouse e receber uma quantidade de informações grande. As
vezes, as redes de comunicação precisam ser ampliadas.
c) Considerações de implantação
Um data warehouse não pode ser simplesmente comprado e instalado. Alguns passos
lógicos para a implantação de um data warehouse:
 - coletar e analisar requerimentos do negócio;
 - criar um módulo de dados e um plano físico para o desenho do data warehouse;
 - definir a origem dos dados;
 - escolher a tecnologia do banco de dados e a plataforma a ser utilizada para o data
warehouse;
 - extrair dados do banco de dados operacional, transformá-los, limpá-los e carregálos para o banco de dados (A extração de dados merece uma atenção especial pois é
dela que depende o sucesso do sistema);
 - escolher o acesso ao banco de dados e ferramentas de acesso (Uma única
ferramenta no mercado não pode trabalhar com todas as possibilidades que um
acesso a data warehouse precisa. Precisamos utilizar uma ferramenta de consulta);
 - escolher o soft de conectividade de banco de dados;
 - escolher o tipo de análise de dados e o software de apresentação;
 - como será feita a atualização do data warehouse.
Estratégia de colocação de dados
Quando um data warehouse cresce, existem algumas alternativas para a armazenagem de
dados: Worm, RAID, ou disco óptico. A armazenagem de dados pode tanto ser feita pelo
servidor data warehouse ou por outro servidor.
Uma outra estratégia é a de divisão do data warehouse em múltiplos servidores. Alguns
critérios devem ser adotados para a divisão do data warehouse em múltiplos servidores: por
região geográfica, unidade, tempo, função. Outra precaução a ser tomada é a de divisão de
acordo com o uso (para não subutilizar e/ou sobrecarregar).
Replicação de dados
Quando uma grande parte dos usuários necessita uma pequena parte do banco de dados
corporativo, a replicação de dados ou movê-los para um banco de dados localizado pode ser
uma solução mais útil que um data warehouse. Em muitas empresas uma pequena parte
dos
dados
que
a
empresa
coleta
são
importantes.
Top of Form 1
Ferramentas de Extração de dados, Limpeza e Transformação
O erro mais comum, quando uma corporação decide construir um data warehouse é
começar o trabalho pela escolha das ferramentas de acesso, conhecidas também por
componente front end. A ferramenta de extração dos dados é uma parte muito importante
do projeto do data warehouse, mas apenas uma pequena parcela de um conjunto bastante
complexo de soluções de hardware e software. Depois de definido e projetado o escopo do
projeto e depois de construído o repositório de dados, é que deve-se chegar às ferramentas
de front-end responsáveis pelo meio de campo entre as bases de dados e os usuários finais
da área executiva. Elas não podem ser muito complexas porque não serão utilizadas por
profissionais da área técnica, mas precisam ser robustas o suficiente para dar agilidade no
acesso às informações estratégicas.
Existem várias maneiras de recuperar informações de um data warehouse; as formas de
extração mais comuns no mercado hoje são os relatórios, as consultas, os EIS, ferramentas
que utilizam características OLAP e as ferramentas de Data Mining. A nova tendência dessas
soluções é a integração com o ambiente Web, permitindo maior agilidade em consultas
estáticas e dinâmicas
As ferramentas requeridas precisam oferecer:

- transformação de dados de um formato para outro, tendo em mente a possibilidade
de diferenças entre a plataforma fonte e a de destino dos dados;
 - transformações do tipo: calcular a idade baseado no ano de nascimento ou então
substituir um código de sexo por palavras mais significativas como masculino ou
feminino;
 - consolidação dos dados e sua integração que pode incluir a combinação de alguns
dados fonte separados em numa única fonte de dados a ser carregada dentro do
data warehouse.
Prismo Solutions: Foca uma solução para o data warehouse mapeando dados da fonte para
o destino do sistema de gerenciamento de banco de dados.
SAS Institute: Parte da premissa que a missão mais crítica reside no centro de dados e
oferece o tradicional SAS system como meio de servir todas as funções de data warehouse.
Transformadores de mecanismo:
Informática (formada pela Andyne, Brio, BO, Cognos, IQ, Information Advantage e Micro
Strategy). Fornece arquitetura "back end" e API´s de suporte de metadados de negócio e
técnicos.
Constellar Hub: Um set de componentes suportando capacidade de gerenciamento de
transformações distribuídas. Basicamente controla o fluxo de dados entre a migração de
dados e os dados distribuídos num sistema operacional e captura dados operacionais para
carregar no data warehouse.
Metadados
Metadado é uma abstração dos dados, ou ainda, dados de mais alto nível que descrevem
dados de um nível inferior. Sem metadados, os dados não têm significado. São exemplos de
metadados as descrições de registros em um programa de aplicação ou o esquema de um
banco de dados descrito em seu catálogo ou ainda as informações contidas em um
dicionário de dados.
Os metadados são um elemento crítico no gerenciamento de dados, um dos mais
importantes componentes do data warehouse. Os metadados, contém, no mínimo:
 - a localização e a descrição de um sistema de warehouse e os componentes de
dados;
 - nomes, definições, estruturas e conteúdo do data warehouse;
 - regras de transformação e integração usadas para povoar um data warehouse;
 - regras de transformação e integração usadas para entregar dados às ferramentas
analíticas de usuário final;
 - informação de assinatura para o sistema de entrega da informação;
 - autorização de segurança, lista de controle de acesso.
Temos três níveis de metadados:
 - metadados operacionais (do nível das aplicações): definem a estrutura dos dados
mantidos pelos bancos operacionais, usados em aplicações de produção da empresa;
 - metadados centrais do Data Warehouse: mantidos no catálogo do Data Warehouse.
Distinguem-se por serem orientados por assunto, definindo como os dados
transformados devem ser interpretados. Incluem definições de agregados e campos
calculados, assim como visões sobre cruzamentos de assuntos;
 - metadados do nível do usuário: mapeiam os metadados do Data Warehouse para
conceitos que sejam familiares e adequados aos usuários finais.
Iniciativa de acesso aos metadados
A iniciativa de criar um padrão para o acesso (esse acesso seria, por exemplo, o word
conseguir ler essas informações) de metadados foi tomada porque era necessário um
padrão para acessar, compartilhar e gerenciar metadados. Algumas metas iniciais de
comum acordo entre os membros:
 - criar um API (application programming interface) para os metadados;

- permitir a usuários o controle e gerenciar o acesso e a manipulação dos metadados
em um único ambiente;
 - permitir a usuários construir ferramentas de configuração que vão de encontro às
suas necessidades;
 - permitir o uso de ferramentas individuais para satisfazer seu acesso aos metadados
específicos;
 - definir uma troca simples de implementação de infra-estrutura que acelerará a
adoção e minimizará a quantidade de informação requerida para as ferramentas
existentes;
 - criar um processo não apenas para estabelecer e manter a troca de padrão, mas
também para estender e atualizar quando for necessário.
Padrão framework de troca de metadados
A implantação de um modelo padrão de troca de metadados que assume que os metadados
devem ser armazenados num formato fácil, como tabelas relacionais, arquivos ASCII. As
componentes do padrão framework de troca de dados são:
 - o modelo padrão de metadados: Se refere ao formato ASCII usado para
representar o metadado que está sendo trocado;
 - o padrão framework de acesso: Descreve um número mínimo de funções API que o
sistema deve suportar;
 - ferramenta de perfil: É um arquivo que descreve quais aspectos o metamodelo
padrão de troca de uma ferramenta particular
 - a configuração de usuário: É um arquivo que descreve a troca de caminhos para
um metadado num ambiente de usuário.
Repositório de metadados
O metadado está no repositório dos metadados e é gerenciado por ele. O software de
gerenciamento do repositório de metadados pode ser usado para mapear os dados desde a
origem até o banco de dados de destino, gerar código para as transformações de dados,
integrar e transformar os dados e controlar a movimentação dos dados dentro do data
warehouse. Esse software que tipicamente roda num workstation permite o usuário
especificar como os dados podem ser transformados.
Para reiterar, os metadados permitem:
 - a localização e a descrição de um sistema de warehouse e os componentes de
dados;
 - nomes, definições, estruturas e conteúdo do data warehouse;
Um desenho de data warehouse deve ter certeza que os metadados serão a porta de
entrada. Em outras palavras o desenho do data warehouse deve prevenir contra qualquer
acesso (especificamente atualizações) que não usem as definições dos metadados. Isso
traria o benefício de reduzir e eliminar a redundância de informação.
Gerenciamento dos metadados
Um problema comum num sistema de data warehouse é a incapacidade de comunicar o
usuário final qual informação reside num data warehouse e como ela pode ser acessado. A
chave para prover informação necessária são os metadados. Os metadados precisam
guardar informação sobre como um warehouse foi desenhado e montado. Os metadados
também devem estar disponíveis a todos os usuários para guiá-los num data warehouse.
Tendências
Uma das mais claras tendências na área de data warehouse é o aumento nos requerimentos
para incorporar dados externos no data warehouse. Isto é necessário para reduzir custos e
aumentar a competitividade e agilidade de negócios. O processo de integração de dados
externos e internos trazem problemas à tona:
 - Formatos de dados inconsistentes;
 - Dados inválidos ou perdidos;
 - Diferentes níveis de integração;
 - Inconsistência semântica;
 - Dados desconhecidos ou questionáveis quanto a qualidade e tempo.
Os data warehouses são o começo de uma integração de vários tipos de dados em adição
aos tradicionais tipos alfanuméricos de dados. Por exemplo, incluir texto, imagem, vídeo e
páginas HTML num data warehouse pode requerer um novo método de apresentar e
gerenciar a informação.
Mas não é somente com tipos diferentes de dados que estamos lidando. Principalmente
quando nós vemos o exemplo de um data warehouse trabalhando com recursos humanos
em grande escala. E isso pode complicar adicionando dimensões espaço e tempo para o
data warehouse.
Ferramentas de Relatórios e Consultas
Existem cinco categorias de ferramentas de suporte de decisão:
 - Relatórios
 - Consultas gerenciadas
 - Sistema de Informação Executivo (EIS)
 - OLAP
 - Data mining
Tipo de
Questão básica
Exemplo de resposta
Usuário típico e suas
ferramen
necessidades
ta
Pesquisa e "O que aconteceu?"
Relatórios mensais de Dados
históricos,
Relatórios
vendas,
histórico
do habilidade
técnica
inventário
limitada
OLAP
"O que aconteceu e por Vendas mensais versus Visões
estáticas
da
que?"
mudança de preço dos informação
para
uma
competidores
visão
multidimensional;
tecnicamente astuto
EIS
"O que eu preciso saber Memorandos, centros de Informações de alto nível
agora?"
comando
ou resumidas; pode não
ser tecnicamente astuto
Data
"O que é Interessante?" Modelos de previsão
Tendências
e
relações
Mining
"O
que
pode
obscuras entre os dados;
acontecer?"
tecnicamente astuto
Ferramentas do Data Warehouse
(Fonte: Revista Byte Brasil, Janeiro 1997)
Ferramentas de Relatório
Podem ser divididas em dois tipos
 - Ferramentas de relatório de produção (Suportam grande volume de trabalho como
cálculos ou impressões de cheque)
 - Ferramentas de relatório de desktop (Para usuários finais, como exemplo, temos o
Seagate Crystal Report´s. Tem interface gráfica e funções de gráfico )
Consultas gerenciadas
É um shield entre a complexidade do SQL e suas estruturas. Muitas vezes são integrados
com Web Servers.
Sistema de Informação Executivo (EIS)
Ferramentas EIS permitem desenvolvedores construírem aplicações de suporte de decisão
customizadas e em ambiente gráfico. Os EIS mais populares são o Pilot Software e o
Platinum
OLAP
É um meio de ver dados corporativos. Usuários podem navegar através de hierarquias e
dimensões com um simples click de mouse.
Data mining
Usam uma variedade de dados estatísticos e algoritmos de inteligência artificial para
analisar a correlação de variáveis, investigando padrões e relações.
Produtos:
Cognus Impromtu
Sua aceitação no mercado é grande pois utiliza uma interface gráfica parecida com o
windows. Também é muito aceito porque suas ferramentas de consulta e relatório são
unificados numa única interface.
Permite controle administrativo completo a baixo custo. Em termos de escalabilidade pode
suportar um usuário ou centenas de usuários se utilizando do banco de dados no data
warehouse.
Relatórios no Cognus Impromtu: Esse soft foi desenhado para tornar fácil o trabalho do
usuário de criar e rodar seus próprios relatórios.
O Impromtu oferece:
 - ferramentas de consulta e relatórios unificados;
 - arquitetura orientada a objeto;
 - integração completa com o Power Play;
 - escalabilidade;
 - segurança e controle;
 - dados apresentados num contexto de negócios;
 - mais de 70 templates de relatórios pré-definidos;
 - relatórios de relevância de negócio.
Aplicativos:
Power Builder
O Power Builder trabalha com polimorfismo, a habilidade de herdar forms e objetos e a
premissa de que se um objeto foi criado e testado, ele pode ser reusado por outras
aplicações. A força do Power Builder não está somente na orientação a objeto, mas na
habilidade de desenvolver aplicações windows e sua afinidade com a arquitetura
cliente/servidor.
Forté
Baseado na arquitetura three-tiered client/server:
Particionado em três partes distintas: A apresentação lógica é colocada no cliente; a
aplicação lógica reside nos servidores de aplicativos e o banco de dados num servidor data
warehouse.
O Forté possui integração com a tecnologia Java e Web.
Construtores de Informação
Cactus: Ambiente de desenvolvimento cliente/servidor. É capaz de criar aplicações de
qualquer tamanho e escopo.
Focus Fusion: Banco de dados multidimensional para OLAP´s e data warehouses.
OLAP
A necessidade de receber um grande número de dados de um grande banco de dados
(centenas de Giga ou até mais) são os motivos de existir o OLAP (não é um aplicativo, é
uma arquitetura de aplicação). Quando temos a necessidade de um sistema
multidimensional precisamos de um OLAP.
Um problema do SQL é a incapacidade de trabalhar com cálculos complexos e séries de
tempo. Por exemplo, calcular a média de algo nos últimos três meses requerem extensões
ANSI SQL que raramente são encontrados em produtos comerciais.
Uma outra vantagem do OLAP é que ele é interativo. O analista pode jogar um valor para
simular algo. Assim pode, inclusive descobrir padrões escondidos.
Eu posso acrescentar ou tirar uma dimensão do cubo, conforme eu necessitar. O tempo de
resposta de uma consulta multidimensional depende de quantas células são requeridas.
Para resolver o tamanho do problema do cubo, que cresce exponencialmente a saída é
consolidar todos os sub totais lógicos e os totais por todas as dimensões. Esta consolidação
faz sentido quando as dimensões fazem parte de uma mesma hierarquia (anos, semestres,
meses, dias).
Linhas Guia do OLAP
 - Visão conceitual multidimensional: enfatiza a forma como o usuário "vê" dados sem
impor que os dados sejam armazenados em formato multidimensional;
 - Transparência: localização da funcionalidade OLAP deve ser transparente para o
usuário, assim como a localização e a forma dos dados;
 - Facilidade de Acesso: acesso a fontes de dados homogêneas e heterogêneas deve
ser transparente;
 - Desempenho de consultas consistente: não deve ser dependente do número de
dimensões;
 - Arquitetura cliente/servidor: produtos devem ser capazes de operar em
arquiteturas cliente/servidor;
 - Dimensionalidade genérica: todas as dimensões são iguais;
 - Manipulação dinâmica de matrizes esparsas: produtos devem lidar com matrizes
esparsas eficientemente;
 - Suporte multi-usuário;
 - Operações entre dimensões sem restrições;
 - Manipulação de dados intuitiva;
 - Relatórios/consultas flexíveis;
 - Níveis de agregação e dimensões ilimitados: ferramentas devem ser capazes de
acomodar 15 a 20 dimensões.
Categorias de ferramentas OLAP
MOLAP: É utilizado, tradicionalmente para organizar, navegar e analisar dados.
ROLAP: Permite que múltiplas consultas multidimensionais de tabelas bidimensionais
relacionais sejam criadas sem a necessidade de estrutura de dados normalmente requerida
nesse tipo de consulta.
MQE: Possui a capacidade de oferecer análise "datacube" e "slice and dice". Isto é feito
primeiro desenvolvendo uma consulta para selecionar dados de um DBMS que entrega o
dado requisitado para o desktop, que é o local onde está o datacube. Uma vez que os dados
estão no datacube, usuários podem requisitar a análise multidimensional.
Produtos no mercado:
Cognus Power Play: É um software maduro e popular que é caracterizado como um MQE.
Ele pode aproveitar o investimento feito na tecnologia de banco de dados relacional para
oferecer acesso multidimensional para a corporação, com a mesma robustez, escalabilidade
e controle administrativo.
IBI Focus Fusion: É um banco de dados com tecnologia multidimensional para OLAP e data
warehouse. É desenhado para endereçar aplicações de negócios que precisem de análise
dimensional dos dados dos produtos.
Sua aplicação mais específica é para a formação de aplicações de inteligência de negócios
num ambiente de data warehouse.
Pilot Software: É uma suíte de ferramentas que incluem: um banco de dados
multidimensional de alta velocidade (MOLAP), integração com data warehouse (ROLAP),
data mining e várias aplicações de negócio custumizáveis focando pós-venda e profissionais
de marketing
Ferramentas OLAP e internet
A web é um perfeito meio para suporte de decisão:

- A internet é um recurso virtualmente livre que permite conectividade com e entre
as empresas;
 - A web permite companhias a guardar e gerenciar dados e aplicações que podem
ser gerenciados centralmente, mantidos e atualizados, eliminando problemas com
software e dados financeiros;
 - A web facilita as tarefas administrativas complexas de ambiente de gerenciamento
distribuído.
Conclusões:
É claro que os produtos OLAP serão mais voltados à compatibilidade com a web.
Tecnologias que suportam internet e web continuam a avançar rapidamente. Tenha em
mente então que o produto OLAP que você experimentar com suporte a internet não deve
ser um fator decisivo. Para manter a competitividade, os fabricantes continuarão a melhorar
os produtos, algumas vezes radicalmente.
Data Mining
O que é data mining?
Data mining ajuda usuários finais a extraírem informações de negócio utilizáveis de um
grande banco de dados.
Se você tem um banco de dados pequeno, não precisa de novas tecnologias para descobrir
informações. Agora se você tem um banco de dados grande (num supermercado, por
exemplo), quer saber quem são os clientes e o que eles estão comprando, precisaria da
tecnologia de data mining.
No banco de dado, precisaríamos utilizar o SQL. Apesar do SQL ser poderoso o suficiente
para extrair essas informações, a maior parte das pessoas da área de marketing de uma
empresa não falam a mesma língua do SQL.
Quais são as aplicações do data mining?
Técnicas de Data Mining têm sido aplicadas com sucesso para a solução de problemas em
diversas áreas, como descrito a seguir:
Vendas
- Identificar padrões de comportamento dos consumidores
- Encontrar características dos consumidores de acordo com a região demográfica
- Prever quais consumidores serão atingidos nas campanhas de marketing
Finanças
- Detectar padrões de fraudes no uso dos cartões de crédito
- Identificar os consumidores que estão tendendo a mudar a companhia do cartão de
crédito
- Identificar regras de estocagem a partir dos dados do mercado
- Encontrar correlações escondidas nas bases de dados
Seguros e Planos de Saúde
- Determinar quais procedimentos médicos são requisitados ao mesmo tempo
- Prever quais consumidores comprarão novas apólices
- Identificar comportamentos fraudulentos
Transporte
- Determinar a distribuição dos horários entre os vários caminhos
- Analisar padrões de sobrecarga
Medicina
 - Caracterizar o comportamento dos pacientes para prever novas consultas
 - Identificar terapias de sucessos para diferentes doenças
Como funciona?
O data mining não é mágico; ele trabalha com informação histórica (experiência) para
aprender. Por exemplo, você tem uma proposta de marketing direto que deseja atender
uma pequena parcela de consumidores. Mas como fazer isso? O mais interessante seria que
apenas aqueles que tivessem uma probabilidade maior de comprar o produto recebessem a
propaganda. Isso reduziria o custo e aumentaria as chances de lucro. O data mining pode
fazer isso.
A dica para construir um predictive model é ter dados no seu banco de dados que
descrevam o que aconteceu no passado. As ferramentas de data mining são desenhadas
para aprender com o sucesso e os fracassos do passado.
Data mining se utiliza muito da estatística, mas a principal diferença (entre o data mining e
estatística) é que o data mining é feito para o usuário final de negócios e não para um
estatístico. Data mining automatiza o processo estatístico, mostrando o resultado num
formato de fácil entendimento.
Efetividade
Precisão, velocidade e custo
A pessoa que precisa de uma ferramenta data mining tem muitas alternativas; para fazer a
escolha certa é necessário ver uma comparação entre o grande número de novos produtos
que existem no mercado.
Temos que ter em mente que quanto maior o banco de dados, maior a qualidade dos dados
e mais lento o sistema. O processamento paralelo pode aumentar a velocidade de
processamento de dados.
Colocando o data mining no seu processo de negócio
A maior parte dos erros nos processos ocorrem quando os dados são movidos de um
departamento para outro ou de um hardware para outro.
A análise de dados deve ser:
 - Colocada dentro do data warehouse;
 - Entendida e utilizável para um profissional de marketing.
O conceito de colocar o data mining dentro do data warehouse reduz erros e custos.
Quanto mais as coisas mudam, mas elas são as mesmas
Pode parecer que o data mining apenas traz à tona idéias de estatística, mas a real
oportunidade de data mining é que usuário de negócio podem ter informações sem ligar
para o departamento de finanças.
Antes eram necessários dias ou semanas para que uma análise financeira ficasse pronta.
Hoje você pode construir o modelo imediatamente e de forma interativa.
Essas funções básicas provam que o data mining melhora precisão, velocidade e custo.
Descoberta X Previsão
Descoberta:
Você pode descobrir coisas que não esperava encontrar, mas são fatos e existem.
Previsão:
Agora você tem uma ferramenta para checar aquele padrão ou associação, fazendo uma
previsão.
Estado atual da indústria
Soluções dirigidas
Esses produtos usaram o poder do data mining e aplicaram num problema particular ou
indústria. Um exemplo é o HNC Falcon System que é uma solução baseada numa rede
neural especificamente para fraudes de cartão de crédito e risco de crédito.
Esses sistemas, por serem específicos podem dispensar grande parte da complexidade
herdada dos algoritmos de data mining.
Ferramentas de negócio:
Os produtos nessa categoria tem como alvo o usuário final de negócios com a intenção de
apresentar o poder do data mining num meio de fácil uso e entendível o suficiente para
aprender lições com sucessos e fracassos.
Ferramentas de Análise de negócios:
Essas ferramentas foram desenvolvidas para usuários de aplicações de negócio que sabem
como o data mining funciona e como são algumas de suas variações.
Essas ferramentas mostram o resultado num form que é mais próximo do algoritmo de data
mining que uma ferramenta de usuário final.
Glossário
Data mining - "Garimpa" as informações, revelando padrões e relacionamentos
escondidas. Gera hipóteses e as testa. "O que existe e o que merece ser visto?" É um
conceito de análise e busca de informações de comportamento de um cliente e/ou produto.
As ferramentas de Data Mining, através de algoritmos estatísticos, segmenta um grupo de
dados e variáveis determinantes para cada perfil. Por exemplo: Numa determinada
empresa, através da análise da base de dados de clientes, pode-se descobrir que para um
certo Produto X, os clientes com idade acima de 40 anos, com mais de 2 filhos, com renda
acima de Y, que moram na Região A, representam 70% dos clientes com tal produto.
Data Warehousing - É um conjunto de tecnologias com o objetivo de converter uma
grande quantidade de dados em informação utilizável. Transforma um banco de dados
operacional num ambiente que permite o uso estratégico dos dados. É um ambiente e não
um produto.
DBMS - Database Management System: Software que proporciona organização de, acesso
a, e controle de dados partilhada por diversos usuários.
DSS - Decision Support System: O processo de reunião, estruturação, manipulação,
armazenamento, acesso, apresentação e distribuição de informações de negócios em tempo
oportuno.
EIS - O termo EIS (Executive Information Systems ou Sistemas de Informações
Executivas), refere-se a sistemas destinados especificamente a satisfazer as necessidades
de executivos de alto nível eliminando a necessidade de intermediários entre executivos e
computadores..
Framework - Bibliotecas de dados de aplicação.
Fuzzy logic - Lógica difusa. Lógica aplicada à programação que tenta imitar os métodos de
raciocínio do cérebro humano.
LAN - Local Area Network. Redes de PC’s ligados juntos de modo a poder se comunicar e
compartilhar dados. O nó central da LAN é geralmente chamado de servidor.
Legacy application - aplicativo legado - um aplicativo no qual uma companhia ou
organização já tenha investido muito tempo e dinheiro. Tipicamente, são bancos de dados
de sistemas de gerenciamento (ver DBMS) rodando em mainframes ou minicomputadores.
Metadados - Dados sobre dados que descrevem o data warehouse Fornecem informações
sobre estruturas de dados. O catálogo de uma biblioteca é um exemplo de metadado.
ODS - Operacional Data Store
OLAP - Processamento analítico de suporte on line. Compara dados e ajuda a entender
coisas que certamente são verdade. Têm a capacidade de responder a perguntas como: "E
se?" e "por quê?". Verifica hipóteses. "Eu quero ver isso dessa maneira". É a tecnologia com
recursos para disponibilização do suporte à Decisão e Estratégia de Negócio, obtendo de
forma mais rápida, consistente e interativa uma variedade de visualizações possíveis da
informação, facilitando a Análise Multidimensional. O resultado dessa pesquisa pode ser
apresentada de forma gráfica ou em formato de planilha, com funcionalidades de drill down
e drill-up (navegação para dentro ou fora dos níveis hierárquicos das dimensões).
Pipeline - Técnica que permite que mais de uma instrução seja processada ao mesmo
tempo (através do processamento paralelo)
RDMS - Relational Database Managment System
Rightsizing - Atividade de mover uma aplicação de sua plataforma de computação
tradicional para outra mais eficiente economicamente. A plataforma-alvo é muitas vezes,
mas nem sempre, fisicamente menor que a plataforma existente.





- Berson, Alex (1997). Data warehouse, data mining, and OLAP
- Wang, Charles (1998). Tecno Vision II
- Um estudo sobre Data Warehouse
http://www.geocities.com/SiliconValley/Port/5072/
- Revista Byte Brasil, Janeiro 1997
Download