ANA PAULA SILVA Data Warehouse e Data Mart como Ferramentas de Inteligência em negócios (BI) Universidade Estadual de Maringá. Departamento de Informática, Curso de Pós Graduação em Tecnologia de Desenvolvimento para a WEB. MARINGÁ 2004 2 ANA PAULA SILVA Data Warehouse e Data Mart como Ferramentas de Inteligência em negócios (BI) Monografia apresentada como requisito parcial à obtenção do grau de Especialista em Desenvolvimento para WEB, Curso de Pós Graduação em Desenvolvimento para WEB, Departamento de Informática, Universidade Estadual de Maringá. Orientador: Prof. Dr. José Tarcísio Pires Trindade MARINGÁ 2004 3 AGRADECIMENTOS Ao Professor José Tarcísio pela paciência. Ao Coordenador do Curso Wesley Romão pelo incentivo. À minha amiga Rosely Locatelli. Aos meus pais e ao meu irmão. 4 SUMÁRIO RESUMO.....................................................................................................................7 INTRODUÇÃO ............................................................................................................8 2. BUSINESS INTELLIGENCE BI .............................................................................10 2.1 CONCEITO DE BI ...............................................................................................10 2.2. BI PARA SOBREVIVÊNCIA DA EMPRESA......................................................12 2. 3 O VALOR DO BI NAS EMPRESAS ..................................................................13 2. 4 EXEMPLO DE UTILIZAÇÃO DA INFORMAÇÃO DO BI ...................................14 2. 5. CASOS EM QUE É ACONSELHADO A UTILIZAÇÃO DO BI..........................14 2.6. A MANUTENÇÃO DE UM BI.............................................................................15 2.7. UMA NOVA GERAÇÃO DE BI ...........................................................................15 3. FERRAMENTAS DE BI .........................................................................................17 3.1 APLICAÇÕES DE BI ...........................................................................................22 4. DATA WAREHOUSE ............................................................................................25 4.1 O QUE É DATA WAREHOUSE? ........................................................................28 4.2 POR QUE UTILIZAR DATA WAREHOUSE ........................................................29 4.3 PRINCÍPIOS DIRECIONADORES DE UM AMBIENTE DATA WAREHOUSE. ..30 4.3.1 GRANULARIDADE ..........................................................................................30 4.3.2 ATUALIZAÇÃO E TEMPO DE RETENÇÃO DOS DADOS ..............................33 4.3.3 DISPONIBILIDADE ..........................................................................................33 4.4.4 ESCALABILIDADE ...........................................................................................34 4.5 ARQUITETURA DO AMBIENTE DE DATA WAREHOUSE ................................34 4.5.1 ORIENTAÇÃO POR ASSUNTO ............................................................................... 34 4.5.2 INTEGRAÇÃO ...........................................................................................................35 4.5.3 VARIAÇÃO NO TEMPO...........................................................................................36 4.5.4 NÃO VOLATILIDADE..............................................................................................37 4.5.5 DADOS ....................................................................................................................... 37 4.5.5.1 LOCALIZAÇÃO DOS DADOS........................................................................ 38 4.5.5.2 CREDIBILIDADE DOS DADOS ..................................................................... 39 4.5.5.3 SUMARIZAÇÃO ............................................................................................... 40 4.5.5.4 NÍVEIS DE SUMARIZAÇÃO........................................................................... 41 4.5.5.5 CONSIDERAÇÕES SOBRE VOLUME DE DADOS................................... 43 5 4.5.6 POLÍTICA, TRANSFORMAÇÕES, ARMAZENAMENTOS E ANÁLISE.............44 4.5.7 METADADOS ............................................................................................................ 45 4.6 TIPOS DE MODELAGENS EM DW ........................................................................... 45 4.6.1 MODELAGEM FLOCO DE NEVE - SNOWFLAKE........................................ 46 4.6.2 MODELAGEM ESTRELA - STAR..................................................................... 46 4.7 TIPOS DE TABELAS UTILIZADAS NA ARQUITETURA DW ...............................47 4.7.1 TABELA DE FATOS - FACT TABLE................................................................ 47 4.7.2 TABELAS INFORMACIONAIS - INFORMATION TABLE............................ 47 4.8 DATA MART................................................................................................................... 49 5. DATA MART..........................................................................................................50 6 - DATA WAREHOUSE X DATA MART ..................................................................52 7. DATA WAREHOUSE X DATA MART: COMO ELES PODEM AJUDÁ-LO ...........54 CONCLUSÕES .........................................................................................................56 REFERÊNCIAS.........................................................................................................57 6 LISTA DE TABELAS E QUADROS QUADRO I DEMONSTRATIVO DAS FERRAMENTAS E FORNECEDORES E ETAPAS DE BUSINESS INTELLIGENCE. FIGURA 01 – INTEGRAÇÃO DOS DADOS. FIGURA 02 – PARÂMETROS DE CREDIBILIDADE DOS DADOS. FIGURA 03 – SUMARIZAÇÃO. FIGURA 04 – ESTRUTURAS DOS NÍVEIS DE SUMARIZAÇÃO. FIGURA 05 – VOLUME DOS DADOS. TABELA COMPARATIVA ENTRE SNOWFLAK E STAR. 7 RESUMO Nas últimas décadas, com a disseminação do uso de microcomputadores, as empresas preocuparam-se apenas com a automatização de seus processos, gerando assim, uma grande massa de dados obsoletos. As constantes mudanças na economia globalizada tem forçado os diretores e gerentes a tomarem decisões cada vez mais rápidas e precisas que podem definir o futuro de seus empreendimentos. Surge então a necessidade de abstrair informações relevantes destes dados. Uma alternativa encontrada para facilitar a obtenção destas informações está na implantação de uma arquitetura de DATA WAREHOUSE que é o processo de interação dos dados corporativos de uma empresa em um único base de dados onde, os usuário finais podem facilmente executar consultas, gerar relatórios e fazer análises, criando um ambiente de suporte a decisão que alavanca dados armazenados em diferentes fontes e os organiza e entrega aos tomadores de decisões da empresa, independente da plataforma que utiliza ou de seu nível de qualificação técnica. Para podermos falar sobre Data Warehouse e Data Mart, faz-se necessário uma introdução sobre Business Intelligence para melhor entendimento. Este trabalho visa esclarecer algumas dúvidas sobre Data Warehouse, no que se refere a necessidade de informações mais relevantes. Quem e como devemos utilizá-los bem como fazer uma comparação entre duas ferramentas mais usadas que são Data Warehouse e Data Mart. Para isso, tem-se a necessidade de uma breve explicação sobre BI. Business Intelligence é o conjunto de conceitos, métodos e recursos tecnológicos que habilitam a obtenção e distribuição por toda a empresa, de informações para análise, disponibilizando aos gestores nos diversos níveis, tanto o diagnóstico de seu negócio, com base em fatos acontecidos, como a sinalização de tendências, elementos fundamentais para suportar a tomada de decisão. 8 INTRODUÇÃO Nas últimas décadas, com a disseminação do uso de microcomputadores, as empresas de modo geral, preocuparam-se apenas com a automatização de seus processos, gerando assim, uma grande massa de dados obsoletos. Atualmente, as constantes mudanças na economia globalizada têm forçado os diretores e gerentes a tomarem decisões cada vez mais rápidas e precisas que podem definir o futuro de seus empreendimentos. Com o foco nessa realidade é que surgiu o conceito de inteligência para negócios ou Business Intelligence. Business Intelligence são as lentes multifocais que permitem executar uma visão estratégica através das informações operacionais de uma empresa, com o mínimo de distorção possível e com uma abrangência maior para avaliação dos resultados. Com esta aplicação analítica, pretende-se determinar novas estratégias de mercados e novos produtos. Business Intelligence é a construção deste modelo de inteligência de negócios que pode ser facilmente entendido, medido e, seguramente está comprometido com os resultados de todos os níveis da empresa. Com os resultados obtidos, será feita uma visão estratégica única, com coerência e sem distorção das informações obtidas, para que sejam definidos novos objetivos e metas a serem alcançadas ou apenas para medir a posição da empresa até o momento. Business Intelligence utiliza-se de uma combinação de outras ferramentas, dentre elas, destacamos neste trabalho: Data Warehouse; que armazena um enorme volume de dados da sua empresa e transforma estes dados brutos em informação; OLAP: analisa uma mesma informação de diferentes formas para ajudar na tomada exata de uma decisão; Data Mining (ou mineração de dados); é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais; Data Mart: agrega a informação por setores, além de melhorar a performance torna o acesso mais simples para o usuário final; entre outros que serão comentados e mostrados. Mas para o propósito desse trabalho discorreremos, com mais detalhes, sobre Data Warehouse e Data Mart como ferramentas de Inteligência para negócios (BI). No 9 capítulo 4 conceituaremos o Data Warehouse, falando sobre sua estrutura, modo de uso, onde e como utiliza-lo, além de outros conceitos relacionados. No capítulo 5 abordamos o que vem a ser o Data Mart conceitos, estruturas além de comparações entre as duas ferramentas. Mas além de todas estas ferramentas agregadas, ainda é preciso deter um profundo conhecimento de seu negócio, para a aquisição de uma aplicação analítica como estas aqui apresentadas. Será necessário traçar objetivos, metas, táticas e estratégias com estas ferramentas, pois elas agregam um alto valor a informação em análise. Mesmo com o sistema todo implantado e gerando seus relatórios dinâmicos, serão necessários alguns ajustes tanto técnicos quanto operacionais, para a expansão dos resultados obtidos ou para que se possa aprender com os erros e acertos. Isto é a Inteligência de seu Negócio. Isto é Business Intelligence. Estas questões são abordadas no capítulo 2 onde também discorreremos sobre conceitos, valor de BI para sobrevivência das empresas, valor de Bi nas empresas, exemplo de utilização, casos em que é aconselhado a utilização de BI, Manutenção e por fim as ferramentas de BI. Nos capítulos 6 e 7, fazemos uma comparação entre Data Warehouse e Data Mart e como eles podem ajuda-lo. Por fim, apresentamos nossas conclusões sobre o presente trabalho. 10 2. BUSINESS INTELLIGENCE BI A economia globalizada resume-se a uma palavra: velocidade. Os negócios, os clientes e os produtos sofrem mudanças em ritmo nunca antes observado. Para alcançar o sucesso, as empresas devem oferecer uma experiência superior ao cliente, ganhar conhecimento em tempo real, tomar decisões mais rapidamente e aperfeiçoar o desempenho dos negócios. Os executivos devem examinar e compreender tanto os processos tradicionais como os de e-Business, reunindo informações de diversas fontes. A resposta para estes desafios chama-se Business Intelligence. 2.1 CONCEITO DE BI Business Intelligence é o conjunto de conceitos, métodos e recursos tecnológicos que habilitam a obtenção e distribuição por toda a empresa, de informações para análise, disponibilizando aos gestores nos diversos níveis, tanto o diagnóstico de seu negócio, com base em fatos acontecidos, como a sinalização de tendências, elementos fundamentais para suportar a tomada de decisão. “Um grande centro de ferramentas de software, incluindo DSS (Sistemas de suporte a decisão), EIS(Sistemas de informação executivo), OLAP (Processo analítico online) e data mining, que extraem dados de forma ordenada para encontrar tendências e parcerias que podem contribuir na direção do seu negócio.”, [Greengard, 1999] “É uma aplicação tecnológica que permite as corporações coletar, agregar e analisar todos os dados transacionais para melhor entender e obter “insight” sobre o seu negócio. Uma das melhores aplicações de BI na atualidade é a análise dos dados 11 seus clientes de forma a obter um melhor entendimento do comportamento deles e melhorar o gerenciamento do relacionamento para com estes.”, [Simoudis, 1998] “O mercado aponta o BI como o conjunto de ferramentas que interagem entre si, objetivando levar a um número maior de usuários informações vitais para o gerenciamento de seus negócios. Estão contidas neste conceito todas as tecnologias e ferramentas de gerenciamento de informações já conhecidas no passado, como a tecnologia de OLAP, a Data Warehouse, o Data Mining, o DSS, Data Mart e EIS, ou seja, todas as ferramentas e processos disponíveis para coleta, armazenamento e distribuição de dados gerencias.”, ..., a seguir o autor, cita que o BI está disponível no produto destes através de quatro ferramentas: “SIGAEIS(executive Information System ), a integração com os produtos MS office, o Seagate Crystal Report e o SIGAWF(Workflow)” [Microsiga, 1999] “O conceito de BI traz uma nova abordagem e integra toda a tecnologia que possa prover ao usuário um poder de análise que ele não tem, permitindo transformar os dados transacionais em informação. Além disso, olhar para o futuro, embasado em projeções e decisões com informações mais precisas”, por Antonio Paulo Hill, diretor para a América Latina da Hyperion. [Informática Hoje, 1999] Atualmente dentro de cada negócio é usado BI para trabalhar de maneira inteligente apontando novos caminhos de lucratividade e viabilidade, retornando a informação de qual a melhor maneira de obter o maior retorno sobre o investimento aplicado. Estas são algumas das características de BI: [www.bi-magazine.com] a) extrair e integrar dados de múltiplas fontes; b) fazer uso da experiência; c) analisar dados contextualizados; d) trabalhar com hipóteses; e) procurar relações de causa e efeito; f) transformar os registros obtidos em informação útil para o conhecimento empresarial; 12 2.2. BI PARA SOBREVIVÊNCIA DA EMPRESA Nos últimos anos, a demanda mostra que no mundo de BI não tem lugar para a superficialidade ou modismo, é inegável que atualmente algo está mudando de maneira substancial. Nos últimos anos, a demanda de profissionais do conhecimento, especializados na sua geração, difusão e aplicação tem crescido sem parar. A necessidade de sistemas de inteligência para converter os dados em critérios objetivos, para a tomada de decisões, é uma realidade generalizada. Existem alguns elementos irrenunciáveis que podem contribuir para o sucesso da empresa, os quais pode-se resumir fundamentalmente em quatro: 1º) O âmbito de diferenciação entre as empresas tem-se deslocado do retorno das operações ao informal, da mera gestão da transação a contribuição e valor ao cliente através de cada oportunidade de contato, da automatização de processos mecânicos a mecanização de processos inteligentes; de considerar exclusivamente os aspectos tangíveis nos processos de tomadas de decisões a dar uma importância cada vez maior ao intangível; 2º) Cada vez em maior medida, a empresa vai adotando estruturas funcionais orientadas a garantir que existe uma adequada interação com o retorno; interação esta que deve ser rápida, eficiente e que permita ativar os mecanismos pertinentes para dar uma resposta oportuna às ameaças e oportunidades que podem surgir; 3º) O conhecimento, elemento básico na atividade de toda empresa, não tem tido normalmente a atenção que merecia, devido a seu caráter intangível. Atualmente se considera o mais importante e é uma tendência muito divulgada tratar de fazer o conhecimento tangível através de sistemas de documentação e publicação; 4º) Não se pode deixar de incluir a diferenciação das características de certas decisões e sua disposição em função de seus interesses para a empresa, quer seja 13 de caráter tangível ou intangível, por seus efeitos em curto ou longo prazo e o poder conhecer, mediante simulações, os efeitos e algumas decisões. 2. 3 O Valor do BI nas Empresas No mercado atual, as empresas precisam levar vantagens das informações que têm. Toda empresa que pretenda alcançar os níveis adequados de competência necessita converter os dados em conhecimento, analisando e utilizando a informação para apoiar a tomada de decisão e a definição de estratégia de negócio, que permitam alcançar o êxito. Velocidade é a última palavra em negócios para empresas que buscam vantagens competitivas. Responder prontamente às demandas de seus clientes, assim como perceber antecipadamente tendências que viabilizam novas oportunidades de mercado, é a chave do sucesso para manter e expandir negócios no mundo de hoje. Direcionar estrategicamente as ações de sua empresa em busca desses objetivos depende fundamentalmente de ter informações precisas e imediatas, que garantam uma aplicação eficaz de seus esforços e investimentos. A integração de toda a informação, procedente das operações da empresa, em uma plataforma de BI inter-relacionada com sua cadeia de valor, está se convertendo em um fator crítico de êxito essencial para a competitividade, e ainda mais, para a sobrevivência das empresas. Os sistemas de BI proporcionam os meios para poder integrar e analisar a informação. Incluem capacidades de análise multidimensional que permitem navegar e aprofundar a partir dos dados, agregando e desagregando “online” pelas dimensões que se considera mais importante e permitindo a definição e continuação dos indicadores de negócios mais relevantes da empresa. Este tipo de informação pode ser útil sempre que haja a necessidade de se realizar uma análise da informação sobre qualquer aspecto de sua cadeia de valor. 14 Os sistemas de BI se baseiam na integração e na universalização da informação, para dar resposta às necessidades analíticas, quer dizer, todos os departamentos da empresa proporcionarão informação e ao mesmo tempo se beneficiarão dela, porém não somente da informação do seu próprio departamento, mas também poderão ter acesso a qualquer tipo de informação que lhes seja de utilidade em sua área de negócio, mesmo que essa informação provenha de qualquer outro departamento. 2. 4 EXEMPLO DE UTILIZAÇÃO DA INFORMAÇÃO DO BI Em uma empresa, tem-se uma informação periódica sobre as vendas realizadas aos clientes, sobre o esforço da rede comercial e sobre os pedidos feitos aos fornecedores. Pode-se integrar e cruzar toda esta informação para analisar, por exemplo, em que lugares vende-se mais cada tipo de produto, quem são os clientes mais rentáveis, qual é a relação entre o esforço comercial e as operações fechadas, e de que fornecedores compra-se a maior parte dos produtos vendidos. 2. 5. CASOS EM QUE É ACONSELHADO A UTILIZAÇÃO DO BI Qualquer empresa precisa integrar a informação procedente de sua cadeia de valor, com o objetivo de analisar para poder tomar decisões acertadas e definir estratégias eficientes de negócio. Qualquer empresa que tenha “resolvido” suas necessidades de informação operacionais, vai traçar necessidades de informação analítica, que devem ser resolvidas com a implantação de um sistema de BI. Qualquer analista de negócio que tenha que realizar uma função de planejamento e gestão irá beneficiar em grande medida de um sistema de BI pela facilidade de análise que mostra este tipo de ferramenta e pela autonomia que confere este tipo de sistema. 15 2.6. A MANUTENÇÃO DE UM BI A manutenção de um sistema de BI implica na execução, periódica ou não, de uma grande quantidade de processos, análise e limpeza da fonte de dados, cargas adicionais de dimensão e tabela de tabela de fatos , cálculo de tabelas agregadas, atualização e distribuição de relatórios e análise, etc.. Todos esses processos devem ser executados em uma determinada ordem, pois sua execução estará sujeita a diversos fatores, tais como: disponibilidade de certa máquina, de certo arquivo ou simplesmente certo dia a certa hora. Quando se apresenta alerta, anormalidades ou erros, deve-se corrigir sem que em nenhum momento perca-se a disponibilidade ou a veracidade da informação oferecida. Para que isto aconteça, a melhor estratégia ainda é a prevenção. Durante a fase de desenvolvimento do sistema deve-se estudar cuidadosamente os pontos críticos do funcionamento do sistema, quer dizer, deve-se elaborar uma lista de “tudo o que pode falhar” e preparar os correspondentes algoritmos de atuação. 2.7. UMA NOVA GERAÇÃO DE BI Na atualidade, as empresas são valorizadas não unicamente pela qualidade de seus produtos ou serviços, mas também pelo grau em que dividem informação com seus clientes, empregados, fornecedores ou sócios. A maioria das organizações têm uma grande quantidade de dados, todavia possuem uma carência no conhecimento destes dados, e como estes estão organizados e distribuídos. É por isso que surge a necessidade ou conceito de BI, o qual se encarrega de englobar todos os sistemas de informação de uma empresa para obter não somente dados ou conhecimento, mas também uma verdadeira inteligência de negócio que concede vantagens competitivas às organizações. A metodologia de BI tem a capacidade de consolidar informação e analisar essa informação com a suficiente velocidade e precisão para descobrir vantagens e poder tomar decisões estratégicas de negócio. 16 Os diferentes tipos de software são classificados nas seguintes categorias: a) Tecnológicos: bases de dados otimizados por freqüência, alto volume de informação e consultas multidimensionais; b) Aplicações Analíticas: aplicações pré-fabricadas com medidas definidas, metodologias e processos já predestinados para administrar problemas de negócios associados com mercados específicos ou verticais ou áreas funcionais de uma empresa; c) Ferramentas de Análise: aplicações que não são de mercados verticais ou função de negócio específicos, mas podem prover de funções essenciais como a visualização de dados, informes e consultas; d) Plataformas de Desenvolvimento: incluem blocos de informações para adaptar ou desenvolver aplicações analíticas que resolvem as necessidades de negócio. Plataformas que podem incluir linguagens de programação como Java, Visual Basic e/ou moldes pré-configurados ou objetos. Algumas das mais avançadas plataformas provém de uma interface de usuário muito amigável para manipular estes elementos sem programar códigos. Para resolver os problemas das ferramentas de BI, aparece a nova geração de sistemas de Business Performance, que melhoram a utilidade dos sistemas. As soluções de Business Performance se dividem em 3 grandes grupos: - no primeiro se reflete o desenvolvimento de aplicações de uso analítico mais simples de utilizar, e aplicações analíticas já desenvolvidas anteriormente. Estas aplicações devem melhorar a geração de alto rendimento de negócio com Dashboards e Scorecards (permitindo incorporar, se deseja, as medidas ou controles do negócio que se quer aplicar) ; - o segundo grupo encorpora soluções e acesso a informação personalizada através do uso interno de portais corporativos e de e-business; - o terceiro grupo está desenhado para suportar a tomada de decisões em tempo real através do acesso imediato ao sistema de Data Warehouse ou diretamente às tabelas, motores automatizados de decisão e recomendações analíticas de baixo pedidos do usuário. 17 3. FERRAMENTAS DE BI Conforme comentamos no capítulo anterior, podemos contar com um amplo e variado leque de ferramentas para implementação do conceito de BI. Algumas delas são descritas a seguir. - Datawarehouse São os grandes base de dadoss de dados [Informática Hoje, 1999]; poderia-se perguntar: mas já não existem os bancos de dados tradicionais? A resposta seria sim, mas não conseguimos imaginar uma empresa que adote a filosofia de guardar todos os seus dados transacionais (movimentações diárias, como por exemplo: entradas e saídas de itens de estoque) numa única base. Isto exigiria uma grande capacidade de armazenamento, o que teria um custo elevado, além de interferir na velocidade de processamento, o que demandaria um tempo maior de operação. Por estes motivos os dados que não precisam necessariamente estar disponíveis on-line (acessados a qualquer momento), ficam disponíveis em outra base para quando se fizer necessária uma consulta. Esta “outra-base” é estruturada de forma a facilitar este processo de consulta, além de contar com recursos de pré-processamento como por exemplo o conceito de ETL (Extraction , transformation and load), que compreende a fase de alimentação do que denominamos datawarehouse. Datamarts Outra ferramenta de BI é o Data Mart que é, na verdade um pequeno Data Warehouses; assim poderíamos definir os Data Marts, como ferramentas que se utilizam da mesma concepção do Data Warehouse. A diferença entre um e outro fica por conta da especialização por um determinado assunto ou área da empresa, como por exemplo podemos ter um um Data Mart específico para marketing. [Informática Hoje, 1999] SQL 18 O SQL é um exemplo, dentro das muitas linguagem de consulta disponíveis para pesquisar dados. Associadas ou não ao banco de dados para os quais foram desenvolvidas originalmente, estas ferramentas são poderosas aliadas para a pesquisa de dados, desde que se conheça o vocabulário inerente a cada uma delas, e também a denominação dos dados no banco de dados. Se o problema for consultar determinados clientes que estejam cadastrados sob um típico específico, como por exemplo um canal de venda, utilize o comando SELECT, e não esqueça da sentença apropriada: SELECT client WHEN type = XXXX. [Microsof, 1997] Data Mining (Query tools – Ferramentas de consulta, Statistical techniques – técnicas estatísticas, Visualization - Visualização, OLAP Análise on-line de processos, Case-based learning – Aprendizado baseado em casos, decision trees – Árvore de decisão, Association rules – Regras de associação, Neural networks – Redes Neurais e Genetic Algorithms – Algoritmos genéticos) Não é nosso propósito aqui identificar cada uma das ferramentas que encontramos sobre o “manto” do Data Mining, já que o foco de nosso trabalho concentra-se nas ferramentas de Data Warehouse e Data Mart. O importante é salientar que o Data Mining é um conceito de “mineração” de dados, de forma a atendermos as nossas necessidades de informações, através de regras existentes dentro das ferramentas, consideradas em alguns casos como verdadeiras “caixas pretas” [Adriaans , 1996]. Não precisamos conhecer o conteúdo das referidas “caixas pretas”, como no caso dos comandos SQL. Mas precisaremos de alguém mais técnico para montar estas regras, e a partir daí, é só efetuar a pesquisa. Apesar do termo Data Mining ter se tornado bastante popular nos últimos anos, existe ainda uma certa confusão quanto a sua definição. Data Mining (ou Mineração de Dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. Este processo vai muito além da simples consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir informação útil a partir de dados, descobrindo relacionamentos escondidos no banco de dados. 19 Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados, sendo uma área de pesquisa de bastante evidência no momento, envolvendo inteligência artificial e banco de dados. Data Mining pode ser utilizado com os seguintes objetivos: Explanatório: explicar algum evento ou medida observada, tal como: “porque a venda de sorvetes caiu no Rio de Janeiro”; Confirmatório: confirmar uma hipótese. Uma companhia de seguros, por exemplo, pode querer examinar os registros de seus clientes para determinar se famílias de duas rendas têm mais probabilidade de adquirir um plano de saúde do que famílias de uma renda; Exploratório: analisar os dados buscando relacionamentos novos e não previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estejam associados a pessoas que representam risco para créditos. Especialmente devido ao alto custo envolvido, estas ferramentas vinham sendo usadas quase que unicamente por grandes corporações e instituições governamentais. A maior parte das atividades de Data Mining ficava restrita a especialistas, com empresas oferecendo seus serviços de análise, mas sem entregar aos clientes seus métodos e ferramentas. Com o grande aumento do volume de dados nas empresas e com o crescimento do uso de tecnologia de banco de dados, especialmente de Datawarehouse, as técnicas de DataMining assumiram papel importante no suporte aos processos de tomada de decisão e devem, aos poucos, ganhar mercado entre as empresas de menor porte. DSS/EIS Tanto o DSS (Decision Suport System – Sistema de Suporte à Decisão) ou o EIS (Executive Information System – Sistema de Informação Executiva) são direcionados para os executivos de empresas no sentido de facilitar o exercício da principal função deste dentro da empresa: tomada de decisão. [Microsiga, 1999] 20 Dependendo do produto e/ou do fabricante teremos uma esta “facilidade” para obtenção das informações, porque, no geral, estas já estão formatadas de acordo com as “previsíveis” necessidades destes executivos. O problema começa quando não se acerta nesta “previsibilidade”, ou algum detalhe adicional que sempre o executivo necessita, ou ainda quando esbarramos na falta de disposição ou tempo do mesmo, para entender alguns comandos necessários para atender ao detalhe requerido. Geradores de relatórios (Ex. Crystal Report) Se tivermos a nossa disposição dados porque não gerar informações formatadas de acordo com a nossa necessidade, estas são as funções principais dos geradores de relatórios, a exemplo do Crystal Report. [Microsiga, 1999] Logicamente o processo de geração das informações não é tão simples assim. Neste processo utilizam-se regras de consulta, e se estamos falando de Crystal Report, não podemos esquecer de SQL, pois o Crystal Report é justamente o gerador de relatórios do SQL. Portanto, vale o que foi comentado no item SQL, deve haver um conhecimento acerca das referidas regras, além do principal: saber o nome de um campo da forma que está escrito no banco de dados, e se você pensa que digitar o nome cliente para procurar informações sobre clientes, pode ter uma surpresa, cliente pode estar escrito como client, clien, etc... CRM CRM, este é o conceito do momento. Seja os fabricantes de ERP ou consultoria especializadas na área de marketing/vendas, todos estão interessados no filão do CRM (Customer Relation Management). O referido conceito trata da integração das áreas de vendas, que normalmente contam com um sistema específico de informações de faturamento que não está interligado ao de telemarketing, que responde pelo contato com o cliente, ou ainda ao setor de atendimento ao cliente. Ao efetuarmos uma integração destas áreas/sistemas proporcionaremos uma integração plena do contato com o cliente, o que otimizará as decisões inerentes a este verdadeiro patrimônio da empresa. Dentro deste conceito pode-se embutir 21 alguns dos componentes acima para efetuar o processo de integração. [Network Computing, 1999] Conforme a tabela abaixo faremos o demonstrativo das ferramentas, fornecedores e etapas da metodologia. Ferramenta Fornecedor(es) Etapas da Metodologia 3) Depuração de Dados Oracle,Microsoft, Ardent, Informix, Datawarehouse 5.1) Seleção do Método de Extração SAS institute, IBM e Sybase 6) Execução do Processo Oracle, Microsoft, Ardent, 5.1) Seleção do Método de Extração Informix, SAS institute, IBM e 6) Execução do Processo Datamarts Sybase 2) Análise de Dados Microsoft SQL 3) Depuração de Dados 4) Agregação de Dados 2) Análise de Dados Oracle Oracle 3) Depuração de Dados 4) Agregação de Dados 5.1) Seleção do Método de Extração 5.2) Seleção do Método de Microsoft DSS Exploração 6) Execução do Processo 5.1) Seleção do Método de Extração Oracle, Microsoft, Informix, Pilot, Rollup/Olap 5.2) Seleção do Método de Seagate, Hyperion, Exploração 5.2) Seleção do Método de Exploração Cubo Oracle, Microsoft, Cognos e Baan 5.3) Seleção do Método de Visualização 6) Execução do Processo 5.3) Seleção do Método de SAS institute, SPSS Inc e Unica Técnicas Visualização Technology Estatísticas 6) Execução do Processo 5.3) Seleção do Método de Sybase, ZTI e Consist Visualização Visualização 6) Execução do Processo Business Objects, Cognos, 5.3) Seleção do Método de Angoss International, IBM, Accrue Exploração Árvore de Software, Oracle, Salford 6) Execução do Processo Decisão Systems, SAS institute, SGI, SPSS Inc e Única Technology 5.3) Seleção do Método de Regras de IBM, Accrue Software, SAS Exploração Institute, SGI e SPSS inc. Associação 6) Execução do Processo CA, Angoss International, 5.3) Seleção do Método de Redes Neurais Cognos, HNC Software, IBM, Exploração Accrue Software, Neural Ware, 6) Execução do Processo 22 Oracle Corp, SAS institute, SPSS Inc e Única Technology Algoritmos Genéticos Ariel Dolan, Trajan Wizsoft e Oingo. Software, 5.3) Seleção do Método Exploração 6) Execução do Processo de Entre os fatores a se ter em conta na hora de escolher aplicações analíticas, como parte da estratégia BI global, está, em primeiro lugar, aliar-se com provedores de comprovada experiência no mundo BI. Essa aliança permitirá capturar sua sabedoria tecnológica e de negócio de maneira rápida, o que de outra forma exigiria tempo, recursos e conhecimento dentro da própria empresa. É também fundamental adotar uma aproximação integrada com os padrões BI da empresa, somente assim se garantirá coerência de informação, minimizar os custos de implantação, suporte, manutenção e formação ao usuário. A rapidez de implantação é outro dos pontos críticos. É fundamental que a tecnologia analítica adotada permita apoiar os processos de negócio com a mesma rapidez que o mercado exige. As aplicações analíticas representam a evolução das ferramentas tradicionais de BI, e contribuem conteúdo de negócio altamente especializado nas diferentes áreas de uma empresa. A possibilidade de dispor de poderosas ferramentas analíticas baseadas nas melhores práticas de negócio, oferece um alto valor diferencial a todos aqueles gerentes de empresa que desejam converter a informação disponível em sua empresa em benefício de negócio. No contexto empresarial existem inúmeras frentes de aplicação, em função da variedade de áreas/atividades encontradas dentro de uma empresa, conforme destacado na seção 2.1: 3.1 APLICAÇÕES DE BI 23 Aplicações de BI são muito variadas, vamos discorrer sobre algumas que consideramos importantes, dentro do contexto deste nosso trabalho, iniciado por marketing. Marketing A American Software [American , 1999] se presta a oferecer um produto, com a etiqueta de BI, que vem de encontro à grande necessidade dos gerentes atuais: a análise dos seus clientes. A próxima geração do softwares da American são conectados aos sistemas de ERP através de sofisticadas ferramentas de OLAP (processamento analítico on-line) e tecnologias de Data Warehouse. Vendas A neovista [Neo Vista, 1999], na sua versão de BI para empresas de varejo, denominada de RDS-Assort, possibilita, através do uso de avançadas técnicas de descobrimento, o uso de detalhes de estocagem e nível de performace de vendas, para assessorar o nível corporativo no sentido do planejamento do tempo adequado de distribuição de itens para as lojas que compõe a rede de varejo. Finanças Imaginemos o número de transações de um banco: depósitos, retiradas, transferências, etc...; este número de transações pode chegar a casa dos gigabytes; entretanto apenas 10% deste total é analisado como forma de melhorar as decisões que são tomadas. Para um banco é fácil monitorar as transações efetuadas pelos clientes, mas é muito difícil predizer quais produtos os clientes poderão se interessar no futuro, e justamente neste ponto que se enquadra o BI: na predição do comportamento destes clientes no futuro através dos dois processos, segundo este autor, que tem o BI, o armazenamento de dados e a mineração de dados. [Simoudis, 1998]. 24 Uma das atividades onde fica claro a aplicação do conceito de BI, dentro do processo de controladoria/finanças, é a de crédito. É fácil observar a quantidade de dados que podem ser trabalhados a partir das constantes e inúmeras análise de crédito efetuadas para clientes. Os critérios podem ser os mais diversos, mas ao final ficam definidas algumas regras que viabilizaram a aprovação ou não de crédito para um histórico de clientes, que podem ser utilizadas para análise de futuros clientes. (SSBI - Softwares & Soluções em Business Intelligence) Produção Numa combinação de produtos (BrioQuery Designer, BrioQuery Explorer, BrioQuery Explorer, BrioQUery Navigator, Brio.Insight, Brio.QuickView e o Brio.Enterprise Server ), que representam a sua solução de BI integrada, a Brio Technology [Brio, 1999], foca a sua atuação, entre outros pontos, no suporte às necessidades de decisão, em função de informações sobre produção e consumo. O processo produtivo enseja uma cuidadosa análise no que se refere a atividades como: custeio de produção, controle de estoque, mensuração de consumo de materiais, planejamento da capacidade, acompanhamento de lead-time, etc... De posse de um histórico, contidos em uma base de dados, podem ser criados cenários que permitam traçar comportamentos futuros para um produto ou servir de comparativo para a produção de um novo item de produção. Neste contexto, o conceito de BI vem de encontro a atender a elaboração destes cenários. Diversas são as empresas que já contam com a aplicação de BI no acompanhamento do seu processo produtivo. Imaginemos a necessidade que os executivos de produção têm no sentido de acompanhar a operação diária de uma fábrica e ainda os custos inerentes a esta operação. Este acompanhamento já é possível, possibilitando a estes executivos obter, rapidamente, uma visão do referido processo, de forma a constituir um real elemento de visualização da situação atual. (SSBI - Softwares & Soluções em Business Intelligence) 25 4. DATA WAREHOUSE Data Warehouse pode ser descrito como um conjunto de tecnologias de suporte à decisão, cuja intenção é permitir que executivos, gerentes e analistas do negócio tomem decisões melhores e mais rápidas. Noções básicas sobre banco de dados, modelo de entidades e relacionamentos não serão aqui apresentadas, podendo ser encontradas em diversos livros-textos. Para se entender o avanço que culminou na chegada do conceito de Data Warehouse para a Tecnologia da Informação, é preciso lembrar como evoluíram os processos tecnológicos na área. Por volta de 1970, a época de uma nova tecnologia de armazenamento e acesso a dados, havia chegado: a introdução do armazenamento em disco, ou DASD (direct access storage device, ou dispositivo de armazenamento de acesso direto), surgiu um novo tipo de software conhecido como SGBD ou sistema de gerenciamento de banco de dados. Com o DASD e o SGBD surgiu a idéia de um “banco de dados”, também definido como uma única fonte de dados para todo o processamento. O banco de dados promoveu uma visão de uma organização “baseada em dados”, em que o computador poderia atuar como coordenador central para atividades de toda a empresa. Nesta visão, o banco de dados tornou-se um recurso corporativo básico. Pela primeira vez as pessoas não estavam vendo os computadores apenas como misteriosos dispositivos de previsão. Em vez disso, os computadores eram vistos como uma verdadeira ferramenta para a vantagem competitiva. A idéia dos sistemas de informação para os negócios começou a tomar forma. Em outras palavras, os computadores tornaram-se importantes máquinas de negócios, aonde as empresas alcançaram mais eficiência. Nas décadas de 70 e 80, grandes aperfeiçoamentos tecnológicos resultaram em novos sistemas de informação que custavam bem menos e eram bem mais poderosos. Com o surgimento dos bancos de dados relacionais a informatização nas 26 Empresas já acontecia a passos largos: as pessoas mais influentes e poderosas tinham acesso aos microcomputadores e a sua facilidade de uso aumentou muito. Com o processamento de transações online de alta performance, surgiram os sistemas de reservas aéreas em nível mundial, sistemas bancários globais e cartões de créditos internacionais. A chegada de novas tecnologias, como os computadores pessoais e as linguagens de 4ª geração, permitiu-se que o usuário final assumisse um papel mais ativo, controlando diretamente os sistemas e os dados, fora do domínio do clássico processamento de dados. Com essa evolução, as empresas começaram a perceber que poderiam analisar de forma otimizada seus dados, ou seja, descobriram que poderiam incrementar seus recursos de Business Intelligence (BI). Essa descoberta muda o enfoque que até então fora atribuído ao conjunto de informações (Sistemas). Nasce um novo conceito para a tecnologia da informação, aonde os sistemas informatizados passaram a pertencer a dois grupos: Sistemas que tratam o negócio: Dão suporte ao dia a dia do negócio da empresa, garantem a operação da empresa, e são chamados de SISTEMAS TRANSACIONAIS; e; Sistemas que analisam o negócio: Sistemas que ajudam a interpretar o que ocorreu e a decidir sobre estratégias futuras para a empresa – compreendem os SISTEMAS DE SUPORTE A DECISÃO. Com a chegada de novas ferramentas tecnológicas de análise de informação, os gerentes começaram a exigir dos Sistemas Transacionais respostas às suas solicitações. Como esses sistemas foram desenvolvidos para garantir a operação da Empresa, não estavam preparados para gerar e armazenar as informações estratégicas necessárias a um Business Intelligence eficiente. Em atendimento às solicitações dos gestores em relação à deficiência da análise de informação nos sistemas legados, surgiu no mercado os chamados Programas Extratores. Esses programas extraem informações dos Sistemas Transacionais com 27 o intuito de trabalhá-las em outros ambientes. Muitas vezes essas extrações ocorriam em arquivos intermediários, onde as informações sofriam novos tratamentos. Isso provocava uma falha na integridade das informações acarretando, muitas vezes, uma falta de credibilidade dos dados, uma queda da produtividade e a informação sendo publicada com valores diferentes. Além disso, pelo fato de que os Sistemas Transacionais geravam um grande volume de dados e pela diversidade dos sistemas implantados nas empresas as pesquisas (relatórios) realizadas eram produzidas muito lentamente. Nos tempos do Clipper e do Cobol fazer um relatório desse nível significava perder muitas horas sobre o computador, pois se fazia necessário que fossem extraídos os dados de vários sistemas, muitas vezes esses não conversavam entre si. Apesar dessas razões, é importante salientar que é possível a prática de Business Intelligence com os sistemas operacionais da empresa, e com outras fonte de dados, como planilhas eletrônicas e dados em papel, mas esse procedimento implica em grande possibilidade de equívocos, já que esses dados são oriundos de várias fontes independentes, e não possuem entre si relação de integridade. Outro fator importante que prejudicava as decisões foi a falta de registro dos fatos históricos nos Sistemas Transacionais, pois estes trabalhavam com uma situação instantânea dos negócios. Para resolver este problema, começou-se a estudar uma forma de se armazenar a informação contida nos sistemas transacionais numa base de dados central, para que houvesse integração total dos dados da empresa. Além disso, era necessário manter o histórico das informações e fazer com que ela fosse disposta dimensionalmente, ou seja, o analista de negócios poderia visualizar um mesmo fato através de diversas dimensões diferentes. O nome dado a essa modalidade de Sistema de Apoio à Decisão foi o Data Warehouse, ou em português, Armazém de Dados. Com o surgimento do DATA WAREHOUSE são necessários novos métodos de estruturação de dados, tanto para armazenamento quanto para a recuperação de informações. Cabe ressaltar que as perspectivas e técnicas necessárias para 28 projetar o DATA WAREHOUSE são profundamente diferente dos SISTEMAS TRANSACIONAIS. Os usuários, o conteúdo dos dados, a estrutura dos dados, o hardware e o software, a administração, o gerenciamento dos sistemas, o ritmo diário, as solicitações, as respostas e o volume de informações são diferentes. Entender essa tecnologia com certeza ajudará os empresários a descobrir novas tendências e caminhos para competir numa economia globalizada, onde a concorrência é acirrada, trazendo melhores produtos ou serviços para o mercado com maior rapidez sem aumento dos custos. [www.whbrasil.com.br] 4.1 O QUE É DATA WAREHOUSE? O termo Data warehousing designa um ambiente, e não um produto. Constitui uma arquitetura que provê informações de suporte à decisão que são difíceis de serem acessadas no ambiente operacional. A tecnologia data warehousing abrange um conjunto de tecnologias e componentes que se destinam a efetuar a integração dos bancos de dados operacionais em um ambiente que permita o uso estratégico dos dados. Data Warehouse é o ambiente formado por um conjunto de técnicas e bancos de dados integrados, projetados para suportar as funções dos sistemas de apoio à decisão, onde cada unidade de dados está relacionada a um determinado assunto, ou fato. Esse ambiente que proporciona informações aos gerentes e diretores de empresas, com o objetivo de auxiliar decisões, possibilitando, por exemplo, a análise das tendências dos seus clientes com base nos dados históricos aumentando a satisfação e fidelidade dos mesmos. O planejamento do negócio representa e define todos os elementos-chave para o sucesso da organização. Um desses elementos é a definição de estratégias que traçam a abordagem para implementar um DW. Os critérios a seguir devem ser considerados para assegurar que a companhia obtenha uma solução de DW tecnicamente correta: 29 Identificar e analisar atividades essenciais para a missão do negócio; Consultar o planejamento do negócio para a orientação da organização; Criar ferramentas de acesso que conectem o processo aos dados; Construir modelos de dados que suportem o processo. 4.2 POR QUE UTILIZAR DATA WAREHOUSE Como dito anteriormente, no ambiente competitivo atual, entender e gerenciar informações torna-se crucial para que as empresas possam tomar decisões oportunas e responder às mudanças nas condições do negócio. Com a proliferação de tecnologias de processamento de dados para diversos sistemas aplicativos de negócio, dificultou-se a tarefa de localizar e integrar dados para o suporte a decisão, e à medida que o poder para a tomada de decisões é distribuído a todos os níveis da organização, mais pessoas precisam ter acesso a informações necessárias para este fim, tudo isso, objetivando apenas um quesito: a produtividade. A promessa do Data Warehouse ou armazém de dados, se resume nesta palavra: produtividade, ou seja: ganho de tempo e dinheiro com qualquer informação acessível aos executivos no momento e no formato que eles determinarem. Segundo o International Data Corporation (IDC) (http://www.datawarehouse.inf.br), estes armazéns constituem a melhor chance para a tecnologia da informação mostrar ao que veio e derrubar o famoso paradoxo da produtividade. Até hoje todos os investimentos feitos em computadores, softwares e similares não aumentaram a produtividade da economia mundial. As taxas de retorno encontradas pelo IDC ao analisar 62 Data Warehouses são um indício dessa possibilidade, estas taxas, três anos após o investimento, giram em torno de 400% . Só que reconciliar o abalado casamento entre tecnologia e negócios não é uma tarefa fácil. "Não adianta o pessoal de informática criar bases de dados poderosas se os gestores de negócios não souberem usar a informação", diz Timótio Louback, 30 (http://www.datawarehouse.inf.br) diretor de tecnologia da informação da Golden Cross. Esta empresa abordou a seguinte filosofia – conquistar um novo cliente pode custar sete vezes mais que manter um cliente antigo. Com a utilização de um Data Warehouse é possível obter uma melhoria significativa na produtividade dos tomadores de decisões corporativos, trazendo os seguintes benefícios: Melhor rotatividade no estoque de produtos; Melhor custo de lançamento de produtos com aprimoramentos da seleção de mercado alvo; Determinação da eficácia de programas de marketing, permitindo eliminar programas fracos e aprimorar os fortes. 4.3 PRINCÍPIOS DIRECIONADORES DE UM AMBIENTE DATA WAREHOUSE. A forma como um ambiente Data Warehouse é estruturado é determinada por decisões de como armazenar e distribuir os dados, assim como pelos modelos lógicos e físico do Data Warehouse (GOODYER et al, 1999.). Estas decisões devem estar baseadas nos requisitos dos usuários, que irão direcionar o desenho da arquitetura do Data Warehouse: 4.3.1 GRANULARIDADE Determina o grau de sumarização dos dados contidos no Data Warehouse. O nível de sumarização deve ser determinado pelos requisitos de negócios. Em um mesmo ambiente de Data Warehouse, podem existir diferentes níveis de granularidade, pois ao contrário dos dados detalhados, as visões dimensionais e os próprios agregados 31 podem apresentar como dados já sumarizados. Em geral, quanto maior o nível de granularidade, maior será o número de acessos a estes dados, além de serem mais rápidos e mais eficientes. Granularidade nada mais é do que o nível de detalhe ou de resumo dos dados existentes num DW (Data Warehouse). Quanto maior for o nível de detalhes, menor será o nível de granularidade. O nível de granularidade afeta diretamente o volume de dados armazenados no DW, e ao mesmo tempo o tipo de consulta que pode ser respondida. Quando se tem um nível de granularidade muito alto o espaço em disco e o número de índices necessários, tornam-se bem menores, porém há uma correspondente diminuição da possibilidade de utilização dos dados para atender a consultas detalhadas. A Figura acima exemplifica o conceito acima, utilizando os dados históricos das vendas de um produto. O nível de granularidade muito baixo pode ser caracterizado pelo armazenamento de cada uma das vendas ocorridas para este produto, e um nível muito alto de granularidade seria o armazenamento dos somatórios das vendas ocorridas por mês. Com o nível de granularidade muito baixo, é possível responder a praticamente qualquer consulta, mas uma grande quantidade de recursos computacionais é necessária para responder perguntas muito específicas. No entanto, no ambiente de 32 DW, dificilmente um evento isolado é examinado, é mais provável que ocorra a utilização da visão de conjunto dos dados. Os dados levemente resumidos compreendem um nível intermediário na estrutura do DW, são derivados do detalhe de baixo nível encontrado nos dados detalhados atuais. Este nível do DW é quase sempre armazenado em disco. Na passagem para este nível os dados sofrem modificações. Por exemplo, se as informações nos dados detalhados atuais são armazenadas por dia, nos dados levemente resumidos estas informações podem estar armazenadas por semanas. Neste nível o horizonte de tempo de armazenamento normalmente fica em cinco anos e após este tempo os dados sofrem um processo de envelhecimento e podem passar para um meio de armazenamento alternativo. Os dados altamente resumidos são compactos e devem ser de fácil acesso, pois fornecem informações estatísticas valiosas para os Sistemas de Informações Executivas (EIS), enquanto que nos níveis anteriores ficam as informações destinadas aos Sistemas de Apoio a Decisão (SAD), que trabalham com dados mais analíticos procurando analisar as informações de forma mais ampla. O balanceamento do nível de granularidade é um dos aspectos mais críticos no planejamento de um DW, pois na maior parte do tempo há uma grande demanda por eficiência no armazenamento e no acesso aos dados, bem como pela possibilidade de analisar dados em maior nível de detalhes. Quando uma organização possui grandes quantidades de dados no DW, faz sentido pensar em dois ou mais níveis de granularidade, na parte detalhada dos dados. Na realidade, a necessidade de existência de mais de um nível de granularidade é tão grande, que a opção do projeto que consiste em duplos níveis de granularidade deveria ser o padrão para quase todas as empresas. O chamado nível duplo de granularidade, ilustrado na Tabela 3, se enquadra nos requisitos da maioria das empresas. Na primeira camada de dados ficam os dados que fluem do armazenamento operacional e são resumidos na forma de campos apropriados para a utilização de analistas e gerentes. Na segunda camada, ou nível de dados históricos, ficam todos os detalhes vindos do ambiente operacional. Como 33 há uma verdadeira montanha de dados neste nível, faz sentido armazenar os dados em um meio alternativo como fitas magnéticas. Com a criação de dois níveis de granularidade no nível detalhado do DW, é possível atender a todos os tipos de consultas, pois a maior parte do processamento analítico dirige-se aos dados levemente resumidos que são compactos e de fácil acesso. E para ocasiões em que um maior nível de detalhe deve ser investigado existe o nível de dados históricos. O acesso aos dados do nível histórico de granularidade é caro, incômodo e complexo, mas caso haja necessidade de alcançar esse nível de detalhe. [site www.whbrasil.com.br]. 4.3.2 ATUALIZAÇÃO E TEMPO DE RETENÇÃO DOS DADOS Este fator basicamente se relaciona a duas questões: O quão atuais devem estar os dados de acordo com os requisitos de negócio? Quanto tempo os dados devem estar armazenados entes de arquivá-los? Estas questões são extremamente importantes pois impactam diretamente na capacidade dos dispositivos de armazenamento, no tráfego da rede, e além disso, nos processos de extração, transformação e carga dos dados, que tomarão mais tempo à medida que a granularidade for menor, diminuindo assim a janela de disponibilidade do ambiente de Data Warehouse. 4.3.3 DISPONIBILIDADE A disponibilidade do ambiente de Data Warehouse deve ser determinada pelos requisitos dos usuários. Isto pode afetar diretamente na forma como a arquitetura técnica será projetada, tornando os custos mais altos conforme a necessidade de implantar hardaware e software para garantí-la. 34 4.4.4 ESCALABILIDADE Este é um ponto ao qual se deve ter bastante atenção, pois se encontra em crescimento contínuo. Esta preocupação deve direcionar o projeto de implementação da infra-estrutura técnica. 4.5 ARQUITETURA DO AMBIENTE DE DATA WAREHOUSE Vários elementos constituem ou caracterizam a arquitetura de Data Warehouse, que será detalhado a seguir. Segundo Inmon (http://www.dwbrasil.com.br), um DW deve ser orientado por assuntos, integrado, variável no tempo e não volátil. Essas são as principais características de um DW. 4.5.1 ORIENTAÇÃO POR ASSUNTO A orientação por assunto é uma característica marcante de um DW, pois toda modelagem será voltada em torno dos principais assuntos da empresa. Enquanto todos os sistemas transacionais estão voltados para processos e aplicações específicas, os DWs objetivam assuntos. Os assuntos são o conjunto de informações relativas à determinada área estratégica de uma empresa. Numa revenda de carros, quais seriam as áreas e os assuntos? Poderiam ser as áreas de marketing, financeira dentre outras. Dentro dessas áreas poderiam surgir vários assuntos. Por exemplo, vendas e serviços. Os assuntos darão origem às tabelas denominadas tabelas de fatos. 35 4.5.2 INTEGRAÇÃO Esta característica talvez seja a mais importante do DW. É através dela que será padronizada uma representação única para os dados de todos os sistemas que formarão a base de dados do DW. Por isso, grande parte do trabalho na construção de um DW está na análise dos sistemas transacionais e dos dados que eles contêm. Esses dados geralmente encontram-se armazenados em vários padrões de codificação, isso se deve aos inúmeros sistemas existentes nas empresas, e que eles tenham sido codificados por diferentes analistas. Isso quer dizer que os mesmos dados podem estar em formatos diferentes. Por exemplo, em um sistema transacional, um analista convencionou que o sexo seria 1 para masculino e 0 para feminino, já em outro sistema outro analista armazena a mesma informação com M para masculino e F para feminino, e por fim outro programador achou melhor colocar H para masculino e M para feminino. Verifica-se então, que são as mesmas informações, porém em formatos diferentes, e isso num DW jamais poderá acontecer. Portanto, deve existir uma integração de dados, convencionando-se uma maneira uniforme de armazenamento dos mesmos. Se forem poucos sistemas transacionais não causará grandes problemas, mas se existirem vários sistemas a integração do sistema poderá se tornar uma tarefa bem mais trabalhosa. A figura abaixo demonstra este conceito. 36 4.5.3 VARIAÇÃO NO TEMPO Os Data Warehouses são variáveis em relação ao tempo, isso significa que deve – se manter o histórico dos dados durante um período de tempo muito superior ao dos sistemas transacionais. Num DW é normal manter um horizonte de tempo bem superior ao dos sistemas transacionais, enquanto em sistemas OLTP(Processo transacional on line) mantémse um histórico curto dos dados, no DW guarda-se esses dados num período maior. Isso é bastante lógico porque num sistema transacional a finalidade é de fornecer as informações no momento exato, já no Data Warehouse, o principal objetivo é analisar o comportamento das infromações durante um período de tempo maior. Fundamentados nessa variação, os gerentes tomam as decisões em cima de fatos e não de intuições. Seguindo a mesma linha de raciocínio é válido dizer que os dados nos sistemas transacionais estão sendo atualizados constantemente, cuja exatidão é válida somente para o momento de acesso. Os dados existentes num DW são como fotografias que os refletem num determinado momento do tempo. Essas fotografias são chamadas de snapshots. A dimensão tempo sempre estará presente em qualquer fato de um DW. Isso ocorre porque, como dito anteriormente, os dados refletem um determinado momento e obrigatoriamente deverá conter uma chave de tempo para expressar a data em que os dados foram extraídos. Portanto, pode-se dizer que os dados armazenados corretamente no DW não serão mais atualizados, tendo-se assim uma imagem fiel da época em que foram gerados. 37 4.5.4 NÃO VOLATILIDADE No DW existem somente duas operações, a carga inicial e as consultas dos frontends aos dados. Isso pode ser afirmado porque a maneira como os dados são carregados e tratados é completamente diferente dos sistemas transacionais. Enquanto nesses sistemas têm-se vários controles e atualizações de registros, no DW há somente inserções e consultas dos dados. Por exemplo, num sistema de contabilidade pode ser feita alterações nos registros. Já no DW, o que acontece é somente ler os dados na origem e gravá-los no destino, ou seja, no banco multidimensional. Deve-se considerar que os dados sempre passam por filtros antes de serem inseridos no DW. Com isso muitos deles jamais saem do ambiente transacional, e outros são tão resumidos que não se encontram fora do DW. "A maior parte dos dados é física e radicalmente alterada quando passam a fazer parte do DW. Do ponto de vista de integração, não são mais os mesmos dados do ambiente operacional. À luz destes fatores, a redundância de dados entre os dois ambientes raramente ocorre, resultando em menos de 1% de duplicações", essa definição é dada por Inmon (http://www.dwbrasil.com.br), e é muito válida. 4.5.5 DADOS Os dados encontram-se em base de dadoss que constituem uma das maiores preocupações do ambiente de DW. O emprego ou não de qualquer dos base de dadoss depende, exclusivamente, da arquitetura a ser adotada pela empresa. Outras características importantes sobre os dados estão descritas a seguir. 38 4.5.5.1 LOCALIZAÇÃO DOS DADOS Os dados podem estar fisicamente armazenados de três formas: • Único local centralizando Neste caso, o banco de dados em um DW integrado, procura maximizar o poder de processamento e agilizar a busca dos dados. Esse tipo de armazenagem é bastante utilizado, porém há o inconveniente do investimento em hardware para comportar a base de dados muito volumosa, e o poderio de processamento elevado para atender satisfatoriamente as consultas simultâneas de muitos usuários. • Distribuídos São Data Marts, armazenados por áreas de interesse. Por exemplo, os dados da gerência financeira num servidor, dados de marketing noutro e dados da contabilidade num terceiro lugar. Essa pode ser uma saída interessante para quem precisa de bastante desempenho, pois isso não sobrecarrega um único servidor, e as consultas serão sempre atendidas em tempo satisfatório. • Níveis de detalhes As unidades de dados são mantidas no DW de acordo com o nível de detalhe. Podese armazenar dados altamente resumidos num servidor, dados resumidos em outro nível de detalhe no segundo servidor e os dados mais detalhados (atômicos), num terceiro servidor. Os servidores do primeiro nível de detalhe podem ser otimizados para suportar um grande número de acessos e um baixo volume de dados, enquanto alguns servidores nas outros níveis de detalhes podem serem adequados para processar grandes volumes de dados, mas baixo número de acessos. 39 Para mudar de nível é necessário que ocorra um dos seguintes eventos: os dados são sintetizados, arquivados ou eliminados. O processo de sintetização interage no nível mais alto de detalhamento (dados detalhados atuais) para os níveis seguintes (levemente e altamente resumidos). Quando termina determinado período de tempo (semana, mês, trimestre, ano), os dados são indexados por estes períodos e armazenados nos seus respectivos níveis de detalhamento. Para facilitar o acesso aos dados, estes devem estar sintetizados e indexados de várias maneiras. Portanto, ao mesmo tempo que ocorre o agrupamento por datas, também pode ocorrer a sintetização por grupos e subgrupos. Cada nível possui um horizonte de tempo definido para a permanência dos dados. Então o fato de os dados serem transportados para níveis mais elevados não implica na exclusão do nível anterior. Um processo denominado processo de envelhecimento ocorre quando este limite é ultrapassado, e portanto os dados podem ser transferidos para meios de armazenamentos alternativos ou passar de dados detalhados atuais para dados detalhados antigos. 4.5.5.2 CREDIBILIDADE DOS DADOS A credibilidade dos dados é muito importante para o sucesso de qualquer projeto. Discrepâncias simples de todo tipo podem causar sérios problemas quando se deseja extrair dados para suportar decisões estratégicas para o negócio das empresas. Dados vulneráveis podem resultar em relatórios inúteis, como uma lista de pacientes do sexo masculino e grávidos, por exemplo. A existência de dados de má qualidade disponibilizados em um DW resultará em um suporte à decisão de baixo nível com altos riscos para o negócio. Detalhes aparentemente simples, como um CEP errado, podem não ter nenhum impacto. 40 Um conjunto de características normalmente utilizadas para verificar a qualidade dos dados, e indica algumas das maneiras de medir o nível de qualidade dos mesmos do DW. Veja a figura abaixo. 4.5.5.3 SUMARIZAÇÃO Sumarização é o nível de detalhe ou de resumo dos dados existentes em um DW. Quanto maior for o nível de detalhes, menor será o nível de sumarização. Este nível afeta diretamente o volume de dados armazenados no DW, e ao mesmo tempo o tipo de consulta solicitada. Quando se tem um nível de sumarização muito alto o espaço em disco e o número de índices necessários tornam-se bem menores, porém há uma correspondente diminuição da possibilidade de utilização dos dados para atender a consultas detalhadas. O conceito utilizando os dados históricos das vendas de um produto. O nível de Sumarização muito baixo pode ser caracterizado pelo armazenamento de cada uma das vendas ocorridas para este produto, e um nível muito alto seria o armazenamento dos somatórios das vendas ocorridas por mês. Com o nível de sumarização muito baixo, é possível responder a praticamente qualquer consulta, mas uma grande quantidade de recursos computacionais é necessária para responder perguntas muito específicas. No entanto, no ambiente de 41 DW, dificilmente um evento isolado é examinado, é mais provável que ocorra a utilização da visão de conjunto dos dados. O exemplo a seguir demonstra claramente a importância da sumarização em um ambiente de DW: Um usuário poderia perguntar: “Mostre-me o total de vendas neste mês”. Isso seria interpretado pelo banco de dados como, “some todas as vendas em cada dia deste mês”. Se há uma média de 2000 transações de vendas por dia em cada uma das 200 lojas e os dados estiverem armazenados em um nível transacional (banco de dados convencional), essa consulta teria de processar 40.000.000 de linhas para responder. Uma consulta de sumarização intensiva como essa consumiria recursos consideráveis de hardware, neste caso a pré-sumarização é bastante útil. Ela permite usar os resultados intermediários reduzindo significativamente os recursos necessários para obter o resultado final. Avaliando o valor dos agregados, considere uma solicitação das vendas de julho. Se já existir uma tabela de agregados para registrar vendas mensais por loja, a consulta terá que processar apenas 2000 linhas (total de juros para cada loja). Comparada as 40.000.000 de linhas que esta mesma consulta teria de processar, a economia de recursos é imensa. 4.5.5.4 NÍVEIS DE SUMARIZAÇÃO O DW possui estruturas distintas e diferentes níveis de sumarização que o descreve de acordo com o tipo dos dados: 1. Dados atuais: são sem dúvida os que mais exigem atenção, pois refletem os acontecimentos mais recentes, são volumosos e são armazenados em disco (Gerenciamento complexo e caro). 2. Dados antigos: são acessados com menor freqüência e armazenados com nível de detalhe consistente com o detalhe dos dados atuais. 42 3. Dados ligeiramente resumidos: são encontrados no nível atual de detalhe e compreendem um nível intermediário na estrutura do DW, são derivados do detalhe de baixo nível encontrado nos dados detalhados atuais. Este nível no DW é quase sempre armazenado em disco. Na passagem para este nível os dados sofrem modificações, por exemplo: se as informações nos dados detalhados atuais são armazenadas por dia, nos dados levemente resumidos estas informações podem estar armazenadas por semanas. Neste nível o horizonte de tempo de armazenamento normalmente gira em torno de cinco anos e após este tempo os dados sofrem um processo de envelhecimento e podem passar para um meio de armazenamento alternativo. 4. Dados altamente resumidos: são compactos e devem ser de fácil acesso, pois fornecem informações estatísticas valiosas para os sistemas de informações executivas (EIS), enquanto que nos níveis anteriores ficam as informações destinadas aos sistemas de apoio a decisão (SAD), que trabalham com dados mais analíticos procurando analisar as informações de forma mais ampla. 5. Balanceamento do nível de sumarização: é um dos aspectos mais críticos no planejamento de um DW, pois na maior parte do tempo há uma grande demanda por eficiência no armazenamento e no acesso aos dados, bem como pela possibilidade de analisar dados em maior nível de detalhes. Quando uma organização possui grandes quantidades de dados no DW, faz sentido pensar em dois ou mais níveis de sumarização na parte detalhada dos dados. Na realidade, a necessidade de existência de mais de um nível de sumarização é tão grande, que a opção do projeto que consiste em duplos níveis de sumarização deveria ser o padrão para quase todas as empresas. 6. Nível duplo de sumarização: este nível se enquadra nos requisitos da maioria das empresas. Na primeira camada de dados ficam os que fluem do armazenamento operacional e são resumidos na forma de campos apropriados para a utilização de analistas e gerentes. Na segunda camada, ou nível de dados históricos, ficam todos os detalhes vindos do ambiente operacional. Como há uma verdadeira montanha de dados neste nível, faz sentido armazenar os dados em um meio alternativo como fitas magnéticas. Com a criação de dois níveis de sumarização no nível detalhado do DW, é possível atender a todos os tipos de consultas, pois a maior parte do 43 processamento analítico dirige-se aos dados levemente resumidos que são compactos e de fácil acesso. E para ocasiões em que um maior nível de detalhe deve ser investigado existe o nível de dados históricos. O acesso aos dados do nível histórico de sumarização é caro, incômodo e complexo, mas caso haja necessidade de alcançar esse nível de detalhe, lá estará ele. A figura abaixo ilustra a estrutura dos níveis de sumarização em um DW. 4.5.5.5 Considerações sobre volume de dados Volume de dados é o primeiro aspecto que vem à mente durante a avaliação dos custos e benefícios do DW. Na realidade, a flexibilidade de uso e a adaptabilidade a mudanças são questões mais críticas. Mas, quando um volume de dados passa de pequeno para modesto, de modesto para grande, e, posteriormente para excessivo em um ambiente de DW? Fatores como: sumarização, volume bruto e volatilidade dos dados, requisitos de acesso, complexidade de relacionamento entre os dados, 44 requisitos de disponibilidade e outros fatores afetam diretamente a grandeza de um banco de dados em um ambiente de DW. A Figura acima demonstra a complicada relação entre as grandezas quando se refere ao ambiente de DW. 4.5.6 POLÍTICA, TRANSFORMAÇÕES, ARMAZENAMENTOS E ANÁLISE Em um DW existem vários componentes que regem sua estrutura, como se fossem conceitos básicos que devem ser esclarecidos em um projeto desse perfil, tais como: 1. Política: determina quais informações serão incluídas e a sua freqüência de atualizações; 2. Transformações: os dados devem ser filtrados antes de armazenados; 3. Armazenamentos: os dados devem ser armazenados para maximizar a flexibilidade e administração do sistema; 4. Análise: examina a necessidade de corporação quanto ao modelo analítico; 5. Acesso: habilidade de manipular dados em um DW. 45 4.5.7 METADADOS Este é o componente mais importante do ambiente de DW, por se tratar dos dados de controle do projeto. Não tendo uma definição muito clara para a maioria das pessoas esse conceito é confuso. O interessante é que os metadados são dados que fazem referência a outros dados. Todas as fases de um projeto de Data Warehouse, desde a modelagem até a visualização da informação, geram metadados. Neles estarão contidas informações como: atributos das tabelas agregadas utilizadas, cálculos necessários, descrições, periodicidade das cargas, histórico de mudanças, dentre outras, mantendo informações sobre "o que e onde está" no DW. Tipicamente os metadados mantêm informações sobre os seguintes aspectos: 1. A estrutura dos dados, segundo a visão do programador; 2. A estrutura dos dados, segundo a visão dos analistas de SAD; 3. A fonte de dados que alimenta o DW; 4. A transformação sofrida pelos dados no momento de sua migração para o DW; 5. O modelo de dados; 6. O relacionamento entre o modelo de dados e o DW; 7. O histórico das extrações de dados. 4.6 TIPOS DE MODELAGENS EM DW 46 Uma das características marcantes que diferencia a modelagem convencional da modelagem multidimensional utilizada na arquitetura Data Warehouse, é a quebra do paradigma das formas de normalização das tabelas, podendo não existir nesta última, aplicação deste conceito. Basicamente existem dois tipos de modelagem de banco de dados para Data Warehouse: Floco de Neve (Snowflake) e Estrela (Star), explicadas com maiores detalhes a seguir. 4.6.1 MODELAGEM FLOCO DE NEVE - SNOWFLAKE Quando o espaço em disco é uma das limitações do ambiente de Data Warehouse, usa-se este tipo de modelagem, pois é normalizado e não permite redundância dos dados, ocupando assim um espaço menor em disco. Sendo normalizado o número de registros obtidos nas respostas das consultas executadas são menores em comparação com a modelagem Star. Uma das desvantagens desta modelagem é a drástica perda de desempenho, devido à complexidade das consultas executadas. 4.6.2 MODELAGEM ESTRELA - STAR Esta modelagem não é normalizada, portanto, possui características contrárias à anterior. Será feito a seguir uma tabela comparativa dos dois tipos de modelagem. 47 Características Modelagem Star Modelagem Snowflake Tempo de Leitura Rápido Lento Número de Registros Maior quantidade. Menor quantidade. Número de Tabelas Menor Maior Tempo de Consulta Rápido Lento 4.7 TIPOS DE TABELAS UTILIZADAS NA ARQUITETURA DW Dois tipos de tabelas são utilizadas para a implementação da arquitetura DW. A tabela de fatos conhecida como fact table, e a tabela informacional, conhecida como information table. 4.7.1 TABELA DE FATOS - FACT TABLE As tabelas de fatos não mudam de acordo com o tempo e são tabelas de grande porte, podendo incluir milhões de registros. As informações destas tabelas correspondem às medidas referentes às vendas, total de número de venda, dentre outros.Tabelas de fatos usualmente são tabelas normalizadas. 4.7.2 TABELAS INFORMACIONAIS - INFORMATION TABLE 48 As Tabelas Informacionais são pequenas e contém dados que variam em relação ao tempo. Por exemplo, uma tabela informacional é alterada quando o cliente muda de endereço. O tamanho da tabela informacional de clientes pode ser muito pequena se comparado com o conteúdo da tabela de fatos de vendas que contém todas as vendas de 1999 por exemplo. As tabelas informacionais são as menores tabelas do Data Warehouse. Quatro tipos de dimensões podem ser representadas pelas tabelas informacionais: estrutural, informacional, particionada e categórica. Será feita uma descrição sucinta de cada tipo de dimensão: Dimensão estrutural: apresenta de maneira hierárquica uma informação. As mais comuns são: geográfica (cidade, estado, país), tempo (ano, mês, dia), elemento (nome, tipo, categoria, departamento); Dimensão Informacional: Esta dimensão é dada através de campos calculados. Por exemplo, Quantidade de vendas por produto e região. Dimensão Partição: a dimensão de partição é usada quando duas ou mais dimensões são construídas com a mesma estrutura. Por exemplo, você cria dimensões para vendas futuras e vendas atuais. A estrutura das duas é a mesma, somente os valores são diferentes. Dimensão Categórica: é construída para agrupar valores de seu interesse. Por exemplo, para construir uma dimensão categórica atendendo as necessidades do negócio, querendo obter informações sobre a renda familiar de seus clientes. Esta informação poderia ser agrupada da seguinte maneira: de 0 a 5 salários, de 5 a 10 salários, de 10 a 15 salários, de 15 a 20 salários e assim sucessivamente. E assim extraindo informações destes dados para saber em qual categoria de família estão o maior índice dos clientes. 49 4.8 DATA MART Representa um subconjunto de dados do DW, permite acesso descentralizado e atualmente serve de fonte para os dados que comporão bancos de dados individuais, direcionados a um departamento ou a uma área específica do negócio, normalmente são modelados em um esquema estrela, de acordo com as necessidades específicas do usuário final. Uma das principais vantagens de seu emprego é a possibilidade de retorno rápido, garantindo um maior envolvimento do usuário final, capaz de avaliar os benefícios extraídos de seu investimento. 50 5. DATA MART A tecnologia usada tanto no DW como no Data Mart é a mesma, as variações que ocorrem são mínimas, em volume de dados e na complexidade de carga. A principal diferença é a de que os Data Marts são voltados somente para uma determinada área, já o DW é voltado para os assuntos da empresa toda. Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor solução. O maior atrativo para implementar um Data Mart é o seu custo e prazo. Segundo estimativas, enquanto um Data Mart custa em torno de US$ 100 mil a US$ 1 milhão e leva cerca de 120 dias para estar pronto, um DW integral começa em torno dos US$ 2 milhões e leva cerca de um ano para estar consolidado. www_datawarehouse_inf_br- DATAMART.htm A criação de um Data Warehouse requer tempo, dinheiro e considerável esforço gerencial. Muitas companhias ingressam num projeto de Data Warehouse focando necessidades especiais de pequenos grupos dentro da organização. Estes pequenos armazenamentos de dados são chamados de Data Mart. Um Data Mart é um pequeno Data Warehouse que fornece suporte à decisão de um pequeno grupo de pessoas. Algumas organizações são atraídas aos Data Marts não apenas por causa do custo mais baixo e um tempo menor de implementação, mas também por causa dos correntes avanços tecnológicos. São elas que fornecem um SAD customizado para grupos pequenos de tal modo que um sistema centralizado pode não estar apto a fornecer. Data Marts podem servir como veículo de teste para companhias que desejam explorar os benefícios do Data Warehouse. Há um consenso entre os fornecedores de soluções de Data Warehouse. A idéia é começar pequeno, mas pensando grande. E é o que está acontecendo. Na maioria dos casos, as empresas que optam pelo Data Warehouse iniciam o processo a partir de uma área específica da empresa para depois ir crescendo aos poucos. Mesmo nos casos de “Full Warehouse” ou Data Warehouse completos - como o da 51 Previdência Social da Holanda e Noruega - o processo costuma ser organizado a partir dos Data Marts. A variação de custo e duração de um projeto de Data Warehouse depende do tamanho e da infra-estrutura da base de dados a ser trabalhada e também da necessidade de “poder de fogo” (do quão estratégico e eficiente tem que ser o sistema para o cliente). Acima de tudo, a empresa tem que saber identificar quais são os tipos de informações mais valiosos. O Data Warehouse pode ser uma decisão estratégica, mas não pode ser encarado com imediatismo, ou seja, não é apenas algo que se realiza aos poucos, mas também é um processo contínuo de atualização e consolidação dos dados corporativos. Por isso, os investimentos em um sistema desse tipo não devem nem podem ser feitos de uma única vez, mas de forma gradual ao longo do tempo. 52 6 - DATA WAREHOUSE X DATA MART É preciso ter em mente que as diferenças entre Data Mart e Data Warehouse são apenas com relação ao tamanho e ao escopo do problema a ser resolvido. Portanto, as definições dos problemas e os requisitos de dados são essencialmente os mesmos para ambos. Enquanto um Data Mart trata de problema departamental ou local, um Data Warehouse envolve o esforço de toda a companhia para que o suporte à decisões atue em todos os níveis da organização. Sabendo-se as diferenças entre escopo e tamanho, o desenvolvimento de um Data Warehouse requer tempo, dados e investimentos gerenciais muito maiores que um Data Mart. Por muitos anos, todos os sistemas que extraíam dados de sistemas legados e os armazenavam de maneira utilizável para suporte à decisão eram chamados Data Warehouses. Ao longo dos últimos anos, uma distinção tem sido feita entre os corporativos Data Warehouses e os departamentais Data Marts, mesmo que geralmente o conceito ainda continue sendo chamado de data warehousing. Debates na indústria em geral indicam que aproximadamente 70 a 80 por cento de todos os Data Warehouses atualmente em produção são, de fato, Data Marts. Na Conferência do Meta Group/DCI 1997 Data Warehouse World Conference, de fevereiro de 1997 observou-se que “o foco dos departamentos de informática tem se transferido da justificação do custo de implementação de Data Warehouses para a entrega de aplicações de Data Marts.” Os Data Marts atendem as necessidades de unidades específicas de negócio ao invés das da corporação inteira. Eles otimizam a entrega de informação de suporte à decisão e se focam na gerência sumarizada e/ou dados exemplificativos ao invés do histórico de níveis atomizados. Eles podem ser apropriados e gerenciados por pessoal fora do departamento de informática das corporações. 53 A crescente popularidade desses mal definidos Data Marts em cima da popularidade dos grandes sistemas de Data Warehouses corporativos é baseada em muitos bons motivos: • Os Data Marts têm diminuído drasticamente o custo de implementação e manutenção de sistemas de apoio à decisão e têm os posto ao alcance de um número muito maior de corporações; • Eles podem ser prototipados muito mais rápido, com alguns pilotos sendo construídos entre 30 e 120 dias e sistemas completos sendo construídos entre 3 e seis meses; • Os Data Marts têm o escopo mais limitado e são mais identificados com grupos de necessidades dos usuários, o que se traduz em esforço/time concentrado. • Os departamentos autônomos e as pequenas unidades de negócio freqüentemente preferem construir o seu próprio sistema de apoio à decisão via Data Marts. Muitos departamentos de informática estão vendo a efetividade deste approach e estão agora construindo o Data Warehouse por assunto ou um Data Mart por vez, gradualmente ganhando experiência e garantindo o suporte dos fatores chave de gerenciamento e vendo, então, benefícios concretos muitas vezes ao ano. Começando com planos modestos e os desenvolvendo na medida que se adquire mais conhecimento sobre as fontes de dados e as necessidades dos usuários faz com que as organizações justifiquem os Data Marts na medida em que progridem. Algumas vezes, projetos que começam como Data Warehouses se transformam em Data Marts. Quando as organizações acumulam grandes volumes de dados históricos para suporte à decisão que se mostram pouco ou nunca utilizados, elas podem reduzir o armazenamento ou arquivamento de informação e contrair o seu Data Warehouse em um Data Mart mais focado. Ou elas podem dividir o warehouse em vários Data Marts, oferecendo tempos de resposta mais rápido, acesso mais fácil e menos complexidade para os usuários finais. 54 [ www.datawarehouse.inf.br ] 7. Data Warehouse x Data Mart: Como eles podem ajudá-lo Quantos de nós têm uma compreensão clara da diferença entre um Data Warehouse e um Data Mart ? Parece que poucos sabem isso com clareza. Sem esta compreensão, dificilmente conseguiremos utilizar a arquitetura certa para o trabalho certo. Data Warehouse são como grandes containers de dados por assunto, detalhados, não voláteis, históricos, integrados e estão focados sobre o propósito de um departamento ou da empresa toda. Além disso, são vistos como a fonte de dados para geração dos sistemas de apoio a decisão. Um Data Warehouse é a de uma caixa grande de Lego, aquele brinquedo plástico para crianças que constrói carros, prédios, cidades e até um pequeno mundo. Pode construir qualquer coisa com esses blocos, seja com formas genéricas, unificadas, como um robô, uma casa ou um avião. Você só está limitado por sua imaginação e o número de blocos. Data Warehouses trabalham do mesmo modo. Você pode construir qualquer visão de dados que queira dos pedaços genéricos de um Data Warehouse, e estará limitado somente pela sua tecnologia e os dados que puderem ser adquiridos de seus sistemas operacionais. Mas o que é Data Mart ? Data Mart está baseado em um jogo de exigências de usuário. Usando a analogia do Lego, poderíamos construir coisas baseadas nas exigências conhecidas. A casa, o robô e o avião, todo tiveram estipulações arquitetônicas que foram seguidas para construí-los. O mesmo pode ser dito para o Data Mart. Ele pode resolver um problema empresarial particular. Por exemplo, se a corporação não puder determinar a rentabilidade de seus produtos, pode ser construído um Data Mart para analisar produto e rendas (mercado de rentabilidade dos produtos). Talvez nós o construímos para analisar os canais de vendas, ou para determinar a efetividade de nossas campanhas de vendas, ou ainda outro para 55 estudar as regiões onde estão concentrados nossos melhores clientes. Cada Data Mart reflete uma visão empresarial distinta requerendo cruzamentos de dados e tendo questões para serem respondidas. "Foco" talvez seja a característica mais importante de um Data Mart. Tamanho não determina um Data Mart, eles existem em todos os tamanhos desde alguns megabytes de dados até terabytes. Por exemplo, seu primeiro Data Mart pode conter os dados e respostas somente para algumas questões simples então, pode ser um banco de dados relativamente pequeno. Por outro lado, temos clientes corporativos que contém vários gigabytes em tamanho entretanto, em todos os casos os Data Marts são ainda um subconjunto dos dados contidos no Data Warehouse e assim é geralmente menor em tamanho que o mesmo. Um Data Mart pode ser disposto com o Data Warehouse. Muitas pessoas pensam que um Data Mart deve ser separado fisicamente do Data Warehouse o que não é verdadeiro. Você pode construir Stars Schemas dentro do ambiente de Data Warehouse para um propósito empresarial particular. A funcionalidade implementada nesses schemas é a determinação fundamental de se é um Data Mart ou não. Nenhuma única tecnologia ou técnica é indicativa de um Data Mart. Eles entram em todos os tipos de sabores tecnológicos. Cinco anos atrás, nós tínhamos como limitação tecnológica construir Data Marts com bancos de dados relacionais. Hoje, nós temos uma imensidão de tecnologias que apóiam diferentes tipos de bancos relacionais e bancos de dados multidimensionais. Cada uma destas tecnologias é perfeitamente satisfatória para construção de qualquer Data Mart. [ www.datawarehouse.inf.br] 56 CONCLUSÕES O bem mais precioso que uma empresa possui, independente de seu porte, é o seu banco de dados, lá está toda sua história, um passado capaz de trazer mudanças e benefícios incalculáveis no futuro, o meio mais eficiente para este fim, sem dúvida alguma é o Data Warehouse ou Data Mart, infelizmente, disponível para poucos. A partir dos Data Warehouse e Data Mart, que são basicamente sistemas de apoio a decisão (SAD), são ferramentas de BI, fundamentais no fornecimento de informações táticas e estratégicas aos gerentes, chefes e administradores em geral. Tomando como base todo o material coletado, fica claro, através do presente trabalho, que Data Warehouse e Data Mart são realmente tecnologias fundamentais que terão que serem adotadas por toda a empresa ou corporação que realmente deseja sobreviver no mercado altamente competitivo e globalizadas. Isso estimula a comunidade científica a continuar suas pesquisas com vista a melhora de tecnologias e novas descobertas. 57 REFERÊNCIAS Adriaans , 1996 ADRIAANS, PIETER AND DOLF ZANTINGE – “Data Mining”, Addison-Wesley Longman 1996. American , 1999 AMERICAN SOFTWARE – “Easy-to-use Inventory Performace Data Mart delivers quick insight regarding a company’s inventory investment”, www.intemprise.com , Março/ 1999 Brio, 1999 BRIO TECHNOLOGY – “Brio Technology Announces New Brio ONE Business Plataform”, www.brio.com, Agosto/1999 Coleman, 1996 COLEMAN, ARNOLD, BODOFF, DOLLIN, GILCHRIST, HAYES e JEREMAES – “Desenvolvimento Orientado a Objetos – Método Fusion” Editora Campus Coulson-Thomas, 1994 COLIN COULSON-THOMAS – “Reengenharia dos Processos Empresariais – Mito & Realidade” Editora Record. Fayyad, Shapiro e Smyth, 1996 USAMA FAYYAD, GREGORY PIATETSKYSHAPIRO, AND PADHRAIC SMYTH – “From Data Mining to knowledge Discovery in Databases”. AI Magazine, 1996. Greengard, 1999 SAMUEL GREENGARD – “How to Profit From Business Intellingence”, www.beyondcomputingmag.com, Jan/Feb 1999 http://www.brasoftware.com.br visitado em 15 de novembro de 2003. http://www.datawarehouse.inf.br visitado em 18 de setembro de 2003. http://www.dwbrasil.com.br visitado em 18 de maio de 2003. 58 http://www.ibm.com.br visitado em 15 de novembro de 2003. Informática Hoje, 1999 INFORMÁTICA HOJE – “Business Intelligence: O Poder da Informação”, Agosto/1999. Inmon, W.H.,Welch J.D.,Glassey, Katherine L.Gerenciando Data Warehouse, 1º ed. Makron Books,1999. Ivã Cielo encontra-se no site www.datawarehouse.inf.br consulta efetuada em janeiro de 2004. Machado, Felipe N.R. Projeto de Data Warehouse uma Visão Multidimensional,1ºed. Érica, 2000. Microsiga, 1999 MICROSIGA MAGAZINE – “Business Intelligence”, Julho/1999. Microsof, 1997 MICROSOFT – “Manual de SQL”- Edição 1997 Neo Vista, 1999 NEO VISTA SOFTWARE, www.neovista.com, consulta efetuada em Setembro/1999 Network Computing, 1999 NETWORK COMPUTING – “Rumo à conquista do cliente”, Novembro/1999. Simoudis, 1998 EVANGELOS SIMOUDIS – “Better Understanding Of Costumer Data Through Business Intelligence”, www.customeranalytics.com, Nov/1998 Singh, S. Harry Data Warehouse Conceitos, Tecnologias, Implementação e Gerenciamento, Makron Books Sturm, Jake Data Warehouse With Microsoft SQL 7.0: Reference Technical, Microsoft Press, 1999