Unidade IV – Ferramentas de Sistemas de apoio à decisão Data Warehousing é um conjunto de tecnologias que permitem converter uma grande quantidade de dados em informação utilizável. Transforma um banco de dados operacional num ambiente que permite o uso estratégico dos dados. É um ambiente e não um produto. Uma característica importante do data warehouse é que ele é um banco de dados desenhado para tarefas analíticas usando dados de diferentes aplicações. Motivos que tornam útil a aplicação da tecnologia na empresa: - Ao invés de dados acumulados os usuários querem informações; - Decisões precisam ser tomadas rapidamente e de maneira correta, usando todos os dados disponíveis; - Usuários dominam negócios e não computadores; - A quantidade de dados dobra a cada 18 meses; - A competição está aquecendo áreas de inteligência de negócio e dando cada vez mais valor à informação; - A adoção da tecnologia do Data Warehouse melhora a produtividade da empresa e a qualidade de seus serviços; - Eficiência não é mais a chave para o sucesso: a flexibilidade tomou esse lugar. Um fator crítico para o sucesso é ter a habilidade para usar as informações de forma eficaz. O uso estratégico de dados podem resultar em descobertas não detectadas anteriormente. Com o conhecimento dessas informações, uma empresa pode formular estratégias de mercado, negócios e vendas mais eficientes. Os data warehouses são usados em três meios distintos: - Gerando relatórios e gráficos, trazendo informações necessárias para sua criação em uma única fonte de dados. Isso elimina o maior problema de atrasos e erros: a fragmentação de dados em diversas transações de banco de dados. - O data warehouse é utilizado para o OLAP. O OLAP compara dados e tem a capacidade de responder a perguntas como: "E se?" e "Porque?". Verifica hipóteses. - E como terceira maior utilização do data warehouse, temos o data mining. Sendo uma tecnologia relativamente nova, o data mining "garimpa" as informações, revelando padrões e relações escondidas. Gera hipóteses. Data mining não é adequado para qualquer empresa: seu uso requer tecnologias de inteligência e a vontade de explorar as possibilidades antes escondidas. Arquitetura Data Warehouse A arquitetura do data warehouse é baseada num sistema de banco de dados relacional. Quando um dado entra em um data warehouse ele é transformado em uma estrutura integrada. O processo pode envolver filtragem e compactação de dados. O data warehouse guarda informações de cinco ou mais anos; portanto é um grande banco de dados. É, mais ou menos, quatro vezes maior que o banco de dados relacional, porque além dos dados gerais guarda várias camadas de dados sobre dados e ainda vários níveis de consolidações. Processos envolvidos na criação de um sistema de data warehouse: - Remover dados que não fazem parte do cenário do banco de dados operacional; - Converter nome de campos e definições para padrões comuns; - Calcular dados derivados e resumos; - Estabelecer padrões para dados faltantes/incorretos; Dificuldades encontradas nesse processo: - Muitas vezes os bancos de dados não são homogêneos; - Padrões de dados distintos (sistema métrico X Inglês). Metadados: Os metadados são dados sobre dados (informações sobre certos dados do sistema) que descrevem o data warehouse. Os metadados técnicos incluem: - Informações sobre fonte de dados; - Descrição de transformações, autorizações de acesso, aquisição de dados, etc. ... Os metadados de negócio incluem: - Áreas de assunto, Internet home pages, relatórios, ... Quais são as utilizações dos metadados? - Fornecer acesso ao usuário para entender o conteúdo e encontrar dados; - Deve ser a porta de entrada do ambiente de data warehouse; - Deve ser de fácil distribuição. Ferramentas de acesso: As ferramentas de acesso são importantes, pois a principal razão do data warehouse é prover informações para os usuários a fim de os mesmos possam tomar decisões estratégicas. Conhecendo informações, podemos formular efetivas estratégias de marketing, negócios e vendas. Datamart: É um subset do Data Warehouse (vários datamarts podem formar um data warehouse). Construído com um escopo menor de informações, segmentado para uma determinada área ou assunto. Por ser menor, possibilita a Análise Multidimensional, com os cruzamentos e visões previamente calculados, visando aumentar a velocidade na consulta das informações. O datamart muitas vezes é visto como uma alternativa ao data warehouse, pois custa menos e leva menos tempo para ser projetado e implementado. É criado para um grupo dirigido de usuários, normalmente um setor de uma empresa. Problemas do datamart: - Escalabilidade em situações onde os datamarts crescem rapidamente em múltiplas dimensões; Construindo um Data Warehouse Pontos a serem considerados: a) Design: Para ser bem sucedido, o designer do data warehouse precisa considerar todos os componentes do data warehouse como parte de um sistema complexo. Também não se deve esquecer de todas as possibilidades de fontes de dados e todos seus requerimentos de uso. Em geral, o ponto mais importante no desenho de um data warehouse é consolidar dados, muitas vezes heterogêneos numa base de dados única. Esta é a razão pela qual o desenho do data warehouse é difícil. O data warehouse é um negócio dirigido que requer constantes interações com os usuários finais e nunca está terminado. O conteúdo dos dados de um data warehouse não deve ser tão detalhado quanto o banco de dados operacional Metadados: Definem os conteúdos e localizações dos dados; relações entre o banco de dados operacional e o data warehouse e as visões de negócio para que o data warehouse seja acessível pelas ferramentas de usuário final. Distribuição de dados: O volume de dados tende a continuar crescendo. Por isso é necessário saber como os dados serão divididos entre os servidores e como os usuários deverão acessar cada tipo de dado. A distribuição dos dados podem ser feitas, por exemplo, por área (Recursos humanos, Marketing), localização geográfica ou tempo (mês, ano). Ferramentas: As ferramentas disponíveis hoje ajudam a fazer a transformação, a limpeza, a movimentação dos dados, dúvidas de usuário final, relatórios e análise de dados. Também pode ser utilizada uma ferramenta CASE Método a ser seguido para um desenho de data warehouse: 1. - Escolher o assunto do problema; 2. - Decidir o que uma tabela de fatos representa; 3. - Identificar e adaptar as dimensões (se elas forem incompletas, tornam inútil o data warehouse); 4. - Escolher os fatos; 5. - Armazenar pré-cálculos na tabela de fatos; 6. - Arredondar a dimensão das tabelas; 7. - Escolher o período de duração do banco de dados; 8. - Decidir prioridades e modos de consulta. Além disso, se preparar para o design com entrevistas é um ponto crucial. Os usuários não têm opinião sobre o desenho do data warehouse, eles tem opinião sobre o que é importante na sua vida de negócios. b) Considerações técnicas Questões iniciais que poderiam ser levantadas: - Qual a plataforma de hardware que poderia suportar o data warehouse? - Qual o sistema de gerenciamento de banco de dados que suporta o banco de dados do data warehouse? - Qual as necessidades de infra-estrutura de comunicações que conecta os datamarts, sistemas operacionais, warehouse e usuários finais? - Que plataforma de hardware e o software que suporte o repositório dos metadados? - Qual o sistema de gerenciamento de framework que habilita o gerenciamento centralizado e administração do ambiente? Plataforma de hardware Freqüentemente, a escolha a ser tomada é entre um UNIX ou Windows NT e um Mainframe. Nós temos que levar em consideração qual plataforma será melhor para a construção do data warehouse e seu crescimento. Um mainframe não é tão aberto e flexível quanto um sistema cliente/servidor. Um moderno servidor (não mainframe) pode suportar um grande volume de dados e um grande número de interfaces gráficas diferentes para os usuários finais. Estes sistemas, entretanto, são mais difíceis de gerenciar e de integrar num sistema existente, além de muitas vezes requererem habilidades e uma nova estrutura organizacional. Abordagem balanceada Um importante ponto é o correto balanço entre os componentes de computação (por exemplo, entre o número de processadores e a largura de banda de I/O). O problema maior num data warehouse é o tamanho e o número de discos. O espaço em disco deve ser de 2,5 a 3x maior que a quantidade de dados que possui hoje. Para balancear o sistema, é importante colocar o correto número de processadores para gerenciar todas as operações de I/O do disco. A arquitetura de hardware deve ser otimizada para escalabilidade de pesquisa paralela. Infra-Estrutura de Comunicações Um usuário típico de data warehouse exige uma largura de banda relativamente alta para interagir com um data warehouse e receber uma quantidade de informações grande. As vezes, as redes de comunicação precisam ser ampliadas. c) Considerações de implantação Um data warehouse não pode ser simplesmente comprado e instalado. Alguns passos lógicos para a implantação de um data warehouse: - coletar e analisar requerimentos do negócio; - criar um módulo de dados e um plano físico para o desenho do data warehouse; - definir a origem dos dados; - escolher a tecnologia do banco de dados e a plataforma a ser utilizada para o data warehouse; - extrair dados do banco de dados operacional, transformá-los, limpá-los e carregálos para o banco de dados (A extração de dados merece uma atenção especial pois é dela que depende o sucesso do sistema); - escolher o acesso ao banco de dados e ferramentas de acesso (Uma única ferramenta no mercado não pode trabalhar com todas as possibilidades que um acesso a data warehouse precisa. Precisamos utilizar uma ferramenta de consulta); - escolher o soft de conectividade de banco de dados; - escolher o tipo de análise de dados e o software de apresentação; - como será feita a atualização do data warehouse. Estratégia de colocação de dados Quando um data warehouse cresce, existem algumas alternativas para a armazenagem de dados: Worm, RAID, ou disco óptico. A armazenagem de dados pode tanto ser feita pelo servidor data warehouse ou por outro servidor. Uma outra estratégia é a de divisão do data warehouse em múltiplos servidores. Alguns critérios devem ser adotados para a divisão do data warehouse em múltiplos servidores: por região geográfica, unidade, tempo, função. Outra precaução a ser tomada é a de divisão de acordo com o uso (para não subutilizar e/ou sobrecarregar). Replicação de dados Quando uma grande parte dos usuários necessita uma pequena parte do banco de dados corporativo, a replicação de dados ou movê-los para um banco de dados localizado pode ser uma solução mais útil que um data warehouse. Em muitas empresas uma pequena parte dos dados que a empresa coleta são importantes. Top of Form 1 Ferramentas de Extração de dados, Limpeza e Transformação O erro mais comum, quando uma corporação decide construir um data warehouse é começar o trabalho pela escolha das ferramentas de acesso, conhecidas também por componente front end. A ferramenta de extração dos dados é uma parte muito importante do projeto do data warehouse, mas apenas uma pequena parcela de um conjunto bastante complexo de soluções de hardware e software. Depois de definido e projetado o escopo do projeto e depois de construído o repositório de dados, é que deve-se chegar às ferramentas de front-end responsáveis pelo meio de campo entre as bases de dados e os usuários finais da área executiva. Elas não podem ser muito complexas porque não serão utilizadas por profissionais da área técnica, mas precisam ser robustas o suficiente para dar agilidade no acesso às informações estratégicas. Existem várias maneiras de recuperar informações de um data warehouse; as formas de extração mais comuns no mercado hoje são os relatórios, as consultas, os EIS, ferramentas que utilizam características OLAP e as ferramentas de Data Mining. A nova tendência dessas soluções é a integração com o ambiente Web, permitindo maior agilidade em consultas estáticas e dinâmicas As ferramentas requeridas precisam oferecer: - transformação de dados de um formato para outro, tendo em mente a possibilidade de diferenças entre a plataforma fonte e a de destino dos dados; - transformações do tipo: calcular a idade baseado no ano de nascimento ou então substituir um código de sexo por palavras mais significativas como masculino ou feminino; - consolidação dos dados e sua integração que pode incluir a combinação de alguns dados fonte separados em numa única fonte de dados a ser carregada dentro do data warehouse. Prismo Solutions: Foca uma solução para o data warehouse mapeando dados da fonte para o destino do sistema de gerenciamento de banco de dados. SAS Institute: Parte da premissa que a missão mais crítica reside no centro de dados e oferece o tradicional SAS system como meio de servir todas as funções de data warehouse. Transformadores de mecanismo: Informática (formada pela Andyne, Brio, BO, Cognos, IQ, Information Advantage e Micro Strategy). Fornece arquitetura "back end" e API´s de suporte de metadados de negócio e técnicos. Constellar Hub: Um set de componentes suportando capacidade de gerenciamento de transformações distribuídas. Basicamente controla o fluxo de dados entre a migração de dados e os dados distribuídos num sistema operacional e captura dados operacionais para carregar no data warehouse. Metadados Metadado é uma abstração dos dados, ou ainda, dados de mais alto nível que descrevem dados de um nível inferior. Sem metadados, os dados não têm significado. São exemplos de metadados as descrições de registros em um programa de aplicação ou o esquema de um banco de dados descrito em seu catálogo ou ainda as informações contidas em um dicionário de dados. Os metadados são um elemento crítico no gerenciamento de dados, um dos mais importantes componentes do data warehouse. Os metadados, contém, no mínimo: - a localização e a descrição de um sistema de warehouse e os componentes de dados; - nomes, definições, estruturas e conteúdo do data warehouse; - regras de transformação e integração usadas para povoar um data warehouse; - regras de transformação e integração usadas para entregar dados às ferramentas analíticas de usuário final; - informação de assinatura para o sistema de entrega da informação; - autorização de segurança, lista de controle de acesso. Temos três níveis de metadados: - metadados operacionais (do nível das aplicações): definem a estrutura dos dados mantidos pelos bancos operacionais, usados em aplicações de produção da empresa; - metadados centrais do Data Warehouse: mantidos no catálogo do Data Warehouse. Distinguem-se por serem orientados por assunto, definindo como os dados transformados devem ser interpretados. Incluem definições de agregados e campos calculados, assim como visões sobre cruzamentos de assuntos; - metadados do nível do usuário: mapeiam os metadados do Data Warehouse para conceitos que sejam familiares e adequados aos usuários finais. Iniciativa de acesso aos metadados A iniciativa de criar um padrão para o acesso (esse acesso seria, por exemplo, o word conseguir ler essas informações) de metadados foi tomada porque era necessário um padrão para acessar, compartilhar e gerenciar metadados. Algumas metas iniciais de comum acordo entre os membros: - criar um API (application programming interface) para os metadados; - permitir a usuários o controle e gerenciar o acesso e a manipulação dos metadados em um único ambiente; - permitir a usuários construir ferramentas de configuração que vão de encontro às suas necessidades; - permitir o uso de ferramentas individuais para satisfazer seu acesso aos metadados específicos; - definir uma troca simples de implementação de infra-estrutura que acelerará a adoção e minimizará a quantidade de informação requerida para as ferramentas existentes; - criar um processo não apenas para estabelecer e manter a troca de padrão, mas também para estender e atualizar quando for necessário. Padrão framework de troca de metadados A implantação de um modelo padrão de troca de metadados que assume que os metadados devem ser armazenados num formato fácil, como tabelas relacionais, arquivos ASCII. As componentes do padrão framework de troca de dados são: - o modelo padrão de metadados: Se refere ao formato ASCII usado para representar o metadado que está sendo trocado; - o padrão framework de acesso: Descreve um número mínimo de funções API que o sistema deve suportar; - ferramenta de perfil: É um arquivo que descreve quais aspectos o metamodelo padrão de troca de uma ferramenta particular - a configuração de usuário: É um arquivo que descreve a troca de caminhos para um metadado num ambiente de usuário. Repositório de metadados O metadado está no repositório dos metadados e é gerenciado por ele. O software de gerenciamento do repositório de metadados pode ser usado para mapear os dados desde a origem até o banco de dados de destino, gerar código para as transformações de dados, integrar e transformar os dados e controlar a movimentação dos dados dentro do data warehouse. Esse software que tipicamente roda num workstation permite o usuário especificar como os dados podem ser transformados. Para reiterar, os metadados permitem: - a localização e a descrição de um sistema de warehouse e os componentes de dados; - nomes, definições, estruturas e conteúdo do data warehouse; Um desenho de data warehouse deve ter certeza que os metadados serão a porta de entrada. Em outras palavras o desenho do data warehouse deve prevenir contra qualquer acesso (especificamente atualizações) que não usem as definições dos metadados. Isso traria o benefício de reduzir e eliminar a redundância de informação. Gerenciamento dos metadados Um problema comum num sistema de data warehouse é a incapacidade de comunicar o usuário final qual informação reside num data warehouse e como ela pode ser acessado. A chave para prover informação necessária são os metadados. Os metadados precisam guardar informação sobre como um warehouse foi desenhado e montado. Os metadados também devem estar disponíveis a todos os usuários para guiá-los num data warehouse. Tendências Uma das mais claras tendências na área de data warehouse é o aumento nos requerimentos para incorporar dados externos no data warehouse. Isto é necessário para reduzir custos e aumentar a competitividade e agilidade de negócios. O processo de integração de dados externos e internos trazem problemas à tona: - Formatos de dados inconsistentes; - Dados inválidos ou perdidos; - Diferentes níveis de integração; - Inconsistência semântica; - Dados desconhecidos ou questionáveis quanto a qualidade e tempo. Os data warehouses são o começo de uma integração de vários tipos de dados em adição aos tradicionais tipos alfanuméricos de dados. Por exemplo, incluir texto, imagem, vídeo e páginas HTML num data warehouse pode requerer um novo método de apresentar e gerenciar a informação. Mas não é somente com tipos diferentes de dados que estamos lidando. Principalmente quando nós vemos o exemplo de um data warehouse trabalhando com recursos humanos em grande escala. E isso pode complicar adicionando dimensões espaço e tempo para o data warehouse. Ferramentas de Relatórios e Consultas Existem cinco categorias de ferramentas de suporte de decisão: - Relatórios - Consultas gerenciadas - Sistema de Informação Executivo (EIS) - OLAP - Data mining Tipo de Questão básica Exemplo de resposta Usuário típico e suas ferramen necessidades ta Pesquisa e "O que aconteceu?" Relatórios mensais de Dados históricos, Relatórios vendas, histórico do habilidade técnica inventário limitada OLAP "O que aconteceu e por Vendas mensais versus Visões estáticas da que?" mudança de preço dos informação para uma competidores visão multidimensional; tecnicamente astuto EIS "O que eu preciso saber Memorandos, centros de Informações de alto nível agora?" comando ou resumidas; pode não ser tecnicamente astuto Data "O que é Interessante?" Modelos de previsão Tendências e relações Mining "O que pode obscuras entre os dados; acontecer?" tecnicamente astuto Ferramentas do Data Warehouse (Fonte: Revista Byte Brasil, Janeiro 1997) Ferramentas de Relatório Podem ser divididas em dois tipos - Ferramentas de relatório de produção (Suportam grande volume de trabalho como cálculos ou impressões de cheque) - Ferramentas de relatório de desktop (Para usuários finais, como exemplo, temos o Seagate Crystal Report´s. Tem interface gráfica e funções de gráfico ) Consultas gerenciadas É um shield entre a complexidade do SQL e suas estruturas. Muitas vezes são integrados com Web Servers. Sistema de Informação Executivo (EIS) Ferramentas EIS permitem desenvolvedores construírem aplicações de suporte de decisão customizadas e em ambiente gráfico. Os EIS mais populares são o Pilot Software e o Platinum OLAP É um meio de ver dados corporativos. Usuários podem navegar através de hierarquias e dimensões com um simples click de mouse. Data mining Usam uma variedade de dados estatísticos e algoritmos de inteligência artificial para analisar a correlação de variáveis, investigando padrões e relações. Produtos: Cognus Impromtu Sua aceitação no mercado é grande pois utiliza uma interface gráfica parecida com o windows. Também é muito aceito porque suas ferramentas de consulta e relatório são unificados numa única interface. Permite controle administrativo completo a baixo custo. Em termos de escalabilidade pode suportar um usuário ou centenas de usuários se utilizando do banco de dados no data warehouse. Relatórios no Cognus Impromtu: Esse soft foi desenhado para tornar fácil o trabalho do usuário de criar e rodar seus próprios relatórios. O Impromtu oferece: - ferramentas de consulta e relatórios unificados; - arquitetura orientada a objeto; - integração completa com o Power Play; - escalabilidade; - segurança e controle; - dados apresentados num contexto de negócios; - mais de 70 templates de relatórios pré-definidos; - relatórios de relevância de negócio. Aplicativos: Power Builder O Power Builder trabalha com polimorfismo, a habilidade de herdar forms e objetos e a premissa de que se um objeto foi criado e testado, ele pode ser reusado por outras aplicações. A força do Power Builder não está somente na orientação a objeto, mas na habilidade de desenvolver aplicações windows e sua afinidade com a arquitetura cliente/servidor. Forté Baseado na arquitetura three-tiered client/server: Particionado em três partes distintas: A apresentação lógica é colocada no cliente; a aplicação lógica reside nos servidores de aplicativos e o banco de dados num servidor data warehouse. O Forté possui integração com a tecnologia Java e Web. Construtores de Informação Cactus: Ambiente de desenvolvimento cliente/servidor. É capaz de criar aplicações de qualquer tamanho e escopo. Focus Fusion: Banco de dados multidimensional para OLAP´s e data warehouses. OLAP A necessidade de receber um grande número de dados de um grande banco de dados (centenas de Giga ou até mais) são os motivos de existir o OLAP (não é um aplicativo, é uma arquitetura de aplicação). Quando temos a necessidade de um sistema multidimensional precisamos de um OLAP. Um problema do SQL é a incapacidade de trabalhar com cálculos complexos e séries de tempo. Por exemplo, calcular a média de algo nos últimos três meses requerem extensões ANSI SQL que raramente são encontrados em produtos comerciais. Uma outra vantagem do OLAP é que ele é interativo. O analista pode jogar um valor para simular algo. Assim pode, inclusive descobrir padrões escondidos. Eu posso acrescentar ou tirar uma dimensão do cubo, conforme eu necessitar. O tempo de resposta de uma consulta multidimensional depende de quantas células são requeridas. Para resolver o tamanho do problema do cubo, que cresce exponencialmente a saída é consolidar todos os sub totais lógicos e os totais por todas as dimensões. Esta consolidação faz sentido quando as dimensões fazem parte de uma mesma hierarquia (anos, semestres, meses, dias). Linhas Guia do OLAP - Visão conceitual multidimensional: enfatiza a forma como o usuário "vê" dados sem impor que os dados sejam armazenados em formato multidimensional; - Transparência: localização da funcionalidade OLAP deve ser transparente para o usuário, assim como a localização e a forma dos dados; - Facilidade de Acesso: acesso a fontes de dados homogêneas e heterogêneas deve ser transparente; - Desempenho de consultas consistente: não deve ser dependente do número de dimensões; - Arquitetura cliente/servidor: produtos devem ser capazes de operar em arquiteturas cliente/servidor; - Dimensionalidade genérica: todas as dimensões são iguais; - Manipulação dinâmica de matrizes esparsas: produtos devem lidar com matrizes esparsas eficientemente; - Suporte multi-usuário; - Operações entre dimensões sem restrições; - Manipulação de dados intuitiva; - Relatórios/consultas flexíveis; - Níveis de agregação e dimensões ilimitados: ferramentas devem ser capazes de acomodar 15 a 20 dimensões. Categorias de ferramentas OLAP MOLAP: É utilizado, tradicionalmente para organizar, navegar e analisar dados. ROLAP: Permite que múltiplas consultas multidimensionais de tabelas bidimensionais relacionais sejam criadas sem a necessidade de estrutura de dados normalmente requerida nesse tipo de consulta. MQE: Possui a capacidade de oferecer análise "datacube" e "slice and dice". Isto é feito primeiro desenvolvendo uma consulta para selecionar dados de um DBMS que entrega o dado requisitado para o desktop, que é o local onde está o datacube. Uma vez que os dados estão no datacube, usuários podem requisitar a análise multidimensional. Produtos no mercado: Cognus Power Play: É um software maduro e popular que é caracterizado como um MQE. Ele pode aproveitar o investimento feito na tecnologia de banco de dados relacional para oferecer acesso multidimensional para a corporação, com a mesma robustez, escalabilidade e controle administrativo. IBI Focus Fusion: É um banco de dados com tecnologia multidimensional para OLAP e data warehouse. É desenhado para endereçar aplicações de negócios que precisem de análise dimensional dos dados dos produtos. Sua aplicação mais específica é para a formação de aplicações de inteligência de negócios num ambiente de data warehouse. Pilot Software: É uma suíte de ferramentas que incluem: um banco de dados multidimensional de alta velocidade (MOLAP), integração com data warehouse (ROLAP), data mining e várias aplicações de negócio custumizáveis focando pós-venda e profissionais de marketing Ferramentas OLAP e internet A web é um perfeito meio para suporte de decisão: - A internet é um recurso virtualmente livre que permite conectividade com e entre as empresas; - A web permite companhias a guardar e gerenciar dados e aplicações que podem ser gerenciados centralmente, mantidos e atualizados, eliminando problemas com software e dados financeiros; - A web facilita as tarefas administrativas complexas de ambiente de gerenciamento distribuído. Conclusões: É claro que os produtos OLAP serão mais voltados à compatibilidade com a web. Tecnologias que suportam internet e web continuam a avançar rapidamente. Tenha em mente então que o produto OLAP que você experimentar com suporte a internet não deve ser um fator decisivo. Para manter a competitividade, os fabricantes continuarão a melhorar os produtos, algumas vezes radicalmente. Data Mining O que é data mining? Data mining ajuda usuários finais a extraírem informações de negócio utilizáveis de um grande banco de dados. Se você tem um banco de dados pequeno, não precisa de novas tecnologias para descobrir informações. Agora se você tem um banco de dados grande (num supermercado, por exemplo), quer saber quem são os clientes e o que eles estão comprando, precisaria da tecnologia de data mining. No banco de dado, precisaríamos utilizar o SQL. Apesar do SQL ser poderoso o suficiente para extrair essas informações, a maior parte das pessoas da área de marketing de uma empresa não falam a mesma língua do SQL. Quais são as aplicações do data mining? Técnicas de Data Mining têm sido aplicadas com sucesso para a solução de problemas em diversas áreas, como descrito a seguir: Vendas - Identificar padrões de comportamento dos consumidores - Encontrar características dos consumidores de acordo com a região demográfica - Prever quais consumidores serão atingidos nas campanhas de marketing Finanças - Detectar padrões de fraudes no uso dos cartões de crédito - Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito - Identificar regras de estocagem a partir dos dados do mercado - Encontrar correlações escondidas nas bases de dados Seguros e Planos de Saúde - Determinar quais procedimentos médicos são requisitados ao mesmo tempo - Prever quais consumidores comprarão novas apólices - Identificar comportamentos fraudulentos Transporte - Determinar a distribuição dos horários entre os vários caminhos - Analisar padrões de sobrecarga Medicina - Caracterizar o comportamento dos pacientes para prever novas consultas - Identificar terapias de sucessos para diferentes doenças Como funciona? O data mining não é mágico; ele trabalha com informação histórica (experiência) para aprender. Por exemplo, você tem uma proposta de marketing direto que deseja atender uma pequena parcela de consumidores. Mas como fazer isso? O mais interessante seria que apenas aqueles que tivessem uma probabilidade maior de comprar o produto recebessem a propaganda. Isso reduziria o custo e aumentaria as chances de lucro. O data mining pode fazer isso. A dica para construir um predictive model é ter dados no seu banco de dados que descrevam o que aconteceu no passado. As ferramentas de data mining são desenhadas para aprender com o sucesso e os fracassos do passado. Data mining se utiliza muito da estatística, mas a principal diferença (entre o data mining e estatística) é que o data mining é feito para o usuário final de negócios e não para um estatístico. Data mining automatiza o processo estatístico, mostrando o resultado num formato de fácil entendimento. Efetividade Precisão, velocidade e custo A pessoa que precisa de uma ferramenta data mining tem muitas alternativas; para fazer a escolha certa é necessário ver uma comparação entre o grande número de novos produtos que existem no mercado. Temos que ter em mente que quanto maior o banco de dados, maior a qualidade dos dados e mais lento o sistema. O processamento paralelo pode aumentar a velocidade de processamento de dados. Colocando o data mining no seu processo de negócio A maior parte dos erros nos processos ocorrem quando os dados são movidos de um departamento para outro ou de um hardware para outro. A análise de dados deve ser: - Colocada dentro do data warehouse; - Entendida e utilizável para um profissional de marketing. O conceito de colocar o data mining dentro do data warehouse reduz erros e custos. Quanto mais as coisas mudam, mas elas são as mesmas Pode parecer que o data mining apenas traz à tona idéias de estatística, mas a real oportunidade de data mining é que usuário de negócio podem ter informações sem ligar para o departamento de finanças. Antes eram necessários dias ou semanas para que uma análise financeira ficasse pronta. Hoje você pode construir o modelo imediatamente e de forma interativa. Essas funções básicas provam que o data mining melhora precisão, velocidade e custo. Descoberta X Previsão Descoberta: Você pode descobrir coisas que não esperava encontrar, mas são fatos e existem. Previsão: Agora você tem uma ferramenta para checar aquele padrão ou associação, fazendo uma previsão. Estado atual da indústria Soluções dirigidas Esses produtos usaram o poder do data mining e aplicaram num problema particular ou indústria. Um exemplo é o HNC Falcon System que é uma solução baseada numa rede neural especificamente para fraudes de cartão de crédito e risco de crédito. Esses sistemas, por serem específicos podem dispensar grande parte da complexidade herdada dos algoritmos de data mining. Ferramentas de negócio: Os produtos nessa categoria tem como alvo o usuário final de negócios com a intenção de apresentar o poder do data mining num meio de fácil uso e entendível o suficiente para aprender lições com sucessos e fracassos. Ferramentas de Análise de negócios: Essas ferramentas foram desenvolvidas para usuários de aplicações de negócio que sabem como o data mining funciona e como são algumas de suas variações. Essas ferramentas mostram o resultado num form que é mais próximo do algoritmo de data mining que uma ferramenta de usuário final. Glossário Data mining - "Garimpa" as informações, revelando padrões e relacionamentos escondidas. Gera hipóteses e as testa. "O que existe e o que merece ser visto?" É um conceito de análise e busca de informações de comportamento de um cliente e/ou produto. As ferramentas de Data Mining, através de algoritmos estatísticos, segmenta um grupo de dados e variáveis determinantes para cada perfil. Por exemplo: Numa determinada empresa, através da análise da base de dados de clientes, pode-se descobrir que para um certo Produto X, os clientes com idade acima de 40 anos, com mais de 2 filhos, com renda acima de Y, que moram na Região A, representam 70% dos clientes com tal produto. Data Warehousing - É um conjunto de tecnologias com o objetivo de converter uma grande quantidade de dados em informação utilizável. Transforma um banco de dados operacional num ambiente que permite o uso estratégico dos dados. É um ambiente e não um produto. DBMS - Database Management System: Software que proporciona organização de, acesso a, e controle de dados partilhada por diversos usuários. DSS - Decision Support System: O processo de reunião, estruturação, manipulação, armazenamento, acesso, apresentação e distribuição de informações de negócios em tempo oportuno. EIS - O termo EIS (Executive Information Systems ou Sistemas de Informações Executivas), refere-se a sistemas destinados especificamente a satisfazer as necessidades de executivos de alto nível eliminando a necessidade de intermediários entre executivos e computadores.. Framework - Bibliotecas de dados de aplicação. Fuzzy logic - Lógica difusa. Lógica aplicada à programação que tenta imitar os métodos de raciocínio do cérebro humano. LAN - Local Area Network. Redes de PC’s ligados juntos de modo a poder se comunicar e compartilhar dados. O nó central da LAN é geralmente chamado de servidor. Legacy application - aplicativo legado - um aplicativo no qual uma companhia ou organização já tenha investido muito tempo e dinheiro. Tipicamente, são bancos de dados de sistemas de gerenciamento (ver DBMS) rodando em mainframes ou minicomputadores. Metadados - Dados sobre dados que descrevem o data warehouse Fornecem informações sobre estruturas de dados. O catálogo de uma biblioteca é um exemplo de metadado. ODS - Operacional Data Store OLAP - Processamento analítico de suporte on line. Compara dados e ajuda a entender coisas que certamente são verdade. Têm a capacidade de responder a perguntas como: "E se?" e "por quê?". Verifica hipóteses. "Eu quero ver isso dessa maneira". É a tecnologia com recursos para disponibilização do suporte à Decisão e Estratégia de Negócio, obtendo de forma mais rápida, consistente e interativa uma variedade de visualizações possíveis da informação, facilitando a Análise Multidimensional. O resultado dessa pesquisa pode ser apresentada de forma gráfica ou em formato de planilha, com funcionalidades de drill down e drill-up (navegação para dentro ou fora dos níveis hierárquicos das dimensões). Pipeline - Técnica que permite que mais de uma instrução seja processada ao mesmo tempo (através do processamento paralelo) RDMS - Relational Database Managment System Rightsizing - Atividade de mover uma aplicação de sua plataforma de computação tradicional para outra mais eficiente economicamente. A plataforma-alvo é muitas vezes, mas nem sempre, fisicamente menor que a plataforma existente. - Berson, Alex (1997). Data warehouse, data mining, and OLAP - Wang, Charles (1998). Tecno Vision II - Um estudo sobre Data Warehouse http://www.geocities.com/SiliconValley/Port/5072/ - Revista Byte Brasil, Janeiro 1997