Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na frente a organização que consegue tomar decisões corretas e rápidas. Com esta importante tarefa nas mãos, profissionais tomadores de decisão tais como executivos, gerentes e analistas, exigem dos sistemas de suporte à decisão (Decision Support Systems - DSS) mais recursos para análise, frontends que suportem consultas ad hoc, interfaces gráficas apropriadas, etc. Data Warehouse - Conceitos A ideia de Data Warehouse é integrar os dados internos e externos de uma organização em uma estrutura única permitindo uma melhor utilização dos dados pelos analistas, gerentes e executivos. Uma vez obtida a integração, sistemas como OLAP (On-Line Analytical Processing) e data mining fornecem mecanismos sofisticados para análise dos dados. Estudar e conhecer a tecnologia de Data Warehouse pode ajudar os empresários a descobrir novas formas de competir em uma economia globalizada, trazendo melhores produtos ou serviços para o mercado, mais rápida do que os concorrentes, sem aumentar o custo do produto ou do serviço. Data Warehouse - Conceitos Não existem ainda metodologias formais para implementação de um Data Warehouse, ela deve ser adaptada às características e às expectativas de cada empresa, mas o principal objetivo em todas elas é o de descobrir maneiras diferentes de atuar no mercado e quais as mudanças internas que devem ocorrer para atender as novas realidades. Nas últimas décadas, a tecnologia da informação evoluiu consideravelmente, dos primeiros computadores centrais até os atuais sistemas distribuídos. Essa visão moderna e descentralizada busca obter vantagens, principalmente em termos de acessibilidade, disponibilidade e custo. Data Warehouse - Definição Data Warehouse, cuja tradução literal é Armazém de Dados (ou ainda Depósito de Dados), pode ser definido como um banco de dados destinado a sistemas de apoio à decisão e cujos dados foram armazenados em estruturas lógicas dimensionais, possibilitando o seu processamento analítico por ferramentas especiais (OLAP e Mining). Segundo W.H.Inmon, considerado um pioneiro no tema, um Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, que tem por objetivo dar suporte aos processos de tomada de decisão. O Data Warehouse é um banco de dados contendo dados extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de consulta e não para processamento de transações. Data Warehouse - Definição Em geral, um Data Warehouse requer a consolidação de outros recursos de dados além dos armazenados em base de dados relacionais, incluindo informações provenientes de planilhas eletrônicas, documentos textuais, etc. De acordo com Richard Hackathorn (outro pioneiro no tema), o objetivo de um Data Warehouse é fornecer uma "imagem única da realidade do negócio". De uma forma geral, sistemas de Data Warehouse compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantém, e sistemas que fornecem estes dados aos seus usuários. Data Warehouse - Definição Esses dados deverão estar “mastigados”, integrados e disponíveis, permitindo diversas formas de consultas, através dos mecanismos amistosos das ferramentas dos usuários. Por “mastigados” entenda-se todo um processo de identificação, catalogação, coleta, disponibilização e transformação (dos dados) em informações necessárias aos negócios da empresa. Por identificação entenda-se um processo de modelagem de dados voltado para áreas específicas a serem atendidas pelo DW, na qual os dados serão analisados segundo uma ótica própria. Data Warehouse - Definição A catalogação objetiva a identificação clara e concisa das informações gerenciais e possibilitará a busca por assuntos e palavras-chaves. As ações de extração/transformação/carga definirão procedimentos de busca, transformação e carga de dados oriundos das diversas fontes existentes na empresa, além de seus procedimentos de manutenção. Os subprocessos de transformação definirão as estratégias e rotinas de consolidação, sumarização e agregação dos dados e os mecanismos de disponibilização assegurarão o seu uso amistoso através de interfaces gráficas. Data Warehouse Sistemas de Data Warehouse revitalizam os sistemas da empresa, pois: • • • • Permitem que sistemas mais antigos continuem em operação; Consolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes; Extraem benefícios de novas informações oriundas das operações correntes; Provém ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional. Como se vê, existem diferentes visões do que seria um data warehouse: uma arquitetura, um conjunto de dados semanticamente consistente com o objetivo de atender diferentes necessidades de acesso a dados e extração de relatórios, ou ainda, um processo em constante evolução, que utiliza dados de diversas fontes heterogêneas para dar suporte a consultas ad-hoc, relatórios analíticos e à tomada de decisão. Data Warehouse - Data Mart O termo Data Mart (Mercado de Dados) significa, nesse cenário, depósito de dados que atende a certas áreas específicas da empresa e voltadas (também) para o processo decisório gerencial. Data Mart e Data Warehouse podem ser definidos como espécies do mesmo tipo, ficando a diferença entre eles centrada no escopo do projeto e nos limites de suas abrangências. O Data Warehouse é normalmente acessado através de Data Marts, que são pontos específicos de acesso a subconjuntos do Data Warehouse. Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de usuário. Por exemplo: um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um usuário gerencial e em periodicidades maiores (semana, mês, ano) para um usuário no nível da diretoria. Um Data Mart pode ser composto por um ou mais cubos de dados. Data Warehouse / Data Mart Existem várias maneiras de extrair (recuperar) informações de um Data Warehouse, as formas de extração mais comuns no mercado hoje são: • Ferramentas de consulta e emissão de relatórios; • EIS (Executive Information Systems); • Ferramentas OLAP; • Ferramentas Data mining. A diferença básica entre ferramentas OLAP e Data Mining está na maneira como a exploração dos dados é abordada. Com ferramentas OLAP a exploração é feita na base da verificação, isto é, o analista conhece a questão, elabora uma hipótese e utiliza a ferramenta para confirmá-la. Com Data Mining, a questão é total ou parcialmente desconhecida e a ferramenta é utilizada para a busca de conhecimento. Data Mining Data Mining (Mineração de Dados ou Prospecção de Dados) é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. Data Mining é uma tecnologia que emergiu da intersecção de três áreas: estatística clássica, inteligência artificial e aprendizado de máquina, sendo a primeira a mais antiga delas. Data Mining Pode ser entendido como o processo de extração de informações sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões. Ferramentas de Data Mining realizam análise de grandes volumes de dados e podem descobrir padrões interessantes frequentes nos dados. Observa-se que o Data Mining é parte de um processo maior conhecido como KDD (Knowledge Discovery in Databases) – em português, Descoberta de Conhecimento em Bases de Dados – que permite a extração não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados. Data Mining Bancos de Dados de Transações : tickets de supermercado, por exemplo: Trans_ID ItensComprados TR100 Pão, Leite, Açucar ... ... Consultas Clássicas : “Quantas transações incluem o item ‘Pão’ ”? Data Mining : “Quais itens têm boa saída conjuntamente?” Exemplo: se impressoras são normalmente compradas conjuntamente com um computador, então uma boa estratégia seria oferecer modelos caros de impressoras com desconto para clientes que compram certas marcas de computadores. Data Mining Os métodos tradicionais de Data Mining são: • Classificação – Associa ou classifica um item a uma ou várias classes categóricas pré-definidas. • Modelos de Relacionamento entre Variáveis – Associa um item a uma ou mais variáveis de predição de valores reais, consideradas variáveis independentes ou exploratórias • Análise de Agrupamento (Cluster) - Associa um item a uma ou várias classes categóricas (ou Clusters), em que as classes são determinadas pelos dados, diversamente da classificação em que as classes são prédefinidas. Data Mining • Sumarização – Determina uma descrição compacta para um dado subconjunto. • Modelo de Dependência – Descreve dependências significativas entre variáveis. • Regras de Associação – Determinam relações entre campos de um banco de dados. • Análise de Séries Temporais – Determina características sequenciais, como dados com dependência no tempo. Data Mining – Aplicações Análise Financeira • Predição de pagamentos de empréstimos, política de créditos para clientes. • Classificação e clustering de clientes para fins de marketing direcionado. • Detecção de lavagem de dinheiro e outros crimes financeiros. Necessita integração de diferentes bancos de dados : dados bancários, registros de polícias estaduais e federais.