JOÃO CARVALHO Data Warehouses DEFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades de uma organização em bases de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão. FUNCIONAMENTO O Data Warehouse possibilita a análise de grandes volumes de dados, recolhidos dos sistemas transaccionais. São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados. Por definição, os dados num Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correcções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados. ARQUITECTURA Um data warehouse é constituído por 3 partes: Armazenamento Modelagem Metadado ARMAZENAMENTO É feito num depósito único mas que seja de rápido acesso para as análises. Tal armazenamento tem que possuir um histórico com todos os dados possíveis para que possa se ter uma análise mais apurada. MODELAGEM Os sistemas de base de dados tradicionais utilizam a normalização no formato de dados para garantir consistência dos dados e uma minimização do espaço de armazenamento necessário. Algumas transacções e consultas em bases de dados normalizadas podem se tornar lentas devido às operações de junção entre tabelas. Um Data Warehouse utiliza dados num formato sem padrão definido. Essa maneira de reordenar os dados chama-se Modelagem Dimensional, e o resultado da modelagem é o Modelo Dimensional, ou MD. METADADO O conceito Metadado é considerado como sendo os "dados sobre dados", isto é, os dados sobre os sistemas que operam com estes dados. Um repositório de metadados é uma ferramenta essencial para a gestão de um Data Warehouse no momento de converter dados em informações para o negócio. Entre outras coisas, um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc. ACESSO O Data Warehouse é normalmente acedido através de Data Marts, que são pontos específicos de acesso a subconjuntos do Data Warehouse. Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de utilizador. um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um gestor e em periodicidades maiores (semana, mês, ano) para um utilizador no nível da directoria. EXTRACÇÃO DE DADOS Os dados introduzidos num Data Warehouse geralmente passam por uma área conhecida como área de estágio. O estágio de dados ocorre quando existem processos periódicos de leitura de dados. Os dados podem passar então por um processo de qualidade, de normalização e gravação dos dados no Data Warehouse. FERRAMENTAS OLAP Data mining OLAP As ferramentas OLAP (do inglês, Online Analytical Processing) são geralmente desenvolvidas para trabalhar com bases de dados desnormalizados (sem padrões pré-definidos), embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados (informações) normalizados. OLAP Essas ferramentas são capazes de navegar pelos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para a realização de pesquisas como para a apresentação de informações OLAP Nas ferramentas de navegação OLAP, é possível navegar entre diferentes níveis de granularidades (detalhe) de um cubo de dados. Através de um processo chamado Drill o utilizador pode aumentar (Drill down) ou diminuir (Drill up) o nível de detalhe dos dados. OLAP Outra possibilidade apresentada pela maioria das ferramentas de navegação OLAP é o recurso chamado Slice and dice. Esse recurso é usado para criar visões dos dados por meio da sua reorganização, de forma que eles possam ser examinados sob diferentes perspectivas. DATA MINING Data Mining ou mineração de dados, é o processo de descoberta de padrões existentes em grandes massas de dados. Apesar de existir ferramentas que ajudam na execução do processo, o Data mining não tem automatização simples (muitos discutem se é sequer factível) e precisa ser conduzido por uma pessoa, preferencialmente com formação em Estatística ou áreas afins. CARACTERÍSTICAS DE UM DATA WAREHOUSE Orientado a assunto Integrado Não volátil É variável consoante o tempo ORIENTADO A ASSUNTO Os warehouse são feitos para responder abordagens sobre certos assuntos como, saber mais sobre as vendas da empresa, ou sobre os resultados das actuações das equipas de marketing em determinadas regiões. O warehouse é feito para responder perguntas sobre certos assuntos como: “Quais foram os melhores clientes em um determinado período?”, “Qual foi o lucro obtido sobre uma campanha de em uma determinada região?”. INTEGRADO Um Data Warehouse, armazena dados de várias fontes de dados, mas é comum que as informações sejam cadastradas em formatos e padrões diferentes nas diversas fontes de dados, para ser possível relacionar informações entre os sistemas, estas informações devem ser previamente tratadas antes de serem armazenadas no warehouse, neste processo diversas actividades são feitas, tais como: INTEGRADO Conversão de datas para um formato único Resolução de conflitos entre nomes Conversão de medidas NÃO VOLÁTIL Num warehouse somente existem duas operações a serem feitas: Carregamento de dados Consulta. NÃO VOLÁTIL Dizer que um Data Warehouse não é volátil significa que as informações registadas não são actualizadas, o que é feito é que um novo registo é gravado e este passa a ser utilizado de um certo tempo em diante. Isto possibilita que consultas realizadas para um certo período retornam sempre o mesmo resultado, pois os registos não foram actualizados. VARIÁVEL COM O TEMPO Ser variável com o tempo significa somente que os Data Warehouses mantêm um histórico por muito mais tempo que um sistema de dados operacional ou transaccional, enquanto os sistemas OLTP (online transaction processing) guardam históricos por um curto período, para não reduzir a performance do sistema, os warehouses guardam um histórico por muito tempo, assim possibilitando que análises de tendências ao longo do tempo sejam feitas com suas informações.