EXPLORAÇÃO DE DATA WAREHOUSE: MINERAÇÃO DE DADOS OU OLAP Instituto Sumaré de Ensino Superior Banco de Dados – Conrado Rosa Klayton Rodrigo Alves [email protected] [email protected] RESUMO Em meio às dificuldades de se trabalhar analise em Data Warehouse corporativo, e as necessidades de se utilizar o mesmo em diversos campos de atuação, sejam para projetar consultas, gerar relatórios, analisar as informações ou previas futuros mercados, obtidos na mineração de dados, ou usando processamento analítico on-line (OLAP) e respondendo a questionamentos tipicamente dimensionais para suporte a Decisão Gerencial (SAD), este artigo objetiva apresentar o trabalho de mineração de dados com características de tecnologia OLAP, ou seja, analisar os dados de forma multidimensional. Palavra Chave: Data Mining, OLAP, Data Warehouse. ABSTRACT Amid the difficulties of working in analyzing corporate data warehouse, and needs to use it in various fields, are to design queries, generate reports, analyze information and predict future markets, obtained in data mining, or using online analytical processing (OLAP) and responding to questions typically designed to withstand Decision Management (SAD), this article presents the work of data mining with OLAP technology features, ie, analyze the data in a multidimensional way. Keywords: Data Mining, OLAP, Data Warehouse. 1 INTRODUÇÂO Com a globalização, o crescimento, o desenvolvimento e a expansão das empresas num espaço físico, operacional e gerencial, o avanço tecnológico trouxe uma aproximação dos quatro pontos terrestres gerando dados das mais diversas áreas. Com a armazenagem destes dados tornou-se difícil gerir as informações aglomeradas no decorrer de alguns anos, para tal funcionalidade foi desenvolvido o Data Warehouse e Data Mart’s com finalidades idênticas, ou seja, agregar dados, mas com características diferentes. Este breve texto pretende demonstrar a estrutura básica necessária de um artigo científico, como também conhecer algumas das principais regras da ABNT utilizadas. 2 CRESCIMENTO DA INFORMAÇÃO E MÉTODOS DE ANALISE As necessidades de se aglomerar os dados em um ponto central, como Data Warehouse, ou fazer com que existam diversos pontos para armazenagem, como Data Mart’s, que são espalhados em diferentes pontos, tem grande importância para as empresas que valorizam e investem nas futuras tendências, portanto procuram pelo conhecimento independente de onde estejam, e principalmente pelas informações que agregaram com o tempo. Trabalhar as diversas formas de mineração de dados e a tecnologia OLAP (On-line Analitic Processing) serão apresentadas para responder consultas em formato multidimensional e assim produzir o conhecimento necessário, aprimorando os caminhos do negócio. Para produção do conhecimento e a delimitação das analises convenciona-se a mineração de dados (Data Mining), que utiliza métodos de classificação, estimativa, previsão, agrupamento por afinidade, reunião e descrição, ambos são denominados hipotéticos, com a idéia de propor descobrir tendências e padrões, e OLAP utiliza métodos como agregação, alocação, razões, produtos e outros, que se propõem a responder analises on-line, denominadas analises comparativas. 2.1 Gerando as riquezas e trabalhando-as O Data Warehouse fornece memórias a empresa, porém a memória tem pouco uso sem a inteligência. A inteligência (Data Mining) nos permite a analise da nossa memória, observando modelos estabelecendo mecanismos e tendo novas idéias para fazer previsões sobre o futuro. “Data Warehouse como sendo um conjunto de dados baseados em assuntos, integrados, não volátil e variável em relação ao tempo, de apoio a decisões gerenciais.” (HARISON, 1998) Este é um repositório de dados para dar suporte às decisões gerenciais normalmente constituídos por alguns Data Mart’s que são moldados por estruturas granulares pertencentes a departamentos específicos, e armazenagem Near-Line que contem riquezas detalhadas sobre dados históricos. As informações dos sistemas são armazenadas em um Data Warehouse, ou em um conjunto de Data Mat’s, normalmente distribuídos por setores, como Marketing, Financeiro e outros. “Data Mining como sendo exploração e analise, por meios automáticos ou semi-automáticos, de grande quantidade de dados para descobrir modelos e regras significativas.” (HARISON, 1998) “Data Mining e o uso de técnicas de exploração de grande quantidade de dados de forma a descobrir novos padrões e relação que, devido ao volume de dados, não seriam descobertos a olho nu pelo ser humano.” (CARVALHO, 2001) Todas as linhas acima podem ser enxugadas com a seguinte descrição sobre a mineração de dados, que o Data Mining e o processo de se encontrar padrões, associações e relacionamentos a partir de dados, transformando os em informações úteis para analise. OLAP proporciona condições de analise de dados on-line necessárias para responder as possíveis torrentes de perguntas dos executivos que se situam entre o Data Warehouse e a interface permitindo ao usuário formular consultas a banco de dados, sem precisar interagir com linguagem de programação de banco de dados SQL. 2.2 As diferenças tratando a informação Levamos em conta que as diferenças entre OLAP e Data Mining. No primeiro suas funções ou algoritmos encontrados nas ferramentas são normalmente descritivos, como agregações, alocações, razões, produtos e etc., O segundo possui funções e seus pacotes são explicativos, como regressão, redes neurais, arvores de decisão, clustering, porém vêem condicionar analises multidimensionais facilitando uma visão geral do que é relevante. Os tratamentos das bases de dados sejam relacionais ou dimensionais, tanto a tecnologia OLAP, quanto o método Data Minig tratam (normalmente) as informações num formado multidimensional para suporte a decisão (SAD). 2.3 Por que utilizá-los e qual a melhor escolha No cenário corporativo se agrega mudanças num pequeno espaço de tempo para isto é necessário tomar decisões inteligentes e rápidas para manter o negócio corporativo competitivo, no entanto para se tomar decisões é primordial que as questões/consultas reflitam múltiplas dimensões do negócio, assim deve se analisar quais dos métodos correspondem às expectativas dos analistas e gerentes. As consultas OLPA podem acessar banco de dados com múltiplos gigabytes, posteriormente refinar suas consultas e analisar comparações online com respostas rápidas. Consultas OLPA podem ser caracterizadas por: Acessar grandes volumes de dados e analisar os relacionamentos entre os diversos tipos de elementos; Envolver dados agregados; Comprar dados agregados ao longo do período de tempo; Apresentar dados em diferentes perspectivas; Envolver cálculos complexos entre elementos de dados; São capazes de responder rapidamente a solicitação dos usuários. As analises de um Data Mining é basicamente uma aplicação estatística, caracterizadas por: Realizar inúmeros cálculos em grandes volumes de dados; Efetuar analise de forma criativa, detectar freqüências e descobrir Representar padrões encontrados nos dados; Fazer análises descriminates; Agrupar informações homogêneas e heterogêneas; Utilizar técnicas de regressão; Arvore de decisão; padrões; 3 CONCLUSÃO Portanto, conclui-se que devemos verificar inicialmente a finalidade das analises e o comportamento das mesmas em relação às exigências/requisitos gerenciais, para posteriormente escolher o melhor método/tecnologia para responder o propósito da analise. Tanto o Data Mining quanto OLAP, ou seja, ambos possuem a mesma finalidade. Porém um é método para se garimpar informações, enquanto o outro é a tecnologia usada para tal. 4 REFERÊNCIAS BIBLIOGRÁFICAS CARVALHO, Luís Alfredo Vidal de. Dataming: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Editora Érica Ltda., 2002. HARRISON, Thomas H.. Intranet data warehouse. São Paulo: Berkeley Brasil, 1998. INMON, W.H.; TERDEMAN, R.H; IMHOFF, Claudia. Exploration warehousing : turning business, information into business opportunity. Nova York: John Wiley & Sons, Inc., 2000. THOMSEM, Erik. OLAP: construindo sistemas de informações multidimensionais. Tradução Daniel Vieira. Rio de Janeiro: Campus, 2002.