Universidade Estadual de Mato Grosso do Sul Curso de Computação, Licenciatura Banco de Dados Data Mining Data Warehouse Big Data Prof. José Gonçalves Dias Neto [email protected] Data Mining: Introdução Data Mining (mineração de dados): refere-se à descoberta de novas informações em termos de padrões ou regras, como base em grande quantidades de dados. Com crescente informatização, as empresas estão armazenando grandes volumes de dados, e o processo de Data Mining permite que se investigue esses dados à procura de padrões que tenham valor para a empresa. Embora alguns recursos de mineração de dados estejam sendo fornecidos em SGBDs, ela não é bem integrada a estes sistemas. Utiliza técnicas de áreas como aprendizado de máquina, estatística, redes neurais e algoritmos genéticos. Auxilia na extração de novos padrões significativos que não podem ser necessariamente encontrados apenas ao consultar ou processar dados. Data Mining: introdução “Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário.” (Devmidia) Faz parte de um processo maior e mais complexo denominado “descoberta de conhecimento” em banco de dados – KDD (Knowledge Discovery in Database). Este processo compreende 6 (seis) fases: Seleção de dados, Limpeza de dados, Enriquecimento, Transformação de dados, Mineração de dados, Relatório e exibição de dados. Aplicações de Data Mining – Revista Exame Caso 1: Uma das maiores redes de varejo dos Estados Unidos descobriu, em seu gigantesco armazém de dados, que a venda de fraldas descartáveis estava associada à de cerveja. Em geral, os compradores eram homens, que saíam à noite para comprar fraldas e aproveitavam para levar algumas latinhas para casa. Os produtos foram postos lado a lado. Resultado: a venda de fraldas e cervejas disparou. Caso 2: Outra rede varejista descobriu que a venda de colírios aumentava na véspera dos feriados. (Por quê? Mistério...) Passou a preparar seus estoques e promoções do produto com base nesse cenário. Aplicações de Data Mining – Revista Exame Caso 3: O banco Itaú, costumava enviar mais de 1 milhão de malas diretas, para todos os correntistas. No máximo 2% deles respondiam às promoções. Hoje, o banco tem armazenada toda a movimentação financeira de seus 3 milhões de clientes nos últimos 18 meses. A análise desses dados permite que cartas sejam enviadas apenas a quem tem maior chance de responder. A taxa de retorno subiu para 30%. A conta do correio foi reduzida a um quinto. Objetivos da Data Mining: Previsão: Identificar como certos atributos dos dados se comportarão no futuro. Ex: analisar de compras para prever o que os consumidores comprarão, quanto volume de vendas uma loja gerará em determinado período. Identificação: Usados para identificar a existência de um item, um evento ou atividade, Ex: Hackers tentado quebrar um sistema utilizam um conjunto de ferramentas ou técnicas. Classificação: Identificar classes ou categorias diferentes com base em combinações de parâmetros. Ex: Clientes de um supermercado podem ser classificados como: Compradores por desconto, clientes fiéis, compradores específicos (de determinado produto apenas). Otimização: Otimizar o uso de recursos limitados (tempo, espaço, dinheiro, hardware). Aplicações de Mineração De Dados Geralmente as técnicas são aplicadas a contextos de tomada de decisão em negócios de diversas áreas de atuação. Marketing: Análise de comportamento do consumidor com base nos padrões de venda, os quais fornecem conhecimento para estratégias de marketing como propaganda, local da loja, disposição dos produtos, etc. Finanças: Análise de crédito de clientes, segmentação de contas a receber, investimentos financeiros. Saúde: Descoberta de padrões para agrupamento de genes e relacionamento de sintomas ou doenças, eficácias de certos tratamentos. Big Data e Data Warehouse Big Data É a grande quantidade de dados armazenados – estruturados ou não – geralmente dados complexos, que podem impactar na empresa modelada. “A princípio, podemos definir o conceito de Big Data como sendo conjuntos de dados extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil.” [infowestern] Big Data é analisado para a obtenção de insights que levam a melhores decisões e direções estratégicas de negócio. Vs do Big Data Volume: Trata de quantidades de dados extremamente grandes, que crescem exponencialmente e que, não raramente, são subutilizados justamente por estarem nestas condições. Velocidade: A fim de satisfazer determinados problemas, deve-se poder tratar os dados em tempo hábil, sendo as vezes necessário tratá-los em tempo real; (operadora de cartão de crédito) Variedade: É necessário tratar a variedade de dados como parte de um todo - um tipo de dado pode ser inútil se não for associado a outros. Neste caso entram em cena os dados estruturados, provenientes de bancos de dados estruturados e os dados não estruturados, informações vindas de sites, audio, video, imagens, etc. Vs do Big Data Veracidade: Os dados devem ser confiáveis, sendo necessário que haja processos que garantam ao máximo possível a consistência dos dados. Valor: A solução de big data deve trazer benefícios significativos para o negócio, compensando o investimento de tempo e recursos. Data Warehouse Os Data Warehouse têm características de servir principalmente para aplicações de tomada de decisão. Eles são otimizados para recuperação de dados e não para processamento de transações de rotina. Definição: “Uma coleção de dados orientada a assuntos, integrada, não volátil, variável no tempo para o suporte às decisões de gerência”. OLAP: Processamento analítico online: termo usado para descrever a análise de dados complexos do Data Warehouse. Utiliza capacidades de computação distribuída para análises que exigem maior armazenagem e poder de processamento. DSS: Sistema de apoio a decisão, conhecidos também como CIS ou SIE (Sistema de Informação Executivo) que auxiliam os principais tomadores de decisões com dados de mais alto nível. Data Warehouse Os bancos de dados tradicionais têm suporte a processamento de transações online (OLTP) que inclui inserções, atualizações e exclusões e também consultas, não sendo otimizados para OLAP, DSS ou Data Mining. Já o Data Warehouse são projetados para dar suporte a extração, processamento e tomada de decisão. Data Warehouse existe para facilitar as consultas ocasionais complexas, com uso intenso e frequente de dados. Devem fornecer consultas muito maiores e mais eficientes do que ao Bancos de Dados transacionais. Big Data VS Data Warehouse Conceitualmente, um Data Warehouse é um conjunto de dados baseado em assuntos integrados, não voláteis, variáveis em relação ao tempo, e destinado a auxiliar em decisões de negócios. Big Data se baseia em um grande volume de dados, voláteis ou não, com maior velocidade. E também em vez de criar um subconjunto limpo de dados do utilizador para os colocar numa “Data Warehouse” e serem consultados a partir de um número limitado de formas prédeterminadas, o software de Big Data recolhe todos os dados que uma organização gera e permite que os administradores e analistas se preocupem em como usá-los mais tarde. Neste sentido são mais escaláveis do que os bancos de dados tradicionais e os “Data Warehouses”. Bibliografia