Banco de Dados Data Mining Data Warehouse Big Data

Propaganda
Universidade Estadual de Mato Grosso do Sul
Curso de Computação, Licenciatura
Banco de Dados
Data Mining
Data Warehouse
Big Data
Prof. José Gonçalves Dias Neto
[email protected]
Data Mining: Introdução
Data Mining (mineração de dados): refere-se à descoberta de novas
informações em termos de padrões ou regras, como base em grande
quantidades de dados.
Com crescente informatização, as empresas estão armazenando grandes
volumes de dados, e o processo de Data Mining permite que se investigue
esses dados à procura de padrões que tenham valor para a empresa.
Embora alguns recursos de mineração de dados estejam sendo fornecidos em
SGBDs, ela não é bem integrada a estes sistemas.
Utiliza técnicas de áreas como aprendizado de máquina, estatística, redes
neurais e algoritmos genéticos.
Auxilia na extração de novos padrões significativos que não podem ser
necessariamente encontrados apenas ao consultar ou processar dados.
Data Mining: introdução
“Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o
problema, selecionar os dados e as ferramentas para analisar tais
dados, as ferramentas do Data Mining pesquisam automaticamente os
mesmos a procura de anomalias e possíveis relacionamentos,
identificando assim problemas que não tinham sido identificados pelo
usuário.” (Devmidia)
Faz parte de um processo maior e mais complexo denominado
“descoberta de conhecimento” em banco de dados – KDD (Knowledge
Discovery in Database).
Este processo compreende 6 (seis) fases: Seleção de dados, Limpeza de
dados, Enriquecimento, Transformação de dados, Mineração de dados,
Relatório e exibição de dados.
Aplicações de Data Mining – Revista Exame
Caso 1: Uma das maiores redes de varejo dos Estados Unidos
descobriu, em seu gigantesco armazém de dados, que a venda
de fraldas descartáveis estava associada à de cerveja. Em geral,
os compradores eram homens, que saíam à noite para comprar
fraldas e aproveitavam para levar algumas latinhas para casa. Os
produtos foram postos lado a lado. Resultado: a venda de fraldas
e cervejas disparou.
Caso 2: Outra rede varejista descobriu que a venda de colírios
aumentava na véspera dos feriados. (Por quê? Mistério...) Passou
a preparar seus estoques e promoções do produto com base
nesse cenário.
Aplicações de Data Mining – Revista Exame
Caso 3: O banco Itaú, costumava enviar mais de 1 milhão de
malas diretas, para todos os correntistas. No máximo 2% deles
respondiam às promoções. Hoje, o banco tem armazenada
toda a movimentação financeira de seus 3 milhões de clientes
nos últimos 18 meses. A análise desses dados permite que
cartas sejam enviadas apenas a quem tem maior chance de
responder. A taxa de retorno subiu para 30%. A conta do
correio foi reduzida a um quinto.
Objetivos da Data Mining:
Previsão: Identificar como certos atributos dos dados se comportarão no futuro. Ex:
analisar de compras para prever o que os consumidores comprarão, quanto volume de
vendas uma loja gerará em determinado período.
Identificação: Usados para identificar a existência de um item, um evento ou atividade,
Ex: Hackers tentado quebrar um sistema utilizam um conjunto de ferramentas ou
técnicas.
Classificação: Identificar classes ou categorias diferentes com base em combinações de
parâmetros. Ex: Clientes de um supermercado podem ser classificados como:
Compradores por desconto, clientes fiéis, compradores específicos (de determinado
produto apenas).
Otimização: Otimizar o uso de recursos limitados (tempo, espaço, dinheiro, hardware).
Aplicações de Mineração De Dados
Geralmente as técnicas são aplicadas a contextos de tomada de decisão em
negócios de diversas áreas de atuação.
Marketing: Análise de comportamento do consumidor com base nos padrões de
venda, os quais fornecem conhecimento para estratégias de marketing como
propaganda, local da loja, disposição dos produtos, etc.
Finanças: Análise de crédito de clientes, segmentação de contas a receber,
investimentos financeiros.
Saúde: Descoberta de padrões para agrupamento de genes e relacionamento de
sintomas ou doenças, eficácias de certos tratamentos.
Big Data
e
Data Warehouse
Big Data
É a grande quantidade de dados armazenados – estruturados ou não
– geralmente dados complexos, que podem impactar na empresa
modelada.
“A princípio, podemos definir o conceito de Big Data como sendo
conjuntos de dados extremamente amplos e que, por este motivo,
necessitam de ferramentas especialmente preparadas para lidar
com grandes volumes, de forma que toda e qualquer informação
nestes meios possa ser encontrada, analisada e aproveitada em
tempo hábil.” [infowestern]
Big Data é analisado para a obtenção de insights que levam a
melhores decisões e direções estratégicas de negócio.
Vs do Big Data
Volume: Trata de quantidades de dados extremamente grandes, que
crescem exponencialmente e que, não raramente, são subutilizados
justamente por estarem nestas condições.
Velocidade: A fim de satisfazer determinados problemas, deve-se
poder tratar os dados em tempo hábil, sendo as vezes necessário
tratá-los em tempo real; (operadora de cartão de crédito)
Variedade: É necessário tratar a variedade de dados como parte de um
todo - um tipo de dado pode ser inútil se não for associado a outros.
Neste caso entram em cena os dados estruturados, provenientes de
bancos de dados estruturados e os dados não estruturados,
informações vindas de sites, audio, video, imagens, etc.
Vs do Big Data
Veracidade: Os dados devem ser confiáveis, sendo necessário
que haja processos que garantam ao máximo possível a
consistência dos dados.
Valor: A solução de big data deve trazer benefícios significativos
para o negócio, compensando o investimento de tempo e
recursos.
Data Warehouse
Os Data Warehouse têm características de servir principalmente para
aplicações de tomada de decisão. Eles são otimizados para recuperação
de dados e não para processamento de transações de rotina.
Definição: “Uma coleção de dados orientada a assuntos, integrada, não
volátil, variável no tempo para o suporte às decisões de gerência”.
OLAP: Processamento analítico online: termo usado para descrever a
análise de dados complexos do Data Warehouse. Utiliza capacidades de
computação distribuída para análises que exigem maior armazenagem e
poder de processamento.
DSS: Sistema de apoio a decisão, conhecidos também como CIS ou SIE
(Sistema de Informação Executivo) que auxiliam os principais tomadores
de decisões com dados de mais alto nível.
Data Warehouse
Os bancos de dados tradicionais têm suporte a processamento
de transações online (OLTP) que inclui inserções, atualizações
e exclusões e também consultas, não sendo otimizados para
OLAP, DSS ou Data Mining. Já o Data Warehouse são
projetados para dar suporte a extração, processamento e
tomada de decisão.
Data Warehouse existe para facilitar as consultas ocasionais
complexas, com uso intenso e frequente de dados. Devem
fornecer consultas muito maiores e mais eficientes do que ao
Bancos de Dados transacionais.
Big Data VS Data Warehouse
Conceitualmente, um Data Warehouse é um conjunto de dados baseado
em assuntos integrados, não voláteis, variáveis em relação ao tempo, e
destinado a auxiliar em decisões de negócios.
Big Data se baseia em um grande volume de dados, voláteis ou não, com
maior velocidade. E também em vez de criar um subconjunto limpo de
dados do utilizador para os colocar numa “Data Warehouse” e serem
consultados a partir de um número limitado de formas prédeterminadas, o software de Big Data recolhe todos os dados que uma
organização gera e permite que os administradores e analistas se
preocupem em como usá-los mais tarde.
Neste sentido são mais escaláveis do que os bancos de dados tradicionais
e os “Data Warehouses”.
Bibliografia
Download