Aula 3 - Prof. Edilberto Silva

Propaganda
TABD - I
Agenda
TABD - I
Unidade I - KDD (Knowledge Discovery in Databases)
! Estruturas de OLAP
•
!
AULA 2 – KDD
Unidade 1
Descoberta de Conhecimento em
Bases de Dados
!
!
ROLAP / MOLAP / HOLAP / WOLAP
Conceitos
Fases
Metodologia para KD
•
CRISP-DM
Prof. Edilberto M. Silva
Edilberto M. Silva - TABD I
2
Produto
Estruturas OLAP
Consulta
sobre
Vendas
Estruturas OLAP
BD
de
Vendas
Geografia
"
Tempo
OLAP - On-line Analitycal Process
"
– No OLAP as respostas não são automáticas
– Trata-se de um processo interativo, onde o usuário formula
hipóteses, faz consultas, recebe informações, verifica um dado
específico em profundidade e faz comparações (CARVALHO,
1997b).
– Ajuda os usuários a sintetizarem as informações sobre a empresa,
através de comparações, visões personalizadas, análises
estatísticas, previsões e simulações (FIGUEIREDO, 1998).
– 4 tipos de estruturas OLAP:
•
•
•
•
ROLAP
MOLAP
HOLAP
WOLAP
– Desvantagens
• pobre conjunto de funções para análises dimensionais
• inadequação do esquema estrela (star scheme),
"
MOLAP - Multidimensional On-Line Analytical Process
– modelados em uma estrutura conhecida por cubo
– estruturas de dados do tipo "array"
– Vantagens
3
6
5
4
Carro B
3
5
5
Carro C
4
3
3
Azul
Vermelho
Verde
• Maior necessidade de espaço, para armazenamento
• maior possibilidade de ocorrência dos dados esparsos
Edilberto M. Silva - TABD I
4
KDD - Conceituação
Estruturas OLAP
• Quanto aos resultados
HOLAP - Hybrid OLAP
– sistema híbrido que utiliza os dois tipos de OLAP: ROLAP e o
MOLAP
“KDD é o processo, não trivial, de extração de
informações, implícitas, previamente
desconhecidas e úteis, a partir dos dados
armazenados em um banco de dados.”
WOLAP ou Web OLAP
– migração da tecnologia OLAP para o ambiente da Internet
Data
Warehouse
[Frawley, Piatetsky-Shapiro & Matheus,1991]
– Vantagens
Reconhecimento de
padrões
• a possibilidade de plataformas independentes
• Quanto ao processo
• suporte a usuários distantes
• aplicações de groupware
Visualização
“KDD é uma tarefa de descoberta de
conhecimento intensivo, consistindo de
interações complexas, feitas longo do tempo,
entre o homem e uma grande base de dados,
possivelmente suportada por um conjunto
heterogêneo de ferramentas. [Brachman &
• facilidade de aprendizado e de manutenção
– Desvantagens
• limitações dos recursos da Internet
• as interfaces e as funcionalidades reduzidas
FIGUEIREDO, A. M. C. M. (1998) Molap x Rolap: embate de tecnologias para data warehouse, Developers’ Magazine, n. 18, p.
24-25, fev. | CARVALHO, J. (1997b). OLAP sem segredos. Computerworld, nov. 1997.
ttp://www.idg.com.br/computerworld/computerworld/236/236indep01.htm
Edilberto M. Silva - TABD I
Carro A
– Desvantagens
Edilberto M. Silva - TABD I
"
• Não tem restrições no volume
• Tecnologia estabelecida, de arquitetura aberta e
padronizada
• o rico e complexo conjunto de funções de análises
• Rápido tempo de resposta
FIGUEIREDO, A. M. C. M. (1998) Molap x Rolap: embate de tecnologias para
data warehouse, Developers’ Magazine, n. 18, p. 24-25, fev.
CARVALHO, J. (1997b). OLAP sem segredos. Computerworld, nov. 1997.
http://www.idg.com.br/computerworld/computerworld/236/236indep01.htm
"
ROLAP - Relational On-Line Analytical Process
– Feita em banco de dados relacionais
– Vantagens
5
Banco de
Dados
KDD
Estatística
Inteligência
Aprendizado Artificial
de Máquinas
Anand,1995]
Edilberto M. Silva - TABD I
6
1
KDD – O processo
KDD – As Fases
No
No contexto
contexto de
de solução
solução
"
"
Interatividade
Identificação do problema
# desenvolvimento e o entendimento
do domínio da aplicação
Processo
de KDD
# conhecimentos prévios relevantes
# objetivos do usuário final.
"
"
"
O processo de KDD atua sobre os
dados do problema produzindo
conhecimento,
identifica padrões novos, precisos e
úteis e obtendo um modelo do
fenômeno.
O conhecimento obtido permite a
execução de ações produzindo
resultados.
Identificação
do Problema
Ação
"
"
"
Mensuração
"
"
Pré-processamento, Mineração e Pós-processamento
Busca realizar o processo de DC o mais automatizado possível
Sinergia com Data Warehousing
Data Mining (DM) é uma etapa do KDD
Custos e Mão-de-obra especializada
Silver, D. L., Knowledge Discovery and Data Mining, MBA course
notes of Dalhousie University, Nova Scotia, Canada, 1998.
http://ttg.sba.dal.ca/sba/profs/dsilver/.
Edilberto M. Silva - TABD I
PRADO, Hércules A. Abordagens híbridas para mineração de dados.
Exame de qualificação, Porto Alegre: CPGCC da
UFRGS-Universidade Federal do Rio Grande do Sul, 1998.
Edilberto M. Silva - TABD I
7
KDD – As Fases
KDD – As Fases
Obtenção e Extração dos Dados
Definição e Entendimento do Problema
"
"
Entender aonde se quer chegar
– entender e descobrir (qualidade dos dados e/ou na sua padronização.
– trivial, mas fundamental
– “respostas corretas para perguntas erradas”
Materialização do problema
"
Objetivos que possam ser mensurados
"
Aliar a extração do conhecimento à definição do problema.
"
Geralmente consiste em um datawarehousing
"
Atividades principais
– definição dos atributos a serem considerados
– extração física dos dados das diversas fontes
Exemplos:
– Quais os conceitos das notícias produzidas pela empresa e o quanto disto está
sendo “conhecido pela sociedade”? (Muito amplo, múltiplas interpretações)
– Quais os principais assuntos tratados pelas noticias mês a mês? (foco em uma solução,
delineação do problema)
Edilberto M. Silva - TABD I
Limpeza e Exploração dos Dados
"
Familiarização com os dados (conteúdo, tipos, significado..)
"
Limpeza para evitar identificação de padrões errôneos
Edilberto M. Silva - TABD I
9
KDD – As Fases
Análise sobre pontos específicos
"
Trabalhar com subconjuntos atributos ou tuplas. Modelo que obtiver melhor
Mineração de Dados
performance contra dados que não participaram do treinamento
"
10
KDD – As Fases
Engenharia dos Dados
"
Através do entendimento do problema
– coleção de dados necessários para resolução do problema
– entender de forma real o problema
"
8
"
Etapa mais importante do processo de KDD
"
Tarefa capaz de extrair eficientemente conhecimento implícito e útil de um
banco de dados.
Exemplos: 1) comportamento dos clientes do banco por região.
"
2) faixas de idade, como jovem, adulto ou idoso
“fase que transforma dados em informações”
Principais Tarefas
Engenharia do Algoritmo
Principais Técnicas
Associação
Estatística e Teoria dos Conjuntos
"
Seleciona a(s) técnica(s) e o(s) algoritmo(s)
Classificação
Algoritmos Genéticos, Redes Neurais e Arvores de Decisão
"
Escolha dos parâmetros mais adequados
Clustering
Redes Neurais e Estatística
Previsão Séries Temporais
Redes Neurais, Lógica Nebulosa e Estatística
Edilberto M. Silva - TABD I
11
Edilberto M. Silva - TABD I
12
2
Metodologia para Descoberta de
Conhecimento - CRISPCRISP-DM
KDD – As Fases
Interpretação e Validação dos Resultados
"
Rever e repassar os passos que lhe deram origem
"
Certificar que o mesmo esteja aliado aos objetivos do negócio
"
Generalização a partir dos dados do treinamento (overfitting)
"
Refinamento dos Dados e do Problema
Conhecimento
"
Ação
"
Aplicação das Informações no negócio da organização
Edilberto M. Silva - TABD I
"
"
"
Relatório Inicial da Coleção
Descrição dos Dados
Exploração dos Dados
Qualidade dos Dados
Seleção dos Dados
Limpeza dos Dados
Engenharia dos Dados
Integração dos Dados
Formatação dos Dados
Edilberto M. Silva - TABD I
Padroniza conceitos e
técnicas na busca de
informações específicas
para a tomada de decisões
em negócios.
"
6 etapas não-rígidas
14
Modelagem
Nessa fase são selecionadas e aplicadas as técnicas de Data Mining mais apropriadas,
dependendo dos objetivos pretendidos
–
–
–
–
"
[CRISP[CRISP-DM Process Model,
Model, 2000]
15
Seleção da Técnica
Teste do modelo
Modelo
Avaliação Técnica do Modelo
Avaliação dos Resultados
É verificado se os resultados vão ao encontro dos objetivos do negócio, previamente
determinados. É indispensável a participação do especialista que, conhecendo o negócio, será
capaz de avaliar se existem falhas ou contradições importantes. A partir disso, decide se o
processo termina ou se deverão ser feitas correções no processo, voltando a fases anteriores, ou
iniciar novo processo
–
–
–
Preparação dos Dados
Criação de programas de extração, limpeza e transformação dos dados para uso pelos
algoritmos de data mining
–
–
–
–
–
"
Objetivo do Negócio
Avaliação da Situação
Objetivos da Mineração de Dados
Plano do Projeto
Entendimento dos Dados
O analista deve identificar as informações relevantes, familiarizando-se com seu conteúdo,
descrição, qualidade e utilidade. Também deverão ser listadas as fontes dos dados, o
procedimento de leitura e eventuais problemas detectados.
–
–
–
–
"
CRISPCRISP-DM
Entendimento do Negócio
Nessa fase inicial, é necessário que se entenda o que o cliente deseja, identificando eventuais
problemas e/ou restrições que, se desconsideradas poderão implicar perda de tempo e esforço.
–
–
–
–
CRoss-Industry Standard
Process for Data Mining –
1996
Edilberto M. Silva - TABD I
13
CRISPCRISP-DM
"
"
Avaliação
Revisão dos Processos
Próximos passos
Aplicação
Nesse momento é gerado um relatório para explicar os resultados e as experiências, procurando
utilizá-los no negócio
–
–
–
Planejamento da Aplicação
Produção do relatório final
Revisão de projeto
Edilberto M. Silva - TABD I
[CRISP[CRISP-DM Process Model,
Model, 2000]
16
3
Download