Processo de Descoberta do Conhecimento

Propaganda
Descoberta de Conhecimento em
Bancos de Dados - KDD
Professor: Rosalvo Ferreira de Oliveira Neto
Disciplina: Inteligência Artificial
Tópicos
1.
2.
3.
4.
5.
Definições
Fases do processo
Tarefas Básicas de Data Mining
Comparações
Ferramenta Tanagra
Descoberta de Conhecimento em
Bancos de Dados - KDD
A descoberta de conhecimento em bancos de
dados (Knowledge Discovery in DatabasesKDD) é um processo que envolve desde a
preparação da base de dados até a
apresentação do conhecimento deles extraído
pelas técnicas de mineração.
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Descoberta de Conhecimento em
Bancos de Dados - KDD
KDD é uma atividade multidisciplinar que se fundamenta em 3 áreas da
computação:
•Data WareHouse (DW): oferece os dados com a visão histórica
adequada tanto à extração de conhecimento quanto à apresentação
de resultados
•Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e
previsões faz associações e extrai o conhecimento implícito nos
dados (regras do negócio)
•On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de
consulta que apresentam os resultados tanto das consultas diretas
ao Data WareHouse quanto das respostas da mineração dos dados
contidos no Data WareHouse.
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Descoberta de Conhecimento em
Bancos de Dados - KDD
A definição do termo Knowledge Discovery in Databases
(KDD) foi introduzida por Fayyad et al. como parte de
um processo ainda mais amplo de Data Mining.
Knowledge Discovery in Databases (KDD) ou Descoberta
do Conhecimento em Bases de Dados é um processo
não trivial, iterativo, interativo e com múltiplos
estágios que manipula e transforma os dados no
intuito de descobrir padrões relevantes. Fayyad et al.
identificaram cinco estágios do processo de KDD:
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Descoberta de Conhecimento em
Bancos de Dados - KDD
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Seleção
Seleção dos dados: também chamado de amostragem
dos dados, é o processo que define quais serão os
dados a serem minerados no projeto. Os dados
podem ser selecionados das mais diversas fontes de
dados, tais como: banco de dados relacional, arquivo
texto legado, dentre outros.
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Pré-processamento
Pré-processamento dos dados: é nesta fase que os
dados são organizados e as inconsistências e
integração são tratadas.
Mudança de granularidade, Tratamento de Missing
Value e OutLiers
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Transformação
Transformação dos dados: que consiste na
transformação dos dados brutos em dados
transformados para aplicação da técnica inteligente.
Esta fase depende do algoritmo a ser aplicado na
fase seguinte.
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Data Mining
Data Mining: também conhecido como algoritmo de
aprendizagem, esta fase aplica a técnica inteligente
para extração do conhecimento. Na fase seguinte, é
aplicado o algoritmo minerador, como por exemplo:
redes neurais, árvores de decisão, análise de
clustering, dentre outros.
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Avaliação
Interpretação dos Resultados: Por fim, vem a fase de
validação do conhecimento minerado, onde o
especialista do domínio de aplicação é fundamental
para homologação do conhecimento adquirido, pois
nesta fase são validados todos os resultados obtidos
no projeto
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Tarefas Básicas de Data Mining
 Agrupamento
•
Identificação de grupos de indivíduos/registros que têm
perfis semelhantes
 Regressão
•
Estimação de valores contínuos na resposta do sistema
 Classificação
•
Decisão do sistema categorizando cada indivíduo/registro
em uma classe pré-definida
 Extração de regras de associação e de classificação
•
Apresentação de relações entre as variáveis de entrada e
entre as variáveis de entrada e as respostas do sistema
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Comparações/Perguntas
Os gestores de uma instituição necessitam de
informações sobre o estado atual e tendências de
seus negócios. On-line Analytical Processing (OLAP)
oferece analises de dados através do agrupamento e
contagem das freqüências destes dados, e desta
forma responde a perguntas do tipo:
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Comparações/Perguntas
•
Quais são as características dos meus clientes mais
freqüentes?
•
Quais são os produtos mais vendidos?
•
Qual a duração média de internamento de um
paciente no hospital?
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Comparações/Perguntas
Os gestores precisam de mais informações para tomar
uma melhor decisão. Outros tipos de perguntas
devem ser respondidos nestes relatórios, como por
exemplo:
•
•
•
Quais clientes são mais propensos a deixarem minha
carteira nos próximos seis meses?
Quais clientes são mais propensos a ficarem
inadimplentes?
Quais clientes são mais propensos a serem
internados?
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Ferramenta Tanagra
Tanagra é um programa gratuito para fins acadêmicos e
de pesquisa. Ele propõe aos seus usuários vários
métodos de exploração e análise de dados, de
aprendizagem estatística, aprendizado de máquinas
e área de banco de dados
http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Ferramenta Tanagra
Univasf – Inteligência Artificial – Prof.: Rosalvo Neto
Download