KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002 1 KDD: Motivação • aumento do volume de dados • ineficiência da análise manual • necessidade de novas teorias e ferramentas para auxílio na extração de conhecimento do crescente volume de dados digitais set/2002 2 KDD: Definição Processo não trivial de identificar padrões que sejam válidos, novos, potencialmente úteis e inteligíveis, em dados. CONHECIMENTO set/2002 3 KDD: Objetivos 1. Verificação (hipótese do usuário) 2. Descoberta (novos padrões) - previsão - descrição set/2002 4 Classificação dos Padrões 1. Regra de Associação - regras na forma: A1... AnB1 ... Bm (atributos) - redes de dependência de probabilidade ID Transação 2 1 4 5 Itens A,B,C A,C A,D B,E,F Itens A e C: A C (50%, 66.6%) suporte: P(A e C) = 50% Grau de Interesse confiança: P(C|A) = 66.6% set/2002 5 Classificação dos Padrões 2. Regra de Classificação - classificação de um conjunto de dados baseado nos valores de um atributo (atributo classificador) - árvores de decisão - aprendizado de máquina - redes neurais set/2002 6 Classificação dos Padrões 3. Agrupamento - agrupa um conjunto de dados (sem um determinado atributo) - similaridade intraclasse x extraclasse 4. Detecção de mudança/desvio - evolução do comportamento de um conjunto de dados set/2002 7 Classificação dos Padrões 5. Regras de Generalização - sintetizar características gerais de um conjunto de dados ex: média e desvio padrão - visão de alto nível de um conjunto de dados Cod Barra 2 1 4 5 7 set/2002 Marca Categoria A Leite Integral C Pão Integral F Leite Desnatado E Pão Branco B Leite Integral Tamanho ... 1 litro 300 gr 1 litro 300 gr 1/2 litro 8 Classificação dos Padrões Alimentos pão leite desnatado A integral integral branco B - Indução orientada a atributos (utiliza hierarquia da conceitos) set/2002 9 Etapas do KDD Interpretação / Avaliação Mineração de Dados Transformação Pré-processamento Padrões Seleção Dados Préprocessados Dados set/2002 CONHECIMENTO Dados Transformados Dados Alvo 10 Grupo BIOINFO-USP Mundo Externo Transformação dos dados Leitura de Dados set/2002 Núcleo de Mineração BD Relacional Dados Primários Mineração de Dados Máquinas Paralelas de Alto Desempenho BD de Objetos Complexos OC Elo entre dados primários e OC 11 Grupo BIOINFO-USP • Mineração de Dados (dados extraídos do BD) - classificadores e técnicas de agrupamento - representação do conhecimento: objetos complexos/BD Relacional • Interesses futuros: - técnicas de representação de conhecimento de IA - uso de conhecimento prévio set/2002 12 Proposta de Pesquisa Ferramentas de representação de conhecimento Base de Conhecimento Permitir a integração com a etapa de Mineração de Dados set/2002 13 Proposta de Pesquisa Hierarquia de Conceitos Formação: implícita no BD (definida pelo projetista) definida por especialistas análise de distribuição de dados (descoberta) set/2002 14 Proposta de Pesquisa Hierarquia de Conceitos (cont) Ajuste: dados dinâmicos levam a novos conceitos Codificação: permitir que seja utilizada pelos algoritmos de MD set/2002 15 Descoberta de padrões em múltiplos níveis conceituais Mineração de conceitos individuais (primitivos ou mais abstratos) (1) em geral, não existem regularidades fortes em conceitos de níveis baixos de abstração (2) regularidades em conceitos de nível mais alto de abstração, em geral podem ser conhecidas set/2002 16 Descoberta de padrões em múltiplos níveis conceituais Alimentos pão leite desnatado A integral integral branco B Leite Integral Pão Branco set/2002 17 KDD + IA Fim set/2002 18 Árvores de Decisão Jogar tênis SOL Chuvoso Encoberto umidade alta sim normal não DIA TEMPO 1 SOL 2 CHUVOSO set/2002 forte sim TEMPERATURA 28O 25O vento não UMIDADE 85% 96% VENTO 15 Km/h 60 Km/h fraco sim CLASSE/CATEGORIA JOGAR NÃO JOGAR 19