Fatores para o Sucesso Mineração de Dados Aspectos Relevantes na fase de Preparação de Dados Você sabe que Mineração de Dados é um projeto contínuo de busca de inteligência e inferência aplicada aos dados? Você sabe com detalhe qual é o seu problema? Seus objetivos e metas estão claramente definidos? Você definiu o grau de suas expectativas? Qual o resultado desejado? Stanley Robson de M. Oliveira MT-803: Tópicos em Matemática Aplicada – Aula 2. Fatores para o Sucesso Mineração de Dados Existem requisitos de análises complexas, tendências escondidas, perfis de comportamento, verificação de hipóteses? Você detém técnicas necessárias e possui equipe com domínio de análise de dados? Você tem os dados necessários, na granularidade desejada? MT-803: Tópicos em Matemática Aplicada – Aula 2. 3 2 A fase de pré-processamento de dados No mundo real, dados coletados e organizados tendem a ser: incompletos; fora de padrões; redundantes; e inconsistentes. A fase de pré-processamento de dados iniciase após a coleta e organização desses dados. Esta fase pode consumir até 60% do tempo disponível para exploração de dados (Pyle,1999). MT-803: Tópicos em Matemática Aplicada – Aula 2. 4 A importância da preparação de dados A importância da preparação de dados Preparação de dados: a etapa que consome a maior parte de tempo no processo de KDD. O sucesso ou fracasso de um projeto de mineração de dados está relacionado à preparação de dados. A preparação de dados ajuda um analista: CASO 1- Preparação de dados p/ Warehousing: Ineficiente para algumas tarefas de mineração; Compromete a precisão dos modelos; A preparação pode destruir informações úteis para o processo de mineração de dados. CASO 2 - Preparação de dados p/ Mineração: Interpretar melhor os resultados; Melhora fortemente a precisão do modelo; Entender os limites nos dados. Produz grande economia em termos de tempo, esforço e dinheiro. MT-803: Tópicos em Matemática Aplicada – Aula 2. 5 MT-803: Tópicos em Matemática Aplicada – Aula 2. 6 Exploração de Dados: Estágios Tempo Necessário (% do total) Importância p/ Sucesso (% do total) 1. Identificação do Problema 10 15 2. Explorar possíveis soluções 9 3. Especificação da implementação 1 51 4a. Preparação 60 15 4b. Explorar cenários 15 4c. Modelagem 5 20 14 Caracterização e Representação de Dados 80 Stanley Robson de M. Oliveira 4. Mineração de dados MT-803: Tópicos em Matemática Aplicada – Aula 2. 80 3 20 Atributos 2 7 Relacionamentos O que são objetos e atributos? Tipos de Atributos • Um dataset é uma coleção de objetos e seus atributos. Atributos Principais tipos de atributos: • Um atributo é uma propriedade ou característica de um objeto. Tid Retorno – Exemplos: idade de uma pessoa, altura, etc. – Atributo é também conhecido como variável, campo, parâmetro ou “feature”. Objetos • Uma coleção de atributos descrevem um objeto. – Objeto é também conhecido como registro, observação, ponto, entidade ou instância. Estado Civil 1 Sim Solteiro 125K Não 2 Não Casado 100K Não 3 Não Solteiro 70K Não 4 Sim Casado 120K Não 5 Não Divorciado 95K Sim 6 Não Casado 60K Não 7 Sim Divorciado 220K Não 8 Não Solteiro 85K Sim 9 Não Casado 75K Não 10 Não Solteiro 90K Sim Nominal – assumem valores sem ordem natural. Renda Anual Mentiu Numérico – assumem valores numéricos. Exemplos: valores inteiros e reais (chuva, temperatura). Ordinal – assumem valores com ordem natural. Exemplos: Os meios de comunicação para transferência de tecnologia: {rádio, televisão, internet, jornal e revista}. Exemplos: Os estádios fenológicos da cultura de milho são: {plantio, emergência, floração e colheita}. Intervalo Exemplos: datas, temperaturas em Celsius ou Fahrenheit. 10 MT-803: Tópicos em Matemática Aplicada – Aula 2. 9 MT-803: Tópicos em Matemática Aplicada – Aula 2. 10 Valores de Atributos Valores de Atributos: Propriedades Valores O de atributos são números ou símbolos associados a um atributo. Diferença entre atributos e valores de atributos: Um mesmo atributo pode ser mapeado para diferentes valores de atributos: tipo de um atributo depende de suas propriedades: Exemplo: altura pode ser medida em metros ou centímetros. Diferentes atributos podem ser mapeados para o mesmo conjunto de valores: Exemplo: Valores de atributos de ID e idade são inteiros. Propriedades de atributos podem ser diferentes: Diferença: Ordem (relação): Adição: Multiplicação: = ≠ < > + */ Atributo Nominal: diferença. Atributo Ordinal: diferença e ordem. Atributo Intervalo: diferença, ordem e adição. Atributo Numérico: todas as 4 propriedades. ID não tem limite, mas idade tem valor máximo e mínimo. MT-803: Tópicos em Matemática Aplicada – Aula 2. 11 MT-803: Tópicos em Matemática Aplicada – Aula 2. 12 Atributo Domínio de um atributo Atributos precisam ser analisados cuidadosamente, pois eles têm faixa de valores diferentes. 5 A Transformação Comentários Nominal qualquer permutação de valores Se todos os IDs de empregados forem mudados, haverá alguma diferença? Ordinal Uma ordem preservando mudança de valores, i.e., novo_valor = f(valor_antigo) onde f é uma função monotônica. Um atributo contendo a noção de {regular, bom, excelente} pode ser representado pelos valores {1, 2, 3} ou { 0.5, 1,10}. Intervalo novo_valor =a * valor_anterior + b, onde a e b são constantes. A escala das temperaturas de Fahrenheit e Celsius diferem em termos do valor inicial. Taxa ou Proporção novo_valor = a * valor_antigo Comprimento pode ser medido em metros ou centímetros. 1 B 7 2 C 8 3 D 10 4 E 15 5 MT-803: Tópicos em Matemática Aplicada – Aula 2. 13 Atributos Discretos e Contínuos Baseados Têm um conjunto de valores finitos. Exemplos: CEP, o conjunto de palavras em uma coleção de documentos. Geralmente são representados como variáveis inteiras. Importante: atributos binários são um caso especial de atributos discretos. Geralmente são representados por valores reais. Exemplos: temperatura, altura, precipitação. Atributos contínuos podem ser medidos e representados usando-se um número finito de dígitos. MT-803: Tópicos em Matemática Aplicada – Aula 2. 15 em Gráficos World Wide Web Estruturas Moleculares Baseados em Registros Matriz de dados Coleção de Documentos Dados transacionais Baseados Atributos Contínuos 14 Tipos de Datasets (conjunto de dados) Atributos Discretos: MT-803: Tópicos em Matemática Aplicada – Aula 2. em uma Ordem (sequência) Dado espacial Dado temporal Dado sequencial Dado com sequência genética MT-803: Tópicos em Matemática Aplicada – Aula 2. 16 Características de dados estruturados Dimensionality Os dados consistem em uma coleção de registros, com um conjunto fixo de atributos. O desafio é a redução da dimensão. Sparsity (dimensionalidade) Datasets baseados em registros (esparsidade) Somente a presença do dado conta. Resolução Padrões dependem de uma escala. MT-803: Tópicos em Matemática Aplicada – Aula 2. 17 MT-803: Tópicos em Matemática Aplicada – Aula 2. 18 Matriz de Dados Coleção de Documentos • Os objetos têm o mesmo conjunto fixo de atributos; Cada • O dataset pode ser visto como um conjunto de pontos no espaço multidimensional, onde cada dimensão é um atributo. season timeout lost wi n game score MT-803: Tópicos em Matemática Aplicada – Aula 2. ball Febre Tosse P N P N P P pla y Sexo M F M coach Nome Jack Mary Jim Cada termo é uma componente (atributo) do vetor; O valor de cada componente é o número de vezes que o termo ocorre em um documento (frequência). team • O conjunto de dados pode ser representado por uma matriz m × n, onde cada uma das m linhas representa um objeto e as n colunas correspondem aos atributos. documento torna-se um vetor de termos: Test-1 Test-2 Test-3 Test-4 P N N N P N P N N N N N 19 MT-803: Tópicos em Matemática Aplicada – Aula 2. 20 Dados Transacionais Datasets Baseados em Gráficos • Um tipo especial de dataset, onde: Exemplos: – Cada registro (transação) contém um conjunto de itens. – Exemplo: Lista de produtos comprados em um supermercado por um determinado cliente. TID 2 {café, pão, pizza} 200 {queijo, torrada, vinho} 300 {café, queijo, pão, vinho} 400 {queijo, vinho} MT-803: Tópicos em Matemática Aplicada – Aula 2. 1 5 2 Lista de Itens 100 Grafos e Links em páginas HTML. 5 21 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Químicos Dados Baseados em Ordem Molécula Sequências de Benzeno : C6H6 22 de transações Itens/Eventos Um elemento da seqüência MT-803: Tópicos em Matemática Aplicada – Aula 2. 23 MT-803: Tópicos em Matemática Aplicada – Aula 2. 24 Dados Baseados em Ordem ... Dados Baseados em Ordem ... Dados de seqüências genômicas. Dados espaço-temporal. Janeiro GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG MT-803: Tópicos em Matemática Aplicada – Aula 2. Temperatura média mensal da terra e do oceano. 25 MT-803: Tópicos em Matemática Aplicada – Aula 2. 26 Índice Métodos Usados na Preparação de Dados Por que pré-processar os dados? Sumarização Limpeza de dados descritivos. dos dados. Stanley Robson de M. Oliveira Integração Limpeza e transformação de dados. Integração e Transformação de Dados MT-803: Tópicos em Matemática Aplicada – Aula 2. 28 Por que pré-processar os dados? Por que pré-processar os dados? … No mundo real, geralmente os dados são (têm): Incompletos: ausência de valores de atributos, ausência de atributos de interesse, ou dados com valores agregados. Ruídos: existências de erros ou outliers. Inconsistentes: informações desatualizadas ou oriundas de erros no momento de introdução dos dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. 29 Principais tarefas no pré-processamento Limpeza dos dados Sem qualidade de dados, não há qualidade nos resultados da mineração de dados! Decisões com qualidade são baseadas em dados com qualidade. Data Warehouse precisa de integração consistente de qualidade de dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. Principais tarefas no pré-processamento Transformação de dados Preencher valores faltantes; Normalização; Reduzir ruídos nos dados; Agregação. Identificar e remover outliers; Identificar e eliminar inconsistências; Identificar e eliminar redundâncias. Integração de dados Integração de múltiplos repositórios; Integração de arquivos. MT-803: Tópicos em Matemática Aplicada – Aula 2. Redução de dados Obtenção da representação reduzida em volume, mas que produza resultados analíticos similares. Discretização de dados 31 30 Uma forma de redução de dados, mas com interesse particular, especialmente para dados numéricos. MT-803: Tópicos em Matemática Aplicada – Aula 2. 32 Índice Formas de pré-processamento de dados Por • Limpeza dos dados que pré-processar os dados? Sumarização • Integração dos dados • Transformação dos dados Limpeza 1, 3, 5, 7, 9 [0, 1] dos dados. Integração 0.00, 0.25, 0.50, 0.75, 1.00 de dados descritivos. e transformação de dados. A1 A2 A3 A4 A5 . . . A125 • Redução dos dados 1 2 3 . . . 10800 A1 A2 A3 A4. . . A68 1 2 . . . 5425 MT-803: Tópicos em Matemática Aplicada – Aula 2. MT-803: Tópicos em Matemática Aplicada – Aula 2. 33 34 Χ Características descritivas de dados Motivação: Medidas de Posição (tendência central) 1 n Análise de Boxplot ou quartil em intervalos ordenados. Média aritmética ponderada: ∑wx i x = i Moda (Mo): É o valor mais frequente em um conjunto de valores numéricos. Mediana (Md): Dado um grupo de dados ordenados, a mediana separa a metade inferior da amostra da metade superior. Indicador da forma da distribuição dos dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. i i =1 n ∑w Medidas de Assimetria: (simetria e assimetria) x N n Dimensões numéricas: relação c/ intervalos ordenados. Dispersão de dados: analisada em múltiplas granularidades. xi i =1 i =1 média, max, min, quartils, outliers, variância, etc. µ=∑ n ∑ Medidas de posição e de dispersão dos dados: x = Melhor entendimento sobre os dados: tendência central, variação e distribuição. Média aritmética simples: 35 MT-803: Tópicos em Matemática Aplicada – Aula 2. 36 Separatrizes Exemplos Para o seguinte conjunto: {1, 3, 5, 7, 9} A média é 5; A mediana é 5. No entanto, para o conjunto: {1, 2, 7, 7, 13} A mediana é 7, enquanto a média é 6; A moda é 7. Não são medidas de tendência central. As separatrizes estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores. As separatrizes são: Qual seria a mediana para o conjunto: {1, 2, 4, 10, 12, 13}? Mediana = (4 + 10)/2 = 7. MT-803: Tópicos em Matemática Aplicada – Aula 2. 37 Exemplo de Separatrizes Se (Md - Q1) = (Q3 - Md) => distribuição simétrica. Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou positiva; Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou negativa. MT-803: Tópicos em Matemática Aplicada – Aula 2. Quartil: divide um conjunto de dados em quatro partes iguais. Decil: divide um conjunto de dados em dez partes iguais. Percentil: divide um conjunto de dados em cem partes iguais. MT-803: Tópicos em Matemática Aplicada – Aula 2. 38 Distribuição Simétrica e Assimétrica Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais: 39 Mediana, média e moda de dados com distribuição simétrica e assimétrica. MT-803: Tópicos em Matemática Aplicada – Aula 2. Mean Median Mode 40 Medindo a dispersão dos dados ... Medindo a dispersão dos dados Quartils, outliers e boxplots Quartils: Q1 (25o percentil), Q3 (75o Variância e desvio padrão (amostra: s, população: σ) percentil). Amplitude interquartílica (Inter-quartile range): Variância: s2 = Desvio padrão s (ou σ) é a raiz quadrada da variância IQR = Q3 – Q1 (50% dos dados). Sumário dos cinco números : min, Q1, Mediana, Q3, max. Boxplot: uma linha central mostrando a mediana, uma s2 (ou σ2) linha inferior mostrando o primeiro quartil, uma linha σ2 = superior mostrando o terceiro quartil. 1 n 2 1 n 2 1 n 2 x − x = [∑ xi − (∑ xi ) ] ( ) ∑ i n −1 i=1 n −1 i=1 n i=1 Outliers: Limite Inferior = Q1 – 1.5 x IQR; 1 N n ∑ ( xi − µ ) 2 = i =1 1 N n ∑x 2 i −µ2 i =1 Limite Superior = Q3 + 1.5 x IQR. MT-803: Tópicos em Matemática Aplicada – Aula 2. Análise de Boxplot Boxplot: Um percentil é uma medida da posição relativa de uma unidade observacional em relação a todas as outras. 41 MT-803: Tópicos em Matemática Aplicada – Aula 2. 42 Exemplo de BoxPlots outlier 90th percentile Boxplots podem ser usados para comparar a dispersão dos valores de atributos. 75th percentile 50th percentile 25th percentile 10th percentile O p-ésimo percentil tem no mínimo p% dos valores abaixo daquele ponto e no mínimo (100 - p)% dos valores acima. Se uma altura de 1,80m é o 90o. percentil de uma turma de estudantes, então 90% da turma tem alturas menores que 1,80m e 10% têm altura superior a 1,80m. MT-803: Tópicos em Matemática Aplicada – Aula 2. 43 MT-803: Tópicos em Matemática Aplicada – Aula 2. 44 Propriedades da distribuição normal Análise de Histogramas A distribuição normal com média μ e desvio padrão σ: No intervalo de μ–σ até μ+σ: contém 68% das observações; No intervalo de μ–2σ até μ+2σ: contém 95% das observações; No intervalo de μ–3σ até μ+3σ: contém 99.7% das observações. Gráfico que mostra a estatística básica da descrição de classes. Histograma de Freqüências Mostra a distribuição dos valores de uma variável; Consiste em um conjunto de retângulos, em que cada retângulo representa a frequência de uma das classes presentes nos dados. 95% −3 −2 −1 0 +1 +2 +3 99.7% 68% (a) Amplitudes iguais −3 −2 −1 0 +1 +2 +3 −3 −2 −1 0 MT-803: Tópicos em Matemática Aplicada – Aula 2. +1 +2 45 Análise de correlação Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. +3 MT-803: Tópicos em Matemática Aplicada – Aula 2. Valor de r ∑ ( A − A )( B − B ) = ∑ ( AB ) − n A B +1,00 Onde n é o número de observações, A e B são as médias das variáveis A e B, σA e σB são os devios-padrão de A e B. Cerca de 0,7 ( n − 1)σ Aσ B Descrição do relacionamento Diagrama de dispersão Relacionamento positivo perfeito ( n − 1)σ A σ B Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior for o valor rA,B, maior será a correlação entres as variáveis A e B). rA,B = 0: A e B são independentes ou não possuem relacionamento; rA,B < 0: A e B são negativamente correlacionadas. MT-803: Tópicos em Matemática Aplicada – Aula 2. 46 Exemplos de diagramas de dispersão Coeficiente de correlação (também conhecido como coeficiente de Pearson): rA , B = (b) Amplitude desiguais 47 Relacionamento positivo moderado Relacionamento negativo perfeito -1,0 Cerca de -0,7 Relacionamento negativo moderado MT-803: Tópicos em Matemática Aplicada – Aula 2. 48 Exemplos de ausência de relacionamento Índice Por que pré-processar os dados? Sumarização Limpeza dos dados. Integração MT-803: Tópicos em Matemática Aplicada – Aula 2. 49 Limpeza dos dados de dados descritivos. e transformação de dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. Valores faltantes Relevância: “Data cleaning is one of the three biggest problems in data warehousing” — Ralph Kimball. “Data cleaning is the number one problem in data warehousing” — DCI (Downtown Cincinnati Inc.) survey. Em muitos casos, dados podem ser incompletos: Procedimentos para limpeza dos dados: Muitas observações podem não possuir valores para alguns atributos (Ex.: renda anual de clientes em dados de vendas). Valores faltantes ocorrem devido: Problemas com equipamentos (perdas de dados); Inconsistência com outros registros e portanto são deletados; Preencher valores faltantes; Dados não digitados por causa de mal interpretação; Identificar outliers e remover ruídos nos dados; Alguns dados não são importantes no momento da entrada; Corrigir e eliminar inconsistências. Falta de registros históricos ou mudança nos dados. Remover redundâncias causadas pela integração de dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. 50 51 Em muitos casos, valores faltantes podem ser inferidos. MT-803: Tópicos em Matemática Aplicada – Aula 2. 52 Lidando com valores faltantes Lidando com valores faltantes ... Método 1: Ignorar as observações (registros): Método 2: Preencher os valores manualmente. Essa alternativa só vale a pena se o dataset for muito pequeno. Ineficiência desse método: A alternativa mais simples. Deve ser usado somente se a observação possui vários atributos com valores faltantes. É um método ineficiente: Parte da informação é perdida; É um método pobre quando a porcentagem de valores faltantes varia entre os atributos. MT-803: Tópicos em Matemática Aplicada – Aula 2. 53 Lidando com valores faltantes ... Consome muito tempo; Impraticável para grandes datasets. MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... Método 3: Usar a média do atributo para preencher os valores faltantes. Método 4: Para atributo nominal, usar a moda para preencher os valores faltantes. Exemplo: se idade média de um grupo de pessoas é 45, esse valor deve ser usado para preencher os valores faltantes. A moda é o valor mais frequente em um conjunto de valores. Pode não ser uma boa alternativa quando o atributo considerado é o atributo classe. Vantagem: 54 Procedimento simples de ser implementado. MT-803: Tópicos em Matemática Aplicada – Aula 2. 55 MT-803: Tópicos em Matemática Aplicada – Aula 2. 56 Lidando com valores faltantes ... Lidando com valores faltantes ... Método 5: Usar a média para observações pertencentes a uma mesma classe. Método 6: Preencher os valores faltantes por meio de uma regressão linear. Nesse caso, o valor faltante não está no atributo classe. Exemplo: se um cliente não possui informação sobre o consumo mensal de cartão de crédito, substitua o valor faltante pela média de consumo de clientes na categoria (mesma classe). O primeiro passo é identificar se o atributo com valores faltantes tem uma boa correlação (r > 0,7) com um outro atributo do dataset. O segundo passo é fazer a regressão entre os atributos correlacionados. Importante: esse método deve ser usado com muito cuidado, pois pode inserir ruído nos dados. Em caso de atributo nominal (não-classe), use a moda do atributo considerando as observações que pertencem a mesma classe. MT-803: Tópicos em Matemática Aplicada – Aula 2. 57 Lidando com valores faltantes ... 58 Lidando com valores faltantes ... Método 7: Usar o método KNN (k- Nearest Neighbor) – Vizinho mais próximo. Eficiente para atributos discretos e contínuos. Para atributos discretos, usar o valor mais freqüente entre os k vizinhos do valor faltante. Para atributos contínuos, usar a média entre os k vizinhos do valor faltante. A única desvantagem é que esse procedimento pode consumir muito tempo em grandes datasets. MT-803: Tópicos em Matemática Aplicada – Aula 2. MT-803: Tópicos em Matemática Aplicada – Aula 2. 59 Método 8: Usar o valor mais provável que é baseado em inferência. Exemplo: Determinar o valor faltante usando uma árvore de decisão, um modelo Bayesiano, etc. O método é muito eficiente, mas é também muito caro computacionalmente. MT-803: Tópicos em Matemática Aplicada – Aula 2. 60 Ruído nos dados Ruído nos dados ... Ruído: erro aleatório ou variância nos valores de uma determinada variável. Valores incorretos de atributos podem ocorrer devido: Falhas nos equipamentos de coleta de dados; Problemas na entrada de dados; Problemas na transmissão de dados; Limitação tecnológica; Inconsistência na convenção de nomes; Transformações erradas aplicadas aos dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. Outliers podem ser detectados por meios de agrupamentos (clusters). Intuitivamente, objetos que estão fora dos clusters são outliers. Outlier Outlier 61 MT-803: Tópicos em Matemática Aplicada – Aula 2. Outliers Eliminação de inconsistências Outliers são objetos com características diferentes da maioria dos outros objetos em um conjunto de dados. Erro na entrada de dados: Tipo de inconsistência muito comum. Causado quando mais de um usuário editam no mesmo arquivo. Exemplo: para o atributo data, um usuário preenche os dados no formato “dd/mm/aaaa”, enquanto o outro usuário usa o formato “yyyy/mm/dd”. Atributo com valores diferentes para a mesma informação: MT-803: Tópicos em Matemática Aplicada – Aula 2. 63 62 Exemplo: um atributo que armazena informação sobre Unidades da Federação assume os valores São Paulo, SP, S.P., S. Paulo, Sao_Paulo. MT-803: Tópicos em Matemática Aplicada – Aula 2. 64 Eliminação de inconsistências ... Eliminação de inconsistências ... Mesmo valor de um atributo para diferentes rótulos: O mesmo dado é representado por rótulos diferentes. A correção da inconsistência seria uma alteração do valor do atributo Vento para uma das tuplas. MT-803: Tópicos em Matemática Aplicada – Aula 2. 65 Eliminação de inconsistências ... Regra de verificação de valor ausente: A informação incompleta deve então ser tratada com os métodos de imputação. Regra com restrição de domínio: Podem ser usadas regras para que os valores de um atributo: (a) estejam dentro de uma faixa, (b) adotem certo padrão, (c) aceitem somente itens que estão em um conjunto (lista). Regra de nulidade: Um NULL (nulo) indica a ausência de valor para um atributo – não existe ou não informado: Regra baseada em dependência de atributos: Algumas regras podem ser utilizadas para detectar violações nas restrições de integridade dos dados, tais como funções de dependência entre atributos. Regra de unicidade: Os valores de uma determinada tupla não podem se repetidos. Esse problema compromete a precisão de modelos de predição. MT-803: Tópicos em Matemática Aplicada – Aula 2. 66 O dataset pode incluir objetos que são duplicados ou quase duplicados de outros. O valor NULL aparece muito em dados coletados quando os entrevistados não querem informar dados confidenciais. NOT NULL é uma restrição automática para chave candidata (primary key), garantindo que a informação deve sempre existir, como no caso do CPF de um cliente. MT-803: Tópicos em Matemática Aplicada – Aula 2. Regra baseada em informações externas: Alguns dos dados inconsistentes podem ser corrigidos manualmente utilizando referências externas. Valores Redundantes 67 Esse problema geralmente ocorre quando os dados são integrados de fontes heterogêneas. Exemplos: Mesma pessoa com múltiplos e-mails. Mesmo atributo com diferentes rótulos. variáveis altamente correlacionadas podem inserir redundância nos dados. Cuidado: MT-803: Tópicos em Matemática Aplicada – Aula 2. 68 Integração de dados Índice Por que pré-processar os dados? Sumarização Limpeza de dados descritivos. Processo que combina dados residentes em diferentes fontes, mantendo a consistência e a coerência dos dados integrados. Fertilidade dos dados. Integração e transformação de dados. Pedologia ETC Mapeamento MT-803: Tópicos em Matemática Aplicada – Aula 2. 69 Integração de esquemas Dados Integrados MT-803: Tópicos em Matemática Aplicada – Aula 2. 70 Lidando com redundância na integração Metadados podem ser utilizados para ajudar a unificar os atributos e transformar os dados. O atributo Sigla do primeiro esquema assume os valores T e P, representando cultura temporária e cultura perene, enquanto no segundo esquema, os valores do atributo Sigla são CT e CP. MT-803: Tópicos em Matemática Aplicada – Aula 2. BD Solos 71 Dados redundantes geralmente provêm da integração de múltiplas fontes de dados: Identificação de objeto: o mesmo atributo pode ter diferentes nomes em diferentes datasets; Dados derivados: um atributo pode ser um “atributo derivado” uma outra tabela (Ex.: atributo receita proveniente de serviço, patente, etc.). Atributos redundantes podem ser detectados por meio de análise de correlação. Lembrando: correlação mede a força, a intensidade ou grau de relacionamento entre 2 ou mais variáveis. MT-803: Tópicos em Matemática Aplicada – Aula 2. 72 Análise de correlação (dados numéricos) Coeficiente de correlação (também conhecido como coeficiente de Pearson): rA , B = Análise de correlação (dados categóricos) (Observed − Expected) 2 χ =∑ Expected 2 ∑ ( A − A )( B − B ) = ∑ ( AB ) − n A B ( n − 1)σ Aσ B ( n − 1)σ A σ B As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as frequências esperadas são calculadas a partir destas. Quanto maior o valor de χ2, mais provável é a correlação das variáveis. Cuidado: Correlação não implica casualidade: Onde n é o número de observações, A e B são as médias das variáveis A e B, σA e σB são os devios-padrão de A e B. Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior for o valor rA,B, maior será a correlação entres as variáveis A e B). rA,B = 0: A e B são independentes ou não possuem relacionamento; rA,B < 0: A e B são negativamente correlacionadas. MT-803: Tópicos em Matemática Aplicada – Aula 2. 73 Qui-quadrado (χ2) O teste do χ2 é muito eficiente para avaliar a associação existente entre variáveis qualitativas. O analista de dados estará sempre trabalhando com duas hipóteses: Número de hospitais e número carros roubados em uma cidade pode ser correlacionado; Ambas as variáveis estão ligadas com uma terceira variável: população. MT-803: Tópicos em Matemática Aplicada – Aula 2. 74 A forma da função de densidade de χ2 Probabilidade de rejeitar H0 H0: não há associação entre os atributos (independência) H1: há associação entre os atributos. A hipótese H0 é rejeitada para valores elevados de χ2. O cálculo dos graus de liberdade de dado por: gl = (número de linhas – 1) × (número de colunas – 1) MT-803: Tópicos em Matemática Aplicada – Aula 2. Qui-quadrado (χ2) ... χ2 (teste do qui-quadrado) χ2 é Aceita H0 se χ2 está nesse intervalo Aceita H1 Valor crítico p/ nível de significância de 5% Rejeitamos a hipótese nula se χ2 for maior que o valor crítico fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841. 75 MT-803: Tópicos em Matemática Aplicada – Aula 2. 76 Exemplo do cálculo de χ2 Transformação de dados Joga xadrez Não joga xadrez Soma (linhas) Gosta de ficção científica 250(90) 200(360) 450 Não gosta de ficção científica 50(210) 1000(840) 1050 Soma (colunas) 300 1200 1500 Os números entre parênteses são os valores esperados, calculados com base na distribuição dos dados das duas categorias. O resultado mostra que gostar_ficção_científica e jogar_xadrez são correlacionadas nesse grupo: χ2 = Principais métodos para transformação de dados: (transformações nos valores de atributos): Normalização Min-Max; Normalização Z-score; Normalização por escala decimal. (250 − 90) 2 (50 − 210) 2 (200 − 360) 2 (1000 − 840) 2 + + + = 507.93 90 210 360 840 Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841. Então, as variáveis estudadas são correlacionadas. MT-803: Tópicos em Matemática Aplicada – Aula 2. 77 Normalização Min-Max para um atributo f: xif − min f ×(novoMax − novoMin ) + novoMin S = if max f − min f f Z-score : zif = f Desvio absoluto médio : xif − min f max f − min f × (novoMax − novoMin ) + novoMin f f f Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000. Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]? Normalização Z-score (μ: média, σ: desvio padrão): zif = v 10 j Onde j é o menor inteiro tal que Max(|ν’|) < 1 MT-803: Tópicos em Matemática Aplicada – Aula 2. = 73,600 − 12,000 (1.0 − 0) + 0 = 0.716 98,000 − 12,000 f Por escala decimal: v' = if f s f = 1n (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |) Normalização Min-Max: [novo_minA, novo_maxA] S xif − m f σ 78 Exemplos de normalização Normalização ⇒ variáveis com mesmo peso. MT-803: Tópicos em Matemática Aplicada – Aula 2. 79 xif − m f σ f Ex. Seja μ = 54,000 e σ = 16,000. Então MT-803: Tópicos em Matemática Aplicada – Aula 2. 73,600 − 54,000 = 1.225 16,000 80