Aspectos Relevantes na fase de Preparação de Dados A fase de

Propaganda
Fatores para o Sucesso Mineração de Dados
Aspectos Relevantes na fase de
Preparação de Dados
Você sabe que Mineração de Dados é um projeto
contínuo de busca de inteligência e inferência
aplicada aos dados?
Você sabe com detalhe qual é o seu problema?
Seus objetivos e metas estão claramente definidos?
Você definiu o grau de suas expectativas? Qual o
resultado desejado?
Stanley Robson de M. Oliveira
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Fatores para o Sucesso Mineração de Dados
Existem requisitos de análises complexas,
tendências escondidas, perfis de comportamento,
verificação de hipóteses?
Você detém técnicas necessárias e possui equipe
com domínio de análise de dados?
Você tem os dados necessários, na granularidade
desejada?
MT-803: Tópicos em Matemática Aplicada – Aula 2.
3
2
A fase de pré-processamento de dados
No mundo real, dados coletados e organizados
tendem a ser:
incompletos;
fora de padrões;
redundantes; e
inconsistentes.
A fase de pré-processamento de dados iniciase após a coleta e organização desses dados.
Esta fase pode consumir até 60% do tempo
disponível para exploração de dados (Pyle,1999).
MT-803: Tópicos em Matemática Aplicada – Aula 2.
4
A importância da preparação de dados
A importância da preparação de dados
Preparação de dados: a etapa que consome a
maior parte de tempo no processo de KDD.
O sucesso ou fracasso de um projeto de
mineração de dados está relacionado à
preparação de dados.
A preparação de dados ajuda um analista:
CASO 1- Preparação de dados p/ Warehousing:
Ineficiente para algumas tarefas de mineração;
Compromete a precisão dos modelos;
A preparação pode destruir informações úteis para o
processo de mineração de dados.
CASO 2 - Preparação de dados p/ Mineração:
Interpretar melhor os resultados;
Melhora fortemente a precisão do modelo;
Entender os limites nos dados.
Produz grande economia em termos de tempo,
esforço e dinheiro.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
5
MT-803: Tópicos em Matemática Aplicada – Aula 2.
6
Exploração de Dados: Estágios
Tempo Necessário
(% do total)
Importância p/ Sucesso
(% do total)
1. Identificação do
Problema
10
15
2. Explorar possíveis
soluções
9
3. Especificação da
implementação
1
51
4a. Preparação
60
15
4b. Explorar cenários
15
4c. Modelagem
5
20
14
Caracterização e
Representação de Dados
80
Stanley Robson de M. Oliveira
4. Mineração de
dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
80
3
20
Atributos
2
7
Relacionamentos
O que são objetos e atributos?
Tipos de Atributos
• Um dataset é uma coleção de
objetos e seus atributos.
Atributos
Principais tipos de atributos:
• Um atributo é uma propriedade ou
característica de um objeto.
Tid Retorno
– Exemplos: idade de uma
pessoa, altura, etc.
– Atributo é também conhecido
como variável, campo,
parâmetro ou “feature”.
Objetos
• Uma coleção de atributos
descrevem um objeto.
– Objeto é também conhecido
como registro, observação,
ponto, entidade ou instância.
Estado
Civil
1
Sim
Solteiro
125K
Não
2
Não
Casado
100K
Não
3
Não
Solteiro
70K
Não
4
Sim
Casado
120K
Não
5
Não
Divorciado
95K
Sim
6
Não
Casado
60K
Não
7
Sim
Divorciado
220K
Não
8
Não
Solteiro
85K
Sim
9
Não
Casado
75K
Não
10
Não
Solteiro
90K
Sim
Nominal – assumem valores sem ordem natural.
Renda
Anual Mentiu
Numérico – assumem valores numéricos.
Exemplos: valores inteiros e reais (chuva, temperatura).
Ordinal – assumem valores com ordem natural.
Exemplos: Os meios de comunicação para transferência de
tecnologia: {rádio, televisão, internet, jornal e revista}.
Exemplos: Os estádios fenológicos da cultura de milho são:
{plantio, emergência, floração e colheita}.
Intervalo
Exemplos: datas, temperaturas em Celsius ou Fahrenheit.
10
MT-803: Tópicos em Matemática Aplicada – Aula 2.
9
MT-803: Tópicos em Matemática Aplicada – Aula 2.
10
Valores de Atributos
Valores de Atributos: Propriedades
Valores
O
de atributos são números ou símbolos
associados a um atributo.
Diferença
entre atributos e valores de atributos:
Um mesmo atributo pode ser mapeado para diferentes
valores de atributos:
tipo de um atributo depende de suas
propriedades:
Exemplo: altura pode ser medida em metros ou centímetros.
Diferentes atributos podem ser mapeados para o
mesmo conjunto de valores:
Exemplo: Valores de atributos de ID e idade são inteiros.
Propriedades de atributos podem ser diferentes:
Diferença:
Ordem (relação):
Adição:
Multiplicação:
= ≠
< >
+ */
Atributo Nominal: diferença.
Atributo Ordinal: diferença e ordem.
Atributo Intervalo: diferença, ordem e adição.
Atributo Numérico: todas as 4 propriedades.
ID não tem limite, mas idade tem valor máximo e mínimo.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
11
MT-803: Tópicos em Matemática Aplicada – Aula 2.
12
Atributo
Domínio de um atributo
Atributos precisam ser analisados cuidadosamente, pois eles têm
faixa de valores diferentes.
5
A
Transformação
Comentários
Nominal
qualquer permutação de valores
Se todos os IDs de
empregados forem
mudados, haverá alguma
diferença?
Ordinal
Uma ordem preservando mudança
de valores, i.e.,
novo_valor = f(valor_antigo)
onde f é uma função monotônica.
Um atributo contendo a
noção de {regular, bom,
excelente} pode ser
representado pelos valores
{1, 2, 3} ou { 0.5, 1,10}.
Intervalo
novo_valor =a * valor_anterior +
b, onde a e b são constantes.
A escala das temperaturas
de Fahrenheit e Celsius
diferem em termos do valor
inicial.
Taxa ou
Proporção
novo_valor = a * valor_antigo
Comprimento pode ser
medido em metros ou
centímetros.
1
B
7
2
C
8
3
D
10
4
E
15
5
MT-803: Tópicos em Matemática Aplicada – Aula 2.
13
Atributos Discretos e Contínuos
Baseados
Têm um conjunto de valores finitos.
Exemplos: CEP, o conjunto de palavras em uma coleção de
documentos.
Geralmente são representados como variáveis inteiras.
Importante: atributos binários são um caso especial de
atributos discretos.
Geralmente são representados por valores reais.
Exemplos: temperatura, altura, precipitação.
Atributos contínuos podem ser medidos e representados
usando-se um número finito de dígitos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
15
em Gráficos
World Wide Web
Estruturas Moleculares
Baseados
em Registros
Matriz de dados
Coleção de Documentos
Dados transacionais
Baseados
Atributos Contínuos
14
Tipos de Datasets (conjunto de dados)
Atributos Discretos:
MT-803: Tópicos em Matemática Aplicada – Aula 2.
em uma Ordem (sequência)
Dado espacial
Dado temporal
Dado sequencial
Dado com sequência genética
MT-803: Tópicos em Matemática Aplicada – Aula 2.
16
Características de dados estruturados
Dimensionality
Os
dados consistem em uma coleção de
registros, com um conjunto fixo de atributos.
O desafio é a redução da dimensão.
Sparsity
(dimensionalidade)
Datasets baseados em registros
(esparsidade)
Somente a presença do dado conta.
Resolução
Padrões dependem de uma escala.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
17
MT-803: Tópicos em Matemática Aplicada – Aula 2.
18
Matriz de Dados
Coleção de Documentos
• Os objetos têm o mesmo conjunto fixo de atributos;
Cada
• O dataset pode ser visto como um conjunto de pontos
no espaço multidimensional, onde cada dimensão é
um atributo.
season
timeout
lost
wi
n
game
score
MT-803: Tópicos em Matemática Aplicada – Aula 2.
ball
Febre Tosse
P
N
P
N
P
P
pla
y
Sexo
M
F
M
coach
Nome
Jack
Mary
Jim
Cada termo é uma componente (atributo) do vetor;
O valor de cada componente é o número de vezes
que o termo ocorre em um documento (frequência).
team
• O conjunto de dados pode ser representado por uma
matriz m × n, onde cada uma das m linhas representa
um objeto e as n colunas correspondem aos atributos.
documento torna-se um vetor de termos:
Test-1 Test-2 Test-3 Test-4
P
N
N
N
P
N
P
N
N
N
N
N
19
MT-803: Tópicos em Matemática Aplicada – Aula 2.
20
Dados Transacionais
Datasets Baseados em Gráficos
• Um tipo especial de dataset, onde:
Exemplos:
– Cada registro (transação) contém um conjunto de
itens.
– Exemplo: Lista de produtos comprados em um
supermercado por um determinado cliente.
TID
2
{café, pão, pizza}
200
{queijo, torrada, vinho}
300
{café, queijo, pão, vinho}
400
{queijo, vinho}
MT-803: Tópicos em Matemática Aplicada – Aula 2.
1
5
2
Lista de Itens
100
Grafos e Links em páginas HTML.
5
21
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Químicos
Dados Baseados em Ordem
Molécula
Sequências
de Benzeno : C6H6
22
de transações
Itens/Eventos
Um elemento
da seqüência
MT-803: Tópicos em Matemática Aplicada – Aula 2.
23
MT-803: Tópicos em Matemática Aplicada – Aula 2.
24
Dados Baseados em Ordem ...
Dados Baseados em Ordem ...
Dados de seqüências genômicas.
Dados
espaço-temporal.
Janeiro
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Temperatura
média mensal da
terra e do oceano.
25
MT-803: Tópicos em Matemática Aplicada – Aula 2.
26
Índice
Métodos Usados na
Preparação de Dados
Por
que pré-processar os dados?
Sumarização
Limpeza
de dados descritivos.
dos dados.
Stanley Robson de M. Oliveira
Integração
Limpeza
e transformação de dados.
Integração e
Transformação de Dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
28
Por que pré-processar os dados?
Por que pré-processar os dados? …
No mundo real, geralmente os dados são (têm):
Incompletos: ausência de valores de atributos,
ausência de atributos de interesse, ou dados com
valores agregados.
Ruídos: existências de erros ou outliers.
Inconsistentes: informações desatualizadas ou
oriundas de erros no momento de introdução dos
dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
29
Principais tarefas no pré-processamento
Limpeza dos dados
Sem qualidade de dados, não há qualidade nos
resultados da mineração de dados!
Decisões com qualidade são baseadas em
dados com qualidade.
Data Warehouse precisa de integração
consistente de qualidade de dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Principais tarefas no pré-processamento
Transformação de dados
Preencher valores faltantes;
Normalização;
Reduzir ruídos nos dados;
Agregação.
Identificar e remover outliers;
Identificar e eliminar inconsistências;
Identificar e eliminar redundâncias.
Integração de dados
Integração de múltiplos repositórios;
Integração de arquivos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Redução de dados
Obtenção da representação reduzida em volume,
mas que produza resultados analíticos similares.
Discretização de dados
31
30
Uma forma de redução de dados, mas com interesse
particular, especialmente para dados numéricos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
32
Índice
Formas de pré-processamento de dados
Por
• Limpeza dos dados
que pré-processar os dados?
Sumarização
• Integração dos dados
• Transformação dos dados
Limpeza
1, 3, 5, 7, 9
[0, 1]
dos dados.
Integração
0.00, 0.25, 0.50, 0.75, 1.00
de dados descritivos.
e transformação de dados.
A1 A2 A3 A4 A5 . . . A125
• Redução dos dados
1
2
3
.
.
.
10800
A1 A2 A3 A4. . . A68
1
2
.
.
.
5425
MT-803: Tópicos em Matemática Aplicada – Aula 2.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
33
34
Χ
Características descritivas de dados
Motivação:
Medidas de Posição (tendência central)
1
n
Análise de Boxplot ou quartil em intervalos ordenados.
Média aritmética ponderada:
∑wx
i
x =
i
Moda (Mo):
É o valor mais frequente em um conjunto de valores numéricos.
Mediana (Md):
Dado um grupo de dados ordenados, a mediana separa a metade
inferior da amostra da metade superior.
Indicador da forma da distribuição dos dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
i
i =1
n
∑w
Medidas de Assimetria: (simetria e assimetria)
x
N
n
Dimensões numéricas: relação c/ intervalos ordenados.
Dispersão de dados: analisada em múltiplas granularidades.
xi
i =1
i =1
média, max, min, quartils, outliers, variância, etc.
µ=∑
n
∑
Medidas de posição e de dispersão dos dados:
x =
Melhor entendimento sobre os dados: tendência central, variação
e distribuição.
Média aritmética simples:
35
MT-803: Tópicos em Matemática Aplicada – Aula 2.
36
Separatrizes
Exemplos
Para o seguinte conjunto: {1, 3, 5, 7, 9}
A média é 5;
A mediana é 5.
No entanto, para o conjunto: {1, 2, 7, 7, 13}
A mediana é 7, enquanto a média é 6;
A moda é 7.
Não são medidas de tendência central.
As separatrizes estão ligadas à mediana relativamente à
sua característica de separar a série em duas partes
que apresentam o mesmo número de valores.
As separatrizes são:
Qual seria a mediana para o conjunto: {1, 2, 4,
10, 12, 13}?
Mediana = (4 + 10)/2 = 7.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
37
Exemplo de Separatrizes
Se (Md - Q1) = (Q3 - Md) => distribuição simétrica.
Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou
positiva;
Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou
negativa.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Quartil: divide um conjunto de dados em quatro partes
iguais.
Decil: divide um conjunto de dados em dez partes iguais.
Percentil: divide um conjunto de dados em cem partes
iguais.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
38
Distribuição Simétrica e Assimétrica
Quartil: Os quartis dividem o conjunto de dados em
quatro partes iguais:
39
Mediana, média e moda de
dados com distribuição simétrica
e assimétrica.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Mean
Median
Mode
40
Medindo a dispersão dos dados ...
Medindo a dispersão dos dados
Quartils, outliers e boxplots
Quartils: Q1
(25o
percentil), Q3
(75o
Variância e desvio padrão (amostra: s, população: σ)
percentil).
Amplitude interquartílica (Inter-quartile range):
Variância: s2 =
Desvio padrão s (ou σ) é a raiz quadrada da variância
IQR = Q3 – Q1 (50% dos dados).
Sumário dos cinco números : min, Q1, Mediana, Q3, max.
Boxplot: uma linha central mostrando a mediana, uma
s2 (ou σ2)
linha inferior mostrando o primeiro quartil, uma linha
σ2 =
superior mostrando o terceiro quartil.
1 n 2 1 n 2
1 n
2
x
−
x
=
[∑ xi − (∑ xi ) ]
(
)
∑ i
n −1 i=1
n −1 i=1
n i=1
Outliers: Limite Inferior = Q1 – 1.5 x IQR;
1
N
n
∑ ( xi − µ ) 2 =
i =1
1
N
n
∑x
2
i
−µ2
i =1
Limite Superior = Q3 + 1.5 x IQR.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de Boxplot
Boxplot:
Um percentil é uma medida da
posição relativa de uma unidade
observacional em relação a todas as
outras.
41
MT-803: Tópicos em Matemática Aplicada – Aula 2.
42
Exemplo de BoxPlots
outlier
90th percentile
Boxplots podem ser usados para comparar a dispersão dos
valores de atributos.
75th percentile
50th percentile
25th percentile
10th percentile
O p-ésimo percentil tem no mínimo p% dos valores abaixo daquele
ponto e no mínimo (100 - p)% dos valores acima.
Se uma altura de 1,80m é o 90o. percentil de uma turma de
estudantes, então 90% da turma tem alturas menores que 1,80m e
10% têm altura superior a 1,80m.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
43
MT-803: Tópicos em Matemática Aplicada – Aula 2.
44
Propriedades da distribuição normal
Análise de Histogramas
A distribuição normal com média μ e desvio padrão σ:
No intervalo de μ–σ até μ+σ: contém 68% das observações;
No intervalo de μ–2σ até μ+2σ: contém 95% das observações;
No intervalo de μ–3σ até μ+3σ: contém 99.7% das observações.
Gráfico que mostra a estatística básica da descrição de classes.
Histograma de Freqüências
Mostra a distribuição dos valores de uma variável;
Consiste em um conjunto de retângulos, em que cada retângulo representa a
frequência de uma das classes presentes nos dados.
95%
−3
−2
−1
0
+1
+2
+3
99.7%
68%
(a) Amplitudes iguais
−3
−2
−1
0
+1
+2
+3
−3
−2
−1
0
MT-803: Tópicos em Matemática Aplicada – Aula 2.
+1
+2
45
Análise de correlação
Idade dos alunos da disciplina Inferência Estatística do curso de
Estatística da UEM, 21/03/2005.
+3
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valor de r
∑ ( A − A )( B − B ) = ∑ ( AB ) − n A B
+1,00
Onde n é o número de observações, A e B são as médias das variáveis
A e B, σA e σB são os devios-padrão de A e B.
Cerca de
0,7
( n − 1)σ Aσ B
Descrição do relacionamento
Diagrama de dispersão
Relacionamento positivo perfeito
( n − 1)σ A σ B
Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior
for o valor rA,B, maior será a correlação entres as variáveis A e B).
rA,B = 0: A e B são independentes ou não possuem relacionamento;
rA,B < 0: A e B são negativamente correlacionadas.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
46
Exemplos de diagramas de dispersão
Coeficiente de correlação (também conhecido como coeficiente de
Pearson):
rA , B =
(b) Amplitude desiguais
47
Relacionamento positivo
moderado
Relacionamento negativo perfeito
-1,0
Cerca de
-0,7
Relacionamento negativo
moderado
MT-803: Tópicos em Matemática Aplicada – Aula 2.
48
Exemplos de ausência de relacionamento
Índice
Por
que pré-processar os dados?
Sumarização
Limpeza
dos dados.
Integração
MT-803: Tópicos em Matemática Aplicada – Aula 2.
49
Limpeza dos dados
de dados descritivos.
e transformação de dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valores faltantes
Relevância:
“Data cleaning is one of the three biggest problems in data
warehousing” — Ralph Kimball.
“Data cleaning is the number one problem in data
warehousing” — DCI (Downtown Cincinnati Inc.) survey.
Em muitos casos, dados podem ser incompletos:
Procedimentos para limpeza dos dados:
Muitas observações podem não possuir valores para alguns
atributos (Ex.: renda anual de clientes em dados de vendas).
Valores faltantes ocorrem devido:
Problemas com equipamentos (perdas de dados);
Inconsistência com outros registros e portanto são deletados;
Preencher valores faltantes;
Dados não digitados por causa de mal interpretação;
Identificar outliers e remover ruídos nos dados;
Alguns dados não são importantes no momento da entrada;
Corrigir e eliminar inconsistências.
Falta de registros históricos ou mudança nos dados.
Remover redundâncias causadas pela integração de
dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
50
51
Em muitos casos, valores faltantes podem ser inferidos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
52
Lidando com valores faltantes
Lidando com valores faltantes ...
Método 1: Ignorar as observações (registros):
Método 2: Preencher os valores manualmente.
Essa alternativa só vale a pena se o dataset for
muito pequeno.
Ineficiência desse método:
A alternativa mais simples.
Deve ser usado somente se a observação
possui vários atributos com valores faltantes.
É um método ineficiente:
Parte da informação é perdida;
É um método pobre quando a porcentagem de
valores faltantes varia entre os atributos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
53
Lidando com valores faltantes ...
Consome muito tempo;
Impraticável para grandes datasets.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
Método 3: Usar a média do atributo para
preencher os valores faltantes.
Método 4: Para atributo nominal, usar a moda
para preencher os valores faltantes.
Exemplo: se idade média de um grupo de
pessoas é 45, esse valor deve ser usado para
preencher os valores faltantes.
A moda é o valor mais frequente em um
conjunto de valores.
Pode não ser uma boa alternativa quando o
atributo considerado é o atributo classe.
Vantagem:
54
Procedimento simples de ser implementado.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
55
MT-803: Tópicos em Matemática Aplicada – Aula 2.
56
Lidando com valores faltantes ...
Lidando com valores faltantes ...
Método 5: Usar a média para observações
pertencentes a uma mesma classe.
Método 6: Preencher os valores faltantes por
meio de uma regressão linear.
Nesse caso, o valor faltante não está no atributo
classe.
Exemplo: se um cliente não possui informação sobre
o consumo mensal de cartão de crédito, substitua o
valor faltante pela média de consumo de clientes na
categoria (mesma classe).
O primeiro passo é identificar se o atributo com
valores faltantes tem uma boa correlação
(r > 0,7) com um outro atributo do dataset.
O segundo passo é fazer a regressão entre os
atributos correlacionados.
Importante: esse método deve ser usado com
muito cuidado, pois pode inserir ruído nos
dados.
Em caso de atributo nominal (não-classe), use
a moda do atributo considerando as observações
que pertencem a mesma classe.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
57
Lidando com valores faltantes ...
58
Lidando com valores faltantes ...
Método 7: Usar o método KNN (k- Nearest
Neighbor) – Vizinho mais próximo.
Eficiente para atributos discretos e contínuos.
Para atributos discretos, usar o valor mais
freqüente entre os k vizinhos do valor faltante.
Para atributos contínuos, usar a média entre os k
vizinhos do valor faltante.
A única desvantagem é que esse procedimento
pode consumir muito tempo em grandes datasets.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
59
Método 8: Usar o valor mais provável que é
baseado em inferência.
Exemplo: Determinar o valor faltante usando
uma árvore de decisão, um modelo
Bayesiano, etc.
O método é muito eficiente, mas é também
muito caro computacionalmente.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
60
Ruído nos dados
Ruído nos dados ...
Ruído: erro aleatório ou variância nos valores de
uma determinada variável.
Valores incorretos de atributos podem ocorrer
devido:
Falhas nos equipamentos de coleta de dados;
Problemas na entrada de dados;
Problemas na transmissão de dados;
Limitação tecnológica;
Inconsistência na convenção de nomes;
Transformações erradas aplicadas aos dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Outliers podem ser detectados por meios de agrupamentos (clusters).
Intuitivamente, objetos que estão fora dos clusters são outliers.
Outlier
Outlier
61
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Outliers
Eliminação de inconsistências
Outliers
são objetos com características
diferentes da maioria dos outros objetos em um
conjunto de dados.
Erro na entrada de dados: Tipo de inconsistência
muito comum.
Causado quando mais de um usuário editam no mesmo
arquivo.
Exemplo: para o atributo data, um usuário preenche os
dados no formato “dd/mm/aaaa”, enquanto o outro
usuário usa o formato “yyyy/mm/dd”.
Atributo com valores diferentes para a mesma
informação:
MT-803: Tópicos em Matemática Aplicada – Aula 2.
63
62
Exemplo: um atributo que armazena informação sobre
Unidades da Federação assume os valores São Paulo,
SP, S.P., S. Paulo, Sao_Paulo.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
64
Eliminação de inconsistências ...
Eliminação de inconsistências ...
Mesmo valor de um atributo para diferentes rótulos:
O mesmo dado é representado por rótulos diferentes.
A correção da inconsistência seria uma alteração do
valor do atributo Vento para uma das tuplas.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
65
Eliminação de inconsistências ...
Regra de verificação de valor ausente: A informação
incompleta deve então ser tratada com os métodos de
imputação.
Regra com restrição de domínio: Podem ser usadas
regras para que os valores de um atributo: (a) estejam
dentro de uma faixa, (b) adotem certo padrão, (c) aceitem
somente itens que estão em um conjunto (lista).
Regra de nulidade: Um NULL (nulo) indica a ausência de
valor para um atributo – não existe ou não informado:
Regra baseada em dependência de atributos:
Algumas regras podem ser utilizadas para detectar
violações nas restrições de integridade dos dados,
tais como funções de dependência entre atributos.
Regra de unicidade: Os valores de uma determinada
tupla não podem se repetidos. Esse problema
compromete a precisão de modelos de predição.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
66
O
dataset pode incluir objetos que são
duplicados ou quase duplicados de outros.
O valor NULL aparece muito em dados coletados quando os
entrevistados não querem informar dados confidenciais.
NOT NULL é uma restrição automática para chave candidata
(primary key), garantindo que a informação deve sempre existir,
como no caso do CPF de um cliente.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Regra baseada em informações externas: Alguns dos
dados inconsistentes podem ser corrigidos
manualmente utilizando referências externas.
Valores Redundantes
67
Esse problema geralmente ocorre quando os dados
são integrados de fontes heterogêneas.
Exemplos:
Mesma pessoa com múltiplos e-mails.
Mesmo atributo com diferentes rótulos.
variáveis altamente correlacionadas
podem inserir redundância nos dados.
Cuidado:
MT-803: Tópicos em Matemática Aplicada – Aula 2.
68
Integração de dados
Índice
Por
que pré-processar os dados?
Sumarização
Limpeza
de dados descritivos.
Processo que combina dados residentes em
diferentes fontes, mantendo a consistência e a
coerência dos dados integrados.
Fertilidade
dos dados.
Integração
e transformação de dados.
Pedologia
ETC
Mapeamento
MT-803: Tópicos em Matemática Aplicada – Aula 2.
69
Integração de esquemas
Dados
Integrados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
70
Lidando com redundância na integração
Metadados podem ser utilizados para ajudar a unificar os
atributos e transformar os dados.
O atributo Sigla do primeiro esquema assume os valores T e P,
representando cultura temporária e cultura perene, enquanto no
segundo esquema, os valores do atributo Sigla são CT e CP.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
BD Solos
71
Dados redundantes geralmente provêm da
integração de múltiplas fontes de dados:
Identificação de objeto: o mesmo atributo pode ter
diferentes nomes em diferentes datasets;
Dados derivados: um atributo pode ser um “atributo
derivado” uma outra tabela (Ex.: atributo receita
proveniente de serviço, patente, etc.).
Atributos redundantes podem ser detectados por
meio de análise de correlação.
Lembrando: correlação mede a força, a
intensidade ou grau de relacionamento entre 2 ou
mais variáveis.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
72
Análise de correlação (dados numéricos)
Coeficiente de correlação (também conhecido como coeficiente de
Pearson):
rA , B =
Análise de correlação (dados categóricos)
(Observed − Expected) 2
χ =∑
Expected
2
∑ ( A − A )( B − B ) = ∑ ( AB ) − n A B
( n − 1)σ Aσ B
( n − 1)σ A σ B
As frequências observadas são obtidas diretamente dos dados das
amostras, enquanto que as frequências esperadas são calculadas a
partir destas.
Quanto maior o valor de χ2, mais provável é a correlação das
variáveis.
Cuidado: Correlação não implica casualidade:
Onde n é o número de observações, A e B são as médias das variáveis
A e B, σA e σB são os devios-padrão de A e B.
Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior
for o valor rA,B, maior será a correlação entres as variáveis A e B).
rA,B = 0: A e B são independentes ou não possuem relacionamento;
rA,B < 0: A e B são negativamente correlacionadas.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
73
Qui-quadrado (χ2)
O teste do χ2 é muito eficiente para avaliar a associação
existente entre variáveis qualitativas.
O analista de dados estará sempre trabalhando com
duas hipóteses:
Número de hospitais e número carros roubados em uma cidade pode ser
correlacionado;
Ambas as variáveis estão ligadas com uma terceira variável: população.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
74
A forma da função de densidade de χ2
Probabilidade
de rejeitar H0
H0: não há associação entre os atributos (independência)
H1: há associação entre os atributos.
A hipótese H0 é rejeitada para valores elevados de χ2.
O cálculo dos graus de liberdade de
dado por:
gl = (número de linhas – 1) × (número de colunas – 1)
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Qui-quadrado (χ2) ...
χ2 (teste do qui-quadrado)
χ2 é
Aceita H0 se χ2 está
nesse intervalo
Aceita H1
Valor crítico p/ nível de significância de 5%
Rejeitamos a hipótese nula se χ2 for maior que o valor crítico
fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841.
75
MT-803: Tópicos em Matemática Aplicada – Aula 2.
76
Exemplo do cálculo de χ2
Transformação de dados
Joga xadrez
Não joga xadrez
Soma (linhas)
Gosta de ficção científica
250(90)
200(360)
450
Não gosta de ficção científica
50(210)
1000(840)
1050
Soma (colunas)
300
1200
1500
Os números entre parênteses são os valores esperados,
calculados com base na distribuição dos dados das duas categorias.
O resultado mostra que gostar_ficção_científica e jogar_xadrez são
correlacionadas nesse grupo:
χ2 =
Principais métodos para transformação de dados:
(transformações nos valores de atributos):
Normalização Min-Max;
Normalização Z-score;
Normalização por escala decimal.
(250 − 90) 2 (50 − 210) 2 (200 − 360) 2 (1000 − 840) 2
+
+
+
= 507.93
90
210
360
840
Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841.
Então, as variáveis estudadas são correlacionadas.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
77
Normalização
Min-Max para um atributo f:
xif − min f
×(novoMax − novoMin ) + novoMin
S =
if
max f − min f
f
Z-score : zif =
f
Desvio absoluto médio :
xif − min f
max f − min f
× (novoMax − novoMin ) + novoMin
f
f
f
Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000.
Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]?
Normalização Z-score (μ: média, σ: desvio padrão):
zif =
v
10 j
Onde j é o menor inteiro tal que Max(|ν’|) < 1
MT-803: Tópicos em Matemática Aplicada – Aula 2.
=
73,600 − 12,000
(1.0 − 0) + 0 = 0.716
98,000 − 12,000
f
Por escala decimal: v' =
if
f
s f = 1n (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |)
Normalização Min-Max: [novo_minA, novo_maxA]
S
xif − m f
σ
78
Exemplos de normalização
Normalização ⇒ variáveis com mesmo peso.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
79
xif − m f
σ
f
Ex. Seja μ = 54,000 e σ = 16,000. Então
MT-803: Tópicos em Matemática Aplicada – Aula 2.
73,600 − 54,000
= 1.225
16,000
80
Download