Geoestatística Aplicada à Agricultura de Precisão

Propaganda
Geoestatística Aplicada à Agricultura de Precisão I
Daniel Marçal de Queiroz
DEA/UFV
Geoestatística

Maneira de descrever a continuidade espacial

Técnica importante para análise de muitos
fenômenos naturais

Adaptação de técnicas de regressão clássica para
tomar vantagem da continuidade espacial
Descrição em termos de uma variável

Dados dão boa idéia do fenômeno apenas quando organizados
adequadamente

Muitas técnicas usadas em estatística cuida da organização,
apresentação e representação resumida dos dados

Dados analisados representarão uma área de 10m por 10m

Variáveis U e V foram aredondadas para o número inteiro mais
próximo
Localização relativa dos 100 pontos da variável V
81
+
82
+
82
+
88
+
89
+
77
+
74
+
75
+
77
+
87
+
77
+
61
+
74
+
70
+
88
+
82
+
80
+
80
+
84
+
100
+
103
+
110
+
97
+
103
+
94
+
86
+
85
+
83
+
74
+
47
+
112
+
121
+
105
+
111
+
110
+
101
+
90
+
87
+
108
+
111
+
123
+
119
+
112
+
122
+
116
+
109
+
97
+
94
+
121
+
124
+
19
+
77
+
91
+
64
+
108
+
113
+
101
+
99
+
143
+
109
+
40
+
52
+
73
+
84
+
73
+
79
+
96
+
95
+
91
+
0
+
111
+
111
+
115
+
105
+
107
+
102
+
72
+
48
+
52
+
98
+
114
+
117
+
118
+
113
+
118
+
120
+
128
+
139
+
136
+
134
+
120
+
124
+
129
+
123
+
127
+
121
+
130
+
145
+
144
+
144
+
Faixa de valores da variável V (ppm)
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
20-29
10-19
0-9
Frequência, %
Histograma para os 100 valores da variável V
18
16
14
12
10
8
6
4
2
0
Frequência dos 100 valores selecionados da variável V
com largura de classe de 10 ppm.
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
Classe
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
 V <
10
20
30
40
50
60
70
80
90
100
110
120
130
140

Número
1
1
0
0
3
2
2
13
16
11
13
17
13
4
4
Percentagem
1
1
0
0
3
2
2
13
16
11
13
17
13
4
4
Frequência acumulada dos 100 valores da variável V
usando classes de 10 ppm
Classe
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
V <
10
20
30
40
50
60
70
80
90
100
110
120
130
140

Número
1
2
2
2
5
7
9
22
38
49
62
79
92
96
100
Porcentagem
1
2
2
2
5
7
9
22
38
49
62
79
92
96
100
Histograma acumulativo para os 100 valores selecionados
da variável V
100
80
60
40
20
V (ppm)
< 150
< 140
< 130
< 120
< 110
< 100
< 90
< 80
< 70
< 60
< 50
< 40
< 30
< 20
0
< 10
Frequência acumulada (%)
120
Gráfico de probabilidade normal para os 100 valores
selecionados da variável V
A escala no eixo Y é tal que a curva de frequência será uma
reta se os valores de V tiverem uma distribuição normal
Gráfico de probabilidade lognormal dos 100 valores
selecionados da variável V
A escala do eixo Y é tal que a curva de frequência acumulada será
uma reta se o logarítmo de V seguir a distribuição lognormal
Gráficos de probabilidade normal e lognormal

Algumas ferramentas de estimativa trabalham melhor se a variável
apresenta distribuição Gaussiana ou normal.

Distribuição Gaussiana é um dos muitos tipos de distribuição para o qual
existe todo um tratamento matemático já desenvolvido.

A Distribuição Gaussiana apresenta propriedades que facilita o uso de
desenvolvimentos teóricos de estimativa.

Portanto é importante determinar se a distribuição em estudo se aproxima
da distribuição de Gauss.

O gráfico de probabilidade normal é um dos tipos de gráfico de frequência
acumulada que ajuda a verificar se a distribuição é Gaussiana
Gráficos de probabilidade normal e lognormal

Em gráficos de probabilidade normal a escala do eixo Y é tal que se a curva
descrita pelos dados for uma reta, a distribuição é gaussiana.

Para a V variável em estudo embora boa parte da curva de frequência
acumulada se aproxima de uma reta, para pequenos valores de V forge
dessa tendência.

Muitas variáveis da Ciências da Terra têm distribuição que não se
aproximam da distribuição normal.

É muito comum ter muitos valores que bem baixos e poucos outros que são
muito altos.
Gráficos de probabilidade normal e lognormal

Embora a distribuição normal é frequentemente inapropriada
para modelar esse tipo de distribuição assimétrica, a
distribuição lognormal pode ser uma alternativa para análise.

Uma variável tem distribuição lognormal se a distribuição dos
valores dos logarítmos da variável segue a distribuição normal.

Usando uma escala logarítmica no eixo X de um gráfico de
distribuição normal pode-se verificar a lognormalidade.

Se a curva resultar em uma linha reta, é dito que os dados
seguem um distribuição lognormal.

Para a variável V em estudo pode-se verificar que os dados
claramente não seguem uma distribuição lognormal.
Análise Estatística Descritiva

Importantes comportamentos de muitos histogramas
podem ser obtidos por meio de certas análises
estatísticas.

A estatística descritiva é classificada em três
categorias: mede a localização, mede a dispersão e
mede a forma.
Análise Estatística Descritiva

O primeiro grupo fornece onde várias partes da
distribuição está localizada.

A média, a mediana e a moda pode dar uma idéia de
onde o centro da distribuição cai.

A localização de outras partes é fornecida pelos
quantis (quantiles).
Análise Estatística Descritiva

O segundo grupo inclui a variância, o desvio
padrão e a faixa dos interquantis
(interquantiles range)

Esse grupo é usado para medir a dispersão
dos dados.
Análise Estatística Descritiva

A forma da distribuição é medida por meio do
momento de ordem 3 (coefficient of skewness) e do
coeficiente de variação.

O momento de ordem 3 mede a informação
associada à simetria da distribuição.

O coeficiente de variação fornece informação a
respeito do comportamento do final da curva de
certas distribuição.
Medidas de localização

A media, m, é a média aritmética dos valores:
1 n
m   xi
n i 1
• O valor médio dos 100 valores da variável V é 97,55 ppm.
Medidas de localização

A mediana, M, é o ponto médio dos valores
observados, se eles estão dispostos em ordem
crescente.
se n for impar
 x n 1
 2

M    x  x 
n 
1
  n2
2 
se n for par

2

• O valor da mediana pode ser facilmente lida no gráfico de
probabilidade.
• Para os 100 valores da variável V a mediana é 100,50 ppm.
Lendo a mediana num gráfico de probabilidade
Medidas de localização

A moda é o valor que ocorre com maior frequência.

Em um gráfico de barras com os valores de frequência
para cada classe a moda é representada pela barra
mais alta.

Para a variável V a classe 110-120 ppm é a classe com
mais valores.

O valor 111 ppm é o que ocorre com maior frequência.

Um dos pontos negativos da moda é que ela é afetada
pela precisão dos dados.
Medidas de localização

Mínimo: é o valor mais baixo do conjunto de dados.

Muitas vezes é gravado apenas como um valor
abaixo de qualquer um limite detectável.

Em algumas análises é conveniente usar um valor
mínimo diferente de zero.

Para os valores da variável V o valor mínimo é zero.
Medidas de localização

Máximo: é o maior valor no conjunto de dados.

Para os valores de V o valor máximo é 145.
Medida de localização

Quartil inferior e superior (Lower and Upper Quartile)

A mediana divide os dados em duas metades, os
quartis dividem os dados em quartos.

Se os dados estão colocados em ordem crescente,
um quarto dos dados caem abaixo do quartil mais
baixo ou primeiro quartil e um quarto dos dados
caem acima do quartil mais alto ou terceiro quartil.
Quartis de um gráfico de probabilidade normal
Medidas de localização

Decis, percentis e quantis (Deciles, Percentiles e
Quantiles)

Decis: dividem os dados em décimos (10 partes) Um
décimo dos dados caem abaixo do primeiro decil

Percentis: dividem os dados em centésimos (100
partes)

Quantis: servem para expressar qualquer fração.
Medidas de dispersão

Variância (2 ) calculada por:
1 n
   xi  m 2
n i 1
2
• A variância dos 100 valores da variável V é de 688 ppm2
Medidas de dispersão

Desvio padrão: raiz quadrada da variância

Para os 100 valores da variaável V o desvio padrão é
de 26,23 ppm
Medidas de dispersão

Faixa entre os quartis (Interquartile range): Diferença
entre o maior e o menor quartil

Não utiliza da média como centro da distribuição

Geralmente preferível se poucos valores
erradamente elevados influenciam fortemente a
média

O faixa entre os quartis para os 100 valores da
variável V é de 35,50 ppm.
Medidas da forma

Momento de ordem 3, Ca (coefficient of skewness): o
histograma não dá idéia da simetria dos dados.
Ca 
1 n
3


x

m
 i
n i 1
3
• O momento de ordem 3 sofre mais influência que a média e a
variância de valores erroneamente elevados
• Um único valor muito grande pode influenciar muito o valor do
momento de ordem 3.
• Geralmente o sinal do momento de ordem 3 é mais usado que o próprio
valor nas análises.
Medidas da forma

Momento de ordem 3:

Um momento de ordem 3 positivo significa que a curva é longa
com altos valores do lado direito.

Se o momento de ordem 3 é próximo de zero, o histograma é
aproximadamente simétrico e a mediana é próxima da média

Para os 100 valores da variável V, o momento de ordem 3 é
próximo de zero (igual a –0,779), indicando que a distribuição
apenas ligeiramente assimétrica.
Medidas de forma

Coeficiente de variação: usado alternativamente ao
momento de ordem 3 para descrever a forma da
distribuição.

Usado para distribuições em que todos valores são
positivos e o momento de ordem 3 é também
positivo.

Embora possa ser calculado para outras situações
sua utilidade como medida de forma é questionável.
Medidas de forma
CV 

m

Um coeficiente de variação maior que um indica a presença de
alguns valores errôneamente pode ter tido impacto significativo
nas estimativas.

O coeficiente de variação para os 100 valores da variável V é
0,269, o que signifca que o histograma não um longo trecho no
final da curva com elevados valores
Descrição usando duas variáveis
Valores de duas
variáveis U e V

81
+
15
82
+
16
82
+
16
88
+
21
89
+
21
77
+
15
74
+
14
75
+
14
77
+
16
87
+
22
77
+
12
61
+
7
74
+
9
70
+
8
88
+
18
82
+
16
80
+
15
80
+
15
84
+
17
100
+
28
103
+
24
110
+
34
97
+
22
103
+
27
94
+
20
86
+
16
85
+
15
83
+
15
74
+
11
47
+
4
112
+
27
121
+
36
105
+
24
111
+
27
110
+
27
101
+
23
90
+
16
87
+
15
108
+
29
111
+
32
123
+
30
119
+
29
112
+
25
122
+
32
116
+
29
109
+
24
97
+
17
94
+
16
121
+
37
124
+
38
19
+
0
77
+
7
91
+
10
64
+
4
108
+
19
113
+
25
101
+
18
99
+
17
143
+
55
109
+
20
40
+
2
52
+
4
73
+
7
84
+
10
73
+
7
79
+
7
96
+
14
95
+
13
91
+
11
0
+
0
111
+
18
111
+
18
115
+
19
105
+
15
107
+
16
102
+
15
72
+
6
48
+
2
52
+
3
98
+
14
114
+
18
117
+
18
118
+
19
113
+
17
118
+
19
120
+
21
128
+
28
139
+
40
136
+
34
134
+
31
120
+
18
124
+
20
129
+
23
123
+
19
127
+
22
121
+
20
130
+
25
145
+
38
144
+
35
144
+
34
Descrição usando duas variáveis
18
14
12
10
8
6
4
2
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
35
Faixa de valores da variável V (ppm)
30
Frequência, %
20-29
10-19
0
0-9
Frequência, %
16
25
20
15
10
5
0
0-4
5-9
10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59
Valores da variável U, ppm
Resultados das análises estatísticas dos
valores da variáveis U e V
n
m

CV
min
Q1
M
Q3
max
V
100
97,6
26,2
0,27
0,0
81,3
100,5
116,8
145,0
U
100
19,1
9,81
0,51
0,0
14,0
18,0
25,0
55,0
Comparação dos quantis das variáveis V e U
Frequência
Quantil
Acumulada
V
U
0,05
48,1
3,1
0,10
70,2
7,0
0,15
74,0
8,1
0,20
77,0
11,2
0,25
81,3
14,0
0,30
84,0
15,0
0,35
87,4
15,4
0,40
91,0
16,0
0,45
96,5
17,0
0,50
100,5
18,0
Frequência
Acumulada
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
Quantil
V
U
104,1
19,0
108,6
20,0
111,0
21,0
112,7
22,7
116,8
25,0
120,0
27,0
122,9
29,0
127,9
33,8
138,9
37,0
Gráfico de quartis

O gráfico de quartis pode permitir uma visualização comparativa
entre duas distribuições

O gráfico de quartis de duas distribuições idênticas resultará em
uma linha reta do tipo y=x

Se o gráfico de quartis de duas distribuições é uma linha reta
diferente de y=x, as duas distribuições têm a mesma forma mas
a sua localização e dispersão podem diferir
Gráfico dos quartis das distribuições de 100 valores
da variável U versus os 100 valores de V
O caso em estudo mostra que as distribuições das variáveis U e V são diferentes.
Gráficos de dispersão

Fornecem uma boa idéia qualitativa de como duas variáveis estão
relacionadas.

Pode auxiliar a detectar dados completamente fora da realidade.

Nos primeiros estágios da análise de continuidade espacial é
necessário checar e corrigir os erros que por ventura exista no
conjunto de dados.

Os métodos de estimativa dependem em muito da confiabilidade dos
dados.

O gráfico de dispersão pode ser muito útil na validação inicial dos
dados e no entendimento de futuros resultados.
Gráfico de dispersão dos 100 valores de U versus os
100 valores de V
O gráfico (b) ilustra um dado erroneamente introduzido.
Correlação

Em um gráfico de dispersão é possível detectar se as variáveis
são positivamente correlacionadas, negativamente
correlacionadas ou se não têm correlação.

Coeficiente de correlação () é a maneira mais usada em
estatística para verificar o relacionamento entre duas variáveis.
É calculado por:

1
 xi  mx  yi  my 
n
 x y
Correlação

Covariância (Cxy): é o numerador do coeficiente de correlação
C XY
1 n
  xi  mx    yi  m y 
n i 1

A covariância é usada como uma característica do gráfico de dispersão.

A covariância entre duas variáveis depende da magnitude dos valores
dessas variáveis.
Correlação

Se os valores de U e V são multiplicados por 10, a covariância
é multiplicada por 100, embora o gráfico de dispersão pareça o
mesmo.

Dividindo a covariância pelos devios padrões das duas
variáveis obtem-se um valor entre –1 e +1 (coeficiente de
correlação) independentee da magnitude dos dados.

Para os 100 pares de valores U-V:
–
–
–
–
a covariância é 216,1 ppm2
o desvio padrão da variável V é 26,2 ppm
o desvio padrão da variável U é 9,81 ppm
o coeficiente de correlação entre U e V é 0,84
Correlação

O coeficiente de correlação e a covariância podem ser afetados
por poucos pares de dados completamente fora da realidade.

O coeficiente de correlação é uma medida da proximidade que
dados observados tem de uma reta.

Se =+1, o gráfico de dispersão será uma reta com declividade
positiva.

Se =-1, o gráfico de dispersão será uma reta com declividade
negativa
Correlação


Quando a relação entre as variáveis é não-linear o coeficiente
de correlação não é uma boa medida estatística.
Ao invés do coeficiente de correlação usa-se o coeficiente de
correlação de rank
 rank




1
Rxi  mRx  Ry i  mRy 

n

 Rx   Ry
Rxi = rank de xi entre os valores de x e é geralmente calculado
ordenando os valores de x em ordem crescente. O valor mais
baixo de x terá rank igual a 1
Ryi = rank de yi entre os valores de y.
mRx = média dos ranks Rx1, Rx2, …, Rxn
Rx = desvio padrão dos ranks Rx1, Rx2, …, Rxn
Correlação

Grandes diferenças entre rank e  revela a localização dos
pontos extremos em um gráfico de dispersão.

O rank não é tão influenciado por valores extremos.

Altos valores de rank e baixos valores de  podem significar a
existência de erros nos dados tiveram efeito adverso afetando a
obtenção de uma boa correlação.

Se  é alto e rank é baixo pode ser que  está sendo
influenciado por poucos valores extremos.
Correlação



Para os pares de valores V e U com um par de ponto
completamente fora (figura b):
 = 0,64
rank = 0,80

Se o coeficiente de correlação dos ranks é +1 significa que os
ranks das duas variáveis são iguais.

Para Y = X2 resultará em  próximo de zero e rank igual a um.
Regressão linear

A dependência de uma variável em relação a outra pode ser
descrita pela equação de uma linha reta

y = ax + b

A declividade “a” e a constante “b” são dadas por:
a
y
x
b  m y  a  mx
Regressão linear

Usando-se os 100 pares de valores V-U para calcular os
parâmetros do modelo de regressão linear obtem-se:
a  0,84 

26,2
 2,24
9,81
b  97,6  2,24 19,1  54,7
Portanto, a equação que prevê os valores de V a partir dos
valores conhecidos de U é dada por:
V  2,24 U  54,7
Regressão linear

Se o interesse for pela equação que prevê U a partir de valores
conhecidos de V, então:
a  0,84 

9,81
 0,314
26,2
b  19,1  0,314  97,6  11,5
A equação que prevê os valores de U a partir dos valores
conhecidos de V é dada por:
U  0,314 V  11,5
Gráfico mostrando a regressão linear sobreposta num
gráfico de dispersão
Observando-se
cuidadosamente os dois
gráficos verifica-se que
as duas linhas não as
mesmas, ou seja,
U  0,314 V  11,5
não é um simples arranjo de
V  2,24 U  54,7
Esperança condicional

Analisando-se a Figura (a) da análise de regressão linear
verifica-se que uma linha reta não representa bem a relação
entre as variáveis.

Os dados mostram que uma linha curva poderiam representar
melhor o relacionamento entre as variáveis.

Uma alternativa à regressão linear é calcular valores médios de
y para diferentes faixas de valores de x

Os valores são chamados de condicional porque eles são bons
apenas para uma certa faixa de valores de U.

Para uma classe diferente, espera-se um valor diferente.
Valor médio de V dentro das classes de valores
de U definidas
Classes
0
5
10
15
20
25
30
35








U
U
U
U
U
U
U
U
<
<
<
<
<
<
<
<
5
10
15
20
25
30
35

Número de Pares
de Pontos
8
8
10
33
15
12
7
7
Valor Médio
de V
40,3
72,4
85,5
97,5
106,9
113,5
125,7
133,9
Gráfico do valor médio de V definido dentro de cada
classe de valores de U
Gráfico das curvas de esperança condicional
sobrepostas nos gráficos de dispersão
Esperança condicional obtida por técnica de regressão linear dentro de uma
vizinhança local.
Existem algorítmos para definição do número de pontos ideal que deve compor
a vizinhança.
Download