RESUMOS TÓPICOS

RESUMOS TÓPICOS
Sumário
1 Modelos Probabilísticos Discretos
1
1.1
Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4
Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.5
Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . .
8
1.6
Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Modelos Probabilísticos Contínuos
12
2.1
Distribuição Uniforme Contínua . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2
Distribuição Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3
2.2.1
Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2
Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3
Distribuição Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1
Distribuição log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4
Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5
Distribuição F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1
Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Estimação Intervalar
22
3.1
Probabilidade de Cobertura e Comprimento . . . . . . . . . . . . . . . . . 23
3.2
Funções Pivotais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3
Inversão da estatística de teste . . . . . . . . . . . . . . . . . . . . . . . . . 29
i
ii
4 Teste de Hipóteses
32
4.1
Teste da Razão de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . 33
4.2
Probabilidade de erro e Função poder . . . . . . . . . . . . . . . . . . . . . 35
4.3
Teste mais poderoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4
P-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5 Análise de Regressão Logística
41
5.1
O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2
Função de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.1
Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.2
Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3
Função Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4
Teste de Hipóteses Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5
Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6 Análise Discriminante
48
6.1
Regra Discriminante de Máxima Verossimilhança . . . . . . . . . . . . . . 49
6.2
Regra Discriminante de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.3
Classificação com diferentes matrizes de covariância . . . . . . . . . . . . . 53
6.4
Regra de Discriminação na Prática . . . . . . . . . . . . . . . . . . . . . . 53
6.5
Função Discriminante Linear de Fisher . . . . . . . . . . . . . . . . . . . . 54
6.6
Desempenho de uma função discriminante . . . . . . . . . . . . . . . . . . 57
6.7
Diferença entre Análise Discriminante e Análise de Cluster . . . . . . . . . 58
7 Análise de Agrupamentos (Conglomerados ou Cluster)
59
7.1
O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.2
A proximidade entre objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.3
7.2.1
Similaridade de objetos com estrutura binária . . . . . . . . . . . . 61
7.2.2
Medidas de distância para variáveis contínuas . . . . . . . . . . . . 62
Algoritmos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.3.1
Algoritmos hierárquicos, Técnicas aglomerativas . . . . . . . . . . . 64
7.3.2
Algoritmos de Particionamento . . . . . . . . . . . . . . . . . . . . 68
iii
8 Análise de Séries Temporais
70
8.1
Técnicas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.2
Decomposição Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.3
Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.4
Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8.5
8.4.1
Sequência Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.4.2
Passeio Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.4.3
Modelos de Box-Jenkins para Séries Estacionárias . . . . . . . . . . 76
Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5.1
Ajustando Processos Autoregressivos . . . . . . . . . . . . . . . . . 81
8.5.2
Ajustando Processos Médias Móveis . . . . . . . . . . . . . . . . . . 82
8.5.3
Ajustando Processos ARMA . . . . . . . . . . . . . . . . . . . . . . 82
8.6
Adequação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.7
Previsão em Modelos ARMA
9 Técnicas de Amostragem
9.1
. . . . . . . . . . . . . . . . . . . . . . . . . 83
85
Técnicas de amostragem probabilística . . . . . . . . . . . . . . . . . . . . 86
9.1.1
Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . 86
9.1.2
AAS com reposição . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.1.3
AAS sem reposição . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.1.4
Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.5
Amostragem de conglomerados . . . . . . . . . . . . . . . . . . . . 91
9.1.6
Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . 91
9.2
Tamanho da amostra mínimo . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.3
Erros amostrais e Erros Não Amostrais . . . . . . . . . . . . . . . . . . . . 92
Capítulo 1
Modelos Probabilísticos Discretos
Inicialmente, considere a terna (Ω, F, P ), onde Ω é o espaço amostral que representa
o conjunto de possíveis resultados para um experimento aleatório, F é a σ-álgebra que
representa todos os possíveis eventos compostos e P é a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma variável aleatória (v.a.) X é uma
função do espaço amostral Ω na reta <, tal que X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F, para
todo I ∈ <.
Suponha que estamos interessados apenas em variáveis aleatórias X discretas, ou seja,
somente as v.a. que a variação de X, o espaço amostral, é contável. Em situações mais
comuns, a variável aleatória assume valores inteiros. Uma função de probabilidade de
uma v.a. discreta é uma função que atribui probabilidade a cada possível valor assumido
por X, ou seja,
p(xi ) = P (X = xi ) = P ({ω ∈ Ω : X(ω) = xi }).
Em palavras, a probabilidade da variável aleatória X possuir valor xi é a probabilidade
do evento descrito por {ω ∈ Ω : X(ω) = xi }, ou seja, é a probabilidade dos pontos do
espaço amostral ω nos quais a função X(ω), que define a variável aleatória, tem valor xi .
P
Esta função satisfaz: (i) 0 ≤ p(xi ) ≤ 1, para todo i, e (ii) i∈I p(xi ) = 1, I indica um
certo conjunto de índices.
Funções de probabilidade são utilizadas para modelar populações. Geralmente tratamos de famílias de modelos probabilísticos indexadas por um ou mais parâmetros, os quais
permitem variar características do modelo dentro de sua forma funcional. O objetivo deste
tópico é apresentar os modelos probabilísticos discretos mais comuns, aplicações típicas e
algumas relações úteis, além disso explorar algumas características destes modelos, como
1
2
a média, a variância e a função geradora de momentos (fgm). Inicialmente, considere de
forma geral a definição do momento de ordem k e da função geradora de momentos para
uma v.a. discreta
E(X k ) =
X
xki P (X = xi )
i
e
MX (t) = E(etX ) =
X
etxi P (X = xi ).
i
Logo, a esperança e a variância podem ser obtidas usando
E(X) =
X
xi P (X = xi )
e
V ar(X) = E(X 2 ) − E(X).
i
1.1
Distribuição Uniforme Discreta
Uma v.a. X segue uma distribuição uniforme discreta com parâmetro N se
P (X = x|N ) =
1
, x = 1, 2, . . . , N.
N
sendo N um específico valor inteiro. Esta distribuição atribuí massa igual em cada um
dos possíveis valores 1, 2, . . . , N .
Notação: Observe que a distribuição depende dos valores do parâmetro. Para enfatizar
esta dependência, denotamos na função de probabilidade por “|” (dado) os parâmetros envolvidos na distribuição. Quando não existe possibilidade de confundimento, esta notação
é omitida.
A média e variância de uma v.a. X seguindo distribuição uniforme discreta, denotados
por E(X) e Var(X) respectivamente, são dadas por
N
1 N (N + 1)
1 X
N +1
x=
=
.
E(X) =
xP (X = x|N ) =
N x=1
N
2
2
x=1
N
X
Como
N
X
N
1 X 2 (N + 1)(2N + 1)
E(X ) =
x =
,
x P (X = x|N ) =
N x=1
6
x=1
2
2
então
(N + 1)(2N + 1)
−
Var(X) = E(X ) − E(X) =
6
2
2
N +1
2
2
=
(N + 1)(N − 1)
.
12
A função geradora de momentos de X é dada por
N
1 X tx et (1 − e(N +1) )
MX (t) = E(e ) =
e =
, t 6= 0.
N x=0
N (1 − et )
tX
3
Este modelo não necessariamente precisa assumir x = 1, 2, . . . , N , pode ser redefinido
para qualquer conjunto finito de valores.
1.2
Distribuição Hipergeométrica
A distribuição hipergeométrica tem muita aplicação em amostragem de população
finita. Ela é mais facilmente entendida com um clássico exemplo de modelo de urna.
Suponha que temos uma grande urna com N bolas, que são idênticas em sua forma
exceto pelo fato de que M são vermelhas e N − M são verdes. Ao retirar K bolas
aleatoriamente da urna, sem reposição. Qual é a probabilidade de retirar exatamente x
bolas vermelhas.
N
O total amostrado é de K bolas que podem ser retiradas das N bolas como K
.
Nós queremos que x bolas sejam vermelhas, isso pode ser obtido de M
formas, sendo
x
N −M
formas de encontrar a amostra com K − x bolas verdes. Então se X denota o
K−x
número de bolas vermelhas na amostra de tamanho K, então X segue uma distribuição
hipergeométrica dada por
M
x
P (X = x|N, M, K) =
N −M
K−x
N
K
, x = 0, 1, . . . , K.
Note que existe implicitamente a suposição da varição de X, X está restrito a M −(N K) ≤
x ≤ M . Em muitos casos K é pequeno se comparado com M e N .
A média e variância de uma v.a. X seguindo distribuição hipergeométrica são dadas
por
E(X) =
K
X
xP (X = x|N, M, K) =
x=0
N
X
x=1
x
M
x
N −M
K−x
N
K
=
KM
.
N
e
KM
Var(X) =
N
(N − M )(N − K)
N (N − 1)
.
O cálculo de E(X) envolve reescrever está esperança em uma distribuição hipergeométrica com diferentes valores dos parâmetros.
A função geradora de momentos de X é dada por
N
M N −M
N −M
X
F (−K, −M, N − M − K + 1, et )
MX (t) = E(etX ) =
= K
etx x NK−x
N
x=0
K
em que
F (a, b, c, x) = 1 +
K
∞
X
i=0
(a + i)!(b + i)!c!
xi+1 .
i!(a − 1)!(b − 1)!(c + i)!
4
Exemplo: A distribuição hipergeométrica tem aplicação em amostragem de aceitação,
como ilustrado neste exemplo. Suponha que um varejista compra produtos em lotes e
cada item pode ser aceitável ou defeituoso. Seja, N o número de item no lote e M o
número de itens defeituosos no lote. Então, nós podemos calcular a probabilidade que
uma amostra de tamanho K contenha x itens defeituosos.
Para ser específico, suponha tenha 25 itens, sendo que o item é considerado aceitável
apenas se ele passa pela tolerância. Ao amostrar 10 itens, nenhum item defeituoso foi
encontrado. Qual é a probabilidade desse evento, se existem 6 defeituosos no lote de 25
itens? Aplicando a distribuição hipergeométrica com N = 25, M = 6, K = 10, temos
6 19
P (X = 0) =
0
10
25
10
= 0, 028,
mostrando que nosso evento observado é bastante improvável se exitem 6 itens defeituosos
no lote.
1.3
Distribuição Binomial
A distribuição binomial, uma das mais úteis distribuições discretas, está baseada na
ideia de ensaios de Bernoulli. Um ensaio de Bernoulli é um experimento com dois, apenas
dois, possíveis valores. Uma variável aleatória X segue uma distribuição de Bernoulli se

 1
X=
 0
com probabilidade p
, 0 ≤ p ≤ 1.
com probabilidade (1 − p)
O valor X = 1 é frequentemente denominado sucesso e p se refere a probabilidade de
sucesso. O valor X = 0 é denominado fracasso. A média e variância de uma v.a. B(p)
são
E(X) =
1
X
xP (X = x|p) = 1p + 0(1 − p) = p,
x=0
e
2
E(X ) =
1
X
x2 P (X = x|p) = 12 p + 02 (1 − p) = p.
x=0
com
Var(X) = E(X 2 ) − E(X)2 = p − p2 = p(1 − p).
Muitos experimentos são modelados como uma sequencia de eventos de Bernoulli. Se
n ensaios de Bernoulli idênticos são realizados, definimos os eventos
Ai = {X = 1 no i-ésimo ensaio}, i = 1, . . . , n.
5
Se assumirmos que os eventos A1 , A2 , . . . , An são coleções de eventos independentes, então
a distribuição binomial é derivada do número total de sucessos nos n ensaios. Definimos
a v.a. binomial como sendo Y igual ao total do sucesso em n ensaios de Bernoulli.
O evento {Y = y} ocorrerá se apenas, fora dos eventos A1 , A2 , . . . , An , exatamente
y deles ocorrem, e necessariamente n − y deles não ocorrem. Uma particular sequência
A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ An−1 ∩ Acn de n ensaios de Bernoulli fornece a probabilidade de
ocorrência
P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ An−1 ∩ Acn ) = pp(1 − p) . . . p(1 − p) = py (1 − p)n−y ,
a independência dos Ai s foi utilizada no cálculo. Note que o cálculo não depende de
qual conjunto de Ai s ocorrem, apenas que algum conjunto de y ocorre. Entretanto, o
evento {Y = y} ocorrerá independentemente de qual dos Ai s ocorrem. Assim, vemos
que uma particular sequência de n ensaios com exatamente y sucessos tem probabilidade
py (1 − p)n−y de ocorrência. Como existem ny sequências, temos
n y
P (Y = y|n, p) =
p (1 − p)n−y , y = 0, 1, . . . , n,
y
e Y é chamada v.a. Bin(n, p).
Alternativamente Y pode ser definido da seguinte forma: Em uma sequência idêntica
de n, ensaios de Bernoulli independentes, cada ensaio com probabilidade de sucesso p,
definimos a v.a. X1 , X2 , . . . , Xn por

 1 com probabilidade p
Xi =
, 0 ≤ p ≤ 1.
 0 com probabilidade (1 − p)
P
A v.a. Y = ni=1 Xi segue distribuição binomial com parâmetros n e p.
A média e variância de uma v.a. Y seguindo distribuição binomial são dadas por
n
n
X
X
n y
E(Y ) =
yP (Y = y|n, p) =
y
p (1 − p)n−y = np,
y
y=0
y=0
e
n
X
n
X
n y
E(Y ) =
y P (Y = y|n, p) =
y
p (1 − p)n−y = n(n − 1)p2 + np
y
y=0
y=0
2
2
2
com
Var(Y ) = E(X 2 ) − E(X)2 = n(n − 1)p2 + np − n2 p2 = np(1 − p).
A função geradora de momentos de Y é dada por
n
n X
X
n
tY
ty n
y
n−y
MY (t) = E(e ) =
e
p (1 − p)
=
(et p)y (1 − p)n−y = (pet + 1 − p)n .
y
y
y=0
y=0
6
Exemplo: Suponha que temos interesse em obter a probabilidade de se obter pelo
menos um 6 em quatro lançamentos de um dado. Este experimento pode ser modelado
como uma sequência de 4 ensaios de Bernoulli com probabilidade de sucesso p = 1/6
(dado justo). Definimos a v.a. X por X : número total de 6 em 4 lançamentos. Então,
X ∼ Bin(4, 1/6) e
0 4
4
1
5
P (pelo menos um 6) = P (X > 0) = 1 − P (X = 0) = 1 −
= 0, 518.
0
6
6
1.4
Distribuição de Poisson
Uma distribuição discreta amplamente utilizada e pode servir como um modelo para
o número de diferentes tipos de experimentos. Por exemplo, se modelamos um fenômeno
no qual temos que esperar por uma ocorrência (esperar um ônibus, esperar por cliente
chegando a um banco), o número de ocorrências pode ser algumas vezes modelado pela
distribuição de poisson. Uma das suposições básicas na qual a distribuição de poisson
está baseada é que, para intervalos pequenos de tempo, a probabilidade de uma chegada
é proporcional ao tempo de espera. Isso torna o modelo razoável para situações como
citada acima.
A distribuição de poisson tem apenas um parâmetro λ, algumas vezes chamado de
parâmetro de intensidade. A v.a. X, assumindo valores inteiros não negativos, segue uma
Po(λ) se
e−λ λx
P (X = x|λ) =
.
x!
A média e variância de uma v.a. X seguindo distribuição poisson são dadas por
E(X) =
∞
X
xP (X = x|λ) =
x=0
e
2
E(X ) =
∞
X
∞
∞
X
X
e−λ λx
e−λ λx − 1
x
= λe−λ
= λ,
x!
(x
−
1)!
x=0
x=1
2
x P (X = x|λ) =
x=0
∞
X
x=0
xx
e−λ λx
,
x!
substituindo s = x − 1 e x = s + 1, temos
#
"∞
∞
∞
−λ s
−λ s
−λ s+1
X
X e−λ λs X
e
λ
e
λ
e
λ
E(X 2 ) =
(s + 1)
=λ
(s + 1)
=λ
s
+
= λ2 + λ
s!
s!
s!
s!
x=1
x=1
x=1
x=1
∞
X
com
Var(X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ.
7
Portanto a média e variância da poisson são iguais.
A função geradora de momentos de X é dada por
MX (t) = E(etX ) =
∞
X
x=0
etx
∞
X
(λet )x
e−λ λx
t
= e−λ
= e−λ(e −1) .
x!
x!
x=0
Exemplo: Como um exemplo uma aplicação de espera para ocorrência, considere um
telefonista que, na média, recebe 5 ligações a cada 3 minutos. Qual é a probabilidade de
não receber ligações no próximo minuto? Seja X ∼ Po(5/3). Então,
5
0
5
e− 3 35
P (nenhuma ligação no próximo minuto) = P (X = 0) =
= e− 3 = 0, 189.
0!
Calcular as probabilidade da distribuição de poisson podem ser rápidas utilizando a
seguinte relação recursiva:
P (X = x) =
λ
P (X = x − 1), x = 1, 2, . . . .
x
(1.1)
Uma relação similar vale para outra distribuição discreta. Por exemplo, se Y ∼
Bin(n, p), então
P (Y = y) =
n−y+1 p
P (Y = y − 1).
y
1−p
(1.2)
As relações recursivas (1.1) e (1.2) podem ser utilizadas para estabelecer a aproximação
da distribuição poisson a distribuição binomial. Seja λ = np e, se p é pequeno, podemos
escrever
n−y+1 p
np − p(y − 1)
λ
=
≈ ,
y
1−p
y − py
y
então, para p pequeno p(y−1) e py podem ser ignorados. Portanto, para esta aproximação
(1.2) se torna
P (Y = y) =
λ
P (Y = y − 1),
y
(1.3)
que é uma relação recursiva poisson. Para completar a aproximação, precisamos estabelecer que P (X = 0) ≈ P (Y = 0), desde que todas as outras probabilidades seguem de
(1.3). Agora,
n
np n
λ
P (Y = 0) = (1 − p) = 1 −
= 1−
≈ e−λ = P (X = 0).
n
n |{z}
n
n→∞
A aproximação é válida quando n é grande e p é pequeno.
Exemplo: Um compositor, na média, comete um erro a cada 500 palavras. Uma página
geralmente contem 300 palavras. Qual é a probabilidade de existir não mais de 2 erros em
8
5 páginas? Se assumirmos que cada palavra é um ensaio de Bernoulli com probabilidade
de sucesso p = 1/500 e que os ensaios são independentes, então X: o número de erros em
5 páginas é uma Bin(1500, 1/500). Então,
x 1500−x
2 X
1500
1
499
P (não mais que 2 erros) = P (X ≤ 2) =
= 0, 4230.
x
500
500
x=0
Se usamos a aproximação poisson com λ = 1500(1/500) = 3, temos
32
−3
1+3+
P (X ≤ 2) ≈ e
= 0, 4232.
2
1.5
Distribuição Binomial Negativa
A distribuição binomial conta o número de sucesso em um número fixo de ensaios de
Bernoulli. Suponha que, ao invés disso, o interesse seja contar o número de ensaios de
Bernoulli necessários para se obter um número de sucessos fixo. Está última formulação
gera a distribuição binomial negativa.
Em uma sequência de ensaios de B(p) independentes, seja a v.a. X que denota o
número de ensaios até a ocorrência do r-ésimo sucesso, sendo r um número fixo inteiro.
Então,
x−1 r
P (X = x|r, p) =
p (1 − p)x−r , x = r, r + 1, . . . ,
r−1
(1.4)
e dizemos que X ∼ BN(r, p).
A derivação de (1.4) segue diretamente da distribuição binomial. O evento {X = x}
pode ocorre apenas se existir r −1 sucessos nos primeiros x−1 ensaios e um sucessos no x r−1
ésimo ensaio. A probabilidade dos r − 1 sucessos nos primeiros x − 1 ensaios x−1
p (1 −
r−1
p)x−r , e com probabilidade p existe um sucesso no x-ésimo ensaio. Multiplicando estas
probabilidades obtemos (1.4).
A distribuição binomial negativa é algumas vezes definida em função da v.a. Y :
número de falhas antes do r-ésimo sucesso. Esta formulação é estatisticamente equivalente
à dada acima em termos de X: ensaios até a ocorrência do r-ésimo sucesso. Então,
Y = X − r. Usando a relação entre Y e X, a forma alternativa da distribuição binomial
negativa é
r+y−1 r
P (Y = y|r, p) =
p (1 − p)y , y = 0, 1, . . . ,
y
(1.5)
9
A média e variância de uma v.a. Y seguindo distribuição binomial negativa são dadas
por
∞
X
∞
X
r+y−1 r
E(Y ) =
yP (Y = y|λ) =
y
p (1 − p)y
y
y=0
y=0
∞
∞
X
X
(r + y − 1)! r
r+y−1 r
y
=
p (1 − p) =
r
p (1 − p)y ,
(y − 1)!(r − 1)!
y−1
y=1
y=1
escrevendo z = y − 1, temos
∞
∞ X
r+z r
r(1 − p) X (r + 1) + z − 1 r+1
r(1 − p)
z
E(Y ) =
r
p (1−p) +1 =
p (1−p)z =
.
p
z
p
z
z=1
z=1
De forma simular, podemos obter
Var(Y ) =
r(1 − p)
.
p2
Existe uma interessante, e algumas vezes útil, reparametrização da distribuição binomial
negativa em termos de sua média. Se definirmos o parâmetro µ = r(1 − p)/p, então
E(Y ) = µ e V ar(Y ) = µ + µ2 /r.
A família de distribuição binomial negativa inclui a distribuição de poisson como um
caso limite. Se r → ∞ e p → 1 tal que r(1 − p) → λ, 0 < λ < ∞, então
E(Y ) =
r(1 − p)
→λ
p
Var(Y ) =
r(1 − p)
→ λ,
p2
que concorda com a média e variância da distribuição de poisson.
A função geradora de momentos de X, ver (1.4), é dada por
∞
X
x−1 r
MX (t) = E(e ) =
e
p (1 − p)x−r
r
−
1
x=r
tX
tx
∞
X
(r + x)!
pr
(pet )r
t r
t x
=
((1
−
p)e
)
((1
−
p)e
)
=
.
(1 − p)r
x!r!
(1 − (1 − p)et )r
x=0
Exemplo: A técnica conhecida como amostra binomial inversa é útil em amostragem de
população biológica. Se a proporção de indivíduos que possuem uma dada característica
é p e amostramos até obter r indivíduos com esta característica, então o número de
indivíduos amostrados segue uma distribuição binomial negativa.
Por exemplo, suponha que na população de moscas de fruta estamos interessados na
proporção de asas vestigiais e decidimos amostrar até encontar 100 moscas. A probabili-
10
dade que tenhamos examinado no mínimo N moscas é
N X
x − 1 100
P (X ≥ N ) =
p (1 − p)x−100
99
x=0
N
−1 X
x − 1 100
= 1−
p (1 − p)x−100 .
99
x=100
Para um determinado p e N , podemos avaliar esta expressão para determinar quantas
moscas de frutas são susceptíveis.
1.6
Distribuição Geométrica
A distribuição geométrica é simplesmente uma distribuição de tempo de espera e é
um caso especial da distribuição binomial negativa. Seja r = 1 na distribuição binomial
negativa expressa em (1.4)
P (X = x|p) = p(1 − p)x−1 , x = 1, 2, . . . ,
que define a função de probabilidade da v.a. X geométrica com probabilidade de sucesso
p. X pode ser interpretado como o número de ensaios até a ocorrência do primeiro sucesso,
então temos a espera até o sucesso.
A média e variância de X podem ser obtidos usando as fórmulas da distribuição
binomial negativa e escrevendo X = Y + 1 obtemos E(X) = E(Y ) + 1 = 1/p e Var(X) =
(1 − p)/p2 .
Também podemos obter a função geradora de momentos de X, usando a fórmula
apresentada para distribuição binomial negativa fazendo r = 1, ou seja,
MX (t) = E(etX ) =
pet
.
1 − (1 − p)et
A distribuição geométrica tem uma interessante propriedade, conhecida como propriedade de falta de memória. Para inteiros s e t, vale
P (X ≥ s + t|X ≥ s) = P (X ≥ t),
(1.6)
ou seja, se X representasse a espera de um evento, a probabilidade de esperar s + t dias,
dado que o evento não ocorreu antes de s dias, é a mesma probabilidade de esperar pelo
menos t dias.
11
P (X ≥ s + t e X ≥ t)
P (X ≥ t)
P (X ≥ s + t)
=
= (1 − p)t = P (X ≥ t).
P (X ≥ t)
P (X ≥ s + t|X ≥ s) =
Exemplo: A distribuição geométrica é algumas vezes utilizada para modelar tempo de
falha de componentes. Por exemplo, se a probabilidade é 0,001 que uma lâmpada elétrica
falhe em um determinado tempo, então a probabilidade que ela dure no mínimo 30 dias é
P (X > 30) =
∞
X
0, 001(1 − 0, 001)x−1 = 0, 9993 0 = 0, 970.
x=31
A falta de memória da distribuição geométrica descreve uma propriedade muito especial de falta de envelhecimento. Indicando que esta distribuição não deve ser considerada
para modelar tempos de falha quando é esperado que a probabilidade da falha aumente
com o tempo.
Capítulo 2
Modelos Probabilísticos Contínuos
Inicialmente, considere a terna (Ω, F, P ), onde Ω é o espaço amostral que representa
o conjunto de possíveis resultados para um experimento aleatório, F é a σ-álgebra que
representa todos os possíveis eventos compostos e P é a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma variável aleatória (v.a.) X é uma
função do espaço amostral Ω na reta <, tal que X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F, para
todo I ∈ <. Uma função de distribuição F , será classificada como contínua, se existir
uma função não negativa f tal que
Z x
F (x) =
f (w)dw,
para todo x ∈ <.
−∞
f é denominada função densidade de probabilidade (fdp), e possui duas propriedades
1. f (x) ≥ 0 para todo x ∈ <.
2. A área definida por f (x) é igual a 1, ou seja,
R +∞
−∞
f (x)dx = 1.
As densidades de probabilidade são utilizadas para modelar populações. Geralmente
tratamos de famílias de modelos indexadas por um ou mais parâmetros, os quais permitem
variar características do modelo dentro de sua forma funcional. O objetivo deste tópico é
apresentar os modelos probabilísticos contínuos mais comuns, aplicações típicas e algumas
relações úteis, além disso explorar algumas características destes modelos, como a média, a
variância e a função geradora de momentos (quando julgarmos interessante). Inicialmente,
considere de forma geral a definição do momento de ordem k e da função geradora de
momentos para uma v.a. contínua
k
Z
+∞
xk f (x)dx
E(X ) =
−∞
12
13
e
Z
tX
+∞
MX (t) = E(e ) =
etx f (x)dx.
−∞
Logo, a esperança e a variância podem ser obtidas usando
Z +∞
xf (x)dx e V ar(X) = E(X 2 ) − E(X).
E(X) =
−∞
Estas definições exigem que a integral esteja bem definida.
2.1
Distribuição Uniforme Contínua
A distribuição uniforme contínua é definida como uma massa uniformemente espalhada
sobre um intervalo [a, b]. Sua fdp é dada por
f (x|a, b) =
1
I[a,b] (x).
b−a
Notação: Observe que a distribuição depende dos valores do parâmetro. Para enfatizar
esta dependência, denotamos na função de probabilidade por “|” (dado) os parâmetros envolvidos na distribuição. Quando não existe possibilidade de confundimento, esta notação
é omitida.
A média e a variância de uma v.a. X seguindo distribuição uniforme contínua, denotados por E(X) e Var(X) respectivamente, são dadas por
Z b
Z b
1
b+a
xf (x|a, b)dx =
E(X) =
xdx =
.
b−a a
2
a
Como
2
b
Z
1
x f (x|a, b)dx =
b−a
2
E(X ) =
a
Z
b
x2 dx =
a
então
b 3 − a3
−
Var(X) = E(X ) − E(X) =
3(b − a)
2
2
b+a
2
b 3 − a3
,
3(b − a)
2
=
(b − a)2
.
12
A função geradora de momentos de X é dada por
Z b tx
e
etb − eta
tX
MX (t) = E(e ) =
dx =
, t 6= 0.
t(b − a)
a b−a
Exemplo: A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km
foi modelada por uma distribuição uniforme no intervalo [0, 7]. Qual é a probabilidade
de que uma pane venha a ocorrer nos primeiros 800 metros?
14
A função densidade da distribuição Uniforme é dada por f (x) = 71 I[0,7] (x). Assim, a
probabilidade de ocorrer pane nos primeiros 800 metros é
Z 0,8
0, 8 − 0
f (x)dx =
P (X ≥ 0, 8) =
= 0, 114.
7
0
2.2
Distribuição Gamma
A distribuição gamma é uma das distribuições mais gerais, pois diversas distribuições
são caso particular dela como por exemplo a exponencial, a qui-quadrado, entre outras.
Essa distribuição tem como suas principais aplicações à análise de tempo de vida de
produtos.
Uma variável aleatória X segue a distribuição gamma com parâmetros α e β, se sua
função densidade é dada por
f (x|α, β) =
1
xα−1 e−x/β I[0,∞) (x), α, β > 0.
Γ(α)β α
O parâmetro α é conhecido como parâmetro de forma, então exerce maior influência
no centro da distribuição, enquanto o parâmetro β é chamando de escala, então exerce
maior influência na abertura da distribuição.
A média e a variância de uma v.a. X seguindo G(α, β) são dadas por
Z ∞
Z ∞
1
1
α−1 −x/β
E(X) =
xx e
dx =
x(α+1)−1 e−x/β dx,
Γ(α)β α 0
Γ(α)β α 0
observe que a integral envolve o núcleo de uma distribuição G(α + 1, β), logo
E(X) =
Γ(α + 1)β α+1
αΓ(α)β α+1
=
= αβ.
Γ(α)β α
Γ(α)β α
Como
1
E(X ) =
Γ(α)β α
2
Z
∞
x2 xα−1 e−x/β dx,
0
então analogamente ao cálculo de E(X), temos
E(X 2 ) =
Γ(α + 2)β α+2
(α + 1)αΓ(α)β α+2
=
= (α + 1)αβ 2 .
α
α
Γ(α)β
Γ(α)β
Var(X) = E(X 2 ) − E(X)2 = (α + 1)αβ 2 − α2 β 2 = αβ 2 .
A função geradora de momentos de X é dada por
Z ∞
Z ∞
1
1
1
tX
tx α−1 −x/β
α−1 −x β −t
MX (t) = E(e ) =
e x e
dx =
x e
dx,
Γ(α)β α 0
Γ(α)β α 0
15
observe que a integral envolve o núcleo de uma distribuição G(α, (1/β − t)−1 ), logo
−α α
1
1
1
1
MX (t) =
−
t
=
,
t
<
.
Γ(α)
Γ(α)β α
β
1 − tβ
β
Existe uma relação interessante entre a distribuição gamma e a distribuição Poisson.
Se X é uma v.a. G(α, β), em que α é um valor inteiro, então para qualquer x,
P (X ≤ x) = P (Y ≥ α),
onde Y ∼ P (x/β). Esta relação pode ser mostrada via integração por partes.
Exemplo: Suponha uma sequência de v.as. independentes, seja Xi ∼ G(αi , β). Qual é
P
a distribuição de Y = ki=1 Xi ? Para obter a distribuição da soma de v.as. independentes
podemos utilizar a fgm da distribuição.
!
k
k k
Pk
Y
Y
Y
tXi
t( i=1 Xi )
tXi
=
E(e ) =
MY (t) = E e
=E
e
i=1
i=1
i=1
que é a fgm de uma distribuição gamma com parâmetros
P
G( ki=1 αi , β).
2.2.1
1
1 − tβ
Pk
i=1
αi
=
1
1 − tβ
Pki=1 αi
,
αi e β. Logo, Y ∼
Distribuição Qui-quadrado
Existe um número de casos especiais da distribuição gamma. Se α = p/2, sendo p um
valor inteiro, e β = 2, então a fdp da gamma se torna
f (x|p) =
1
xp/2−1 e−y/2 I[0,∞) (x),
Γ(p/2)2p/2
que é a distribuição qui-quadrado com p graus de liberdade. A média, a variância e a fgm
desta distribuição podem ser obtidas pelas fórmulas da distribuição gamma.
p/2
2p
22 p
1
1
E(X) =
= p, Var(X) =
= 2p e MX (t) =
,t < .
2
2
1 − 2t
2
A distribuição qui-quadrado fornece uma importante regra na inferência estatística,
especialmente quando um amostra provem de uma distribuição normal.
2.2.2
Distribuição Exponencial
Outro importante caso especial da distribuição gamma é obtido quando α = 1, então
a fdp da gamma se torna
f (x|p) =
1 −x/β
e
I[0,∞) (x),
β
(2.1)
16
que é a distribuição exponencial com parâmetro β. A média, a variância e a fgm desta
distribuição podem ser obtidas pelas fórmulas da distribuição gamma.
E(X) = β, Var(X) = β 2 e MX (t) =
1
1
,t < .
1 − tβ
β
A distribuição exponencial pode ser utilizada para modelar tempo de vida, análogo
ao uso da distribuição geométrica no caso discreto. De fato, a distribuição exponencial
possui a propriedade de falta de memória da geométrica. Se X ∼ Exp(β), isto é, com fdp
dada em (2.1), então para s ≥ 0, t ≥ 0,
P (X ≥ s + t|X ≥ s) = P (X ≥ t),
então
R ∞ 1 −x/β
e
dx
P (X ≥ s + t)
P (X ≥ s + t; X ≥ s)
t+s β
=
= R ∞ 1 −x/β
P (X ≥ s + t|X ≥ s) =
P (X ≥ s)
P (X ≥ s)
e
dx
s β
=
e−(t+s)/β
= e−t/β = P (X ≥ t).
e−s/β
Exemplo: O tempo até a falha do ventilador de motores a diesel tem uma distribuição
exponencial com parâmetro λ = 28700 horas. Qual a probabilidade de um destes ventiladores falhar nas primeiras 24000 horas de funcionamento?
Z 24000
1
x P (0 ≤ X ≤ 24000) =
exp −
= 0, 567.
28700
28700
0
2.2.3
Distribuição Weibull
Outra distribuição relacionada com a família da distribuição gamma, por meio da
distribuição exponencial é a distribuição de Weibull. Se X ∼ Exp(β), então Y = X 1/γ
segue uma distribuição Weibull com parâmetros γ e β. Podemos obter Y fazendo
d −1 −1
f (y|p) = fX (g (y)) g (y)
dy
como
g −1 (y) = y γ e
d −1
g (y) = y γ−1 γ,
dy
então
f (y|γ, β) =
γ γ−1 −yγ /β
y e
I[0,∞) (y), γ > 0, β > 0.
β
17
Poderíamos partir da distribuição Weibull e considerar γ = 1 para obter a distribuição
exponencial. A distribuição Weibull é muito importante na análise de tempo de falha,
particularmente muito útil para modelar funções de risco.
A média e a variância de uma v.a. Y seguindo Weibull(γ, β) são dadas por
Z
γ ∞ γ−1 −yγ /β
1
1/γ
,
E(Y ) =
yy e
dy = β Γ 1 +
β 0
γ
Z
γ ∞ 2 γ−1 −yγ /β
n
2
2/γ
E(Y ) =
y y e
dy = β Γ 1 +
,
β 0
γ
assim
" 2 #
2
1
Var(Y ) = E(Y 2 ) − E(Y )2 = β 2/γ Γ 1 +
− Γ 1+
.
γ
γ
A fgm só existe para γ ≥ 1, não sendo muito útil.
2.3
Distribuição Normal
A distribuição normal, algumas vezes chamada de distribuição gaussiana, desempenha
um papel central na estatística. Existem três principais razões para isso. Primeira, a
distribuição normal e as distribuições associadas a ela são analiticamente tratáveis. Segunda, a distribuição normal tem uma forma de sino, que a faz simétrica sendo uma
escolha atraente para modelar muitas populações. Entretanto existem muitas outras
distribuições com forma de sino, mas que não possuem a tratabilidade analítica da normal. Terceira, existe o Teorema Central do Limite (TCL), que mostra que, sob algumas
condições, a distribuição normal pode ser usada para aproximar uma grande variedade de
distribuições no caso de grandes amostras.
A distribuição normal têm dois parâmetros, usualmente denotados por µ e σ 2 , que são
sua média e variância. A fdp da distribuição normal com média µ e variância σ 2 é dada
por
f (x|µ, σ 2 ) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
I(−∞,∞) (x), µ ∈ <, σ 2 > 0.
Se X ∼ N (µ, σ 2 ), então a v.a. Z = (X −µ)/σ segue uma distribuição N (0, 1), também
conhecida como normal padrão.
X −µ
P (Z ≤ z) = P
≤ z = P (X ≤ zσ + µ)
σ
Z zσ+µ
Z z
(x−µ)2
t2
1
1
x−µ
−
2
= √
e 2σ dx = √
e− 2 dt, com t =
,
2
σ
2π −∞
2πσ −∞
18
mostrando que P (Z ≤ z) é a fdp da normal padrão.
A média e a variância de uma v.a. Z seguindo normal padrão são dadas por
Z +∞
z2
1
E(Z) = √
e− 2 dz = 0,
2π −∞
então E(X) = E(zσ + µ) = σE(z) + µ = µ. Similarmente temos que Var(Z) = 1, então
Var(X) = Var(zσ + µ) = σ 2 Var(z) = σ 2 ,
A função geradora de momentos de Z é dada por
1
MZ (t) = E(e ) = √
2π
tZ
Z
+∞
2
tz − z2
e e
−∞
t2
e2
dz = √
2π
Z
+∞
e−
(z−t)2
2
t2
dz = e 2 .
−∞
Assim,
MX (t) = E(etX ) = E(et(Zσ+µ) ) = etµ E(etZσ ) = etµ e
(tσ)2
2
=e
t2 σ 2
+tµ
2
.
Entre os muitos usos da distribuição normal, um importante uso seu é a aproximação
de outras distribuições, a qual é parcialmente justificada pelo TCL. Por exemplo, se
X ∼ Bin(n, p), então E(X) = np e Var(X) = np(1 − p), sob condições razoáveis, a
distribuição de X pode ser aproximada à uma distribuição normal com média µ = np e
variância σ 2 = np(1 − p). As condições razoáveis, são que n (tamanho da amostra) deve
ser grande e p não dever assumir valores extremos (próximos de 0 ou 1). Queremos n
grande de modo que existam valor o bastante (discreto) de X para fazer a aproximação
para uma distribuição contínua razoável, e p deve ser no meio (não muito longe de 0,5),
então a distribuição binomial é quase simétrica, como a normal. Cada aproximação deve
ser avaliada, uma regra conservadora é que a aproximação deve ser boa se min{np, np(1 −
p)} ≥ 5.
Exemplo: Suponha que o peso médio de 800 porcos de uma certa fazenda é de 64kg,
e o desvio padrão é de 15kg. Suponha que este peso seja distribuído de forma normal,
quantos porcos pesarão entre 42kg e 73kg? Para resolvermos este problema primeiramente
devemos padroniza-lo. Seja Z =
x−64
,
15
assim
42−64
15
≈ −1, 47 e
73−64
15
≈ 0, 6. Assim, a
probabilidade é
P (−1, 47 ≤ Z ≤ 0, 60) = P (Z ≤ 0, 60) − P (Z ≤ −1, 47)
Z −1,47
Z 0,60
1 −x2 /2
1
2
√ e
√ e−x /2 dx
=
dx −
2π
2π
−∞
−∞
= 0, 7257 − 0, 4292 = 0, 2965.
Portanto o número esperado de porcos entre 42kg e 73kg é (800 ∗ 0, 2965) ≈ 237.
19
2.3.1
Distribuição log-Normal
Se X é uma v.a. tal que o logaritmo é normalmente distribuído (log X ∼ N (µ, σ 2 )),
então X segue uma distribuição log-normal. A distribuição de X pode ser obtida via
transformação da distribuição normal e é dada por
f (x|µσ 2 ) = √
2
1 1 − (log x−µ)
2σ 2
e
I[0,∞) (x), µ ∈ <, σ 2 > 0.
2πσ x
A média e a variância de uma v.a. X seguindo log-normal podem ser obtidas usando
os resultados da distribuição normal
E(X) = E(elog X ) = E(eY ) = eµ+σ
2 /2
2
e E(X 2 ) = E((elog X )2 ) = E(eY ) = e2(µ+σ
2)
sendo Y ∼ N (µ, σ 2 ), o resultado é direto via fgm. Logo,
2
2
Var(X) = E(X 2 ) − E(X)2 = e2(µ+σ ) − e2µ+σ .
A função geradora de momentos de uma v.a. com distribuição log-normal não existe.
A distribuição log-normal é similar em aparência a distribuição gamma. A distribuição
é muito popular para modelar aplicações quando a variável de interesse é assimétrica a
direita, e modelar com a log-normal permite o uso da teoria da distribuição normal em
log.
2.4
Distribuição Beta
A família de distribuições beta é uma família contínua no intervalos (0, 1) indexada
por dois parâmetros α e β. A fdp de uma v.a X ∼ Beta(α, β) é dada por
f (x|α, β) =
sendo B(a, b) =
R1
0
1
xα−1 (1 − x)β−1 I(0,1) (x), α > 0, β > 0,
B(α, β)
xα−1 xβ−1 dx denota a função beta. A função beta está relacionada com
a função gamma pela identidade
B(a, b) =
Γ(a)Γ(b)
.
Γ(a + b)
A distribuição beta é frequentemente considerada para modelar proporções, as quais
estão naturalmente no intervalo (0,1).
20
A média e a variância de uma v.a. X seguindo beta, são dadas por
Z 1
Z 1
1
1
α−1
β−1
E(X) =
xx (1 − x) dx =
x(α+1)−1 (1 − x)β−1 dx,
B(α, β) 0
B(α, β) 0
obserque que o núcleo da integral é uma distribuição beta com parâmetros α + 1 e β.
Logo,
E(X) =
B(α + 1, β)
Γ(α + β) Γ(α + 1)Γ(β)
α
=
=
.
B(α, β)
Γ(α)Γ(β) Γ(α + β + 1)
α+β
Analogamente a E(X),
E(X 2 ) =
α(α + 1)
B(α + 2, β)
=
.
B(α, β)
(α + β + 1)(α + β)
então
α(α + 1)
Var(X) = E(X ) − E(X) =
−
(α + β + 1)(α + β)
2
2
α
α+β
2
=
αβ
.
(α + β + 1)(α + β)2
A função geradora de momentos da distribuição beta é complicada e envolve a chamada
função hipergeométrica confluente a qual é solução de uma equação diferencial chamada
equação diferencial hipergeométrica confluente, também conhecida como função de Whittaker.
A variação nos parâmetros α e β fornecem muitas formas para esta distribuição. A
fdp pode ser estritamente crescente (α > 1 e β = 1), estritamente decrescente (α = 1 e
β > 1), forma de U (α < 1 e β < 1), ou unimodal (α > 1 e β > 1). Nos casos em que
α = β a distribuição beta é simétrica em 0,5, com média 0,5 e variância (4(2α + 1))−1 . Se
α = β = 1, a distribuição beta é reduz-se a distribuição uniforme contínua com parâmetros
a = 0 e b = 1.
2.5
Distribuição F de Snedecor
A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na inferência estatística para análise da variância. Uma variável
aleatória X tem distribuição F de Snedecor com n graus de liberdade no numerador e m
graus de liberdade no denominador se sua fdp é definida por
f (x|n, m) =
Γ((m + n)/2)(m/n)m/2 x(m/2)−1
I[0,∞) (x), n, m ∈ N .
Γ(m/2)Γ(n/2)((m/n)x + 1)(m+n)/2
A distribuição beta está relacionada com a distribuição F, por meio de uma transformação. Se X ∼ Fp,q , então (p/q)X/(1 + (p/q)X) ∼ Beta(p/2, q/2).
21
A média e a variância de uma v.a. X seguindo F, são dadas por
2
m
n+m−2
m
, m > 2, e Var(X) = 2
, m > 4.
E(X) =
m−2
m−2
n(m − 4)
A fgm da distribuição F não existe.
2.5.1
Distribuição t-Student
Se tomarmos n = 1 na distribuição F, então a v.a X segue um distribuição de t-Sudent
com m graus de liberdade. A distribuição t-Student é comumente usada em inferência
quando queremos fazer um teste de hipótese o qual queremos testar se o nosso conjunto
segue uma distribuição normal com variância desconhecida. A fdp é for dada por
Γ((m + 1)/2)
f (x|m) = √
mπΓ(m/2)
x2
1+
m
−(m+1)/2
I(−∞,+∞) (x), m ∈ N .
A curva da distribuição t-Student tem a mesma forma em sino da distribuição normal,
mas reflete uma maior variabilidade (com curvas mais alargadas) que é esperado em
amostras pequenas. Quanto maior a dimensão da amostra, mais a distribuição t-Student
se aproxima da distribuição normal.
A distribuição t-Student está relacionada com a distribuição qui-quadrado (deno√
tada por χ2 ) por meio de uma transformação. Se Y ∼ χ21 e X ∼ χ2m , então W =
√ p
Y ( X/m)−1 ∼ tm .
A média e a variância de uma v.a. X seguindo t-Student, são dadas por
E(X) = 0, m > 1, e Var(X) =
m
, m > 2.
m−2
A função geradora de momento da t de Student não está definida.
Capítulo 3
Estimação Intervalar
Uma importante classe de métodos inferenciais são os estimadores intervalares. Como
o nome sugere um estimador intervalar fornece uma gama de valores possíveis para o
parâmetro desconhecido, em vez de um único ponto (estimador pontual). Estimativas
intervalares são amplamente utilizadas, porém frequentemente mal interpretadas. O interesse deste resumo é apresentar duas formas de construção de estimadores intervalares,
via função pivotal e inversão da estatística de teste, e uma métrica para avaliar estes
estimadores intervalares, via probabilidade de cobertura e comprimento do intervalo.
Lembre-se que um estimador pontual é uma função da amostra. Por definição, um
estimador pontual é uma variável aleatória. Quando substituímos a amostra observada, o
resultado é uma estimativa, ou seja, apenas um número. A situação para os estimadores
intervalares é completamente análoga. Um estimador intervalar é um intervalo aleatório,
os limites do intervalo são estatísticas. Quando substituímos a amostra observada obtemos
uma estimativa intervalar.
Suponha que temos Y um amostra parametrizada por θ.
• Seja U1 = h1 (Y ) e U2 = h2 (Y ) estatísticas amostrais com U1 ≤ U2 , então [U1 , U2 ] é
um estimador intervalar para θ.
• Seja u1 = h1 (y) e u2 = h2 (y) valores observados da estatísticas amostral U1 e U2 ,
então [u1 , u2 ] é uma estimativa intervalar para θ.
Podemos interpretar o intervalo de confiança como um intervalo que contém os valores
“plausíveis” que o parâmetro pode assumir. Assim, a amplitude do intervalo está associada a incerteza que temos a respeito do parâmetro. Geralmente temos interesse em um
22
23
estimador intervalar com coeficiente de confiança (1 − α), isso significa que o intervalo
deve oferecer 100(1 − α)% de confiança. Por exemplo, se α = 0, 05, então o estimador
intervalar resultante é muitas vezes chamado de intervalo de confiança de 95%. Neste
contexto, o coeficiente de confiança (expresso em percentagem) é muitas vezes referido
como o nível de confiança.
É importante compreender que um intervalo de confiança pode ser visto como um caso
especial de um conjunto de confiança. Conjuntos de confiança são úteis em dois contextos:
(i) se não há certeza de que o resultado do procedimento é um intervalo, e (ii) se temos
um vetor de parâmetros, caso em que resulta em uma região de confiança.
Tendo em conta que há um número (infinito) de intervalos que são estimadores intervalares válidos, é preciso criar mecanismos para decidir como obter um estimador intervalar bom.
3.1
Probabilidade de Cobertura e Comprimento
Um estimador intervalar bom deve ter uma alta probabilidade de conter o verdadeiro
valor do parâmetro. Se este fosse o único critério de interesse, sempre escolheríamos o
intervalo (−∞, +∞), pois este cobre o verdadeiro valor com probabilidade 1. Claramente,
o intervalo (−∞, +∞) não fornece nenhuma informação útil sobre valores plausíveis do
parâmetro. Na escolha de um estimador intervalar, existe uma compensação entre a probabilidade de abranger o valor verdadeiro e o comprimento do intervalo, gostaríamos que
a probabilidade de cobertura fosse alta e o comprimento pequeno. Como a probabilidade
de cobrir o verdadeiro valor pode depender do parâmetro, fazemos a distinção entre a
probabilidade de cobertura e o coeficiente de confiança.
• (Probabilidade de cobertura) Para um estimador intervalar [U1 , U2 ] para θ, a probabilidade de cobertura é a probabilidade que o estimador intervalar cubra θ, isto
é, P (U1 ≤ θ ≤ U2 ).
• (Coeficiente de confiança) Para um estimador intervalar [U1 , U2 ] para θ, o coeficiente
de confiança é o ínfimo sobre θ da probabilidade de cobertura, isto é, inf θ∈Θ P (U1 ≤
θ ≤ U2 ).
24
É importante ficar claro que em P (U1 ≤ θ ≤ U2 ) envolve as variáveis aleatórias U1 e
U2 . Então,
P (U1 ≤ θ ≤ U2 ) = P ((U1 ≤ θ) ∩ (U2 ≥ θ)) = 1 − P (U1 > θ) − P (U2 < θ),
como U1 ≤ U2 implica em U1 > θ e U2 < θ são eventos disjuntos.
Em geral, o comprimento do intervalo de confiança é uma variável aleatória. Uma
possível medida da largura de um intervalo é o comprimento esperado. Considere um
estimador intervalar [U1 , U2 ]. O comprimento esperado do intervalo é definido como
E(U2 − U1 ).
Uma característica desejável de um estimador intervalar é que a probabilidade de
cobertura seja alta para todos os valores de θ. O coeficiente de confiança representa o
pior cenário possível, por definição, para qualquer valor de θ, a probabilidade de cobertura
será pelo menos tão grande como o coeficiente de confiança.
Para ilustrar a avaliação de vários estimadores para uma mesma situação considere o
seguinte exemplo. Suponha que temos um amostra aleatória de uma população N (µ, 1).
O interesse são estimadores intervalares para a µ. Seja, k1 e k2 constantes finitas não
negativas. Quais quer um dos estimadores intervalares são válidos para µ:
a) [−k1 , k2 ],
b) [Y1 − k1 , Y1 + k2 ],
c) [Ȳ − k1 , Ȳ + k2 ].
Todos os intervalos descritos neste exemplo têm o mesmo comprimento, k1 + k2 . Então,
devemos avaliar a probabilidade de cobertura e coeficiente de confiança associados a cada
um destes intervalos.
a) [−k1 , k2 ] - o primeiro intervalo não depende da amostra. Duas situações são possíveis: (i) se µ é a média verdadeira, então µ ∈ [−k1 , k2 ] ou µ ∈
/ [−k1 , k2 ]. Se
µ ∈ [−k1 , k2 ] a probabilidade de cobertura é 1, caso contrário zero. Assim, o coeficiente de confiança para este intervalo é 0.
b) [Y1 − k1 , Y1 + k2 ], podemos trabalhar diretamente com a probabilidade de cobertura
usando o fato de que Y1 ∼ N (µ, 1)
P (Y1 − k1 ≤ µ ≤ Y1 + k2 ) = 1 − P (Y1 − k1 > µ) − P (Y1 + k2 < µ)
= P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1, Z ∼ N (0, 1).
25
Esta probabilidade de cobertura não depende de µ. Então, o coeficiente de confiança
é também P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1.
c) [Ȳ − k1 , Ȳ + k2 ] - usando o fato
√
n(Ȳ − µ) ∼ N (0, 1), de forma similar ao caso (b),
podemos mostrar que a probabilidade de cobertura é.
P (Ȳ − k1 ≤ µ ≤ Ȳ + k2 ) = P (Z ≤
√
nk1 ) + P (Z ≤
Como no caso (b), o coeficiente de confiança é P (Z ≤
√
√
nk2 ) − 1.
nk1 ) + P (Z ≤
√
nk2 ) − 1.
É claro que o primeiro intervalo, com coeficiente de confiança zero, não é interessante.
Nos casos (b) e (c), se k1 é positivo e P (Z ≤ z) é uma função não decrescente, temos que
√
√
nk1 ≥ k1 , então P (Z ≤ nk1 ) ≥ P (Z ≤ k1 ), para todo n ≥ 1 (similar para k2 ). Assim
concluímos que
P (Z ≤
√
nk1 ) + P (Z ≤
√
nk2 ) − 1 ≥ P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1, n ≥ 1.
Então, o coeficiente de confiança do intervalo em (c) é maior que em (b). Se tivéssemos
de escolher entre esses intervalos usaríamos [Ȳ − k1 , Ȳ + k2 ]. Note que isso é consistente
com o princípio de suficiência, pois Ȳ é suficiente para µ.
No exemplo anterior, foram considerados três intervalos de igual comprimento e comparados os coeficientes de confiança. Na prática, a abordagem usual é o contrário, nós
fixamos o nível desejado de confiança e tentamos encontrar o menor intervalo correspondente. O exemplo a seguir ilustra.
Suponha que temos uma amostra aleatória de uma população N (µ, 1), e temos interesse em um estimador intervalar para µ com coeficiente de confiança (1 − α). Um bom
√
√
lugar para começar é com a função de pivô n(Ȳ −µ). Sabemos que n(Ȳ −µ) ∼ N (0, 1),
então, se α = α1 + α2 ,
P (zα1 ≤
√
n(Ȳ − µ) ≤ −zα2 ) = 1 − α1 − α2 = 1 − α.
com zα o α-quantil da distribuição normal padrão. Por rearranjo, e utilizando o facto de
que z(1−α) = −zα , obtemos
1
1
Ȳ − √ z(1−α2 ) , Ȳ + √ z(1−α1 ) ,
n
n
é um estimador intervalar para µ com coeficiente de confiança (1 − α). O comprimento
√
deste intervalo é 1/ n(z(1−α1 ) + z(1−α2 ) ).
26
Se α1 ou α2 for zero, o comprimento de intervalo é infinito. Suponha que α = 0, 05, isto
é, queremos um intervalo de confiança de 95% para µ. Podemos utilizar vários possíveis
valores para α1 e α2 de forma a satisfazer a confiança desejada, porém o menor intervalo é
obtido se α1 = α2 . Isto ilustra um resultado geral que coincide com a nossa intuição, para
um dado coeficiente de confiança, os intervalos de confiança mais curtos para a população
média de uma distribuição normal será simétrica em relação a média da amostra.
3.2
Funções Pivotais
Como já vimos no exemplo anterior uma função essencial, se Y é uma amostra aleatória
√
de uma população N (µ, 1) e Ȳ é a média amostral, então n(Ȳ − µ) é uma função de Y
√
e µ cuja distribuição não depende de µ. De fato, n(Ȳ − µ) ∼ N (0, 1).
Funções pivotais desempenham um papel fundamental para a construção de intervalos
de confiança. Começamos com uma definição mais formal.
Considere uma amostra Y e um parâmetro escalar θ. Seja g(Y , θ) uma função de Y e
θ que não envolve qualquer parâmetro desconhecido diferente de θ. Dizemos que g(Y , θ)
é uma função pivotal se sua distribuição não depende de θ.
Note que a função pivotal é uma variável aleatória, diz W = g(Y , θ). Por definição, a
distribuição de W não depende de θ.
Funções pivotais fornecem um mecanismo simples para construir estimadores intervalares para um dado coeficiente de confiança. Suponha que queremos um estimador
intervalar para θ com coeficiente de confiança (1 − α). Podem utilizar o seguinte procedimento.
1. Encontrar a função pivotal de g(Y , θ).
2. Usar a distribuição da função pivotal para encontrar os valores w1 e w2 , tal que,
P (w1 ≤ W ≤ w2 ) = 1 − α.
3. Manipular as desigualdade W > w1 e W < w2 fazer depender de θ. Produzindo
desigualdade da forma θ ≥ h1 (W, w1 , w2 ) e θ ≥ h2 (W, w1 , w2 ), para alguma função
h1 e h2 .
4. Podemos, agora, fornecer [h1 (W, w1 , w2 ), h2 (W, w1 , w2 )] como um estimador intervalar para θ com coeficiente de confiança (1−α). [Note-se que os limites do intervalo
27
são normalmente uma função de um dos w1 e w2 apenas.]
A seguir apresentamos dois exemplos de estimadores intervalares obtidos via quantidades pivotal.
Exemplo: Considere uma amostra aleatória Y de tamanho n de uma população
N (µ, σ 2 ). A distribuição de Ȳ pode ser obtida fazendo
E(n
−1
n
X
−1
Yi ) = n
i=1
Var(n−1
n
X
n
X
E(Yi ) = n−1 nµ = µ
i=1
Yi ) = n−2
n
X
V ar(Yi ) = n−2 nσ 2 = n−1 σ 2 ,
i=1
i=1
Logo, Ȳ ∼ N (µ, σ 2 /n), então
Ȳ − µ
p
∼ N (0, 1).
σ 2 /n
Entretanto, esta função não é uma quantidade pivotal para µ, pois a função envolve um
parâmetro desconhecido, σ 2 . Suponha que substituímos σ 2 por seu estimador, a variância
amostral, S 2 . Lembrando que
(n − 1)S 2
∼ χ2n−1 .
σ2
Por definição a distribuição t-Student é dada por
,r
S2
Ȳ − µ
p
∼ tn−1 .
σ2
σ 2 /n
Com algum rearranjo concluímos,
Ȳ − µ
p
∼ tn−1 .
S 2 /n
Esta é uma função pivotal para µ, pois S 2 é uma função de Y e a distribuição, tn−1 , não
dependem do valor de µ.
Ao explorar a função pivotal que acabamos de derivar podemos obter um estimador
intervalar para µ com coeficiente de confiança (1 − α). Se usarmos tn−1,α , para denotar o
α-quantil de uma distribuição tn−1 , então
P
tn−1,α/2
Ȳ − µ
≤p
≤∼ tn−1,1−α/2
S 2 /n
!
= 1 − α,
que fornece
h
i
p
p
2
2
Ȳ − S /ntn−1,1−α/2 , Ȳ + S /ntn−1,1−α/2 ,
usando que −tn−1,α/2 = tn−1,1−α/2 , devido a simetria da distribuição t.
28
Exemplo: Suponha que Y é uma amostra aleatória com tamanho n de uma população
Exp(λ). O interesse é construir um estimador intervalar para o parâmetro λ. Sabemos que
λE(Y ) = 1, então iremos considerar λȲ como uma potencial escolha da função pivotal.
P
De fato, pode ser mostrado que, se W = λ ni=1 Yi , então W é uma quantidade pivotal.
Note que a definição de W não envolve outro parâmetro além de λ. Como Y ∼ Exp(λ),
a função geradora de momentos de Y , é MY (t) = (1 − t/λ)−1 . A função geradora de
momentos de W é,
MW (t) = E(etW ) = E(etλ
Pn
i=1
Yi
) = {E(etλY )}n = {MY (tλ)}n = (1 − t)−n .
(3.1)
A distribuição de uma variável aleatória é completamente caracterizado pela sua função
geradora momento. À medida que a função geradora de momentos de W não depende de
λ, conclui-se que a distribuição de W não depende de λ e, portanto, W é pivotal.
Para poder usar W na construção dos estimadores intervalares, precisamos da forma
paramétrica da distribuição de W . Novamente vamos usar funções geradoras de momentos. Se V ∼ χ2k , então MV (t) = (1 − 2t)−k/2 . Comparando com a função geradora de
momentos obtida em (3.1), temos que 2W ∼ χ22n .
Construção de um estimador intervalar usando a distribuição de 2W é dada por
!
n
X
2
2
P χ2n,α/2 ≤ 2λ
Yi ≤ χ2n,1−α/2 = 1 − α,
i=1
sendo χ2k,α o α-quantil de uma distribuição qui-quadrado com k graus de liberdade. Portanto,
"
#
χ22n,α/2 χ22n,1−α/2
P
, P
,
2 ni=1 Yi 2 ni=1 Yi
é um estimador intervalar para λ com coeficiente de confiança de (1 − α). Observe que
optamos por usar os quantis α/2 e (1−α/2); esta escolha é arbitrária. Como a distribuição
qui-quadrado não é simétrica, não é óbvio que esta é a escolha ideal.
Considere um outro exemplo de quantidade pivotal utilizando a teoria assintótica.
Exemplo: Suponha que θ̂ é o estimador de máxima verossimilhança de um parâmetro
escalar θ. Sabemos que, em condições de regularidade leves,
θ̂ −→D N (θ, IY (θ)−1 ),
e que, para n grande,
p
IY (θ)−1 (θ̂ − θ) ≈ N (0, 1).
29
p
Como IY (θ)−1 (θ̂ − θ) converge para uma distribuição que não depende de θ, dizemos
p
que, IY (θ)−1 (θ̂ − θ) é assintoticamente pivotal para θ.
3.3
Inversão da estatística de teste
Existe uma correspondência forte entre o estimador intervalar e o teste de hipóteses.
De fato, podemos dizer em geral que todo conjunto de confiança corresponde a um teste
e vice versa. Aí está, talvez, mais facilmente visto que ambos os testes e intervalos devem
fazer a mesma pergunta, mas sutilmente de diferentes perspectivas. Ambos os procedimentos olham a consistência entre a estatística amostral e o parâmetro populacional. O
teste de hipótese fixa o parâmetro e pergunta que valores amostrais (a região de aceitação)
são consistentes com aquele valor fixado. O conjunto de confiança fixa o valor amostral
e pergunta que valores do parâmetro (o intervalo de confiança) fazem esta amostra mais
plausível.
A correspondência entre região de aceitação de testes e conjuntos de confiança são
válidos em geral.
Teorema: Para cada θ0 ∈ Θ, seja A(θ0 ) a região de aceitação de um teste de nível α
com H0 : θ = θ0 . Para cada x ∈ X , definimos um conjunto C(x) no espaço paramétrico
por C(x) = {θ0 : x ∈ A(θ0 )}. Então o conjunto aleatório C(X) é um conjunto de
confiança (1 − α). Reversamente, seja C(X) um conjunto de confiança (1 − α). Para
qualquer θ0 ∈ Θ A(θ0 ) = {x : θ0 ∈ C(x)}.
Na prática, quando construímos um conjunto de confiança via inversão de teste, temos
um mente uma hipótese alternativa, tal como H1 : θ 6= θ0 ou H1 : θ > θ0 . A alternativa
dita a forma de A(θ0 ), então é razoável que A(θ0 ) determina a forma de C(x). Note que
usamos o termo conjunto e não intervalo, porque não podemos garantir que o conjunto
de confiança obtido pela inversão do teste é um intervalo.
As propriedade da inversão de teste são mantidas para o conjunto de confiança. Por
exemplo, testes não viciados, quando invertidos, produzem conjuntos de confiança não viciados. Também, e mais importante, podemos dar atenção a estatística suficiente quando
olhamos para um bom teste, e segue que podemos dar atenção a estatística suficiente
quando olhamos para um bom conjunto de confiança.
A região obtida pela inversão de um teste de razão de verossimilhança de H0 : θ = θ0
30
contra H1 : θ 6= θ0 é da seguinte forma
aceita H0 se
L(θ0 |x)
L(θ̂|x)
≤ k ∗ (θ0 )
que resulta em um região de confiança
{θ : L(θ|x) ≥ k ∗ (θ0 )L(θ̂|x)},
para alguma função k ∗ que retorne confiança (1 − α), sendo L(θ|x) a função de verossimilhança dos dados observados e θ̂ o estimador de máxima verossimilhança do parâmetro
escalar θ.
A seguir iremos exemplificar a inversão da região de aceitação para obter um conjunto
de confiança via inversão do teste de razão de verossimilhanças.
Exemplo: Suponha que temos interesse em um conjunto de confiança para λ de uma
distribuição Exp(λ). Podemos obter um intervalo pela inversão de um teste de nível α de
H0 : λ = λ0 contra H0 : λ 6= λ0 .
Se temos um amostra aleatória X de tamanho n a estatística da razão de verossimilhança é dada por
Pn
Pn
i=1 xi /λ0
i=1 xi /λ0
λ−n
λ−n
0 e
0 e
Pn
P
=
=
( ni=1 xi /n)−n e−n
supλ λ−n e i=1 xi /λ
Pn
i=1
xi
n
nλ0
en e−
Pn
i=1
xi /λ0
.
Para um λ0 fixo, a região de aceitação é dada por
n P
Pn
− n
x
/λ
∗
i=1 xi
0
i
e i=1
≥k ,
A(λ0 ) = x :
nλ0
sendo k ∗ um constante escolhida para satisfazer Pλ0 (X ∈ A(λ0 )) = 1 − α (a constante en
foi absorvida por k ∗ ). Esse é um conjunto no espaço amostral. A inversão desta região
de aceitação fornece um conjunto de confiança (1 − α)
n P
Pn
− n
x
/λ
∗
i=1 xi
i
e i=1
≥k .
C(x) = λ :
nλ
P
A expressão definindo C(x) depende apenas de x por meio de ni=1 xi . Então o intervalo
de confiança pode ser expresso na forma
! (
)
n
n
n
X
X
X
C
xi = λ : h1 (
xi ) ≤ λ ≤ h2 (
xi ) ,
i=1
i=1
i=1
sendo que h1 e h2 são funções determinadas por restrições no conjunto A(λ0 ) fornecendo
probabilidade (1 − α) e
n P
Pn
n P
Pn
P
Pn
n
xi
xi
− n
xi /h1 ( n
xi )
i=1
i=1
i=1
i=1
Pn
Pn
e
=
e− i=1 xi /h2 ( i=1 xi ) .
h1 ( i=1 xi )
h2 ( i=1 xi )
31
Se fizermos
Pn
Pn
xi
xi
i=1
Pn
Pi=1
=ae
=b
n
h1 ( i=1 xi )
h2 ( i=1 xi )
sendo a > b constantes, então
an e−a = bn e−b
que pode ser resolvido numericamente.
Exemplo: Seja X uma amostra aleatória de uma população N (µ, σ 2 ). O interesse é
construir um limite superior para µ com confiança superior a (1 − α). Isto é, queremos
um conjunto de confiança da forma C(x) = (−∞, h2 (x)]. Para obter um intervalo,
devemos inverter um teste unilateral de H0 : µ = µ0 contra H1 : µ < µ0 . (Lembre-se que
usamos H1 para determinar a forma de do intervalo de confiança, neste caso H1 especifica
grandes valores de µ0 , então o conjunto de confiança contêm pequenos valores, valores
menores que o limite. Então, daremos um limite confiança superior.) O teste da razão de
verossimilhança de tamanho α de H0 e H1 rejeita H0 se
X̄ − µ0
√ < −tn−1,α .
S/ n
Então a região de aceitação para este teste é
√ −1
A(µ0 ) = {x : x̄ ≥ µ0 − tn−1,α s n }
√
e x ∈ A(µ0 ) ⇔ x̄ + tn−1,α S/ n ≥ µ0 . Assim, definimos
s
C(x) = {µ0 : x ∈ A(µ0 )} = µ0 : x̄ + tn−1,α √ ≥ µ0 .
n
√
Pelo teorema, o conjunto aleatório C(X) = (−∞, X̄ + tn−1,α S/ n] é um conjunto de
confiança (1 − α). Vimos que iverter um teste unilateral fornece um intervalo de confiança
unilateral.
Capítulo 4
Teste de Hipóteses
No processo inferencial normalmente são obtidos os estimadores dos parâmetros, porém
também é comum ter interesse em avaliar suposições sobre a população em estudo, ou
seja, avaliar hipóteses. O objetivo do teste de hipótese é decidir, baseado na amostra da
população, qual das duas hipóteses complementares é verdadeira. Quando se pretende
testar o valor de um determinado parâmetro a verificação da suposição é feita por um
teste paramétrico; quando se pretende testar a natureza de uma população a verificação
da suposição é feita por um teste não paramétrico ou teste de aderência. O interesse deste
resumo é apresentar uma forma de construção de teste de hipóteses paramétricos e uma
forma de avaliar testes de hipóteses paramétricos.
Na notação usual chamamos de H0 a hipótese nula, a hipótese estatística a ser testada
e por H1 a hipótese alternativa, que geralmente representa a conjectura que se pretende
provar. Se θ denota o parâmetro populacional, o formato geral de uma hipótese nula e
alternativa é H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 , sendo Θ0 algum subconjuto do espaço
paramétrico Θ e Θc0 seu complementar. Por exemplo, se θ denota a mudança média na
pressão sanguínea dos pacientes após um determinado tratamento, um analista deve ter
interesse em testar se H0 : θ = 0 contra H1 : θ 6= 0.
Em um problema de teste de hipótese, é usual recorrer a uma amostra aleatória da
população, e com base na informação contida nessa amostra decidir se a hipótese nula
é verdadeira ou falsa, com uma certa probabilidade associada. A não rejeição de uma
hipótese estatística é resultado de insuficiente evidência para a rejeitar e não implica
necessariamente que ela é verdadeira.
Um procedimento de teste de hipóteses é uma regra que especifica:
32
33
a) Para quais valores amostrais a decisão implica em aceitar H0 como verdadeiro.
b) Para quais valores amostrais H0 é rejeitado e H1 é aceita como verdade.
O subconjuto do espaço amostral para qual H0 é rejeitado é chamado região de rejeição
ou região crítica. O complementar da região de rejeição é chamado de região de aceitação.
Tipicamente, um teste de hipótese é especificado em termos de uma estatística de
teste W (X), uma função da amostra. Por exemplo, um teste deve especificar que H0 é
rejeitada se X̄, a média amostral, é maior que 3. Neste caso, W (X) = X̄ é a estatística
de teste e a região de rejeição é {x : x̄ > 3}.
4.1
Teste da Razão de Verossimilhança
O teste da razão de verossimilhança (TRV) é um método muito geral para construção
de teste de hipóteses, quase sempre é utilizado e é ótimo em alguns casos. Este método
está relacionado com o estimador de máxima verossimilhança. Lembrando que se X é
uma amostra aleatória de tamanho n de uma população com fdp ou fp f (x|θ) (θ pode ser
um vetor), a função de verossimilhança é definida como
L(θ|x) = f (x|θ) =
n
Y
f (xi |θ).
i=1
Seja Θ o espaço paramétrico completo. O TRV para testar H0 : θ ∈ Θ0 contra
H1 : θ ∈ Θc0 é
λ(x) =
sup Θ0 L(θ|x)
.
sup ΘL(θ|x)
Um TRV é qualquer teste que tem um região de rejeição da forma {x : λ(x) ≤ c,
sendo c qualquer número satisfazendo 0 ≤ c ≤ 1.
O TRV pode ser mais facilmente entendido na situação em que f (x|θ) é discreto, pois o
numerador de λ(x) é a probabilidade máxima da amostra observada sobre os parâmetros
na hipótese nula. O denominador de λ(x) é a probabilidade máxima da amostra observada
sobre todos os valores possíveis dos parâmetros. A razão é pequena se existe pontos na
hipótese alternativa para quais a amostra observada é muito mais provável que para
qualquer valor dos parâmetros na hipótese nula. Nesta situação, o critério de TRV diz
que devemos rejeitar H0 e aceitar H1 como verdade.
A seguir apresentamos um exemplo da construção do TRV.
34
Exemplo: Seja X uma amostra aleatória de tamanho n de uma população com fdp
dada por
f (x|θ) = e−(x−θ) I[θ,+∞) (x).
A função de verossimilhança é
L(θ|x) = e−
Pn
i=1
xi +nθ
I(−∞,x(1) ] (θ),
x(1) = min xi .
i
Considere testar H0 : θ ≤ θ0 contra H1 : θ > θ0 , sendo θ0 um valor especificado pelo
pesquisador. L(θ|x) é uma função crescente de θ em −∞ ≤ θ ≤ x(1) , então o denominador
de λ(x), o máximo irrestrito de L(θ|x), é L(x(1) |x) = e−
Pn
i=1
xi +nx(1)
.
Se x(1) ≤ θ0 , o numerador de λ(x) é também L(x(1) |x). Mas, estamos maximizando
sob θ ≤ θ0 , o numerador de λ(x) é L(θ0 |x) se x(1) ≤ θ0 . Portanto, a estatística de TRV é

 1
se x(1) ≤ θ0
.
λ(x) =
 e−n(x(1) −θ0 ) se x > θ
(1)
0
Se T (X) é uma estatística suficiente para θ com fdp g(t|θ) então podemos construir
o TRV baseado em T , a função de verossimilhança L∗ (θ|t) = g(t|θ) em vez da amostra
X e sua função de verossimilhança L(θ|x). Seja λ∗ (t) a estatística de TRV baseado em
T . Dada uma noção intuitiva que toda informação sobre θ em x está contida em T (x),
o teste baseado em T deve ser tão bom quanto o teste baseado na amostra completa X.
De fato, os testes são equivalentes.
Se T (X) é uma estatística suficiente para θ e λ∗ (t) e λ(x) são as estatísticas baseado
em T e X, respectivamente, então, λ∗ (T (x)) = λ(x) para todo x no espaço amostral.
A demostração deste resultado é imediada ao aplicar o teorema da fatoração em f (x|θ).
A seguir consideramos um exemplo de TRV via estatística suficiente.
Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, 1).
Considere testar H0 : θ = θ0 contra H1 : θ 6= θ0 . Sendo θ0 um número fixado pelo
pesquisador antes do experimento. Sabemos que X̄ é uma estatística suficiente para θ.
Devemos usar a função de verossimilhança associada a T (X) = X̄ para construir o TRV.
Como X̄ ∼ N (θ, 1/n), então
(2π)−1/2 (n)1/2 exp{−(x̄ − θ0 )2 /(2n)}
(2π)−1/2 (n)1/2 exp{−(x̄ − x̄)2 /(2n)}
= exp −(x̄ − θ0 )2 /(2n) .
λ(t) =
Assim, o TRV é um teste que rejeita H0 para valores grande de |X̄ − θ0 |.
35
4.2
Probabilidade de erro e Função poder
O resultado de um teste de hipóteses é a confirmação ou não da suposição inicial,
rejeitando ou não a hipótese nula. Em ambos os casos podemos cometer erro, logo uma
das principais preocupações na construção dos testes de hipóteses é procurar minimizar
estes erros.
Um teste de hipóteses de H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 pode cometer dois tipos
de erro. O erro do tipo I, se θ ∈ Θ0 mas o teste de hipótese incorretamente decide por
rejeitar H0 , e o erro do tipo II, se θ ∈ Θc0 mas o teste decide por aceitar H0 .
Suponha que R denota a região de rejeição de um teste. Então para θ ∈ Θ0 a probabilidade do erro do tipo I é Pθ (X ∈ R). Para θ ∈ Θc0 , a probabilidade do erro do tipo II
é Pθ (X ∈ Rc ) = 1 − Pθ (X ∈ R). Esta consideração leva a seguinte definição.
A função poder de um teste de hipóteses com região de rejeição R é a função de θ
definida por β(θ) = Pθ (X ∈ R).
A função poder ideal é zero para todo θ ∈ Θ0 e um para todo θ ∈ Θc0 . Exceto em
situações triviais, isso não pode ser obtido. Desta forma, um bom teste tem função poder
próxima de um para a maioria dos valores de θ ∈ Θc0 e próxima de zero para a maioria
dos valores de θ ∈ Θ0 .
Exemplo: Seja X ∼ Bin(5, θ). Considere testar H0 : θ ≤ 0, 5 contra H1 : θ > 0, 5.
Considere primeiro o teste que rejeita H0 se e somente se todas as observações são sucesso.
A função poder deste teste é
β1 (θ) = Pθ (X ∈ R) = Pθ (X = 5) = θ5 .
Analisando a função gerada por β1 (θ), podemos decidir que embora a probabilidade do
erro do tipo I seja aceitavelmente baixa (β1 (θ) ≤ 0, 55 = 0, 0312) para todo θ ≤ 0, 5, a
probabilidade do erro do tipo II é alta (β1 (θ) também é pequena) para θ > 0, 5.
A probabilidade do erro do tipo II é menor que 0,5 apenas se θ > 0, 51/5 = 0, 87. Para
alcançar menor erro do tipo II podemos considerar um teste que rejeita H0 se X = 3, 4
ou 5. A função poder para este teste é
5 4
5 5
5 3
θ (1 − θ)0.
β2 (θ) = Pθ (X = 3, 4 ou 5) =
θ (1 − θ)2 +
θ (1 − θ)1 +
4
5
3
A função poder β2 (θ) fornece um erro do tipo II menor para θ > 0, 5, porém o erro do
tipo I é maior que em β1 (θ). Para decidir entre estes dois testes o pesquisador precisa
optar pela estrutura de erro mais aceitável β1 (θ) ou β2 (θ).
36
Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ),
com σ 2 conhecido. Um TRV para testar H0 : θ ≤ θ0 contra H1 : θ > θ0 é um teste que
X̄−θ0
rejeita H0 se √
> c. A constante c pode ser qualquer número positivo. A função poder
σ/n
deste teste é
β(θ) = Pθ
θ0 − θ
X̄ − θ0
X̄ − θ
θ0 − θ
√ > c = Pθ
√ >c+ √
= Pθ Z > c + √
.
σ/ n
σ/ n
σ/ n
σ/ n
sendo Z a distribuição normal padrão. Como θ aumenta de −∞ para +∞, a probabilidade
normal aumenta de 0 para 1. Portanto, β(θ) é uma função crescente de θ, com
lim β(θ) = 0, lim β(θ) = 1, e β(θ) = α se P (Z > c) = α.
θ→−∞
θ→+∞
Tipicamente, a função poder de um teste depende do tamanho amostral, n. Se n pode
ser escolhido pelo pesquisador, considere a função poder uma ajuda para determinar o
tamanho amostral apropriado.
Continuando o exemplo anterior. Suponha que o pesquisador deseja ter um erro tipo
I máximo de 0,1 e um erro do tipo II máximo de 0,2 se θ ≥ θ0 + σ. Vamos mostrar como
escolher c e n de tal forma que esses erros sejam atingidos, usando um teste que rejeita
H0 : θ ≤ θ0 se
X̄−θ
√0
σ/ n
> c. Temos que
θ0 − θ
β(θ) = Pθ Z > c + √
.
σ/ n
β(θ) é crescente em θ, os requisitos serão atingido se
β(θ0 ) = 0, 1 e β(θ0 + σ) = 1 − 0, 2 = 0, 8.
Escolhendo c = 1, 28, temos β(θ0 ) = P (Z > 1, 28) = 0, 1, independente de n. Agora,
√
desejamos escolher n tal que β(θ0 + σ) = P (Z > 1, 28 − n) = 0, 8, logo temos n = 4, 49,
mas n deve ser um número inteiro. Então, escolhendo c = 1, 28 e n = 5 temos um teste
com probabilidade de erro controlada conforme as especificações dos pesquisador.
Para um tamanho de amostra fixo, é usualmente impossível obter ambos os tipos de
erro arbitrariamente pequenos. Para um bom teste, é comum considerar uma restrição
no teste que controle o erro do tipo I. Dentro desta classe de testes optamos pelo teste
que fornece o menor erro do tipo II. Os dois seguintes itens são úteis quando discutimos
teste que controlam o erro do tipo I.
• Para 0 ≤ α ≤ 1, um teste com função poder β(θ) tem um tamanho α se supθ∈Θ0 β(θ) =
α.
37
• Para 0 ≤ α ≤ 1, um teste com função poder β(θ) é um teste de nível α se
supθ∈Θ0 β(θ) ≤ α.
Pesquisadores geralmente especificam o nível do teste que desejam usar, escolha típicas
são α = 0, 01, 0,05 e 0,10. Estando ciente que, ao fixar o nível do teste, apenas o erro do
tipo I está controlado.
4.3
Teste mais poderoso
Uma classe de testes de hipóteses muito útil é, construída controlando o erro do tipo I,
a classe de teste de hipóteses de nível α, em que a probabilidade de erro do tipo I máxima
é α para todo θ ∈ Θ0 . Um bom teste nesta classe também deveria fornecer uma pequena
probabilidade de erro do tipo II, isto é, uma função poder grande para θ ∈ Θc0 . Se um
teste tem a menor probabilidade de erro do tipo II dentre todos os outros testes nesta
classe, ele é o teste mais poderoso na classe de teste de hipóteses de nível α. Esta noção
é formalizada na seguinte definição.
Seja C a classe de testes de hipóteses H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 . Um teste
na classe C, com função poder β(θ), é um teste uniformemente mais poderoso (UMP) na
0
0
classe C se β(θ) ≥ β (θ) para todo θ ∈ Θc0 e toda função poder β (θ) de um teste na classe
C.
A classe C envolve todos os testes de nível α. O teste UMP não existe para muitos
problemas. Porém, nos problemas em que o teste UMP existe ele deve ser considerado
o melhor teste nesta classe. Então, gostaríamos de ter habilidade para identificar o teste
UMP se ele existir. O seguinte teorema descreve claramente quais testes são UMP de
nível α em situações em que a hipótese nula e a hipótese alternativa consistem de apenas
uma distribuição amostral (H0 e H1 são hipóteses simples).
Lema de Neyman-Pearson: Considere testar H0 : θ = θ0 contra H1 : θ = θ1 , com a fdp
ou fp correspondente a θi sendo f (x|θi ), i = 0, 1, usando um teste com região de rejeição
R que satisfaz
x ∈ R se f (x|θ1 ) > kf (x|θ0 ) e
x ∈ Rc se f (x|θ1 ) < kf (x|θ0 ),
(4.1)
para algum k ≥ 0, e
α = Pθ0 (X ∈ R).
(4.2)
38
Então
a) (Suficiente) Algum teste que satisfaz (4.1) e (4.2) é UMP de nível α.
b) (Necessário) Se existe um teste satisfazendo (4.1) e (4.2) com k > 0, então todo
teste de nível α UMP é um teste de tamanho α (satisfazendo (4.2)) e todo teste de
nível α UMP satisfaz (4.1) exceto talvez por um conjunto A satisfazendo Pθ0 (X ∈
A) = Pθ1 (X ∈ A) = 0.
Deste resultado segue o corolário.
Considere um problema de teste de hipótese conforme colocado no Lema de NeymanPearson. Suponha T (X) uma estatística suficiente para θ e g(t|θi ) a fdm ou fp de T
correspondente a θi , i = 0, 1. Então qualquer teste baseado em T com região de rejeição
S (um subconjunto de espaço amostral de T ) é um teste UMP de nível α satisfazendo
t ∈ S se g(t|θ1 ) > kg(t|θ0 ) e
t ∈ S c se g(t|θ1 ) < kg(t|θ0 ),
para algum k ≥ 0, e
α = Pθ0 (T ∈ S).
A seguir segue um exemplo da construção de um teste UMP.
Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ),
com σ 2 conhecido. A média amostral é uma estatística suficiente para θ. Considere testar
H0 : θ = θ0 contra H1 : θ = θ1 , sendo θ0 > θ1 . Pela inequação g(x̄|θ1 ) > kg(x̄|θ0 ), é
equivalente a
x̄ <
(2σ 2 log k)/n − θ02 + θ12
.
2(θ1 − θ0 )
O fato de θ1 − θ0 > 0 foi usado para obter a inequação. O lado direito aumenta de −∞
para +∞ como k aumenta de 0 para +∞. Então, pelo corolário, o teste com região de
rejeição x̄ < c é um teste UMP de nível α sendo α = Pθ0 (X̄ < c). Se um particular α é
√
especificado, então o teste UMP rejeita H0 se X̄ < c = −σzα/2 / n + θ0 . Esta escolha de
c garante Pθ0 (T ∈ S).
Note que o Lema de Neyman-Pearson é apenas aplicável em situações em que hipótese
simples são especificadas. Em problemas mais realistas, as hipóteses de interesse especificam mais que um possível valor para a distribuição amostral (hipótese compostas). Tal
definição requer um teste UMP mais poderoso em cada θ ∈ Θ0 individualmente, desta
39
forma o Lema de Neyman-Pearson pode ser usado para encontrar um teste UMP em
problemas envolvendo hipóteses compostas.
Em particular, hipóteses que afirmam que um parâmetro univariado é grande, por
exemplo, H : θ ≥ θ0 , ou pequeno, por exemplo, H : θ < θ0 , são chamadas de hipóteses
unilaterais. Hipóteses que afirmam que um parâmetro é também grande ou pequeno,
por exemplo, H : θ 6= θ0 , são chamados de hipóteses bilateriais. Uma grande classe de
problemas que admite um teste UMP de nível α envolve hipóteses unilaterais e fdp ou fp
com propriedade de razão de verossimilhança monótona.
A família de fdps ou fps {g(t|θ) : θ ∈ Θ} para uma variável aleatória univariada
T com parâmetro assumindo valores nos Reais tem razão de verossimilhança monótona
(RVM) se, para todo θ2 > θ1 , g(t|θ2 )/g(t|θ1 ) é uma função monótona (não crescente ou
não decrescente) em t em {t : g(t|θ1 ) > 0 ou g(t|θ2 ) > 0}. Note que c/0 é definido como
+∞ se 0 < c.
Muitas famílias de distribuições têm RVM. Por exemplo, a normal (variância conhecida, média desconhecida), poisson, binomial. De fato, qualquer membro regular da
família exponencial com g(t|θ) = h(t)c(θ)ew(θ)t tem RVM se w(θ) é uma função não
decrescente.
Karlin-Rubin: Considere testar H0 : θ ≤ θ0 contra H1 : θ > θ0 . Suponha que T é uma
estatística suficiente para θ e a família de fdps ou fps {g(t|θ) : θ ∈ Θ} de T tem RVM.
Então para qualquer t0 , o teste que rejeita H0 se e somente se T > t0 é UMP de nível α,
sendo Pθ0 (T > t0 ) = α.
Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ),
com σ 2 conhecido. A média amostral é uma estatística suficiente para θ. Considere testar
H0 : θ = θ0 contra H1 : θ = θ1 , sendo θ0 > θ1 . Vimos pelo exemplo anterior que um teste
UMP de nível α rejeita H0 se
σzα/2
X̄ < − √ + θ0 .
n
0
0
Agora, suponha testar H0 : θ ≥ θ0 contra H1 : θ < θ0 . Como X̄ é uma estatística
suficiente para θ e sua distribuição (X̄ ∼ N (θ, σ 2 /n), σ 2 conhecido) tem RVM, então o
teste é UMP de nível α para o problema.
Como a classe de testes UMP de nível α é muito ampla, nem sempre é possível obter
um teste que domine todos os outros em termos da função poder. Nestes casos. é comum
considerar uma subclasse dos testes UMP de nível α.
40
4.4
P-valor
Após um teste de hipótese ter sido feito, a conclusão deve ser relatada de alguma
forma estatisticamente significativa. Um método para descrever o resultado de um teste
de hipótese é reportar os tamanho, α, do teste usado na decisão de rejeitar H0 ou aceitar
H0 . O tamanho de um teste carrega muita informação. Se α é pequeno, a decisão para
rejeitar H0 é bastante convincente, mas se α é grande, a decisão para rejeitar H0 não é
convincente, porque o teste tem uma alta probabilidade de fazer a decisão incorretamente.
Outra forma de reportar o resultado de um teste de hipóteses é calcular o valor do tipo
de incerteza da estatística de teste, chamada de p-valor.
Um p-valor p(X) é uma estatística de teste satisfazendo 0 ≤ p(x) ≤ 1 para todo ponto
amostral x. Valores pequenos de p(X) fornecem evidência que H1 é verdade. Um p-valor
é válido se, para todo θ ∈ Θ0 e todo 0 ≤ α ≤ 1,
Pθ0 (p(X) ≤ α) ≤ α.
Se p(X) é um p-valor válido, é fácil construir um teste de nível α baseado em p(X).
Uma vantagem de mostrar o resultado de um teste via p-valor é que cada leitor o α
que considere mais apropriado e então podemos comparar o valor p(x) com α, e saber
quando estes dados conduzem a rejeição ou aceitação de H0 . Entretanto, menores valores
do p-valor fornecem mais fortes evidências para rejeitar H0 . Então, o p-valor fornece o
resultado de um teste em uma escala contínua, melhor que apenas aceita ou rejeita H0 .
Capítulo 5
Análise de Regressão Logística
Embora a regressão logística seja conhecida desde os anos 50, tornou-se popular no
início da década de 70 com a introdução dos modelos lineares generalizados (MLG).
Os MLG descrevem uma relação entre a média da variável resposta E(Yi ) e variáveis
independentes (x1 , x2 , . . . , xp ). Diferentes modelos podem ser expressos como MLG, entre
ele o modelo de regressão logística.
O objetivo deste resumo é apresentar a construção do modelo de regressão logística, o
processo estimação dos parâmetros via estimador de máxima verossimilhança, a construção de testes de hipótese simples para verificar a relevância de uma covariável no modelo,
e uma análise de resíduos.
5.1
O modelo
Suponha que as variáveis resposta Y1 , . . . , Yn (ou Yi , i = 1, . . . , n) associadas aos indivíduos (ou unidades experimentais) sejam a soma de mi sequências de respostas binárias
independentes com probabilidade de sucesso comum πi , ou seja, Yi ∼ Bin(mi , πi ). Desta
forma, E(Yi ) = mi πi , como mi é considerado conhecido, modelar a média da variável resposta mi πi é equivalente a modelar πi . Lembre-se que a distribuição Binomial pertence a
família exponencial, logo este problema pode ser visto como um caso particular do MLG.
Em muitos estudos, cada indivíduo tem associando a ele um vetor de covariáveis
x = (x1 , x2 , . . . , xp ), que são informações prováveis a influenciar a probabilidade de resposta positiva (sucesso). O interesse estatístico é verificar a relação entre a probabilidade
de resposta π = π(x) e as covariáveis x = (x1 , . . . , xp ). Para investigar esta relação é
41
42
conveniente estabelecer um modelo formal. Na prática, a construção deste modelo necessita que algumas suposições sejam assumidas, por exemplo a independência entre os
indivíduos, linearidade da componente sistemática e outras. Estas suposições não podem
ser garantidas, mas podem ser checadas.
Suponha que a relação entre π e x ocorre por meio de uma combinação linear, em
MLG chamada de parte sistemática do modelo,
η=
p
X
xj βj ,
com x0 = 0,
j=0
sendo β0 , β1 . . . , βp coeficientes desconhecidos, e βj ∈ <.
Para expressar π como uma combinação linear de x devemos usar uma transformação
g(π) que retorne valores no reais, em MLG esta transformação é conhecida como função
de ligação,
g(πi ) = ηi =
p
X
xij βj ,
i = 1, . . . , n.
j=0
Algumas funções de ligação g(πi ) podem ser utilizadas. Três funções são mais comuns:
• A logito ou função logística: g1 (π) = log(π/(1 − π)) (modelo de regressão logística);
• A probito ou função normal inversa: g2 (π) = Φ−1 (π) (modelo de regressão probito);
• A função complementar log-log: g3 (π) = log{− log(1 − π)}.
A quarta possibilidade, a função log-log: g4 (π) = − log{− log(π)}. Todas as quatro
funções são contínuas e crescentes no (0,1).
A partir daqui, todo o desenvolvimento será baseado na função logística, uma vez que
o interesse é analisar o modelo de regressão logística. Portanto, podemos escrever o link
da parte sistemática do modelo com a probabilidade de sucesso por meio de
X
p
πi
log
=
xij βj .
1 − πi
j=0
Suponha que p = 2, então, o modelo pode ser escrito em termos da chance (odds) de
respostas positivas,
log
πi
1 − πi
= β0 + β1 xi1 + β2 xi2
ou pela probabilidade de resposta positiva
πi =
exp{β0 + β1 xi1 + β2 xi2 }
.
1 + exp{β0 + β1 xi1 + β2 xi2 }
43
Supondo que xi1 e xi2 não são funcionalmente relacionadas, o efeito de uma unidade
de mudança em xi2 é o aumento da chance por uma quantidade β2 . Equivalentemente,
efeito de uma unidade de mudança em xi2 é o aumento da chance de uma resposta
positiva multiplicativamente pelo fator exp{β2 }. xi1 está fixa e não permite variar com
as consequências de mudança em xi2 .
As declarações correspondentes dadas na escala da probabilidade são mais complicadas
devido ao efeito de πi de uma unidade de mudança em xi2 depende dos valores de xi1 e
xi2 . A derivada de πi em relação a xi2
dπi
= β2 πi (1 − πi ).
dxi2
Então, uma pequena mudança em xi2 tem um grande efeito, como medida na escala de
probabilidade, se πi é próximo de 0,5 e se πi é próximo de 0 ou 1.
5.2
Função de Verossimilhança
As respostas y1 , . . . , yn são realizações independentes das variáveis aleatórias Y1 , . . . , Yn ,
tal que Yi segue uma distribuição binomial com parâmetros mi e pi . Inicialmente iremos escrever a função de log-verossimilhança de π e posteriormente considerar como uma função
dos coeficientes de regressão. A função de log-verossimilhança de π dado y = (y1 , . . . , yn )
pode ser escrita na forma
`(π; y) ∝
n X
yi log
i=1
como log(πi /(1 − πi )) = ηi , com ηi =
`(β; y) ∝
p
n X
X
i=1 j=1
Pp
πi
1 − πi
j=0
yi xij βj −
+ mi log(1 − πi ) .
xij βj , então
n
X
i=1
mi log 1 + exp
p
X
!
xij βj
.
j=1
Observe que naturalmente obtemos como sugestão a função de ligação logística, pois o
termo log(πi /(1 − πi )) é o parâmetro natural (canônico) da família exponencial, a logverossimilhança depende de y apenas por meio da combinação linear ηi . Essa combinação
é dita ser suficiente para β.
5.2.1
Estimação dos Parâmetros
O método de estimação mais comumente utilizado é o de máxima verossimilhança.
Vejamos a obtenção das derivadas da log-verossimilhança em relação aos parâmetros β.
44
Primeiro, considere a derivada da função de log-verossimilhança com respeito a πi
yi − mi πi
∂`
=
∂πi
πi (1 − πi )
Usando a regra da cadeia, a derivada com respeito a βr é
n
n
X ∂` ∂πi
X yi − mi πi ∂πi
∂`
=
=
.
∂βr
∂πi ∂βr
π (1 − πi ) ∂βr
i=1
i=1 i
É conveniente expressar ∂πi /∂βr como produto
∂πi
∂πi ∂ηi
=
= πi (1 − πi )xir .
∂βr
∂ηi ∂βr
Logo, a derivada da log-verossimilhança com respeito a βr é
n
n
X yi − mi πi ∂πi ∂ηi
X
∂`
=
=
(yi − mi πi )xir .
∂βr
π
(1
−
π
)
∂η
∂β
i
i
i
r
i=1
i=1
(5.1)
Portanto,
0
` (β) =
∂`
= X > (Y − µ),
∂β
sendo µ = (m1 π1 , . . . , mn πn ), quando escrito em notação matricial.
Ao utilizar a função de ligação canônica a matriz Hessiana (matriz de segundas
derivadas avaliada nos estimadores de máxima verossimilhança) coincide com a matriz
de informação de Fisher. Logo, o método de Scores de Fisher se reduz ao método de
Newton-Rapson. Vejamos a obtenção da derivada de segunda ordem em relação aos parâmetros β é
" n
#
∂ 2`
∂
∂`
∂
∂` ∂πi ∂ηi
∂ X
=
=
=
(yi − mi πi )xir
∂βr ∂βs
∂βs ∂βr
∂βs ∂πi ∂ηi ∂βr
∂βs i=1
= −
n
X
i=1
n
mi xir
X
∂πi ∂ηi
=−
mi πi (1 − πi )xir xis .
∂ηi ∂βs
i=1
Logo,
00
` (β) = −X > W X,
sendo W uma matriz diagonal de pesos dada por W = diag {mi πi (1 − πi )} .
A solução das derivadas de primeira ordem em β retornam os estimadores de máxima
verossimilhança. Porém, a solução envolve um sistema de equações não lineares que
necessitam de um método iterativo para serem resolvidas. Ou seja, os parâmetros da
regressão só podem ser obtidos iterativamente. Seguindo um algoritmo de Newton-Rapson
as estimativas podem ser obtidas da seguinte forma:
45
(0)
(0)
(0)
1. Inicializar o vetor de regressão β (0) = (β0 , β1 , . . . , βp ).
(0)
2. Obter µ(0) , sendo µi
(0)
(0)
= mi πi , com πi
(0)
(0)
= g −1 (ηi ) e ηi
=
Pp
j=0
(0)
xij βj , i =
1, . . . , n.
(0)
(0)
3. Construir a matriz diagonal de pesos W (0) , com wii = mi πi (1−πi )(0) , i = 1, . . . , n.
4. Calcular a atualização de β (0) , dada por
00
0
β (1) = β (0) + (−` (β (0) ))−1 ` (β (0) )
= β (0) + (X > W (0) X)−1 X > (y − µ(0) ).
5. Repetir passos (2)-(4) até a convergência dos parâmetros, ou seja, até que |β (s) −
β (s−1) | < , é um valor arbitrário próximo de zero.
Falta de convergência raramente é um problema, a menos que um ou mais componentes
do β̂ sejam infinito, que usualmente implica que alguma das probabilidades serem zero
ou um.
5.2.2
Intervalos de Confiança
Sob condições gerais de regularidade a distribuição assintótica para
√
n(β̂ − β) −→D Np (0, I −1 (β))
sendo I −1 (β) a matriz de informação de Fisher, que ao considerar a função de ligação
canônica coincide com a matriz Hessiana.
O intervalo de confiança assintótico, com nível de confiança 100(1−α)%, para o r-ésimo
componente do vetor de parâmetros β, βr , r, = 1, . . . , p, pode ser calculado utilizando
q
−1
β̂r ± zα/2 J(r)
(β̂) ,
(5.2)
em que zα/2 é o valor do (α/2)-ésimo quantil superior da distribuição normal padrão e
00
−1
J(r)
(β̂) é o r-ésimo elemento da diagonal principal da inversa de −` (β̂), que corresponde
ao estimador da variância do estimador de interesse.
46
5.3
Função Desvio
A função desvio é definida como duas vezes a diferença entre o máximo atingido pela
log-verossimilhança e o máximo alcançado sob o modelo ajustado. Sob qualquer modelo,
H0 , com probabilidades ajustadas π̂, a função de log-verossimilhança é
`(π̂; y) =
n
X
{yi log π̂ + (mi − yi ) log(1 − π̂)} .
i=1
O máximo atingido pela log-verossimilhança é obtido no ponto π̃i = yi /mi , mas esse ponto
normalmente não ocorre sob H0 . A função desvio é portanto
D(y; π̂) = 2`(π̃; y) − 2`(π̂; y)
n X
mi − yi
= 2
yi log(yi /µ̂i ) + (mi − yi ) log
.
mi − µ̂i
i=1
Esta função se comporta de forma semelhante a soma de quadrados de resíduos ou soma de
quadrados de resíduos ponderados em modelos de regressão linear. A adição de covariáveis
no modelo ajustado tem o efeito de reduzir D.
Frequentemente é afirmado que a variável aleatória D(Y ; π̂) segue assintoticamente
uma distribuição qui-quadrado com n − p graus de liberdade, sendo p o número de parâmetros ajustados sob H0 . Este resultado é então usado como justificativa do uso de
D como estatística de bondade do ajuste para testar a adequação do modelo ajustado.
A função deviance é quase inútil como uma medida absoluta de bondade de ajuste, mas
interessante para comparar dois modelos encaixado.
5.4
Teste de Hipóteses Simples
Suponha que o interesse é testar a relevância de uma variável independente Xr , ou seja,
testar as hipóteses H0 : βr = 0 contra H1 : βr 6= 0. As funções deviance correspondente
aos modelos sob H0 e H1 serão denotadas por D(y; π̂ sem ) e D(y; π̂ com ), respectivamente,
sendo π̂ sem a estimativa de máxima verossimilhança sob H0 .
Com o propósito de assegurar a significância de uma variável independente Xr , comparamos o valor da função deviance com e sem a variável no preditor linear. A mudança
em D devido a inclusão da variável no modelo é obtida da seguinte maneira:
G = {D(y; π̂ sem ) − D(y; π̂ com )}.
47
Podemos então escrever a estatística G como
G∗ = −2{`(β̂ sem ; y) − `(β̂ com ; y)}.
Sob a hipótese nula, a estatística G∗ segue uma distribuição chi-quadrado com 1 grau de
liberdade. Rejeitamos a hipótese nula para valores grandes de G∗ (a variável Xr deve
permanecer no modelo).
5.5
Análise de Resíduos
Uma etapa importante na análise de um ajuste de regressão é a verificação de possíveis
afastamentos das suposições feitas para o modelo, especialmente para a parte aleatória
e para a parte sistemática, bem como a existência de observações extremas com alguma
interferência desproporcional nos resultados do ajuste. Os resíduos indicam a presença de
observações anômalas que necessitam de uma maior investigação. Esta análise pode ser
conduzida por meio dos resíduos da função desvio, definidos por
p
rd = sinal(yi − µ̂i ) di
com
mi − yi
di = 2 yi log(yi /µ̂i ) + (mi − yi ) log
,
mi − µ̂i
sendo que
Pn
i=1
di = D(y; π̂).
Se a medida de discrepância pode ser mesurada pela função desvio, intuitivamente cada
observação apresenta sua contribuição para a medida global. Portanto, valores grandes
de rd são passiveis a maior investigação.
Capítulo 6
Análise Discriminante
Usamos o termo grupo para representar tanto a população ou uma amostra da população. Existem dois principais objetivos na separação dos grupos:
1. Definição da separação do grupo, em que funções lineares das variáveis (funções
discriminantes) são usadas para descrever ou explicar as diferenças entre dois ou
mais grupos. Os objetivos da análise discriminante incluem identificar a contribuição
relativa das p variáveis para discriminação dos grupos e encontrar o plano ideal no
qual os pontos podem ser projetados para ilustrar melhor a configuração dos grupos.
2. Previsão ou atribuição de observações a grupos, em que as funções de classificação
(funções das variáveis lineares ou quadráticas) são utilizadas para designar uma
unidade amostral para um dos grupos. O vetor de observação das variáveis relevantes, para uma pessoa (objeto) é avaliado nas funções de classificação e o indivíduo
é alocado no grupo mais provável.
O interesse deste resumo é apresentar formas de discriminar indivíduos quando a distribuição da população é conhecida e quando a distribuição da população não é conhecida.
Apesar de estarem claramente interligadas a análise discriminante e a classificação, não
devem ser confundidas. A análise discriminante se refere aos métodos de atribuição de
classes a determinados conjunto de dados. Já a classificação se refere a alocação de novas
observações nos grupos pré-definidos.
Na análise discriminante é determinado um conjunto de coeficientes associados a variáveis independentes que forneçam uma ponderação linear capaz de extrair a maior quantidade possível de informação quanto à classificação dos indivíduos nos grupos. Ela visa
48
49
maximizar a variância entre grupos (intergrupal) em relação à variância dentro dos grupos
(intragrupal), considerando amostras previamente classificadas dos diversos grupos.
Em geral temos populações Πj , j = 1, 2, . . . , s, e queremos alocar uma observação x
em um destes grupos. Uma regra discriminante é uma separação do espaço amostral em
conjuntos Rj tal que se x ∈ Rj , ele é definido como membro da população Πj .
A principal tarefa da análise discriminante é encontrar boas regiões Rj tal que o erro de
classificação seja pequeno. Primeiramente iremos descrever regras quando as distribuições
da população são conhecidos.
6.1
Regra Discriminante de Máxima Verossimilhança
Denote a densidade de cada população Πj por fj (x). A regra discriminante de máxima
verossimilhança (regra MV) é dada pela alocação de x em Πj que maximiza a verossimilhança Lj (x) = fj (x) = maxi fi (x).
Se vários fi retornam o mesmo máximo, então qualquer um deles pode ser selecionado.
Matematicamente, os conjuntos Rj dados pela regra MV são definidos como
Rj = {x : Lj (x) > Li (x) para i = 1, . . . , s, i 6= j}.
Ao alocar a observação em um determinado grupo, podemos cometer erro de classificação. Para s = 2 grupos a probabilidade de alocar x no grupo 2 embora pertença a
população 1 pode ser calculada como
Z
p21 = P (X ∈ R2 |Π1 ) =
f1 (x)dx.
R2
Similarmente, a probabilidade condicional de classificar um objeto como pertencente a
primeira população Π1 embora, na verdade, venha da população Π2 é
Z
p12 = P (X ∈ R1 |Π2 ) =
f2 (x)dx.
R1
As observações mal classificadas criam um custo C(i|j) quando a observação da população Πj é atribuída a Ri . A estrutura de custo pode ser ilustrada em uma matriz de
custos:
50
População
População Classificada
Verdadeira
Π1
Π2
Π1
0
C(2|1)
Π2
C(1|2)
0
Seja πj a probabilidade a priori de uma população Πj , sendo que o termo probabilidade a priori significa a probabilidade que um indivíduo selecionado aleatoriamente da
população pertença a Πj (antes da observação da amostra, ou seja, dos valores de x).
Probabilidades a priori deve ser consideradas se é claro de antemão que uma observação
é mais provável que resultam de uma determinada população Πj .
O custo esperado de má classificação (CEMC) é dado por
CEMC = C(2|1)p21 π1 + C(1|2)p12 π2 .
Estaremos interessado em regras de classificação que mantêm o CEMC menor, ou que
minimizam o CEMC sobre uma classe de regras. A regra discriminante que minimiza
ECMC para duas populações é dada por
f1 (x)
C(1|2)
π2
R1 =
x:
≥
f2 (x)
C(2|1)
π
1 C(1|2)
π2
f1 (x)
<
.
R2 =
x:
f2 (x)
C(2|1)
π1
A regra MV é então um caso particular da regra CEMC para o custo de má especificação igual e probabilidades a priori iguais.
Exemplo: Suponha x ∈ {0, 1} e
Π1 : P (X = 0) = P (X = 1) = 1/2
Π2 : P (X = 0) = 1/4 = 1 − P (X = 1).
O espaço amostral é o conjunto {0, 1}. A regra MV de discriminação aloca x = 0 para
Π1 , pois {f1 (0) > f2 (0)} e x = 1 para Π2 , pois {f1 (1) < f2 (1)}, definindo os conjuntos
R1 = {0} e R2 = {1}, com R1 ∪ R2 = {0, 1}.
Exemplo: Considere duas populações normais
Π1 : N (µ1 , σ12 )
Π2 : N (µ2 , σ22 ).
51
Então,
(
1
Li (x) = (2πσi2 )1/2 exp −
2
x − µi
σi
2 )
,
portanto x é alocado em Π1 (x ∈ R1 ) se L1 (x) ≥ L2 (x). Note que L1 (x) ≥ L2 (x) é
equivalente a
(
2 )
2 )
x
−
µ
1
x
−
µ
1
1
1
> (2πσ12 )1/2 exp −
(2πσ12 )1/2 exp −
2
σ1
2
σ1
(
"
2 2 #)
σ2
1
x − µ1
x − µ2
exp −
−
≥ 1.
σ1
2
σ1
σ2
(
Na situação simplificada em que as variâncias são comuns σ1 = σ2 = σ, temos
1
2
2
≥ 0
exp − 2 [(x − µ1 ) − (x − µ2 ) ]
2σ
1
x ≤ (µ1 + µ2 ).
2
A regra discriminante (para µ1 < µ2 ) fornece
x → Π1 ,
se x ∈ R1 = {x : x ≤ 1/2(µ1 + µ2 )}
x → Π2 ,
se x ∈ R2 = {x : x > 1/2(µ1 + µ2 )}.
A regra discriminante MV para observações multinomiais está intimamente conectada
com a distância de Mahalanobis. A regra discriminante está baseada em uma combinação
linear e pertence a família de métodos de análise discriminante linear (ADL).
Teorema: Suponha Πi = Np (µi , Σ).
(a) A regra MV que aloca x em Πj , sendo j ∈ {1, 2, . . . , s} é o valor que minimiza a
raiz da distância de Mahalanobis entre x e µi
δ 2 (x, µi ) = (x − µi )> Σ−1 (x − µi ), i = 1, . . . , s.
(b) No caso em que s = 2,
x ∈ R1 ↔ α> (x − µ) ≥ 0,
sendo α = Σ−1 (µ1 − µ2 ) e µ = 1/2(µ1 + µ2 ).
Demonstração: A parte (a) segue diretamente da comparação das verossimilhanças.
52
Para s = 2, a parte (a) diz que x é alocado em Π1 se
(x − µ1 )> Σ−1 (x − µ1 ) ≤ (x − µ2 )> Σ−1 (x − µ2 )
−1
> −1
> −1
> −1
−2µ>
1 Σ x + 2µ2 Σ x + µ1 Σ µ1 − µ2 Σ µ2 ≤ 0,
que é equivalente a
2(µ2 − µ1 )> Σ−1 x + (µ1 − µ2 )> Σ−1 (µ1 + µ2 ) ≤ 0
1
> −1
x − (µ1 + µ2 )
≥ 0
(µ2 − µ1 ) Σ
2
α> (x − µ) ≥ 0.
6.2
Regra Discriminante de Bayes
Denote a distribuição a priori por πj e note que
Ps
j=1
πj = 1. A regra discriminante de
Bayes aloca x em Πj que fornece o maior valor de πj fj (x), πj fj (x) = maxi πi fi (x). Então,
a regra discriminante é definida por Rj = {x : πj fj (x) ≥ πi fi (x), para i = 1, . . . , s}. A
regra de Bayes tem como caso particular a regra MV para πj = 1/s.
Uma importante modificação está em alocar x em Πj com uma certa probabilidade
P
φj (x), tal que si=1 φj (x) = 1 para todo x. Isso é chamado de regra discriminante aleatorizada. A regra discriminante aleatorizada é uma generalização da regra discriminante
determinística desde que

 1
φj (x) =
 0
se πj fj (x) = maxi πi fi (x)
caso contrário
refletindo a regra determinística.
Qual regra discriminante é melhor? Precisamos de uma medida de comparação. Denote
Z
pij =
φi (x)fi (x)dx
como a probabilidade de alocação de x em Πi se de fato ele pertence a Πj . Uma regra
discriminante com probabilidades pij é tão boa quanto qualquer outra regra discriminante
0
com probabilidades pij se
0
pii ≥ pii para todo i = 1, . . . , s.
(6.1)
Dizemos que a primeira regra é melhor se a desigualdade estrita em (6.1) tem pelo
menos um i. Uma regra discriminante é chamada de admissível se não há uma regra
53
discriminante melhor. Todas as regras discriminantes de Bayes (incluindo a regra ML)
são admissíveis.
6.3
Classificação com diferentes matrizes de covariância
O mínimo de CEMC depende da razão de densidades f1 (x)/f2 (x) ou equivalentemente
da diferença log{f1 (x)} − log{f2 (x)}. Quando a covariância das funções densidades é
diferente, a regra de alocação se torna mais complicada
1 > −1
C(1|2)
π2
−1
> −1
> −1
R1 =
x : − x (Σ1 − Σ2 )x + (µ1 Σ1 − µ2 Σ2 )x − k ≥ log
2
C(2|1)
π
1 1
π2
C(1|2)
−1
> −1
> −1
R2 =
x : − x> (Σ−1
,
1 − Σ2 )x + (µ1 Σ1 − µ2 Σ2 )x − k < log
2
C(2|1)
π1
−1
> −1
sendo k = log{(det Σ1 / det Σ2 ) + 1/2(µ>
1 Σ1 µ1 − µ2 Σ2 µ2 )}.
As regiões de classificação são definidas por funções quadráticas. Por isso, pertencem
à família de métodos de Análise Discriminante Quadráticas (ADQ). Esta regra de classificação quadrática coincide com as regras utilizadas quando Σ1 = Σ2 , então o termo
−1
(1/2)x> (Σ−1
1 − Σ2 )x desaparece.
6.4
Regra de Discriminação na Prática
A regra MV é utilizada, se a distribuição dos dados é conhecida inclusive os valores
dos parâmetros. Suponha, por exemplo, que os dados provêm de distribuições normais
multivariadas Np (µj , Σ). Se temos s grupos com nj observações em cada grupo, usamos
x̄j para estimar µj e Sj para estimar Σ. A covariância comum pode ser estimada pela
Su =
s
X
j=1
com n =
Ps
i=1
nj
Sj
n−s
,
nj . Então a versão empírica da regra MR do Teorema é alocar uma nova
observação x em Πj tal que j minimiza
(x − x̄i )> Su−1 (x − x̄i )> para i ∈ {1, 2, . . . , s}.
54
6.5
Função Discriminante Linear de Fisher
A ideia de Fisher para uma regra de discriminação teve como base uma projeção a> x,
tal que a regra separe ao máximo possível as populações com maior similaridade possível
dentro do grupo. Esta análise discriminante linear é chamada de Função Discriminante
Linear de Fisher (FDLF). Se
Y = Xa
denota a combinação linear das observações, então a soma de quadrados total de y,
P
2
i=1 n(yi − ȳ) , é igual a
Y > HY = a> X > HXa = a> T a,
>
com matriz de centralidade H = I − n−1 1n 1>
n e T = X HX.
Supondo que temos amostras Xj , j = 1, . . . , s, das s populações. Fisher sugeriu
encontrar uma combinação linear a> x que maximiza a razão entre a soma de quadrados
entre-grupo e a soma de quadrados intra-grupo.
A soma dos quadrados intra-grupo é dada por
s
X
Yj> Hj Yj
=
j=1
s
X
a> Xj> Hj Xj a = a> W a,
j=1
sendo que Yi denota a j-ésima submatriz de Y correspondente as observações do grupo
j e Hj denota a matriz de centralidade (nj × nj ). A soma de quadrados intra-grupo
mensura a soma das variações dentro de cada grupo.
A soma dos quadrados entre-grupo é
s
X
j=1
nj (ȳj − ȳ)2 =
s
X
nj {a> (x̄j − x̄)2 } = a> Ba,
j=1
sendo ȳj e x̄j denotam as médias de Yi e Xi e ȳ e x̄ denotam as médias amostrais de Y
e X. A soma de quadrados entre-grupo mede a variação através dos grupos.
A soma de quadrados total é a soma de quadrados intra-grupo e a soma de quadrados
entre-grupo, isto é,
a> T a = a> W a + a> Ba.
A idéia de Fisher foi selecionar um vetor de projeção que maximiza a razão
a> Ba
a> W a
(6.2)
55
O problema de identificar a combinação linear que maximiza a discriminação em (6.2),
é um caso particular do problema geral de maximização de um quociente de formas
quadráticas. Então, se W é uma matriz positiva definida o vector de coeficientes a que se
procura é o vector próprio da matriz W −1 B associado ao maior valor próprio de W −1 B.
Agora a regra de discriminação é obtida ao classificar x no grupo j onde a> x̄j está
mais próxima de a> x, isso é,
x → Πj onde j = arg min |a> (x − x̄i )|.
i
Para s = 2 grupos, a regra discriminante é mais simples de ser calculada. Suponha
que o grupo 1 tem n1 elementos e o grupo 2 tem n2 elementos. Neste caso,
B=
n n 1 2
dd> ,
n
sendo d = (x̄1 − x̄2 ). W −1 B tem apenas um autovalor que vale
tr(W −1 B) =
n n 1 2
d> W −1 d,
n
e o correspondente autovetor é a = W −1 d. A correspondente regra de discriminação é
x → Π1 ,
se a> {x − 1/2(x̄1 + x̄2 )} > 0
x → Π2 ,
se a> {x − 1/2(x̄1 + x̄2 )} ≤ 0.
A regra de alocação é exatamente a mesma que a regra MV para s = 2 grupos e
para distribuições normais com a covariância comum. Para s = 3 grupos esta regra será
diferente, exceto para o caso especial de médias amostrais colineares.
Exemplo: Considere um conjunto de dados que consistem de n = 32 crânios coletados
em dois diferentes locais. n1 = 17 deles encontrado em túmulos próximos do Tibete (tipo
I) e os outros n2 = 15 coletado no campo de batalha, no distrito de Lhasa (tipo II). Os
últimos acredita-se ser de soldados nativos de uma província oriental e eram de interesse
particular, pois poderiam ser sobreviventes de um tipo humano não relacionado com os
das regiões que os cercavam. Para cada um destes 32 crânios foram observados, todas em
milímetros, as seguintes medidas:
• xi1 : maior comprimento do crânio (tamanho),
• xi2 : maior amplitude horizontal do crânio (largura),
56
• xi3 : altura do crânio (altura),
• xi4 : altura facial superior (altura da face),
• xi5 : amplitude face, entre pontos extremos dos ossos da face (largura da face),
i = 1, . . . , 32.
A primeira tarefa é realizar sobre estes dados é testar a hipótese de que os vetores de
cinco dimensões médias das medidas cranianas são os mesmos em ambas as populações
de onde as amostras possam surgir. Supondo que os vetores de médias de tipos I e II
de crânios não são o mesmo, a próxima etapa é estabelecer uma regra de classificação de
aspectos agrupados dos dados multivariados.
Suponha que um crânio ainda está descoberto, cuja origem é desconhecida, ou seja, não
sabemos se ele é do tipo I ou do tipo II. O objetivo é encontrar uma forma de classificar as
observações em um dos dois grupos utilizando o conjunto de variáveis x = (x1 , x2 , . . . , xq ).
O objetivo é encontrar uma forma de classificar as observações em um dos dois grupos
utilizando o conjunto de variáveis x = (x1 , x2 , . . . , xq ).
Para este conjunto de dados o vetor da função discriminante e o limiar entre os grupos
são respectivamente
a> = (−0, 0893, 0, 156, 0, 005, −0, 177, −0, 177) e (ȳ1 + ȳ2 )/2 = −30, 363,
logo a regra de classifica como grupo I se
−0, 0893xi1 + 0, 156xi2 + 0, 005xi3 − 0, 177xi4 − 0, 177xi5 > −30, 363.
Como resultado, a análise discriminante é um sistema de escores. O escore é determinado multiplicando-se o peso discriminante pelo valor de cada variável independente do
indivíduo e somando-se os resultados. Uma vez que esse escore é determinado, o indivíduo
é classificado como pertencente a um dos grupos analisados. Por exemplo, suponha que
as medidas de dois novos crânios foram obtidas, assim
Crânio 1:
−0, 0893∗171, 0+0, 156∗140, 5+0, 005∗127, 0−0, 177∗69, 5−0, 177∗137, 0 = −29, 27 > −30, 363,
Crânio 2:
−0, 0893∗179, 0+0, 156∗132, 0+0, 005∗140, 0−0, 177∗72, 0−0, 177∗138, 5 = −31, 95 < −30, 363.
57
Comparando os valores dos escores com o limiar -30,363, classificamos o crânio 1 como
tipo I e o crânio 2 como tipo II.
A função discriminante linear de Fisher é ideal quando os dados surgem de populações
com distribuição normal multivariada com as matrizes de covariância comum. Quando as
distribuições não são claramente de uma normal uma abordagem alternativa é a discriminação logística, embora os resultados de ambos este método de Fisher e é provável que
sejam muito semelhantes na maioria dos casos. Quando as duas matrizes de covariância
são diferentes a função discriminante linear já não é ótima e uma versão quadrática pode
ser necessária.
A função discriminante quadrática possui a vantagem de uma maior flexibilidade em
comparação com a versão linear. Existe, contudo, uma penalidade envolvido na forma de
superajuste (overfitting) potencial, tornando a função derivada pobre em classificar novas
observações.
6.6
Desempenho de uma função discriminante
Uma forma de avaliar o desempenho de uma função discriminante é aplicar a regra de
classificação para os dados a partir do qual foi derivada a regra de classificação e calcular a
taxa de erro cometida (esta técnica é conhecida como a plug-in estimativa). Seja a matriz
contendo o número de observações com n11 e n22 o número de observações corretamente
alocado pelo método e n12 e n21 o número de observações com erro de classificação.
População de origem
População alocada
Π1
Π2
Π1
n11
n12
Π2
n21
n22
Portanto, podemo obter a taxa de erro de classificação como sendo (n12 + n21 )/n ∗ 100.
Esta técnica tem a vantagem de ser extremamente simples. Infelizmente, no entanto, que,
geralmente, fornece uma estimativa muito pobre da taxa de erro de classificação real. Na
maioria dos casos, a estimativa obtida desta maneira será muito otimistas. Um outra
forma de avaliar e mais geralmente usada é o chamado Método leaving-one-out, nos quais
a função discriminante é derivada a partir de apenas (n − 1) membros da amostra e, em
58
seguida, utilizado para classificar o membro não incluída. O processo realiza-se n vezes,
deixando de fora de cada membro de amostra, por sua vez. Esta opção não é muito
interessante para um número de observações grande.
Exemplo: Considere os resultados obtido pelo conjunto de dados dos crânios.
Grupo correto
Alocado
1
2
1
14
3
2
3
12
A taxa de erro de classificação é de 19%.
6.7
Diferença entre Análise Discriminante e Análise de
Cluster
Ao considerar os grupos de objetos em um conjunto de dados multivariada, duas situações podem surgir. Dado um conjunto de dados contendo medições sobre os indivíduos,
em alguns casos, nós queremos ver se alguns grupos naturais ou classes de indivíduos existem, e em outros casos, queremos classificar os indivíduos de acordo com um conjunto de
grupos existentes. A análise de cluster desenvolve ferramentas e os métodos relacionados
primeiro caso, isto é, dada uma matriz contendo dados multivariados medições em um
grande número de objetos, o objetivo é construir alguns subgrupos naturais ou dos grupos de indivíduos. Isto é feito através do agrupamento indivíduos que são semelhantes,
de acordo com algum critério adequado. A análise discriminante aborda a questão de
outra questão da classificação. Concentra-se em situações em que os diferentes grupos são
conhecidos a priori. Regras de decisão são fornecidos na classificação de um observação
multivariada em um dos grupos conhecidos.
Capítulo 7
Análise de Agrupamentos
(Conglomerados ou Cluster)
Ao considerar grupos de objetos com dados multivariada, duas situações podem surgir.
Dado um conjunto de dados contendo medições sobre os indivíduos, em alguns casos, nós
queremos ver se alguns grupos naturais ou classes de indivíduos existem, e em outros
casos, queremos classificar os indivíduos de acordo com um conjunto de grupos existente.
A análise de agrupamento desenvolve ferramentas e os métodos relacionados ao primeiro
caso, isto é, dada uma matriz contendo dados multivariados, medições em um grande
número de objetos, o objetivo é construir alguns subgrupos naturais. Isto é feito através do
agrupamento de indivíduos que são semelhantes, de acordo com algum critério adequado.
A análise discriminante aborda a outra forma da classificação. Concentra-se em situações
em que os diferentes grupos são conhecidos a priori. Regras de decisão são fornecidos para
classificar uma observação multivariada em um dos grupos conhecidos.
Neste resumo iremos apresentar uma forma de mensurar a proximidade entre objetos
considerando uma estrutura binária e variáveis contínua, além disso iremos apresentar
um forma de construção de grupos via clusters hierárquicos e outra forma de cluster via
particionamento.
7.1
O problema
A análise de cluster é um conjunto de ferramentas para a construção de grupos (clusters) de objetos de dados multivariados. O objetivo é a construção de grupos homogêneos
59
60
com propriedades de grandes amostras heterogêneas. Os grupos ou agregados devem ser
tão homogêneos quanto possível, e as diferenças entre os vários grupos tão grandes quanto
possível. A análise de agrupamento pode ser dividida em dois passos fundamentais.
1. Escolha de uma medida de proximidade: Verifica para cada par de observações
(objetos) a semelhança entre os seus valores. A medida de semelhança (proximidade)
é definida para mensurar a proximidade dos objetos. Quanto mais próximos eles
estiverem, mais homogêneos eles são.
2. Escolha do algoritmo de construção de grupos: Com base na sua medida de proximidade os objetos são atribuídos aos grupos de modo que as diferenças entre os
grupos se tornem maiores e entre as observações de um mesmo grupo tornem-se tão
pequenas quanto possível.
Em marketing, por exemplo, a análise de cluster é usada para selecionar mercadosteste. Outras aplicações incluem a classificação das empresas de acordo com suas estruturas organizacionais, tecnologias e tipos. Na psicologia, análise de cluster é usado para
agrupar tipos de personalidades com base em questionários. Na arqueologia, é aplicado
para classificar objetos de arte em diferentes períodos de tempo. Em cada caso, uma
amostra heterogênea de objetos são analisados com o objetivo de identificar subgrupos
homogêneos.
7.2
A proximidade entre objetos
O ponto de partida de uma análise de cluster é uma matriz de dados Xn×p com n
medições (objetos) de p variáveis. A proximidade (similaridade) entre objetos é descrito
por uma matriz Dn×n .
A matriz D contém medidas de semelhança ou dissemelhança entre os n objetos. Se
os valores são distâncias dij , então eles medem dissimilaridade. Quanto maior a distância,
menos semelhantes são os objetos. Se os valores de dij são medidas de proximidade, o
oposto é verdadeiro, isto é, quanto maior o valor de proximidade, mais semelhante são os
objetos. A matriz de distância, por exemplo, pode ser definida por L2 − norma : dij =
||xi − xj ||2 , onde xi e xj denotam as linhas da matriz X. Distância e similaridade são
0
naturalmente uma dupla. Se dij é uma distância, então dij = maxij {dij } − dij é uma
medida de proximidade.
61
A natureza das observações desempenha um papel importante na escolha de medidas
de proximidade. Para valores nominais (como variáveis binárias), em geral, são utilizados
os valores de proximidade, enquanto que para valores métricos (em geral) as matrizes de
distâncias.
Nós primeiro apresentamos possibilidades para D no caso binário e então o caso contínuo.
7.2.1
Similaridade de objetos com estrutura binária
Para medir a similaridade entre objetos sempre comparamos pares de observações
>
(xi , xj ), sendo x>
i = (xi1 , xi2 , . . . , xip ) e xj = (xj1 , xj2 , . . . , xjp ), e xik , xjk ∈ {0, 1}. Obvi-
amente, existem quatro casos:
xik = xjk = 1 xik = 0, xjk = 1 xik = 1, xjk = 0 xik = xjk = 0.
Definimos
a1 =
p
X
I(xik = xjk = 1)
k=1
p
a2 =
X
I(xik = 0, xjk = 1)
k=1
p
a3 =
X
I(xik = 1, xjk = 0)
k=1
a4 =
p
X
I(xik = xjk = 0).
k=1
Note que cada al , l = 1, . . . , 4 depende do par (xik , xjk ).
As medidas de proximidade a seguir são usados na prática:
dij =
a1 + δa4
,
a1 + δa4 + λ(a2 + a3 )
sendo δ e λ fatores de ponderação. Na Tabela a seguir mostra algumas medidas de
similaridade para alguns factores de ponderação.
62
Nome
δ
λ
Definição
Jaccard
0
1
a1 /(a1 + a2 + a3 )
Tanimoto
1
2
(a1 + a4 )/(a1 + 2(a2 + a3 ) + a4 )
Coincidência Simples (M)
1
1
(a1 + a4 )/p
Russel e Rao (RR)
-
-
a1 /p
Jogar dados
0
0,5
2a1 /(2a1 + (a2 + a3 ))
Kulczynski
-
-
a1 /(a2 + a3 )
Estas medidas proporcionam formas alternativas de ponderação. Em princípio, poderíamos
considerar também a distância euclidiana. No entanto, a desvantagem desta distância é
que ele trata as observações 0 e 1 da mesma maneira. Se xik = 1 denota, por exemplo,
o conhecimento de uma determinada língua, então o contrário, xik = 0 (não conhecer a
língua) devem ser tratados eventualmente de forma diferente.
7.2.2
Medidas de distância para variáveis contínuas
Uma grande variedade de medidas de distância pode ser gerada pelas normas, Lr norma, r ≥ 1,
dij = ||xi − xj ||r =
( p
X
)1/r
r
|xik − xjk |
.
(7.1)
k=1
Aqui xik denota o valor da k-ésima variável no objeto i. É claro que dii = 0 para
i = 1, . . . , n. A classe de distâncias (7.1) para a variação r mede a dissimilaridade de
diferentes pesos. A L1 -norma, por exemplo, dá menos pesos para outliers que a L2 -norma
(Euclidiana norma). É comum a considerar o quadrado L2 -norma.
Um pressuposto subjacente ao aplicar distâncias baseadas em LR -norma que as variáveis são medidas na mesma escala. Se este não for o caso, uma normalização deve ser
aplicada. Isto corresponde a uma norma de uso mais geral L2 - ou Euclidiana norma com
a métrica A, sendo A > 0:
d2ij = ||xi − xj ||A = (xi − xj )> A(xi − xj ).
L2 -norma são dadas por A = Ip , mas se a normalização é desejada, então a matriz
−1
−1
de peso A = diag{s−1
X1 X1 , sX2 X2 , . . . , sXp Xp } pode ser razoável. Lembres-se que sXk Xk é a
63
variância da k-ésima componente. Assim, temos
d2ij
=
p
X
(xik − xjk )2
k=1
sXk Xk
.
Aqui, cada componente tem o mesmo peso no cálculo das distâncias e as distâncias não
dependem de uma escolha particular das unidades de medida.
Quando aplicado a tabelas de contingência, uma L2 -métrica é adequada para comparar
(e cluster) linhas e colunas de uma tabela de contingência.
Se X é uma tabela de contingência, a linha i é caracterizada pela distribuição da
Pp
frequência condicional xij /xi• , sendo xi• =
j=1 xij indica as distribuições marginais
Pn
sobre as linhas: xi• /x•• , x•• = i=1 xi• . Similarmente, a coluna j de X é caracterizada
P
pela frequências condicionais xij /x•j , sendo x•j = ni=1 xij . As frequências marginais das
colunas são x•j /x•• .
A distância entre duas linhas, i1 e i2 , corresponde à distância entre as suas respectivas
distribuições de frequência. É comum definir esta distância utilizando a χ2 -métrica:
2
p
X
1
xi 1 j
xi 2 j
2
d (i1 , i2 ) =
.
−
x
/x
x
x
•j
••
i
•
i
•
1
2
j=1
Note-se que isso pode ser expresso como a distância entre os vectores x1 = xi1 j /x••
e x2 = xi2 j /x•• , como em (7.1) com A = diag{x•j /x•• }. Similarmente, se estamos
interessados em clusters, entre as colunas, podemos definir
2
n
X
1
xij1
xij2
2
d (j1 , j2 ) =
−
.
x
/x
x
x
i•
••
•j
•j
1
2
i=1
Além das medidas Euclidiana e Lr -norma podemos usar uma medida de proximidade
tal como o coeficiente de Q-correlação
Pp
x̄i )(xjk − x̄j )
k=1 (xik −P
,
dij = Pp
{ k=1 (xik − x̄i )2 pk=1 (xjk − x̄j )2 }1/2
sendo que x̄i denota a média sobre todas as variáveis (xi1 , xi2 , . . . , xip ).
7.3
Algoritmos de cluster
Existem, essencialmente, dois tipos de métodos de agrupamento.
• Algoritmos hierárquicos: podem ser divididos em processos aglomerativos e divisivos. O primeiro tipo começa como cada observação constituindo um cluster e
64
posteriormente acontecem os agrupamentos. O segundo tipo é mais grosseiro, um
aglomerado contém todas as observações e prossegue dividindo o cluster único em
pequenos aglomerados de menores tamanhos.
• Algoritmos de particionamento: Começam a partir de um determinado grupo de
reconhecimento e continuar trocando elementos entre os grupos até uma certa pontuação seja otimizada.
A principal diferença entre as duas técnicas de agrupamento é que, no agrupamento
hierárquico grupos são encontrados e elementos são atribuídos aos grupos, esta atribuição
não pode ser alterada. Em técnicas de particionamento, por outro lado, a atribuição de
objetos em grupos podem ser alterados durante o aplicação do algoritmo.
7.3.1
Algoritmos hierárquicos, Técnicas aglomerativas
O método hierárquico de cluster consiste em uma série de sucessivos agrupamentos
ou sucessivas divisões de elementos, onde os elementos são agregados ou desagregados.
Os métodos hierárquicos são subdivididos em métodos aglomerativos e divisivos. Os
algoritmos aglomerativos são utilizadas com bastante frequência na prática. No método
aglomerativo, cada elemento inicia-se representando um grupo, e a cada passo, um grupo
ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde
é formado um grupo único com todos os elementos. O algoritmo consiste nos seguintes
passos:
1. Iniciar com n grupos, contendo um elemento em cada grupo.
2. Calcular a matriz de distâncias D.
FAZER
3. Encontrar dois clusters com menor distância.
4. Colocar estes dois clusters em um cluster.
5. Recalcular a distância entre os novos grupos e obter a matriz de distâncias D reduzida.
ATÉ todos os clusters estarem aglomerados dentro de único cluster.
65
Dois objetos ou grupos ditos, P e Q, são unidos, o recálculo da distância entre este
novo grupo (objeto) (P + Q) e grupo R, é feito usando a seguinte função de distância
dR,P +Q = δ1 d(R, P ) + δ2 d(R, Q) + δ3 d(P, Q) + δ4 |d(R, P ) − d(R, Q)|,
(7.2)
sendo δ’s coeficientes de ponderação que levam a diferentes algoritmos de aglomeração,
tal como descrito na Tabela a seguir.
δ1
δ2
δ3
δ4
Ligação simples
1/2
1/2
0
-1/2
Ligação completa
1/2
1/2
0
1/2
Ligação por média (não ponderada)
1/2
1/2
0
0
Ligação por média (ponderada)
nP
nP +nQ
0
0
Centroide
nP
nP +nQ
nQ
nP +nQ
nQ
nP +nQ
− (nP Q+nPQ )2
n n
0
1/2
1/2
-1/4
0
nR +nP
nR +nP +nQ
nR +nQ
nR +nP +nQ
− nR +nnPR +nQ
0
Nome
Mediana
Ward
O algoritmo com a ligação simples define a distância entre os dois grupos no menor
valor das distâncias individuais. Neste caso,
d(R, P + Q) = min{d(R, P ), d(R, Q)}.
Este algoritmo também é chamado de algoritmo do vizinho mais próximo. Como consequência de sua construção, a ligação simples tende a construir grandes grupos. Grupos
que diferem, mas não são bem separados. Algumas características desse método são (i)
em geral, grupos muito próximos podem não ser identificados; (ii) permite detectar grupos de formas não-elípticas; (iii) apresenta pouca tolerância a ruído, pois tem tendência
a incorporar os ruídos em um grupo já existente; (iv) apresenta bons resultados tanto
para distâncias Euclidianas quanto para outras distâncias; (v) tendência a formar longas
cadeias.
O algoritmo de ligação completa tenta corrigir este tipo de agrupamento, considerando
os maiores (individuais) distâncias. A distância da ligação completa pode ser escrita como
d(R, P + Q) = max{d(R, P ), d(R, Q)}.
É também chamado o algoritmo do vizinho mais distante. Este algoritmo terá grupos
de cluster onde todos os pontos estão próximos, desde que comparados com as maiores
66
distâncias. Algumas características desse método são: (i) apresenta bons resultados tanto
para distâncias Euclidianas quanto para outras distâncias; (ii) tendência a formar grupos
compactos; (iii) os ruídos demoram a serem incorporados ao grupo.
Os métodos de ligação pelo vizinho mais próximo e por vizinho mais distante trabalham
em direções opostas. Se eles apresentam resultados semelhantes, significa que o grupo
está bem definido no espaço, ou seja, o grupo é real. Mas se ocorre o contrário, os grupos
provavelmente não existem.
O algoritmo de ligação por média (ponderada ou não ponderada) propõe um compromisso entre os dois algoritmos anteriores, na medida em que calcula uma distância
média
d(R, P + Q) =
nP
nQ
d(R, P ) +
d(R, Q).
nP + nQ
nP + nQ
Algumas características desse método são: (i) menor sensibilidade à ruídos que o os
métodos de ligação por vizinho mais próximo e por vizinho mais distante; (ii) apresenta
bons resultados tanto para distâncias Euclidianas quanto para outras distâncias; (iii)
tendência a formar grupos com número de elementos similares.
O algoritmo de centroide é bastante semelhante à do algoritmo de ligação por média
e usa a distância natural geométrica entre R e o centro de gravidade ponderada de P e Q
d(R, P + Q) =
nP
nQ
nP nQ
d(R, P ) +
d(R, Q) −
d(P, Q).
nP + nQ
nP + nQ
(nP + nQ )2
Como características desse método, encontram-se: (i) robustez à presença de ruídos;
(ii) devido ao fenômeno da reversão, o método não é muito utilizado. O fenômeno da
reversão ocorre quando a distância entre centroides é menor que a distância entre grupos
já formados.
Algumas características referentes a ligação pela mediana são: (i) apresenta resultado
satisfatório quando os grupos possuem tamanhos diferentes; (ii) pode apresentar resultado diferente quando permutado os elementos na matriz de similaridade; (iii) robustez à
presença de outliers.
O algoritmo de agrupamento Ward calcula a distância entre os dois grupos de acordo
com a fórmula indicada na Tabela. A principal diferença entre este algoritmo e os procedimentos de ligação está no procedimento de unificação. O algoritmo de Ward não monta
grupos com menor distância. Em vez disso, ele se junta os grupos que não aumentam
muito uma dada medida de heterogeneidade. O objetivo do processo de divisão é unificar
67
grupos de tal forma que a variação dentro destes grupos não aumentem drasticamente:
os grupos resultantes são tão homogêneos quanto possível. A heterogeneidade do grupo
R é medida pela inércia dentro do grupo, ela é definida por
nR
1 X
IR =
d2 (xi , x̄R ),
nR i=1
sendo x̄R o centro de gravidade (média) de todos os grupos. IR fornece uma medida escalar
da dispersão do grupo em torno do seu centro de gravidade. Se a distância Euclidiana
habitual é utilizada, IR representa a soma das variâncias dos p componentes de xi dentro
do grupo R.
Quando dois objetos ou grupos P e Q são unidos, o novo grupo P + Q tem um IP +Q .
Pode ser mostrado que o aumento correspondente da inércia é dada pela
∇(P, Q) =
nP nQ 2
d (P, Q).
nP + nQ
Neste caso, o algoritmo de Ward é definido como um algoritmo que une os grupos que dão
o menor aumento em ∇(P, Q). Quando P e Q são unidos, os novos valores do critério dado
por (7.2), juntamente com os valores de δi dada na Tabela, quando a fórmula do centroide
é usado para modificar d2 (R, P + Q). Assim, o algoritmo de Ward está relacionado com
o algoritmo de centroide, mas com uma distância de inércia ∇ maior que a distância
geométrica d2 .
Algumas características de método de Wald são: (i) apresenta bons resultados tanto
para distâncias euclidianas quanto para outras distâncias; (ii) pode apresentar resultados
insatisfatórios quando o número de elementos em cada grupo é praticamente igual; (iii)
tem tendência a combinar grupos com poucos de elementos; (iv) sensível à presença de
outliers.
Os grupos, nos métodos hierárquicos, são geralmente representados por um diagrama
bi-dimensional chamado de dendograma ou diagrama de árvore. Neste diagrama, cada
ramo representa um elemento, enquanto a raiz representa o agrupamento de todos os
elementos. Através do dendograma e do conhecimento prévio sobre a estrutura dos dados,
deve-se determinar uma distância de corte para definir quais serão os grupos formados.
Essa decisão é subjetiva, e deve ser feita de acordo o objetivo da análise e o número de
grupos desejados.
Os métodos divisivos trabalham na direção oposta dos métodos aglomerativos, ou seja,
um grupo inicial contendo todos os elementos é dividido em dois subgrupos, de tal forma
68
que os elementos em um subgrupo estejam distantes dos elementos do outro subgrupo.
Os métodos divisivos são pouco mencionados na literatura, pois exigem uma maior
capacidade computacional que os métodos aglomerativos.
7.3.2
Algoritmos de Particionamento
Os métodos não-hierárquicos, ou por particionamento, foram desenvolvidos para agrupar elementos em k grupos, onde k é a quantidade de grupos definida previamente. Nem
todos valores de k apresentam grupos satisfatórios, sendo assim, aplica-se o método várias
vezes para diferentes valores de k, escolhendo os resultados que apresentem melhor interpretação dos grupos ou uma melhor representação gráfica.
A ideia central da maioria dos métodos por particionamento é escolher uma partição
inicial dos elementos e, em seguida, alterar os membros dos grupos para obter-se a melhor
partição. Quando comparado com o método hierárquico, o método por particionamento
é mais rápido porque não é necessário calcular e armazenar, durante o processamento, a
matriz de similaridade.
Em geral, os métodos por particionamento diferem entre si pela maneira que constituem a melhor partição. Os métodos por particionamento mais conhecidos são o método
k-médias e o método k-medóides, e são descritos a seguir.
O método k-médias toma um parâmetro de entrada, k, e particiona um conjunto de
n elementos em k grupos, da seguinte forma:
1. Escolhe arbitrariamente k elementos da base de dados como os centros iniciais dos
grupos;
FAZER
2. (re)Atribua cada elemento ao grupo ao qual o elemento é mais similar, de acordo
com o valor médio dos elementos no grupo;
3. Atualizar as médias dos grupos, calculando o valor médio dos elementos para cada
grupo;
ATÉ que não haja mudanças de elementos de um grupo para outro.
Algumas características desse método são: (i) sensibilidade a ruídos, uma vez que um
elemento com um valor extremamente alto pode distorcer a distribuição dos dados; (ii)
69
tendência a formar grupos esféricos; (iii) o número de grupos é o mesmo durante todo o
processo; (iv) inadequado para descobrir grupos com formas não convexas ou de tamanhos
muito diferentes.
O método k-medóide utiliza o valor médio dos elementos em um grupo como um ponto
referência, chamado de medóide. Esse é o elemento mais centralmente localizado em um
grupo.
A estratégia básica é encontrar k grupos em n elementos e, arbitrariamente, encontrar
um elemento representativo (medóide) para cada grupo. Cada elemento remanescente é
agrupado com o medóide ao qual ele é mais similar. A estratégia, então, iterativamente,
troca um dos medóides por um dos não medóides enquanto a qualidade do agrupamento
resultante é melhorada. O método segue o algoritmo:
1. Escolher, arbitrariamente, k elementos da base de dados como os medóides iniciais
dos grupos;
FAZER
2. Atribua cada elemento remanescente ao grupo com o medóide mais próximo;
3. Aleatoriamente, selecione um elemento que não esteja como medóide, r;
4. Calcule o custo total (diferença de médias), S, de trocar o medóide Oj pelo elemento
r;
5. Se S < 0 então troque Oj por r para formar o novo conjunto de k-medóides;
ATÉ que não haja mudança de objetos de um grupo para outro.
Algumas características desse método são: (i) independente da ordem, os resultados
serão os mesmos; (ii) tendência a encontrar grupos esféricos; (iii) processamento mais
custoso que o k-médias; (iv) não aplicável à grandes bases de dados, pois o custo de
processamento é alto; (v) mais robusto do que o k-médias na presença de ruídos porque
o medóide é menos influenciado pelos ruídos do que a média.
Uma forma de otimizar o método k-medóide para grandes bases de dados é considerar
uma porção dos dados como uma amostra representativa, e escolher os medóides dessa
amostra.
Capítulo 8
Análise de Séries Temporais
Uma série temporal é uma coleção de observações feitas sequencialmente ao longo
do tempo. A característica mais importante deste tipo de dados é que as observações
vizinhas são dependentes e o interesse é analisar e modelar esta dependência. Enquanto
em modelos de regressão por exemplo a ordem das observações é irrelevante para a análise,
em séries temporais a ordem dos dados é crucial. Vale notar também que o tempo pode
ser substituído por outra variável como espaço, profundidade, etc.
Como a maior parte dos procedimentos estatísticos foi desenvolvida para analisar
observações independentes o estudo de séries temporais requer o uso de técnicas específicas. Algumas características são particulares a este tipo de dados, por exemplo, (i)
observações correlacionadas, (ii) ordem temporal das observações é importante, (iii) presença de tendências e variação sazonal ou cíclica que dificultar a análise, (iv) complicado
fazer seleção de modelos, (v) difícil lidar com observações perdidas e dados discrepantes
devido à natureza sequencial.
Uma série temporal é dita ser contínua quando as observações são feitas continuamente
no tempo ou discreta quando as observações são feitas em tempos específicos, geralmente
equi-espaçados. Note que estes termos não se referem à natureza da variável observada,
que pode assumir valores discretos ou contínuos. Ressaltamos que séries temporais discretas podem surgir da discretização de séries contínuas.
De um modo geral, os principais objetivos em se estudar séries temporais podem ser
os seguintes: (i) descrição: propriedades da série, (ii) explicação: usar a variação em uma
série para explicar a variação em outra série, (iii) predição: predizer valores futuros com
base em valores passados, (iv) controle de processos.
70
71
Neste resumo abordaremos algumas técnicas descritivas e modelos probabilísticos de
Box-Jenkins para séries estacionárias. A ferramenta básica para abordar uma série temporal é a função de autocorrelação.
8.1
Técnicas Descritivas
Ao se analisar uma ou mais séries temporais a representação gráfica dos dados sequencialmente ao longo do tempo é fundamental e pode revelar padrões de comportamento
importantes. Tendências de crescimento (ou decrescimento), padrões cíclicos, alterações
estruturais, observações aberrantes, etc. são muitas vezes facilmente identificados. Sendo
assim, o gráfico temporal deve ser sempre o primeiro passo e antecede qualquer análise.
Outras ferramentas são descritas ao longo desta seção.
8.2
Decomposição Clássica
Muitas das propriedades observadas em uma série temporal Xt podem ser captadas
assumindo-se a seguinte forma de decomposição
Xt = Tt + Ct + Rt
sendo Tt uma componente de tendência, Ct uma componente cíclica ou sazonal e Rt
uma componente aleatória ou ruído (a parte não explicada, que espera-se ser puramente
aleatória). A componente cíclica se repete a cada intervalo fixo s, i.e.
. . . = Ct−2s = Ct−s = Ct = Ct+s = Ct+2s = . . . .
Assim, variações periódicas podem ser captadas por esta componente.
Componente de tendência
Podemos pensar em tendência como uma mudança de longo prazo no nível médio
da série. A dificuldade aqui é definir longo prazo. Procura-se neste caso usar modelos
de regressão para caracterizar o sinal que controla a série. Por exemplo, o modelo de
tendência linear: Tt = α + βt, o modelo de regressão linear simples: Tt = α + βxt e
o modelo de regressão não linear: Tt = 1/(α + βxt ). Seja qual for a curva utilizada, a
72
função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores
observados-valores ajustados) fornecem uma estimativa de flutuações locais.
Outro procedimento para analisar séries com tendência é utilizando filtros, que são
transformações nas séries que removem a componente de tendência. Exemplos de filtros:
filtro linear (converte a série por meio de uma operação linear), alisamento exponencial
(um tipo de filtro linear assimétrico), diferenciação da série.
Componente cíclica ou sazonal
Uma forma bastante simples de eliminar o efeito sazonal é simplesmente tomar médias
sazonais. Por exemplo, em dados mensais com sazonalidade anual, as médias anuais
estarão livres do efeito sazonal. Embora este procedimento esteja correto muitos dados
serão perdidos e ao invés disto pode-se recorrer um filtro.
8.3
Autocorrelação
Uma importante ferramenta para se identificar as propriedades de uma série temporal
consiste de uma série de quantidades chamadas coeficientes de autocorrelação amostral.
O interesse em séries temporais geralmente é analisar a correlação entre as observações
de uma mesma variável em diferentes horizontes de tempo, i.e. correlações entre observações defasadas 1, 2, . . . períodos de tempo. Assim, dadas n observações x1 , . . . , xn−1 e
x2 , . . . , xn de uma série temporal discreta podemos formar os pares (x1 , x2 ), . . . , (xn−1 , xn ).
Considerando x1 , . . . , xn−1 e x2 , . . . , xn como duas variáveis o coeficiente de correlação entre xt e xt+1 é dado por
Pn−1
(xt − x̄1 )(xt+1 − x̄2 )
r1 = qP t=1
,
Pn−1
n−1
2
2
t=1 (xt − x̄1 )
t=1 (xt+1 − x̄2 )
sendo
x̄1 =
n−1
X
t=1
xt /(n − 1) e x̄2 =
n
X
(8.1)
xt /(n − 1).
t=2
Como o coeficiente r1 mede as correlações entre observações sucessivas ele é chamado
de coeficiente de autocorrelação ou coeficiente de correlação serial. É usual simplificar a
P
equação (8.1) utilizando a média de todas as observações, ou seja, x̄ = nt=1 xt /n já que
x̄1 ≈ x̄2 , e assumindo variância constante, temos
Pn−1
t − x̄)(xt+1 − x̄)
t=1 (xP
,
r1 =
(n − 1) nt=1 (xt − x̄)2 /n
73
sendo que alguns autores ainda retiram o termo n/(n − 1) que é próximo de 1 para n não
muito pequeno. Está forma será considerada neste texto.
Assim,
Pn−k
(xt − x̄)(xt+k − x̄)
rk = t=1Pn
2
t=1 (xt − x̄)
fornece o coeficiente de correlação de ordem k. Assim como o coeficiente de correlação
usual, as autocorrelações são adimensionais e −1 < rk < 1.
Na prática é mais usual calcular primeiro os coeficientes de autocovariância {ck },
definidos por analogia com a fórmula usual de covariância, ou seja,
n−k
X
ck =
(xt − x̄)(xt+k − x̄)/n.
t=1
Assim, os coeficientes de autocorrelação são então obtidos como rk = ck /c0 . Esta
função é assintoticamente normalmente distribuída, com média e variância dados por
E(rk ) ≈ −1/n
e
Var(rk ) ≈ 1/n,
os limites de confiança aproximados de 95% frequentemente utilizados são dados por
√
±1, 96 n.
Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é
chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequada do correlograma,
i.e. devemos associar certos padrões do correlograma como determinadas características
de uma série temporal. Esta nem sempre é uma tarefa simples e a seguir são dadas
algumas indicações.
• Séries aleatórias: Para uma série completamente aleatória os valores defasados são
não correlacionados e espera-se que rk = 0.
• Correlação de curto-prazo: Um correlograma desta série deverá exibir um valor
relativamente grande de r1 seguido por valores que tendem a ficar sucessivamente
menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero.
• Correlação negativa: O valor de r1 será negativo enquanto o valor de r2 será positivo
(ou ao contrário) já que as observações defasadas de 2 períodos tendem a estar do
mesmo lado da média.
74
• Séries não estacionárias: Os valores de rk não decairão para zero a não ser em
defasagens grandes.
• Variação sazonal: De forma geral, o correlograma irá exibir oscilações na mesma
frequência da flutuação sazonal.
• Observações discrepantes: O correlograma pode ser seriamente afetado, evidenciando correlação espúria.
8.4
Modelos Probabilísticos
Nesta seção são descritos alguns modelos adequados para dados de séries temporais.
Tais modelos são chamados de processos estocásticos.
Uma série temporal gerada por um processo determinístico é aquela onde é possível
prever exatamente valores futuros a partir de valores passados. Contudo muitos fenômenos
dinâmicos correspondem ao conjunto dos chamados processos estocásticos ou aleatórios
onde valores futuros são apenas parcialmente determinados a partir de valores passados.
Os modelos criados para séries estocásticas são também denominados processos estocásticos.
Em geral um processo estocástico define-se como uma família de variáveis aleatórias
{Xt } = (X1 , X2 , . . . , Xt ) indexadas no tempo. Isto quer dizer que se uma série temporal
{x(t)} = {x1 , x2 , . . . , xt } for gerada pelo processo estocástico {Xt }, o valor x1 é um resultado aleatório que segue a distribuição de probabilidades de X1 , o valor x1 é um resultado
aleatório que segue a distribuição de probabilidades de X2 , e assim sucessivamente.
Uma classe importante de processos estocásticos é os chamados processos estacionários.
Um processo estacionário é aquele onde o sistema se apresenta num estado de equilíbrio
estatístico em torno de um nível médio fixo, ou seja, não apresenta tendência. Isto quer
dizer que o sistema tem propriedades probabilísticas invariantes ao longo do tempo.
De maneira mais rigorosa, um processo estocástico {Xt }, é estritamente estacionário
se a função densidade de probabilidade conjunta da família de variáveis aleatórias do
processo, depende unicamente da localização relativa das variáveis. Isto quer dizer que se
fX1 ,X2 ,...,Xt denota a função densidade de probabilidade conjunta para o processo {Xt },
75
então para que o processo seja considerado estritamente estacionário deve verificar-se que,
fX1+k ,X2+k ,...,Xt+k = fX1 ,X2 ,...,Xt ,
para qualquer k inteiro.
Contudo a estacionaridade no sentido estrito é uma propriedade muito exigente e de
difícil verificação. Uma definição menos exigente de estacionaridade, corresponde a os
processos fracamente estacionários até 2a ordem. Neste caso é apenas necessário que
as funções densidade de probabilidade das variáveis aleatórias possuam características
comuns quando expressas nos termos até 2a ordem.
Isto quer dizer que um processo estocástico {Xt } é fracamente estacionário até 2a
ordem se a sua família de variáveis aleatórias verifica as seguintes propriedades para a
média, variância e covariância,
E(Xk ) = µ,
Var(Xk ) = σ 2
e
Cov(Xk , Xk+1 ) = Cov(X1 , X2 ),
para qualquer k inteiro, sendo necessário que µ e σ 2 sejam valores finitos. Note-se que
a covariância entre duas variáveis consecutivas do processo devem sempre ser iguais a
covariância entre as duas primeiras variáveis do processo.
A seguir são apresentados alguns processos estocásticos que são utilizados com frequência na especificação de modelos para séries temporais.
8.4.1
Sequência Aleatória
Um processo em tempo discreto é chamado puramente aleatório se consiste de uma
sequência de v.a. {Xt } independentes e identicamente distribuídas. Ou seja, a média e a
variância são constantes e
γ(k) = Cov(Xt , Xt+k ) = 0, k = ±1, ∓2, . . . .
Como a média e a função de autocovariância não dependem do tempo o processo é
estacionário em segunda ordem. A função de autocorrelação é simplesmente

 1, k = 0
ρ(k) =
.
 0, k = ±1, ∓2, . . .
Um processo puramente aleatório é as vezes chamado de ruído branco e pode ser útil
por exemplo na construção de processos mais complicados.
76
8.4.2
Passeio Aleatório
Seja {t } um processo discreto puramente aleatório com média µ e variância σ2 . Um
processo {Xt } é chamado de passeio aleatório se
Xt = Xt−1 + t .
Sendo E(Xt ) = tµ e Var(Xt ) = tσ2 , dependem de t. Portanto, este processo é não
estacionário.
No entanto, é interessante notar que a primeira diferença de um passeio aleatório é
estacionário já que
∇Xt = Xt − Xt−1 = t .
8.4.3
Modelos de Box-Jenkins para Séries Estacionárias
Apresentaremos nesta seção os principais modelos de Box-Jenkins para estimação e
previsão de séries temporais. Sendo estes modelos pertencentes a família dos autoregressivosmédias-móveis (ARMA), subdividindo em dois outros modelos: autoregressivo (AR) e
médias-móveis (MA).
Processos de Média Móveis
Seja {t } um processo discreto puramente aleatório com média zero e variância σ2 .
Um processo {Xt } é chamado de processo de médias móveis de ordem q, ou M A(q), se
Xt = t + β1 t−1 + . . . + βq t−q .
(8.2)
Seja Xt um processo M A(1), ou seja,
Xt = t + β1 t−1
Considerando E(t ) = 0, Var(t ) = Cov(t , t ) = σ2 e Cov(t , s ) = 0, t 6= s, provenientes do processo discreto puramente aleatório. A média, variância e autocovariância
de Xt são dados, respectivamente, por
E(Xt ) = E(t ) + β1 E(t−1 ) = 0
Var(Xt ) = Var(t ) + β12 Var(t−1 ) + 2β1 Cov(t , t−1 ) = σ2 + β12 σ2 = σ2 (1 + β12 )
Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + β1 Cov(t , t ) + β12 Cov(t−1 , t+1 ) + β1 Cov(t−1 , t ) = β1 σ2 .
77
Portanto,
ρ(1) =
β1
β1 σ2
=
.
2
2
σ (1 + β1 )
1 + β12
Seja, agora, Xt um processo M A(2), ou seja,
Xt = t + β1 t−1 + β2 t−2
A média, variância e autocovariância de Xt são dados, respectivamente, por
E(Xt ) = E(t ) + β1 E(t−1 ) + β2 E(t−2 ) = 0
Var(Xt ) = Var(t ) + β12 Var(t−1 ) + β22 Var(t−2 ) + 2β1 Cov(t , t−1 ) +
2β1 β2 Cov(t−1 , t−2 ) + 2β2 Cov(t , t−2 )
= σ2 + β12 σ2 + β22 σ2 = σ2 (1 + β12 + β22 )
Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + β1 Cov(t , t ) + β2 Cov(t , t−1 ) + β1 Cov(t−1 , t+1 ) +
β12 Cov(t−1 , t ) + β1 β2 Cov(t−1 , t−1 ) + β2 Cov(t−2 , t+1 )
+β1 β2 Cov(t−2 , t ) + β22 Cov(t−2 , t−1 )
= β1 σ2 + β1 β2 σ2 = σ2 (β1 + β1 β2 ).
Portanto,
ρ(2) =
σ2 (β1 + β1 β2 )
β1 + β1 β2
=
.
2
2
2
σ (1 + β1 + β2 )
1 + β12 + β22
Realizando o mesmo processo para Xt um processo M A(q), temos que E(Xt ) = 0,
Var(Xt ) = (1 + β12 + . . . + βq2 )σ2 e função de autocovariância é dada por



0,
k>q


P
,
γ(k) =
σ2 q−k
j=0 βj βj+k , k = 0, . . . , q




γ(−k)
k<0
sendo β0 = 1.
A função de autocorrelação é dada por



1,
k=0


P
P
k
2
ρ(k) =
.
σ2 q−k
j=0 βj βj+k
j=0 βj , k = 0, . . . , q




γ(−k)
k < 0; k > q
Note que a função tem um ponto de corte na defasagem q, ou seja, ρ(k) = 0 para
k > q. Esta é uma característica específica de processos médias móveis e será útil na
especificação do valor de q na prática.
78
Como a média e a variância são constantes e γ(k) não depende de t o processo é
(fracamente) estacionário para todos os possíveis valores de β1 , β2 , . . . , βq . Em geral é
desejável impor restrições para que eles satisfaçam uma condição de inversibilidade. Esta
condição pode ser melhor expressa ao usar o operador de retardo, denotado por B e
definido como
B j Xt = Xt−j , para todo j.
Assim, (8.2) pode ser escrita como
Xt = (1 + β1 B + β2 B 2 + . . . + βq B q )t = θ(B)t ,
sendo θ(B) um polinômio de ordem q em B. Um processo M A(q) é inversível se as raízes
da equação
θ(B) = 1 + β1 B + β2 B 2 + . . . + βq B q )t = 0
estiverem fora do círculo unitário. Teremos então 2q modelos com a mesma função de
autocorrelação mas somente um deles será inversível.
Processos Autoregressivos
Seja {t } um processo discreto puramente aleatório com média zero e variância σ2 .
Um processo {Xt } é chamado de processo autoregressivo de ordem p, ou AR(p), se
Xt = α1 Xt−1 + . . . , αp Xt−p + t .
(8.3)
Note a similaridade com um modelo de regressão múltipla, onde os valores passados de
Xt fazem o papel das regressoras.
Seja Xt um processo AR(1), ou seja,
Xt = α1 Xt−1 + t
(8.4)
Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado
Xt−1 , Xt não depende de Xt−2 , Xt−3 , . . .. Fazendo substituições sucessivas obtemos que
Xt = α(αXt−2 + t−1 ) = α2 Xt−2 + αt−1 + t
= α2 (αXt−3 + t−2 ) + αt−1 + t
= ...
= α
r+1
Xt−r−1 +
r
X
j=0
αj t−j .
79
2
Se Xt for estacionário com variância finita σX
podemos escrever que
!2
r
X
2
2
E Xt −
αj t−j
= α2r+2 E(Xt−r−1
) = α2r+2 σX
.
j=0
e se |α| < 1 temos que α2r+2 → 0 quando r → ∞. Portanto, esta condição nos permite
escrever Xt como o seguinte processo MA infinito,
Xt = t + αt−1 + α2 t−2 + . . . .
e assim |α| < 1 é uma condição suficiente para que Xt seja estacionário.
Podemos também usar o operador de retardo reescrevendo a equação (8.4) como
(1 − αB)Xt = t
ou equivamentemente
Xt =
1
t = (1 + αB + α2 B 2 + . . .)t = t + αt−1 + α2 t−2 + . . . .
(1 − αB)
Escrevendo o processo AR(1) neste formato de MA infinito fica fácil ver que a sua
média e variância são dados por
E(Xt ) = 0 Var(Xt ) = σ2 (1 + α2 + α4 + . . .) =
σ2
.
1 + α2
A função de autocovariância para |α| < 1 pode-se mostrar que
γ(k) = E(Xt Xt+k ) = αk
σ2
2
= αk σX
.
1 − α2
Portanto, a função de autocorrelação é ρ(k) = αk , k = 0, 1, . . .. Como a média e a variância
são constantes e ρ(k) não depende de t o processo AR(1) com |α| < 1 é estacionário.
Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt
como um processo MA infinito com coeficientes ψ0 , ψ1 , . . ., ou seja,
Xt = φ0 t + ψ1 t−1 + ψ2 t−2 + . . . = (ψ0 + ψ1 Bψ2 B 2 + . . .)t = ψ(B)t
em analogia com o caso AR(1) segue que o processo será estacionário se
P
Usando agora o operador de retardo a equação (8.3) temos
(1 − α1 B − α2 B 2 − . . . − αp B p )Xt = t
ou
e portanto o processo AR(p) pode ser escrito como
Xt = φ(B)−1 t = ψ(B)t .
φ(B)Xt = t
j
ψj2 < ∞.
80
Assim, os coeficientes ψj podem ser obtidos a partir dos coeficientes αj fazendo
(1 − α1 B − α2 B 2 − . . . − αp B p )(φ0 + φ1 B + ψ2 B 2 + . . .) = 1
o efeito de t em Xt+k é dado por ψk , k = 1, 2, . . ..
Para um processo AR(p), o último coeficiente αp mede o excesso de correlação na
defasagem p que não é levado em conta por um modelo AR(p − 1). Este é chamado
de p-ésimo coeficiente de autocorrelação parcial. Assim, variando k = 1, 2, . . . temos a
chamada função de autocorrelação parcial (facp).
Por outro lado, em um processo AR(p) não existe correlação direta entre Xt e Xt−p−1 ,
Xt−p−2 , . . ., que faz com que todos os coeficientes de correlação parcial sejam nulos para
k > p. O fato de que a facp é igual a zero para k > p pode ser usado como uma ferramenta
para determinar a ordem p do processo autoregressivo para séries temporais observadas.
Modelos Mistos ARMA
Combinando-se modelos AR e M A pode-se obter uma representação adequada com
um número menor de parâmetros. Processos autoregressivos médias móveis (ARMA)
formam um classe de modelos muito úteis e parcimoniosos para descrever dados de séries
temporais. O modelo ARM A(p, q) é dado por
Xt = α1 Xt−1 + . . . + αp Xt−p + t + β1 t−1 + . . . + βq t−q ,
sendo {t } um processo puramente aleatório com média zero e variância σ2 .
Note que, modelos AR ou M A podem ser obtidos como casos especiais quando p = 0
ou q = 0. Usando o operador diferença o modelo pode ser reescrito como
(1 − α1 B − α2 B 2 − . . . − αp B p )Xt = (1 + β1 B + β2 B 2 . . . + βq B q )t
ou
φ(B)Xt = θ(B)t .
Os valores de α1 , . . . , αp que tornam o processo estacionário são tais que as raízes de
φ(B) = 0 que estão fora do círculo unitário. Analogamente, os valores de β1 , . . . , βq que
tornam o processo inversível são tais que as raízes de θ(B) = 0 que estão fora do círculo
unitário.
Vale notar que as funções de autocorrelação e autocorrelação parcial são consideravelmente mais complicadas em processos ARM A. De um modo geral, para um processo
81
ARM A(p, q) estacionário a função de autocorrelação tem um decaimento exponencial ou
oscilatório após a defasagem q enquanto que a facp tem o mesmo comportamento após a
defasagem p. Este resultado pode ser utilizado para auxiliar na determinação da ordem
(p, q) do processo, mas na prática pode ser bastante difícil distinguir entre decaimentos
exponenciais e oscilatórios por meio das estimativas destas funções.
8.5
Estimação
Nesta seção é discutido o problema de ajustar um modelo aos dados observados. A
inferência será conduzida via função de autocorrelação.
Para séries estacionárias o correlograma é comparado com as autocorrelações teóricas de vários processos ARM A para auxiliar na identificação daquele mais apropriado.
Por exemplo, se r1 é significativamente diferente de zero e todos os valores subsequentes
r2 , r3 , . . . são próximos de zero então um modelo M A(1) é indicado já que sua função
de autocorrelação teórica se comporta assim. Por outro lado, se r1 , r2 , . . . parecem estar
decaindo exponencialmente então um modelo AR(1) pode ser apropriado.
8.5.1
Ajustando Processos Autoregressivos
Para um processo AR de ordem p com média µ dado por
Xt − µ = α1 (Xt−1 − µ) + . . . , αp (Xt−p − µ) + t
e dadas n observações x1 , x2 , . . . , xn , os parâmetros µ, α1 , . . . , αp podem ser estimados
pelo método de mínimos quadrados, ou seja, minimizando-se a soma de quadrados
n
X
S=
[α1 (xt−1 − µ) + . . . , αp (xt−p − µ)]2
t=p+1
com respeito a µ, α1 , . . . , αp . Note que o somatório é de t = p + 1 em diante, mas esta
pequena perda de informação não é importante se a série não for muito curta. Além disso,
se o processo Xt seguir distribuição normal então as estimativas de mínimos quadrado
coincidem com as estimativas de máxima verossimilhança condicionada nas p primeiras
observações.
Alternativamente, um métodos aproximados podem ser utilizado tomando-se µ̂ = x̄.
Ajustando os dados o modelo
Xt − x̄ = α1 (Xt−1 − x̄) + . . . , αp (Xt−p − x̄) + t
82
como se fosse um modelo de regressão linear múltipla.
8.5.2
Ajustando Processos Médias Móveis
O problema de estimação dos parâmetros em modelos M A é bem mais complicado do
que em modelos AR. Assim, métodos computacionais iterativos precisam ser utilizados
para minimizar a soma de quadrados residual.
Dado um processo M A(q)
Xt = µ + t + β1 t−1 + . . . + βq t−q
e uma série observada x1 , x2 , . . . , xn o procedimento iterativo consiste basicamente em
fixar os valores de µ, β1 , . . . , βq e calcular os resíduos
xt − µ − β1 t−1 − . . . − βq t−q
sequencialmente para t = 1, . . . , n assumindo que 0 = −1 = . . . = −q+1 = 0. Dados
estes resíduos pode-se calcular a soma de quadrados residual. Repetindo este procedimento para µ, β1 , . . . , βq variando em uma grade de pontos pode-se escolher os valores
que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos
eficientes de otimização numérica e nada garante a sua convergência para um mínimo
global.
8.5.3
Ajustando Processos ARMA
Os problemas de estimação para modelos ARM A são similares aqueles para modelos
M A no sentido de que um procedimento iterativo precisa ser utilizado. Portanto os
comentários feitos para o ajuste de processos médias móveis podem ser considerados.
8.6
Adequação do Modelo
Após identificar a ordem e estimar eficientemente os parâmetros de um modelo é
necessário verificar sua adequação antes de utilizá-lo por exemplo para fazer previsões.
Após o ajuste do modelo a uma série temporal deve-se verificar se ele fornece uma
descrição adequada dos dados. Assim como em outros modelos estatísticos a ideia é verificar o comportamento dos resíduos, sendo resíduo = observação - valor ajustado. Além
83
disso, em modelos de séries temporais os resíduos estão ordenados no tempo e é portanto
natural tratá-los também como uma série temporal. É particularmente importante que os
resíduos de um modelo estimado sejam serialmente não correlacionados. Caso contrário,
há evidência falta de ajuste.
Consequentemente, duas maneiras de verificar a adequação do modelo consistem em
representar graficamente os resíduos e o seu correlograma. O gráfico temporal poderá
revelar a presença de dados discrepantes, efeitos de autocorrelação ou padrões cíclicos
enquanto que o correlograma permite uma análise mais detalhada da estrutura de autocorrelação indicando possíveis termos faltantes no modelo.
8.7
Previsão em Modelos ARMA
Uma das formas de utilização de um modelo ajustado é para fazer previsões de valores
futuros. Assim, se t é o período corrente estamos interessados em prever os valores de
Xt+1 , Xt+2 , . . .. A previsão de Xt+k , para k = 1, 2, . . . será denotada por x̂t (k) e é definida
como a esperança condicional de Xt+k dados todos os valores passados, ou seja,
x̂t (k) = E(Xt+k |xt , xt−1 , . . .).
A equação acima é chamada de função de previsão e o inteiro k é chamado de horizonte
de previsão.
Em modelos ARMA as previsões podem ser obtidas usando-se diretamente a equação
do modelo. Assumindo que a equação do modelo seja conhecida a previsão x̂n (k) é obtida
substituindo os valores futuros dos erros por zero, valores futuros da série Xn+1 , Xn+2 , . . .
pela sua esperança condicional, e valores passados de X e de pelos seus valores observados.
No caso de modelos autoregressivos AR(p) a função de previsão é dada por
x̂t (1) = α1 xt + . . . + αp xt−p+1
x̂t (2) = α1 x̂t (1) + . . . + αp xt−p+2
..
.
x̂t (p + 1) = α1 x̂t (p) + . . . + αp x̂t (1).
de modo que as previsões para horizontes maiores do que p usam apenas as previsões
anteriores.
84
No caso de modelos médias móveis ARM A(q) a função de previsão é dada por
x̂t (1) = β1 t + . . . + βq t−q+1
x̂t (2) = β2 t + . . . + βq t−q+2
..
.
x̂t (p + 1) = βq t
x̂t (q + j) = 0, j = 1, 2, . . . .
Capítulo 9
Técnicas de Amostragem
A amostragem é uma técnica estatística naturalmente presente em muitas situações,
no cotidiano das pessoas. Fazer uma amostragem é extrair do todo (população) uma
parte (amostra) com o propósito de avaliar certas características desta população. A
população é o conjunto de objetos, indivíduos ou resultados experimentais dos quais
se pretende estudar alguma característica comum. As populações podem ser finitas ou
infinitas, existentes ou conceptuais. A amostra é uma parte da população que é observada
com o objetivo de obter informação para estudar a característica pretendida.
De maneira geral, existem três situações em que pode não valer a pena a realização
de amostragem: (i) população muito pequena, (ii) característica de fácil mensuração, (iii)
necessidade de alta precisão. Nos demais casos, o uso de amostragem pode ser interessante,
além de fornecer vantagens como: (i) processo mais econômico, (ii) situações que não há
tempo suficiente para pesquisar toda a população, (iii) confiabilidade dos dados (menor
chance de erros), e (iv) operacionalidade.
Veja o exemplo do tempero: ao provar (observar) uma pequena porção de um alimento,
estamos fazendo uma amostragem. Se a amostragem for bem elaborada o tempero da
parte provada será semelhante ao todo, permitindo produzir conclusões eficientes sobre o
tempero do alimento.
Assim, introduzimos intuitivamente a necessidade da representatividade da amostra,
ou seja, a menos de certas pequenas discrepâncias inerentes à aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as
mesmas características básicas da população, no que diz respeito à(s) variável(is) que
desejamos pesquisar.
85
86
Ao realizar uma amostra, devemos elaborar um plano de amostragem envolvendo a
definição da unidade de amostragem, a forma de seleção dos elementos da população e o
tamanho da amostra. A unidade de amostragem é a unidade a ser selecionada para se
chegar aos elementos da população. Tais unidades podem ser os próprios elementos da
população, ou outros, mais fáceis de serem selecionados e que, de alguma forma estejam
associados aos elementos da população. A seleção dos elementos que irão fazer parte
da amostra pode ser feita de diversas maneiras, contudo vamos somente considerar a
amostragem probabilística, ou seja, um plano de amostragem em que cada elemento da
população tem uma probabilidade conhecida de ser incluído na amostra.
9.1
Técnicas de amostragem probabilística
A seguir iremos descrever algumas técnicas de amostragem probabilística para populações finitas e explicitar o cálculo do tamanho amostral para a média de uma população.
Dos vários tipos de planeamento disponíveis na literatura, destacamos a amostragem
aleatória simples (AAS) com e sem reposição e a amostragem estratificada. Mencionamos
a ideia de amostragem por conglomerados e amostragem sistemática.
9.1.1
Amostragem Aleatória Simples
A amostragem aleatória simples é o tipo de amostragem probabilística mais simples e
mais importante para a seleção de uma amostra. Ele pode ser caracterizado por meio da
definição operacional: De uma lista com N unidades amostrais, seleciona-se sequencialmente n unidades amostrais, de forma que cada amostra tenha a mesma chance de ser
escolhida. Este processo pode ser executado considerando a reposição ou não da unidade
amostral na população, dando origem a AAS com reposição e AAS sem reposição, respectivamente.
A AAS sem reposição é mais interessante em termos práticos pois satisfaz o princípio intuitivo de que não ganhamos mais informação se uma mesma unidade aparece na
amostra mais de uma vez. Por outro lado, a AAS com reposição introduz vantagens
matemáticas e estatísticas, como a independência entre as unidades sorteadas, que facilita a determinação das propriedades dos estimadores das quantidades populacionais de
interesse.
87
9.1.2
AAS com reposição
No processo de sorteio sequencial, após a amostra ter sido retirada ela é devolvida
(reposição) para a população antes que a próxima unidade amostrada seja selecionada.
Neste processo a variável fi , número de vezes que a unidade i aparece na amostra,
segue uma distribuição Bin(n, 1/N ). Logo,
n n
1−
,
N
N
0 n
n
n
1
1
1
= P (fi 6= 0) = 1 − P (fi 6= 1) = 1 −
1−
=1− 1−
0
N
N
N
n
n
2
1
+1−2 1−
.
= P (fi 6= 0 ∩ fj 6= 0) = 1 − P (fi 6= 1 ∪ fj 6= 1) = 1 − 2 1 −
N
N
E(fi ) =
πi
πij
n
,
N
Var(fi ) =
Como cada tentativa tentativa é independente e cada um dos N elementos da população tem mesma probabilidade de ser selecionado 1/N . Caracteriza para a (f1 , f2 , . . . , fn )
a distribuição multinomial com parâmetros (n, 1/N, . . . , 1/N ), logo
Cov(fi , fj ) = −n
n
1 1
= − 2.
NN
N
Considere agora os seguintes estimadores populacionais e amostrais:
Populacional
função
P
τ= N
i=1 Yi
P
µ = Ȳ = N1 N
i=1 Yi
P
2
σ 2 = N1 N
i=1 (Yi − µ)
P
2
S 2 = N1−1 N
i=1 (Yi − µ)
Amostral
função
esperança
variância
T = N ȳ
P
ȳ = n1 ni=1 yi
Pn
1
2
s2 = n−1
i=1 (yi − ȳ)
E(T ) = τ
Var(T ) = N 2 σ 2 /n
E(ȳ) = µ
Var(ȳ) = σ 2 /n
E(s2 ) = σ 2
A medida que o tamanho da amostra aumenta, as distribuições de ȳ e T vão se
aproximando a distribuição normal, de acordo com Teorema Central do Limite (TCL),
tanto para o caso AAS com reposição quando para AAS sem reposição. Para n grande
temos, para AAS com reposição
ȳ − µ
p
≈a N (0, 1)
2
σ /n
e
T −τ
p
≈a N (0, 1),
2
2
N σ /n
sendo que N (0, 1) denota a distribuição normal padrão. Estes resultados assintóticos
possibilitam obter intervalos de confiança aproximados ȳ e T , ou seja,
!
|ȳ − µ|
P p
≤ zα ∼
= 1 − α,
2
σ /n
88
sendo zα o quantil da distribuição N (0, 1) que deixa uma área no intervalo (−zα , zα )
uma área de (1 − α). Desta construção, podemos obter um tamanho de amostra para o
estimador ȳ quando n é grande
n=
σ2
.
(B/zα )2
Contudo, para obter o tamanho da amostra é necessário fixar o erro máximo desejado
p
(B = zα σ 2 /n), com algum grau de confiança (1 − α) e conhecimento a priori sobre a
variabilidade da população (σ 2 ). Amostra piloto pode ser útil para estimar σ 2 .
De forma, muito similar podemos obter o tamanho amostral para o total populacional.
No caso em que o interesse é uma proporção, o resultado assintótico de aproximação da
distribuição binomial a distribuição normal pode ser usado para n grande e a solução
pode ser obtida de forma análoga.
9.1.3
AAS sem reposição
No processo de sorteio sequencial, após a amostra ter sido retirada ela não é devolvida
(sem reposição) para a população antes que a próxima unidade amostrada seja selecionada.
Neste processo a variável fi , número de vezes que a unidade i aparece na amostra,
segue uma distribuição Bin(1, n/N ). Logo,
n n
n N −n
1−
, Cov(fi , fj ) = − 2
,
N
N
N N −1
n
= P (fi =
6 0) = 1 − P (fi 6= 1) = ,
N
n n−1
.
= P (fi 6= 0 ∩ fj 6= 0) = 1 − P (fi 6= 1 ∪ fj 6= 1) =
N N −1
E(fi ) =
πi
πij
n
,
N
Var(fi ) =
Considere agora os seguintes estimadores populacionais e amostrais:
Populacional
função
P
τ= N
i=1 Yi
P
µ = Ȳ = N1 N
i=1 Yi
P
2
σ 2 = N1 N
i=1 (Yi − µ)
P
2
S 2 = N1−1 N
i=1 (Yi − µ)
Amostral
função
esperança
variância
T = N ȳ
P
ȳ = n1 ni=1 yi
Pn
1
2
s2 = n−1
i=1 (yi − ȳ)
Pn
1
2
s2 = n−1
i=1 (yi − ȳ)
E(T ) = τ
Var(T ) = N 2 (1 − n/N )S 2 /n
E(ȳ) = µ
Var(ȳ) = (1 − n/N )S 2 /n
E(s2 ) = σ 2
E(s2 ) = S 2
Todos os resultados apresentados para AAS com reposição são equivalentes para AAS
sem reposição, exceto pelo expressão correspondente a variância amostral que devemos
89
considerar a seguinte relação
(1 − n/N )
S2
S2
S2
=
= 0.
n
n/(1 − n/N )
n
Se tivéssemos que optar por AAS com ou sem reposição para estimar a média de uma
população, deveríamos optar por AAS sem reposição, pois o efeito de planejamento (razão
entre variâncias do estimador amostral) indica a AAS sem reposição como a melhor opção
para n ≥ 1 e equivalentes para n = 1.
9.1.4
Amostragem estratificada
No caso da AAS com reposição vimos que Var(ȳ) = σ 2 /n. Ao aumentar o tamanho da
amostra, o erro padrão diminui. Se a população é muito heterogênea e as razões de custo
limitam o aumento da amostra, torna-se impossível definir uma AAS com reposição da
população com uma precisão razoável. Uma saída é subdividir a população em subpopulações internamente mais homogêneas. A técnica de que envolve dividir a população em
subgrupos é a amostragem estratificada. Estes estratos devem ser internamente mais homogêneos que a população toda, com respeito às variáveis em estudo (sexo, renda, bairro,
por exemplo). Sobre os diversos estratos da população, são realizadas AAS. A amostra
completa é obtida através da junção das amostras de cada estrato. A amostragem estratificada é útil na melhoria da precisão das estimativas e ao produzir estimativas para a
população toda e subpopulações.
A execução de um plano amostral estratificado exige os seguintes passos:
1. Divisão da população em subpopulações bem definidas (estratos).
2. Retira-se uma amostra de cada estrato, usalmente independente (AAS com reposição).
3. Em cada amostra usa-se os estimadores convenientes para os parâmetros do estrato.
4. Monta-se para a população um estimador combinando os estimadores de cada estrato.
Daremos ênfase a amostragem estratificada proporcional, que é um caso particular
de amostragem estratificada. Aqui a proporcionalidade do tamanho de cada estrato da
população é mantida na amostra. Isto garante que cada elemento da população tenha a
mesma probabilidade de pertencer a amostra.
90
Neste caso, o total populacional
τes =
H
X
τh =
h=1
Nh
H X
X
Yhi ,
h=1 i=1
sendo τh o total da população no estrato h, com h = 1, . . . , H e Nh o número de elementos
P
da população dentro do estrato h. Considere o estimador T = H
h=1 Nh ȳh , com E(T ) = τes
PH
e Var(T ) = h=1 Nh2 VarA (ȳh ), sendo que A indica a um plano amostral A.
A média populacional
H Nh
H
H
X
τes
1 XX
1 X
=
Yhi =
Nh µh =
W h µh ,
µes =
N
N h=1 i=1
N h=1
i=1
sendo µh a média populacional no estrato h, com h = 1, . . . , H, Wh = Nh /N o peso do
P
PH
PH
1
estrato h, com H
h=1 Nh ȳh =
h=1 Wh ȳh ,
h=1 Wh = 1. Considere o estimador ȳes = N
PH
com E(ȳes ) = µes e Var(ȳes ) = h=1 Wh2 VarA (ȳh ).
2
Seja a variância populacional σes
= σd2 + σe2 , com
σd2 =
H
X
Wh σh2 ,
e
σe2 =
h=1
H
X
Wh (µh − µes )2 ,
h=1
sendo σd2 a variância dos estratos (dentro) e σe2 a variância entre os estratos.
Para a expressão S 2 , temos
2
Ses
=
H
X
Nh − 1
h=1
N −1
Sh2
H
X
Nh
+
(µh − µes )2 .
N
−
1
h=1
Convém observar que quando todos os estratos têm a mesma média, ou seja, µh = µ, h =
1, . . . , H a variância populacional coincide com σd2 .
A distribuição das n amostras pelos estratos chamá-se de alocação amostral. Esse
procedimento que irá garantir a precisão. É importante considerar que para estratos com
maior variância um número maior de amostras seja designado. Porém, deve haver um
balanceamento com o tamanho do estrato. Para uma alocação proporcional n é distribuído
da seguinte maneira
nh = nWh = n
Nh
.
N
Este caso também é chamado de amostra representativa. Para esta alocação da amostra
temos que ȳes = ȳ.
Analogamente ao processo apresentado para AAS com reposição, ȳes e τes seguem
assintoticamente distribuição normal. Portanto, usando a mesma sequencia podemos
obter o tamanho amostral quando o interesse são a média e o total populacional.
91
9.1.5
Amostragem de conglomerados
Os planos amostrais vistos até agora sorteavam unidades amostrais diretamente da
população ou de estratos desta mesma população. Quando os sistemas de referência não
são adequados e o custo de atualizá-los é muito elevado, ou ainda quando movimentação
para identificar as unidades amostrais é cara e consome muito tempo, a tarefa amostral
pode ser facilitada ao selecionar grupos de unidades amostrais (conglomerados). Uma
das inconveniências deste método é que as unidades, dentro de um mesmo conglomerado,
tendem a ter valores parecidos em relação às variáveis pesquisadas.
Existem duas formas de proceder na amostragem por conglomerados, a amostragem
por conglomerados em um estágio e amostragem por conglomerados em dois estágio. Na
primeira a população é dividida em subpopulações (conglomerados) distintas (quarteirão,
família, bairro). Alguns conglomerados são selecionado segundo um AAS e todos os elementos nos conglomerados observados são amostrados. Em geral, é menos eficiente que
AAS e a amostragem estratificada, mas é mais econômica. Na segunda a população é dividida em subpopulações, em um primeiro estágio algumas subpopulações são selecionadas
usando AAS, e num segundo estágio uma amostra de unidades é selecionada de cada
subpopulação selecionada no primeiro estágio.
A amostragem estratificada e a amostragem por conglomerados em um estágio podem
ser consideradas, para certas finalidades, como casos particulares da amostragem por
conglomerados em dois estágios.
9.1.6
Amostragem sistemática
Quando existe uma listagem de indivíduos da população, pode-se sortear, um nome entre os dez primeiros e posteriormente selecionar o décimo indivíduo iniciando no primeiro
sorteado. A seleção do primeiro indivíduo pode ser feita usando AAS. Os demais indivíduos, que irão compor a amostra, são então selecionados sistematicamente.
9.2
Tamanho da amostra mínimo
As formas mencionadas de cálculo de tamanho amostral envolvem a natureza do
parâmetro populacional de interesse e a normalidade assintótica do estimador deste parâmetro.
No entanto, alguns autores citam como obter uma amostra miníma baseada na seguinte
92
expressão
n=
N n0
,
N + n0
sendo n0 =
1
,
E02
ou seja, n minimo é uma função somente do tamanho populacional N e de n0 , sendo
n0 é uma primeira aproximação para o tamanho da amostra envolvendo apenas o erro
amostral tolerável.
9.3
Erros amostrais e Erros Não Amostrais
O Erro amostral ou variabilidade amostral é a diferença entre a estimativa da amostra
e o parâmetro da população.
Decorre da própria noção de amostra. Quando se recolhe uma amostra, alguma coisa
se perde da população de onde foi retirada, pelo que, embora cuidadosamente recolhida,
uma amostra pode não ser representativa da população. Do mesmo modo, não se pode
esperar que duas amostras, independentemente retiradas da mesma população, forneçam
resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra não
é uma perfeita representação da população, os resultados que ela fornece são de alguma
forma errados.
O erro amostral pode ser controlável com ações do tipo:
• Técnica de amostragem - optando por aquela que, no caso concreto, se revela mais
eficiente; mediante a escolha de um processo de amostragem aleatório e do aumento
do tamanho da amostra, pode-se assegurar a representatividade e associar os resultados com grau de confiança elevado.
• Estimadores - optando por aquele que seja mais eficiente, isto é, com menor variabilidade.
O erro amostral é um erro aleatório, pois as estimativas comportam-se aleatoriamente
em torno do verdadeiro valor do parâmetro. Ou seja, não coincidem com o parâmetro,
estando umas estimativas acima e outras abaixo deste, mas concentram-se em torno de
um valor central que coincide com o verdadeiro valor do parâmetro.
O erros não amostrais envolvem (i) definição errada do problema de pesquisa, (ii)
definição errada da população de pesquisa, (iii) definição parcial da população de pesquisa,
(iv) falta de respostas, (v) instrumentos de coleta de dados inadequados, (vi) anotação
93
errada dos entrevistadores, (vii) erro no processamento, (viii) processos de amostragens
não probabilísticos.