RESUMOS TÓPICOS Sumário 1 Modelos Probabilísticos Discretos 1 1.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5 Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . 8 1.6 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Modelos Probabilísticos Contínuos 12 2.1 Distribuição Uniforme Contínua . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Distribuição Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 2.2.1 Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.3 Distribuição Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.1 Distribuição log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.5 Distribuição F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.1 Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 21 3 Estimação Intervalar 22 3.1 Probabilidade de Cobertura e Comprimento . . . . . . . . . . . . . . . . . 23 3.2 Funções Pivotais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3 Inversão da estatística de teste . . . . . . . . . . . . . . . . . . . . . . . . . 29 i ii 4 Teste de Hipóteses 32 4.1 Teste da Razão de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . 33 4.2 Probabilidade de erro e Função poder . . . . . . . . . . . . . . . . . . . . . 35 4.3 Teste mais poderoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.4 P-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5 Análise de Regressão Logística 41 5.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.2 Função de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.2.1 Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 43 5.2.2 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3 Função Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.4 Teste de Hipóteses Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.5 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6 Análise Discriminante 48 6.1 Regra Discriminante de Máxima Verossimilhança . . . . . . . . . . . . . . 49 6.2 Regra Discriminante de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.3 Classificação com diferentes matrizes de covariância . . . . . . . . . . . . . 53 6.4 Regra de Discriminação na Prática . . . . . . . . . . . . . . . . . . . . . . 53 6.5 Função Discriminante Linear de Fisher . . . . . . . . . . . . . . . . . . . . 54 6.6 Desempenho de uma função discriminante . . . . . . . . . . . . . . . . . . 57 6.7 Diferença entre Análise Discriminante e Análise de Cluster . . . . . . . . . 58 7 Análise de Agrupamentos (Conglomerados ou Cluster) 59 7.1 O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.2 A proximidade entre objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.3 7.2.1 Similaridade de objetos com estrutura binária . . . . . . . . . . . . 61 7.2.2 Medidas de distância para variáveis contínuas . . . . . . . . . . . . 62 Algoritmos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 7.3.1 Algoritmos hierárquicos, Técnicas aglomerativas . . . . . . . . . . . 64 7.3.2 Algoritmos de Particionamento . . . . . . . . . . . . . . . . . . . . 68 iii 8 Análise de Séries Temporais 70 8.1 Técnicas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 8.2 Decomposição Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 8.3 Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 8.4 Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 8.5 8.4.1 Sequência Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 8.4.2 Passeio Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 8.4.3 Modelos de Box-Jenkins para Séries Estacionárias . . . . . . . . . . 76 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 8.5.1 Ajustando Processos Autoregressivos . . . . . . . . . . . . . . . . . 81 8.5.2 Ajustando Processos Médias Móveis . . . . . . . . . . . . . . . . . . 82 8.5.3 Ajustando Processos ARMA . . . . . . . . . . . . . . . . . . . . . . 82 8.6 Adequação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 8.7 Previsão em Modelos ARMA 9 Técnicas de Amostragem 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . 83 85 Técnicas de amostragem probabilística . . . . . . . . . . . . . . . . . . . . 86 9.1.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . 86 9.1.2 AAS com reposição . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 9.1.3 AAS sem reposição . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 9.1.4 Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . 89 9.1.5 Amostragem de conglomerados . . . . . . . . . . . . . . . . . . . . 91 9.1.6 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . 91 9.2 Tamanho da amostra mínimo . . . . . . . . . . . . . . . . . . . . . . . . . 91 9.3 Erros amostrais e Erros Não Amostrais . . . . . . . . . . . . . . . . . . . . 92 Capítulo 1 Modelos Probabilísticos Discretos Inicialmente, considere a terna (Ω, F, P ), onde Ω é o espaço amostral que representa o conjunto de possíveis resultados para um experimento aleatório, F é a σ-álgebra que representa todos os possíveis eventos compostos e P é a medida de probabilidade que atribui um valor entre 0 e 1 para cada evento. Uma variável aleatória (v.a.) X é uma função do espaço amostral Ω na reta <, tal que X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F, para todo I ∈ <. Suponha que estamos interessados apenas em variáveis aleatórias X discretas, ou seja, somente as v.a. que a variação de X, o espaço amostral, é contável. Em situações mais comuns, a variável aleatória assume valores inteiros. Uma função de probabilidade de uma v.a. discreta é uma função que atribui probabilidade a cada possível valor assumido por X, ou seja, p(xi ) = P (X = xi ) = P ({ω ∈ Ω : X(ω) = xi }). Em palavras, a probabilidade da variável aleatória X possuir valor xi é a probabilidade do evento descrito por {ω ∈ Ω : X(ω) = xi }, ou seja, é a probabilidade dos pontos do espaço amostral ω nos quais a função X(ω), que define a variável aleatória, tem valor xi . P Esta função satisfaz: (i) 0 ≤ p(xi ) ≤ 1, para todo i, e (ii) i∈I p(xi ) = 1, I indica um certo conjunto de índices. Funções de probabilidade são utilizadas para modelar populações. Geralmente tratamos de famílias de modelos probabilísticos indexadas por um ou mais parâmetros, os quais permitem variar características do modelo dentro de sua forma funcional. O objetivo deste tópico é apresentar os modelos probabilísticos discretos mais comuns, aplicações típicas e algumas relações úteis, além disso explorar algumas características destes modelos, como 1 2 a média, a variância e a função geradora de momentos (fgm). Inicialmente, considere de forma geral a definição do momento de ordem k e da função geradora de momentos para uma v.a. discreta E(X k ) = X xki P (X = xi ) i e MX (t) = E(etX ) = X etxi P (X = xi ). i Logo, a esperança e a variância podem ser obtidas usando E(X) = X xi P (X = xi ) e V ar(X) = E(X 2 ) − E(X). i 1.1 Distribuição Uniforme Discreta Uma v.a. X segue uma distribuição uniforme discreta com parâmetro N se P (X = x|N ) = 1 , x = 1, 2, . . . , N. N sendo N um específico valor inteiro. Esta distribuição atribuí massa igual em cada um dos possíveis valores 1, 2, . . . , N . Notação: Observe que a distribuição depende dos valores do parâmetro. Para enfatizar esta dependência, denotamos na função de probabilidade por “|” (dado) os parâmetros envolvidos na distribuição. Quando não existe possibilidade de confundimento, esta notação é omitida. A média e variância de uma v.a. X seguindo distribuição uniforme discreta, denotados por E(X) e Var(X) respectivamente, são dadas por N 1 N (N + 1) 1 X N +1 x= = . E(X) = xP (X = x|N ) = N x=1 N 2 2 x=1 N X Como N X N 1 X 2 (N + 1)(2N + 1) E(X ) = x = , x P (X = x|N ) = N x=1 6 x=1 2 2 então (N + 1)(2N + 1) − Var(X) = E(X ) − E(X) = 6 2 2 N +1 2 2 = (N + 1)(N − 1) . 12 A função geradora de momentos de X é dada por N 1 X tx et (1 − e(N +1) ) MX (t) = E(e ) = e = , t 6= 0. N x=0 N (1 − et ) tX 3 Este modelo não necessariamente precisa assumir x = 1, 2, . . . , N , pode ser redefinido para qualquer conjunto finito de valores. 1.2 Distribuição Hipergeométrica A distribuição hipergeométrica tem muita aplicação em amostragem de população finita. Ela é mais facilmente entendida com um clássico exemplo de modelo de urna. Suponha que temos uma grande urna com N bolas, que são idênticas em sua forma exceto pelo fato de que M são vermelhas e N − M são verdes. Ao retirar K bolas aleatoriamente da urna, sem reposição. Qual é a probabilidade de retirar exatamente x bolas vermelhas. N O total amostrado é de K bolas que podem ser retiradas das N bolas como K . Nós queremos que x bolas sejam vermelhas, isso pode ser obtido de M formas, sendo x N −M formas de encontrar a amostra com K − x bolas verdes. Então se X denota o K−x número de bolas vermelhas na amostra de tamanho K, então X segue uma distribuição hipergeométrica dada por M x P (X = x|N, M, K) = N −M K−x N K , x = 0, 1, . . . , K. Note que existe implicitamente a suposição da varição de X, X está restrito a M −(N K) ≤ x ≤ M . Em muitos casos K é pequeno se comparado com M e N . A média e variância de uma v.a. X seguindo distribuição hipergeométrica são dadas por E(X) = K X xP (X = x|N, M, K) = x=0 N X x=1 x M x N −M K−x N K = KM . N e KM Var(X) = N (N − M )(N − K) N (N − 1) . O cálculo de E(X) envolve reescrever está esperança em uma distribuição hipergeométrica com diferentes valores dos parâmetros. A função geradora de momentos de X é dada por N M N −M N −M X F (−K, −M, N − M − K + 1, et ) MX (t) = E(etX ) = = K etx x NK−x N x=0 K em que F (a, b, c, x) = 1 + K ∞ X i=0 (a + i)!(b + i)!c! xi+1 . i!(a − 1)!(b − 1)!(c + i)! 4 Exemplo: A distribuição hipergeométrica tem aplicação em amostragem de aceitação, como ilustrado neste exemplo. Suponha que um varejista compra produtos em lotes e cada item pode ser aceitável ou defeituoso. Seja, N o número de item no lote e M o número de itens defeituosos no lote. Então, nós podemos calcular a probabilidade que uma amostra de tamanho K contenha x itens defeituosos. Para ser específico, suponha tenha 25 itens, sendo que o item é considerado aceitável apenas se ele passa pela tolerância. Ao amostrar 10 itens, nenhum item defeituoso foi encontrado. Qual é a probabilidade desse evento, se existem 6 defeituosos no lote de 25 itens? Aplicando a distribuição hipergeométrica com N = 25, M = 6, K = 10, temos 6 19 P (X = 0) = 0 10 25 10 = 0, 028, mostrando que nosso evento observado é bastante improvável se exitem 6 itens defeituosos no lote. 1.3 Distribuição Binomial A distribuição binomial, uma das mais úteis distribuições discretas, está baseada na ideia de ensaios de Bernoulli. Um ensaio de Bernoulli é um experimento com dois, apenas dois, possíveis valores. Uma variável aleatória X segue uma distribuição de Bernoulli se 1 X= 0 com probabilidade p , 0 ≤ p ≤ 1. com probabilidade (1 − p) O valor X = 1 é frequentemente denominado sucesso e p se refere a probabilidade de sucesso. O valor X = 0 é denominado fracasso. A média e variância de uma v.a. B(p) são E(X) = 1 X xP (X = x|p) = 1p + 0(1 − p) = p, x=0 e 2 E(X ) = 1 X x2 P (X = x|p) = 12 p + 02 (1 − p) = p. x=0 com Var(X) = E(X 2 ) − E(X)2 = p − p2 = p(1 − p). Muitos experimentos são modelados como uma sequencia de eventos de Bernoulli. Se n ensaios de Bernoulli idênticos são realizados, definimos os eventos Ai = {X = 1 no i-ésimo ensaio}, i = 1, . . . , n. 5 Se assumirmos que os eventos A1 , A2 , . . . , An são coleções de eventos independentes, então a distribuição binomial é derivada do número total de sucessos nos n ensaios. Definimos a v.a. binomial como sendo Y igual ao total do sucesso em n ensaios de Bernoulli. O evento {Y = y} ocorrerá se apenas, fora dos eventos A1 , A2 , . . . , An , exatamente y deles ocorrem, e necessariamente n − y deles não ocorrem. Uma particular sequência A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ An−1 ∩ Acn de n ensaios de Bernoulli fornece a probabilidade de ocorrência P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ An−1 ∩ Acn ) = pp(1 − p) . . . p(1 − p) = py (1 − p)n−y , a independência dos Ai s foi utilizada no cálculo. Note que o cálculo não depende de qual conjunto de Ai s ocorrem, apenas que algum conjunto de y ocorre. Entretanto, o evento {Y = y} ocorrerá independentemente de qual dos Ai s ocorrem. Assim, vemos que uma particular sequência de n ensaios com exatamente y sucessos tem probabilidade py (1 − p)n−y de ocorrência. Como existem ny sequências, temos n y P (Y = y|n, p) = p (1 − p)n−y , y = 0, 1, . . . , n, y e Y é chamada v.a. Bin(n, p). Alternativamente Y pode ser definido da seguinte forma: Em uma sequência idêntica de n, ensaios de Bernoulli independentes, cada ensaio com probabilidade de sucesso p, definimos a v.a. X1 , X2 , . . . , Xn por 1 com probabilidade p Xi = , 0 ≤ p ≤ 1. 0 com probabilidade (1 − p) P A v.a. Y = ni=1 Xi segue distribuição binomial com parâmetros n e p. A média e variância de uma v.a. Y seguindo distribuição binomial são dadas por n n X X n y E(Y ) = yP (Y = y|n, p) = y p (1 − p)n−y = np, y y=0 y=0 e n X n X n y E(Y ) = y P (Y = y|n, p) = y p (1 − p)n−y = n(n − 1)p2 + np y y=0 y=0 2 2 2 com Var(Y ) = E(X 2 ) − E(X)2 = n(n − 1)p2 + np − n2 p2 = np(1 − p). A função geradora de momentos de Y é dada por n n X X n tY ty n y n−y MY (t) = E(e ) = e p (1 − p) = (et p)y (1 − p)n−y = (pet + 1 − p)n . y y y=0 y=0 6 Exemplo: Suponha que temos interesse em obter a probabilidade de se obter pelo menos um 6 em quatro lançamentos de um dado. Este experimento pode ser modelado como uma sequência de 4 ensaios de Bernoulli com probabilidade de sucesso p = 1/6 (dado justo). Definimos a v.a. X por X : número total de 6 em 4 lançamentos. Então, X ∼ Bin(4, 1/6) e 0 4 4 1 5 P (pelo menos um 6) = P (X > 0) = 1 − P (X = 0) = 1 − = 0, 518. 0 6 6 1.4 Distribuição de Poisson Uma distribuição discreta amplamente utilizada e pode servir como um modelo para o número de diferentes tipos de experimentos. Por exemplo, se modelamos um fenômeno no qual temos que esperar por uma ocorrência (esperar um ônibus, esperar por cliente chegando a um banco), o número de ocorrências pode ser algumas vezes modelado pela distribuição de poisson. Uma das suposições básicas na qual a distribuição de poisson está baseada é que, para intervalos pequenos de tempo, a probabilidade de uma chegada é proporcional ao tempo de espera. Isso torna o modelo razoável para situações como citada acima. A distribuição de poisson tem apenas um parâmetro λ, algumas vezes chamado de parâmetro de intensidade. A v.a. X, assumindo valores inteiros não negativos, segue uma Po(λ) se e−λ λx P (X = x|λ) = . x! A média e variância de uma v.a. X seguindo distribuição poisson são dadas por E(X) = ∞ X xP (X = x|λ) = x=0 e 2 E(X ) = ∞ X ∞ ∞ X X e−λ λx e−λ λx − 1 x = λe−λ = λ, x! (x − 1)! x=0 x=1 2 x P (X = x|λ) = x=0 ∞ X x=0 xx e−λ λx , x! substituindo s = x − 1 e x = s + 1, temos # "∞ ∞ ∞ −λ s −λ s −λ s+1 X X e−λ λs X e λ e λ e λ E(X 2 ) = (s + 1) =λ (s + 1) =λ s + = λ2 + λ s! s! s! s! x=1 x=1 x=1 x=1 ∞ X com Var(X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ. 7 Portanto a média e variância da poisson são iguais. A função geradora de momentos de X é dada por MX (t) = E(etX ) = ∞ X x=0 etx ∞ X (λet )x e−λ λx t = e−λ = e−λ(e −1) . x! x! x=0 Exemplo: Como um exemplo uma aplicação de espera para ocorrência, considere um telefonista que, na média, recebe 5 ligações a cada 3 minutos. Qual é a probabilidade de não receber ligações no próximo minuto? Seja X ∼ Po(5/3). Então, 5 0 5 e− 3 35 P (nenhuma ligação no próximo minuto) = P (X = 0) = = e− 3 = 0, 189. 0! Calcular as probabilidade da distribuição de poisson podem ser rápidas utilizando a seguinte relação recursiva: P (X = x) = λ P (X = x − 1), x = 1, 2, . . . . x (1.1) Uma relação similar vale para outra distribuição discreta. Por exemplo, se Y ∼ Bin(n, p), então P (Y = y) = n−y+1 p P (Y = y − 1). y 1−p (1.2) As relações recursivas (1.1) e (1.2) podem ser utilizadas para estabelecer a aproximação da distribuição poisson a distribuição binomial. Seja λ = np e, se p é pequeno, podemos escrever n−y+1 p np − p(y − 1) λ = ≈ , y 1−p y − py y então, para p pequeno p(y−1) e py podem ser ignorados. Portanto, para esta aproximação (1.2) se torna P (Y = y) = λ P (Y = y − 1), y (1.3) que é uma relação recursiva poisson. Para completar a aproximação, precisamos estabelecer que P (X = 0) ≈ P (Y = 0), desde que todas as outras probabilidades seguem de (1.3). Agora, n np n λ P (Y = 0) = (1 − p) = 1 − = 1− ≈ e−λ = P (X = 0). n n |{z} n n→∞ A aproximação é válida quando n é grande e p é pequeno. Exemplo: Um compositor, na média, comete um erro a cada 500 palavras. Uma página geralmente contem 300 palavras. Qual é a probabilidade de existir não mais de 2 erros em 8 5 páginas? Se assumirmos que cada palavra é um ensaio de Bernoulli com probabilidade de sucesso p = 1/500 e que os ensaios são independentes, então X: o número de erros em 5 páginas é uma Bin(1500, 1/500). Então, x 1500−x 2 X 1500 1 499 P (não mais que 2 erros) = P (X ≤ 2) = = 0, 4230. x 500 500 x=0 Se usamos a aproximação poisson com λ = 1500(1/500) = 3, temos 32 −3 1+3+ P (X ≤ 2) ≈ e = 0, 4232. 2 1.5 Distribuição Binomial Negativa A distribuição binomial conta o número de sucesso em um número fixo de ensaios de Bernoulli. Suponha que, ao invés disso, o interesse seja contar o número de ensaios de Bernoulli necessários para se obter um número de sucessos fixo. Está última formulação gera a distribuição binomial negativa. Em uma sequência de ensaios de B(p) independentes, seja a v.a. X que denota o número de ensaios até a ocorrência do r-ésimo sucesso, sendo r um número fixo inteiro. Então, x−1 r P (X = x|r, p) = p (1 − p)x−r , x = r, r + 1, . . . , r−1 (1.4) e dizemos que X ∼ BN(r, p). A derivação de (1.4) segue diretamente da distribuição binomial. O evento {X = x} pode ocorre apenas se existir r −1 sucessos nos primeiros x−1 ensaios e um sucessos no x r−1 ésimo ensaio. A probabilidade dos r − 1 sucessos nos primeiros x − 1 ensaios x−1 p (1 − r−1 p)x−r , e com probabilidade p existe um sucesso no x-ésimo ensaio. Multiplicando estas probabilidades obtemos (1.4). A distribuição binomial negativa é algumas vezes definida em função da v.a. Y : número de falhas antes do r-ésimo sucesso. Esta formulação é estatisticamente equivalente à dada acima em termos de X: ensaios até a ocorrência do r-ésimo sucesso. Então, Y = X − r. Usando a relação entre Y e X, a forma alternativa da distribuição binomial negativa é r+y−1 r P (Y = y|r, p) = p (1 − p)y , y = 0, 1, . . . , y (1.5) 9 A média e variância de uma v.a. Y seguindo distribuição binomial negativa são dadas por ∞ X ∞ X r+y−1 r E(Y ) = yP (Y = y|λ) = y p (1 − p)y y y=0 y=0 ∞ ∞ X X (r + y − 1)! r r+y−1 r y = p (1 − p) = r p (1 − p)y , (y − 1)!(r − 1)! y−1 y=1 y=1 escrevendo z = y − 1, temos ∞ ∞ X r+z r r(1 − p) X (r + 1) + z − 1 r+1 r(1 − p) z E(Y ) = r p (1−p) +1 = p (1−p)z = . p z p z z=1 z=1 De forma simular, podemos obter Var(Y ) = r(1 − p) . p2 Existe uma interessante, e algumas vezes útil, reparametrização da distribuição binomial negativa em termos de sua média. Se definirmos o parâmetro µ = r(1 − p)/p, então E(Y ) = µ e V ar(Y ) = µ + µ2 /r. A família de distribuição binomial negativa inclui a distribuição de poisson como um caso limite. Se r → ∞ e p → 1 tal que r(1 − p) → λ, 0 < λ < ∞, então E(Y ) = r(1 − p) →λ p Var(Y ) = r(1 − p) → λ, p2 que concorda com a média e variância da distribuição de poisson. A função geradora de momentos de X, ver (1.4), é dada por ∞ X x−1 r MX (t) = E(e ) = e p (1 − p)x−r r − 1 x=r tX tx ∞ X (r + x)! pr (pet )r t r t x = ((1 − p)e ) ((1 − p)e ) = . (1 − p)r x!r! (1 − (1 − p)et )r x=0 Exemplo: A técnica conhecida como amostra binomial inversa é útil em amostragem de população biológica. Se a proporção de indivíduos que possuem uma dada característica é p e amostramos até obter r indivíduos com esta característica, então o número de indivíduos amostrados segue uma distribuição binomial negativa. Por exemplo, suponha que na população de moscas de fruta estamos interessados na proporção de asas vestigiais e decidimos amostrar até encontar 100 moscas. A probabili- 10 dade que tenhamos examinado no mínimo N moscas é N X x − 1 100 P (X ≥ N ) = p (1 − p)x−100 99 x=0 N −1 X x − 1 100 = 1− p (1 − p)x−100 . 99 x=100 Para um determinado p e N , podemos avaliar esta expressão para determinar quantas moscas de frutas são susceptíveis. 1.6 Distribuição Geométrica A distribuição geométrica é simplesmente uma distribuição de tempo de espera e é um caso especial da distribuição binomial negativa. Seja r = 1 na distribuição binomial negativa expressa em (1.4) P (X = x|p) = p(1 − p)x−1 , x = 1, 2, . . . , que define a função de probabilidade da v.a. X geométrica com probabilidade de sucesso p. X pode ser interpretado como o número de ensaios até a ocorrência do primeiro sucesso, então temos a espera até o sucesso. A média e variância de X podem ser obtidos usando as fórmulas da distribuição binomial negativa e escrevendo X = Y + 1 obtemos E(X) = E(Y ) + 1 = 1/p e Var(X) = (1 − p)/p2 . Também podemos obter a função geradora de momentos de X, usando a fórmula apresentada para distribuição binomial negativa fazendo r = 1, ou seja, MX (t) = E(etX ) = pet . 1 − (1 − p)et A distribuição geométrica tem uma interessante propriedade, conhecida como propriedade de falta de memória. Para inteiros s e t, vale P (X ≥ s + t|X ≥ s) = P (X ≥ t), (1.6) ou seja, se X representasse a espera de um evento, a probabilidade de esperar s + t dias, dado que o evento não ocorreu antes de s dias, é a mesma probabilidade de esperar pelo menos t dias. 11 P (X ≥ s + t e X ≥ t) P (X ≥ t) P (X ≥ s + t) = = (1 − p)t = P (X ≥ t). P (X ≥ t) P (X ≥ s + t|X ≥ s) = Exemplo: A distribuição geométrica é algumas vezes utilizada para modelar tempo de falha de componentes. Por exemplo, se a probabilidade é 0,001 que uma lâmpada elétrica falhe em um determinado tempo, então a probabilidade que ela dure no mínimo 30 dias é P (X > 30) = ∞ X 0, 001(1 − 0, 001)x−1 = 0, 9993 0 = 0, 970. x=31 A falta de memória da distribuição geométrica descreve uma propriedade muito especial de falta de envelhecimento. Indicando que esta distribuição não deve ser considerada para modelar tempos de falha quando é esperado que a probabilidade da falha aumente com o tempo. Capítulo 2 Modelos Probabilísticos Contínuos Inicialmente, considere a terna (Ω, F, P ), onde Ω é o espaço amostral que representa o conjunto de possíveis resultados para um experimento aleatório, F é a σ-álgebra que representa todos os possíveis eventos compostos e P é a medida de probabilidade que atribui um valor entre 0 e 1 para cada evento. Uma variável aleatória (v.a.) X é uma função do espaço amostral Ω na reta <, tal que X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F, para todo I ∈ <. Uma função de distribuição F , será classificada como contínua, se existir uma função não negativa f tal que Z x F (x) = f (w)dw, para todo x ∈ <. −∞ f é denominada função densidade de probabilidade (fdp), e possui duas propriedades 1. f (x) ≥ 0 para todo x ∈ <. 2. A área definida por f (x) é igual a 1, ou seja, R +∞ −∞ f (x)dx = 1. As densidades de probabilidade são utilizadas para modelar populações. Geralmente tratamos de famílias de modelos indexadas por um ou mais parâmetros, os quais permitem variar características do modelo dentro de sua forma funcional. O objetivo deste tópico é apresentar os modelos probabilísticos contínuos mais comuns, aplicações típicas e algumas relações úteis, além disso explorar algumas características destes modelos, como a média, a variância e a função geradora de momentos (quando julgarmos interessante). Inicialmente, considere de forma geral a definição do momento de ordem k e da função geradora de momentos para uma v.a. contínua k Z +∞ xk f (x)dx E(X ) = −∞ 12 13 e Z tX +∞ MX (t) = E(e ) = etx f (x)dx. −∞ Logo, a esperança e a variância podem ser obtidas usando Z +∞ xf (x)dx e V ar(X) = E(X 2 ) − E(X). E(X) = −∞ Estas definições exigem que a integral esteja bem definida. 2.1 Distribuição Uniforme Contínua A distribuição uniforme contínua é definida como uma massa uniformemente espalhada sobre um intervalo [a, b]. Sua fdp é dada por f (x|a, b) = 1 I[a,b] (x). b−a Notação: Observe que a distribuição depende dos valores do parâmetro. Para enfatizar esta dependência, denotamos na função de probabilidade por “|” (dado) os parâmetros envolvidos na distribuição. Quando não existe possibilidade de confundimento, esta notação é omitida. A média e a variância de uma v.a. X seguindo distribuição uniforme contínua, denotados por E(X) e Var(X) respectivamente, são dadas por Z b Z b 1 b+a xf (x|a, b)dx = E(X) = xdx = . b−a a 2 a Como 2 b Z 1 x f (x|a, b)dx = b−a 2 E(X ) = a Z b x2 dx = a então b 3 − a3 − Var(X) = E(X ) − E(X) = 3(b − a) 2 2 b+a 2 b 3 − a3 , 3(b − a) 2 = (b − a)2 . 12 A função geradora de momentos de X é dada por Z b tx e etb − eta tX MX (t) = E(e ) = dx = , t 6= 0. t(b − a) a b−a Exemplo: A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada por uma distribuição uniforme no intervalo [0, 7]. Qual é a probabilidade de que uma pane venha a ocorrer nos primeiros 800 metros? 14 A função densidade da distribuição Uniforme é dada por f (x) = 71 I[0,7] (x). Assim, a probabilidade de ocorrer pane nos primeiros 800 metros é Z 0,8 0, 8 − 0 f (x)dx = P (X ≥ 0, 8) = = 0, 114. 7 0 2.2 Distribuição Gamma A distribuição gamma é uma das distribuições mais gerais, pois diversas distribuições são caso particular dela como por exemplo a exponencial, a qui-quadrado, entre outras. Essa distribuição tem como suas principais aplicações à análise de tempo de vida de produtos. Uma variável aleatória X segue a distribuição gamma com parâmetros α e β, se sua função densidade é dada por f (x|α, β) = 1 xα−1 e−x/β I[0,∞) (x), α, β > 0. Γ(α)β α O parâmetro α é conhecido como parâmetro de forma, então exerce maior influência no centro da distribuição, enquanto o parâmetro β é chamando de escala, então exerce maior influência na abertura da distribuição. A média e a variância de uma v.a. X seguindo G(α, β) são dadas por Z ∞ Z ∞ 1 1 α−1 −x/β E(X) = xx e dx = x(α+1)−1 e−x/β dx, Γ(α)β α 0 Γ(α)β α 0 observe que a integral envolve o núcleo de uma distribuição G(α + 1, β), logo E(X) = Γ(α + 1)β α+1 αΓ(α)β α+1 = = αβ. Γ(α)β α Γ(α)β α Como 1 E(X ) = Γ(α)β α 2 Z ∞ x2 xα−1 e−x/β dx, 0 então analogamente ao cálculo de E(X), temos E(X 2 ) = Γ(α + 2)β α+2 (α + 1)αΓ(α)β α+2 = = (α + 1)αβ 2 . α α Γ(α)β Γ(α)β Var(X) = E(X 2 ) − E(X)2 = (α + 1)αβ 2 − α2 β 2 = αβ 2 . A função geradora de momentos de X é dada por Z ∞ Z ∞ 1 1 1 tX tx α−1 −x/β α−1 −x β −t MX (t) = E(e ) = e x e dx = x e dx, Γ(α)β α 0 Γ(α)β α 0 15 observe que a integral envolve o núcleo de uma distribuição G(α, (1/β − t)−1 ), logo −α α 1 1 1 1 MX (t) = − t = , t < . Γ(α) Γ(α)β α β 1 − tβ β Existe uma relação interessante entre a distribuição gamma e a distribuição Poisson. Se X é uma v.a. G(α, β), em que α é um valor inteiro, então para qualquer x, P (X ≤ x) = P (Y ≥ α), onde Y ∼ P (x/β). Esta relação pode ser mostrada via integração por partes. Exemplo: Suponha uma sequência de v.as. independentes, seja Xi ∼ G(αi , β). Qual é P a distribuição de Y = ki=1 Xi ? Para obter a distribuição da soma de v.as. independentes podemos utilizar a fgm da distribuição. ! k k k Pk Y Y Y tXi t( i=1 Xi ) tXi = E(e ) = MY (t) = E e =E e i=1 i=1 i=1 que é a fgm de uma distribuição gamma com parâmetros P G( ki=1 αi , β). 2.2.1 1 1 − tβ Pk i=1 αi = 1 1 − tβ Pki=1 αi , αi e β. Logo, Y ∼ Distribuição Qui-quadrado Existe um número de casos especiais da distribuição gamma. Se α = p/2, sendo p um valor inteiro, e β = 2, então a fdp da gamma se torna f (x|p) = 1 xp/2−1 e−y/2 I[0,∞) (x), Γ(p/2)2p/2 que é a distribuição qui-quadrado com p graus de liberdade. A média, a variância e a fgm desta distribuição podem ser obtidas pelas fórmulas da distribuição gamma. p/2 2p 22 p 1 1 E(X) = = p, Var(X) = = 2p e MX (t) = ,t < . 2 2 1 − 2t 2 A distribuição qui-quadrado fornece uma importante regra na inferência estatística, especialmente quando um amostra provem de uma distribuição normal. 2.2.2 Distribuição Exponencial Outro importante caso especial da distribuição gamma é obtido quando α = 1, então a fdp da gamma se torna f (x|p) = 1 −x/β e I[0,∞) (x), β (2.1) 16 que é a distribuição exponencial com parâmetro β. A média, a variância e a fgm desta distribuição podem ser obtidas pelas fórmulas da distribuição gamma. E(X) = β, Var(X) = β 2 e MX (t) = 1 1 ,t < . 1 − tβ β A distribuição exponencial pode ser utilizada para modelar tempo de vida, análogo ao uso da distribuição geométrica no caso discreto. De fato, a distribuição exponencial possui a propriedade de falta de memória da geométrica. Se X ∼ Exp(β), isto é, com fdp dada em (2.1), então para s ≥ 0, t ≥ 0, P (X ≥ s + t|X ≥ s) = P (X ≥ t), então R ∞ 1 −x/β e dx P (X ≥ s + t) P (X ≥ s + t; X ≥ s) t+s β = = R ∞ 1 −x/β P (X ≥ s + t|X ≥ s) = P (X ≥ s) P (X ≥ s) e dx s β = e−(t+s)/β = e−t/β = P (X ≥ t). e−s/β Exemplo: O tempo até a falha do ventilador de motores a diesel tem uma distribuição exponencial com parâmetro λ = 28700 horas. Qual a probabilidade de um destes ventiladores falhar nas primeiras 24000 horas de funcionamento? Z 24000 1 x P (0 ≤ X ≤ 24000) = exp − = 0, 567. 28700 28700 0 2.2.3 Distribuição Weibull Outra distribuição relacionada com a família da distribuição gamma, por meio da distribuição exponencial é a distribuição de Weibull. Se X ∼ Exp(β), então Y = X 1/γ segue uma distribuição Weibull com parâmetros γ e β. Podemos obter Y fazendo d −1 −1 f (y|p) = fX (g (y)) g (y) dy como g −1 (y) = y γ e d −1 g (y) = y γ−1 γ, dy então f (y|γ, β) = γ γ−1 −yγ /β y e I[0,∞) (y), γ > 0, β > 0. β 17 Poderíamos partir da distribuição Weibull e considerar γ = 1 para obter a distribuição exponencial. A distribuição Weibull é muito importante na análise de tempo de falha, particularmente muito útil para modelar funções de risco. A média e a variância de uma v.a. Y seguindo Weibull(γ, β) são dadas por Z γ ∞ γ−1 −yγ /β 1 1/γ , E(Y ) = yy e dy = β Γ 1 + β 0 γ Z γ ∞ 2 γ−1 −yγ /β n 2 2/γ E(Y ) = y y e dy = β Γ 1 + , β 0 γ assim " 2 # 2 1 Var(Y ) = E(Y 2 ) − E(Y )2 = β 2/γ Γ 1 + − Γ 1+ . γ γ A fgm só existe para γ ≥ 1, não sendo muito útil. 2.3 Distribuição Normal A distribuição normal, algumas vezes chamada de distribuição gaussiana, desempenha um papel central na estatística. Existem três principais razões para isso. Primeira, a distribuição normal e as distribuições associadas a ela são analiticamente tratáveis. Segunda, a distribuição normal tem uma forma de sino, que a faz simétrica sendo uma escolha atraente para modelar muitas populações. Entretanto existem muitas outras distribuições com forma de sino, mas que não possuem a tratabilidade analítica da normal. Terceira, existe o Teorema Central do Limite (TCL), que mostra que, sob algumas condições, a distribuição normal pode ser usada para aproximar uma grande variedade de distribuições no caso de grandes amostras. A distribuição normal têm dois parâmetros, usualmente denotados por µ e σ 2 , que são sua média e variância. A fdp da distribuição normal com média µ e variância σ 2 é dada por f (x|µ, σ 2 ) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 I(−∞,∞) (x), µ ∈ <, σ 2 > 0. Se X ∼ N (µ, σ 2 ), então a v.a. Z = (X −µ)/σ segue uma distribuição N (0, 1), também conhecida como normal padrão. X −µ P (Z ≤ z) = P ≤ z = P (X ≤ zσ + µ) σ Z zσ+µ Z z (x−µ)2 t2 1 1 x−µ − 2 = √ e 2σ dx = √ e− 2 dt, com t = , 2 σ 2π −∞ 2πσ −∞ 18 mostrando que P (Z ≤ z) é a fdp da normal padrão. A média e a variância de uma v.a. Z seguindo normal padrão são dadas por Z +∞ z2 1 E(Z) = √ e− 2 dz = 0, 2π −∞ então E(X) = E(zσ + µ) = σE(z) + µ = µ. Similarmente temos que Var(Z) = 1, então Var(X) = Var(zσ + µ) = σ 2 Var(z) = σ 2 , A função geradora de momentos de Z é dada por 1 MZ (t) = E(e ) = √ 2π tZ Z +∞ 2 tz − z2 e e −∞ t2 e2 dz = √ 2π Z +∞ e− (z−t)2 2 t2 dz = e 2 . −∞ Assim, MX (t) = E(etX ) = E(et(Zσ+µ) ) = etµ E(etZσ ) = etµ e (tσ)2 2 =e t2 σ 2 +tµ 2 . Entre os muitos usos da distribuição normal, um importante uso seu é a aproximação de outras distribuições, a qual é parcialmente justificada pelo TCL. Por exemplo, se X ∼ Bin(n, p), então E(X) = np e Var(X) = np(1 − p), sob condições razoáveis, a distribuição de X pode ser aproximada à uma distribuição normal com média µ = np e variância σ 2 = np(1 − p). As condições razoáveis, são que n (tamanho da amostra) deve ser grande e p não dever assumir valores extremos (próximos de 0 ou 1). Queremos n grande de modo que existam valor o bastante (discreto) de X para fazer a aproximação para uma distribuição contínua razoável, e p deve ser no meio (não muito longe de 0,5), então a distribuição binomial é quase simétrica, como a normal. Cada aproximação deve ser avaliada, uma regra conservadora é que a aproximação deve ser boa se min{np, np(1 − p)} ≥ 5. Exemplo: Suponha que o peso médio de 800 porcos de uma certa fazenda é de 64kg, e o desvio padrão é de 15kg. Suponha que este peso seja distribuído de forma normal, quantos porcos pesarão entre 42kg e 73kg? Para resolvermos este problema primeiramente devemos padroniza-lo. Seja Z = x−64 , 15 assim 42−64 15 ≈ −1, 47 e 73−64 15 ≈ 0, 6. Assim, a probabilidade é P (−1, 47 ≤ Z ≤ 0, 60) = P (Z ≤ 0, 60) − P (Z ≤ −1, 47) Z −1,47 Z 0,60 1 −x2 /2 1 2 √ e √ e−x /2 dx = dx − 2π 2π −∞ −∞ = 0, 7257 − 0, 4292 = 0, 2965. Portanto o número esperado de porcos entre 42kg e 73kg é (800 ∗ 0, 2965) ≈ 237. 19 2.3.1 Distribuição log-Normal Se X é uma v.a. tal que o logaritmo é normalmente distribuído (log X ∼ N (µ, σ 2 )), então X segue uma distribuição log-normal. A distribuição de X pode ser obtida via transformação da distribuição normal e é dada por f (x|µσ 2 ) = √ 2 1 1 − (log x−µ) 2σ 2 e I[0,∞) (x), µ ∈ <, σ 2 > 0. 2πσ x A média e a variância de uma v.a. X seguindo log-normal podem ser obtidas usando os resultados da distribuição normal E(X) = E(elog X ) = E(eY ) = eµ+σ 2 /2 2 e E(X 2 ) = E((elog X )2 ) = E(eY ) = e2(µ+σ 2) sendo Y ∼ N (µ, σ 2 ), o resultado é direto via fgm. Logo, 2 2 Var(X) = E(X 2 ) − E(X)2 = e2(µ+σ ) − e2µ+σ . A função geradora de momentos de uma v.a. com distribuição log-normal não existe. A distribuição log-normal é similar em aparência a distribuição gamma. A distribuição é muito popular para modelar aplicações quando a variável de interesse é assimétrica a direita, e modelar com a log-normal permite o uso da teoria da distribuição normal em log. 2.4 Distribuição Beta A família de distribuições beta é uma família contínua no intervalos (0, 1) indexada por dois parâmetros α e β. A fdp de uma v.a X ∼ Beta(α, β) é dada por f (x|α, β) = sendo B(a, b) = R1 0 1 xα−1 (1 − x)β−1 I(0,1) (x), α > 0, β > 0, B(α, β) xα−1 xβ−1 dx denota a função beta. A função beta está relacionada com a função gamma pela identidade B(a, b) = Γ(a)Γ(b) . Γ(a + b) A distribuição beta é frequentemente considerada para modelar proporções, as quais estão naturalmente no intervalo (0,1). 20 A média e a variância de uma v.a. X seguindo beta, são dadas por Z 1 Z 1 1 1 α−1 β−1 E(X) = xx (1 − x) dx = x(α+1)−1 (1 − x)β−1 dx, B(α, β) 0 B(α, β) 0 obserque que o núcleo da integral é uma distribuição beta com parâmetros α + 1 e β. Logo, E(X) = B(α + 1, β) Γ(α + β) Γ(α + 1)Γ(β) α = = . B(α, β) Γ(α)Γ(β) Γ(α + β + 1) α+β Analogamente a E(X), E(X 2 ) = α(α + 1) B(α + 2, β) = . B(α, β) (α + β + 1)(α + β) então α(α + 1) Var(X) = E(X ) − E(X) = − (α + β + 1)(α + β) 2 2 α α+β 2 = αβ . (α + β + 1)(α + β)2 A função geradora de momentos da distribuição beta é complicada e envolve a chamada função hipergeométrica confluente a qual é solução de uma equação diferencial chamada equação diferencial hipergeométrica confluente, também conhecida como função de Whittaker. A variação nos parâmetros α e β fornecem muitas formas para esta distribuição. A fdp pode ser estritamente crescente (α > 1 e β = 1), estritamente decrescente (α = 1 e β > 1), forma de U (α < 1 e β < 1), ou unimodal (α > 1 e β > 1). Nos casos em que α = β a distribuição beta é simétrica em 0,5, com média 0,5 e variância (4(2α + 1))−1 . Se α = β = 1, a distribuição beta é reduz-se a distribuição uniforme contínua com parâmetros a = 0 e b = 1. 2.5 Distribuição F de Snedecor A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na inferência estatística para análise da variância. Uma variável aleatória X tem distribuição F de Snedecor com n graus de liberdade no numerador e m graus de liberdade no denominador se sua fdp é definida por f (x|n, m) = Γ((m + n)/2)(m/n)m/2 x(m/2)−1 I[0,∞) (x), n, m ∈ N . Γ(m/2)Γ(n/2)((m/n)x + 1)(m+n)/2 A distribuição beta está relacionada com a distribuição F, por meio de uma transformação. Se X ∼ Fp,q , então (p/q)X/(1 + (p/q)X) ∼ Beta(p/2, q/2). 21 A média e a variância de uma v.a. X seguindo F, são dadas por 2 m n+m−2 m , m > 2, e Var(X) = 2 , m > 4. E(X) = m−2 m−2 n(m − 4) A fgm da distribuição F não existe. 2.5.1 Distribuição t-Student Se tomarmos n = 1 na distribuição F, então a v.a X segue um distribuição de t-Sudent com m graus de liberdade. A distribuição t-Student é comumente usada em inferência quando queremos fazer um teste de hipótese o qual queremos testar se o nosso conjunto segue uma distribuição normal com variância desconhecida. A fdp é for dada por Γ((m + 1)/2) f (x|m) = √ mπΓ(m/2) x2 1+ m −(m+1)/2 I(−∞,+∞) (x), m ∈ N . A curva da distribuição t-Student tem a mesma forma em sino da distribuição normal, mas reflete uma maior variabilidade (com curvas mais alargadas) que é esperado em amostras pequenas. Quanto maior a dimensão da amostra, mais a distribuição t-Student se aproxima da distribuição normal. A distribuição t-Student está relacionada com a distribuição qui-quadrado (deno√ tada por χ2 ) por meio de uma transformação. Se Y ∼ χ21 e X ∼ χ2m , então W = √ p Y ( X/m)−1 ∼ tm . A média e a variância de uma v.a. X seguindo t-Student, são dadas por E(X) = 0, m > 1, e Var(X) = m , m > 2. m−2 A função geradora de momento da t de Student não está definida. Capítulo 3 Estimação Intervalar Uma importante classe de métodos inferenciais são os estimadores intervalares. Como o nome sugere um estimador intervalar fornece uma gama de valores possíveis para o parâmetro desconhecido, em vez de um único ponto (estimador pontual). Estimativas intervalares são amplamente utilizadas, porém frequentemente mal interpretadas. O interesse deste resumo é apresentar duas formas de construção de estimadores intervalares, via função pivotal e inversão da estatística de teste, e uma métrica para avaliar estes estimadores intervalares, via probabilidade de cobertura e comprimento do intervalo. Lembre-se que um estimador pontual é uma função da amostra. Por definição, um estimador pontual é uma variável aleatória. Quando substituímos a amostra observada, o resultado é uma estimativa, ou seja, apenas um número. A situação para os estimadores intervalares é completamente análoga. Um estimador intervalar é um intervalo aleatório, os limites do intervalo são estatísticas. Quando substituímos a amostra observada obtemos uma estimativa intervalar. Suponha que temos Y um amostra parametrizada por θ. • Seja U1 = h1 (Y ) e U2 = h2 (Y ) estatísticas amostrais com U1 ≤ U2 , então [U1 , U2 ] é um estimador intervalar para θ. • Seja u1 = h1 (y) e u2 = h2 (y) valores observados da estatísticas amostral U1 e U2 , então [u1 , u2 ] é uma estimativa intervalar para θ. Podemos interpretar o intervalo de confiança como um intervalo que contém os valores “plausíveis” que o parâmetro pode assumir. Assim, a amplitude do intervalo está associada a incerteza que temos a respeito do parâmetro. Geralmente temos interesse em um 22 23 estimador intervalar com coeficiente de confiança (1 − α), isso significa que o intervalo deve oferecer 100(1 − α)% de confiança. Por exemplo, se α = 0, 05, então o estimador intervalar resultante é muitas vezes chamado de intervalo de confiança de 95%. Neste contexto, o coeficiente de confiança (expresso em percentagem) é muitas vezes referido como o nível de confiança. É importante compreender que um intervalo de confiança pode ser visto como um caso especial de um conjunto de confiança. Conjuntos de confiança são úteis em dois contextos: (i) se não há certeza de que o resultado do procedimento é um intervalo, e (ii) se temos um vetor de parâmetros, caso em que resulta em uma região de confiança. Tendo em conta que há um número (infinito) de intervalos que são estimadores intervalares válidos, é preciso criar mecanismos para decidir como obter um estimador intervalar bom. 3.1 Probabilidade de Cobertura e Comprimento Um estimador intervalar bom deve ter uma alta probabilidade de conter o verdadeiro valor do parâmetro. Se este fosse o único critério de interesse, sempre escolheríamos o intervalo (−∞, +∞), pois este cobre o verdadeiro valor com probabilidade 1. Claramente, o intervalo (−∞, +∞) não fornece nenhuma informação útil sobre valores plausíveis do parâmetro. Na escolha de um estimador intervalar, existe uma compensação entre a probabilidade de abranger o valor verdadeiro e o comprimento do intervalo, gostaríamos que a probabilidade de cobertura fosse alta e o comprimento pequeno. Como a probabilidade de cobrir o verdadeiro valor pode depender do parâmetro, fazemos a distinção entre a probabilidade de cobertura e o coeficiente de confiança. • (Probabilidade de cobertura) Para um estimador intervalar [U1 , U2 ] para θ, a probabilidade de cobertura é a probabilidade que o estimador intervalar cubra θ, isto é, P (U1 ≤ θ ≤ U2 ). • (Coeficiente de confiança) Para um estimador intervalar [U1 , U2 ] para θ, o coeficiente de confiança é o ínfimo sobre θ da probabilidade de cobertura, isto é, inf θ∈Θ P (U1 ≤ θ ≤ U2 ). 24 É importante ficar claro que em P (U1 ≤ θ ≤ U2 ) envolve as variáveis aleatórias U1 e U2 . Então, P (U1 ≤ θ ≤ U2 ) = P ((U1 ≤ θ) ∩ (U2 ≥ θ)) = 1 − P (U1 > θ) − P (U2 < θ), como U1 ≤ U2 implica em U1 > θ e U2 < θ são eventos disjuntos. Em geral, o comprimento do intervalo de confiança é uma variável aleatória. Uma possível medida da largura de um intervalo é o comprimento esperado. Considere um estimador intervalar [U1 , U2 ]. O comprimento esperado do intervalo é definido como E(U2 − U1 ). Uma característica desejável de um estimador intervalar é que a probabilidade de cobertura seja alta para todos os valores de θ. O coeficiente de confiança representa o pior cenário possível, por definição, para qualquer valor de θ, a probabilidade de cobertura será pelo menos tão grande como o coeficiente de confiança. Para ilustrar a avaliação de vários estimadores para uma mesma situação considere o seguinte exemplo. Suponha que temos um amostra aleatória de uma população N (µ, 1). O interesse são estimadores intervalares para a µ. Seja, k1 e k2 constantes finitas não negativas. Quais quer um dos estimadores intervalares são válidos para µ: a) [−k1 , k2 ], b) [Y1 − k1 , Y1 + k2 ], c) [Ȳ − k1 , Ȳ + k2 ]. Todos os intervalos descritos neste exemplo têm o mesmo comprimento, k1 + k2 . Então, devemos avaliar a probabilidade de cobertura e coeficiente de confiança associados a cada um destes intervalos. a) [−k1 , k2 ] - o primeiro intervalo não depende da amostra. Duas situações são possíveis: (i) se µ é a média verdadeira, então µ ∈ [−k1 , k2 ] ou µ ∈ / [−k1 , k2 ]. Se µ ∈ [−k1 , k2 ] a probabilidade de cobertura é 1, caso contrário zero. Assim, o coeficiente de confiança para este intervalo é 0. b) [Y1 − k1 , Y1 + k2 ], podemos trabalhar diretamente com a probabilidade de cobertura usando o fato de que Y1 ∼ N (µ, 1) P (Y1 − k1 ≤ µ ≤ Y1 + k2 ) = 1 − P (Y1 − k1 > µ) − P (Y1 + k2 < µ) = P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1, Z ∼ N (0, 1). 25 Esta probabilidade de cobertura não depende de µ. Então, o coeficiente de confiança é também P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1. c) [Ȳ − k1 , Ȳ + k2 ] - usando o fato √ n(Ȳ − µ) ∼ N (0, 1), de forma similar ao caso (b), podemos mostrar que a probabilidade de cobertura é. P (Ȳ − k1 ≤ µ ≤ Ȳ + k2 ) = P (Z ≤ √ nk1 ) + P (Z ≤ Como no caso (b), o coeficiente de confiança é P (Z ≤ √ √ nk2 ) − 1. nk1 ) + P (Z ≤ √ nk2 ) − 1. É claro que o primeiro intervalo, com coeficiente de confiança zero, não é interessante. Nos casos (b) e (c), se k1 é positivo e P (Z ≤ z) é uma função não decrescente, temos que √ √ nk1 ≥ k1 , então P (Z ≤ nk1 ) ≥ P (Z ≤ k1 ), para todo n ≥ 1 (similar para k2 ). Assim concluímos que P (Z ≤ √ nk1 ) + P (Z ≤ √ nk2 ) − 1 ≥ P (Z ≤ k1 ) + P (Z ≤ k2 ) − 1, n ≥ 1. Então, o coeficiente de confiança do intervalo em (c) é maior que em (b). Se tivéssemos de escolher entre esses intervalos usaríamos [Ȳ − k1 , Ȳ + k2 ]. Note que isso é consistente com o princípio de suficiência, pois Ȳ é suficiente para µ. No exemplo anterior, foram considerados três intervalos de igual comprimento e comparados os coeficientes de confiança. Na prática, a abordagem usual é o contrário, nós fixamos o nível desejado de confiança e tentamos encontrar o menor intervalo correspondente. O exemplo a seguir ilustra. Suponha que temos uma amostra aleatória de uma população N (µ, 1), e temos interesse em um estimador intervalar para µ com coeficiente de confiança (1 − α). Um bom √ √ lugar para começar é com a função de pivô n(Ȳ −µ). Sabemos que n(Ȳ −µ) ∼ N (0, 1), então, se α = α1 + α2 , P (zα1 ≤ √ n(Ȳ − µ) ≤ −zα2 ) = 1 − α1 − α2 = 1 − α. com zα o α-quantil da distribuição normal padrão. Por rearranjo, e utilizando o facto de que z(1−α) = −zα , obtemos 1 1 Ȳ − √ z(1−α2 ) , Ȳ + √ z(1−α1 ) , n n é um estimador intervalar para µ com coeficiente de confiança (1 − α). O comprimento √ deste intervalo é 1/ n(z(1−α1 ) + z(1−α2 ) ). 26 Se α1 ou α2 for zero, o comprimento de intervalo é infinito. Suponha que α = 0, 05, isto é, queremos um intervalo de confiança de 95% para µ. Podemos utilizar vários possíveis valores para α1 e α2 de forma a satisfazer a confiança desejada, porém o menor intervalo é obtido se α1 = α2 . Isto ilustra um resultado geral que coincide com a nossa intuição, para um dado coeficiente de confiança, os intervalos de confiança mais curtos para a população média de uma distribuição normal será simétrica em relação a média da amostra. 3.2 Funções Pivotais Como já vimos no exemplo anterior uma função essencial, se Y é uma amostra aleatória √ de uma população N (µ, 1) e Ȳ é a média amostral, então n(Ȳ − µ) é uma função de Y √ e µ cuja distribuição não depende de µ. De fato, n(Ȳ − µ) ∼ N (0, 1). Funções pivotais desempenham um papel fundamental para a construção de intervalos de confiança. Começamos com uma definição mais formal. Considere uma amostra Y e um parâmetro escalar θ. Seja g(Y , θ) uma função de Y e θ que não envolve qualquer parâmetro desconhecido diferente de θ. Dizemos que g(Y , θ) é uma função pivotal se sua distribuição não depende de θ. Note que a função pivotal é uma variável aleatória, diz W = g(Y , θ). Por definição, a distribuição de W não depende de θ. Funções pivotais fornecem um mecanismo simples para construir estimadores intervalares para um dado coeficiente de confiança. Suponha que queremos um estimador intervalar para θ com coeficiente de confiança (1 − α). Podem utilizar o seguinte procedimento. 1. Encontrar a função pivotal de g(Y , θ). 2. Usar a distribuição da função pivotal para encontrar os valores w1 e w2 , tal que, P (w1 ≤ W ≤ w2 ) = 1 − α. 3. Manipular as desigualdade W > w1 e W < w2 fazer depender de θ. Produzindo desigualdade da forma θ ≥ h1 (W, w1 , w2 ) e θ ≥ h2 (W, w1 , w2 ), para alguma função h1 e h2 . 4. Podemos, agora, fornecer [h1 (W, w1 , w2 ), h2 (W, w1 , w2 )] como um estimador intervalar para θ com coeficiente de confiança (1−α). [Note-se que os limites do intervalo 27 são normalmente uma função de um dos w1 e w2 apenas.] A seguir apresentamos dois exemplos de estimadores intervalares obtidos via quantidades pivotal. Exemplo: Considere uma amostra aleatória Y de tamanho n de uma população N (µ, σ 2 ). A distribuição de Ȳ pode ser obtida fazendo E(n −1 n X −1 Yi ) = n i=1 Var(n−1 n X n X E(Yi ) = n−1 nµ = µ i=1 Yi ) = n−2 n X V ar(Yi ) = n−2 nσ 2 = n−1 σ 2 , i=1 i=1 Logo, Ȳ ∼ N (µ, σ 2 /n), então Ȳ − µ p ∼ N (0, 1). σ 2 /n Entretanto, esta função não é uma quantidade pivotal para µ, pois a função envolve um parâmetro desconhecido, σ 2 . Suponha que substituímos σ 2 por seu estimador, a variância amostral, S 2 . Lembrando que (n − 1)S 2 ∼ χ2n−1 . σ2 Por definição a distribuição t-Student é dada por ,r S2 Ȳ − µ p ∼ tn−1 . σ2 σ 2 /n Com algum rearranjo concluímos, Ȳ − µ p ∼ tn−1 . S 2 /n Esta é uma função pivotal para µ, pois S 2 é uma função de Y e a distribuição, tn−1 , não dependem do valor de µ. Ao explorar a função pivotal que acabamos de derivar podemos obter um estimador intervalar para µ com coeficiente de confiança (1 − α). Se usarmos tn−1,α , para denotar o α-quantil de uma distribuição tn−1 , então P tn−1,α/2 Ȳ − µ ≤p ≤∼ tn−1,1−α/2 S 2 /n ! = 1 − α, que fornece h i p p 2 2 Ȳ − S /ntn−1,1−α/2 , Ȳ + S /ntn−1,1−α/2 , usando que −tn−1,α/2 = tn−1,1−α/2 , devido a simetria da distribuição t. 28 Exemplo: Suponha que Y é uma amostra aleatória com tamanho n de uma população Exp(λ). O interesse é construir um estimador intervalar para o parâmetro λ. Sabemos que λE(Y ) = 1, então iremos considerar λȲ como uma potencial escolha da função pivotal. P De fato, pode ser mostrado que, se W = λ ni=1 Yi , então W é uma quantidade pivotal. Note que a definição de W não envolve outro parâmetro além de λ. Como Y ∼ Exp(λ), a função geradora de momentos de Y , é MY (t) = (1 − t/λ)−1 . A função geradora de momentos de W é, MW (t) = E(etW ) = E(etλ Pn i=1 Yi ) = {E(etλY )}n = {MY (tλ)}n = (1 − t)−n . (3.1) A distribuição de uma variável aleatória é completamente caracterizado pela sua função geradora momento. À medida que a função geradora de momentos de W não depende de λ, conclui-se que a distribuição de W não depende de λ e, portanto, W é pivotal. Para poder usar W na construção dos estimadores intervalares, precisamos da forma paramétrica da distribuição de W . Novamente vamos usar funções geradoras de momentos. Se V ∼ χ2k , então MV (t) = (1 − 2t)−k/2 . Comparando com a função geradora de momentos obtida em (3.1), temos que 2W ∼ χ22n . Construção de um estimador intervalar usando a distribuição de 2W é dada por ! n X 2 2 P χ2n,α/2 ≤ 2λ Yi ≤ χ2n,1−α/2 = 1 − α, i=1 sendo χ2k,α o α-quantil de uma distribuição qui-quadrado com k graus de liberdade. Portanto, " # χ22n,α/2 χ22n,1−α/2 P , P , 2 ni=1 Yi 2 ni=1 Yi é um estimador intervalar para λ com coeficiente de confiança de (1 − α). Observe que optamos por usar os quantis α/2 e (1−α/2); esta escolha é arbitrária. Como a distribuição qui-quadrado não é simétrica, não é óbvio que esta é a escolha ideal. Considere um outro exemplo de quantidade pivotal utilizando a teoria assintótica. Exemplo: Suponha que θ̂ é o estimador de máxima verossimilhança de um parâmetro escalar θ. Sabemos que, em condições de regularidade leves, θ̂ −→D N (θ, IY (θ)−1 ), e que, para n grande, p IY (θ)−1 (θ̂ − θ) ≈ N (0, 1). 29 p Como IY (θ)−1 (θ̂ − θ) converge para uma distribuição que não depende de θ, dizemos p que, IY (θ)−1 (θ̂ − θ) é assintoticamente pivotal para θ. 3.3 Inversão da estatística de teste Existe uma correspondência forte entre o estimador intervalar e o teste de hipóteses. De fato, podemos dizer em geral que todo conjunto de confiança corresponde a um teste e vice versa. Aí está, talvez, mais facilmente visto que ambos os testes e intervalos devem fazer a mesma pergunta, mas sutilmente de diferentes perspectivas. Ambos os procedimentos olham a consistência entre a estatística amostral e o parâmetro populacional. O teste de hipótese fixa o parâmetro e pergunta que valores amostrais (a região de aceitação) são consistentes com aquele valor fixado. O conjunto de confiança fixa o valor amostral e pergunta que valores do parâmetro (o intervalo de confiança) fazem esta amostra mais plausível. A correspondência entre região de aceitação de testes e conjuntos de confiança são válidos em geral. Teorema: Para cada θ0 ∈ Θ, seja A(θ0 ) a região de aceitação de um teste de nível α com H0 : θ = θ0 . Para cada x ∈ X , definimos um conjunto C(x) no espaço paramétrico por C(x) = {θ0 : x ∈ A(θ0 )}. Então o conjunto aleatório C(X) é um conjunto de confiança (1 − α). Reversamente, seja C(X) um conjunto de confiança (1 − α). Para qualquer θ0 ∈ Θ A(θ0 ) = {x : θ0 ∈ C(x)}. Na prática, quando construímos um conjunto de confiança via inversão de teste, temos um mente uma hipótese alternativa, tal como H1 : θ 6= θ0 ou H1 : θ > θ0 . A alternativa dita a forma de A(θ0 ), então é razoável que A(θ0 ) determina a forma de C(x). Note que usamos o termo conjunto e não intervalo, porque não podemos garantir que o conjunto de confiança obtido pela inversão do teste é um intervalo. As propriedade da inversão de teste são mantidas para o conjunto de confiança. Por exemplo, testes não viciados, quando invertidos, produzem conjuntos de confiança não viciados. Também, e mais importante, podemos dar atenção a estatística suficiente quando olhamos para um bom teste, e segue que podemos dar atenção a estatística suficiente quando olhamos para um bom conjunto de confiança. A região obtida pela inversão de um teste de razão de verossimilhança de H0 : θ = θ0 30 contra H1 : θ 6= θ0 é da seguinte forma aceita H0 se L(θ0 |x) L(θ̂|x) ≤ k ∗ (θ0 ) que resulta em um região de confiança {θ : L(θ|x) ≥ k ∗ (θ0 )L(θ̂|x)}, para alguma função k ∗ que retorne confiança (1 − α), sendo L(θ|x) a função de verossimilhança dos dados observados e θ̂ o estimador de máxima verossimilhança do parâmetro escalar θ. A seguir iremos exemplificar a inversão da região de aceitação para obter um conjunto de confiança via inversão do teste de razão de verossimilhanças. Exemplo: Suponha que temos interesse em um conjunto de confiança para λ de uma distribuição Exp(λ). Podemos obter um intervalo pela inversão de um teste de nível α de H0 : λ = λ0 contra H0 : λ 6= λ0 . Se temos um amostra aleatória X de tamanho n a estatística da razão de verossimilhança é dada por Pn Pn i=1 xi /λ0 i=1 xi /λ0 λ−n λ−n 0 e 0 e Pn P = = ( ni=1 xi /n)−n e−n supλ λ−n e i=1 xi /λ Pn i=1 xi n nλ0 en e− Pn i=1 xi /λ0 . Para um λ0 fixo, a região de aceitação é dada por n P Pn − n x /λ ∗ i=1 xi 0 i e i=1 ≥k , A(λ0 ) = x : nλ0 sendo k ∗ um constante escolhida para satisfazer Pλ0 (X ∈ A(λ0 )) = 1 − α (a constante en foi absorvida por k ∗ ). Esse é um conjunto no espaço amostral. A inversão desta região de aceitação fornece um conjunto de confiança (1 − α) n P Pn − n x /λ ∗ i=1 xi i e i=1 ≥k . C(x) = λ : nλ P A expressão definindo C(x) depende apenas de x por meio de ni=1 xi . Então o intervalo de confiança pode ser expresso na forma ! ( ) n n n X X X C xi = λ : h1 ( xi ) ≤ λ ≤ h2 ( xi ) , i=1 i=1 i=1 sendo que h1 e h2 são funções determinadas por restrições no conjunto A(λ0 ) fornecendo probabilidade (1 − α) e n P Pn n P Pn P Pn n xi xi − n xi /h1 ( n xi ) i=1 i=1 i=1 i=1 Pn Pn e = e− i=1 xi /h2 ( i=1 xi ) . h1 ( i=1 xi ) h2 ( i=1 xi ) 31 Se fizermos Pn Pn xi xi i=1 Pn Pi=1 =ae =b n h1 ( i=1 xi ) h2 ( i=1 xi ) sendo a > b constantes, então an e−a = bn e−b que pode ser resolvido numericamente. Exemplo: Seja X uma amostra aleatória de uma população N (µ, σ 2 ). O interesse é construir um limite superior para µ com confiança superior a (1 − α). Isto é, queremos um conjunto de confiança da forma C(x) = (−∞, h2 (x)]. Para obter um intervalo, devemos inverter um teste unilateral de H0 : µ = µ0 contra H1 : µ < µ0 . (Lembre-se que usamos H1 para determinar a forma de do intervalo de confiança, neste caso H1 especifica grandes valores de µ0 , então o conjunto de confiança contêm pequenos valores, valores menores que o limite. Então, daremos um limite confiança superior.) O teste da razão de verossimilhança de tamanho α de H0 e H1 rejeita H0 se X̄ − µ0 √ < −tn−1,α . S/ n Então a região de aceitação para este teste é √ −1 A(µ0 ) = {x : x̄ ≥ µ0 − tn−1,α s n } √ e x ∈ A(µ0 ) ⇔ x̄ + tn−1,α S/ n ≥ µ0 . Assim, definimos s C(x) = {µ0 : x ∈ A(µ0 )} = µ0 : x̄ + tn−1,α √ ≥ µ0 . n √ Pelo teorema, o conjunto aleatório C(X) = (−∞, X̄ + tn−1,α S/ n] é um conjunto de confiança (1 − α). Vimos que iverter um teste unilateral fornece um intervalo de confiança unilateral. Capítulo 4 Teste de Hipóteses No processo inferencial normalmente são obtidos os estimadores dos parâmetros, porém também é comum ter interesse em avaliar suposições sobre a população em estudo, ou seja, avaliar hipóteses. O objetivo do teste de hipótese é decidir, baseado na amostra da população, qual das duas hipóteses complementares é verdadeira. Quando se pretende testar o valor de um determinado parâmetro a verificação da suposição é feita por um teste paramétrico; quando se pretende testar a natureza de uma população a verificação da suposição é feita por um teste não paramétrico ou teste de aderência. O interesse deste resumo é apresentar uma forma de construção de teste de hipóteses paramétricos e uma forma de avaliar testes de hipóteses paramétricos. Na notação usual chamamos de H0 a hipótese nula, a hipótese estatística a ser testada e por H1 a hipótese alternativa, que geralmente representa a conjectura que se pretende provar. Se θ denota o parâmetro populacional, o formato geral de uma hipótese nula e alternativa é H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 , sendo Θ0 algum subconjuto do espaço paramétrico Θ e Θc0 seu complementar. Por exemplo, se θ denota a mudança média na pressão sanguínea dos pacientes após um determinado tratamento, um analista deve ter interesse em testar se H0 : θ = 0 contra H1 : θ 6= 0. Em um problema de teste de hipótese, é usual recorrer a uma amostra aleatória da população, e com base na informação contida nessa amostra decidir se a hipótese nula é verdadeira ou falsa, com uma certa probabilidade associada. A não rejeição de uma hipótese estatística é resultado de insuficiente evidência para a rejeitar e não implica necessariamente que ela é verdadeira. Um procedimento de teste de hipóteses é uma regra que especifica: 32 33 a) Para quais valores amostrais a decisão implica em aceitar H0 como verdadeiro. b) Para quais valores amostrais H0 é rejeitado e H1 é aceita como verdade. O subconjuto do espaço amostral para qual H0 é rejeitado é chamado região de rejeição ou região crítica. O complementar da região de rejeição é chamado de região de aceitação. Tipicamente, um teste de hipótese é especificado em termos de uma estatística de teste W (X), uma função da amostra. Por exemplo, um teste deve especificar que H0 é rejeitada se X̄, a média amostral, é maior que 3. Neste caso, W (X) = X̄ é a estatística de teste e a região de rejeição é {x : x̄ > 3}. 4.1 Teste da Razão de Verossimilhança O teste da razão de verossimilhança (TRV) é um método muito geral para construção de teste de hipóteses, quase sempre é utilizado e é ótimo em alguns casos. Este método está relacionado com o estimador de máxima verossimilhança. Lembrando que se X é uma amostra aleatória de tamanho n de uma população com fdp ou fp f (x|θ) (θ pode ser um vetor), a função de verossimilhança é definida como L(θ|x) = f (x|θ) = n Y f (xi |θ). i=1 Seja Θ o espaço paramétrico completo. O TRV para testar H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 é λ(x) = sup Θ0 L(θ|x) . sup ΘL(θ|x) Um TRV é qualquer teste que tem um região de rejeição da forma {x : λ(x) ≤ c, sendo c qualquer número satisfazendo 0 ≤ c ≤ 1. O TRV pode ser mais facilmente entendido na situação em que f (x|θ) é discreto, pois o numerador de λ(x) é a probabilidade máxima da amostra observada sobre os parâmetros na hipótese nula. O denominador de λ(x) é a probabilidade máxima da amostra observada sobre todos os valores possíveis dos parâmetros. A razão é pequena se existe pontos na hipótese alternativa para quais a amostra observada é muito mais provável que para qualquer valor dos parâmetros na hipótese nula. Nesta situação, o critério de TRV diz que devemos rejeitar H0 e aceitar H1 como verdade. A seguir apresentamos um exemplo da construção do TRV. 34 Exemplo: Seja X uma amostra aleatória de tamanho n de uma população com fdp dada por f (x|θ) = e−(x−θ) I[θ,+∞) (x). A função de verossimilhança é L(θ|x) = e− Pn i=1 xi +nθ I(−∞,x(1) ] (θ), x(1) = min xi . i Considere testar H0 : θ ≤ θ0 contra H1 : θ > θ0 , sendo θ0 um valor especificado pelo pesquisador. L(θ|x) é uma função crescente de θ em −∞ ≤ θ ≤ x(1) , então o denominador de λ(x), o máximo irrestrito de L(θ|x), é L(x(1) |x) = e− Pn i=1 xi +nx(1) . Se x(1) ≤ θ0 , o numerador de λ(x) é também L(x(1) |x). Mas, estamos maximizando sob θ ≤ θ0 , o numerador de λ(x) é L(θ0 |x) se x(1) ≤ θ0 . Portanto, a estatística de TRV é 1 se x(1) ≤ θ0 . λ(x) = e−n(x(1) −θ0 ) se x > θ (1) 0 Se T (X) é uma estatística suficiente para θ com fdp g(t|θ) então podemos construir o TRV baseado em T , a função de verossimilhança L∗ (θ|t) = g(t|θ) em vez da amostra X e sua função de verossimilhança L(θ|x). Seja λ∗ (t) a estatística de TRV baseado em T . Dada uma noção intuitiva que toda informação sobre θ em x está contida em T (x), o teste baseado em T deve ser tão bom quanto o teste baseado na amostra completa X. De fato, os testes são equivalentes. Se T (X) é uma estatística suficiente para θ e λ∗ (t) e λ(x) são as estatísticas baseado em T e X, respectivamente, então, λ∗ (T (x)) = λ(x) para todo x no espaço amostral. A demostração deste resultado é imediada ao aplicar o teorema da fatoração em f (x|θ). A seguir consideramos um exemplo de TRV via estatística suficiente. Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, 1). Considere testar H0 : θ = θ0 contra H1 : θ 6= θ0 . Sendo θ0 um número fixado pelo pesquisador antes do experimento. Sabemos que X̄ é uma estatística suficiente para θ. Devemos usar a função de verossimilhança associada a T (X) = X̄ para construir o TRV. Como X̄ ∼ N (θ, 1/n), então (2π)−1/2 (n)1/2 exp{−(x̄ − θ0 )2 /(2n)} (2π)−1/2 (n)1/2 exp{−(x̄ − x̄)2 /(2n)} = exp −(x̄ − θ0 )2 /(2n) . λ(t) = Assim, o TRV é um teste que rejeita H0 para valores grande de |X̄ − θ0 |. 35 4.2 Probabilidade de erro e Função poder O resultado de um teste de hipóteses é a confirmação ou não da suposição inicial, rejeitando ou não a hipótese nula. Em ambos os casos podemos cometer erro, logo uma das principais preocupações na construção dos testes de hipóteses é procurar minimizar estes erros. Um teste de hipóteses de H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 pode cometer dois tipos de erro. O erro do tipo I, se θ ∈ Θ0 mas o teste de hipótese incorretamente decide por rejeitar H0 , e o erro do tipo II, se θ ∈ Θc0 mas o teste decide por aceitar H0 . Suponha que R denota a região de rejeição de um teste. Então para θ ∈ Θ0 a probabilidade do erro do tipo I é Pθ (X ∈ R). Para θ ∈ Θc0 , a probabilidade do erro do tipo II é Pθ (X ∈ Rc ) = 1 − Pθ (X ∈ R). Esta consideração leva a seguinte definição. A função poder de um teste de hipóteses com região de rejeição R é a função de θ definida por β(θ) = Pθ (X ∈ R). A função poder ideal é zero para todo θ ∈ Θ0 e um para todo θ ∈ Θc0 . Exceto em situações triviais, isso não pode ser obtido. Desta forma, um bom teste tem função poder próxima de um para a maioria dos valores de θ ∈ Θc0 e próxima de zero para a maioria dos valores de θ ∈ Θ0 . Exemplo: Seja X ∼ Bin(5, θ). Considere testar H0 : θ ≤ 0, 5 contra H1 : θ > 0, 5. Considere primeiro o teste que rejeita H0 se e somente se todas as observações são sucesso. A função poder deste teste é β1 (θ) = Pθ (X ∈ R) = Pθ (X = 5) = θ5 . Analisando a função gerada por β1 (θ), podemos decidir que embora a probabilidade do erro do tipo I seja aceitavelmente baixa (β1 (θ) ≤ 0, 55 = 0, 0312) para todo θ ≤ 0, 5, a probabilidade do erro do tipo II é alta (β1 (θ) também é pequena) para θ > 0, 5. A probabilidade do erro do tipo II é menor que 0,5 apenas se θ > 0, 51/5 = 0, 87. Para alcançar menor erro do tipo II podemos considerar um teste que rejeita H0 se X = 3, 4 ou 5. A função poder para este teste é 5 4 5 5 5 3 θ (1 − θ)0. β2 (θ) = Pθ (X = 3, 4 ou 5) = θ (1 − θ)2 + θ (1 − θ)1 + 4 5 3 A função poder β2 (θ) fornece um erro do tipo II menor para θ > 0, 5, porém o erro do tipo I é maior que em β1 (θ). Para decidir entre estes dois testes o pesquisador precisa optar pela estrutura de erro mais aceitável β1 (θ) ou β2 (θ). 36 Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ), com σ 2 conhecido. Um TRV para testar H0 : θ ≤ θ0 contra H1 : θ > θ0 é um teste que X̄−θ0 rejeita H0 se √ > c. A constante c pode ser qualquer número positivo. A função poder σ/n deste teste é β(θ) = Pθ θ0 − θ X̄ − θ0 X̄ − θ θ0 − θ √ > c = Pθ √ >c+ √ = Pθ Z > c + √ . σ/ n σ/ n σ/ n σ/ n sendo Z a distribuição normal padrão. Como θ aumenta de −∞ para +∞, a probabilidade normal aumenta de 0 para 1. Portanto, β(θ) é uma função crescente de θ, com lim β(θ) = 0, lim β(θ) = 1, e β(θ) = α se P (Z > c) = α. θ→−∞ θ→+∞ Tipicamente, a função poder de um teste depende do tamanho amostral, n. Se n pode ser escolhido pelo pesquisador, considere a função poder uma ajuda para determinar o tamanho amostral apropriado. Continuando o exemplo anterior. Suponha que o pesquisador deseja ter um erro tipo I máximo de 0,1 e um erro do tipo II máximo de 0,2 se θ ≥ θ0 + σ. Vamos mostrar como escolher c e n de tal forma que esses erros sejam atingidos, usando um teste que rejeita H0 : θ ≤ θ0 se X̄−θ √0 σ/ n > c. Temos que θ0 − θ β(θ) = Pθ Z > c + √ . σ/ n β(θ) é crescente em θ, os requisitos serão atingido se β(θ0 ) = 0, 1 e β(θ0 + σ) = 1 − 0, 2 = 0, 8. Escolhendo c = 1, 28, temos β(θ0 ) = P (Z > 1, 28) = 0, 1, independente de n. Agora, √ desejamos escolher n tal que β(θ0 + σ) = P (Z > 1, 28 − n) = 0, 8, logo temos n = 4, 49, mas n deve ser um número inteiro. Então, escolhendo c = 1, 28 e n = 5 temos um teste com probabilidade de erro controlada conforme as especificações dos pesquisador. Para um tamanho de amostra fixo, é usualmente impossível obter ambos os tipos de erro arbitrariamente pequenos. Para um bom teste, é comum considerar uma restrição no teste que controle o erro do tipo I. Dentro desta classe de testes optamos pelo teste que fornece o menor erro do tipo II. Os dois seguintes itens são úteis quando discutimos teste que controlam o erro do tipo I. • Para 0 ≤ α ≤ 1, um teste com função poder β(θ) tem um tamanho α se supθ∈Θ0 β(θ) = α. 37 • Para 0 ≤ α ≤ 1, um teste com função poder β(θ) é um teste de nível α se supθ∈Θ0 β(θ) ≤ α. Pesquisadores geralmente especificam o nível do teste que desejam usar, escolha típicas são α = 0, 01, 0,05 e 0,10. Estando ciente que, ao fixar o nível do teste, apenas o erro do tipo I está controlado. 4.3 Teste mais poderoso Uma classe de testes de hipóteses muito útil é, construída controlando o erro do tipo I, a classe de teste de hipóteses de nível α, em que a probabilidade de erro do tipo I máxima é α para todo θ ∈ Θ0 . Um bom teste nesta classe também deveria fornecer uma pequena probabilidade de erro do tipo II, isto é, uma função poder grande para θ ∈ Θc0 . Se um teste tem a menor probabilidade de erro do tipo II dentre todos os outros testes nesta classe, ele é o teste mais poderoso na classe de teste de hipóteses de nível α. Esta noção é formalizada na seguinte definição. Seja C a classe de testes de hipóteses H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0 . Um teste na classe C, com função poder β(θ), é um teste uniformemente mais poderoso (UMP) na 0 0 classe C se β(θ) ≥ β (θ) para todo θ ∈ Θc0 e toda função poder β (θ) de um teste na classe C. A classe C envolve todos os testes de nível α. O teste UMP não existe para muitos problemas. Porém, nos problemas em que o teste UMP existe ele deve ser considerado o melhor teste nesta classe. Então, gostaríamos de ter habilidade para identificar o teste UMP se ele existir. O seguinte teorema descreve claramente quais testes são UMP de nível α em situações em que a hipótese nula e a hipótese alternativa consistem de apenas uma distribuição amostral (H0 e H1 são hipóteses simples). Lema de Neyman-Pearson: Considere testar H0 : θ = θ0 contra H1 : θ = θ1 , com a fdp ou fp correspondente a θi sendo f (x|θi ), i = 0, 1, usando um teste com região de rejeição R que satisfaz x ∈ R se f (x|θ1 ) > kf (x|θ0 ) e x ∈ Rc se f (x|θ1 ) < kf (x|θ0 ), (4.1) para algum k ≥ 0, e α = Pθ0 (X ∈ R). (4.2) 38 Então a) (Suficiente) Algum teste que satisfaz (4.1) e (4.2) é UMP de nível α. b) (Necessário) Se existe um teste satisfazendo (4.1) e (4.2) com k > 0, então todo teste de nível α UMP é um teste de tamanho α (satisfazendo (4.2)) e todo teste de nível α UMP satisfaz (4.1) exceto talvez por um conjunto A satisfazendo Pθ0 (X ∈ A) = Pθ1 (X ∈ A) = 0. Deste resultado segue o corolário. Considere um problema de teste de hipótese conforme colocado no Lema de NeymanPearson. Suponha T (X) uma estatística suficiente para θ e g(t|θi ) a fdm ou fp de T correspondente a θi , i = 0, 1. Então qualquer teste baseado em T com região de rejeição S (um subconjunto de espaço amostral de T ) é um teste UMP de nível α satisfazendo t ∈ S se g(t|θ1 ) > kg(t|θ0 ) e t ∈ S c se g(t|θ1 ) < kg(t|θ0 ), para algum k ≥ 0, e α = Pθ0 (T ∈ S). A seguir segue um exemplo da construção de um teste UMP. Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ), com σ 2 conhecido. A média amostral é uma estatística suficiente para θ. Considere testar H0 : θ = θ0 contra H1 : θ = θ1 , sendo θ0 > θ1 . Pela inequação g(x̄|θ1 ) > kg(x̄|θ0 ), é equivalente a x̄ < (2σ 2 log k)/n − θ02 + θ12 . 2(θ1 − θ0 ) O fato de θ1 − θ0 > 0 foi usado para obter a inequação. O lado direito aumenta de −∞ para +∞ como k aumenta de 0 para +∞. Então, pelo corolário, o teste com região de rejeição x̄ < c é um teste UMP de nível α sendo α = Pθ0 (X̄ < c). Se um particular α é √ especificado, então o teste UMP rejeita H0 se X̄ < c = −σzα/2 / n + θ0 . Esta escolha de c garante Pθ0 (T ∈ S). Note que o Lema de Neyman-Pearson é apenas aplicável em situações em que hipótese simples são especificadas. Em problemas mais realistas, as hipóteses de interesse especificam mais que um possível valor para a distribuição amostral (hipótese compostas). Tal definição requer um teste UMP mais poderoso em cada θ ∈ Θ0 individualmente, desta 39 forma o Lema de Neyman-Pearson pode ser usado para encontrar um teste UMP em problemas envolvendo hipóteses compostas. Em particular, hipóteses que afirmam que um parâmetro univariado é grande, por exemplo, H : θ ≥ θ0 , ou pequeno, por exemplo, H : θ < θ0 , são chamadas de hipóteses unilaterais. Hipóteses que afirmam que um parâmetro é também grande ou pequeno, por exemplo, H : θ 6= θ0 , são chamados de hipóteses bilateriais. Uma grande classe de problemas que admite um teste UMP de nível α envolve hipóteses unilaterais e fdp ou fp com propriedade de razão de verossimilhança monótona. A família de fdps ou fps {g(t|θ) : θ ∈ Θ} para uma variável aleatória univariada T com parâmetro assumindo valores nos Reais tem razão de verossimilhança monótona (RVM) se, para todo θ2 > θ1 , g(t|θ2 )/g(t|θ1 ) é uma função monótona (não crescente ou não decrescente) em t em {t : g(t|θ1 ) > 0 ou g(t|θ2 ) > 0}. Note que c/0 é definido como +∞ se 0 < c. Muitas famílias de distribuições têm RVM. Por exemplo, a normal (variância conhecida, média desconhecida), poisson, binomial. De fato, qualquer membro regular da família exponencial com g(t|θ) = h(t)c(θ)ew(θ)t tem RVM se w(θ) é uma função não decrescente. Karlin-Rubin: Considere testar H0 : θ ≤ θ0 contra H1 : θ > θ0 . Suponha que T é uma estatística suficiente para θ e a família de fdps ou fps {g(t|θ) : θ ∈ Θ} de T tem RVM. Então para qualquer t0 , o teste que rejeita H0 se e somente se T > t0 é UMP de nível α, sendo Pθ0 (T > t0 ) = α. Exemplo: Seja X uma amostra aleatória de tamanho n de uma população N (θ, σ 2 ), com σ 2 conhecido. A média amostral é uma estatística suficiente para θ. Considere testar H0 : θ = θ0 contra H1 : θ = θ1 , sendo θ0 > θ1 . Vimos pelo exemplo anterior que um teste UMP de nível α rejeita H0 se σzα/2 X̄ < − √ + θ0 . n 0 0 Agora, suponha testar H0 : θ ≥ θ0 contra H1 : θ < θ0 . Como X̄ é uma estatística suficiente para θ e sua distribuição (X̄ ∼ N (θ, σ 2 /n), σ 2 conhecido) tem RVM, então o teste é UMP de nível α para o problema. Como a classe de testes UMP de nível α é muito ampla, nem sempre é possível obter um teste que domine todos os outros em termos da função poder. Nestes casos. é comum considerar uma subclasse dos testes UMP de nível α. 40 4.4 P-valor Após um teste de hipótese ter sido feito, a conclusão deve ser relatada de alguma forma estatisticamente significativa. Um método para descrever o resultado de um teste de hipótese é reportar os tamanho, α, do teste usado na decisão de rejeitar H0 ou aceitar H0 . O tamanho de um teste carrega muita informação. Se α é pequeno, a decisão para rejeitar H0 é bastante convincente, mas se α é grande, a decisão para rejeitar H0 não é convincente, porque o teste tem uma alta probabilidade de fazer a decisão incorretamente. Outra forma de reportar o resultado de um teste de hipóteses é calcular o valor do tipo de incerteza da estatística de teste, chamada de p-valor. Um p-valor p(X) é uma estatística de teste satisfazendo 0 ≤ p(x) ≤ 1 para todo ponto amostral x. Valores pequenos de p(X) fornecem evidência que H1 é verdade. Um p-valor é válido se, para todo θ ∈ Θ0 e todo 0 ≤ α ≤ 1, Pθ0 (p(X) ≤ α) ≤ α. Se p(X) é um p-valor válido, é fácil construir um teste de nível α baseado em p(X). Uma vantagem de mostrar o resultado de um teste via p-valor é que cada leitor o α que considere mais apropriado e então podemos comparar o valor p(x) com α, e saber quando estes dados conduzem a rejeição ou aceitação de H0 . Entretanto, menores valores do p-valor fornecem mais fortes evidências para rejeitar H0 . Então, o p-valor fornece o resultado de um teste em uma escala contínua, melhor que apenas aceita ou rejeita H0 . Capítulo 5 Análise de Regressão Logística Embora a regressão logística seja conhecida desde os anos 50, tornou-se popular no início da década de 70 com a introdução dos modelos lineares generalizados (MLG). Os MLG descrevem uma relação entre a média da variável resposta E(Yi ) e variáveis independentes (x1 , x2 , . . . , xp ). Diferentes modelos podem ser expressos como MLG, entre ele o modelo de regressão logística. O objetivo deste resumo é apresentar a construção do modelo de regressão logística, o processo estimação dos parâmetros via estimador de máxima verossimilhança, a construção de testes de hipótese simples para verificar a relevância de uma covariável no modelo, e uma análise de resíduos. 5.1 O modelo Suponha que as variáveis resposta Y1 , . . . , Yn (ou Yi , i = 1, . . . , n) associadas aos indivíduos (ou unidades experimentais) sejam a soma de mi sequências de respostas binárias independentes com probabilidade de sucesso comum πi , ou seja, Yi ∼ Bin(mi , πi ). Desta forma, E(Yi ) = mi πi , como mi é considerado conhecido, modelar a média da variável resposta mi πi é equivalente a modelar πi . Lembre-se que a distribuição Binomial pertence a família exponencial, logo este problema pode ser visto como um caso particular do MLG. Em muitos estudos, cada indivíduo tem associando a ele um vetor de covariáveis x = (x1 , x2 , . . . , xp ), que são informações prováveis a influenciar a probabilidade de resposta positiva (sucesso). O interesse estatístico é verificar a relação entre a probabilidade de resposta π = π(x) e as covariáveis x = (x1 , . . . , xp ). Para investigar esta relação é 41 42 conveniente estabelecer um modelo formal. Na prática, a construção deste modelo necessita que algumas suposições sejam assumidas, por exemplo a independência entre os indivíduos, linearidade da componente sistemática e outras. Estas suposições não podem ser garantidas, mas podem ser checadas. Suponha que a relação entre π e x ocorre por meio de uma combinação linear, em MLG chamada de parte sistemática do modelo, η= p X xj βj , com x0 = 0, j=0 sendo β0 , β1 . . . , βp coeficientes desconhecidos, e βj ∈ <. Para expressar π como uma combinação linear de x devemos usar uma transformação g(π) que retorne valores no reais, em MLG esta transformação é conhecida como função de ligação, g(πi ) = ηi = p X xij βj , i = 1, . . . , n. j=0 Algumas funções de ligação g(πi ) podem ser utilizadas. Três funções são mais comuns: • A logito ou função logística: g1 (π) = log(π/(1 − π)) (modelo de regressão logística); • A probito ou função normal inversa: g2 (π) = Φ−1 (π) (modelo de regressão probito); • A função complementar log-log: g3 (π) = log{− log(1 − π)}. A quarta possibilidade, a função log-log: g4 (π) = − log{− log(π)}. Todas as quatro funções são contínuas e crescentes no (0,1). A partir daqui, todo o desenvolvimento será baseado na função logística, uma vez que o interesse é analisar o modelo de regressão logística. Portanto, podemos escrever o link da parte sistemática do modelo com a probabilidade de sucesso por meio de X p πi log = xij βj . 1 − πi j=0 Suponha que p = 2, então, o modelo pode ser escrito em termos da chance (odds) de respostas positivas, log πi 1 − πi = β0 + β1 xi1 + β2 xi2 ou pela probabilidade de resposta positiva πi = exp{β0 + β1 xi1 + β2 xi2 } . 1 + exp{β0 + β1 xi1 + β2 xi2 } 43 Supondo que xi1 e xi2 não são funcionalmente relacionadas, o efeito de uma unidade de mudança em xi2 é o aumento da chance por uma quantidade β2 . Equivalentemente, efeito de uma unidade de mudança em xi2 é o aumento da chance de uma resposta positiva multiplicativamente pelo fator exp{β2 }. xi1 está fixa e não permite variar com as consequências de mudança em xi2 . As declarações correspondentes dadas na escala da probabilidade são mais complicadas devido ao efeito de πi de uma unidade de mudança em xi2 depende dos valores de xi1 e xi2 . A derivada de πi em relação a xi2 dπi = β2 πi (1 − πi ). dxi2 Então, uma pequena mudança em xi2 tem um grande efeito, como medida na escala de probabilidade, se πi é próximo de 0,5 e se πi é próximo de 0 ou 1. 5.2 Função de Verossimilhança As respostas y1 , . . . , yn são realizações independentes das variáveis aleatórias Y1 , . . . , Yn , tal que Yi segue uma distribuição binomial com parâmetros mi e pi . Inicialmente iremos escrever a função de log-verossimilhança de π e posteriormente considerar como uma função dos coeficientes de regressão. A função de log-verossimilhança de π dado y = (y1 , . . . , yn ) pode ser escrita na forma `(π; y) ∝ n X yi log i=1 como log(πi /(1 − πi )) = ηi , com ηi = `(β; y) ∝ p n X X i=1 j=1 Pp πi 1 − πi j=0 yi xij βj − + mi log(1 − πi ) . xij βj , então n X i=1 mi log 1 + exp p X ! xij βj . j=1 Observe que naturalmente obtemos como sugestão a função de ligação logística, pois o termo log(πi /(1 − πi )) é o parâmetro natural (canônico) da família exponencial, a logverossimilhança depende de y apenas por meio da combinação linear ηi . Essa combinação é dita ser suficiente para β. 5.2.1 Estimação dos Parâmetros O método de estimação mais comumente utilizado é o de máxima verossimilhança. Vejamos a obtenção das derivadas da log-verossimilhança em relação aos parâmetros β. 44 Primeiro, considere a derivada da função de log-verossimilhança com respeito a πi yi − mi πi ∂` = ∂πi πi (1 − πi ) Usando a regra da cadeia, a derivada com respeito a βr é n n X ∂` ∂πi X yi − mi πi ∂πi ∂` = = . ∂βr ∂πi ∂βr π (1 − πi ) ∂βr i=1 i=1 i É conveniente expressar ∂πi /∂βr como produto ∂πi ∂πi ∂ηi = = πi (1 − πi )xir . ∂βr ∂ηi ∂βr Logo, a derivada da log-verossimilhança com respeito a βr é n n X yi − mi πi ∂πi ∂ηi X ∂` = = (yi − mi πi )xir . ∂βr π (1 − π ) ∂η ∂β i i i r i=1 i=1 (5.1) Portanto, 0 ` (β) = ∂` = X > (Y − µ), ∂β sendo µ = (m1 π1 , . . . , mn πn ), quando escrito em notação matricial. Ao utilizar a função de ligação canônica a matriz Hessiana (matriz de segundas derivadas avaliada nos estimadores de máxima verossimilhança) coincide com a matriz de informação de Fisher. Logo, o método de Scores de Fisher se reduz ao método de Newton-Rapson. Vejamos a obtenção da derivada de segunda ordem em relação aos parâmetros β é " n # ∂ 2` ∂ ∂` ∂ ∂` ∂πi ∂ηi ∂ X = = = (yi − mi πi )xir ∂βr ∂βs ∂βs ∂βr ∂βs ∂πi ∂ηi ∂βr ∂βs i=1 = − n X i=1 n mi xir X ∂πi ∂ηi =− mi πi (1 − πi )xir xis . ∂ηi ∂βs i=1 Logo, 00 ` (β) = −X > W X, sendo W uma matriz diagonal de pesos dada por W = diag {mi πi (1 − πi )} . A solução das derivadas de primeira ordem em β retornam os estimadores de máxima verossimilhança. Porém, a solução envolve um sistema de equações não lineares que necessitam de um método iterativo para serem resolvidas. Ou seja, os parâmetros da regressão só podem ser obtidos iterativamente. Seguindo um algoritmo de Newton-Rapson as estimativas podem ser obtidas da seguinte forma: 45 (0) (0) (0) 1. Inicializar o vetor de regressão β (0) = (β0 , β1 , . . . , βp ). (0) 2. Obter µ(0) , sendo µi (0) (0) = mi πi , com πi (0) (0) = g −1 (ηi ) e ηi = Pp j=0 (0) xij βj , i = 1, . . . , n. (0) (0) 3. Construir a matriz diagonal de pesos W (0) , com wii = mi πi (1−πi )(0) , i = 1, . . . , n. 4. Calcular a atualização de β (0) , dada por 00 0 β (1) = β (0) + (−` (β (0) ))−1 ` (β (0) ) = β (0) + (X > W (0) X)−1 X > (y − µ(0) ). 5. Repetir passos (2)-(4) até a convergência dos parâmetros, ou seja, até que |β (s) − β (s−1) | < , é um valor arbitrário próximo de zero. Falta de convergência raramente é um problema, a menos que um ou mais componentes do β̂ sejam infinito, que usualmente implica que alguma das probabilidades serem zero ou um. 5.2.2 Intervalos de Confiança Sob condições gerais de regularidade a distribuição assintótica para √ n(β̂ − β) −→D Np (0, I −1 (β)) sendo I −1 (β) a matriz de informação de Fisher, que ao considerar a função de ligação canônica coincide com a matriz Hessiana. O intervalo de confiança assintótico, com nível de confiança 100(1−α)%, para o r-ésimo componente do vetor de parâmetros β, βr , r, = 1, . . . , p, pode ser calculado utilizando q −1 β̂r ± zα/2 J(r) (β̂) , (5.2) em que zα/2 é o valor do (α/2)-ésimo quantil superior da distribuição normal padrão e 00 −1 J(r) (β̂) é o r-ésimo elemento da diagonal principal da inversa de −` (β̂), que corresponde ao estimador da variância do estimador de interesse. 46 5.3 Função Desvio A função desvio é definida como duas vezes a diferença entre o máximo atingido pela log-verossimilhança e o máximo alcançado sob o modelo ajustado. Sob qualquer modelo, H0 , com probabilidades ajustadas π̂, a função de log-verossimilhança é `(π̂; y) = n X {yi log π̂ + (mi − yi ) log(1 − π̂)} . i=1 O máximo atingido pela log-verossimilhança é obtido no ponto π̃i = yi /mi , mas esse ponto normalmente não ocorre sob H0 . A função desvio é portanto D(y; π̂) = 2`(π̃; y) − 2`(π̂; y) n X mi − yi = 2 yi log(yi /µ̂i ) + (mi − yi ) log . mi − µ̂i i=1 Esta função se comporta de forma semelhante a soma de quadrados de resíduos ou soma de quadrados de resíduos ponderados em modelos de regressão linear. A adição de covariáveis no modelo ajustado tem o efeito de reduzir D. Frequentemente é afirmado que a variável aleatória D(Y ; π̂) segue assintoticamente uma distribuição qui-quadrado com n − p graus de liberdade, sendo p o número de parâmetros ajustados sob H0 . Este resultado é então usado como justificativa do uso de D como estatística de bondade do ajuste para testar a adequação do modelo ajustado. A função deviance é quase inútil como uma medida absoluta de bondade de ajuste, mas interessante para comparar dois modelos encaixado. 5.4 Teste de Hipóteses Simples Suponha que o interesse é testar a relevância de uma variável independente Xr , ou seja, testar as hipóteses H0 : βr = 0 contra H1 : βr 6= 0. As funções deviance correspondente aos modelos sob H0 e H1 serão denotadas por D(y; π̂ sem ) e D(y; π̂ com ), respectivamente, sendo π̂ sem a estimativa de máxima verossimilhança sob H0 . Com o propósito de assegurar a significância de uma variável independente Xr , comparamos o valor da função deviance com e sem a variável no preditor linear. A mudança em D devido a inclusão da variável no modelo é obtida da seguinte maneira: G = {D(y; π̂ sem ) − D(y; π̂ com )}. 47 Podemos então escrever a estatística G como G∗ = −2{`(β̂ sem ; y) − `(β̂ com ; y)}. Sob a hipótese nula, a estatística G∗ segue uma distribuição chi-quadrado com 1 grau de liberdade. Rejeitamos a hipótese nula para valores grandes de G∗ (a variável Xr deve permanecer no modelo). 5.5 Análise de Resíduos Uma etapa importante na análise de um ajuste de regressão é a verificação de possíveis afastamentos das suposições feitas para o modelo, especialmente para a parte aleatória e para a parte sistemática, bem como a existência de observações extremas com alguma interferência desproporcional nos resultados do ajuste. Os resíduos indicam a presença de observações anômalas que necessitam de uma maior investigação. Esta análise pode ser conduzida por meio dos resíduos da função desvio, definidos por p rd = sinal(yi − µ̂i ) di com mi − yi di = 2 yi log(yi /µ̂i ) + (mi − yi ) log , mi − µ̂i sendo que Pn i=1 di = D(y; π̂). Se a medida de discrepância pode ser mesurada pela função desvio, intuitivamente cada observação apresenta sua contribuição para a medida global. Portanto, valores grandes de rd são passiveis a maior investigação. Capítulo 6 Análise Discriminante Usamos o termo grupo para representar tanto a população ou uma amostra da população. Existem dois principais objetivos na separação dos grupos: 1. Definição da separação do grupo, em que funções lineares das variáveis (funções discriminantes) são usadas para descrever ou explicar as diferenças entre dois ou mais grupos. Os objetivos da análise discriminante incluem identificar a contribuição relativa das p variáveis para discriminação dos grupos e encontrar o plano ideal no qual os pontos podem ser projetados para ilustrar melhor a configuração dos grupos. 2. Previsão ou atribuição de observações a grupos, em que as funções de classificação (funções das variáveis lineares ou quadráticas) são utilizadas para designar uma unidade amostral para um dos grupos. O vetor de observação das variáveis relevantes, para uma pessoa (objeto) é avaliado nas funções de classificação e o indivíduo é alocado no grupo mais provável. O interesse deste resumo é apresentar formas de discriminar indivíduos quando a distribuição da população é conhecida e quando a distribuição da população não é conhecida. Apesar de estarem claramente interligadas a análise discriminante e a classificação, não devem ser confundidas. A análise discriminante se refere aos métodos de atribuição de classes a determinados conjunto de dados. Já a classificação se refere a alocação de novas observações nos grupos pré-definidos. Na análise discriminante é determinado um conjunto de coeficientes associados a variáveis independentes que forneçam uma ponderação linear capaz de extrair a maior quantidade possível de informação quanto à classificação dos indivíduos nos grupos. Ela visa 48 49 maximizar a variância entre grupos (intergrupal) em relação à variância dentro dos grupos (intragrupal), considerando amostras previamente classificadas dos diversos grupos. Em geral temos populações Πj , j = 1, 2, . . . , s, e queremos alocar uma observação x em um destes grupos. Uma regra discriminante é uma separação do espaço amostral em conjuntos Rj tal que se x ∈ Rj , ele é definido como membro da população Πj . A principal tarefa da análise discriminante é encontrar boas regiões Rj tal que o erro de classificação seja pequeno. Primeiramente iremos descrever regras quando as distribuições da população são conhecidos. 6.1 Regra Discriminante de Máxima Verossimilhança Denote a densidade de cada população Πj por fj (x). A regra discriminante de máxima verossimilhança (regra MV) é dada pela alocação de x em Πj que maximiza a verossimilhança Lj (x) = fj (x) = maxi fi (x). Se vários fi retornam o mesmo máximo, então qualquer um deles pode ser selecionado. Matematicamente, os conjuntos Rj dados pela regra MV são definidos como Rj = {x : Lj (x) > Li (x) para i = 1, . . . , s, i 6= j}. Ao alocar a observação em um determinado grupo, podemos cometer erro de classificação. Para s = 2 grupos a probabilidade de alocar x no grupo 2 embora pertença a população 1 pode ser calculada como Z p21 = P (X ∈ R2 |Π1 ) = f1 (x)dx. R2 Similarmente, a probabilidade condicional de classificar um objeto como pertencente a primeira população Π1 embora, na verdade, venha da população Π2 é Z p12 = P (X ∈ R1 |Π2 ) = f2 (x)dx. R1 As observações mal classificadas criam um custo C(i|j) quando a observação da população Πj é atribuída a Ri . A estrutura de custo pode ser ilustrada em uma matriz de custos: 50 População População Classificada Verdadeira Π1 Π2 Π1 0 C(2|1) Π2 C(1|2) 0 Seja πj a probabilidade a priori de uma população Πj , sendo que o termo probabilidade a priori significa a probabilidade que um indivíduo selecionado aleatoriamente da população pertença a Πj (antes da observação da amostra, ou seja, dos valores de x). Probabilidades a priori deve ser consideradas se é claro de antemão que uma observação é mais provável que resultam de uma determinada população Πj . O custo esperado de má classificação (CEMC) é dado por CEMC = C(2|1)p21 π1 + C(1|2)p12 π2 . Estaremos interessado em regras de classificação que mantêm o CEMC menor, ou que minimizam o CEMC sobre uma classe de regras. A regra discriminante que minimiza ECMC para duas populações é dada por f1 (x) C(1|2) π2 R1 = x: ≥ f2 (x) C(2|1) π 1 C(1|2) π2 f1 (x) < . R2 = x: f2 (x) C(2|1) π1 A regra MV é então um caso particular da regra CEMC para o custo de má especificação igual e probabilidades a priori iguais. Exemplo: Suponha x ∈ {0, 1} e Π1 : P (X = 0) = P (X = 1) = 1/2 Π2 : P (X = 0) = 1/4 = 1 − P (X = 1). O espaço amostral é o conjunto {0, 1}. A regra MV de discriminação aloca x = 0 para Π1 , pois {f1 (0) > f2 (0)} e x = 1 para Π2 , pois {f1 (1) < f2 (1)}, definindo os conjuntos R1 = {0} e R2 = {1}, com R1 ∪ R2 = {0, 1}. Exemplo: Considere duas populações normais Π1 : N (µ1 , σ12 ) Π2 : N (µ2 , σ22 ). 51 Então, ( 1 Li (x) = (2πσi2 )1/2 exp − 2 x − µi σi 2 ) , portanto x é alocado em Π1 (x ∈ R1 ) se L1 (x) ≥ L2 (x). Note que L1 (x) ≥ L2 (x) é equivalente a ( 2 ) 2 ) x − µ 1 x − µ 1 1 1 > (2πσ12 )1/2 exp − (2πσ12 )1/2 exp − 2 σ1 2 σ1 ( " 2 2 #) σ2 1 x − µ1 x − µ2 exp − − ≥ 1. σ1 2 σ1 σ2 ( Na situação simplificada em que as variâncias são comuns σ1 = σ2 = σ, temos 1 2 2 ≥ 0 exp − 2 [(x − µ1 ) − (x − µ2 ) ] 2σ 1 x ≤ (µ1 + µ2 ). 2 A regra discriminante (para µ1 < µ2 ) fornece x → Π1 , se x ∈ R1 = {x : x ≤ 1/2(µ1 + µ2 )} x → Π2 , se x ∈ R2 = {x : x > 1/2(µ1 + µ2 )}. A regra discriminante MV para observações multinomiais está intimamente conectada com a distância de Mahalanobis. A regra discriminante está baseada em uma combinação linear e pertence a família de métodos de análise discriminante linear (ADL). Teorema: Suponha Πi = Np (µi , Σ). (a) A regra MV que aloca x em Πj , sendo j ∈ {1, 2, . . . , s} é o valor que minimiza a raiz da distância de Mahalanobis entre x e µi δ 2 (x, µi ) = (x − µi )> Σ−1 (x − µi ), i = 1, . . . , s. (b) No caso em que s = 2, x ∈ R1 ↔ α> (x − µ) ≥ 0, sendo α = Σ−1 (µ1 − µ2 ) e µ = 1/2(µ1 + µ2 ). Demonstração: A parte (a) segue diretamente da comparação das verossimilhanças. 52 Para s = 2, a parte (a) diz que x é alocado em Π1 se (x − µ1 )> Σ−1 (x − µ1 ) ≤ (x − µ2 )> Σ−1 (x − µ2 ) −1 > −1 > −1 > −1 −2µ> 1 Σ x + 2µ2 Σ x + µ1 Σ µ1 − µ2 Σ µ2 ≤ 0, que é equivalente a 2(µ2 − µ1 )> Σ−1 x + (µ1 − µ2 )> Σ−1 (µ1 + µ2 ) ≤ 0 1 > −1 x − (µ1 + µ2 ) ≥ 0 (µ2 − µ1 ) Σ 2 α> (x − µ) ≥ 0. 6.2 Regra Discriminante de Bayes Denote a distribuição a priori por πj e note que Ps j=1 πj = 1. A regra discriminante de Bayes aloca x em Πj que fornece o maior valor de πj fj (x), πj fj (x) = maxi πi fi (x). Então, a regra discriminante é definida por Rj = {x : πj fj (x) ≥ πi fi (x), para i = 1, . . . , s}. A regra de Bayes tem como caso particular a regra MV para πj = 1/s. Uma importante modificação está em alocar x em Πj com uma certa probabilidade P φj (x), tal que si=1 φj (x) = 1 para todo x. Isso é chamado de regra discriminante aleatorizada. A regra discriminante aleatorizada é uma generalização da regra discriminante determinística desde que 1 φj (x) = 0 se πj fj (x) = maxi πi fi (x) caso contrário refletindo a regra determinística. Qual regra discriminante é melhor? Precisamos de uma medida de comparação. Denote Z pij = φi (x)fi (x)dx como a probabilidade de alocação de x em Πi se de fato ele pertence a Πj . Uma regra discriminante com probabilidades pij é tão boa quanto qualquer outra regra discriminante 0 com probabilidades pij se 0 pii ≥ pii para todo i = 1, . . . , s. (6.1) Dizemos que a primeira regra é melhor se a desigualdade estrita em (6.1) tem pelo menos um i. Uma regra discriminante é chamada de admissível se não há uma regra 53 discriminante melhor. Todas as regras discriminantes de Bayes (incluindo a regra ML) são admissíveis. 6.3 Classificação com diferentes matrizes de covariância O mínimo de CEMC depende da razão de densidades f1 (x)/f2 (x) ou equivalentemente da diferença log{f1 (x)} − log{f2 (x)}. Quando a covariância das funções densidades é diferente, a regra de alocação se torna mais complicada 1 > −1 C(1|2) π2 −1 > −1 > −1 R1 = x : − x (Σ1 − Σ2 )x + (µ1 Σ1 − µ2 Σ2 )x − k ≥ log 2 C(2|1) π 1 1 π2 C(1|2) −1 > −1 > −1 R2 = x : − x> (Σ−1 , 1 − Σ2 )x + (µ1 Σ1 − µ2 Σ2 )x − k < log 2 C(2|1) π1 −1 > −1 sendo k = log{(det Σ1 / det Σ2 ) + 1/2(µ> 1 Σ1 µ1 − µ2 Σ2 µ2 )}. As regiões de classificação são definidas por funções quadráticas. Por isso, pertencem à família de métodos de Análise Discriminante Quadráticas (ADQ). Esta regra de classificação quadrática coincide com as regras utilizadas quando Σ1 = Σ2 , então o termo −1 (1/2)x> (Σ−1 1 − Σ2 )x desaparece. 6.4 Regra de Discriminação na Prática A regra MV é utilizada, se a distribuição dos dados é conhecida inclusive os valores dos parâmetros. Suponha, por exemplo, que os dados provêm de distribuições normais multivariadas Np (µj , Σ). Se temos s grupos com nj observações em cada grupo, usamos x̄j para estimar µj e Sj para estimar Σ. A covariância comum pode ser estimada pela Su = s X j=1 com n = Ps i=1 nj Sj n−s , nj . Então a versão empírica da regra MR do Teorema é alocar uma nova observação x em Πj tal que j minimiza (x − x̄i )> Su−1 (x − x̄i )> para i ∈ {1, 2, . . . , s}. 54 6.5 Função Discriminante Linear de Fisher A ideia de Fisher para uma regra de discriminação teve como base uma projeção a> x, tal que a regra separe ao máximo possível as populações com maior similaridade possível dentro do grupo. Esta análise discriminante linear é chamada de Função Discriminante Linear de Fisher (FDLF). Se Y = Xa denota a combinação linear das observações, então a soma de quadrados total de y, P 2 i=1 n(yi − ȳ) , é igual a Y > HY = a> X > HXa = a> T a, > com matriz de centralidade H = I − n−1 1n 1> n e T = X HX. Supondo que temos amostras Xj , j = 1, . . . , s, das s populações. Fisher sugeriu encontrar uma combinação linear a> x que maximiza a razão entre a soma de quadrados entre-grupo e a soma de quadrados intra-grupo. A soma dos quadrados intra-grupo é dada por s X Yj> Hj Yj = j=1 s X a> Xj> Hj Xj a = a> W a, j=1 sendo que Yi denota a j-ésima submatriz de Y correspondente as observações do grupo j e Hj denota a matriz de centralidade (nj × nj ). A soma de quadrados intra-grupo mensura a soma das variações dentro de cada grupo. A soma dos quadrados entre-grupo é s X j=1 nj (ȳj − ȳ)2 = s X nj {a> (x̄j − x̄)2 } = a> Ba, j=1 sendo ȳj e x̄j denotam as médias de Yi e Xi e ȳ e x̄ denotam as médias amostrais de Y e X. A soma de quadrados entre-grupo mede a variação através dos grupos. A soma de quadrados total é a soma de quadrados intra-grupo e a soma de quadrados entre-grupo, isto é, a> T a = a> W a + a> Ba. A idéia de Fisher foi selecionar um vetor de projeção que maximiza a razão a> Ba a> W a (6.2) 55 O problema de identificar a combinação linear que maximiza a discriminação em (6.2), é um caso particular do problema geral de maximização de um quociente de formas quadráticas. Então, se W é uma matriz positiva definida o vector de coeficientes a que se procura é o vector próprio da matriz W −1 B associado ao maior valor próprio de W −1 B. Agora a regra de discriminação é obtida ao classificar x no grupo j onde a> x̄j está mais próxima de a> x, isso é, x → Πj onde j = arg min |a> (x − x̄i )|. i Para s = 2 grupos, a regra discriminante é mais simples de ser calculada. Suponha que o grupo 1 tem n1 elementos e o grupo 2 tem n2 elementos. Neste caso, B= n n 1 2 dd> , n sendo d = (x̄1 − x̄2 ). W −1 B tem apenas um autovalor que vale tr(W −1 B) = n n 1 2 d> W −1 d, n e o correspondente autovetor é a = W −1 d. A correspondente regra de discriminação é x → Π1 , se a> {x − 1/2(x̄1 + x̄2 )} > 0 x → Π2 , se a> {x − 1/2(x̄1 + x̄2 )} ≤ 0. A regra de alocação é exatamente a mesma que a regra MV para s = 2 grupos e para distribuições normais com a covariância comum. Para s = 3 grupos esta regra será diferente, exceto para o caso especial de médias amostrais colineares. Exemplo: Considere um conjunto de dados que consistem de n = 32 crânios coletados em dois diferentes locais. n1 = 17 deles encontrado em túmulos próximos do Tibete (tipo I) e os outros n2 = 15 coletado no campo de batalha, no distrito de Lhasa (tipo II). Os últimos acredita-se ser de soldados nativos de uma província oriental e eram de interesse particular, pois poderiam ser sobreviventes de um tipo humano não relacionado com os das regiões que os cercavam. Para cada um destes 32 crânios foram observados, todas em milímetros, as seguintes medidas: • xi1 : maior comprimento do crânio (tamanho), • xi2 : maior amplitude horizontal do crânio (largura), 56 • xi3 : altura do crânio (altura), • xi4 : altura facial superior (altura da face), • xi5 : amplitude face, entre pontos extremos dos ossos da face (largura da face), i = 1, . . . , 32. A primeira tarefa é realizar sobre estes dados é testar a hipótese de que os vetores de cinco dimensões médias das medidas cranianas são os mesmos em ambas as populações de onde as amostras possam surgir. Supondo que os vetores de médias de tipos I e II de crânios não são o mesmo, a próxima etapa é estabelecer uma regra de classificação de aspectos agrupados dos dados multivariados. Suponha que um crânio ainda está descoberto, cuja origem é desconhecida, ou seja, não sabemos se ele é do tipo I ou do tipo II. O objetivo é encontrar uma forma de classificar as observações em um dos dois grupos utilizando o conjunto de variáveis x = (x1 , x2 , . . . , xq ). O objetivo é encontrar uma forma de classificar as observações em um dos dois grupos utilizando o conjunto de variáveis x = (x1 , x2 , . . . , xq ). Para este conjunto de dados o vetor da função discriminante e o limiar entre os grupos são respectivamente a> = (−0, 0893, 0, 156, 0, 005, −0, 177, −0, 177) e (ȳ1 + ȳ2 )/2 = −30, 363, logo a regra de classifica como grupo I se −0, 0893xi1 + 0, 156xi2 + 0, 005xi3 − 0, 177xi4 − 0, 177xi5 > −30, 363. Como resultado, a análise discriminante é um sistema de escores. O escore é determinado multiplicando-se o peso discriminante pelo valor de cada variável independente do indivíduo e somando-se os resultados. Uma vez que esse escore é determinado, o indivíduo é classificado como pertencente a um dos grupos analisados. Por exemplo, suponha que as medidas de dois novos crânios foram obtidas, assim Crânio 1: −0, 0893∗171, 0+0, 156∗140, 5+0, 005∗127, 0−0, 177∗69, 5−0, 177∗137, 0 = −29, 27 > −30, 363, Crânio 2: −0, 0893∗179, 0+0, 156∗132, 0+0, 005∗140, 0−0, 177∗72, 0−0, 177∗138, 5 = −31, 95 < −30, 363. 57 Comparando os valores dos escores com o limiar -30,363, classificamos o crânio 1 como tipo I e o crânio 2 como tipo II. A função discriminante linear de Fisher é ideal quando os dados surgem de populações com distribuição normal multivariada com as matrizes de covariância comum. Quando as distribuições não são claramente de uma normal uma abordagem alternativa é a discriminação logística, embora os resultados de ambos este método de Fisher e é provável que sejam muito semelhantes na maioria dos casos. Quando as duas matrizes de covariância são diferentes a função discriminante linear já não é ótima e uma versão quadrática pode ser necessária. A função discriminante quadrática possui a vantagem de uma maior flexibilidade em comparação com a versão linear. Existe, contudo, uma penalidade envolvido na forma de superajuste (overfitting) potencial, tornando a função derivada pobre em classificar novas observações. 6.6 Desempenho de uma função discriminante Uma forma de avaliar o desempenho de uma função discriminante é aplicar a regra de classificação para os dados a partir do qual foi derivada a regra de classificação e calcular a taxa de erro cometida (esta técnica é conhecida como a plug-in estimativa). Seja a matriz contendo o número de observações com n11 e n22 o número de observações corretamente alocado pelo método e n12 e n21 o número de observações com erro de classificação. População de origem População alocada Π1 Π2 Π1 n11 n12 Π2 n21 n22 Portanto, podemo obter a taxa de erro de classificação como sendo (n12 + n21 )/n ∗ 100. Esta técnica tem a vantagem de ser extremamente simples. Infelizmente, no entanto, que, geralmente, fornece uma estimativa muito pobre da taxa de erro de classificação real. Na maioria dos casos, a estimativa obtida desta maneira será muito otimistas. Um outra forma de avaliar e mais geralmente usada é o chamado Método leaving-one-out, nos quais a função discriminante é derivada a partir de apenas (n − 1) membros da amostra e, em 58 seguida, utilizado para classificar o membro não incluída. O processo realiza-se n vezes, deixando de fora de cada membro de amostra, por sua vez. Esta opção não é muito interessante para um número de observações grande. Exemplo: Considere os resultados obtido pelo conjunto de dados dos crânios. Grupo correto Alocado 1 2 1 14 3 2 3 12 A taxa de erro de classificação é de 19%. 6.7 Diferença entre Análise Discriminante e Análise de Cluster Ao considerar os grupos de objetos em um conjunto de dados multivariada, duas situações podem surgir. Dado um conjunto de dados contendo medições sobre os indivíduos, em alguns casos, nós queremos ver se alguns grupos naturais ou classes de indivíduos existem, e em outros casos, queremos classificar os indivíduos de acordo com um conjunto de grupos existentes. A análise de cluster desenvolve ferramentas e os métodos relacionados primeiro caso, isto é, dada uma matriz contendo dados multivariados medições em um grande número de objetos, o objetivo é construir alguns subgrupos naturais ou dos grupos de indivíduos. Isto é feito através do agrupamento indivíduos que são semelhantes, de acordo com algum critério adequado. A análise discriminante aborda a questão de outra questão da classificação. Concentra-se em situações em que os diferentes grupos são conhecidos a priori. Regras de decisão são fornecidos na classificação de um observação multivariada em um dos grupos conhecidos. Capítulo 7 Análise de Agrupamentos (Conglomerados ou Cluster) Ao considerar grupos de objetos com dados multivariada, duas situações podem surgir. Dado um conjunto de dados contendo medições sobre os indivíduos, em alguns casos, nós queremos ver se alguns grupos naturais ou classes de indivíduos existem, e em outros casos, queremos classificar os indivíduos de acordo com um conjunto de grupos existente. A análise de agrupamento desenvolve ferramentas e os métodos relacionados ao primeiro caso, isto é, dada uma matriz contendo dados multivariados, medições em um grande número de objetos, o objetivo é construir alguns subgrupos naturais. Isto é feito através do agrupamento de indivíduos que são semelhantes, de acordo com algum critério adequado. A análise discriminante aborda a outra forma da classificação. Concentra-se em situações em que os diferentes grupos são conhecidos a priori. Regras de decisão são fornecidos para classificar uma observação multivariada em um dos grupos conhecidos. Neste resumo iremos apresentar uma forma de mensurar a proximidade entre objetos considerando uma estrutura binária e variáveis contínua, além disso iremos apresentar um forma de construção de grupos via clusters hierárquicos e outra forma de cluster via particionamento. 7.1 O problema A análise de cluster é um conjunto de ferramentas para a construção de grupos (clusters) de objetos de dados multivariados. O objetivo é a construção de grupos homogêneos 59 60 com propriedades de grandes amostras heterogêneas. Os grupos ou agregados devem ser tão homogêneos quanto possível, e as diferenças entre os vários grupos tão grandes quanto possível. A análise de agrupamento pode ser dividida em dois passos fundamentais. 1. Escolha de uma medida de proximidade: Verifica para cada par de observações (objetos) a semelhança entre os seus valores. A medida de semelhança (proximidade) é definida para mensurar a proximidade dos objetos. Quanto mais próximos eles estiverem, mais homogêneos eles são. 2. Escolha do algoritmo de construção de grupos: Com base na sua medida de proximidade os objetos são atribuídos aos grupos de modo que as diferenças entre os grupos se tornem maiores e entre as observações de um mesmo grupo tornem-se tão pequenas quanto possível. Em marketing, por exemplo, a análise de cluster é usada para selecionar mercadosteste. Outras aplicações incluem a classificação das empresas de acordo com suas estruturas organizacionais, tecnologias e tipos. Na psicologia, análise de cluster é usado para agrupar tipos de personalidades com base em questionários. Na arqueologia, é aplicado para classificar objetos de arte em diferentes períodos de tempo. Em cada caso, uma amostra heterogênea de objetos são analisados com o objetivo de identificar subgrupos homogêneos. 7.2 A proximidade entre objetos O ponto de partida de uma análise de cluster é uma matriz de dados Xn×p com n medições (objetos) de p variáveis. A proximidade (similaridade) entre objetos é descrito por uma matriz Dn×n . A matriz D contém medidas de semelhança ou dissemelhança entre os n objetos. Se os valores são distâncias dij , então eles medem dissimilaridade. Quanto maior a distância, menos semelhantes são os objetos. Se os valores de dij são medidas de proximidade, o oposto é verdadeiro, isto é, quanto maior o valor de proximidade, mais semelhante são os objetos. A matriz de distância, por exemplo, pode ser definida por L2 − norma : dij = ||xi − xj ||2 , onde xi e xj denotam as linhas da matriz X. Distância e similaridade são 0 naturalmente uma dupla. Se dij é uma distância, então dij = maxij {dij } − dij é uma medida de proximidade. 61 A natureza das observações desempenha um papel importante na escolha de medidas de proximidade. Para valores nominais (como variáveis binárias), em geral, são utilizados os valores de proximidade, enquanto que para valores métricos (em geral) as matrizes de distâncias. Nós primeiro apresentamos possibilidades para D no caso binário e então o caso contínuo. 7.2.1 Similaridade de objetos com estrutura binária Para medir a similaridade entre objetos sempre comparamos pares de observações > (xi , xj ), sendo x> i = (xi1 , xi2 , . . . , xip ) e xj = (xj1 , xj2 , . . . , xjp ), e xik , xjk ∈ {0, 1}. Obvi- amente, existem quatro casos: xik = xjk = 1 xik = 0, xjk = 1 xik = 1, xjk = 0 xik = xjk = 0. Definimos a1 = p X I(xik = xjk = 1) k=1 p a2 = X I(xik = 0, xjk = 1) k=1 p a3 = X I(xik = 1, xjk = 0) k=1 a4 = p X I(xik = xjk = 0). k=1 Note que cada al , l = 1, . . . , 4 depende do par (xik , xjk ). As medidas de proximidade a seguir são usados na prática: dij = a1 + δa4 , a1 + δa4 + λ(a2 + a3 ) sendo δ e λ fatores de ponderação. Na Tabela a seguir mostra algumas medidas de similaridade para alguns factores de ponderação. 62 Nome δ λ Definição Jaccard 0 1 a1 /(a1 + a2 + a3 ) Tanimoto 1 2 (a1 + a4 )/(a1 + 2(a2 + a3 ) + a4 ) Coincidência Simples (M) 1 1 (a1 + a4 )/p Russel e Rao (RR) - - a1 /p Jogar dados 0 0,5 2a1 /(2a1 + (a2 + a3 )) Kulczynski - - a1 /(a2 + a3 ) Estas medidas proporcionam formas alternativas de ponderação. Em princípio, poderíamos considerar também a distância euclidiana. No entanto, a desvantagem desta distância é que ele trata as observações 0 e 1 da mesma maneira. Se xik = 1 denota, por exemplo, o conhecimento de uma determinada língua, então o contrário, xik = 0 (não conhecer a língua) devem ser tratados eventualmente de forma diferente. 7.2.2 Medidas de distância para variáveis contínuas Uma grande variedade de medidas de distância pode ser gerada pelas normas, Lr norma, r ≥ 1, dij = ||xi − xj ||r = ( p X )1/r r |xik − xjk | . (7.1) k=1 Aqui xik denota o valor da k-ésima variável no objeto i. É claro que dii = 0 para i = 1, . . . , n. A classe de distâncias (7.1) para a variação r mede a dissimilaridade de diferentes pesos. A L1 -norma, por exemplo, dá menos pesos para outliers que a L2 -norma (Euclidiana norma). É comum a considerar o quadrado L2 -norma. Um pressuposto subjacente ao aplicar distâncias baseadas em LR -norma que as variáveis são medidas na mesma escala. Se este não for o caso, uma normalização deve ser aplicada. Isto corresponde a uma norma de uso mais geral L2 - ou Euclidiana norma com a métrica A, sendo A > 0: d2ij = ||xi − xj ||A = (xi − xj )> A(xi − xj ). L2 -norma são dadas por A = Ip , mas se a normalização é desejada, então a matriz −1 −1 de peso A = diag{s−1 X1 X1 , sX2 X2 , . . . , sXp Xp } pode ser razoável. Lembres-se que sXk Xk é a 63 variância da k-ésima componente. Assim, temos d2ij = p X (xik − xjk )2 k=1 sXk Xk . Aqui, cada componente tem o mesmo peso no cálculo das distâncias e as distâncias não dependem de uma escolha particular das unidades de medida. Quando aplicado a tabelas de contingência, uma L2 -métrica é adequada para comparar (e cluster) linhas e colunas de uma tabela de contingência. Se X é uma tabela de contingência, a linha i é caracterizada pela distribuição da Pp frequência condicional xij /xi• , sendo xi• = j=1 xij indica as distribuições marginais Pn sobre as linhas: xi• /x•• , x•• = i=1 xi• . Similarmente, a coluna j de X é caracterizada P pela frequências condicionais xij /x•j , sendo x•j = ni=1 xij . As frequências marginais das colunas são x•j /x•• . A distância entre duas linhas, i1 e i2 , corresponde à distância entre as suas respectivas distribuições de frequência. É comum definir esta distância utilizando a χ2 -métrica: 2 p X 1 xi 1 j xi 2 j 2 d (i1 , i2 ) = . − x /x x x •j •• i • i • 1 2 j=1 Note-se que isso pode ser expresso como a distância entre os vectores x1 = xi1 j /x•• e x2 = xi2 j /x•• , como em (7.1) com A = diag{x•j /x•• }. Similarmente, se estamos interessados em clusters, entre as colunas, podemos definir 2 n X 1 xij1 xij2 2 d (j1 , j2 ) = − . x /x x x i• •• •j •j 1 2 i=1 Além das medidas Euclidiana e Lr -norma podemos usar uma medida de proximidade tal como o coeficiente de Q-correlação Pp x̄i )(xjk − x̄j ) k=1 (xik −P , dij = Pp { k=1 (xik − x̄i )2 pk=1 (xjk − x̄j )2 }1/2 sendo que x̄i denota a média sobre todas as variáveis (xi1 , xi2 , . . . , xip ). 7.3 Algoritmos de cluster Existem, essencialmente, dois tipos de métodos de agrupamento. • Algoritmos hierárquicos: podem ser divididos em processos aglomerativos e divisivos. O primeiro tipo começa como cada observação constituindo um cluster e 64 posteriormente acontecem os agrupamentos. O segundo tipo é mais grosseiro, um aglomerado contém todas as observações e prossegue dividindo o cluster único em pequenos aglomerados de menores tamanhos. • Algoritmos de particionamento: Começam a partir de um determinado grupo de reconhecimento e continuar trocando elementos entre os grupos até uma certa pontuação seja otimizada. A principal diferença entre as duas técnicas de agrupamento é que, no agrupamento hierárquico grupos são encontrados e elementos são atribuídos aos grupos, esta atribuição não pode ser alterada. Em técnicas de particionamento, por outro lado, a atribuição de objetos em grupos podem ser alterados durante o aplicação do algoritmo. 7.3.1 Algoritmos hierárquicos, Técnicas aglomerativas O método hierárquico de cluster consiste em uma série de sucessivos agrupamentos ou sucessivas divisões de elementos, onde os elementos são agregados ou desagregados. Os métodos hierárquicos são subdivididos em métodos aglomerativos e divisivos. Os algoritmos aglomerativos são utilizadas com bastante frequência na prática. No método aglomerativo, cada elemento inicia-se representando um grupo, e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. O algoritmo consiste nos seguintes passos: 1. Iniciar com n grupos, contendo um elemento em cada grupo. 2. Calcular a matriz de distâncias D. FAZER 3. Encontrar dois clusters com menor distância. 4. Colocar estes dois clusters em um cluster. 5. Recalcular a distância entre os novos grupos e obter a matriz de distâncias D reduzida. ATÉ todos os clusters estarem aglomerados dentro de único cluster. 65 Dois objetos ou grupos ditos, P e Q, são unidos, o recálculo da distância entre este novo grupo (objeto) (P + Q) e grupo R, é feito usando a seguinte função de distância dR,P +Q = δ1 d(R, P ) + δ2 d(R, Q) + δ3 d(P, Q) + δ4 |d(R, P ) − d(R, Q)|, (7.2) sendo δ’s coeficientes de ponderação que levam a diferentes algoritmos de aglomeração, tal como descrito na Tabela a seguir. δ1 δ2 δ3 δ4 Ligação simples 1/2 1/2 0 -1/2 Ligação completa 1/2 1/2 0 1/2 Ligação por média (não ponderada) 1/2 1/2 0 0 Ligação por média (ponderada) nP nP +nQ 0 0 Centroide nP nP +nQ nQ nP +nQ nQ nP +nQ − (nP Q+nPQ )2 n n 0 1/2 1/2 -1/4 0 nR +nP nR +nP +nQ nR +nQ nR +nP +nQ − nR +nnPR +nQ 0 Nome Mediana Ward O algoritmo com a ligação simples define a distância entre os dois grupos no menor valor das distâncias individuais. Neste caso, d(R, P + Q) = min{d(R, P ), d(R, Q)}. Este algoritmo também é chamado de algoritmo do vizinho mais próximo. Como consequência de sua construção, a ligação simples tende a construir grandes grupos. Grupos que diferem, mas não são bem separados. Algumas características desse método são (i) em geral, grupos muito próximos podem não ser identificados; (ii) permite detectar grupos de formas não-elípticas; (iii) apresenta pouca tolerância a ruído, pois tem tendência a incorporar os ruídos em um grupo já existente; (iv) apresenta bons resultados tanto para distâncias Euclidianas quanto para outras distâncias; (v) tendência a formar longas cadeias. O algoritmo de ligação completa tenta corrigir este tipo de agrupamento, considerando os maiores (individuais) distâncias. A distância da ligação completa pode ser escrita como d(R, P + Q) = max{d(R, P ), d(R, Q)}. É também chamado o algoritmo do vizinho mais distante. Este algoritmo terá grupos de cluster onde todos os pontos estão próximos, desde que comparados com as maiores 66 distâncias. Algumas características desse método são: (i) apresenta bons resultados tanto para distâncias Euclidianas quanto para outras distâncias; (ii) tendência a formar grupos compactos; (iii) os ruídos demoram a serem incorporados ao grupo. Os métodos de ligação pelo vizinho mais próximo e por vizinho mais distante trabalham em direções opostas. Se eles apresentam resultados semelhantes, significa que o grupo está bem definido no espaço, ou seja, o grupo é real. Mas se ocorre o contrário, os grupos provavelmente não existem. O algoritmo de ligação por média (ponderada ou não ponderada) propõe um compromisso entre os dois algoritmos anteriores, na medida em que calcula uma distância média d(R, P + Q) = nP nQ d(R, P ) + d(R, Q). nP + nQ nP + nQ Algumas características desse método são: (i) menor sensibilidade à ruídos que o os métodos de ligação por vizinho mais próximo e por vizinho mais distante; (ii) apresenta bons resultados tanto para distâncias Euclidianas quanto para outras distâncias; (iii) tendência a formar grupos com número de elementos similares. O algoritmo de centroide é bastante semelhante à do algoritmo de ligação por média e usa a distância natural geométrica entre R e o centro de gravidade ponderada de P e Q d(R, P + Q) = nP nQ nP nQ d(R, P ) + d(R, Q) − d(P, Q). nP + nQ nP + nQ (nP + nQ )2 Como características desse método, encontram-se: (i) robustez à presença de ruídos; (ii) devido ao fenômeno da reversão, o método não é muito utilizado. O fenômeno da reversão ocorre quando a distância entre centroides é menor que a distância entre grupos já formados. Algumas características referentes a ligação pela mediana são: (i) apresenta resultado satisfatório quando os grupos possuem tamanhos diferentes; (ii) pode apresentar resultado diferente quando permutado os elementos na matriz de similaridade; (iii) robustez à presença de outliers. O algoritmo de agrupamento Ward calcula a distância entre os dois grupos de acordo com a fórmula indicada na Tabela. A principal diferença entre este algoritmo e os procedimentos de ligação está no procedimento de unificação. O algoritmo de Ward não monta grupos com menor distância. Em vez disso, ele se junta os grupos que não aumentam muito uma dada medida de heterogeneidade. O objetivo do processo de divisão é unificar 67 grupos de tal forma que a variação dentro destes grupos não aumentem drasticamente: os grupos resultantes são tão homogêneos quanto possível. A heterogeneidade do grupo R é medida pela inércia dentro do grupo, ela é definida por nR 1 X IR = d2 (xi , x̄R ), nR i=1 sendo x̄R o centro de gravidade (média) de todos os grupos. IR fornece uma medida escalar da dispersão do grupo em torno do seu centro de gravidade. Se a distância Euclidiana habitual é utilizada, IR representa a soma das variâncias dos p componentes de xi dentro do grupo R. Quando dois objetos ou grupos P e Q são unidos, o novo grupo P + Q tem um IP +Q . Pode ser mostrado que o aumento correspondente da inércia é dada pela ∇(P, Q) = nP nQ 2 d (P, Q). nP + nQ Neste caso, o algoritmo de Ward é definido como um algoritmo que une os grupos que dão o menor aumento em ∇(P, Q). Quando P e Q são unidos, os novos valores do critério dado por (7.2), juntamente com os valores de δi dada na Tabela, quando a fórmula do centroide é usado para modificar d2 (R, P + Q). Assim, o algoritmo de Ward está relacionado com o algoritmo de centroide, mas com uma distância de inércia ∇ maior que a distância geométrica d2 . Algumas características de método de Wald são: (i) apresenta bons resultados tanto para distâncias euclidianas quanto para outras distâncias; (ii) pode apresentar resultados insatisfatórios quando o número de elementos em cada grupo é praticamente igual; (iii) tem tendência a combinar grupos com poucos de elementos; (iv) sensível à presença de outliers. Os grupos, nos métodos hierárquicos, são geralmente representados por um diagrama bi-dimensional chamado de dendograma ou diagrama de árvore. Neste diagrama, cada ramo representa um elemento, enquanto a raiz representa o agrupamento de todos os elementos. Através do dendograma e do conhecimento prévio sobre a estrutura dos dados, deve-se determinar uma distância de corte para definir quais serão os grupos formados. Essa decisão é subjetiva, e deve ser feita de acordo o objetivo da análise e o número de grupos desejados. Os métodos divisivos trabalham na direção oposta dos métodos aglomerativos, ou seja, um grupo inicial contendo todos os elementos é dividido em dois subgrupos, de tal forma 68 que os elementos em um subgrupo estejam distantes dos elementos do outro subgrupo. Os métodos divisivos são pouco mencionados na literatura, pois exigem uma maior capacidade computacional que os métodos aglomerativos. 7.3.2 Algoritmos de Particionamento Os métodos não-hierárquicos, ou por particionamento, foram desenvolvidos para agrupar elementos em k grupos, onde k é a quantidade de grupos definida previamente. Nem todos valores de k apresentam grupos satisfatórios, sendo assim, aplica-se o método várias vezes para diferentes valores de k, escolhendo os resultados que apresentem melhor interpretação dos grupos ou uma melhor representação gráfica. A ideia central da maioria dos métodos por particionamento é escolher uma partição inicial dos elementos e, em seguida, alterar os membros dos grupos para obter-se a melhor partição. Quando comparado com o método hierárquico, o método por particionamento é mais rápido porque não é necessário calcular e armazenar, durante o processamento, a matriz de similaridade. Em geral, os métodos por particionamento diferem entre si pela maneira que constituem a melhor partição. Os métodos por particionamento mais conhecidos são o método k-médias e o método k-medóides, e são descritos a seguir. O método k-médias toma um parâmetro de entrada, k, e particiona um conjunto de n elementos em k grupos, da seguinte forma: 1. Escolhe arbitrariamente k elementos da base de dados como os centros iniciais dos grupos; FAZER 2. (re)Atribua cada elemento ao grupo ao qual o elemento é mais similar, de acordo com o valor médio dos elementos no grupo; 3. Atualizar as médias dos grupos, calculando o valor médio dos elementos para cada grupo; ATÉ que não haja mudanças de elementos de um grupo para outro. Algumas características desse método são: (i) sensibilidade a ruídos, uma vez que um elemento com um valor extremamente alto pode distorcer a distribuição dos dados; (ii) 69 tendência a formar grupos esféricos; (iii) o número de grupos é o mesmo durante todo o processo; (iv) inadequado para descobrir grupos com formas não convexas ou de tamanhos muito diferentes. O método k-medóide utiliza o valor médio dos elementos em um grupo como um ponto referência, chamado de medóide. Esse é o elemento mais centralmente localizado em um grupo. A estratégia básica é encontrar k grupos em n elementos e, arbitrariamente, encontrar um elemento representativo (medóide) para cada grupo. Cada elemento remanescente é agrupado com o medóide ao qual ele é mais similar. A estratégia, então, iterativamente, troca um dos medóides por um dos não medóides enquanto a qualidade do agrupamento resultante é melhorada. O método segue o algoritmo: 1. Escolher, arbitrariamente, k elementos da base de dados como os medóides iniciais dos grupos; FAZER 2. Atribua cada elemento remanescente ao grupo com o medóide mais próximo; 3. Aleatoriamente, selecione um elemento que não esteja como medóide, r; 4. Calcule o custo total (diferença de médias), S, de trocar o medóide Oj pelo elemento r; 5. Se S < 0 então troque Oj por r para formar o novo conjunto de k-medóides; ATÉ que não haja mudança de objetos de um grupo para outro. Algumas características desse método são: (i) independente da ordem, os resultados serão os mesmos; (ii) tendência a encontrar grupos esféricos; (iii) processamento mais custoso que o k-médias; (iv) não aplicável à grandes bases de dados, pois o custo de processamento é alto; (v) mais robusto do que o k-médias na presença de ruídos porque o medóide é menos influenciado pelos ruídos do que a média. Uma forma de otimizar o método k-medóide para grandes bases de dados é considerar uma porção dos dados como uma amostra representativa, e escolher os medóides dessa amostra. Capítulo 8 Análise de Séries Temporais Uma série temporal é uma coleção de observações feitas sequencialmente ao longo do tempo. A característica mais importante deste tipo de dados é que as observações vizinhas são dependentes e o interesse é analisar e modelar esta dependência. Enquanto em modelos de regressão por exemplo a ordem das observações é irrelevante para a análise, em séries temporais a ordem dos dados é crucial. Vale notar também que o tempo pode ser substituído por outra variável como espaço, profundidade, etc. Como a maior parte dos procedimentos estatísticos foi desenvolvida para analisar observações independentes o estudo de séries temporais requer o uso de técnicas específicas. Algumas características são particulares a este tipo de dados, por exemplo, (i) observações correlacionadas, (ii) ordem temporal das observações é importante, (iii) presença de tendências e variação sazonal ou cíclica que dificultar a análise, (iv) complicado fazer seleção de modelos, (v) difícil lidar com observações perdidas e dados discrepantes devido à natureza sequencial. Uma série temporal é dita ser contínua quando as observações são feitas continuamente no tempo ou discreta quando as observações são feitas em tempos específicos, geralmente equi-espaçados. Note que estes termos não se referem à natureza da variável observada, que pode assumir valores discretos ou contínuos. Ressaltamos que séries temporais discretas podem surgir da discretização de séries contínuas. De um modo geral, os principais objetivos em se estudar séries temporais podem ser os seguintes: (i) descrição: propriedades da série, (ii) explicação: usar a variação em uma série para explicar a variação em outra série, (iii) predição: predizer valores futuros com base em valores passados, (iv) controle de processos. 70 71 Neste resumo abordaremos algumas técnicas descritivas e modelos probabilísticos de Box-Jenkins para séries estacionárias. A ferramenta básica para abordar uma série temporal é a função de autocorrelação. 8.1 Técnicas Descritivas Ao se analisar uma ou mais séries temporais a representação gráfica dos dados sequencialmente ao longo do tempo é fundamental e pode revelar padrões de comportamento importantes. Tendências de crescimento (ou decrescimento), padrões cíclicos, alterações estruturais, observações aberrantes, etc. são muitas vezes facilmente identificados. Sendo assim, o gráfico temporal deve ser sempre o primeiro passo e antecede qualquer análise. Outras ferramentas são descritas ao longo desta seção. 8.2 Decomposição Clássica Muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo-se a seguinte forma de decomposição Xt = Tt + Ct + Rt sendo Tt uma componente de tendência, Ct uma componente cíclica ou sazonal e Rt uma componente aleatória ou ruído (a parte não explicada, que espera-se ser puramente aleatória). A componente cíclica se repete a cada intervalo fixo s, i.e. . . . = Ct−2s = Ct−s = Ct = Ct+s = Ct+2s = . . . . Assim, variações periódicas podem ser captadas por esta componente. Componente de tendência Podemos pensar em tendência como uma mudança de longo prazo no nível médio da série. A dificuldade aqui é definir longo prazo. Procura-se neste caso usar modelos de regressão para caracterizar o sinal que controla a série. Por exemplo, o modelo de tendência linear: Tt = α + βt, o modelo de regressão linear simples: Tt = α + βxt e o modelo de regressão não linear: Tt = 1/(α + βxt ). Seja qual for a curva utilizada, a 72 função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados-valores ajustados) fornecem uma estimativa de flutuações locais. Outro procedimento para analisar séries com tendência é utilizando filtros, que são transformações nas séries que removem a componente de tendência. Exemplos de filtros: filtro linear (converte a série por meio de uma operação linear), alisamento exponencial (um tipo de filtro linear assimétrico), diferenciação da série. Componente cíclica ou sazonal Uma forma bastante simples de eliminar o efeito sazonal é simplesmente tomar médias sazonais. Por exemplo, em dados mensais com sazonalidade anual, as médias anuais estarão livres do efeito sazonal. Embora este procedimento esteja correto muitos dados serão perdidos e ao invés disto pode-se recorrer um filtro. 8.3 Autocorrelação Uma importante ferramenta para se identificar as propriedades de uma série temporal consiste de uma série de quantidades chamadas coeficientes de autocorrelação amostral. O interesse em séries temporais geralmente é analisar a correlação entre as observações de uma mesma variável em diferentes horizontes de tempo, i.e. correlações entre observações defasadas 1, 2, . . . períodos de tempo. Assim, dadas n observações x1 , . . . , xn−1 e x2 , . . . , xn de uma série temporal discreta podemos formar os pares (x1 , x2 ), . . . , (xn−1 , xn ). Considerando x1 , . . . , xn−1 e x2 , . . . , xn como duas variáveis o coeficiente de correlação entre xt e xt+1 é dado por Pn−1 (xt − x̄1 )(xt+1 − x̄2 ) r1 = qP t=1 , Pn−1 n−1 2 2 t=1 (xt − x̄1 ) t=1 (xt+1 − x̄2 ) sendo x̄1 = n−1 X t=1 xt /(n − 1) e x̄2 = n X (8.1) xt /(n − 1). t=2 Como o coeficiente r1 mede as correlações entre observações sucessivas ele é chamado de coeficiente de autocorrelação ou coeficiente de correlação serial. É usual simplificar a P equação (8.1) utilizando a média de todas as observações, ou seja, x̄ = nt=1 xt /n já que x̄1 ≈ x̄2 , e assumindo variância constante, temos Pn−1 t − x̄)(xt+1 − x̄) t=1 (xP , r1 = (n − 1) nt=1 (xt − x̄)2 /n 73 sendo que alguns autores ainda retiram o termo n/(n − 1) que é próximo de 1 para n não muito pequeno. Está forma será considerada neste texto. Assim, Pn−k (xt − x̄)(xt+k − x̄) rk = t=1Pn 2 t=1 (xt − x̄) fornece o coeficiente de correlação de ordem k. Assim como o coeficiente de correlação usual, as autocorrelações são adimensionais e −1 < rk < 1. Na prática é mais usual calcular primeiro os coeficientes de autocovariância {ck }, definidos por analogia com a fórmula usual de covariância, ou seja, n−k X ck = (xt − x̄)(xt+k − x̄)/n. t=1 Assim, os coeficientes de autocorrelação são então obtidos como rk = ck /c0 . Esta função é assintoticamente normalmente distribuída, com média e variância dados por E(rk ) ≈ −1/n e Var(rk ) ≈ 1/n, os limites de confiança aproximados de 95% frequentemente utilizados são dados por √ ±1, 96 n. Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequada do correlograma, i.e. devemos associar certos padrões do correlograma como determinadas características de uma série temporal. Esta nem sempre é uma tarefa simples e a seguir são dadas algumas indicações. • Séries aleatórias: Para uma série completamente aleatória os valores defasados são não correlacionados e espera-se que rk = 0. • Correlação de curto-prazo: Um correlograma desta série deverá exibir um valor relativamente grande de r1 seguido por valores que tendem a ficar sucessivamente menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero. • Correlação negativa: O valor de r1 será negativo enquanto o valor de r2 será positivo (ou ao contrário) já que as observações defasadas de 2 períodos tendem a estar do mesmo lado da média. 74 • Séries não estacionárias: Os valores de rk não decairão para zero a não ser em defasagens grandes. • Variação sazonal: De forma geral, o correlograma irá exibir oscilações na mesma frequência da flutuação sazonal. • Observações discrepantes: O correlograma pode ser seriamente afetado, evidenciando correlação espúria. 8.4 Modelos Probabilísticos Nesta seção são descritos alguns modelos adequados para dados de séries temporais. Tais modelos são chamados de processos estocásticos. Uma série temporal gerada por um processo determinístico é aquela onde é possível prever exatamente valores futuros a partir de valores passados. Contudo muitos fenômenos dinâmicos correspondem ao conjunto dos chamados processos estocásticos ou aleatórios onde valores futuros são apenas parcialmente determinados a partir de valores passados. Os modelos criados para séries estocásticas são também denominados processos estocásticos. Em geral um processo estocástico define-se como uma família de variáveis aleatórias {Xt } = (X1 , X2 , . . . , Xt ) indexadas no tempo. Isto quer dizer que se uma série temporal {x(t)} = {x1 , x2 , . . . , xt } for gerada pelo processo estocástico {Xt }, o valor x1 é um resultado aleatório que segue a distribuição de probabilidades de X1 , o valor x1 é um resultado aleatório que segue a distribuição de probabilidades de X2 , e assim sucessivamente. Uma classe importante de processos estocásticos é os chamados processos estacionários. Um processo estacionário é aquele onde o sistema se apresenta num estado de equilíbrio estatístico em torno de um nível médio fixo, ou seja, não apresenta tendência. Isto quer dizer que o sistema tem propriedades probabilísticas invariantes ao longo do tempo. De maneira mais rigorosa, um processo estocástico {Xt }, é estritamente estacionário se a função densidade de probabilidade conjunta da família de variáveis aleatórias do processo, depende unicamente da localização relativa das variáveis. Isto quer dizer que se fX1 ,X2 ,...,Xt denota a função densidade de probabilidade conjunta para o processo {Xt }, 75 então para que o processo seja considerado estritamente estacionário deve verificar-se que, fX1+k ,X2+k ,...,Xt+k = fX1 ,X2 ,...,Xt , para qualquer k inteiro. Contudo a estacionaridade no sentido estrito é uma propriedade muito exigente e de difícil verificação. Uma definição menos exigente de estacionaridade, corresponde a os processos fracamente estacionários até 2a ordem. Neste caso é apenas necessário que as funções densidade de probabilidade das variáveis aleatórias possuam características comuns quando expressas nos termos até 2a ordem. Isto quer dizer que um processo estocástico {Xt } é fracamente estacionário até 2a ordem se a sua família de variáveis aleatórias verifica as seguintes propriedades para a média, variância e covariância, E(Xk ) = µ, Var(Xk ) = σ 2 e Cov(Xk , Xk+1 ) = Cov(X1 , X2 ), para qualquer k inteiro, sendo necessário que µ e σ 2 sejam valores finitos. Note-se que a covariância entre duas variáveis consecutivas do processo devem sempre ser iguais a covariância entre as duas primeiras variáveis do processo. A seguir são apresentados alguns processos estocásticos que são utilizados com frequência na especificação de modelos para séries temporais. 8.4.1 Sequência Aleatória Um processo em tempo discreto é chamado puramente aleatório se consiste de uma sequência de v.a. {Xt } independentes e identicamente distribuídas. Ou seja, a média e a variância são constantes e γ(k) = Cov(Xt , Xt+k ) = 0, k = ±1, ∓2, . . . . Como a média e a função de autocovariância não dependem do tempo o processo é estacionário em segunda ordem. A função de autocorrelação é simplesmente 1, k = 0 ρ(k) = . 0, k = ±1, ∓2, . . . Um processo puramente aleatório é as vezes chamado de ruído branco e pode ser útil por exemplo na construção de processos mais complicados. 76 8.4.2 Passeio Aleatório Seja {t } um processo discreto puramente aleatório com média µ e variância σ2 . Um processo {Xt } é chamado de passeio aleatório se Xt = Xt−1 + t . Sendo E(Xt ) = tµ e Var(Xt ) = tσ2 , dependem de t. Portanto, este processo é não estacionário. No entanto, é interessante notar que a primeira diferença de um passeio aleatório é estacionário já que ∇Xt = Xt − Xt−1 = t . 8.4.3 Modelos de Box-Jenkins para Séries Estacionárias Apresentaremos nesta seção os principais modelos de Box-Jenkins para estimação e previsão de séries temporais. Sendo estes modelos pertencentes a família dos autoregressivosmédias-móveis (ARMA), subdividindo em dois outros modelos: autoregressivo (AR) e médias-móveis (MA). Processos de Média Móveis Seja {t } um processo discreto puramente aleatório com média zero e variância σ2 . Um processo {Xt } é chamado de processo de médias móveis de ordem q, ou M A(q), se Xt = t + β1 t−1 + . . . + βq t−q . (8.2) Seja Xt um processo M A(1), ou seja, Xt = t + β1 t−1 Considerando E(t ) = 0, Var(t ) = Cov(t , t ) = σ2 e Cov(t , s ) = 0, t 6= s, provenientes do processo discreto puramente aleatório. A média, variância e autocovariância de Xt são dados, respectivamente, por E(Xt ) = E(t ) + β1 E(t−1 ) = 0 Var(Xt ) = Var(t ) + β12 Var(t−1 ) + 2β1 Cov(t , t−1 ) = σ2 + β12 σ2 = σ2 (1 + β12 ) Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + β1 Cov(t , t ) + β12 Cov(t−1 , t+1 ) + β1 Cov(t−1 , t ) = β1 σ2 . 77 Portanto, ρ(1) = β1 β1 σ2 = . 2 2 σ (1 + β1 ) 1 + β12 Seja, agora, Xt um processo M A(2), ou seja, Xt = t + β1 t−1 + β2 t−2 A média, variância e autocovariância de Xt são dados, respectivamente, por E(Xt ) = E(t ) + β1 E(t−1 ) + β2 E(t−2 ) = 0 Var(Xt ) = Var(t ) + β12 Var(t−1 ) + β22 Var(t−2 ) + 2β1 Cov(t , t−1 ) + 2β1 β2 Cov(t−1 , t−2 ) + 2β2 Cov(t , t−2 ) = σ2 + β12 σ2 + β22 σ2 = σ2 (1 + β12 + β22 ) Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + β1 Cov(t , t ) + β2 Cov(t , t−1 ) + β1 Cov(t−1 , t+1 ) + β12 Cov(t−1 , t ) + β1 β2 Cov(t−1 , t−1 ) + β2 Cov(t−2 , t+1 ) +β1 β2 Cov(t−2 , t ) + β22 Cov(t−2 , t−1 ) = β1 σ2 + β1 β2 σ2 = σ2 (β1 + β1 β2 ). Portanto, ρ(2) = σ2 (β1 + β1 β2 ) β1 + β1 β2 = . 2 2 2 σ (1 + β1 + β2 ) 1 + β12 + β22 Realizando o mesmo processo para Xt um processo M A(q), temos que E(Xt ) = 0, Var(Xt ) = (1 + β12 + . . . + βq2 )σ2 e função de autocovariância é dada por 0, k>q P , γ(k) = σ2 q−k j=0 βj βj+k , k = 0, . . . , q γ(−k) k<0 sendo β0 = 1. A função de autocorrelação é dada por 1, k=0 P P k 2 ρ(k) = . σ2 q−k j=0 βj βj+k j=0 βj , k = 0, . . . , q γ(−k) k < 0; k > q Note que a função tem um ponto de corte na defasagem q, ou seja, ρ(k) = 0 para k > q. Esta é uma característica específica de processos médias móveis e será útil na especificação do valor de q na prática. 78 Como a média e a variância são constantes e γ(k) não depende de t o processo é (fracamente) estacionário para todos os possíveis valores de β1 , β2 , . . . , βq . Em geral é desejável impor restrições para que eles satisfaçam uma condição de inversibilidade. Esta condição pode ser melhor expressa ao usar o operador de retardo, denotado por B e definido como B j Xt = Xt−j , para todo j. Assim, (8.2) pode ser escrita como Xt = (1 + β1 B + β2 B 2 + . . . + βq B q )t = θ(B)t , sendo θ(B) um polinômio de ordem q em B. Um processo M A(q) é inversível se as raízes da equação θ(B) = 1 + β1 B + β2 B 2 + . . . + βq B q )t = 0 estiverem fora do círculo unitário. Teremos então 2q modelos com a mesma função de autocorrelação mas somente um deles será inversível. Processos Autoregressivos Seja {t } um processo discreto puramente aleatório com média zero e variância σ2 . Um processo {Xt } é chamado de processo autoregressivo de ordem p, ou AR(p), se Xt = α1 Xt−1 + . . . , αp Xt−p + t . (8.3) Note a similaridade com um modelo de regressão múltipla, onde os valores passados de Xt fazem o papel das regressoras. Seja Xt um processo AR(1), ou seja, Xt = α1 Xt−1 + t (8.4) Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado Xt−1 , Xt não depende de Xt−2 , Xt−3 , . . .. Fazendo substituições sucessivas obtemos que Xt = α(αXt−2 + t−1 ) = α2 Xt−2 + αt−1 + t = α2 (αXt−3 + t−2 ) + αt−1 + t = ... = α r+1 Xt−r−1 + r X j=0 αj t−j . 79 2 Se Xt for estacionário com variância finita σX podemos escrever que !2 r X 2 2 E Xt − αj t−j = α2r+2 E(Xt−r−1 ) = α2r+2 σX . j=0 e se |α| < 1 temos que α2r+2 → 0 quando r → ∞. Portanto, esta condição nos permite escrever Xt como o seguinte processo MA infinito, Xt = t + αt−1 + α2 t−2 + . . . . e assim |α| < 1 é uma condição suficiente para que Xt seja estacionário. Podemos também usar o operador de retardo reescrevendo a equação (8.4) como (1 − αB)Xt = t ou equivamentemente Xt = 1 t = (1 + αB + α2 B 2 + . . .)t = t + αt−1 + α2 t−2 + . . . . (1 − αB) Escrevendo o processo AR(1) neste formato de MA infinito fica fácil ver que a sua média e variância são dados por E(Xt ) = 0 Var(Xt ) = σ2 (1 + α2 + α4 + . . .) = σ2 . 1 + α2 A função de autocovariância para |α| < 1 pode-se mostrar que γ(k) = E(Xt Xt+k ) = αk σ2 2 = αk σX . 1 − α2 Portanto, a função de autocorrelação é ρ(k) = αk , k = 0, 1, . . .. Como a média e a variância são constantes e ρ(k) não depende de t o processo AR(1) com |α| < 1 é estacionário. Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt como um processo MA infinito com coeficientes ψ0 , ψ1 , . . ., ou seja, Xt = φ0 t + ψ1 t−1 + ψ2 t−2 + . . . = (ψ0 + ψ1 Bψ2 B 2 + . . .)t = ψ(B)t em analogia com o caso AR(1) segue que o processo será estacionário se P Usando agora o operador de retardo a equação (8.3) temos (1 − α1 B − α2 B 2 − . . . − αp B p )Xt = t ou e portanto o processo AR(p) pode ser escrito como Xt = φ(B)−1 t = ψ(B)t . φ(B)Xt = t j ψj2 < ∞. 80 Assim, os coeficientes ψj podem ser obtidos a partir dos coeficientes αj fazendo (1 − α1 B − α2 B 2 − . . . − αp B p )(φ0 + φ1 B + ψ2 B 2 + . . .) = 1 o efeito de t em Xt+k é dado por ψk , k = 1, 2, . . .. Para um processo AR(p), o último coeficiente αp mede o excesso de correlação na defasagem p que não é levado em conta por um modelo AR(p − 1). Este é chamado de p-ésimo coeficiente de autocorrelação parcial. Assim, variando k = 1, 2, . . . temos a chamada função de autocorrelação parcial (facp). Por outro lado, em um processo AR(p) não existe correlação direta entre Xt e Xt−p−1 , Xt−p−2 , . . ., que faz com que todos os coeficientes de correlação parcial sejam nulos para k > p. O fato de que a facp é igual a zero para k > p pode ser usado como uma ferramenta para determinar a ordem p do processo autoregressivo para séries temporais observadas. Modelos Mistos ARMA Combinando-se modelos AR e M A pode-se obter uma representação adequada com um número menor de parâmetros. Processos autoregressivos médias móveis (ARMA) formam um classe de modelos muito úteis e parcimoniosos para descrever dados de séries temporais. O modelo ARM A(p, q) é dado por Xt = α1 Xt−1 + . . . + αp Xt−p + t + β1 t−1 + . . . + βq t−q , sendo {t } um processo puramente aleatório com média zero e variância σ2 . Note que, modelos AR ou M A podem ser obtidos como casos especiais quando p = 0 ou q = 0. Usando o operador diferença o modelo pode ser reescrito como (1 − α1 B − α2 B 2 − . . . − αp B p )Xt = (1 + β1 B + β2 B 2 . . . + βq B q )t ou φ(B)Xt = θ(B)t . Os valores de α1 , . . . , αp que tornam o processo estacionário são tais que as raízes de φ(B) = 0 que estão fora do círculo unitário. Analogamente, os valores de β1 , . . . , βq que tornam o processo inversível são tais que as raízes de θ(B) = 0 que estão fora do círculo unitário. Vale notar que as funções de autocorrelação e autocorrelação parcial são consideravelmente mais complicadas em processos ARM A. De um modo geral, para um processo 81 ARM A(p, q) estacionário a função de autocorrelação tem um decaimento exponencial ou oscilatório após a defasagem q enquanto que a facp tem o mesmo comportamento após a defasagem p. Este resultado pode ser utilizado para auxiliar na determinação da ordem (p, q) do processo, mas na prática pode ser bastante difícil distinguir entre decaimentos exponenciais e oscilatórios por meio das estimativas destas funções. 8.5 Estimação Nesta seção é discutido o problema de ajustar um modelo aos dados observados. A inferência será conduzida via função de autocorrelação. Para séries estacionárias o correlograma é comparado com as autocorrelações teóricas de vários processos ARM A para auxiliar na identificação daquele mais apropriado. Por exemplo, se r1 é significativamente diferente de zero e todos os valores subsequentes r2 , r3 , . . . são próximos de zero então um modelo M A(1) é indicado já que sua função de autocorrelação teórica se comporta assim. Por outro lado, se r1 , r2 , . . . parecem estar decaindo exponencialmente então um modelo AR(1) pode ser apropriado. 8.5.1 Ajustando Processos Autoregressivos Para um processo AR de ordem p com média µ dado por Xt − µ = α1 (Xt−1 − µ) + . . . , αp (Xt−p − µ) + t e dadas n observações x1 , x2 , . . . , xn , os parâmetros µ, α1 , . . . , αp podem ser estimados pelo método de mínimos quadrados, ou seja, minimizando-se a soma de quadrados n X S= [α1 (xt−1 − µ) + . . . , αp (xt−p − µ)]2 t=p+1 com respeito a µ, α1 , . . . , αp . Note que o somatório é de t = p + 1 em diante, mas esta pequena perda de informação não é importante se a série não for muito curta. Além disso, se o processo Xt seguir distribuição normal então as estimativas de mínimos quadrado coincidem com as estimativas de máxima verossimilhança condicionada nas p primeiras observações. Alternativamente, um métodos aproximados podem ser utilizado tomando-se µ̂ = x̄. Ajustando os dados o modelo Xt − x̄ = α1 (Xt−1 − x̄) + . . . , αp (Xt−p − x̄) + t 82 como se fosse um modelo de regressão linear múltipla. 8.5.2 Ajustando Processos Médias Móveis O problema de estimação dos parâmetros em modelos M A é bem mais complicado do que em modelos AR. Assim, métodos computacionais iterativos precisam ser utilizados para minimizar a soma de quadrados residual. Dado um processo M A(q) Xt = µ + t + β1 t−1 + . . . + βq t−q e uma série observada x1 , x2 , . . . , xn o procedimento iterativo consiste basicamente em fixar os valores de µ, β1 , . . . , βq e calcular os resíduos xt − µ − β1 t−1 − . . . − βq t−q sequencialmente para t = 1, . . . , n assumindo que 0 = −1 = . . . = −q+1 = 0. Dados estes resíduos pode-se calcular a soma de quadrados residual. Repetindo este procedimento para µ, β1 , . . . , βq variando em uma grade de pontos pode-se escolher os valores que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos eficientes de otimização numérica e nada garante a sua convergência para um mínimo global. 8.5.3 Ajustando Processos ARMA Os problemas de estimação para modelos ARM A são similares aqueles para modelos M A no sentido de que um procedimento iterativo precisa ser utilizado. Portanto os comentários feitos para o ajuste de processos médias móveis podem ser considerados. 8.6 Adequação do Modelo Após identificar a ordem e estimar eficientemente os parâmetros de um modelo é necessário verificar sua adequação antes de utilizá-lo por exemplo para fazer previsões. Após o ajuste do modelo a uma série temporal deve-se verificar se ele fornece uma descrição adequada dos dados. Assim como em outros modelos estatísticos a ideia é verificar o comportamento dos resíduos, sendo resíduo = observação - valor ajustado. Além 83 disso, em modelos de séries temporais os resíduos estão ordenados no tempo e é portanto natural tratá-los também como uma série temporal. É particularmente importante que os resíduos de um modelo estimado sejam serialmente não correlacionados. Caso contrário, há evidência falta de ajuste. Consequentemente, duas maneiras de verificar a adequação do modelo consistem em representar graficamente os resíduos e o seu correlograma. O gráfico temporal poderá revelar a presença de dados discrepantes, efeitos de autocorrelação ou padrões cíclicos enquanto que o correlograma permite uma análise mais detalhada da estrutura de autocorrelação indicando possíveis termos faltantes no modelo. 8.7 Previsão em Modelos ARMA Uma das formas de utilização de um modelo ajustado é para fazer previsões de valores futuros. Assim, se t é o período corrente estamos interessados em prever os valores de Xt+1 , Xt+2 , . . .. A previsão de Xt+k , para k = 1, 2, . . . será denotada por x̂t (k) e é definida como a esperança condicional de Xt+k dados todos os valores passados, ou seja, x̂t (k) = E(Xt+k |xt , xt−1 , . . .). A equação acima é chamada de função de previsão e o inteiro k é chamado de horizonte de previsão. Em modelos ARMA as previsões podem ser obtidas usando-se diretamente a equação do modelo. Assumindo que a equação do modelo seja conhecida a previsão x̂n (k) é obtida substituindo os valores futuros dos erros por zero, valores futuros da série Xn+1 , Xn+2 , . . . pela sua esperança condicional, e valores passados de X e de pelos seus valores observados. No caso de modelos autoregressivos AR(p) a função de previsão é dada por x̂t (1) = α1 xt + . . . + αp xt−p+1 x̂t (2) = α1 x̂t (1) + . . . + αp xt−p+2 .. . x̂t (p + 1) = α1 x̂t (p) + . . . + αp x̂t (1). de modo que as previsões para horizontes maiores do que p usam apenas as previsões anteriores. 84 No caso de modelos médias móveis ARM A(q) a função de previsão é dada por x̂t (1) = β1 t + . . . + βq t−q+1 x̂t (2) = β2 t + . . . + βq t−q+2 .. . x̂t (p + 1) = βq t x̂t (q + j) = 0, j = 1, 2, . . . . Capítulo 9 Técnicas de Amostragem A amostragem é uma técnica estatística naturalmente presente em muitas situações, no cotidiano das pessoas. Fazer uma amostragem é extrair do todo (população) uma parte (amostra) com o propósito de avaliar certas características desta população. A população é o conjunto de objetos, indivíduos ou resultados experimentais dos quais se pretende estudar alguma característica comum. As populações podem ser finitas ou infinitas, existentes ou conceptuais. A amostra é uma parte da população que é observada com o objetivo de obter informação para estudar a característica pretendida. De maneira geral, existem três situações em que pode não valer a pena a realização de amostragem: (i) população muito pequena, (ii) característica de fácil mensuração, (iii) necessidade de alta precisão. Nos demais casos, o uso de amostragem pode ser interessante, além de fornecer vantagens como: (i) processo mais econômico, (ii) situações que não há tempo suficiente para pesquisar toda a população, (iii) confiabilidade dos dados (menor chance de erros), e (iv) operacionalidade. Veja o exemplo do tempero: ao provar (observar) uma pequena porção de um alimento, estamos fazendo uma amostragem. Se a amostragem for bem elaborada o tempero da parte provada será semelhante ao todo, permitindo produzir conclusões eficientes sobre o tempero do alimento. Assim, introduzimos intuitivamente a necessidade da representatividade da amostra, ou seja, a menos de certas pequenas discrepâncias inerentes à aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as mesmas características básicas da população, no que diz respeito à(s) variável(is) que desejamos pesquisar. 85 86 Ao realizar uma amostra, devemos elaborar um plano de amostragem envolvendo a definição da unidade de amostragem, a forma de seleção dos elementos da população e o tamanho da amostra. A unidade de amostragem é a unidade a ser selecionada para se chegar aos elementos da população. Tais unidades podem ser os próprios elementos da população, ou outros, mais fáceis de serem selecionados e que, de alguma forma estejam associados aos elementos da população. A seleção dos elementos que irão fazer parte da amostra pode ser feita de diversas maneiras, contudo vamos somente considerar a amostragem probabilística, ou seja, um plano de amostragem em que cada elemento da população tem uma probabilidade conhecida de ser incluído na amostra. 9.1 Técnicas de amostragem probabilística A seguir iremos descrever algumas técnicas de amostragem probabilística para populações finitas e explicitar o cálculo do tamanho amostral para a média de uma população. Dos vários tipos de planeamento disponíveis na literatura, destacamos a amostragem aleatória simples (AAS) com e sem reposição e a amostragem estratificada. Mencionamos a ideia de amostragem por conglomerados e amostragem sistemática. 9.1.1 Amostragem Aleatória Simples A amostragem aleatória simples é o tipo de amostragem probabilística mais simples e mais importante para a seleção de uma amostra. Ele pode ser caracterizado por meio da definição operacional: De uma lista com N unidades amostrais, seleciona-se sequencialmente n unidades amostrais, de forma que cada amostra tenha a mesma chance de ser escolhida. Este processo pode ser executado considerando a reposição ou não da unidade amostral na população, dando origem a AAS com reposição e AAS sem reposição, respectivamente. A AAS sem reposição é mais interessante em termos práticos pois satisfaz o princípio intuitivo de que não ganhamos mais informação se uma mesma unidade aparece na amostra mais de uma vez. Por outro lado, a AAS com reposição introduz vantagens matemáticas e estatísticas, como a independência entre as unidades sorteadas, que facilita a determinação das propriedades dos estimadores das quantidades populacionais de interesse. 87 9.1.2 AAS com reposição No processo de sorteio sequencial, após a amostra ter sido retirada ela é devolvida (reposição) para a população antes que a próxima unidade amostrada seja selecionada. Neste processo a variável fi , número de vezes que a unidade i aparece na amostra, segue uma distribuição Bin(n, 1/N ). Logo, n n 1− , N N 0 n n n 1 1 1 = P (fi 6= 0) = 1 − P (fi 6= 1) = 1 − 1− =1− 1− 0 N N N n n 2 1 +1−2 1− . = P (fi 6= 0 ∩ fj 6= 0) = 1 − P (fi 6= 1 ∪ fj 6= 1) = 1 − 2 1 − N N E(fi ) = πi πij n , N Var(fi ) = Como cada tentativa tentativa é independente e cada um dos N elementos da população tem mesma probabilidade de ser selecionado 1/N . Caracteriza para a (f1 , f2 , . . . , fn ) a distribuição multinomial com parâmetros (n, 1/N, . . . , 1/N ), logo Cov(fi , fj ) = −n n 1 1 = − 2. NN N Considere agora os seguintes estimadores populacionais e amostrais: Populacional função P τ= N i=1 Yi P µ = Ȳ = N1 N i=1 Yi P 2 σ 2 = N1 N i=1 (Yi − µ) P 2 S 2 = N1−1 N i=1 (Yi − µ) Amostral função esperança variância T = N ȳ P ȳ = n1 ni=1 yi Pn 1 2 s2 = n−1 i=1 (yi − ȳ) E(T ) = τ Var(T ) = N 2 σ 2 /n E(ȳ) = µ Var(ȳ) = σ 2 /n E(s2 ) = σ 2 A medida que o tamanho da amostra aumenta, as distribuições de ȳ e T vão se aproximando a distribuição normal, de acordo com Teorema Central do Limite (TCL), tanto para o caso AAS com reposição quando para AAS sem reposição. Para n grande temos, para AAS com reposição ȳ − µ p ≈a N (0, 1) 2 σ /n e T −τ p ≈a N (0, 1), 2 2 N σ /n sendo que N (0, 1) denota a distribuição normal padrão. Estes resultados assintóticos possibilitam obter intervalos de confiança aproximados ȳ e T , ou seja, ! |ȳ − µ| P p ≤ zα ∼ = 1 − α, 2 σ /n 88 sendo zα o quantil da distribuição N (0, 1) que deixa uma área no intervalo (−zα , zα ) uma área de (1 − α). Desta construção, podemos obter um tamanho de amostra para o estimador ȳ quando n é grande n= σ2 . (B/zα )2 Contudo, para obter o tamanho da amostra é necessário fixar o erro máximo desejado p (B = zα σ 2 /n), com algum grau de confiança (1 − α) e conhecimento a priori sobre a variabilidade da população (σ 2 ). Amostra piloto pode ser útil para estimar σ 2 . De forma, muito similar podemos obter o tamanho amostral para o total populacional. No caso em que o interesse é uma proporção, o resultado assintótico de aproximação da distribuição binomial a distribuição normal pode ser usado para n grande e a solução pode ser obtida de forma análoga. 9.1.3 AAS sem reposição No processo de sorteio sequencial, após a amostra ter sido retirada ela não é devolvida (sem reposição) para a população antes que a próxima unidade amostrada seja selecionada. Neste processo a variável fi , número de vezes que a unidade i aparece na amostra, segue uma distribuição Bin(1, n/N ). Logo, n n n N −n 1− , Cov(fi , fj ) = − 2 , N N N N −1 n = P (fi = 6 0) = 1 − P (fi 6= 1) = , N n n−1 . = P (fi 6= 0 ∩ fj 6= 0) = 1 − P (fi 6= 1 ∪ fj 6= 1) = N N −1 E(fi ) = πi πij n , N Var(fi ) = Considere agora os seguintes estimadores populacionais e amostrais: Populacional função P τ= N i=1 Yi P µ = Ȳ = N1 N i=1 Yi P 2 σ 2 = N1 N i=1 (Yi − µ) P 2 S 2 = N1−1 N i=1 (Yi − µ) Amostral função esperança variância T = N ȳ P ȳ = n1 ni=1 yi Pn 1 2 s2 = n−1 i=1 (yi − ȳ) Pn 1 2 s2 = n−1 i=1 (yi − ȳ) E(T ) = τ Var(T ) = N 2 (1 − n/N )S 2 /n E(ȳ) = µ Var(ȳ) = (1 − n/N )S 2 /n E(s2 ) = σ 2 E(s2 ) = S 2 Todos os resultados apresentados para AAS com reposição são equivalentes para AAS sem reposição, exceto pelo expressão correspondente a variância amostral que devemos 89 considerar a seguinte relação (1 − n/N ) S2 S2 S2 = = 0. n n/(1 − n/N ) n Se tivéssemos que optar por AAS com ou sem reposição para estimar a média de uma população, deveríamos optar por AAS sem reposição, pois o efeito de planejamento (razão entre variâncias do estimador amostral) indica a AAS sem reposição como a melhor opção para n ≥ 1 e equivalentes para n = 1. 9.1.4 Amostragem estratificada No caso da AAS com reposição vimos que Var(ȳ) = σ 2 /n. Ao aumentar o tamanho da amostra, o erro padrão diminui. Se a população é muito heterogênea e as razões de custo limitam o aumento da amostra, torna-se impossível definir uma AAS com reposição da população com uma precisão razoável. Uma saída é subdividir a população em subpopulações internamente mais homogêneas. A técnica de que envolve dividir a população em subgrupos é a amostragem estratificada. Estes estratos devem ser internamente mais homogêneos que a população toda, com respeito às variáveis em estudo (sexo, renda, bairro, por exemplo). Sobre os diversos estratos da população, são realizadas AAS. A amostra completa é obtida através da junção das amostras de cada estrato. A amostragem estratificada é útil na melhoria da precisão das estimativas e ao produzir estimativas para a população toda e subpopulações. A execução de um plano amostral estratificado exige os seguintes passos: 1. Divisão da população em subpopulações bem definidas (estratos). 2. Retira-se uma amostra de cada estrato, usalmente independente (AAS com reposição). 3. Em cada amostra usa-se os estimadores convenientes para os parâmetros do estrato. 4. Monta-se para a população um estimador combinando os estimadores de cada estrato. Daremos ênfase a amostragem estratificada proporcional, que é um caso particular de amostragem estratificada. Aqui a proporcionalidade do tamanho de cada estrato da população é mantida na amostra. Isto garante que cada elemento da população tenha a mesma probabilidade de pertencer a amostra. 90 Neste caso, o total populacional τes = H X τh = h=1 Nh H X X Yhi , h=1 i=1 sendo τh o total da população no estrato h, com h = 1, . . . , H e Nh o número de elementos P da população dentro do estrato h. Considere o estimador T = H h=1 Nh ȳh , com E(T ) = τes PH e Var(T ) = h=1 Nh2 VarA (ȳh ), sendo que A indica a um plano amostral A. A média populacional H Nh H H X τes 1 XX 1 X = Yhi = Nh µh = W h µh , µes = N N h=1 i=1 N h=1 i=1 sendo µh a média populacional no estrato h, com h = 1, . . . , H, Wh = Nh /N o peso do P PH PH 1 estrato h, com H h=1 Nh ȳh = h=1 Wh ȳh , h=1 Wh = 1. Considere o estimador ȳes = N PH com E(ȳes ) = µes e Var(ȳes ) = h=1 Wh2 VarA (ȳh ). 2 Seja a variância populacional σes = σd2 + σe2 , com σd2 = H X Wh σh2 , e σe2 = h=1 H X Wh (µh − µes )2 , h=1 sendo σd2 a variância dos estratos (dentro) e σe2 a variância entre os estratos. Para a expressão S 2 , temos 2 Ses = H X Nh − 1 h=1 N −1 Sh2 H X Nh + (µh − µes )2 . N − 1 h=1 Convém observar que quando todos os estratos têm a mesma média, ou seja, µh = µ, h = 1, . . . , H a variância populacional coincide com σd2 . A distribuição das n amostras pelos estratos chamá-se de alocação amostral. Esse procedimento que irá garantir a precisão. É importante considerar que para estratos com maior variância um número maior de amostras seja designado. Porém, deve haver um balanceamento com o tamanho do estrato. Para uma alocação proporcional n é distribuído da seguinte maneira nh = nWh = n Nh . N Este caso também é chamado de amostra representativa. Para esta alocação da amostra temos que ȳes = ȳ. Analogamente ao processo apresentado para AAS com reposição, ȳes e τes seguem assintoticamente distribuição normal. Portanto, usando a mesma sequencia podemos obter o tamanho amostral quando o interesse são a média e o total populacional. 91 9.1.5 Amostragem de conglomerados Os planos amostrais vistos até agora sorteavam unidades amostrais diretamente da população ou de estratos desta mesma população. Quando os sistemas de referência não são adequados e o custo de atualizá-los é muito elevado, ou ainda quando movimentação para identificar as unidades amostrais é cara e consome muito tempo, a tarefa amostral pode ser facilitada ao selecionar grupos de unidades amostrais (conglomerados). Uma das inconveniências deste método é que as unidades, dentro de um mesmo conglomerado, tendem a ter valores parecidos em relação às variáveis pesquisadas. Existem duas formas de proceder na amostragem por conglomerados, a amostragem por conglomerados em um estágio e amostragem por conglomerados em dois estágio. Na primeira a população é dividida em subpopulações (conglomerados) distintas (quarteirão, família, bairro). Alguns conglomerados são selecionado segundo um AAS e todos os elementos nos conglomerados observados são amostrados. Em geral, é menos eficiente que AAS e a amostragem estratificada, mas é mais econômica. Na segunda a população é dividida em subpopulações, em um primeiro estágio algumas subpopulações são selecionadas usando AAS, e num segundo estágio uma amostra de unidades é selecionada de cada subpopulação selecionada no primeiro estágio. A amostragem estratificada e a amostragem por conglomerados em um estágio podem ser consideradas, para certas finalidades, como casos particulares da amostragem por conglomerados em dois estágios. 9.1.6 Amostragem sistemática Quando existe uma listagem de indivíduos da população, pode-se sortear, um nome entre os dez primeiros e posteriormente selecionar o décimo indivíduo iniciando no primeiro sorteado. A seleção do primeiro indivíduo pode ser feita usando AAS. Os demais indivíduos, que irão compor a amostra, são então selecionados sistematicamente. 9.2 Tamanho da amostra mínimo As formas mencionadas de cálculo de tamanho amostral envolvem a natureza do parâmetro populacional de interesse e a normalidade assintótica do estimador deste parâmetro. No entanto, alguns autores citam como obter uma amostra miníma baseada na seguinte 92 expressão n= N n0 , N + n0 sendo n0 = 1 , E02 ou seja, n minimo é uma função somente do tamanho populacional N e de n0 , sendo n0 é uma primeira aproximação para o tamanho da amostra envolvendo apenas o erro amostral tolerável. 9.3 Erros amostrais e Erros Não Amostrais O Erro amostral ou variabilidade amostral é a diferença entre a estimativa da amostra e o parâmetro da população. Decorre da própria noção de amostra. Quando se recolhe uma amostra, alguma coisa se perde da população de onde foi retirada, pelo que, embora cuidadosamente recolhida, uma amostra pode não ser representativa da população. Do mesmo modo, não se pode esperar que duas amostras, independentemente retiradas da mesma população, forneçam resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra não é uma perfeita representação da população, os resultados que ela fornece são de alguma forma errados. O erro amostral pode ser controlável com ações do tipo: • Técnica de amostragem - optando por aquela que, no caso concreto, se revela mais eficiente; mediante a escolha de um processo de amostragem aleatório e do aumento do tamanho da amostra, pode-se assegurar a representatividade e associar os resultados com grau de confiança elevado. • Estimadores - optando por aquele que seja mais eficiente, isto é, com menor variabilidade. O erro amostral é um erro aleatório, pois as estimativas comportam-se aleatoriamente em torno do verdadeiro valor do parâmetro. Ou seja, não coincidem com o parâmetro, estando umas estimativas acima e outras abaixo deste, mas concentram-se em torno de um valor central que coincide com o verdadeiro valor do parâmetro. O erros não amostrais envolvem (i) definição errada do problema de pesquisa, (ii) definição errada da população de pesquisa, (iii) definição parcial da população de pesquisa, (iv) falta de respostas, (v) instrumentos de coleta de dados inadequados, (vi) anotação 93 errada dos entrevistadores, (vii) erro no processamento, (viii) processos de amostragens não probabilísticos.