Aderência Sumário

Propaganda
Aderência
Rinaldo Artes
Insper Instituto de Ensino e Pesquisa
2015
Sumário
1. Estatística qui-quadrado ........................................................................................... 2
2. Gráfico de Probabilidades ......................................................................................... 9
3. Teste de Jarque-Bera ............................................................................................. 14
Serão apresentadas técnicas que permitem avaliar se um conjunto de dados pode ter
sido gerado a partir de uma certa distribuição de probabilidades. A primeira técnica
baseia-se na estatística qui-quadrado de Pearson, a segunda em gráficos de
probabilidades, adequados principalmente quando a variável em questão segue uma
distribuição contínua e, por fim, o teste de Jarque-Bera, que a partir dos coeficientes
de assimetria e curtose, verifica se um conjunto de dados pode ter sido gerado por
uma distribuição normal.
1
1. Estatística qui-quadrado
Objetivo: Decidir se um conjunto de dados segue uma determinada distribuição de
probabilidades.
Exemplo 1.1: Uma emissora de TV desconfia da qualidade do método utilizado por
um instituto para medir a audiência de programas de TV. Tal instituto aponta que em
um determinado horário a emissora A tem 37% da audiência, enquanto que a
emissora B tem 30%, a C tem 13% e as demais têm 20%.
A emissora contratou uma empresa de pesquisa de mercado que selecionou uma
amostra de 300 residências. Em cada uma, perguntou-se em qual canal a principal TV
da casa estava sintonizada, na última semana, no horário determinado. Dos 300, 95
declararam estar assistindo a emissora A, 87 a emissora B, 51 a C e 67 uma das
demais emissoras, ou não estava com a TV ligada.
Há evidências de que os dados do instituto estejam errados?
Admita:
: probabilidade da emissora A ser sintonizada,
: probabilidade da emissora B ser sintonizada,
: probabilidade da emissora C ser sintonizada,
: probabilidade de outras emissoras serem sintonizada,
= 95: número de pessoas da amostra que declararam assistir a emissora A,
= 87: número de pessoas da amostra que declararam assistir a emissora B,
= 51: número de pessoas da amostra que declararam assistir a emissora C e
= 67: número de pessoas da amostra que declararam assistir outras emissoras.
Temos
instituto,
categorias de resposta e
= 0,37,
= 0,30,
= 0,13 e
∑
= 0,20.
. Além disso, segundo o
A estatística qui-quadrado busca aferir o quanto os dados são compatíveis com os
valores de probabilidades fornecidos. Sua lógica consiste em comparar os dados
observados com os dados que deveriam ser observados numa amostra de hipotética
(amostra de referência) que obedecesse fielmente às probabilidades fornecidas.
1.1. Amostra de referência
Se a amostra seguisse fielmente a estrutura de probabilidade dada por , quantas
pessoas deveríamos ter observado em cada uma das quatro possíveis categorias de
resposta?
Nesse caso, para a primeira categoria (audiência da emissora A), esperaríamos ter
37% de observações, ou seja, a frequência esperada dessa categoria seria
= 0,37 * 300 =111; para a segunda
= 0,30 * 300 =90,
para a terceira = 0,13 * 300 = 39 e, por fim, para a última = 0,20 * 300 =60.
2
Resultado 1.1: Seja
o valor que seria observado na classe ,
amostra seguisse fielmente a estrutura de probabilidade dada por .
, se a
.
1.2. Estatística qui-quadrado
A estatística qui-quadrado é uma medida da distância entre os valores efetivamente
observados ( ) e os que esperaríamos observar se a amostra seguisse fielmente a
estrutura de probabilidades fornecida ( ). A constrição dessa medida será feita passo
a passo a partir dos dados do Exemplo 1.1.
Na Tabela 1.1, estão dispostos, lado a lado, os valores observados e esperados. Note
que a soma das respectivas colunas é igual ao tamanho da amostra. Isso decorre do
Resultado 1.2.
Resultado 1.2: ∑
Prova: ∑
.
∑
∑
Na quinta coluna da tabela são apresentadas as diferenças entre os valores
observados e os valores esperados. Caso a estrutura de probabilidades fornecida seja
de fato seguida pelos dados, espera-se que esses valores sejam próximos de zero. A
estatística qui-quadrado baseia-se na distância quadrática entre os valores
)
observados e esperados dada por: (
Voltando à Tabela 1.1, nota-se uma distância de 256 para a primeira categoria de
resposta e 144 para a terceira. Será que de fato, em termos qualitativos, a
discrepância na categoria 1 é mais importante do que a observada na categoria 3?
Tabela 1.1: Determinação da estatística qui-quadrado para os dados do Exemplo
1.1.
Categoria
( - )
( - )
( - )
1
0,37
95
111,0
-16,0
256,00
2,31
2
0,30
87
90,0
-3,0
9,00
0,10
3
0,13
51
39,0
12,0
144,00
3,69
4
0,20
67
60,0
7,0
49,00
0,82
Total
1,00
300
300
0,0
6,92
3
Na categoria 1, esperávamos encontrar 111 pessoas e na categoria 3, 39. Ao se fazer
a razão entre a distância e os valores esperados para essas duas categorias, temos,
respectivamente, 2,31 e 3,69. Isso indica que, em termos relativos, o afastamento
observado na categoria 3 é mais importante do que na categoria 1. A estatística quiquadrado é construída com base nesse raciocínio.
Definição 1.1: Seja
a probabilidade hipotética de uma observação pertencer á
categoria de resposta,
, com ∑
. Seja
o número de indivíduos
classificados na categoria e
seu respectivo valor esperado, conforme definido no
Resultado 1.1,
. Define-se a estatística qui-quadrado como
∑
(
)
Em suma a estatística qui-quadrado nada mais é do que a distância quadrática entre
os valores da amostra e da amostra de referência, ponderada pelos valores esperados
sob a hipótese de que a estrutura de probabilidades fornecida é correta. Quanto
maior o valor dessa estatística, maior é a evidência de que os dados não seguem
a estrutura de probabilidades fornecida.
Para o Exemplo 1.1,
.
Exemplo 1.2: A Tabela 1.2 descreve o número de reclamações diárias observado em
100 dias de funcionamento de um biblioteca. Um analista desconfia que uma
distribuição de Poisson poderia ser utilizada para descrever o comportamento dessa
variável. Com base nos dados apresentados na Tabela 1.2, pode-se concluir que ele
tem razão?
O primeiro passo para a determinação da estatística qui-quadrado é o cálculo da
probabilidade de ocorrência de cada categoria da variável em questão. Aventa-se a
hipótese de que a distribuição de Poisson é adequada para modelar este fenômeno,
no entanto, não foi fornecido o valor do parâmetro da distribuição. Desse modo, é
necessário estimá-lo a partir dos dados. Como o parâmetro da Poisson é a média da
distribuição, decidiu-se estimá-lo por 1,49, a média aritmética dos dados.
Tabela 1.2: Número de reclamações diárias observadas em 100 dias de atividade
Número de reclamações
Dias
0
25
1
35
2
18
3
13
4
6
5
3
4
Total
100
A Tabela 1.3 traz as probabilidades de cada categoria, obtidas a partir de uma
distribuição de Poisson com média 1,49. Note que essas probabilidades não somam
100%, condição estabelecida para o cálculo da estatística qui-quadrado. Para
contornar esse problema, e para levar em conta que há poucas observações na última
categoria de resposta, decidiu-se reorganizar os dados conforme a Tabela 1.4.
Tabela 1.3: Probabilidades associadas aos dados da Tabela 1.2.
Número de reclamações
Dias
Probabilidade
0
25
0,2254
1
35
0,3358
2
18
0,2502
3
13
0,1243
4
6
0,0463
5
3
0,0138
Total
100
0,9957
Tabela 1.4: Número de reclamações diárias observadas em 100 dias de atividade
e probabilidades associadas ás categorias de resposta
Número de reclamações
Dias
Probabilidade
0
25
0,2254
1
35
0,3358
2
18
0,2502
3
13
0,1243
≥4
9
0,0644
Total
100
1,0000
Para os dados do Exemplo 1.2, obteve-se
. A Tabela 1.5 resume o cálculo
dessa estatística. Note que os valores esperados não são números inteiros. Isso é
uma ocorrência comum que não deve ser corrigida, uma vez que os valores esperado
constituem apenas pontos de referência.
5
Tabela 1.5: Determinação da estatística qui-quadrado para os dados da Tabela
1.4.
( - ) ( - )
Categoria
( - )
0
0,2254
25
22,54
2,46
6,07
0,27
1
0,3358
35
33,58
1,42
2,01
0,06
2
0,2502
18
25,02 -7,02
49,25
1,97
3
0,1243
13
12,43
0,57
0,33
0,03
>3
0,0644
9
6,44
2,56
6,56
1,02
Total
1,0000
100
100
0,00
3,34
Exemplo 1.3: Uma empresa pode ser multada se emitir poluentes acima de níveis
tolerados. Especula-se que o nível de emissão de certo poluente segue uma
distribuição normal. Os dados da Tabela 5 reproduzem os níveis de emissão em 284
dias. Há evidências de que a emissão segue uma distribuição normal?
Assim como no Exemplo 1.2, não foram fornecidos os parâmetros da distribuição de
probabilidades. Sua determinação a partir da média e desvio-padrão amostral dos
dados resultou numa média de 44,3 e desvio-padrão de 4,15. Teoricamente, a
distribuição normal pode assumir qualquer valor real, desse modo é necessário fazer
alterações nas categorias de resposta para fazer com que a soma de suas
probabilidades de ocorrência atinja 100%. Conforme pode ser visto na Tabela 1.7, a
primeira categoria foi considerada como “Inferior a 34,5” e a última “49,5 ou mais”.
Tabela 1.6: Emissões diárias de poluentes de uma empresa
Emissão
Dias
30,0
a
34,5
4
34,5
a
37,5
8
37,5
a
40,5
32
40,5
a
43,5
84
43,5
a
46,5
74
46,5
a
49,5
42
49,5
a
52,5
40
Total
284
6
Tabela 1.7: Determinação da estatística qui-quadrado para os dados da Tabela
1.6.
( - )
Emissão
( - )
-
a
34,5
0,0091
4
2,585
1,415
0,775
34,5
a
37,5
0,0416
8
11,801
-3,801
1,224
37,5
a
40,5
0,1293
32
36,712
-4,712
0,605
40,5
a
43,5
0,2436
84
69,196
14,804
3,167
43,5
a
46,5
0,2784
74
79,070
-5,070
0,325
46,5
a
49,5
0,1929
42
54,787
-12,787
2,985
49,5
a
0,1051
40
29,849
10,151
3,452
284
284,000
0,000
12,533
Total
A partir dos dados chega-se a
.
A lógica de análise da estatística qui-quadrado é bastante simples: valores muito
distantes de zero indicam que a distribuição de probabilidades não segue a
distribuição de probabilidades considerada no problema. A dificuldade é sabe se o
valor observado está distante o suficiente de zero para se tirar essa conclusão.
1.3 Distribuição de
Pode-se construir um teste de hipóteses para verificar se os dados seguem a
distribuição em consideração que utiliza
como estatística de teste. Nesse caso,
temos
H0: os dados seguem a distribuição em consideração.
H1: os dados não seguem a distribuição em consideração.
Prova-se, sob a hipótese de que os dados seguem a distribuição de probabilidades em
consideração e para grandes amostras, que a distribuição de pode ser aproximada
por uma distribuição qui-quadrado1 com
graus, sendo o número de
parâmetros estimados a partir dos dados.
Desse modo, a conclusão final pode ser feita a partir da probabilidade de se observar
um valor tão grande ou maior do que o observado (valor p); quanto menor o valor,
maior a evidência de que os dados não seguem a distribuição em consideração.
1
Uma regra empírica diz que a amostra é suficientemente grande para utilizar a distribuição
)
qui-quadrado quando
e (
, para todo
. Quando a regra não for
satisfeita, recomenda-se redefinir as categorias de resposta, agrupando as que a violarem.
7
Na Tabela 1.8 são apresentados os valores p associados aos resultados dos
exemplos 1, 2 e 3. A partir desses valores podemos concluir que há evidências fortes
para rejeitar a hipótese de normalidade dos dados do Exemplo 1.3, alguma evidência
contrária à distribuição apresentada no Exemplo 1.1 e evidências muito fracas com a
hipótese de que os dados do Exemplo 1.2 seguem uma distribuição de Poisson.
Tabela 1.8: Valor p associados à análise dos exemplos 1, 2 e 3.
Exemplo
1
2
3
Valor p
6,92
3,34
12,53
4
5
7
0
1
2
3
3
4
0,0745
0,3421
0,0138
Comando excel para
cálculo do valor p
DIST.QUIQUA.CD(6,92;3)
DIST.QUIQUA.CD(3,34;3)
DIST.QUIQUA.CD(12,53;3)
8
2. Gráfico de Probabilidades
Objetivo: Verificar se um conjunto de dados pode ter sido gerado a partir de
uma específica distribuição de probabilidades contínua.
Exemplo 2.1: Os dados abaixo se referem aos retornos da Petr4 observados
em 20 dias. Há evidências de que esses dados seguem uma distribuição
normal?
A lógica da construção desse tipo de gráfico é comparar os dados observados
(x) com os dados que esperaríamos ter observado caso eles seguissem a
distribuição de probabilidades. Caso fosse possível criar uma coluna (y) com
esses valores esperados e se dispuséssemos os pontos (x,y) num eixo
cartesiano esperaríamos, casos os dados de fato tivessem sido gerados pela
distribuição de probabilidades proposta, que os pontos se distribuíssem
aleatoriamente ao redor da reta da reta de 45º.
O Resultado 2.1 fundamenta a obtenção dos valores esperados.
Resultado 2.1: Seja X uma variável aleatória contínua com função distribuição
( ), então
( ).
acumulada dada por F(x). Então, se
Note que a observação 0,129 é menor ou igual a 70% dos dados amostrais.
Desse modo, se a distribuição dos dados fosse de fato uma normal,
esperaríamos que 0,129 estivesse próximo ao percentil 70 de uma normal com
média -0,584 e desvio-padrão 1,643 (valores obtidos a partir da amostra). Esse
raciocínio poderia ser aplicado para obtenção da coluna de valores esperados.
No entanto, teríamos um problema com o valor 3,045. Esse valor é menor ou
igual a 100% dos dados. Seria impossível obter o valor esperado de uma
normal que deixasse 100% as observações abaixo dele. Assim foi sugerida
uma pequena alteração na determinação do percentil amostral. Essa alteração
denomina-se Função distribuição acumulada empírica.
Definição 2.1. Função distribuição acumulada empírica (FDAE). Seja i a iésima observação ordenada de uma amostra de tamanho n. Então o valor
FDAE para esse valor é dado por
̂( )
9
Tabela 2.1: Retornos compostos da Petr4 observados entre 22/03 e 19/04
de 2012.
Data
X: Retorno (%)
22/03/2012
-1,294
23/03/2012
-0,421
26/03/2012
2,129
27/03/2012
-1,708
28/03/2012
-1,738
29/03/2012
-0,300
30/03/2012
0,129
02/04/2012
-0,515
03/04/2012
-2,971
04/04/2012
-3,566
05/04/2012
1,097
09/04/2012
-1,881
10/04/2012
-1,87
11/04/2012
0,752
12/04/2012
3,045
13/04/2012
-1,557
16/04/2012
-0,741
17/04/2012
0,325
18/04/2012
0,831
19/04/2012
-1,435
Média
-0,584
DP
1,643
A partir da definição acima, temos que o valor esperado, associado à i-ésima
observação ordenada, é dado por
̂
(
)
Voltando ao exemplo, temos que
é a distribuição acumulada de uma
distribuição normal com média -0,584 e desvio-padrão 1,643.
A Tabela 2.3 descreve o processo de obtenção dos valores esperados para os
dados do Exemplo 2.1.
O próximo passo é dispor os pares ordenados (x,y) num eixo cartesiano e
comparar a disposição dos pontos com a reta de 45º. A Figura 2.1 traz esse
gráfico.
10
Tabela 2.2: Amostra ordenada
i:Observação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Média
DP
x: dados
ordenados
-3,566
-2,971
-1,881
-1,87
-1,738
-1,708
-1,557
-1,435
-1,294
-0,741
-0,515
-0,421
-0,300
0,129
0,325
0,752
0,831
1,097
2,129
3,045
-0,584
1,643
Note que, na Figura 2.1, os pontos parecem estar aleatoriamente distribuídos
ao redor da reta de 45º. Isso nos leva a concluir que a distribuição normal pode
ser uma boa candidata a distribuição geradora desses dados. No entanto, esse
método é puramente descritivo e deve ser utilizado com cuidado.
Um cuidado a ser tomado é com o tamanho amostral. São necessárias muitas
observações para que esse tipo de técnica seja realmente eficaz. A Figura 2.2,
traz informações sobre os mesmos retornos, só que no período entre
20/04/2011 e 19/04/2012 (250 observações). Analisando-se esse gráfico,
somos levados a concluir que a distribuição normal não é adequada para
descrever esse conjunto de dados.
Essa técnica pode ser utilizada para verificar a aderência de um conjunto de
dados a qualquer distribuição de probabilidades. Basta para isso, utilizar a
função distribuição acumulada correspondente. Além disso, sugere-se que os
parâmetros da distribuição sejam estimados a partir dos dados.
11
Vários pacotes estatísticos e econométricos já trazem opções para a
construção de gráficos semelhantes aos aqui apresentados. Variações desse
método surgem com os nomes: Gráficos QQ, Gráficos de quantis, Gráficos PP,
etc.
A planilha GraficodeProbabilidade.xlsx traz a memória de cálculo associada a
este texto.
Tabela 2.3: Obtenção dos valores esperados para os dados do Exemplo.
̂
(
i
x (amostra ordenada)
1
-3,566
0,025
-3,805
2
-2,971
0,075
-2,950
3
-1,881
0,125
-2,475
4
-1,87
0,175
-2,120
5
-1,738
0,225
-1,826
6
-1,708
0,275
-1,567
7
-1,557
0,325
-1,330
8
-1,435
0,375
-1,108
9
-1,294
0,425
-0,895
10
-0,741
0,475
-0,687
11
-0,515
0,525
-0,481
12
-0,421
0,575
-0,274
13
-0,300
0,625
-0,061
14
0,129
0,675
0,161
15
0,325
0,725
0,398
16
0,752
0,775
0,657
17
0,831
0,825
0,951
18
1,097
0,875
1,306
19
2,129
0,925
1,781
20
3,045
0,975
2,636
)
12
Gráfico de probabilidade normal
4
3
y: valor esperado
2
-4
1
0
-3
-2
-1
-1 0
1
2
3
4
-2
-3
-4
-5
x: valor observado
Figura 2.1: Gráfico de probabilidade normal
Gráfico de probabilidade normal
0,080
Valores esperados
0,060
-0,100
0,040
0,020
-0,080
-0,060
-0,040
0,000
-0,020
-0,0200,000
0,020
0,040
0,060
-0,040
-0,060
-0,080
-0,100
Valores observados
Figura 2.2: Gráfico de probabilidade normal para 250 observações (dados
de 1 ano)
13
3. Teste de Jarque-Bera
O teste de aderência de Jarque-Bera pode ser utilizado para verificar se um conjunto
de dados segue uma distribuição normal. A estatística do teste é dada por
[
]
sendo
∑
∑
respectivamente, os coeficientes de assimetria e curtose, com
∑
(
̅)
(variância). Sob a hipótese de normalidade dos dados
̅
√
e
segue uma
distribuição qui-quadrado com dois graus de liberdade. Quanto maior for o valor dessa
estatística, menor a evidência de que a distribuição é de fato normal.
Este teste baseia-se no fato de numa distribuição normal espera-se observar valores
de e
iguais a zero.
14
Download