Document

Testes de Hipóteses
Henrique Dantas Neder
I
I
I
I
I
Vimos no capítulo anterior como construir intervalos de
conança para parâmetros da população. Um outro
procedimento muito utilizado em inferência é o
estabelecimento de um teste de hipóteses referente ao valor de
um dado parâmetro.
Da mesma forma como quando contruimos um intervalo de
conança para o valor do parâmetro, quando fazemos um teste
de hipóteses a respeito do valor do parâmetro, jamais
saberemos o valor verdadeiro deste parâmetro.
Um teste de hipóteses refere-se a uma determinada armativa
(hipótese) a respeito do parâmetro. Por exemplo, queremos
testar a hipótese de que o valor do parâmetro média
populacional µ é igual a 50 (µ = 50).
Quando testamos o valor deste parâmetro, podemos aceitar
uma hipótese central ou rejeitá-la. Desta forma um teste de
hipóteses será realizado com base em uma regra de decisão.
O primeiro passo em um teste de hipóteses é o da formulação
das hipóteses. Sempre trabalhamos com uma hipótese central
(ou hipótese nula) e uma hipótese alternativa.
I
I
I
I
I
X
Quando aceitamos a hipótese nula (de acordo com a nossa
regra de decisão) automaticamente rejeitamos a hipótese
alternativa e vice-versa (as duas hipóteses são excludentes e
opostas).
Vejamos um exemplo: suponhamos que queiramos testar (para
uma dada população) a hipótese de que sua média é igual a
50.
A hipótese nula será: H0 {µX = 50
A hipótese alternativa será Ha {µX 6= 50
Para testar estas hipóteses selecionamos aleatoriamente
(amostra aleatória simples) uma amostra da população e
calculamos sua média amostral e seu desvio padrão amostral:
P
= ni=1 Xi /n e
I
s=
r
Pn
2
i =1 (Xi −X )
n −1
Suponhamos que após os cálculos (baseados nos valores
amostrais de X) uma amostra de tamanho n = 40 produziu os
seguintes resultados:
X = 53 e s = 10
I
I
I
I
I
I
√ 0 tem distribuição normal padrão (z) onde
Sabemos que Xs /−µ
n
µ0 é o valor considerado na hipótese nula (no caso deste
exemplo 50).
Devemos denir um nível de signicância para o nosso teste de
hipóteses. Por exemplo, denimos α = 0.05 (um nível de
signicância de 5%).
Estabelecemos uma regra decisão: se z > −1, 96 e z < 1, 96
aceitamos a hipótese nula e em caso contrário rejeitamos a
hipótese nula e aceitamos a hipótese alternativa.
Calculamos o valor da estatística de teste:
√ 0 = 53−
√50 = 1.8973
z = Xs /−µ
n
10/ 40
Neste caso, como z cai dentro da região de aceitação da
hipótese nula (−1.96 < z < 1.96) aceitamos esta hipótese ou
seja aformamos que µ = 50.
Desta forma para realizar um teste de hipóteses temos que
seguir os seguintes passos:
1. Primeiro etapa: Denir as hipóteses
2. Segunda etapa: Escolher uma estatística de teste (no caso do
exemplo, a estatística de teste é X que através da
padronização se transforma na estatística z .
3. Denir uma regra de decisão: criar as regiões de aceitação de
H0 (ou rejeição de Ha ) e de rejeição de H0 (ou de aceitação de
Ha ).
4. Selecionar uma amostra e calcular o valor da estatística de
teste (no exemplo anterior X ).
5. Comparar o valor da estatística de teste com as regiões de
aceitação e de rejeição de Ho e tomar uma decisão (aceitar ou
rejeitar H0 ).
I
Um teste de hipóteses é semelhante a decisão de um juri em
um tribunal: o juri pode condenar ou inocentar o reu.
Suponhamos que a hipótese nula do julgamento (H0 ) seja {o
reu é inocente}. Então rejeitar a hipótese nula signica declar
o reu inocente e a hipótese alternativa signica que o juri
toma a decisão de declarar o reu culpado.
I
I
I
I
I
O juri pode cometer dois tipos de erro: decidir que o reu é
culpado quando na verdade o reu é inocente ou decidir que o
reu é inocente quando na verdade o reu é culpado.
Da mesma forma em um teste de hipóteses estatístico
podemos também cometer dois tipos de erro: rejeitar H0
quando H0 é verdadeira (chamado de erro tipo I) ou aceitar
H0 quando H0 é falsa.
A probabilidade de cometer um erro tipo I é chamada de nível
de signicância (α) do teste de hipóteses.
No exemplo anterior aceitamos a hipótese nula ao nível de
signicância (α) de 5 % (ou 0.05). Isto porque determinamos
as regiões de aceitação e de rejeição de H0 com base neste
valor de signicância.
Mas se deníssemos um nível de signicância α = 0.10 para o
teste decidiriamos aceitar H0 caso −1.6448 < z < 1.6448.
Como o valor de zcalculado =1.8963 caimos fora da região de
aceitação de H0 . Isto quer dizer que ao nível de signicância
α = 0.10 rejeitamos a hipótese nula.
I
I
I
Neste caso poderíamos estar cometendo o erro tipo I (ao
rejeitar H0 quando na verdade H0 é verdadeira). Qual seria a
probabilidade exata de estarmos cometendo erro tipo I quando
rejeitamos a hipótese nula?
Esta probabilidade seria igual a
P (z < −1.8973 ∪ z > 1.8973) = 2 × φ(−1.8973) = .057788.
Esta seria a probabilidade exata de estarmos cometendo um
erro tipo I ao rejeitarmos H0 quando o valor de
zcalculado = 1.8963 ou (o que é o mesmo) quando o valor de
X = 53.
Exemplo: Os empregados de uma determinada empresa
deveriam trabalhar, em média, 8h diárias. De forma a
investigar se os empregados estão a trabalhar mais do que as
horas previstas, o sindicato registou o número de horas que
150 trabalhadores (escolhidos ao acaso) trabalharam num dia
qualquer, tendo obtido os seguintes resultados:
P150
P150
2
i =1 Xi = 1260 e i =1 (Xi − X ) = 1000
a) Teste ao nível de signicância de 5%, se a empresa deverá ser
punida por exigir que os seus empregados trabalhem mais do que
deviam.
b) Qual o tipo de erro que pode cometer relativamente à decisão
que tomou?
Solução:
H0 {µX = 8
Ha {µX > 8
Este é um caso de teste unilateral porque estamos considerando
como hipótese alternativa apenas uma das caudas (a cauda direita)
da distribuição. Caso a hipótese alternativa fosse Ha {µX 6= 8
teriamos uma situação de teste bilateral. Isto inuencia a
determinação das regiões de aceitação e de rejeição de H0 : no caso
do teste unilateral consideramos todo o valor do nível de
signicância em uma das caudas somente e assim denimos a
seguinte regra de decisão:
−1
Se z < zcr ı́tico = φ (.95) = 1.6448 aceitamos H0 e em caso
contrário z > 1.6448 rejeitamos H0
De acordo com os valores dados temos:
(1260/150)−8
0
√0 = √
√
= sXx −µ
= 1.8910
zcalculado = X s−µ
/ n
1000/149/ 150
X
Neste caso rejeitamos H0 ao nível de signicância de 5% pois o
valor de zcalculado cai na região de rejeição de H0 .
Mas podemos estar cometendo um erro tipo I. Qual é a
probabilidade exata de estarmos cometendo este tipo de erro?
Podemos calcular esta probabilidade como:
P (erro tipo I ) = P (z > 1.8910|H0 é verdadeiro ) = P (z >
1.8910) = 1 − φ(1.8910) = .02931
A conclusão é que devemos tomar a decisão de rejeitar H0 mas
estando cientes de que podemos estar cometendo um erro tipo I
(rejeitar H0 quando H0 é verdadeira) com uma probabilidade exata
de 2,93%. Como esta probabilidade é relativamente baixa,
podemos rejeitar H0 . Esta probabilidade exata é chamada de
p − value do teste. É o valor do menor nível de signicância para o
qual podemos rejeitar H0 .
Exemplo: Numa determinada empresa pensa-se importar um
grande lote de instrumentos de precisão, para os quais o fabricante
garante um peso médio igual a 100 gr. Sendo o peso uma
característica importante para a qualidade do produto, resolveu-se
testar a veracidade da armação do fabricante. Para tal, o
departamento técnico da empresa importadora obteve uma amostra
de 15 instrumentos, através da qual se obtiveram os seguintes
valores:
P15
P15
2
i =1 Xi = 1407 e i =1 (Xi − X ) = 1674
Admitindo a normalidade dos pesos, qual a sua opinião, ao nível de
signicância de 1%, relativamente à armação do fabricante.
Solução:
Denição das hipóteses:
H0 {µX = 100 contra Ha {µX 6= 100
Como a amostra é pequena (n < 30) não podemos utilizar a
distribuição normal padrão z . Temos que usar a distribuição t de
Student porque sabemos que a distribuição de X na população é
normal. O valor crítico de t ao nível de signicância de 0.01 e para
um número de graus de liberdade n − 1 = 14 é igual a 2.9768. Este
valor pode ser obtido através do comando Stata disp
invttail(14,.005) ou por uma tabela para a t de Student.
Colocamos 0.005 no argumento da probabilidade porque devemos
considerar que as duas caudas da distribuição somam 1%.
As regiões de aceitação e de rejeição de H0 são denidas como:
Aceitar H0 se −2.9768 < tcalculado < 2.9768
Rejeitar H0 se tcalculado ≤ −2.9768 ou tcalculado ≥ 2.9768
O valor de t calculado, de acordo com os resultados da amostra,
pode ser obtido como:
/15)−100
0
q
tcalculado = X s−µ
= −2.1959
= (1407
1674 √
X
14 /
15
Caimos na região de aceitação de H0 .
Exemplo:Suponha que determinado canal de televisão deseja saber
qual tinha sido a percentagem de pessoas que viram determinado
programa. Para tal, realizou uma sondagem tendo sido inquiridas
220 pessoas, das quais 132 disseram ter visto o referido programa.
a) Determine um intervalo de conança de nível 95% para
percentagem de pessoas em toda a população que viu esse
programa. b) Qual deveria ser o número de pessoas inquiridas para
se obter um intervalo de conança de nível 95% com metade da
amplitude do anterior? (Admita que a proporção das pessoas que
viram o programa se mantém.) c) Poder-se-á armar, ao nível de
5%, que mais de metade das pessoas viram o programa?
Solução:
a) P (p̂ − z1−.05/2 × σp̂ < p <p̂ + z1−.05/2 × σp̂ ) = 0.95
q 132
132
220 ×(1− 220 ) <
P ( 132
220 − 1.96 ×
q220
132 ×(1− 132 )
220
220 ) = 0.95
+
z
×
p < 132
1
−.
05
/
2
220
220
P (.5352 < p < .6647) = 0.95
b) amplitude = (.6647 − .5352)/2 = .06475
erro de amostragem = amplitude /2 = .032375
q
Utilizamos a expressão: e = z1−α/2 × σp̂ = z1−α/2 × p̂×(n1−p̂)
Para isolar n, temos:
e 2 = (z1−α/2 )2 × p̂×(n1−p̂)
132 ×(1− 132 )
2
×(1−p̂ )
1.962 × 220
220 = 879.8 ≈ 880
n = (z1−α/2 ) e×p̂
=
2
.0323752
c) Formulação das hipóteses:
H0 {p = 0.50 contra Ha {p > .50 (o teste é unilateral ou unicaudal)
Denição da região de aceitaçao e de rejeição de H0 :
Aceita-se H0 se zcalculado for menor do que
zcr ı́tico = φ−1 (0.95) = 1.6448
Observe que jogamos todo o valor do nível de signicância do teste
em apenas uma das caudas da distribuição porque o teste é
unilateral. Se o teste fosse bilateral teriamos que calcular
φ−1 (.975): teriamos que distribuir igualmente o nível de
signicância nas duas caudas da distribuição.
Cálculo do valor de zcalculado :
132
zcalculado = p̂−σp̂p0 = r 132220×(−10−.5132 ) = 3.0276
220
220
220
Rejeitamos H0 ao nível de signicância de 5%.
Exemplo: Admita que a direcção comercial de uma determinada
empresa pretende lançar um novo serviço de telecomunicações. De
acordo com critérios empresariais, o serviço só deverá ser lançado
no mercado se houver mais de 80% de potenciais compradores.
Assim, para averiguar o eventual lançamento do serviço, a empresa
decidiu efectuar um inquérito a 400 grandes clientes, tendo 340
sido favoráveis à aquisição do novo serviço. a) Para um nível
signicância de 5%, poder-se-á concluir que a empresa opta pelo
lançamento do serviço? E para um nível de signicância de 1%? b)
Determine o valor p do teste e interprete-o.
Solução:
a) Denição das hipóteses:
H0 {p ≤ 0.8 contra Ha {p > 0.8
Determinação das regiões de aceitação e de rejeição de H0 :
Como o teste é unilateral zcr ı́tico para um nível de signicância de
5% é calculado como φ−1 (.95) = 1.6448
Aceita-se H0 se zcalculado < zcr ı́tico = 1.6448
340
zcalculado = r 340400 −0.8340 = 2.800
400 ×(1− 400 )
400
Rejeitamos H0 ao nível de signicância de 5%
Ao nível de 1% de signicância o valor de zcr ı́tico é
φ−1 (.99) = 2.3263. Neste caso também rejeitamos H0 ao nível de
signicância de 1% pois zcalculado > zcr ı́tico .
b) O valor p do teste é calculado como:p = 1 − φ(2.8) = .00255.
Existe uma chance exata de 0.255% de cometermos o chamado
erro tipo I, ao rejeitarmos H0 .
Exemplo: Admita que uma amostra aleatória de 400 domicílios de
uma determinada cidade revelou que 8% destes são casas de
aluguel, enquanto que, numa outra cidade, uma amostra de 270
domicílios revelou que 37 eram casas de aluguel. a) Construa um
intervalo de conança de nível 99% para a percentagem de casas de
aluguel em cada cidade. b) Suponha que os intervalos de conança,
obtidos na alínea anterior, sejam considerados pouco precisos. Qual
deverá ser o tamanho das amostras para que o erro de estimativa
não exceda 2%? c) Poderá armar estatisticamente, ao nível de
5%, que há maior percentagem de casas de aluguel em alguma das
duas cidades? Justique.
Solução:
a) primeira cidade:
p̂ − z1−.01/2 × σqp̂ < p < p̂ + z1−.01/2 × σp̂
q
1−0.08)
1−0.08)
< p < 0.08 − 2.5758 × 0.08×(400
0.08 − 2.5758 × 0.08×(400
0.0451 < p < 0.1149
segunda cidade:
p̂ − z1−.01/2 × σq
p̂ < p < p̂ + z1−.01/2 × σp̂
q 37
37
37 ×(1− 37 )
37
37
270
270
270 ×(1− 270 )
−
2
.
5758
×
<
p
<
+
2
.
5758
×
270
270
270
270
0.0831 < p < 0.1909
b) primeira cidade
2
2
×(1−p̂ )
.08×(1−.08)
n = (z1−α/2 ) e×p̂
= 1.5758 ×0.02
= 456.89 ≈ 457
2
2
37
37 )
2
2
(z1−α/2 ) ×p̂ ×(1−p̂ )
1.5758 × 270 ×(1− 270
n=
=
= 734.12 ≈ 734
e2
.022
c) esta pergunta se refere a um teste de diferença de proporções.
Ha {pA = pB contra Ha {pa 6= pb ou Ha {pA − pB = 0 contra
Ha {pa − pb 6= 0
A estatística de teste é a diferença de proporções das duas
37
amostras p̂a − p̂b = .08 − 270
= −.0570
A variância de p̂a − p̂b será dado por
37 ×(1− 37 )
p̂a (1−p̂a ) + p̂b (1−p̂b ) = .08×(1−.08) + 270
270 = .00062199
na
nb
400
√ 270
O erro padrão de p̂a − p̂b é igual a .00062199 = .0249
Então o valor de zcalculado será
37
b −0 = .08− 270 = −2.2906
zcalculado = p̂σa −p̂
.0249
p̂a −p̂b
Para um nível de signicância a região de aceitação de H0 é
−1.96 < zcalculado < 1.96
Portanto rejeitamos H0 ao nível de signicância de 5 %.
O p-value deste teste pode ser calculado ocmo sendo igual a
φ(−2.2906) × 2 = .02198. Multiplicamos por 2 porque o teste é
bilateral e temos que considerar a área das duas caudas da
distribuição. Interpretação do p-value: 2,20% é o nível de
siginicância exato do teste - ao rejeitarmos H0 existe uma
probabilidade exata de estarmos rejeitando quando na verdade H0 é
verdadeira.