Estimativa de Parâmetros

Propaganda
Inferência 1:Estimação de Parâmetros
Relembrando o Teorema Central do Limite
Da aula anterior:
a) Os estimadores da média e da s2 são não viciados e de
variância mínima.
b) Do Teorema Central do Limite, a distribuição amostral
da média tem distribuição de Gauss, com média  e
variância 2 /n.
Estimativas por Intervalo
2. Estimativas por intervalo ou intervalo de confiança
A idéia do intervalo de confiança é bastante simples.
Considere uma variação em torno do valor amostral , ou
seja:
Valor do parâmetro=estimativa pontual  erro de
amostragem.
O erro de amostragem(E) é função da dispersão da
população, do grau de confiança dos resultados e do
tamanho da amostra.
Estimativas por Intervalo
Observação:
Toda afirmação deve vir acompanhada de um grau de
confiança, ou grau de certeza, ou seja quanto se está certo
ao comunicar aquela informação.
O nível ou grau de confiança é denotado por 100(1-),
onde  (alfa) é o nível de significância.
Em outras palavras:
Prob(IS)=1-
Pergunta: Qual a interpretação dessa fórmula?
Esquema do Intervalo de Confiança
Estimativas por Intervalo
O conceito de intervalo de confiança pode ser visualizada pela figura abaixo:
Exemplo:
Valor do parâmetro = estimativa pontual  uma função da confiança, dispersão e tamanho
da amostra
Observação
Intervalo de Confiança:
a) Se o intervalo de confiança de uma pesquisa é de 95%,
significa que, a cada 100 entrevistas feitas pela mesma
metodologia, 95 apresentarão os mesmos resultados.
b) Quando se retira uma amostra e se calcula um
intervalo de confiança, não se sabe, na verdade, se o
parâmetro da população se encontra naquele intervalo
calculado.
Principais Estimativas por Intervalo
Os problemas existentes, na prática, resumem-se, na maioria dos
casos, à necessidade de estimar.
• a média  de uma população;
• a diferença nas médias de duas populações, 1 - 2;
• a proporção p de elementos de uma população que pertence a uma
classe de interesse;
• a diferença na proporção de duas populações, p1 - p2;
• a variância 2 de uma população
Principais Estimativas por Intervalo
Os estimadores pontuais mais utilizadas são as seguintes:
• para , o estimador é
̂  x , a média amostral;
• para 1   2 , o estimador é ˆ1  ˆ 2  x1  x2 , a diferença entre as
médias amostrais de duas amostras aleatórias independentes;
pˆ 
x
n
• para p o estimador é
, onde x é o número de elementos de uma
amostra de tamanho n que pertence à classe de interesse;
• para p1 – p2, o estimador é pˆ1  pˆ 2  p1  p2
, a diferença entre as
proporções amostrais calculadas a partir de duas amostras aleatórias
independentes;
• para 2 , o estimador é
ˆ 2  s 2, a variância amostral.
Intervalo de Confiança para a Média
Com variância conhecida
Para estimar a média , seleciona-se uma amostra aleatória de
tamanho n e calcula-se a média amostral. Do TCL sabe-se que a
distribuição amostral do estimador pontual é, aproximadamente, a
de Gauss, com média  e variância 2/n.
Como a distribuição da média amostral tende para a de Gauss, o
intervalo de confiança deve abranger uma área de (1-)% entre seus
limites inferior e superior na distribuição de Gauss.
Intervalo de Confiança para a Média
Cada limite é expresso em unidades de desvio padrão representada por
z/2, tal que a área da extremidade à esquerda de -z/2 vale /2 e a área
à direita de z/2 vale /2. A área entre os limites de confiança seja
100(1- )% .
As abscissas z são encontradas nas tabelas da distribuição de Gauss.
Então o intervalo de confiança bilateral de 100 (1-  )% para  é dado
por:
X  z / 2

n
   X  z / 2

n
Observe que a:
Parâmetro=estimativa pontualfunção(confiança,dispersão, tamanho da amostra).
Intervalo de Confiança para a Média
Exemplo: O desvio padrão da população para a glicemia é de 10 mg/dl.
Em uma amostra de 50 indivíduos retirados casualmente, a média é de
118 mg/dl.
Estime a média da população de modo que se esteja correto em 95%
dos casos.
O intervalo de confiança bilateral de 100 (1- )% para  é dado por:
X  z / 2


   X  z / 2
n
n
No Excel , o cálculo do intervalo de confiança é feito pela função
INT.CONFIANÇA.
Resposta: [115;121]
Intervalo de Confiança para a Média
Com variância desconhecida
Para estimar a média  da população com variância(2) desconhecida ,
seleciona-se uma amostra aleatória de tamanho n e calcula-se a média e
a variância amostral. Nesse caso, deve-se utilizar a distribuição t de
Student, com (n-1) graus de liberdade.
O intervalo de confiança bilateral de 100 (1-)% para a média  é:
X  t / 2,n 1
s
n
   X  t / 2,n 1
s
,
n
onde X é a média amostral, t/2,n-1 é a abscissa da distribuição t que limita a
área das extremidades direita e esquerda no valor /2, e o número de graus
de liberdade é (n-1).
Intervalo de Confiança para a Média
Observação:
Quando o número de graus de liberdade é considerado
grande (maior que 30), observa-se que o valor t tende
para o valor correspondente de z, igualando-se no caso de
n tendendo a infinito.
Intervalo de Confiança para a Média
Exemplo: O desvio padrão da amostra para a glicemia, de 50 indivíduos, é de
10 mg/dl e a média é de 118 mg/dl. Estime a média da população de modo que
se esteja correto em 95% dos casos.
Solução:
n=50, s= 10 mg/dl, X=118 mg/dl e 1- =0,95.
Da distribuição de t, tem-se que t0,025;49=2,01.
Aplicando a fórmula anterior, temos:
[ 115,2;120,8]
A Distribuição F
Considere duas populações com distribuição de Gauss com médias 1,
2 e variâncias 12 e 22 .
Retire uma amostra aleatória de tamanho n1 da primeira população, tendo
uma variância s12, e outra amostra aleatória de tamanho n2 da segunda
população com variância s22 .
(s12 /  12 ) /(s22 /  22 ) indica a relação entre as razões
A estatística
amostral e da população.
das variâncias
Supondo que as variâncias amostrais sejam oriundas de amostras aleatórias
independentes e com as mesmas variâncias populacionais, então:
F=s12 /s22.
A distribuição teórica que modela essa razão denomina-se Distribuição F
Exemplo com o Excel
No menu Ferramentas, a opção Análise de Dados leva ao Teste F. .
Exercício sobre o Teste F
Exemplo: Considere as medidas de alturas de alunos e alunas da disciplina
RGM 5837.
F 1,60 1,65 1,54 1,55 1,59 1,65 1,73 1,71 1,73
M 1,71 1,72 1,92 1,73 1,83 1,80 1,82 1,76 1,75
Considerando-se uma confiança de 95%, pode-se afirmar que as variâncias são
iguais?
No Menu Ferramentas, a opção Análise de Dados leva ao Teste F:duas
amostras para variâncias, que realiza o teste de igualdade de
variâncias.
Intervalo de Confiança para a Diferença de Médias
Considerando iguais as variâncias das populações
A variável aleatória X1 é modelada por uma distribuição de Gauss com
média 1 e variância 12, isto é, X1~N(1, 12) e a variável X2, também é de
Gauss, isto é, X2~N(2, 22)
O intervalo de 100 (1-)% de confiança para a diferença (1 - 2 ) entre as
médias das duas populações é dado por:
X 1  X 2  t / 2, n1  n2  2 s p
1
1

 1   2  ( X 1  X 2 )  t / 2, n1  n2  2 s p
n1 n2
Com a variância comum, ponderada, dada por:
s 2p
(n1  1) s12  (n2  1) s 22

n1  n2  2
1
1

n1 n2
A Distribuição Qui-quadrado
Considere uma população de tamanho n que tem uma distribuição de Gauss
com média 0 e variância 1, ou seja, z12, z22, ..., zn2.
A distribuição qui-quadrado(2) é definida como a soma dos quadrados
dos n valores de zi:
2=z12 + z22 + z32 + ... + zn2
Se continuarmos a retirar as amostras da mesma população, cada
uma das n quantidades terá uma distribuição de probabilidade 2
que poderá ser representado por um histograma.
Com o número de amostras(n) grande, tem-se a distribuição do quiquadrado com n-1 graus de liberdade.
Exemplo com o Excel
No menu Colar função, escolher Estatística e a opção INV.QUI ou DIST.QUI.
TESTES DE HIPÓTESES
Exemplo
Suponha que um medicamento P tenha, com relação a
uma doença, uma eficiência de curas da ordem de 50%.
Admita, ainda, que o laboratório esteja interessado em
lançar no mercado um novo medicamento N cuja
eficiência, com relação à mesma doença, seja EN,
esperada superior a EP.
O objetivo é testar a hipótese de que os dois medicamentos
têm a mesma eficiência contra a hipótese de que o
medicamento N é mais eficiente do que o padrão (P)
H0
EN = EP
H1
EN  EP
ou
H0
EN = 50%
H1
EN  50%
ELEMENTOS DE UM TESTE ESTATÍSTICO
• A hipótese nula, H0
• A hipótese alternativa, Ha ou H1
• O teste estatístico
• A região de não rejeição
Região de não rejeição
Região de não rejeição
Para testar H0 contra H1, suponha a realização do
seguinte experimento:
Toma-se uma amostra de indivíduos apresentando as
características da doença e casualmente aplica-se os
dois medicamentos. Por exemplo, 20 indivíduos, 10
tomam o medicamento P e o restante o N.
Ao final do experimento, com os resultados obtidos, o
laboratório deverá tomar uma decisão, entre duas
possíveis:
• aceitar H0, ou seja, o medicamento N tem a mesma
eficiência que o P.
• rejeitar H0 (aceitar H1), isto é, o medicamento N tem
eficiência maior que o P.
Ao tomar uma decisão o laboratório estará cometendo
algum tipo de erro?
a) Suponha que H0 seja realmente verdadeira
• se for tomada a primeira decisão (aceitar H0), não se
estará cometendo erro
• se for tomada a segunda decisão (rejeitar H0 ), cometese um erro, denominado tipo I que consiste em rejeitar
H0 quando H0 é verdadeira, cuja probabilidade de
ocorrência é o .
b) Suponha que H1 seja realmente verdadeira:
se for tomada a primeira decisão (aceitar H0), comete-se
um erro, denominado tipo II que consiste em aceitar H0
quando H0 é falsa, cuja probabilidade de ocorrência é
.
EM RESUMO
Verdade
H0
H1
Não há erro
Erro tipo II = Aceitar H0
(rejeitar H1) quando H0 é
falso (H1 é verdadeiro)
Decisão
H0
H1
Erro tipo I = Rejeitar H0
(aceitar H1) quando H0 é
verdadeira (H1 é falso)
Não há erro
OBSERVAÇÕES
a) Os dois erros são igualmente importantes, porém
depende do problema;
b) Ao reduzir um ocorre aumento no outro ;
c) A única maneira de reduzir ambos é aumentando o
tamanho da amostra;
OBSERVAÇÕES
d) Em geral, fixa-se o  e o  é o menor possível;
e) A escolha prévia do valor de  , não é um problema
estatístico e sim do pesquisador interessado em testar
H0 contra H1.
Download