Resumo - Amostragem e distribuições amostrais

Propaganda
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Amostragem e distribuições amostrais
1.2
1
Conceitos e técnicas de amostragem aleatória
Em estatística queremos estudar fenómenos de natureza aleatória e, em particular, determinar um conjunto de propriedades que os caracterizam. Esses
fenómenos estão associados a populações que podem ser finitas ou infinitas.
Enquanto, no caso de populações finitas, pode ser possível (mas raramente
aconselhável) obter a informação pretendida através de uma enumeração
completa da população, já no caso de populações infinitas tal não é possível,
restando-nos como alternativa recorrer à amostragem. A amostragem é uma
técnica de selecção de elementos de uma população para se estimar propriedades e características dessa população. População é o conjunto de todos
os objectos cujas características pretendemos estudar e amostra é qualquer
subconjunto finito da população.
A média e o desvio padrão, são exemplos de medidas usadas para descrever amostras e populações. Quando estas medidas se referem às características de uma amostra chamam-se estatísticas, e quando se referem às características da população chamam-se parâmetros. As estatísticas estimam
o valor dos parâmetros que pretendemos normalmente determinar.
1.1
Razões para a utilização de uma amostra
A utilização de uma amostra e não da população num estudo estatístico
deve-se, pelo menos, a uma das seguintes razões:
• a população ser infinita;
• economia de dinheiro;
• economia de tempo;
• comodidade;
• testes destrutivos.
O sucesso de um estudo estatístico, baseado no estudo de uma amostra,
depende da escolha desta. Uma amostra mal escolhida conduz a conclusões
erradas.
Métodos de amostragem
O processo de obtenção ou extracção de amostras designa-se por amostragem.
De um modo geral, deve ter-se os seguintes cuidados na formação de uma
amostra:
• Imparcialidade - todos os elementos devem ter a mesma oportunidade
de fazer parte da amostra;
• Representatividade - deve conter em proporção tudo o que a população
possui, qualitativa e quantitativamente;
• Tamanho - deve ser suficientemente grande de modo que as características da amostra se aproximem, tanto quanto possível das características
da população.
Existem dois tipos de métodos de amostragem:
• aleatórios;
• determinísticos.
Na amostragem aleatória, qualquer dos elementos da população pode entrar na amostra de acordo com uma probabilidade conhecida. Na amostragem determinística, a opinião e a experiência individual são usadas para
identificar os elementos da população a incluir na amostra. A amostragem
aleatória permite efectuar uma análise estatística mais rigorosa do que a
amostragem determinística.
Vamos considerar apenas esquemas de amostragem aleatória, para que
posteriormente se possa usar inferência estatística, a qual permite que a
partir de uma amostra, se façam extrapolações dos resultados para toda a
população. Neste caso, os elementos a amostrar são escolhidos de modo
aleatório e cada elemento da população tem uma probabilidade conhecida de
ser seleccionado para a amostra. É ainda possível determinar a precisão das
estimativas amostrais para a característica em estudo e efectuar projecções
e inferências sobre a população da qual se retirou a amostra. A amostragem
pode ser:
• com reposição: se o elemento seleccionado volta ao quadro de amostragem depois de observado;
• sem reposição: se o elemento seleccionado não volta ao quadro de amostragem.
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
1/18
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
2/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Dentro da amostragem aleatória, as técnicas realçamos a amostragem
simples, a amostragem sistemática, a amostragem estratificada, amostragem
por grupos, por fases e por conglomerados.
Na amostragem aleatória simples qualquer elemento da população tem a
mesma probabilidade de ser escolhido e é seleccionado independentemente
dos outros. A amostra de dimensão n é seleccionada usando um processo
aleatório, por exemplo, usando uma tabela de números aleatórios ou através de geração números aleatórios. Qualquer uma das NCn amostras, de n
elementos, retirada de uma população de dimensão N, tem a mesma probabilidade NC1 n de ser seleccionada. Para obter uma amostra aleatória simples
seguem-se os seguintes passos:
no qual a população é particionada em várias subpopulações ou estratos.
Na primeira fase faz-se a construção dos estratos. Os estratos devem ser
mutuamente exclusivos e exaustivos de modo a que:
• numerar consecutivamente os elementos da população de 1 a N;
• escolher n números utilizando uma tabela de números aleatórios, ou
através da geração computacional de números aleatórios. Os números
têm que ser distintos e estar situados entre 1 e N;
• Recolher para a amostra, os registos da(s) característica(s) de interesse,
para os elementos da população correspondentes aos números aleatórios
escolhidos.
Por exemplo, se se pretender seleccionar uma amostra de 100 alunos de uma
determinada Universidade, atribui-se um número a cada um dos alunos da
Universidade e, seguidamente, escolhem-se ao acaso 100 desses números.
Na amostragem sistemática os elementos da amostra são escolhidos a
partir de uma regra estabelecida:
• escolhe-se aleatoriamente o elemento k entre 1 e i “
N
;
n
• escolhem-se os restantes n ´ 1 elementos, nas posições k ` j ˆ i, onde
j “ 1, 2, . . . , n ´ 1.
• todo o elemento da população pertença a um e um só estrato;
• nenhum elemento da população seja omitido.
As variáveis utilizadas para dividir a população em estratos são chamadas
variáveis de estratificação e os elementos dentro de cada estrato devem ser o
mais homogéneos possíveis, mas os estratos devem ser o mais heterogéneos
possíveis. Na segunda fase faz-se a construção da amostra. Os elementos a amostrar, são seleccionados de cada um dos estratos por um processo
aleatório, normalmente por amostragem aleatória simples. A amostragem
estratificada pode ser de dois tipos:
• proporcional: o tamanho da amostra retirada de cada estrato é proporcional ao tamanho relativo do estrato na população total;
• não proporcional: o tamanho da amostra retirada de cada estrato não
é proporcional ao tamanho relativo do estrato na população.
Por exemplo, na selecção de 100 alunos de uma determinada Universidade,
considerando cada curso um estrato, escolher-se-ia em cada um desses cursos um determinado número de alunos por um dos processos anteriores. O
número de alunos a escolher em cada curso, ou seja, em cada estrato, deve
ser proporcional ao número de alunos nesse curso.
Na amostragem por grupos, a população é em primeiro lugar dividida em
subpopulações ou grupos mutuamente exclusivos e colectivamente exaustivos.
De seguida uma amostra aleatória de grupos é seleccionada com base numa
técnica de amostragem aleatória como a amostragem aleatória simples. Esta
amostragem pode ser de 3 tipos:
Como no caso da amostragem aleatória simples, cada elemento da população
tem igual probabilidade de pertencer à amostra. No entanto, nem todas as
amostras de dimensão n têm probabilidade igual de selecção. Por exemplo,
Para seleccionar uma amostra de 30 alunos de um curso com 600 alunos,
depois de numerados todos os alunos, pode escolher-se um aluno de 20 em
20 a partir do primeiro aluno seleccionado. O primeiro aluno seleccionado é
escolhido ao acaso de entre o primeiro grupo de 20 alunos. Supondo que o
número 3 foi o primeiro aluno seleccionado, tem-se a amostra: 3, 23, 43, 63,
83, 103, . . . , 543, 563, 583.
A amostragem estratificada utiliza-se quando a população está dividida
em estratos ou grupos diferenciados. Este processo é realizado em duas fases,
A amostragem por grupos a dois passos ou multipassos pode ser feita de dois
modos diferentes:
Amostragem e distribuições amostrais
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
3/18
• amostragem por grupos a um passo: se todos os elementos em cada
cluster seleccionado forem incluídos na amostra final;
• amostragem por grupos a dois passos: se a amostra final é desenhada
probabilisticamente de cada cluster seleccionado;
• amostragem por grupos multipassos: se para desenhar a amostra final
são efectuados vários níveis de amostragem antes dos elementos básicos
serem escolhidos.
C. Fernandes & P. Ramos
4/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• em todos os passos é efectuada amostragem aleatória simples. A fracção
de elementos seleccionada é a mesma em todos os grupos;
• a amostra retirada de cada grupo é proporcional à sua dimensão.
A amostragem por fases pode ter duas ou mais fases. Na amostragem em
duas fases tem-se:
e esta propriedade vai ter consequências muito importantes. Considere-se,
por exemplo, que se tem uma amostra aleatória de dimensão n “ 4. De
uma forma quase arbitrária podemos indicar valores para os três primeiros
desvios, pondo-se, por exemplo, d1 “ ´5, d2 “ ´4 e d3 “ 7. řNo entanto
a escolha do valor do quarto desvio já não será livre visto que ni“1 di “ 0.
Assim o valor de d4 será obtido fazendo
d4 “ 0 ´ pd1 ` d2 ` d3 q “
“ 0 ´ p´5 ´ 4 ` 7q “
“ 2.
• primeira fase: uma amostra da população é seleccionada e alguma informação é retirada de todos os elementos da amostra;
• segunda fase: uma subamostra é retirada da amostra inicial e informação adicional é obtida dos elementos da subamostra.
A amostragem por conglomerados é essencialmente utilizada para reduzir
os custos de grandes pesquisas, nas quais os investigadores devem ser enviados a locais muito distantes. Neste método são utilizados dois níveis de
amostragem:
• unidade primária de amostragem ou conglomerado, que corresponde a
uma área bem delineada onde se concentram características encontradas na população total;
• sujeitos amostrados dentro de conglomerado.
2
Distribuições amostrais teóricas
řn
yi
n
e di “ yi ´ y. Observando a primeira expressão de S 2 conclui-se que esta é
baseada na soma de quadrados dos desvios em relação à média da amostra.
Sabemos ainda que a soma dos desvios em relação à média deverá ser zero,
ou seja,
n
n
ÿ
ÿ
di “ 0
pyi ´ yq “
y“
i“1
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
2.1
i“1
Distribuição Qui-Quadrado
A distribuição qui-quadrado é uma distribuição de probabilidade contínua
que é muito usada em estatística e está relacionada com a distribuição normal.
Tem um único parâmetro n, o número de graus de liberdade, que é um número
inteiro positivo.
2.1.1
Antes de introduzir as novas distribuições amostrais teóricas, convém introduzir o conceito de grau de liberdade. A variância amostral, S 2 , de uma
amostra aleatória y1 , . . . , yn é dada por
řn 2
řn
d
pyi ´ yq2
“ i“1 i ,
S 2 “ i“1
n´1
n´1
onde
Generalizando, dados os valores de n ´ 1 desvios em relação à média, que podem tomar qualquer valor, o valor do último desvio estará obrigatoriamente
condicionado. Assim dizemos que existe n ´ 1 graus de liberdade para a variância da amostra, reflectindo o facto de apenas n ´ 1 desvios serem “livres”
de assumir qualquer valor, visto que dados os valores destes n ´ 1 “números
livres”, o último valor estará automaticamente determinado.
Função densidade de probabilidade
Diz-se que uma variável aleatória contínua X tem distribuição de Qui-quadrado
com n graus de liberdade se a sua função densidade de probabilidade tiver a
forma:
x
n
1
f pxq ” χ2 pnq “ n ` n ˘ e´ 2 x 2 ´1 ,
22Γ 2
com x ą 0 e n P N, onde Γ pyq é a função Gama definida por
ż `8
Γ pyq “
xy´1 e´x dx,
0
com y ą 0. Escreve-se, X „ χ2 pnq.
2.1.2
Valor médio, valor esperado ou esperança matemática da
distribuição
E rXs “ n.
i“1
5/18
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
6/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
2.1.3
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• se X1 , . . . , Xn são variáveis aleatórias independentes e normais, isto é,
se Xi „ N pµi ; σi q então
Variância da distribuição
˙2
n ˆ
ÿ
Xi ´ µ i
V ar rXs “ 2n.
2.1.4
i“1
Propriedades da distribuição qui-quadrado
A distribuição qui-quadrado tem as seguintes propriedades:
Assimétrica
A distribuição χ2 está tabelada. χ2n;p representa o valor da variável X para
o qual a probabilidade acumulada é p, como se ilustra na figura seguinte.
2
χ
Área
sombreada = p
• à medida que o número de graus de liberdade aumenta, a distribuição
vai-se tornando mais simétrica:
χ2(2) χ2
(5)
χ2(10)
0
2
χn;p
No entanto para n ą 30 pode usar-se a aproximação à distribuição normal.
Exemplo 2.1. Considere que a variável aleatória X segue uma distribuição
qui-quadrado com 24 graus de liberdade.
0
• os valores de qui-quadrado podem ser 0 ou positivos; nunca podem ser
negativos;
• a distribuição χ2 é aditiva: Se X1 , . . . , Xn são variáveis aleatórias independentes tais que Xi „ χ2 pni q, com i “ 1, . . . , n, então
˜
¸
n
n
ÿ
ÿ
Y “
Xi „ χ2
ni ;
i“1
i“1
• o quadrado de uma variável aleatória com distribuição normal reduzida
tem distribuição χ2 com 1 grau de liberdade, isto é, se X „ N pµ; σq
`
˘2
„ N p0; 1q e Z 2 “ X´µ
„ χ2 p1q;
então Z “ X´µ
σ
σ
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
„ χ2 pnq ;
• a distribuição χ2 tende para a distribuição normal à medida que o
número de graus
aumenta, isto é, se X „ χ2 pnq e n Ñ `8
` ?de liberdade
˘
X´n
?
9 p0, 1q.
então X „N
9
n, 2n ou 2n „N
• a distribuição qui-quadrado não é simétrica:
0
σi
7/18
(a) Determine o valor de x0 para que P rX ă x0 s “ 0, 25;
Temos X „ χ2 pn “ 24q. Sendo χ2n;p valor da variável X para o qual a
probabilidade acumulada é p temos
P rX ă x0 s “ 0, 25 ô x0 “ χ224;0,25 ô x0 “ 19.
(b) Determine P rX ď 13, 8s.
Consultando a tabela da distribuição qui-quadrado para 24 graus de
liberdade obtém-se P rX ď 13, 8s “ 0, 05.
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
8/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Exemplo 2.2. A população X segue uma distribuição normal com média
0 e desvio padrão 1. Considere uma amostra aleatóriařde dimensão 4 recolhida daquela população e a seguinte estatística T “ 4i“1 Xi2 . Deduza a
distribuição amostral de T .
Sabemos que X „ N p0, 1q, ou seja, X tem distribuição normal reduzida.
Xi2 „ χ2 p1q, com i “ 1, 2, 3, 4 pois cada elemento da amostra segue a distribuição da população e, por outro lado, o quadrado de umařnormal reduzida
tem distribuição do qui-quadrado com 1 grau de liberdade. 4i“1 Xi2 „ χ2 p4q
pela aditividade da distribuição do qui-quadrado
(recorde-se que as Xi são
ř
independentes). Em conclusão, T “ 4i“1 Xi2 „ χ2 p4q com E rT s “ 4 e
V ar rT s “ 8 dado que a distribuição do qui-quadrado com n graus de liberdade tem valor esperado n e variância 2n.
2.2
Propriedades da distribuição t-Student
A distribuição t-student tem as seguintes propriedades:
• a distribuição t-Student tem a mesma forma geral simétrica (forma de
sino) que a distribuição normal:
Simétrica
0
t
Distribuição t-Student
A distribuição t-Student é uma distribuição de probabilidade contínua e tem
um único parâmetro n, o número de graus de liberdade, que é um número
inteiro positivo.
Diz-se que uma variável aleatória contínua T tem distribuição t-Student
com n graus de liberdade se a sua função densidade de probabilidade tiver a
forma:
`
˘ ˆ
˙´ n`1
2
Γ n`1
t2
2` ˘
f ptq ” t pnq “ ?
,
1`
n
n
nπ Γ 2
com t P R e n P N. Escreve-se T „ t pnq. De seguida apresentam-se os
parâmetros característicos desta distribuição.
2.2.1
2.2.3
Valor médio, valor esperado ou esperança matemática da
distribuição
• Sejam X „ N pµ, σq e Y „ χ2 pnq, variáveis aleatórias independentes.
Então
X´µ
T “ bσ
Y
n
„ t pnq ;
• à medida que o tamanho da amostra, n, aumenta, a distribuição tStudent aproxima-se da distribuição normal reduzida. Para n ą 30,
as diferenças são tão pequenas que podemos usar a aproximação
´ a
¯à
n
distribuição normal. Se T „ t pnq e n Ñ `8 então T „N
9
0; n´2
ou ?T n „N
9 p0; 1q.
n´2
A distribuição t-Student está tabelada. tn;p representa o valor da variável
T para o qual a probabilidade acumulada é p, como se ilustra na figura
seguinte.
E rT s “ 0,
se n ą 1. O valor médio não existe para n “ 1.
2.2.2
Área
sombreada = p
Variância da distribuição
n
,
n´2
se n ą 2. A variância não existe para n ď 2.
0
V ar rT s “
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
tn;p
No entanto para n ą 30 pode usar-se a aproximação à distribuição normal.
9/18
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
10/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Exemplo 2.3. Considere que a variável aleatória X segue uma distribuição
t-Student com 10 graus de liberdade.
2.3.1
Valor médio, valor esperado ou esperança matemática da
distribuição
(a) Determine o valor de x0 para que P rX ď x0 s “ 0, 05;
Temos X „ t pn “ 10q. Sendo tn,p valor da variável X para o qual a
probabilidade acumulada é p temos:
P rX ď x0 s “ 0, 05 ô x0 “ t10;0,05 “ ´t10;0,95 “ ´1, 81,
E rXs “
se n2 ą 2.
2.3.2
Variância da distribuição
pois devido à simetria da função densidade tem-se tn,p “ ´tn,1´p .
(b) Determine o valor de x0 para que P rX ą x0 s “ 0, 10;
V ar rXs “
P rX ą x0 s “ 0, 10 ô P rX ď x0 s “ 0, 90 ô x0 “ t10;0,90 “ 1, 37.
se n2 ą 4.
(c) Determine P rX ą 1, 37s;
P rX ą 1, 37s “ 1 ´ P rX ď 1, 37s “ 1 ´ 0, 90 “ 0, 10, por consulta da
tabela da distribuição da t-Student com 10 graus de liberdade.
(d) Determine P rX ď ´2, 76s.
2.3.3
2n22 pn1 ` n2 ´ 2q
,
n1 pn2 ´ 2q2 pn2 ´ 4q
Propriedades da distribuição F-Snedecor
A distribuição F-Snedecor tem as seguintes propriedades:
• a distribuição F-Snedecor não é simétrica:
P rX ď ´2, 76s “ P rX ě 2, 76s “ 1´P rX ă 2, 76s “ 1´0, 99 “ 0, 01,
por consulta da tabela da distribuição da t-Student com 10 graus de
liberdade.
2.3
n2
,
n2 ´ 2
Assimétrica
Distribuição F-Snedecor
A distribuição F , cujo nome foi atribuído em honra de Sir Ronald Fisher
(1890-1962), é uma distribuição de probabilidade contínua com dois parâmetros que são números positivos, chamados graus de liberdade. Diz-se que
uma variável aleatória contínua X tem distribuição F com n1 e n2 graus de
liberdade, se a sua função densidade de probabilidade tiver a forma:
`
˘ ˆ ˙ n1
n1 ´2
Γ n1 `n2
n1 2
x 2
f ptq ” F pn1 , n2 q “ ` n1 ˘ 2 ` n2 ˘
,
´
¯ n1 `n
2
n2
Γ 2 Γ 2
2
1 ` nn21 x
com x ą 0 e n1 , n2 P N.
Sejam X1 e X2 variáveis aleatórias independentes com distribuição χ2 com
n1 e n2 graus de liberdade, respectivamente, X1 „ χ2 pn1 q e X2 „ χ2 pn2 q.
Então X “
X1
n1
X2
n2
0
F
• os valores da distribuição F não podem ser negativos;
• o quadrado de uma variável aleatória com distribuição t-Student com
n graus de liberdade tem distribuição F com 1 e n graus de liberdade.
Se T „ t pnq então T 2 „ F p1, nq;
• se X „ F pn1 , n2 q então
• F pn1 ; n2 ; pq “
1
X
„ F pn2 , n1 q;
1
.
F pn2 ;n1 ;1´pq
tem distribuição F com n1 e n2 graus de liberdade e escreve-
se X „ F pn1 , n2 q. De seguida apresentam-se os parâmetros característicos
desta distribuição.
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
11/18
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
12/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
A distribuição F-Snedecor encontra-se tabelada. F pn1 ; n2 ; pq representa
o valor da variável X para o qual a probabilidade acumulada é p, como se
ilustra na figura seguinte.
especificada). As estimativas para θ terão de ser obtidas a partir de amostras, através de alguma função que designaremos por T pX1 , X2 , . . . , Xn q.
Observada uma amostra px1 , x2 , . . . , xn q, aquela função assumirá o valor
t “ T px1 , x2 , . . . , xn q que será tomado como estimativa para θ. O problema
consiste na determinação da função da amostra T pX1 , X2 , . . . , Xn q que forneça “melhores” estimativas para θ.
Definição 3.1. Um parâmetro de uma população é uma constante θ, que é
uma característica (propriedade) da população.
Área
sombreada = p
0
Definição 3.2. Uma estatística é uma variável aleatória função da amostra
px1 , x2 , . . . , xn q, não envolvendo qualquer parâmetro desconhecido.
F (n 1;n 2 ;p)
Dado um parâmetro θ da população usa-se:
Exemplo 2.4. Considere que a variável aleatória X segue uma distribuição
F-Snedecor com 6 e 12 graus de liberdade.
(a) Determine o valor de x0 para que P rX ď x0 s “ 0, 99;
Temos X „ F pn1 “ 6; n2 “ 12q. Sendo F pn1 ; n2 ; pq valor da variável X para o qual a probabilidade acumulada é p temos P rX ď x0 s “
0, 99 ô x0 “ F p6; 12; 0, 99q “ 4, 82.
(b) Determine o valor de x0 para que P rX ď x0 s “ 0, 05;
P rX ď x0 s “ 0, 05 ô x0 “ F p6; 12; 0, 05q “
pois F pn1 ; n2 ; pq “ F pn2 ;n11 ;1´pq .
1
F p12;6;0,95q
“
1
4
“ 0, 25,
(c) Determine P rX ď 3, 73s.
P rX ď 3, 73s “ 0, 975, por consulta da tabela da distribuição da FSnedecor com 6 e 12 graus de liberdade.
De um modo geral, só na estimação por intervalos e nos testes de hipóteses
se poderá ter uma ideia clara da utilização das distribuições que se acabaram
de apresentar.
3
Distribuições amostrais
Um dos problemas centrais de que se ocupa a estatística é o estudo de uma
população com função densidade (ou de probabilidade) f px; θq cuja expressão analítica é conhecida mas com um parâmetro θ desconhecido (se θ fosse
conhecido a função de densidade ou de probabilidade estaria completamente
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
13/18
• θp para representar os valores das estatísticas e lê-se “estimativa de θ”;
p para representar as estatísticas e lê-se “estimador de θ”.
• Θ
As estatísticas amostrais mais usadas são a média amostral, a variância
amostral, o desvio padrão amostral e a proporção amostral:
• Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n. A média
amostral é:
řn
Xi
X “ i“1 .
n
O valor calculado de X para uma dada amostra é denotado por x.
Quando for necessário evidenciar o tamanho da amostra, usamos a
notação X n e xn ;
• Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n. A variância
amostral é:
˘2
řn `
řn
2
Xi ´ X
X 2 ´ nX
S 2 “ i“1
“ i“1 i
.
n´1
n´1
O desvio padrão amostral é a raiz quadrada positiva da variância amostral:
?
S “ S 2.
O valor calculado de S 2 para uma dada amostra é denotado por s2 .
O divisor n ´ 1 é usado em vez de n para se obter um estimador não
enviesado da variância (propriedade dos estimadores definida no resumo
sobre Estimação).
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
14/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• a proporção amostral pp é usada para estimar a proporção p de elementos de uma população que têm determinadas características. Seja
X1 , X2 , . . . , Xn uma amostra aleatória de n observações independentes
com distribuição Bernoulli ppq e em que Xi “ 1 (sucesso) ou Xi “ 0
(insucesso) consoante o elemento observado tenha, ou não, a(s) característica(s) pretendida(s). A proporção amostral é:
řn
Xi
pp “ i“1
n
e indica a proporção de sucessos da amostra.
3.1.2
Distribuição por amostragem de uma proporção
Seja pX1 , X2 , . . . , Xn q uma amostra aleatória de uma população de Bernoulli ppq
e em que Xi “ 1 (sucesso) ou Xi “ 0 (insucesso) consoante o elemento řobsern
Xi
vado tenha, ou não, a(s) característica(s) pretendida(s). Seja pp “ X “ i“1
n
a proporção de sucessos (elementos com as características pretendidas) da
amostra.
Se n ą 30 (n grande) então
˜ c
¸
p p1 ´ pq
X ´p
pp “ X „N
9
p;
„N
9 p0; 1q
ôb
n
pp1´pq
n
3.1
Distribuições por amostragem ou distribuições amostrais
p “
A distribuição amostral é a distribuição de uma estatística amostral Θ
p depende da distribuição
T pX1 , X2 , . . . , Xn q. A distribuição da estatística Θ
da população e do tamanho da amostra.
3.1.1
Distribuição por amostragem da média amostral
¯
• Se σ é conhecido e X segue uma distribuição normal, X „ N µ, ?σn ,
então
X ´µ
„ N p0; 1q ,
σ
?
´
n
qualquer que seja o tamanho n da amostra;
¯
´
• Se σ é conhecido, X segue uma distribuição arbitrária, X „N
9
µ, ?σn ,
e n ą 30 então
X ´µ
„N
9 p0; 1q ;
σ
?
n
• Se σ é desconhecido, X segue uma distribuição arbitrária e n ą 30
então
X ´µ
„N
9 p0; 1q ;
S
?
n
• Se σ é desconhecido e X segue uma distribuição normal então
X ´µ
?S
n
ou
X ´p
b
„N
9 p0; 1q .
pp1´pq
n
3.1.3
Distribuição por amostragem para a variância amostral S 2
Seja X1 , X2 , . . . , Xn uma amostra aleatória retirada de uma população normal de parâmetros µ e σ. Então
pn ´ 1q S 2
„ χ2n´1 .
σ2
3.1.4
Distribuição por amostragem para a diferença de médias
amostrais com duas amostras independentes
• Se σ1 e σ2 são ˆ
conhecidos e X1 e X˙2 seguem uma distribuição normal,
b 2
σ
σ2
X 1 ´ X 2 „ N µ1 ´ µ2 ; n11 ` n22 , então
`
˘
X 1 ´ X 2 ´ pµ1 ´ µ2 q
b 2
„ N p0; 1q ,
σ2
σ1
` n22
n1
qualquer que sejam os tamanhos n1 e n2 das amostras;
• Se σ1 e σ2 sãoˆconhecidos, X1 e X˙
2 seguem uma distribuição arbitrária,
b 2
σ
σ2
X 1 ´ X 2 „N
9
µ1 ´ µ2 ; n11 ` n22 e n1 ą 30 e n2 ą 30 então
`
„ tn´1 ,
qualquer que seja o tamanho n da amostra.
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
15/18
˘
X 1 ´ X 2 ´ pµ1 ´ µ2 q
b 2
„N
9 p0; 1q ;
σ2
σ1
` n22
n1
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
16/18
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• Se σ1 e σ2 são desconhecidos,
X1 e X2 seguem
uma distribuição arbib
¯
´
2
2
trária, X 1 ´ X 2 „N
9
µ1 ´ µ2 ; Sn11 ` Sn22 e n1 ą 30 e n2 ą 30 então
`
˘
X 1 ´ X 2 ´ pµ1 ´ µ2 q
b
„N
9 p0; 1q ;
2
S1 2
` Sn22
n1
• Se σ1 e σ2 são desconhecidos, as populações são homocedásticas pσ12 “ σ22 q
e X1 e X2 seguem uma distribuição normal então
`
˘
X 1 ´ X 2 ´ pµ1 ´ µ2 q
c
´
¯ „ tn1 `n2 ´2 ,
pn1 ´1qS1 2 `pn2 ´1qS2 2
1
` n12
n1 `n2 ´2
n1
qualquer que sejam os tamanhos n1 e n2 das amostras;
• Se σ1 e σ2 são desconhecidos, as populações são heterocedásticas
e X1 e X2 seguem uma distribuição normal então
`
˘
X 1 ´ X 2 ´ pµ1 ´ µ2 q
b
„ tr ,
2
S1 2
` Sn22
n1
pσ12
‰
σ22 q
sendo r o número natural mais perto de r ˚ e este é dado por
¯
´ 2
2 2
S1
` Sn22
n
1
r˚ “
´ 2 ¯2
´ 2 ¯2 ,
S1
1
` n21´1 Sn22
n1 ´1
n1
Distribuição por amostragem para o quociente de variâncias
amostrais
Sejam X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn duas amostras aleatórias independentes
de dimensão n1 e n2 , respectivamente, onde X „ N pµ1 ; σ1 q e Y „ N pµ2 ; σ2 q.
Então
S1 2 σ22
ˆ
„ F pn1 ´ 1; n2 ´ 1q .
S2 2 σ12
Exemplo 3.1. O rendimento familiar em euros de uma determinada região
do país segue uma distribuição aproximadamente normal, com média 500e
e variância 324 peq2 . Qual a probabilidade de, numa amostra de 16 famílias
daquela região:
(a) o rendimento familiar médio ser inferior a 491e?
Seja X - “rendimento médio da amostra”.
“
‰
Pretende-se calcular P X ă 491 . A média amostral obtida numa amostra´retirada
a seguinte distribuição:
X„
¯ duma população
´ normal tem b
¯
“ 4, 5 . Assim temos,
N µ; ?σn . Logo X „ N µ “ 500; σ “ 324
16
ı
”
“
‰
P X ă 491 “ P Z ă 491´500
“ Φ p´2q “ 0, 0228;
4,5
(b) a variância amostral exceder os 506, 25 peq2 ?
qualquer que sejam os tamanhos n1 e n2 das amostras.
3.1.5
3.1.6
Distribuição por amostragem para a diferença de proporções
com duas amostras independentes
Sejam X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn duas amostras aleatórias independentes
de dimensão n1 e n2 (suficientemente grande) obtidas de duas populações de
Bernoulli.
Se n1 ą 30 ^ n2 ą 30 (n1 e n2 grandes) então
d
¸
˜
p1 p1 ´ p1 q p2 p1 ´ p2 q
`
pp1 ´ pp2 „N
9
p1 ´ p2 ;
n1
n2
2
Pretende-se calcular P rS 2 ą 506, 25s. Sabe-se que pn´1qS
„ χ2n´1 , ou
σ2
2
2
χ
.
Assim
temos:
seja, 15S
324 15
„
ȷ
“
‰
15S 2
15 ˆ 506, 25
P S 2 ą 506, 25 “ 1 ´ P
ď
“
324
324
ȷ
„
2
15S
ď 23, 4375 »
“ 1´P
324
» 1 ´ 0, 95 “ 0, 05,
consultando a tabela da distribuição da qui-quadrado com 15 graus de
liberdade.
logo
pp
p ´ pp2 q ´ pp1 ´ p2 q
b1
„N
9 p0; 1q .
p1 p1´p1 q
2q
` p2 p1´p
n1
n2
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
17/18
Amostragem e distribuições amostrais
C. Fernandes & P. Ramos
18/18
Download