Revisão de Estatística Parte II

Propaganda
Revisão de Estatística Parte II
J M Fernandes
Amostras estatísticas para
parâmetros populacionais
Assumir que a distribuição é normal
X~N(µ(σ2))
Gerar dados amostrais para estimar o parâmetro
populacional, µ por exemplo.
Devido que a amostra é finita apenas uma aproximação do
parâmetro pode ser obtida.
Para contemplar a incerteza da amostragem é preciso
considerar a distribuição de probabilidade da amostra
estatística.
Distribuições amostrais
Uma distribuição amostral é a probabilidade de distribuição
da amostra estatística.
Uma distribuição amostral de uma amostra estatística
depende de:
Da distribuição de probabilidade associada com a variável
aleatória.
Uma estatística amostral – em geral a média e a variância.
O tamanho da amostra (N).
Erros Amostrais
Um estimador da incerteza amostral é
descrito pelo erro padrão – o desvio padrão
da estatística amostral.
Oferece a informação sobre a incerteza do
estimador considerando a amostra usada.
Se t é a estatística amostral e st é o desvio
padrão da amostra o erro é t± st
Intervalo de Confiança
Um intervalo de confiança (IC) é o intervalo onde esperase que o parâmetro populacional venha a se situar.
Se uma quantidade de amostras é retirada repetidamente
da mesma população, e um intervalo de confiança é
calculado para cada amostragem, então uma certa
percentagem (Intervalo de Confiança) do intervalo deve
incluir o desconhecido parâmetro populacional. O IC são
geralmente calculados de forma que a percentagem é
95%, mas pode ser 90%, 99%, 99,9% intervalo de
confiança para o parâmetro desconhecido.
Os limites do intervalo são os valores superior e o inferior
do intervalo tα/2 tα-1/2
Intervalo de Confiança
O intervalo de confiança de nível (1-α)
corresponde a probabilidade que intervalo
de confiança inclua o parâmetro da
população.
IC é expresso como porcentagem. Por
exemplo, α = 0,05=5%, então o IC (1-0,05),
corresponde a 95% de nível de confiança.
Intervalo de Confiança
O nível do intervalo de confiança corresponde a
porcentagem da área de densidade da curva normal. Por
exemplo, 95% de nível de confiança cobre 95% da curva
normal– a probabilidade de encontrar um valor fora desta
área é menor que 5%. Uma vez que a curva normal é
simétrica, metade da área é localizada na cauda esquerda
e a outra metade na cauda direita.
Para um intervalo de confiança com
nível C, a área em cada uma das
caudas é igual a (1-C)/2. Para 95%
de nível de confiança uma área em
Cada cauda é igual a 0,05/2=0,025
Intervalo de Confiança
O valor de z´ representado o ponto da curva normal padrão de
densidade tal que a probabilidade de observar um valor maior que z´ é
igual a p denominado de valor crítico superior da distribuição normal
padrão. Por exemplo, se p=0,025 o valor de Z´ que P(Z>z´)=0,025, ou
P(Z≤z´)=0,975 equivale a 1,96.
Para um intervalo de confiança com
nível C, o valor de p é igual a (1-C)/2.
Um de nível de confiança de 95% na
distribuição normal padrão, que é o
intervalo (-1,96, 196), uma vez que
95 % da área abaixo da curva padrão
encontra-se neste intervalo.
Área abaixo da curva
curve(dnorm(x,0,1))
curve(dnorm(x,0,1),xlim=c(-3,3),main='Normal padrao')
cord.x <- c(-3)
cord.y <- c(0)
cord.x <- c(cord.x,-3)
cord.y <- c(cord.y,dnorm(-3))
cord.x <- c(cord.x,-2,-2)
cord.y <- c(cord.y,dnorm(-2),0)
polygon(cord.x,cord.y,col='skyblue')
Passo a passo ->http://www.feferraz.net/br/shaded.html
Exemplo
A temperatura de ebulição de um certo líquido observada em °C equivale a
102,5;101,7;103,1;100,9;100,5 e 103,2 para 6 diferente amostras do líquido. O
desvio padrão para este procedimento é conhecido com o valor de 1.2
> x <-c(102.5,101.7,103.1,100.9,100.5,103.2)
> mean(x)
[1] 101.9833
Se os valores de x pertencem a uma distribuição normal então a média
amostral tem a seguinte distribuição N(µ,σ/√n)
Uma vez que o tamanho da amostra é 6, o desvio padrão da média amostral é
igual a 102/ √6= 0.4898979
Para uma população com média desconhecida e desvio padrão conhecido, o
intervalo de confiança para a media populacional considerando uma
amostragem aleatória simples de tamanho n, é: X= z´± σ/√n, onde z´,é o limite
superior (1-C)/2 do valor crítico para a distribuição normal padrão.
Exemplo
No exemplo, a média amostral foi de 101.9833
com o desvio padrão de 0.4898979. O valor crítico
para um intervalo de 95% é de 1.959964, onde (10.95)/2=0,025. Um intervalo de 95% para a média
desconhecida é ((101.9833-(1.959964*
0.4898979)), ((101.9833+(1.959964*
0.4898979))=(101.0231, 102.9435).
A medida que o nível de confiança diminui, a
amplitude do intervalo correspondente também
diminui. Qual seria o intervalo para um nível de
significância de 90%?
Exemplo
O R não possui um comando para encontrar ao intervalo
de confiança quando a variância é conhecida. Isto deve-se
ao fato que dificilmente esta situação ocorre na pratica.
Entretanto, devido a flexibilidade do R podemos construir
uma função para o caso particular onde conhecemos o
valor da variância que é (1,2)2.
x <-c(102.5,101.7,103.1,100.9,100.5,103.2)
norm.interval = function(data, variance = var(data), conf.level = 0.95) {
z = qnorm((1 - conf.level)/2, lower.tail = FALSE)
xbar = mean(data)
sdx = sqrt(variance/length(data))
c(xbar - z * sdx, xbar + z * sdx)
}
norm.interval(x, 1.44)
101.0232 102.9435
Exemplo
Qual seria o intervalo para um nível de
significância de 90%?
x <-c(102.5,101.7,103.1,100.9,100.5,103.2)
norm.interval <- function(data, variance = var(data), conf.level = 0.90) {
z <- qnorm((1 - conf.level)/2, lower.tail = FALSE)
xbar <- mean(data)
sdx <- sqrt(variance/length(data))
c(xbar - z * sdx, xbar + z * sdx)
}
norm.interval(x, 1.2*1.2)
101.1775 102.7891
Intervalos de confiança para média
e desvio padrão desconhecidos
A maioria das vezes, o desvio padrão da população é
desconhecido e substitui-se por uma estimativa do desvio
padrão s- o erro padrão. Uma vez que o erro padrão é
uma estimativa do valor verdadeiro do desvio padrão, a
distribuição da média amostral não é mais normal com
média µ e desvio padrão σ/√n. Agora a média amostral
segue uma distribuição t com média µ e desvio padrão
s/√n.
A distribuição de t é descrita pelos graus de liberdade.
Para uma amostra de tamanho n, a distribuição de t terá n1 graus de liberdade. A medida que o tamanho da amostra
aumenta, a distribuição de t se aproxima da distribuição
normal, pois o desvio padrão se aproxima do verdadeiro
quando n é grande.
Exemplo
# Define uma matriz para armazenar os resultados
y <- matrix(ncol=10,nrow=10)
y[,] <-0
# Preencher a matriz com valores amostrados
for(i in 1:10){
y[,i] <- rnorm(10,165,12)
}
# Função para extrair o intervalo de confiança
get.conf.int = function(x) t.test(x)$conf.int
# Usa a funcão apply para obter o IC para cada coluna da matriz
conf.int <-apply(y, 2, get.conf.int)
conf.int
# Faz um gráfico
plot(range(conf.int), c(0, 1 + 10), type = "n", xlab = "Média Comprimento Caudal",
ylab = "Amostragem ")
for (i in 1:10) lines(conf.int[, i], rep(i, 2), lwd = 2)
abline(v = 165, lwd = 2, lty = 2,col="red")
Teste de Hipótese
Usa um teste estatístico adequado calculado de uma amostra (escore
z) como teste estatístico para a testar a hipótese sobre a média
Estabeleça a hipótese nula
Especifique o nível de significância α – probalidade que a hipótese
nula será rejeitada mesmo que seja verdadeira – Erro Tipo I.
Usar H0 para calcular a distribuição amostral para o teste estatístico
Calcular o valor de p, p=Pr{T||≥t} para o valor observado de t na
amostra para o teste estatístico.
Rejeitar H0, se o valor de p for igual ou menor ao do n´vel de
significância (p<α)
Teste de Hipótese
Assuma que conhece-se na população o valor da
média µ=170cm e do desvio padrão σ=30 cm.
Estabeleça H0 e H1
H0:µ=µ0
H1: µ≠µ0
Especificar o nível de significância – 0,05
Considerando a hipótese nula a média amostral
segue a distribuição.
X ~ N(µ0, σ0/√n)
Z=(X-µ0/ σ0/√n) ~ N(0,1)
Teste de Hipótese
Então o teste estatístico Z=(X-µ0/ σ0/√n) ~ N(0,1)
X=174.3
Z=(174.3-170)/(30/ √11)
Z=0,4753
Valor de p=0,636
O valor de p é bem maior que o valor do nível de
significância (0,05), portanto não podemos rejeitar
a hipótese nula.
Teste de Hipótese
Duas amostras:
1) Pareadas
2) Variâncias iguais
3) Variâncias diferentes
Teste de Hipótese
Pareadas
A <- c(209, 193, 223, 212, 238, 211, 228)
B <- c(202, 182, 221, 197, 233, 214, 218)
t.test(A,B, paired=T)
Paired t-test
data: A and B
t = 2.951, df = 6, p-value = 0.02558
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.146891 12.281680
sample estimates:
mean of the differences
6.714286
Teste de Hipótese
Variâncias iguais
x <-c(22,21,18,21,19,20,23,14,20,23)
y <-c(24,19,21,24,21,27,21,21,23,25)
t.test(x,y,var.equal=T)
Two Sample t-test
data: x and y
t = -2.1898, df = 18, p-value = 0.04195
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.8984888 -0.1015112
sample estimates:
mean of x mean of y
20.1
22.6
Teste de Hipótese
Variâncias diferentes
compostoA <-c(24,25,26,26,27,28,28,30,33)
compostoB <-c(22,32,37,40,44,47,49,51,52,56,67)
t.test(compostoA,compostoB)
Welch Two Sample t-test
data: compostoA and compostoB
t = -4.6659, df = 11.214, p-value = 0.0006528
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-26.084991 -9.389757
sample estimates:
mean of x mean of y
27.44444 45.18182
Download