Revisão de Estatística Parte II J M Fernandes Amostras estatísticas para parâmetros populacionais Assumir que a distribuição é normal X~N(µ(σ2)) Gerar dados amostrais para estimar o parâmetro populacional, µ por exemplo. Devido que a amostra é finita apenas uma aproximação do parâmetro pode ser obtida. Para contemplar a incerteza da amostragem é preciso considerar a distribuição de probabilidade da amostra estatística. Distribuições amostrais Uma distribuição amostral é a probabilidade de distribuição da amostra estatística. Uma distribuição amostral de uma amostra estatística depende de: Da distribuição de probabilidade associada com a variável aleatória. Uma estatística amostral – em geral a média e a variância. O tamanho da amostra (N). Erros Amostrais Um estimador da incerteza amostral é descrito pelo erro padrão – o desvio padrão da estatística amostral. Oferece a informação sobre a incerteza do estimador considerando a amostra usada. Se t é a estatística amostral e st é o desvio padrão da amostra o erro é t± st Intervalo de Confiança Um intervalo de confiança (IC) é o intervalo onde esperase que o parâmetro populacional venha a se situar. Se uma quantidade de amostras é retirada repetidamente da mesma população, e um intervalo de confiança é calculado para cada amostragem, então uma certa percentagem (Intervalo de Confiança) do intervalo deve incluir o desconhecido parâmetro populacional. O IC são geralmente calculados de forma que a percentagem é 95%, mas pode ser 90%, 99%, 99,9% intervalo de confiança para o parâmetro desconhecido. Os limites do intervalo são os valores superior e o inferior do intervalo tα/2 tα-1/2 Intervalo de Confiança O intervalo de confiança de nível (1-α) corresponde a probabilidade que intervalo de confiança inclua o parâmetro da população. IC é expresso como porcentagem. Por exemplo, α = 0,05=5%, então o IC (1-0,05), corresponde a 95% de nível de confiança. Intervalo de Confiança O nível do intervalo de confiança corresponde a porcentagem da área de densidade da curva normal. Por exemplo, 95% de nível de confiança cobre 95% da curva normal– a probabilidade de encontrar um valor fora desta área é menor que 5%. Uma vez que a curva normal é simétrica, metade da área é localizada na cauda esquerda e a outra metade na cauda direita. Para um intervalo de confiança com nível C, a área em cada uma das caudas é igual a (1-C)/2. Para 95% de nível de confiança uma área em Cada cauda é igual a 0,05/2=0,025 Intervalo de Confiança O valor de z´ representado o ponto da curva normal padrão de densidade tal que a probabilidade de observar um valor maior que z´ é igual a p denominado de valor crítico superior da distribuição normal padrão. Por exemplo, se p=0,025 o valor de Z´ que P(Z>z´)=0,025, ou P(Z≤z´)=0,975 equivale a 1,96. Para um intervalo de confiança com nível C, o valor de p é igual a (1-C)/2. Um de nível de confiança de 95% na distribuição normal padrão, que é o intervalo (-1,96, 196), uma vez que 95 % da área abaixo da curva padrão encontra-se neste intervalo. Área abaixo da curva curve(dnorm(x,0,1)) curve(dnorm(x,0,1),xlim=c(-3,3),main='Normal padrao') cord.x <- c(-3) cord.y <- c(0) cord.x <- c(cord.x,-3) cord.y <- c(cord.y,dnorm(-3)) cord.x <- c(cord.x,-2,-2) cord.y <- c(cord.y,dnorm(-2),0) polygon(cord.x,cord.y,col='skyblue') Passo a passo ->http://www.feferraz.net/br/shaded.html Exemplo A temperatura de ebulição de um certo líquido observada em °C equivale a 102,5;101,7;103,1;100,9;100,5 e 103,2 para 6 diferente amostras do líquido. O desvio padrão para este procedimento é conhecido com o valor de 1.2 > x <-c(102.5,101.7,103.1,100.9,100.5,103.2) > mean(x) [1] 101.9833 Se os valores de x pertencem a uma distribuição normal então a média amostral tem a seguinte distribuição N(µ,σ/√n) Uma vez que o tamanho da amostra é 6, o desvio padrão da média amostral é igual a 102/ √6= 0.4898979 Para uma população com média desconhecida e desvio padrão conhecido, o intervalo de confiança para a media populacional considerando uma amostragem aleatória simples de tamanho n, é: X= z´± σ/√n, onde z´,é o limite superior (1-C)/2 do valor crítico para a distribuição normal padrão. Exemplo No exemplo, a média amostral foi de 101.9833 com o desvio padrão de 0.4898979. O valor crítico para um intervalo de 95% é de 1.959964, onde (10.95)/2=0,025. Um intervalo de 95% para a média desconhecida é ((101.9833-(1.959964* 0.4898979)), ((101.9833+(1.959964* 0.4898979))=(101.0231, 102.9435). A medida que o nível de confiança diminui, a amplitude do intervalo correspondente também diminui. Qual seria o intervalo para um nível de significância de 90%? Exemplo O R não possui um comando para encontrar ao intervalo de confiança quando a variância é conhecida. Isto deve-se ao fato que dificilmente esta situação ocorre na pratica. Entretanto, devido a flexibilidade do R podemos construir uma função para o caso particular onde conhecemos o valor da variância que é (1,2)2. x <-c(102.5,101.7,103.1,100.9,100.5,103.2) norm.interval = function(data, variance = var(data), conf.level = 0.95) { z = qnorm((1 - conf.level)/2, lower.tail = FALSE) xbar = mean(data) sdx = sqrt(variance/length(data)) c(xbar - z * sdx, xbar + z * sdx) } norm.interval(x, 1.44) 101.0232 102.9435 Exemplo Qual seria o intervalo para um nível de significância de 90%? x <-c(102.5,101.7,103.1,100.9,100.5,103.2) norm.interval <- function(data, variance = var(data), conf.level = 0.90) { z <- qnorm((1 - conf.level)/2, lower.tail = FALSE) xbar <- mean(data) sdx <- sqrt(variance/length(data)) c(xbar - z * sdx, xbar + z * sdx) } norm.interval(x, 1.2*1.2) 101.1775 102.7891 Intervalos de confiança para média e desvio padrão desconhecidos A maioria das vezes, o desvio padrão da população é desconhecido e substitui-se por uma estimativa do desvio padrão s- o erro padrão. Uma vez que o erro padrão é uma estimativa do valor verdadeiro do desvio padrão, a distribuição da média amostral não é mais normal com média µ e desvio padrão σ/√n. Agora a média amostral segue uma distribuição t com média µ e desvio padrão s/√n. A distribuição de t é descrita pelos graus de liberdade. Para uma amostra de tamanho n, a distribuição de t terá n1 graus de liberdade. A medida que o tamanho da amostra aumenta, a distribuição de t se aproxima da distribuição normal, pois o desvio padrão se aproxima do verdadeiro quando n é grande. Exemplo # Define uma matriz para armazenar os resultados y <- matrix(ncol=10,nrow=10) y[,] <-0 # Preencher a matriz com valores amostrados for(i in 1:10){ y[,i] <- rnorm(10,165,12) } # Função para extrair o intervalo de confiança get.conf.int = function(x) t.test(x)$conf.int # Usa a funcão apply para obter o IC para cada coluna da matriz conf.int <-apply(y, 2, get.conf.int) conf.int # Faz um gráfico plot(range(conf.int), c(0, 1 + 10), type = "n", xlab = "Média Comprimento Caudal", ylab = "Amostragem ") for (i in 1:10) lines(conf.int[, i], rep(i, 2), lwd = 2) abline(v = 165, lwd = 2, lty = 2,col="red") Teste de Hipótese Usa um teste estatístico adequado calculado de uma amostra (escore z) como teste estatístico para a testar a hipótese sobre a média Estabeleça a hipótese nula Especifique o nível de significância α – probalidade que a hipótese nula será rejeitada mesmo que seja verdadeira – Erro Tipo I. Usar H0 para calcular a distribuição amostral para o teste estatístico Calcular o valor de p, p=Pr{T||≥t} para o valor observado de t na amostra para o teste estatístico. Rejeitar H0, se o valor de p for igual ou menor ao do n´vel de significância (p<α) Teste de Hipótese Assuma que conhece-se na população o valor da média µ=170cm e do desvio padrão σ=30 cm. Estabeleça H0 e H1 H0:µ=µ0 H1: µ≠µ0 Especificar o nível de significância – 0,05 Considerando a hipótese nula a média amostral segue a distribuição. X ~ N(µ0, σ0/√n) Z=(X-µ0/ σ0/√n) ~ N(0,1) Teste de Hipótese Então o teste estatístico Z=(X-µ0/ σ0/√n) ~ N(0,1) X=174.3 Z=(174.3-170)/(30/ √11) Z=0,4753 Valor de p=0,636 O valor de p é bem maior que o valor do nível de significância (0,05), portanto não podemos rejeitar a hipótese nula. Teste de Hipótese Duas amostras: 1) Pareadas 2) Variâncias iguais 3) Variâncias diferentes Teste de Hipótese Pareadas A <- c(209, 193, 223, 212, 238, 211, 228) B <- c(202, 182, 221, 197, 233, 214, 218) t.test(A,B, paired=T) Paired t-test data: A and B t = 2.951, df = 6, p-value = 0.02558 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.146891 12.281680 sample estimates: mean of the differences 6.714286 Teste de Hipótese Variâncias iguais x <-c(22,21,18,21,19,20,23,14,20,23) y <-c(24,19,21,24,21,27,21,21,23,25) t.test(x,y,var.equal=T) Two Sample t-test data: x and y t = -2.1898, df = 18, p-value = 0.04195 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.8984888 -0.1015112 sample estimates: mean of x mean of y 20.1 22.6 Teste de Hipótese Variâncias diferentes compostoA <-c(24,25,26,26,27,28,28,30,33) compostoB <-c(22,32,37,40,44,47,49,51,52,56,67) t.test(compostoA,compostoB) Welch Two Sample t-test data: compostoA and compostoB t = -4.6659, df = 11.214, p-value = 0.0006528 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -26.084991 -9.389757 sample estimates: mean of x mean of y 27.44444 45.18182