Introdução à Análise Estatística com Modelos de probabilidade. Inferência Estatística: Intervalos de Confiança e Testes de Hipóteses Aulas 4 e 5 Manuela Neves - Setembro/2012 Manuela Neves - ISA/Setembro 2012 – p. 1/81 Sumário Probabilidade. Modelos de Probabilidade Modelos discretos e contínuos. Funções em para os modelos mais usuais. Inferência Estatística (introdução): Distribuições de amostragem. Intervalos de Confiança e Testes de Hipóteses Testes Paramétricos a valores médios, variâncias e proporções (uma população e duas populações). Testes Não Paramétricos: testes de ajustamento; testes do qui-quadrado; testes sobre medidas de localização central. Exemplos vários Manuela Neves - ISA/Setembro 2012 – p. 2/81 Probabilidade Os conceitos de aleatoriedade e probabilidade são centrais em Estatística. Pensar em dados como valores extraídos de uma população (modelo) é fundamental para compreender os procedimentos estatísticos. Veremos procedimentos básicos em probabilidade: - como efectuar amostragem aleatória; como aceder e usar funções tem definidas, etc. que o ambiente Podemos usar aquelas funções para calcular uma probabilidade, um quantil ou gerar números pseudo-aleatórios de acordo com a lei de probabilidade (fundamental em simulação). Manuela Neves - ISA/Setembro 2012 – p. 3/81 A função sample( ) A função sample - permite criar uma amostra aleatória a partir dos elementos de um vector, com ou sem reposição -> a omissão é “sem reposição”, com probabilidades iguais ou não. >sample(1:20,15) Selecciona aleatoriamente 15 números de 1 a 20 sem reposição >sample(1:20,15,rep=T) Selecciona com reposição com probabilidades iguais Para seleccionar, com reposição, de acordo com uma lei de probabilidade, fazer, por exemplo: >pb<-c(rep(0.1,3),.2,.3,.2);pb >sample(1:6,30,rep=T,prob=pb) Nota: para gerar sempre a mesma sucessão fazer >set.seed( ) Manuela Neves - ISA/Setembro 2012 – p. 4/81 O conceito de variável aleatória Quando se realiza uma experiência aleatória, pode associar-se a cada resultado um (ou mais) valores reais - diz-se que temos uma variável aleatória ou (um vector aleatório). Uma variável aleatória costuma representar-se por X. Um variável aleatória pode ser: discreta - por exemplo o número de sementes germinadas; o registo, a intervalos regulares, do número de pessoas em fila de espera na caixa de um supermercado; contínua - por exemplo o peso de um indivíduo; a largura, o comprimento de um folha. Manuela Neves - ISA/Setembro 2012 – p. 5/81 Variável aleatória - probabilidade Associadas a cada variável aleatória existem: uma função massa de probabilidade, se X discreta, ou uma função densidade, se X contínua. uma função real F , a que se chama função distribuição cumulativa tal que F (x) = P [X ≤ x] Exemplos de cálculo de uma probabilidade: 1. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a); 2. P (X = a) = F (a) − F (a− ) onde F (a− ) = limx→a− F (x) 3. P (a < X < b) = P (X < b) − P (X ≤ a) = F (b− ) − F (a); Manuela Neves - ISA/Setembro 2012 – p. 6/81 Principais modelos discretos A distribuição uniforme discreta Definição Uma v.a. X diz-se ter distribuição uniforme discreta se toma os valores x1 , ..., xk com probabilidades 1/k, ..., 1/k, i.e. P (X = xi ) = 1/k, i = 1, ..., k. Caso particular Valor médio e variância E[X] = n+1 ; 2 Instrução no 1 X= 1/n V ar[X] = 2 ··· 1/n · · · n 1/n n2 −1 12 para simular > sample(v,size,rep=T) v vector com os valores que a variável pode tomar Manuela Neves - ISA/Setembro 2012 – p. 7/81 Exemplo > > > > par(mfrow=c(2,2)) x1<-sample(1:6,30,rep=T);x1 dist1<-table(x1);dist1 plot(dist1) Repetir para 300, 3000 e 30000. Ver diagramas obtidos no slide seguinte. Nota: Outra forma de proceder no exemplo: > > > > seria definir uma função, por dado<-function(n) sample(1:6,n,replace=T) d1<-dado(30);table(d1) table(dado(30)) # Haverá alguma diferença? dado(300);dado(3000) Manuela Neves - ISA/Setembro 2012 – p. 8/81 30 0 10 dist2 50 0 1 2 3 4 5 6 dist1 Gráficos de vários lançamentos 1 2 3 4 5 6 1 2 3 5 6 4 5 6 x2 0 2000 dist4 300 0 100 dist3 4000 500 x1 4 1 2 3 4 x3 5 6 1 2 3 x4 Manuela Neves - ISA/Setembro 2012 – p. 9/81 A distribuição binomial Quando se realizam n provas de Bernoulli independentes, a variável que conta o número de sucessos que ocorrem diz-se ter distribuição binomial e representa-se por X ⌢ Binom(n, p), sendo p a probabilidade de sucesso. X toma os valores x = 0, 1, 2, ..., n n x P [X = x] = x p (1 − p)n−x com probabilidades Valor médio e variância E[X] = np; V ar[X] = npq Para determinar o valor daquelas probabilidades, quantis ou a função distribuição cumulativa o possui funções já definidas. Manuela Neves - ISA/Setembro 2012 – p. 10/81 Funções no para alguns modelos dfunção (x, ...) - permite obter a função massa de probabilidade (modelo discreto) ou a função densidade (modelo contínuo) em x; pfunção(q, ...) - permite obter a função de distribuição cumulativa, i.e., devolve a probabilidade de a variável ser menor ou igual a q; qfunção (p, ...) - permite calcular o quantil associado à probabilidade p; rfunção (n, ...) - permite gerar uma amostra de n números pseudo-aleatórios do modelo especificado. Significado: density, probability, quantile, random Manuela Neves - ISA/Setembro 2012 – p. 11/81 Exemplos Exercício Vamos experimentar a utilização das funções d, p, q, r. Considere-se uma Binom(n = 10, p = 0.2). > x<- 0:10 > dbinom(x,size=10,prob=0.2) > pbinom(3,size=10,prob=0.2,lower.tail = TRUE) #dá P[X<=3] > qbinom(0.75, size=10, prob=0.2, lower.tail = TRUE) #dá o quantil de probabilidade 0.75 > rbinom(5, size=10, prob=0.2) > pbinom(3, size=10, prob=0.2, lower.tail = F) #dá P[X>3] Nota O quantil é definido como o menor valor x tal que F (x) ≥ p, sendo F a função distribuição cumulativa. > par(mfrow=c(1,2)) > plot(x,dbinom(x,size=10,prob=0.2),type="h") > plot(x,dbinom(x,size=10,prob=0.4),type="h") Manuela Neves - ISA/Setembro 2012 – p. 12/81 Exemplos (continuação) Para exemplificar a distribuição binomial teórica e simulada (geração de números pseudo-aleatórios) > > > > > > > par(mfrow=c(1,3)) n<-5;p<-0.25 x<-rbinom(100,n,p) # 100 random numbers ni<-table(x);ni fi<-ni/sum(ni);fi dbinom(0:n,size=5,prob=0.25) plot(fi,type = "h", col = "red",lwd=3, + main="Binom(n=5,p=0.25)", > ylim=c(0,.5)) > xvals<-0:n;points(xvals,dbinom(xvals,n,p),type="h",lwd=3) > points(xvals,dbinom(xvals,n,p),type="p",lwd=3) ... Repetir com n=15, n=50. Manuela Neves - ISA/Setembro 2012 – p. 13/81 0 2 4 6 8 10 0.00 0.10 0.20 dbinom(x, size = 10, prob = 0.4) 0.00 0.15 0.30 dbinom(x, size = 10, prob = 0.2) Exemplos (continuação) 0 2 4 6 x 2 x 3 4 0.5 0.4 0.3 0.2 0.0 0.1 0.2 0.1 0.0 0.0 0.1 0.2 fi 0.3 0.4 0.5 Binom(n=50,p=0.25) fi 0.3 0.4 0.5 Binom(n=15,p=0.25) fi 1 10 x Binom(n=5,p=0.25) 0 8 0 1 2 3 4 x 5 6 7 8 4 6 8 11 14 17 22 x Manuela Neves - ISA/Setembro 2012 – p. 14/81 A distribuição Binomial Negativa Num esquema de provas de Bernoulli considere-se fixo o número de "sucessos", k. Considere-se a seguinte interpretação (muito usada em ecologia): - pretende-se contar o número de insucessos necessários até obter aqueles k “sucessos” A variável X assim definida, diz-se ter distribuição Binomial Negativa e é costume representar-se por X ⌢ BN (k, p) p é a probabilidade constante de "sucesso"de prova para prova k é o número de "sucessos"que se pretende obter. Manuela Neves - ISA/Setembro 2012 – p. 15/81 A distribuição Binomial Negativa Caracterização da v.a. X ⌢ BN (k, p): Valores x = 0, 1, 2, ... Probabilidades P [X = x] = 0 < p < 1, q =1−p Valor médio e variância E[X] = kq p x+k−1 k x p q x de X ⌢ BN (k, p) V ar[X] = kq p2 Exemplo de uma das funções em > x <- 0:15 #vector de valores da variável > dnbinom(x,size=6, prob= 0.4) #probabilidade de se verificarem 0 a 15 insucessos até haver 6 sucessos #outra parametrização que usa o valor médio indicado acima > dnbinom(x, mu = 9, size = 6) Manuela Neves - ISA/Setembro 2012 – p. 16/81 A distribuição Geométrica Se k = 1, isto é, se pretendemos determinar o número de insucessos até obter o 1o¯ sucesso, a variável X diz-se ter distribuição Geométrica e é costume representar-se por X ⌢ Geo(p) 0 1 2 3 g1 4 5 6 7 > Ni <- rgeom(20, prob = 1/4) > g1<-table(factor(Ni, 0:max(Ni))) > plot(g1) 0 1 2 3 4 5 6 7 8 9 Manuela Neves - ISA/Setembro 2012 – p. 17/81 A distribuição de Poisson A v.a X que conta o número de sucessos que ocorrem num dado intervalo de tempo ou domínio ( independentemente do número que ocorre em qualquer outro intervalo ou domínio disjunto) diz-se ter distribuição de Poisson. Depende apenas do parâmetro λ −→ número médio de sucessos que ocorrem no intervalo de tempo ( ou na região especificada). Definição Representa-se por X ⌢ P (λ) P [X = x] = e−λ λx x! , Valor médio e variância e a lei de probabilidade é: x = 0, 1, 2.... E[X] = λ V ar[X] = λ. > diff(ppois(c(47, 50), lambda = 50)) # P[47 < X <=50] > ppois(50,50)-ppois(47,50) # verificar que é o mesmo Manuela Neves - ISA/Setembro 2012 – p. 18/81 Modelos Contı́nuos A distribuição normal ou de Gauss Tem um papel fulcral nas Probabilidades e Estatística, porque: muitas variáveis biométricas têm uma distribuição muito próxima da normal; por vezes uma variável que não é normal pode ser transformada de um modo simples numa outra com distribuição normal; a parte central de muitos modelos não normais é por vezes razoavelmente bem aproximada por uma distribuição normal. Uma v.a. contínua X diz-se ter distribuição normal com parâmetros µ e σ e representa-se por X ⌢ N (µ, σ) se a sua f.d.p. é da forma: 2 f (x) = √ 1 exp − 12 x−µ σ 2π σ −∞ < x < +∞, −∞ < µ < +∞, 0 < σ < +∞ Manuela Neves - ISA/Setembro 2012 – p. 19/81 A distribuição normal ou de Gauss Propriedades da curva densidade da distribuição normal 1. É simétrica relativamente a µ. 2. É uma curva unimodal, 3. Tem pontos de inflexão em µ + σ e µ − σ. a moda é µ. Se µ = 0 e σ = 1 a variável aleatória com distribuição N (0, 1) chama-se normal reduzida Z ⌢ N (0, 1) 0 5 0.2 0.0 0.0 0.2 0.2 0.0 −5 f. densidade da N(2,2) 0.4 f. densidade da N(0,2) 0.4 0.4 f. densidade da N(0,1) −5 0 5 −5 0 5 Gráficos da função densidade normal para alguns valores de µ e σ . x x x Manuela Neves - ISA/Setembro 2012 – p. 20/81 A distribuição normal ou de Gauss #cálculos e graficos com a normal > pnorm(1.96) > pnorm(-1.96) > pnorm(3,mean=5,sd=2) > qnorm(0.75,mean=5,sd=1) > qnorm(0.75,mean=5,sd=1,lower.tail=T) > qnorm(0.25,mean=5,sd=1,lower.tail=F) #graficos > par(mfrow=c(1,2)) > x<-seq(-7,7,.01) > plot(x,dnorm(x,0,1),type="l",ylim=c(0,.8),lwd=5) > lines(x,dnorm(x,0,.6),col="red",lwd=3) > lines(x,dnorm(x,0,2),col="blue",lwd=3) > lines(x,dnorm(x,1,.6),col="green",lwd=3) Manuela Neves - ISA/Setembro 2012 – p. 21/81 A distribuição normal (gráficos) gerar valores (continuação do exercı́cio) y<-rnorm(1000,mean=3,sd=1) hist(y,freq=F,ylim=c(0,0.5), main="valores gerados+curva",col=gray(.9)) curve(dnorm(x,mean=3,sd=1),add=T,lwd=3) 0.2 0.0 0.0 0.4 Density 0.4 0.8 valores gerados+curva dnorm(x, 0, 1) # > > + > −6 −2 0 x 2 4 6 0 1 2 3 4 5 6 y Manuela Neves - ISA/Setembro 2012 – p. 22/81 Outras distribuições contı́nuas Distribuição uniforme e exponencial > u<-runif(100) > hist(u,freq=F,col=gray(.9),main="uniforme") > curve(dunif(x),add=T,lwd=3) # exponencial de valor médio 2500 > x<-rexp(100,1/2500) > hist(x,probability=TRUE,col=gray(.9),main="Exponencial com média 2500") > curve(dexp(x,1/2500),add=T) Exponencial com média 2500 0.0 0.2 0.4 0.6 u 0.8 1.0 0.00015 0.00000 Density 0.0 0.4 0.8 1.2 Density uniforme 0 5000 10000 15000 x Manuela Neves - ISA/Setembro 2012 – p. 23/81 A distribuição normal ou de Gauss Resultados importantes: X −µ Seja X ⌢ N (µ, σ) então a v.a. tem distribuição normal σ X −µ ⌢ N (0, 1). reduzida, i.e., Z = σ Sejam Xi n v.a. normais independentes e semelhantes, i.e., tendo todas o mesmo valor médio µ e a mesma variância σ 2 . As variáveis aleatórias soma e média, definidas respectivamente como Pn 1 Pn Sn = i=1 Xi X n = n i=1 Xi e têm distribuição normal assim definida √ √ Sn ⌢ N (nµ, σ n) e X n ⌢ N (µ, σ/ n). Manuela Neves - ISA/Setembro 2012 – p. 24/81 O Teorema Limite Central Vimos que a soma de normais independentes é ainda uma normal. Mas a distribuição aproximada da soma de n variáveis aleatórias independentes e identicamente distribuídas, sob certas condições é também normal. Teorema limite central Sejam X1 , ..., Xn variáveis aleatórias independentes e identicamente distribuídas, com valor médio µ e variância σ 2 Pn (finita). Se n ‘grande’ a v.a. Sn = i=1 Xi , verifica: Sn − nµ √ ∼ N (0, 1) σ n Xn − µ √ ∼ N (0, 1). e também se tem σ/ n Manuela Neves - ISA/Setembro 2012 – p. 25/81 Aplicações do Teorema Limite Central > > > > > > + + + + + + + # População Uniforme(0,5) par(mfrow=c(2,2)) am<-500 vec.med<-c(rep(0,am)) n<-c(2,3,10,30) for(j in 1:4) {for(i in 1:am) {x<-runif(n[j],0,5) vec.med[i]<-mean(x)} qqnorm(vec.med,main=paste("Q-QPlot Normal, n =",n[j], "\n","Médias Pop. U(0,5),"),xlab="", col="red") qqline(vec.med,col="darkred")} Manuela Neves - ISA/Setembro 2012 – p. 26/81 Aplicações do Teorema Limite Central Q−QPlot Normal, n = 3 Médias Pop. U(0,5), 3 1 2 Sample Quantiles 3 2 1 0 Sample Quantiles 4 4 5 Q−QPlot Normal, n = 2 Médias Pop. U(0,5), −3 −2 −1 0 1 2 3 −3 −1 0 1 2 3 Q−QPlot Normal, n = 30 Médias Pop. U(0,5), −3 −2 −1 0 1 2 3 2.5 2.0 Sample Quantiles 3.0 1.0 1.5 2.0 2.5 3.0 3.5 Sample Quantiles Q−QPlot Normal, n = 10 Médias Pop. U(0,5), −2 −3 −2 −1 0 1 2 3 Manuela Neves - ISA/Setembro 2012 – p. 27/81 Aplicações do Teorema Limite Central Seja X uma v.a. com distribuição binomial com valor médio µ = np e variância σ 2 = npq. Então quando n → ∞ , X − np ∼ N (0, 1) √ npq Regra prática Se na distribuição binomial np > 5 e nq > 5 =⇒ a aproximação pela distribuição normal é boa. Mais convergências Se na distribuição binomial n → ∞ e p pequeno (digamos p < 0.05 e n > 20) já se pode considerar boa a aproximação X ⌢ B(n, p) ∼ P (np) Seja X ⌢ P (λ). Quando λ → ∞ então X −λ √ ∼ N (0, 1). λ Manuela Neves - ISA/Setembro 2012 – p. 28/81 RESUMO de algumas distribuições no Nome da distribuição no Função Argumentos Beta beta shape1, shape2 Binomial binom size, prob Cauchy cauchy location, scale Chisquare chisq df Exponential exp rate FDist f df1, df2 GammaDist gamma shape, scale Geometric geom prob Hypergeometric hyper m, n, k Lognormal lnorm meanlog, sdlog Logistic logis location, scale NegBinomial nbinom size, prob Normal norm mean, sd Poisson pois lambda TDist t df Uniform unif min,max Weibull weibull shape, scale Manuela Neves - ISA/Setembro 2012 – p. 29/81 Mais umas dicas sobre distribuições no Existem packages que apresentam facilidades no estudo de modelos de probabilidade, ver detalhes em Kerns (2010). Necessitamos da instalação dos packages distr e distrEx >library(distr); library(distrEx) >X <- Binom(size = 3, prob = 1/2);X #Vamos definir Distribution Object of Class: Binom size: 3 prob: 0.5 >E(X) >var(X) [1] 1.5 [1] 0.75 Manuela Neves - ISA/Setembro 2012 – p. 30/81 A Inferência Estatı́stica Parâmetros populacionais. Estimadores e Estimativas. Distribuições por amostragem - a distribuição Normal, t-Student, qui-quadrado e F. Intervalos de confiança e testes de hipóteses paramétricos. Nível de significância e potência do teste. Testes de hipóteses não paramétricos: o teste de Wilcoxon. Testes de ajustamento. Testes de normalidade. Manuela Neves - ISA/Setembro 2012 – p. 31/81 Introdução à Teoria da Amostragem Seja X a população em estudo. Na teoria da amostragem consideram-se procedimentos de recolha de uma amostra da população. Já vimos no como gerar distribuições conhecidas, vamos aqui simular uma distribuição. Vamos também considerar a Reamostragem Bootstrap. O Bootstrap é um procedimento que consiste em reamostrar a partir de uma amostra, para: simular a distribuição de uma estatística de interesse; estudar propriedades de um estimador - estimar viés, variância e intervalos de confiança para o parâmetro. Manuela Neves - ISA/Setembro 2012 – p. 32/81 Introdução à Teoria da Amostragem par(mfrow=c(1,2)) Pr<-c(0.20,0.16,0.25,0.39) N<-c ("A", "C", "G", "U") barplot(Pr,names=N,ylab="Probabilidade", main="DNA") am1<-sample(N,100,rep=T,prob=Pr);am1 dist1<-table(am1);dist1 freq<-dist1/sum(dist1) barplot(freq) 0.0 0.00 0.15 0.2 0.30 DNA Probabilidade > > > > > > > > A C G U A C G U Manuela Neves - ISA/Setembro 2012 – p. 33/81 Introdução à Teoria da Amostragem > par(mfrow=c(2,2)) >data(faithful) # dados no R >names(faithful) # dá os nomes variáveis >eruptions<-faithful$eruptions #ou attach e detach faithful >#eruptions <-faithful[[’eruptions’]] # outra alternativa >hist(eruptions,breaks=25) ## vamos fazer o bootstrap da amostra >hist(sample(eruptions,100,replace=TRUE),main="Bootstrap", breaks=25) Bootstrap 8 6 0 2 4 Frequency 15 10 5 0 Frequency 20 10 Histogram of eruptions 1.5 2.5 3.5 eruptions 4.5 1.5 2.5 3.5 4.5 sample(eruptions, 100, replace = TRUE) Manuela Neves - ISA/Setembro 2012 – p. 34/81 Tópicos de Estimação Seja x1 , x2 , · · · xn uma amostra de n observações da característica, obtidas após um processo de amostragem. Cada um daqueles valores é uma realização de n variáveis que são “cópias” da variável X. Sejam X1 , X2 , · · · Xn A Inferência Estatística pretende responder a dois grandes problemas: calcular valores aproximados (estimativas) e obter intervalos de confiança para parâmetros desconhecidos da população. formular hipóteses e verificar se há concordância entre o que se supõe e os factos – testes de hipóteses Manuela Neves - ISA/Setembro 2012 – p. 35/81 Tópicos de Estimação Parâmetros que vamos referir , seus estimadores e estimativas Parâmetro a estimar Estimador µ σ X= 2 2 S = (a) Pn i=1 Xi n Pn 2 i=1 (Xi −X) n−1 Pb = p Estimativa X (a) n x= 2 s = Pn i=1 xi n Pn i=1 (xi −x) p̂ = n−1 x(b) n µ1 − µ2 X1 − X2 x1 − x2 σ12 / σ22 S12 / S22 s21 / s22 p1 − p2 c1 − P c2 P pˆ1 − pˆ2 X - v.a. que conta ... e ˜ (b) 2 x - número observado de sucessos na amostra de dimensão n. Manuela Neves - ISA/Setembro 2012 – p. 36/81 Tópicos de Estimação Para construir ... Intervalos de confiança Testes (paramétricos) de hipóteses estatísticas. ... é necessário conhecer a distribuição - exacta ou aproximada - do estimador (ou qualquer expressão dele). Manuela Neves - ISA/Setembro 2012 – p. 37/81 Distribuições por amostragem (uma amostra) Estimador Condições X Xi ⌢ N (µ, σ) Variável X −µ √ σ/ n Distribuição N (0, 1) σ conhecido X Xi ⌢ N (µ, σ) X −µ √ S/ n t(n−1) X −µ √ s/ n ∼ N (0, 1) σ desconhecido X Xi qualquer n “grande” (a) S2 Xi ⌢ N (µ, σ) Pb X ⌢ B(n, p)(a) (n − 1)S 2 σ2 X n χ2(n−1) ∼ N (0, 1) n “grande” X o n. de sucessos em n provas de Bernoulli. Manuela Neves - ISA/Setembro 2012 – p. 38/81 Distribuições por amostragem (duas amostras) Estimador Condições S12 /S22 Xi ⌢ N (µ1 , σ1 ) Variável S12 /σ12 S22 /σ22 Distribuição F(n1 −1,n2 −1) Yi ⌢ N (µ2 , σ2 ) Xi , i = 1, · · · n1 e Yi , i = 1, · · · n2 são amostras aleatórias independentes. Definição Chama-se intervalo de confiança ao intervalo que resulta da concretização do intervalo (aleatório) e é portanto um intervalo (a, b), onde a e b são números reais e a < b. Manuela Neves - ISA/Setembro 2012 – p. 39/81 Intervalos de confiança Intervalo de confiança a (1 − α) × 100% para µ X ⌢ N (µ, σ) Se σ conhecido x − zα/2 σ √ n < µ < x + zα/2 σ √ n (zα/2 → valor da v.a. Z tal que P (Z > zα/2 ) = α/2) Se σ desconhecido x − tα/2,(n−1) √s n < µ < x + tα/2,(n−1) √s n Chama-se precisão da estimativa à semi-amplitude do intervalo de confiança e confiança ou grau de confiança a (1 − α) × 100% Observações: Quanto maior for o intervalo, maior é o grau de confiança, mas menor a precisão da estimativa. Manuela Neves - ISA/Setembro 2012 – p. 40/81 Intervalo de confiança (exemplo) Exemplo de construção de um I.C. no , para o valor médio de uma normal com variância conhecida (caso académico!) Exemplo 1 Dada a amostra referente a 10 alturas, admita-se que os erros de medição são normais de média 0 e desvio padrão 1.5. > x<-c(175,176, 173, 175, 174, 173, 173, 176, 173, 179) ## definir uma função > simple.z.test <-function(x,sigma,conf.level=0.95) { n <-length(x);xbar<-mean(x) alpha <- 1 - conf.level zstar <- qnorm(1-alpha/2) SE <- sigma/sqrt(n) xbar + c(-zstar*SE,zstar*SE) } > simple.z.test(x,1.5) # basta fazer isto Obteve-se o I.C a 95% para µ ]173.7703; 175.6297[ Manuela Neves - ISA/Setembro 2012 – p. 41/81 Intervalos de confiança Intervalo de confiança a (1 − α) × 100% para µ Se X tem dist. qualquer não normal É necessário dispor de uma amostra de dimensão elevada, i.e., n grande −→ aplicação do Teorema Limite Central X −µ √ ∼ N (0, 1) se σ conhecido σ/ n Ou, que é o caso mais frequente, X −µ √ ∼ N (0, 1) se σ desconhecido s/ n Intervalo a (1 − α) × 100% de confiança para µ x − zα/2 √s n < µ < x + zα/2 √s n Manuela Neves - ISA/Setembro 2012 – p. 42/81 Intervalos de confiança Intervalo a (1 − α) × 100% de confiança para σ 2 numa população normal (n−1)s2 χ2 α/2,(n−1) < σ2 < (n−1)s2 χ2 1−α/2,(n−1) Intervalo de confiança (1 − α) × 100% para p p̂ − zα/2 q p̂(1−p̂) n < p < p̂ + zα/2 q p̂(1−p̂) n onde X tem distribuição binomial de parâmetros (n, p) e n grande Manuela Neves - ISA/Setembro 2012 – p. 43/81 Intervalos de confiança - duas populações Intervalos de confiança a (1 − α) × 100% para µ1 − µ2 com X1 ⌢ N (µ1 , σ1 ) e X2 ⌢ N (µ2 , σ2 ) e (amostras independentes) se variâncias conhecidas (x1 − x2 ) − zα/2 r 2 σ1 n1 + 2 σ2 n2 < µ1 − µ2 < (x1 − x2 ) + zα/2 r 2 σ1 n1 + 2 σ2 n2 se variâncias desconhecidas mas se pode admitir variâncias iguais. (x1 − x2 ) − tα/2 sp tα/2 ≡ tα/2,(n1 +n2 −2 ) q 1 n1 e + 1 n2 s2p = < µ1 − µ2 < (x1 − x2 ) + tα/2 sp q 1 n1 + 1 n2 2 (n1 −1)s2 1 +(n2 −1)s2 n1 +n2 −2 Manuela Neves - ISA/Setembro 2012 – p. 44/81 Intervalos de confiança - duas populações Intervalo de confiança a (1 − α) × 100% para µ1 − µ2 (amostras independentes) mas n1 , n2 grandes (neste caso não é necessário ter-se normalidade) (x1 − x2 ) − zα/2 r s2 1 n1 + s2 2 n2 < µ1 − µ2 < (x1 − x2 ) + zα/2 Intervalo de confiança a (1 − α) × 100% para s2 1 s2 2 fα/2;(n 1 −1,n 2 −1) < σ12 σ22 < r s2 1 n1 + s2 2 n2 σ12 σ22 s2 1 fα/2;(n 2 −1,n 1 −1) s2 2 Manuela Neves - ISA/Setembro 2012 – p. 45/81 Intervalos de confiança (amostras emparelhadas) Intervalos de confiança para µ1 − µ2 (amostras emparelhadas) Se numa dada experiência as observações estão relacionadas, i.e, emparelhadas pelo indivíduo - surge aqui o conceito de bloco. Consideremos a amostra emparelhada (Xi , Yi ) (i = 1, ..., n) Seja D1 = X1 − Y1 ; D2 = X2 − Y2 ; ... Dn = Xn − Yn , isto é, seja (D1 , D2 , ..., Dn ) a amostra aleatória das diferenças Manuela Neves - ISA/Setembro 2012 – p. 46/81 Intervalos de confiança (amostras emparelhadas) Se D1 , D2 , ..., Dn são variáveis aleatórias provenientes de uma lei normal com µD = µX − µY −→ valor médio e variância 2, σD desconhecida tem-se D − µD √ ⌢ t(n−1) SD / n Intervalo de confiança a (1 − α) × 100% para µD sD sD √ < µ < d − tα/2,(n−1) √ d + t D α/2,(n−1) n n Se não for possível admitir Di normais, mas se tenha n ‘grande’ o intervalo de confiança (1 − α) × 100% para µD sD sD √ d − zα/2 √ d + z < µ < D α/2 n n Manuela Neves - ISA/Setembro 2012 – p. 47/81 Intervalos de confiança para p1 − p2 Sejam X1 e X2 variáveis aleatórias tais que X1 ⌢ B(n1 , p1 ) e X2 ⌢ B(n2 , p2 ). n1 e n2 dimensões de amostras aleatórias independentes Intervalo de confiança a (1 − α) × 100% para p1 − p2 quando as dimensões das amostras são elevadas (p̂1 − p̂2 ) − zα/2 q pˆ1 qˆ1 n1 + pˆ2 qˆ2 n2 < p1 − p2 < (p̂1 − p̂2 ) + zα/2 q pˆ1 qˆ1 n1 + pˆ2 qˆ2 n2 Manuela Neves - ISA/Setembro 2012 – p. 48/81 Testes de Hipóteses Os testes de hipóteses têm como objectivo decidir, com base na informação fornecida pelos dados de uma amostra, se podemos aceitar ou não uma dada hipótese. Testes paramétricos – supõe-se conhecida, pelo menos aprox., a forma da distribuição e as hipóteses a formular dizem respeito ao(s) parâmetros(s) Testes não paramétricos – neste caso pretende-se estabelecer algo sobre forma da distribuição ou então para o estudo dos parâmetros não se admite o conhecimento da distribuição. Manuela Neves - ISA/Setembro 2012 – p. 49/81 Testes de Hipóteses O procedimento num teste de hipóteses consiste em formular duas hipóteses: hipótese nula H0 é aqui que se especifica o valor do parâmetro ou a distribuição a verificar hipótese alternativa H1 A resposta num teste de hipóteses é dada na forma rejeição de H0 ou não rejeição de H0 Mas .... a tomada de decisões possui riscos (i.e. podem cometer-se erros) P(erro de 1a espécie)=P(Rejeitar H0 | H0 verdadeira)= α P(erro de 2 espécie)=P(Não rejeitar H0 | H0 falsa) =β Manuela Neves - ISA/Setembro 2012 – p. 50/81 Testes de Hipóteses Então como se decide? define-se uma variável aleatória – estatística do teste define-se uma região de valores da variável que permite decidir – região crítica ou região de rejeição – RC (os valores restantes constituem a região de aceitação) face a uma amostra observada calcula-se o valor da estatística do teste Se o valor calculado ∈ RC rejeita-se H0 Se o valor calculado ∈ RC não se rejeita H0 Manuela Neves - ISA/Setembro 2012 – p. 51/81 Testes de Hipóteses A indicação do valor observado da estatística do teste, seguido da consulta de uma tabela para a procura de um valor crítico, de modo a tirar conclusões tem sido recentemente “substituído” pelo cálculo de – a probabilidade de se observar um valor igual ou mais extremo do que o observado, se a hipótese nula é verdadeira – chama-se a isto valor de prova; valor p ( p-value ) Manuela Neves - ISA/Setembro 2012 – p. 52/81 Testes de Hipóteses Interpretação: - valor de prova; valor p ( p-value ) é a medida do grau de concordância entre os dados e H0 ; Assim Quanto menor for o p-value, menor é a consistência entre os dados e a hipótese nula Habitualmente adopta-se como regra de decisão: rejeitar H0 se p-value ≤ α Manuela Neves - ISA/Setembro 2012 – p. 53/81 Exemplo 2 Os dados seguintes referem-se à concentração total de azoto (ppm) na água de um lago que é utilizado como fonte de abastecimento urbano. 0.042 0.023 0.049 0.036 0.045 0.025 0.048 0.035 0.048 0.043 0.044 0.055 0.045 0.052 0.049 0.028 0.025 0.039 0.023 0.045 0.038 0.035 0.026 0.059 a) Determine um intervalo de confiança para µ (a 99% de confiança). b) Para ser aceitável como fonte de água potável, o conteúdo médio de azoto deve ser inferior a 0.07 ppm. Acha que os dados são compatíveis com aquele critério? Manuela Neves - ISA/Setembro 2012 – p. 54/81 Resolução do Exemplo (inı́cio) > azoto<-c(0.042,0.048,0.045,0.023,0.023,0.035,0.052, + 0.045,0.049,0.048,0.049,0.038,0.036,0.043, 0.045, + 0.025, 0.044, 0.055, 0.028, 0.025, 0.039, + 0.035, 0.026, 0.059) > qqnorm(azoto)# este é um grafico para uma #primeira pesquisa da normalidade > qqline(azoto) 0.02 0.04 azoto 0.06 0.025 0.040 0.055 Normal Q−Q Plot Sample Quantiles 0 1 2 3 4 5 6 Frequency Histogram of azoto −2 −1 0 1 2 Theoretical Quantiles Manuela Neves - ISA/Setembro 2012 – p. 55/81 Resolução do Exemplo (continuação) > t.test(azoto,mu=0.0,conf.level=0.99) #alinea a) One Sample t-test data: azoto t = 18.5066, df = 23, p-value = 2.606e-15 alternative hypothesis: true mean is not equal to 0 99 percent confidence interval: 0.03382623 0.04592377 sample estimates: mean of x 0.039875 > t.test(azoto, alternative=’less’, mu=0.07) #alinea b) One Sample t-test data: azoto t = -13.9815, df = 23, p-value = 4.944e-13 alternative hypothesis: true mean is less than 0.07 95 percent confidence interval: -Inf 0.04356776 sample estimates: mean of x 0.039875 Manuela Neves - ISA/Setembro 2012 – p. 56/81 Exemplo 3 Um estudo pretende comparar um tipo de semente melhorada com o tipo de semente tradicional, usado anteriormente. A semente melhorada passará a ser utilizada se, em média, o crescimento das plantas após 20 dias fôr superior ao das sementes tradicionais. São criadas 15 diferentes situações laboratoriais, variando temperatura e humidade. Em cada situação semeia-se uma semente de cada tipo e obtêm-se os seguintes resultados para o crescimento (em cms) das plantas após 20 dias : Situação 1 2 3 4 5 6 7 8 ‘novas’ sementes 3.46 3.48 2.74 2.83 4.00 4.95 2.24 6.92 ‘velhas’ sementes 3.18 3.67 2.92 3.10 4.10 4.86 2.21 6.91 Situação 9 10 11 12 13 14 15 ‘novas’ sementes 6.57 6.18 8.30 3.44 4.47 7.59 3.87 ‘velhas’ sementes 6.83 6.19 8.05 3.46 4.18 7.43 3.85 Deverá passar a usar-se o novo tipo de sementes? Responda justificando e explicitando quaisquer hipóteses adicionais que seja necessário impôr. Manuela Neves - ISA/Setembro 2012 – p. 57/81 Exemplo 4 Pretende-se avaliar se um certo adubo A aumenta a produção de determinada cultivar do cereal T . Para tal efeito um experimentador plantou 2 talhões com a referida cultivar, tendo aplicado o adubo A só num deles. De cada talhão foram então amostradas 12 áreas de 1m2 . Em cada uma destas áreas foram colhidas todas as plantas e pesado o grão. Os dados obtidos, expressos em gramas foram os seguintes: Talhão 422 460 455 466 475 472 465 456 452 430 458 470 470 437 429 447 432 457 422 425 432 474 452 442 c/ adubo Talhão s/ adubo 1. Estabeleça as hipóteses a testar. 2. Teste as hipóteses da alínea anterior, para α = .05. O que decidiria quanto à utilização do adubo? Manuela Neves - ISA/Setembro 2012 – p. 58/81 Intervalos de confiança e testes de hipóteses Na resolução dos exemplos anteriores é necessário considerar intervalos de confiança e testes de hipóteses para comparar os valores médios de duas populações >t.test(x, y , alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) Realiza um teste e I.C. para amostras independentes, usando o t de Welch-Satterthwaite para obter uma aproximação ao no¯ de graus de liberdade. Nota: Por omissão o t.test considera paired = FALSE, var.equal = FALSE. Manuela Neves - ISA/Setembro 2012 – p. 59/81 Intervalos de confiança e testes de hipóteses Intervalo de confiança e teste de hipóteses para comparar 2 variâncias de populações que se admitem normais >var.test(x, y, ratio = 1, alternative = c("two.sided", "less", "greater"),conf.level = 0.95, ...) Intervalo de confiança e teste de hipóteses para comparar duas proporções >prop.test(x, n, p = 0.4, alternative = "less", conf.level = 0.99, correct = FALSE) Trata-se de um teste a p = 0.4 sem correcção de continuidade. É obtido o intervalo a 99% de confiança. Manuela Neves - ISA/Setembro 2012 – p. 60/81 Testes Não Paramétricos Pode pensar-se em dois tipos de testes não paramétricos: Testes de Ajustamento ou “goodness-of-fit tests” que têm como objectivo decidir se a nossa amostra se pode considerar proveniente de uma população com uma distribuição especificada. Destes têm particular interesse os testes de ajustamento à normalidade Testes não paramétricos designados por “distribution free tests” que não requerem pressupostos sobre a distribuição subjacente aos dados. Note-se, por exemplo, que o uso do teste t necessitava da hipótese da normalidade da população subjacente. Manuela Neves - ISA/Setembro 2012 – p. 61/81 Testes de Ajustamento Seja X1 , X2 , ..., Xn uma amostra aleatória de uma população X com função distribuição F desconhecida e F0 a função distribuição proposta. Pretende-se testar H0: F (x) = F0 (x) H1: F (x) 6= F0 (x) Vamos começar com um teste muito importante nas nossas aplicações. Permite averiguar se um dado conjunto de observações se pode considerar proveniente de uma população com distribuição normal – é um teste de normalidade - o Teste de Shapiro-Wilk Manuela Neves - ISA/Setembro 2012 – p. 62/81 O Teste de Shapiro-Wilk Sendo X uma característica em estudo numa população, o teste de Shapiro e Wilk (1956) consiste em testar as hipóteses: H0: X tem distribuição normal H1: X não tem distribuição normal Nota: não rejeitar H0 significa que a distribuição normal é uma distribuição possível para X rejeitar H0 significa que a distribuição normal não é possível Manuela Neves - ISA/Setembro 2012 – p. 63/81 O Teste de Shapiro Wilk Calcula-se o valor da estatística do teste Wcal = b2 n P i=1 (xi − x̄)2 Valores pequenos de Wcal indicam não normalidade, i.e. RC: Wα Wcal < Wα − valor crítico a consultar numa tabela. Outro modo de decidir consiste, como se sabe, em utilizar o p-value Manuela Neves - ISA/Setembro 2012 – p. 64/81 Ainda o exemplo que ficou por concluir Como realizar o teste de normalidade de Shapiro-Wilk? Comando no >shapiro.test(nome da variável) > shapiro.test(azoto) Shapiro-Wilk normality test data: azoto W = 0.944, p-value = 0.2001 Manuela Neves - ISA/Setembro 2012 – p. 65/81 Outros testes de Ajustamento Consideremos agora um teste muito usado baseado em contagens - é o teste do Qui-quadrado (K. Pearson). Considere-se os valores possíveis da característica repartidos em k classes, A1 , A2 , ..., Ak , mutuamente exclusivas. Seja ni o no de observações ou frequência absoluta observada da Pk classe Ai ; i=1 ni = n pi a probabilidade desconhecida de obter uma observação na classe Ai ; p0i a probabilidade de obter uma observação na classe Ai supondo que a observação foi extraída de uma população com a distribuição especificada em H0 , i.e. p0i = P (Ai |H0 ). Manuela Neves - ISA/Setembro 2012 – p. 66/81 O Teste do Qui-Quadrado Hipóteses H0 : pi = pi0 i = 1, 2, ...k v.s. H1 : pelo menos um dos pi 6= pi0 A Estatística do teste é X2 = k X (ni − npi0 )2 i=1 npi0 isto é, é uma medida de afastamento entre os dados e a hipótese. Quanto menor for X 2 mais plausível é a hipótese H0 . Tem-se, se H0 verdadeira X 2 ∼ χ2(k−1) i.e., a distribuição é assintótica - válida para dimensões de amostra elevada. Manuela Neves - ISA/Setembro 2012 – p. 67/81 Teste do Qui-quadrado Que dimensão deverá ter a amostra para ser válido usar esta distribuição? Sugestão de Cochran (1954): - em distribuições unimodais pode haver classes com frequência esperada = 1 desde que 80% das classes apresente frequência esperada não inferior a 5. Se as frequências de algumas classes forem inferiores a 1, agrupam-se classes adjacentes para atingir a frequência mínima desejada. Se houver necessidade de estimar parâmetros a estatística passa a ter assintoticamente distribuição χ2(k−p−1) , onde p é o número de parâmetros estimados. Manuela Neves - ISA/Setembro 2012 – p. 68/81 Exemplo 5 A descendência originada pelo cruzamento de dois dados tipos de plantas pode ser qualquer um dos três genótipos que representaremos por A, B e C. Um modelo teórico de sucessão genética indica que os tipos A, B e C devem aparecer na razão 1:2:1. Para verificação experimental obtiveram-se 90 plantas pelo cruzamento dos tais dois tipos. A sua classificação genética foi registada na tabela: Genótipos A B C Total 18 44 28 90 Estão estes dados de acordo com o modelo genético? Comandos no >gen_obs<-c(18,44,28) >pval<-c(0.25,0.5,0.25) >chisq.test(gen_obs, p = pval) Chi-squared test for given probabilities data: gen_obs X-squared = 2.2667, df = 2, p-value = 0.3220 Manuela Neves - ISA/Setembro 2012 – p. 69/81 Exemplo 6 - Resolução no Na tabela seguinte estão representados os resultados de um estudo experimental sobre o efeito do gorgulho Azuki do feijão. Introduziram-se larvas desse orgulho nos feijões que as alimentaram. As crisálidas sairam através de um buraco feito no feijão e, como tal, o n. de buracos por feijão indica-nos o n. de adultos que saíram. Observados 100 feijões obtiveram-se os seguintes resultados: n. de gorgulhos saídos de 1 feijão 0 1 2 3 4 frequência observada 60 22 10 5 3 Será o no . de gorgulhos por feijão uma v.a. com distribuição de Poisson? >num<-c(0,1,2,3,4) >freq<-c(60,22,10,5,3) >lambda_est<-sum(num*freq)/100;lambda_est >probs<-c(c(dpois(num[-5],lambda_est)),ppois(3,lambda_est,lower.tail=F)) >probs;sum(probs) >chisq.test(freq, p = probs) >par(mfrow=c(1,2)) #vamos só visualizar >plot(num,freq/100,type="h", ylim=c(0,.6),lwd=3) >plot(num,probs,type="h",ylim=c(0,0.6),lwd=3) Manuela Neves - ISA/Setembro 2012 – p. 70/81 Tabelas de contingência Se os indivíduos de uma amostra são classificados de acordo com dois critérios A e B (qualitativos ou quantitativos) é costume apresentar as frequências observadas numa tabela a que se chama tabela de contingência Consideremos r níveis do critério A e c níveis do critério B. O aspecto formal de uma tabela de contingência é: B1 ··· Bj ··· Bc A1 O11 O1j O1. O21 ··· O1c A2 ··· O2c O2. . . ··· . . . Ar Or. ··· O2j . . Or1 ··· Orj ··· Orc O.1 ··· O.j ··· O.c Manuela Neves - ISA/Setembro 2012 – p. 71/81 Tabelas de contingência Na tabela anterior tem-se r X c X Oij = n i=1 j=1 e Oij representa o número de elementos da amostra classificados nas categorias Ai e Bj . O objectivo do estudo de uma tabela de contingência, como a apresentada, é tentar inferir sobre a existência ou não de alguma associação entre os dois atributos A e B, ou seja pretende-se testar H0: A e B são independentes H1: A e B não são independentes Manuela Neves - ISA/Setembro 2012 – p. 72/81 Tabelas de contingência A estatística do teste de independência é r X s 2 X (O − e ) ij ij , X2 = eij i=1 j=1 onde eij representa a estimativa da frequência esperada, isto é eij = oi. o.j n Sob H0 verdadeira, a estatística X 2 tem distribuição assintótica Qui-quadrado com (r − 1)(s − 1) graus de liberdade. 2 > χ2 Rejeita-se a hipótese H0 se Xcal α,(r−1)(s−1) Manuela Neves - ISA/Setembro 2012 – p. 73/81 Notas Também aqui há pressupostos a verificar: as frequências esperadas em cada classe não devem ser inferiores a 5, quando o número total de observações é ≤ 20; se n > 20 não deverá existir mais do que 20% das células com frequências esperadas inferiores a 5, nem deverá existir nenhuma com frequência esperada inferior a 1. se nos casos anteriores as condições não se verificarem deve-se juntar linhas ou colunas (tendo em conta se tal junção tem significado). a realização de um teste de independência não deve terminar com a rejeição da hipótese nula. Deve analisar-se a contribuição de cada célula para o valor de X 2 . Manuela Neves - ISA/Setembro 2012 – p. 74/81 Exemplo 7 Submeteram-se ramos florais da macieira “Golden Delicious”, em números sensivelmente iguais, a quatro tratamentos e contou-se o número de frutos produzidos em cada caso, a fim de verificar se existe ou não uma relação entre os diferentes tratamentos e a frutificação. Vejamos os resultados no seguinte quadro: Tratamentos N. de frutos Totais 0 1 2ou 3 A 203 150 6 359 B 266 112 1 379 C 258 126 2 386 D 196 168 17 381 Pretendemos testar a hipótese nula , de que não há relação entre os tratamentos e a frutificação, ou seja, que são independentes. Manuela Neves - ISA/Setembro 2012 – p. 75/81 Exemplo 7 - 50 100 150 200 250 >frutos<-matrix(c(203,150,6,266,112,1,258,126,2,196,168,17), nc=3,byrow=T, dimnames=list(c("T_A", "T_B", "T_C","T_D"),c("0", "1","2/3"))) >frutos >chisq.test(frutos) >chisq.test(frutos)$expected >barplot(frutos,names=c("0","1","2/3"),col=c(4,7,3,2), cex.names=1,beside=T) >legend("topright",c("T_A","T_B","T_C","T_D"),fill=c(4,7,3,2)) 0 T_A T_B T_C T_D 0 1 2/3 Manuela Neves - ISA/Setembro 2012 – p. 76/81 Testes Não Paramétricos Se a normalidade falhar devemos recorrer a testes não paramétricos −→ não requerem pressupostos sobre o tipo de distribuição subjacente aos dados. Os testes não paramétricos que vamos considerar são baseados nas ordens das observações, ou seja, na posição de cada observação na amostra ordenada. Evitando as suposições paramétricas e considerando apenas as ordens das observações perdemos a informação sobre a magnitude das diferenças. Mas enquanto os testes paramétricos exigem que as variáveis em causa sejam quantitativas, os testes não paramétricos que vamos usar podem aplicar-se também a variáveis qualitativas, desde que as elas sejam ordinais. Manuela Neves - ISA/Setembro 2012 – p. 77/81 Testes Não Paramétricos Os testes não paramétricos que vamos estudar são: teste de Wilcoxon teste de Wilcoxon-Mann-Whitney independentes para duas amostras Observação: Se se verificarem os pressupostos de um teste paramétrico, devem usar-se estes porque são mais potentes. Manuela Neves - ISA/Setembro 2012 – p. 78/81 Exemplo 8 A tabela seguinte dá a percentagem de concentração de zinco, determinada por dois métodos diferentes, em 8 amostras de comida: Amostra EDTA tritation Espectrometria atómica 1 7.2 7.6 2 6.1 6.8 3 5.2 4.6 4 5.9 5.7 5 9.0 9.7 6 8.5 8.7 7 6.6 7.0 8 4 4.7 Poder-se-á afirmar que existe uma diferença significativa entre os resultados dos dois métodos? Manuela Neves - ISA/Setembro 2012 – p. 79/81 O Teste de Wilcoxon e o Teste de Mann-Whitney Teste de Wilcoxon - teste não paramétrico para o estudo da mediana de uma população ou para comparar as medianas em duas amostras emparelhadas Teste de Wilcoxon-Mann-Whitney - teste não paramétrico adequado à comparação em duas amostras independentes Procedimento do . wilcox.test(A,B) realiza o teste que atrás chamámos de Wilcoxon-Mann-Whitney para as duas amostras independentes A e B. wilcox.test(A,B,paired=T) realiza o teste que atrás chamámos de Wilcoxon para as duas amostras A e B, mas agora consideradas emparelhadas. Manuela Neves - ISA/Setembro 2012 – p. 80/81 Referências Bibliográficas Kerns, G.J. (2010) - Introduction to Probability and Statistics using . First Edition. Disponível on-line Monteiro, L.R. (2006) - Introdução à Biometria utlizando Disponível on-line Neves, M. M. (2008) - Introdução à Estatística e à Probabilidade. Apontamentos de Apoio à U.C. Estatística. Pestana, D.D. e Velosa, S.F. (2008) - Introdução à Probabilidade e à Estatística . Fundação Calouste Gulbenkian Torgo, L. (2006). Introdução à Programação em R . Disponível on-line Verzani, J. (2002) ) - Using on-line for Introductory Statistics. Disponível Manuela Neves - ISA/Setembro 2012 – p. 81/81