4. Medidas descritiva para dados quantitativos 4.1. Medidas de Posição da amostra: média, mediana e moda Considere uma amostra com n observações: x1, x2, . . . , xn. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações. x i 1 n xi n Exemplo 1: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3, 10 logo xi 35 i 1 x 35 3.5 10 Propriedade: Se y = ax + b, então, para uma amostra x1, x2, . . . , xn, temos: yi a xi b, i 1, 2, , n , e y ax b Exemplo 2: Se Y = 2X − 1, então, temos os dados transformados: 10 3, 5, 11, 5, 9, 7, 5, 7, 3, 5 e yi 60 i 1 y 2 3.5 1 6.0 Note que, para duas variáveis x e y, se z = x/y, então: z x y b) Mediana: representada por med (x) , é dada pela observação que ocupa a posição central das observações ordenadas. Definição: Estatística de ordem: a estatística de ordem i é dada pela i-ésima observação ordenada, sendo representada por: x(i), i = 1, 2, . . . , n, ou seja: i) x(1) é a primeira estatística de ordem, ou o valor mínimo da amostra; ii) x(n) é a n-ésima estatística de ordem ou o valor máximo da amostra. iii) x(i) é a i-ésima estatística de ordem, ou a i-ésima observação ordenada; Por exemplo, para i = 2, x(2) é a segunda estatística de ordem, ou o segundo menor valor da amostra; Desta forma, temos que as estatísticas de ordem fornecem a amostra ordenada: x(1) x(2) . . . x(n) Seja a amostra ordenada, x(1) x(2) . . . x(n), então, a posição central é dada pela estatística de ordem, portanto, med ( x) x n 1 2 Exemplo 3: Sejam os dados: 2, 3, 6, 3, 5, 4, 2, 5, 2 (n = 9). Dados ordenados: 2, 2, 2, 3, 3, 4, 5, 5, 6 Então, med ( x) x5 3 Notas: x; i) A mediana também é representada por ~ ii) Se n é par, a mediana é dada pela média aritmética das duas observações centrais. Exemplo 4: Sejam agora: 2, 2, 2, 3, 3, 4, 4, 5, 5, 6 Então, med ( x) x5.5 x(5) x(6) 2 (n = 10). 3 4 3.5 2 c) Moda: representada por mo(x) , é observação da amostra com maior frequência, ou seja, a que mais se repete. Um conjunto de dados pode ter mais de uma moda, ou até mesmo, não ter moda. Classificação de um conjunto de dados em relação ao número de modas: i) unimodal: quando o conjunto tem uma única moda; ii) bimodal: quando o conjunto tem duas modas; iii) multimodal: quando o conjunto tem três ou mais modas; iv) amodal: quando o conjunto não tem moda (neste caso, todas as observações aparecem uma única vez na amostra). Exemplo 5: Com os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3 mo( x) 3 Então, (aparece 4 na amostra) O conjunto é unimodal. O moda pode, ainda, ser calculada para variáveis categóricas. Neste caso, o resulta será um valor não numérico. Veja o exemplo: Considere os conceitos de n = 10 alunos: D B A B C A A C B B mo(conceito) = B (aparece 4 na amostra) Exemplo 6: Dos alunos de Estatística 1, dos anos 2015, 2016 e 2017, que praticam alguma atividade física regularmente, seja o número de vezes que praticam essa atividade física na semana. Dados: 3 2 2 2 3 2 2 4 3 4 4 3 3 5 4 7 2 4 3 5 3 4 3 5 2 5 3 2 3 7 2 3 3 1 3 1 3 Dados ordenados: 1 1 2 2 3 3 3 3 3 4 5 5 2 3 3 5 2 3 3 5 2 3 4 7 2 3 4 7 2 3 4 2 3 4 2 3 4 37 i) Média amostral: xi 120 , i 1 Portanto a média amostral é: x 120 3,24 vezes/semana 37 n 1 19 , logo, a 2 mediana é a observação ordenada que ocupa a 19ª posição, ou seja: ii) Mediana amostral: como n = 37, então med ( x) x19 3 vezes/semana iii) Moda da amostra: da tabela de frequências verifica-se que a observação mais frequente na amostra é o 3, que aparece 14 vezes. Desta forma, a moda é: mo ( x ) 3 vezes/semana Podemos resumir as medidas de posição numa tabela: Tabela: Medidas de posição amostral da variável número de vezes que pratica atividade física na semana. média mediana moda 3,24 vezes/semana 3 vezes/semana 3 vezes/semana Exemplo 7: Altura (em metros) de n = 30 alunos de Estatística 1, de 2015 a 2017. X = altura dos alunos (em metros) Dados ordenados: 1,54 1,57 1,59 1,59 1,60 1,62 1,63 1,65 1,67 1,68 1,70 1,70 1,70 1,72 1,72 1,73 1,74 1,74 1,75 1,75 1,77 1,78 1,78 1,79 1,80 1,83 1,84 1,90 1,90 1,95 30 i) Média amostral: xi 51,75 . i 1 Portanto a média amostral é: x 51,73 1,724 metros 30 n 1 15,5 , logo, a 2 mediana é a observação ordenada que ocupa a posição 15,5, ou seja, é dada pela média aritmética entre a 15ª e 16ª observações ordenadas: ii) Mediana amostral: como n = 30, então x(15) x(16) med ( x) x15,5 2 1,72 1,73 1,725 metros 2 iii) Moda da amostra: a moda é dada pela observação 1,70m, que aparece 3 vezes na amostra: mo( x ) 1,70 metros Comandos do R para as medidas de posição: altura <- c(1.70, 1.78, 1.54, 1.57, 1.79, 1.73, 1.74, 1.68, 1.75, 1.72) # soma das observações soma <- sum(altura) soma # media anostral xbar <- mean(altura) xbar # mediana amostral mediana <- median(altura) mediana 1.83, 1.62, 1.95, 1.72, 1.60, 1.70, 1.90, 1.59, 1.75, 1.67, 1.59, 1.70, 1.84, 1.63, 1.74, 1.65, 1.77, 1.90, 1.80, 1.78, A moda não tem uma função pronta no R, portanto, podemos programar uma função e utilizá-la sempre que for necessário. # Função no R para a moda ########################## mo <- function(v){ tabela <- table(as.vector(v)) m <- names(tabela)[tabela == max(tabela)] if(is.numeric(v)){m <- (as.numeric(m))} if(length(m)==length(v)){ print("Conjunto não possui moda.")} else{return(m)} } x <- c(1,2,2,2,3,3) mo(x) x <- c("e","s","t","a","t","i","s","t","i","c","a") mo(x) # moda da variável altura moda <- mo(altura) moda # veja isso! altura[1] <- 1.69 mo(altura) # Criando uma lista com estatísticas descritivas # de posição média, mediana e moda. ################################################ descri <- as.matrix(c(mean(altura),median(altura),mo(altura))) dimnames(descri)[[1]] <- c("média","mediana","moda") dimnames(descri)[[2]] <- "altura" round(descri,4) 4.1.1. Média, Moda e Mediana e a Simetria dos dados Considere o histograma abaixo: Figura 4: Função de distribuição de probabilidades sobre o histograma. O que podemos dizer com relação a simetria da distribuição de frequências representa por este histograma? Quando uma distribuição de frequências é perfeitamente simétrica, teremos que a média aritmética, a moda e a mediana serão iguais, ou seja: x = mo(x) = med(x) E quanto ao exemplo acima (Figura 4), como podemos classificá-lo em função da sua falta de simetria? Quando a distribuição não é simétrica, podemos distinguir duas situações possíveis (Figura 5): i) A cauda superior da distribuição é mais alongada, puxando a distribuição para a direita. Neste caso, a média é maior do que a moda e a assimetria é dita à direita ou positiva. ii) A cauda inferior da distribuição é mais alongada, puxando a distribuição para a esquerda. Neste caso, a média é menor do que a moda e a assimetria é dita à esquerda ou negativa. Figura 5: Assimetrias à direita e à esquerda, respectivamente. Assim, para cada situação, teremos: i) Quando a simetria é perfeita as três medidas são iguais. ii) Na situação em que ocorre a assimetria à direita, teremos a moda menor do que a mediana que é menor do que a média. iii) E, para a assimetria à esquerda, devemos ter a média menor do que a mediana que é menor do que a moda. Observação importante! As relações apresentadas são consequência da simetria (i) ou assimetria (ii) e (iii), não a causa. Relação entre média, moda e mediana ➢ A Média : usada para resumir dados contínuos simétricos ou aproximadamente simétricos; apropriada quando o tamanho da amostra é moderado ou grande, mesmo quando a simetria não tão boa; é influenciada por valores extremos, sendo puxada na direção da cauda mais alongada (ver Figura 5), especialmente para amostras pequenas. ➢ A Moda é o elemento de maior frequência, sendo o ponto de máximo de f(x); a moda é apropriada para dados de contagem; pode ser aplicada a dados qualitativos, nominais ou ordinais; quando o tamanho da amostra é grande, é robusta a valores extremos. ➢ A Mediana está sempre no meio do conjunto, dividindo-o em duas partes iguais, ficando entre as duas medidas anteriores; por ser uma medida robusta a valores extremos, é apropriada para resumir dados assimétricos; pode ser utilizada para dados qualitativos ordinais. 4.1.2. As médias geométrica e harmônica a) Média Geométrica: MG(x) e é dada pela n-ésima raiz do produto das n observações da amostra 1/ n n MG ( x) xi i 1 n x1 x2 xn Exemplo 8: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3, 10 logo xi 155520 i 1 MG( x) 10 155520 3,305054 Obs: i) para o cálculo da média geométrica, os valores devem ser todos positivos e diferentes de zero; ii) outra forma de apresentação da média geométrica é dada pela relação: log( x1 ) log( x2 ) log( xn ) MG ( x) exp n 1 n exp log( xi ) n i 1 10 Exemplo 9: Com os dados anteriores, log( xi ) 11,95453 , e i 1 11,95453 MG( x) exp 3,305054 10 Propriedades: i) Seja a amostra x1, x2, . . . , xn, então, MG (a x) a MG ( x) ; Exemplo 10: Se y = 2x: MG ( y ) 10 159252480 6.610 2 MG ( x) x MG ( x) ii) Sejam duas variáveis X e Y, então, MG . y MG ( y ) Exemplo 11: Seja a seguinte amostra de uma varável y: 10,0 15,0 10,0 5,0 7,5 5,0 7,5 7,5 12,5 7,5, então MG ( y ) 8,262636 x MG( x) e, MG 0.4 MG( y ) y b) Média Harmônica: MH(x) e é dada pelo recíproco da média aritmética dos inversos das observações MH ( x) 1 1 / x1 1 / x2 1 / xn n n 1 1 1 x x x 1 2 n n n 1 x i 1 i Obs: também, para o cálculo da média harmônica, os valores devem ser todos positivos e diferentes de zero. Exemplo 12: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3, 10 logo i 1 MH ( x) 1 3 .2 xi 10 3.125 3.2 Propriedade: Seja a amostra x1, x2, . . . , xn, então, MH (a x) a MH ( x) Exemplo 13: Se y = 2x: 10 então, 1 1.6 i 1 yi MH ( y) 10 6.25 2 MH ( x) 1.6 4.1.3. Relações entre as medidas deposição i) Relação de desigualdades entre as médias aritmética, geométrica e harmônica MH ( x) MG ( x) x Se todas as observações forem iguais, ( x1 = x2 = . . . = xn), temos a igualdade MH ( x) MG ( x) x ii) Relação empírica entre média aritmética, mediana e moda. Karl Pearson, matemático famoso, no final do século XIX e início do XX, observou empiricamente, a seguinte relação entre as três medidas de posição média, mediana e moda: x mo( x) 3x med ( x) ou, ainda mo( x) med ( x) 2 x Observações: 1) Se a distribuição dos dados for perfeitamente simétrica, então x med ( x) mo( x) ; 2) A relação só se aplica a distribuições com boa simetria; 3) Só é valida para casos unimodais; 4) Depende de um tamanho de amostra n elevado. 4.1.4. Exemplos de medidas de posição Exemplo 14: uma grande companhia está preocupada com o tempo em que seus equipamentos ficam em manutenção na assistência técnica. Assim sendo, fez um levantamento do tempo de manutenção (dias) de 50 equipamentos para um estudo mais detalhado. X = dias em manutenção de equipamentos. 15 9 4 2 5 13 10 11 5 7 21 3 8 9 8 9 4 6 14 3 5 2 6 15 10 5 13 10 3 5 10 12 17 6 5 6 16 13 18 4 2 7 9 3 5 2 6 5 4 2 Dados Ordenados: 2 2 2 2 4 4 4 5 5 6 6 6 9 9 9 9 13 13 13 14 2 5 6 10 15 3 5 6 10 15 3 5 7 10 16 3 5 7 10 17 3 5 8 11 18 4 5 8 12 21 n = 50 observações Medidas Descritivas de Posição: i) Média: in1 xi 392 x 392 7.84 dias (≈ 8 dias) 50 ii) Mediana: Determinando a posição da mediana n 1 50 1 25.5 2 2 Logo, a mediana é dada pela média entre a 25ª e 26ª observações ordenadas: med ( x) x( 25) x( 26) 2 iii) Moda: mo(x) = 5 dias 66 6 dias 2 (aparece 5 na amostra) o conjunto é unimodal. n iv) Média geométrica: xi 3.8950461040 i 1 MG( x) 3.8950461040 1/ 50 6.4835 dias n Como log( xi ) 93.46311, temos, ainda, i 1 93.46311 1.8693 6.4835 dias. e 50 MG ( x) exp n v) Média harmônica: i 1 MH ( x) 1 9.4811 xi 50 5.2737 dias 9.4811 Exemplo 15: Em 1798 o cientista inglês Henry Cavendish mediu a densidade do globo terrestre em 29 ensaios. Os dados foram obtidos do Annals os Statistics, 1977. X = densidade do globo terrestre (g/cm3). 5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65 5.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39 5.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85 Dados ordenados 4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34 5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57 5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85 n = 29 observações Medidas Descritivas de Posição: i) Média: in1 xi 157.99 x 157.99 5.448g/cm3 29 ii) Mediana: Determinando a posição da mediana n 1 30 15 2 2 Logo a mediana é a 15ª observação ordenada. med ( x) x(15) 5.46g/cm3 iii) Moda: mo1(x) = 5.29 g/cm3 e mo2(x) = 5.34 g/cm3 o conjunto é bimodal. n vi) Média geométrica: xi 2.190651021 i 1 MG( x) 2.190651021 1/ 29 5.4435g/cm 3 n Como log( xi ) 49.13848, temos, ainda, i 1 49.13848 1.69443 5.4435g/cm3. e 29 MG ( x) exp n vii) Média harmônica: i 1 MH ( x) 1 5.331768 xi 29 5.4391g/cm3 5.331768 Exemplo 16: Altura dos alunos das turmas A e B de Estatística 1 no primeiro semestre de 2015. X = altura dos alunos (em metros). Dados ordenados 1.52 1.63 1.70 1.73 1.78 1.83 1.55 1.64 1.70 1.74 1.78 1.83 1.57 1.65 1.70 1.74 1.79 1.89 1.58 1.65 1.70 1.74 1.79 1.90 1.59 1.65 1.70 1.75 1.79 1.95 1.60 1.67 1.72 1.75 1.80 1.60 1.68 1.72 1.76 1.80 1.60 1.68 1.73 1.77 1.80 1.61 1.68 1.73 1.77 1.83 1.63 1.69 1.73 1.78 1.83 n = 55 observações Dados: xi 94.52; 1 32.09242 xi Calcule as medidas de posição: médias aritmética, geométrica e harmônica; mediana e moda. Medidas Descritivas de Posição: i) Média: xi = 94.52 ii) Mediana: x 94.52 1.7185m 55 n 1 56 28, logo a mediana é a 28ª observação 2 2 ordenada: med ( x) x( 28) 1.72m iii) Moda: mo(x) = 1.70m aparece 5 na amostra, o conjunto é unimodal, 4.2. Medidas de Dispersão (ou de variação) a) Amplitude: é dada pela diferença entre o maior e o menor valor da amostra. Sejam x(1) min[ x1, x2 ,, xn ] e x( n) max[ x1, x2 ,, xn ], x x então, a amplitude da amostra é definida por: A x( n) x(1) . A amplitude A representa o tamanho da região na qual os dados foram observados. b) Variância e desvio-padrão amostrais: A variância amostral é definida pela soma dos quadrados dos desvios das observações em relação à media amostral x , dividida por (n – 1), ou seja in1 xi x 2 s 2 . n 1 Mostra-se facilmente que s2 pode ser escrita como 2 2 n x n x . s i 1 i 2 n 1 O desvio padrão amostral, denotado por s, é definido pela raiz quadrada da variância amostral e é expresso na mesma unidade dos dados: in1 xi x 2 s n 1 . c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º quartis e representa a região ocupada pelos 50% das observações centrais. Para definir a amplitude interquartil, vamos primeiro definir o que são quartis amostrais, Quartis amostrais são medidas descritivas que dividem a amostra ordenada em quatro parcelas iguais de 25%, ou seja, 25% 25% 25% 25% ------------|------------|------------|-----------Q1 Q2 Q3 med(x) Assim sendo: i) Q1 é o primeiro quartil; ii) Q2 = med(x), é o segundo quartil, iii) Q3 é o terceiro quartil. Desta forma, denotada por Aq, é definida por Aq = Q3 – Q1 Aq determina o tamanho da região em torno da mediana que contém 50% das observações centrais, 4.2.1. Métodos para a obtenção dos quartis amostrais Para a obtenção dos quartis devemos proceder da mesma forma que para a mediana. Uma vez que a mediana esteja determinada, temos o conjunto de dados ordenados dividido em duas partes. Os quartis, então, são dados pelas observações centrais destas duas metades. Q1 med(x) Observação central da metade inferior Q3 Observação central da metade superior O procedimento para encontrar os quartis é o mesmo usado para a mediana, porém, teremos dois procedimentos dependendo do tamanho da amostra n ser par ou ímpar. i) Se o tamanho da amostra n for par: o procedimento é o mesmo da mediana, sendo aplicada a cada uma das metades (inferior e superior); Exemplo 17: Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 med ( x) n = 14 x( 7 ) x(8) 5 6 5.5 2 2 A mediana med(x) = 5.5 divide os dados em dois grupos de 7 observações cada um. Assim, 7 1 4 2 Q1 é a 4ª observação da metade inferior e, Q3 é a 4ª observação da metade superior. Desta forma, os quartis serão as observações ordenadas que ocupam as posições 4 e 7 + 4 = 11. 5,5 1 1 2 3 4 5 5 6 6 6 7 8 8 9 Q1 x( 4) 3 Q3 x(11) 7 ii) Se o tamanho da amostra n for ímpar: devemos optar por incluir, ou não, a mediana nos cálculos para a determinação dos quartis. ii.1) se a mediana não for incluída, então teremos dois grupos, inferior e superior à mediana, cada um com (n 1) 2 observações n 1 observações 2 inferiores n 1 observações 2 superiores Q1 Q3 med(x) e os quartis Q1 e Q3 são obtidos normalmente. Exemplo 18: Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13 A mediana med ( x) x( 7 ) 5 divide os dados em dois grupos ordenados de 6 observações cada e, os quartis serão as médias entre as observações ordenadas x( 3) e x( 4 ) e as observações x(10 ) e x(11) (7 + 3 = 10). 6 1 3.5 Q1 é a média da 3ª e 4ª observações do 2 grupo inferior e, Q3 é a média da 3ª e 4ª observações do grupo superior. 5 1 1 2 3 4 5 Q1 6 6 6 7 8 9 x( 3) x( 4 ) 2 3 2.5 2 2 x(10 ) x(11) 6 7 Q3 6.5 2 2 ii.2) se a mediana for incluída, então, ela deve ser considerada1 tanto para a obtenção do 1º quartil, na metade inferior como na obtenção do 3º quartil, na metade superior. Desta forma, teremos 2 grupos, com (n 1) 2 observações cada. grupo inferior Q1 grupo superior med(x) Q3 e os quartis Q1 e Q3 são obtidos normalmente. Exemplo 19: Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13 A mediana med ( x) x( 7 ) 5 divide os dados em dois grupos ordenados de 6 observações cada, Incluindo a mediana ao procedimento, teremos uma observação a mais em cada grupo, ou seja, teremos 7 observações 7 1 4 2 Q1 é a 4ª observação do grupo inferior e, Q3 é a 4ª observação do grupo superior, ou seja, a 10ª observação ordenada (6 + 4), Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das posições dos quartis. 1 1 1 2 3 4 5 5 5 6 6 6 7 8 9 Q1 x( 4) 3 Q3 x(10) 6 iii) Outra forma para a obtenção dos quartis é apresentada por Murteira (2002), Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá ocupar a posição: n 1 1 2 n3 2 4 Para a posição de Q3 fazemos: n 3 3n 1 (n 1) 4 4 Portanto, Q1 e Q3 são dados pelas observações ordenadas que ocupam as posições Se os valores de n3 3n 1 e , respectivamente, 4 4 n3 3n 1 e não forem inteiros, Q1 e Q3 4 4 devem ser obtidos por interpolação linear, Por exemplo, se n3 k , 4 em que k é a parte inteira e a parte decimal, então, Q1 pertence ao intervalo ( x( k ) ; x( k 1) ) e Q1 x( k ) [ x( k 1) x( k ) ] Para Q3 o procedimento é semelhante, ou seja, se 3n 1 , 4 então, Q3 pertence ao intervalo ( x( ) ; x( 1) ) e Q3 x( ) [ x( 1) x( ) ] Exemplo 20: Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 n = 14 Para a determinação de Q1, temos: posição de Q1: 14 3 17 4.25 . 4 4 Como = 0,25, Q1 é a interpolação entre a 4ª e 5ª observações ordenadas: Q1 3 0.25(4 3) 3.25. Para a determinação de Q3, temos: posição de Q3: 3 14 1 43 10.75. 4 4 Aqui = 0,75 e Q3 é a interpolação entre a 10ª e 11ª observações ordenadas: Q3 6 0.75(7 6) 6.75 . Obs: o item (iii) com n ímpar é equivalente ao item (ii.2), Notas: Assim como a mediana, os quartis amostrais dependem do tamanho da amostra n, fazendo com que nem sempre os quatro grupos tenham o mesmo tamanho; Existem diversas outras formas para a determinação dos quartis, Nesta disciplina daremos ênfase nos itens (i) e (ii.1); Para n pequeno, pode-se, ainda, obter os quartis graficamente pelo histograma dos dados; Os quartis são casos especiais dos quantis (ou percentis), que são denotados por: x(p) p-ésimo quantil ou quantil de ordem p, Portanto, o quantil x(p) é dado pela observação ordenada que deixa uma frequência acumulada igual 100p % abaixo de si, Assim sendo temos que: i) Q1 = x(0.25) quantil de ordem 0.25; ii) Q2 = med(x) = x(0.50) quantil de ordem 0.50; iii) Q3 = x(0.75) quantil de ordem 0.75, 4.2.2. Exemplos de medidas de dispersão: Exemplo 21: Número de pessoas com diabetes em 20 grupos de 1000 pessoas cada. Neste caso, foram obtidos os seguintes dados: 7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12 in1 xi 193 e a) Média: x 2 in1 xi 1889 193 9.65 casos (≈ 10); 20 b) Mediana: med ( x) x(10 ) x(11) 10 10 10 casos 2 2 c) Moda: mo(x) = 10 casos. d) Variância e desvio padrão amostral: 1889 20(9.65) 2 1889 1862.45 s 20 1 19 2 s2 26.55 1.397(casos)2 19 s 1.397 1.182 casos (≈ 1) e) Amplitude amostral: A 12 7 5 casos f) Amplitude interquartil: posição de Q1: 10 1 5.5 , 2 logo, o 1º quartil é dado pela média entre a 5ª e 6ª observações ordenadas: Q1 x( 5) x( 6 ) 9 9 9 casos. 2 2 posição de Q3: 10 5.5 15.5 , logo o 3º quartil dado pela média entre a 15ª e 16ª observações ordenadas: x(15 ) x(16 ) 10 10 Q3 10 casos. 2 2 Desta forma, a amplitude interquartil é: Aq 10 9 1 caso. Relação entre as amplitudes amostral e interquartil: Aq 1 0 .2 A 5 Ou seja, a metade das observações centrais representam 20% da amplitude total dos dados. Exemplo 22: Altura dos alunos das turmas A e B de Estatística 1 no primeiro semestre de 2015. X = altura dos alunos (em metros). Dados ordenados 1.52 1.63 1.70 1.73 1.78 1.83 1.55 1.64 1.70 1.74 1.78 1.83 1.57 1.65 1.70 1.74 1.79 1.89 1.58 1.65 1.70 1.74 1.79 1.90 1.59 1.65 1.70 1.75 1.79 1.95 1.60 1.67 1.72 1.75 1.80 1.60 1.68 1.72 1.76 1.80 1.60 1.68 1.73 1.77 1.80 1.61 1.68 1.73 1.77 1.83 n = 55 observações Dado: xi 94.52 a) Média: x e 2 in1 xi 162.8848 94.52 1.7185m; 55 b) Mediana: med ( x) x( 28 ) 1.72m; c) Moda: mo( x) 1.70 . d) Variância e desvio padrão amostral: 162.8848 55(1.7185) 2 162.8848 162.4369 s 55 1 54 2 s2 0.4479 0.008294m2 54 1.63 1.69 1.73 1.78 1.83 s 0.008294 0.09107 m e) Amplitude amostral: A 1.95 − 1.52 = 0.43m f) Amplitude interquartil: (sem incluir a mediana) O primeiro quartil é a posição central da metade inferior Q1 x(14 ) 1.65m O terceiro quartil é a posição central da metade superior Q3 x( 42 ) 1.78 m Desta forma, a amplitude interquartil é: Aq 1.78 − 1.65 = 0.13 Relação entre as amplitudes amostral e interquartil: Aq 0.13 0.302 A 0.43 Metade das observações centrais representam 30.2% da amplitude total dos dados. Exemplo 23: Dias de manutenção de equipamentos de uma grande companhia, (n = 50 observações) X = dias em manutenção de equipamentos, Dados Ordenados: 2 2 2 2 4 4 4 5 5 6 6 6 9 9 9 9 13 13 13 14 in1 xi 392 a) x e 2 5 6 10 15 3 5 6 10 15 3 5 7 10 16 3 5 7 10 17 3 5 8 11 18 4 5 8 12 21 2 in1 xi 4178 392 7.84 dias 50 b) med ( x) x( 25 ) x( 26 ) 6 dias 2 c) mo(x) = 8 dias d) Variância e desvio padrão amostral: 4178 50(7.84) 2 4178 3073.28 s 22.5453 dias2 50 1 49 2 s 22.5453 4.7482 dias e) Amplitude amostral: A 21 2 19 dias f) Amplitude interquartil: A mediana está entre a 25ª e 26ª posição, logo o primeiro quartil é a posição central da metade inferior dos dados, ou seja: 25 1 13, logo o 1º quartil é a 13ª observação ordenada, 2 Q1 x(13 ) 4 dias, O terceiro quartil é a posição central da metade superior 25 13 38 , logo o 3º quartil é a 38ª observação ordenada, Q3 x(38 ) 10 dias, Desta forma, a amplitude interquartil é: Aq 10 4 5dias Relação da amplitude interquartil com a amplitude total: Aq 6 0.316. A 19 Metade das observações centrais representam 31.6% da amplitude total. Exemplo 24: Dados Cavendish. X = densidade do globo terrestre (g/cm3). Dados ordenados 4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34 5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57 5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85 n = 29 observações xi 157.99 x e 2 xi 862.0855 157.99 5.448g/cm3 29 a) Variância amostral: 862.0855 29(5.4479) 2 1.36638 s 0.04773 (g/cm3)2 29 1 28 2 Desvio padrão amostral: s 0.04773 0.21847 g/cm3 b) Amplitude amostral: A 5.85 4.88 0.97 g/cm3 c) Amplitude interquartil: A mediana é 15ª observação ordenada, o primeiro quartil (excluindo-se a mediana do cálculo) é a posição central da metade inferior dos dados, ou seja: Q1 x( 7 ) x(8) 5.29 5.30 5.295 g/cm3, 2 2 Q3 x( 22 ) x( 23 ) 5.61 5.62 5.615 g/cm3 2 2 Desta forma, a amplitude interquartil é: Aq 5.615 – 5.295 = 0.32 g/cm3, Relação da amplitude interquartil com a amplitude total: Aq 0.32 0.330. A 0.97 Metade das observações centrais representam 33.0% da amplitude total. 4.3. O coeficiente de variação amostral: Uma medida utilizada para quantificar a variabilidade dos dados é o coeficiente de variação, ou cv. O cv de variação amostral é dado pela razão do desvio padrão da amostra s e a média amostral x : cv s x Notas: O coeficiente de variação compara a magnitude do desvio padrão s com a média x . Se cv 1 s x . O coeficiente de variação é uma medida adimensional (é um número puro) também podendo ser expresso em %. Exemplo 25: a) Número de casos com diabetes em 20 grupos de 1000 pessoas: x 9.65 casos/grupo s 2 1.397 (casos/grupo) 2 s 1.397 1.182 casos/grupo cv 1.182 0.122 ou 12.2% 9.65 b) Altura dos alunos da disciplina Estatística 1: x 1.7185m s 2 0.008294m2 s cv 0.008294 0.09107 m 0.09107 0.0530 ou 5.30% 1.7185 c) Dias de manutenção de equipamentos: x 7.84 dias s 2 22.5453 dias2 s 22.5453 4.7482 dias cv 4.7482 0.606 ou 60.6% 7.84 d) Dados Cavendish: x 5.448g/cm3 s 0.21847 g/cm3 cv 0.21847 00401 ou 4.01%, 5.448 Nos exemplos acima temos os cv’s de quatro processos distintos, sendo o maior deles (dias manutenção) 15 vezes maior do que o menor (Cavendish), indicando claramente as diferenças na dispersão dos dados. Tabela: Coeficientes de variação dos exemplos. Dados Manutenção Diabetes Alturas Cavendish cv 0.606 0.122 0.053 0.040 cv (%) 60.6% 12.2% 5.3% 4.0% Um ponto de grande interesse, contudo, diz respeito a classificar o cv e poder dizer se um conjunto de dados tem uma dispersão muito alta, ou não. A seguir serão apresentados três critérios para classificação do coeficiente de variação. 4.3.1. Como classificar o Coeficiente de Variação O cv tem uma característica particular de ser intrínseco a cada processo, tendo sido muito estudado na área agrícola, mais especificamente, na experimentação agronômica. Vários autores indicam diferentes métodos para se classificar o coeficiente de variação. A seguir, são apresentadas três classificações. I) Classificação segundo Pimentel Gomes (1985), baseada em ensaios agrícolas. Faixa cv menor ou igual a 10% baixo baixa dispersão dos dados entre 10% e 20% médio média dispersão dos dados entre 20% e 30% alto maior do que 30% dispersão alta dispersão dos dados muito alto dispersão dos dados muito alta II) Classificação segundo Ferreira, F.V. (1991), Estatística Experimental Aplicada à Agronomia, classifica com respeito à precisão do processo. Faixa precisão cv Abaixo de 10% muito baixo ótima entre 10% e 15% baixo boa entre 15% e 20% médio regular entre 20% e 30% alto ruim maior do que 30% muito alto muito ruim (ou péssima) III) Classificação obtida no site www.datalyser.com.br, muito utilizada em CEP - Controle Estatístico do Processo. Faixa dispersão cv menor ou igual a 15% baixo baixa dispersão dos dados entre 15% e 30% médio média dispersão dos dados maior do que 30% Alto alta dispersão dos dados Exemplo 26: a) Diabetes: cv 1.182 0.122 (12.2%) cv baixo a médio. 9.65 b) Aturas dos alunos: cv (5.3%) cv baixo. c) Dias de manutenção de equipamentos: cv 4.7482 0.606 (60.6%) cv alto ou muito alto. 7.84 d) Dados Cavendish: cv 0.21847 0.0401 (4.01%) cv baixo. 5.448 4.4. O diagrama box-plot Representação gráfica da dispersão dos dados em torno da mediana, é construído com as 5 medidas ordenadas: mínimo, Q1, med(x), Q3 e máximo. As cinco medidas podem ser apresentadas pela representação dos cinco números: med(x) Q Q1 E mín(x) Q3 max(x) Observações: i) A representação dos cinco números, além da construção do box-plot, ajuda na comparação da assimetria das caudas; ii) Outros percentis podem ser incluídos, ampliando a representação. O diagrama box-plot fornece uma visão simplificada da dispersão e simetria dos dados, além de indicar possíveis valores fora do padrão (valores discrepantes). Além disso, pode ser utilizado na comparação de diferentes processos quanto à centralidade (posição) e variabilidade (dispersão). O nome box-plot refere-se à “caixa” construída para representar a metade das observações centrais entre os quartis. O box plot é constituído de 3 partes: caixa central, braços e valores discrepantes. i) A caixa central representa a metade das observações centrais entre os quartis Q1 e Q3. A mediana é destacada na caixa por uma linha que a divide em duas partes. Com isso, pode-se avaliar a simetria na região central da distribuição dos dados; ii) Os braços são construídos a partir da caixa central, representando as caudas da distribuição. A construção dos braços é baseada nos valores dos quartis e, o tamanho dos braços serve para avaliar a simetria das caudas. iii) Valores discrepantes são valores fora do padrão de dispersão, aparecendo muito distantes da maioria dos dados, podendo indicar grande forte assimetria ou variabilidade (ou ambos). Os valores discrepantes nem sempre estão presentes, sendo representados individualmente a partir das caudas. Valores discrepantes Q1 – 1.5AQ Valores discrepantes Q1 med(x) Q3 Q3 + 1.5AQ 4.4.1. Procedimento para a construção do box-plot i) Construir a “caixa” ou “box” com os valores de Q1 e Q3; ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em duas partes; iii) Calcular os limites inferior (LI) e superior (Ls): LI = Q1 – 1.5Aq LS = Q3 + 1.5Aq Os limites LI e Ls são utilizados para se identificar valores discrepantes. Valores discrepantes são observações menores do que LI ou maiores do que LS e são destacados individualmente no boxplot com pontos além desses limites. iv) Para os “braços” do box-plot, traçar linhas a partir dos centros das laterais inferior e superior da caixa, obedecendo ao seguinte critério: traçar uma linha da lateral inferior da caixa até o menor valor que não seja discrepante ou até min(x); marcar os pontos discrepantes menores do que LI, caso existam; traçar uma linha da lateral superior da caixa até o maior valor que não seja discrepante ou até max(x); marcar os pontos discrepantes maiores do que LS, caso existam. Exemplo 27: variável: horas gastas por semana assistindo TV. 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 12, 12, 12, 12, 14, 14, 14, 14, 14, 15, 16, 18, 20, 20, 20, 25, 25, 28, 30 10 Q E 5 0 14 30 Figura 2.2: Box-plot’s para a variável horas de TV, nas posições vertical e horizontal. Comandos do R para o box-plot: x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10, 10,10,10,12,12,12,12,14,14,14,14,14,15,16, 18,20,20,20,25,25,28,30) boxplot(x, col="bisque", main="Horas assistindo TV", ylab="Horas", pch=19) Exemplo 28: variável Renda PC por exposição de crianças à violência doméstica (grupos exposto e não exposto). Grupo 68 135 36 exposto não exposto 150 Grupo Exposto Não exposto 96 150 50 100 160 70 180 220 100 160 84 250 112 200 108 112 260 109 260 300 120 120 120 120 150 Estatísticas descritivas (reais), por grupo. n med(x) s2 s x 15 15 134.00 147.13 120.00 120.00 2257.29 6376.70 47.51 79.85 Q1 100 184 6 8 7 5 6 Freqüência Freqüência 117 5 4 3 2 4 3 2 1 1 0 0 35 85 135 185 235 285 0 Grupo Exposto 150 Grupo Exposto 132 198 264 330 Grupo não Exposto Box-plot renda per capita Box-plot renda per capita 50 66 250 0 100 200 Grupo Não Exposto Figura 2.2: Histogramas e box-plot’s individuais 300 Q3 160 220 Figura 2.3: box-plot’s por grupo lado-a-lado. Comandos do R para o box-plot lado-a-lado: exp <- c(68,96,100,100,112,112,117,120,120,135,150,160, 160,200,260) nexp <- c(36,50,70,84,108,109,120,120,150,150,180,220, 250,260,300) renda <- c(nexp,exp) gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp))) boxplot(renda~gr, pch=19, col=c("mediumseagreen","lightcoral")) # para o box-plot horizontal boxplot(renda~gr, pch=19, horizontal=T, col=c("mediumseagreen","lightcoral")) Exemplo 29: Peso da carne de mexilhões (g) provenientes de dois locais em Santa Catarina: Sambaqui e Manguezal Exemplo 30: Total de pontos obtidos pelos alunos ingressos na UFSCar no ano de 2007, nos diferentes cursos.