5. Medidas de Posição Depois de se fazer a coleta e a representação dos dados de uma pesquisa, é comum analisarmos as tendências que essa pesquisa revela. Assim se a pesquisa envolve muitos dados, convêm sintetizarmos todas essas informações a um mínimo de parâmetros que possam caracterizá-la. Esses parâmetros podem ser de: centralização: média aritmética, mediana e moda. separatrizes: mediana, quartis e percentis. dispersão: intervalo de variação, desvio médio, variância e desvio padrão. 1. Média Aritmética ( x ou µ ) A média caracteriza o centro da distribuição de freqüências, sendo, por isso uma medida de posição. Podemos definir vários tipos de médias de um conjunto de dados, temos a média aritmética, a média geométrica, a média harmônica, etc. Aqui, trabalharemos exclusivamente com a média aritmética (simples ou ponderada). É comum distinguirmos, em termos de notação, a média amostral e a média populacional, embora o cálculo de ambas seja o mesmo e apresente, portanto, o mesmo resultado: x (lê-se: “xis barra”) → média amostral µ (lê-se: “mi”) → média populacional Há três formas para calcular a média. Isse depende de como está o nosso conjunto de dados: não agrupados, agrupados sem classes ou agrupados com classes. Importante: nunca devemos arredondar o valor da média, mesmo que esse número não faça, aparentemente, sentido. Por exemplo: se calculamos que o número médio de filhos é 1,8, não devemos arredondar para 2. Embora não faça sentido falarmos em 1,8 filhos por família, pense em 18 filhos (em média) a cada 10 famílias, ou, ainda, 180 filhos, em média, a cada 100 famílias. Agora, o número médio passa a ter um sentido “prático”. Caso I: Dados não agrupados Para uma seqüência numérica X: x1, x2, …, xn, a média aritmética simples, que designamos por x ou µ é definida por: x= µ = ∑ xi n Exemplo 1: calcular a média da série X : 2, 0, 5, 3: x= 2+0+5+3 = 2,5 4 77 Caso II: Dados agrupados sem intervalos de classe Se os dados estão apresentados na forma de uma variável discreta faremos a média aritmética ponderada considerando as freqüências simples de fi como sendo as ponderações dos elementos xi correspondentes: Assim a fórmula para o cálculo da média é: x=µ= ∑x f ∑f i i ou x = µ = ∑x f i i n i Exemplo 2: Considerando a distribuição: X= ∑x f i i n = xi fi 2 1 4 3 5 2 total 6 n 2.1 + 4.3 + 5.2 2 + 12 + 10 = =4 1+ 3 + 2 6 Caso III: Dados agrupados com intervalos de classe Quando os dados estão agrupados com intervalos de classes, ou seja, quando se trata de uma variável contínua, se aceita, por convenção, que as freqüências se distribuem uniformemente ao longo da classe e que, portanto, o ponto médio da classe é o valor representativo do conjunto. Neste caso a média será calculada fazendo a média aritmética ponderada considerando as freqüências simples de fi como sendo as ponderações dos elementos x i correspondentes, onde x i é o ponto médio do intervalo. Assim, a fórmula para o cálculo da média é a mesma que a do caso II: x=µ= ∑x f ∑f i i ou x = µ = i ∑x f i i n Relembrando: Ponto médio de uma classe (xi) corresponde à soma do limite inferior com o limite superior dessa classe, dividindo o resultado por 2. Ou seja: Ponto médio = x i = LIclasse + LS classe 2 78 Exemplo 3: Considere a distribuição: classe 180 |― 200 200 |― 220 220 |― 240 240 |― 260 260 |― 280 total fi 4 18 10 5 3 xi 190 210 230 250 270 40 --- 180 + 200 = 190 2 200 + 220 = 210 2 n x= ∑x f i i n = 190.4 + 210.18 + 230.10 + 250.5 + 270.3 8900 = = 222,50 4 + 18 + 10 + 5 + 3 40 2. Moda (Mo) A moda de uma série de valores é o valor de maior freqüência absoluta,ou seja, o valor que aparece o maior número de vezes na distribuição. Fique atento: moda é um valor, ou seja, xi. Moda NÃO é a freqüência (fi)! Assim como no caso da média, vamos considerar três casos para obtermos a moda. Caso I: Dados não agrupados Exemplos: 1) Dada a série: 2, 0, 0, 5, 3, observamos que o valor 0 ocorreu duas vezes. Logo, Mo = 0. 2) Seja o ROL: 1, 2, 5, 7, 12,18, notamos que não existe um valor que apareça mais vezes. Neste caso, dizemos que a série de dados é amodal (não há moda). 3) Dada a série: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5, 5, 6, vemos que os valores 2 e 3 ocorreram três vezes cada um. Neste caso, temos dois valores modais, ou seja, Mo = 2 e 3. A série é dita bimodal. Caso II: Dados agrupados sem intervalos de classe Exemplo 4: Considerando a distribuição: xi fi 2 1 4 3 5 2 total 6 A maior freqüência é 3, que corresponde ao valor 4. Logo, Mo = 4. 79 Caso III: Dados agrupados com intervalos de classe Neste caso, a classe que apresenta a maior freqüência é denominada classe modal. No caso de distribuição de freqüências em classes de mesma amplitude, a moda corresponde a um ponto pertencente à classe modal dado pela fórmula de Czuber: D1 .h Mo = L Mo + D + D 1 2 com D1 = fmo – fant D2 = fmo – fpost onde: LMo = limite inferior da classe modal fMo = freqüência absoluta da classe modal fant = freqüência absoluta da classe imediatamente anterior à classe modal fpost = freqüência absoluta da classe imediatamente posterior à classe modal h = amplitude da classe modal Exemplo 5: Considere a distribuição: classe classe modal fi xi 180 |― 200 4 190 200 |― 220 18 210 220 |― 240 10 230 240 |― 260 5 250 260 |― 280 3 270 total 40 --- Inicialmente, devemos localizar a CLASSE MODAL, ou seja, a classe que conterá a moda. Ela corresponde ao intervalo que possui maior freqüência. No caso, 200 |― 220. Feito isso, basta aplicarmos a fórmula de Czuber: LMo = 200 fMo = 18 fant = 4 fpost = 10 h = 220-200 = 20 Logo: D1 = 18 – 4 = 14 D2 = 18 – 10 = 8 A moda será: 80 14 14 .20 = 212,7 .20 = 200 + 22 14 + 8 Mo = 200 + 3. Mediana (Md) A mediana de um conjunto de valores, colocados em rol, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos (elemento que ocupa a posição central). Em outras palavras, tendo-se um conjunto de dados ordenados de maneira crescente (ROL), a mediana é o valor que separa os 50% dos menores dados dos 50% maiores. Caso I: Dados não agrupados Exemplo 6: CASO ÍMPAR: sejam os resultados de 5 lançamentos de um dado: 2, 4, 4, 5, 6. A mediana corresponde ao valor 4, visto que ele é o valor central, deixando 2 dados à sua esquerda e 2 à sua direita. Assim, Md = 4. Note que n=5 (ímpar). A posição ocupada pela mediana é a 3ª. Essa posição poderia ser obtida da seguinte forma: n 5 + 0,5 = + 0,5 = 3 ª posição que corresponde ao valor Md=4. 2 2 Exemplo 7: CASO ÍMPAR: sejam as idades de 9 pessoas: 37, 28, 40, 41, 45, 37, 37, 41, 44. Colocando os dados em rol temos: 28, 37, 37, 37, 40, 41, 41, 44, 45. A mediana corresponde ao valor 40 (ou seja, idade), pois há quatro valores à esquerda de 40 e quatro valores à direita de 40. Assim, Md=40. Perceba que a posição ocupada pela mediana é a 5ª. Utilizando o mesmo raciocínio do exemplo anterior, podemos obter essa posição através do seguinte cálculo: n 9 + 0,5 = + 0,5 = 5 ª posição que corresponde ao valor Md=40. 2 2 Exemplo 8: CASO PAR: considere o número de filhos de 6 famílias: 0, 0, 1, 2, 3, 3. Perceba que a mediana não poderia ser 1, pois deixaria dois valores à esquerda e três à direita. Da mesma forma, a mediana não poderia ser 2, pois deixaria três valores à esquerda e dois valores à direita. Dessa forma, a mediana será a média aritmética dos dois valores centrais: Md = 1+ 2 = 1,5 (nunca arredondar!) 2 Observe que a mediana corresponde à média dos valores que ocupam a 3ª e 4ª posições. Essas posições podem ser obtidas da seguinte forma: n 6 n 6 = = 3 ª posição e + 1 = + 1 = 3 + 1 = 4 ª posição. 2 2 2 2 81 Novamente, vamos ressaltar: a 3ª posição é ocupada pelo valor 1; a 4ª posição é ocupada pelo valor 2. A mediana é, portanto, o valor 1,5. Exemplo 9: CASO PAR: sejam as idades de 8 pessoas: 21, 24, 28, 31, 34, 35, 38, 38 A mediana corresponde a média aritmética dos dois valores centrais, que são 31 e 34. Assim: Md = 31 + 34 = 32,5 anos. 2 Note que o valor 31 anos está na 4ª posição e o valor 34 anos ocupa a 5ª posição. Vamos obter essas posições utilizando a mesma fórmula do exemplo anterior: n 8 n 8 = = 4 ª posição e + 1 = + 1 = 4 + 1 = 5 ª posição 2 2 2 2 Logo, a mediana corresponderá a média dos valores que ocupam as posições calculadas. A mediana não precisa ser um dos valores da distribuição e nem deve ser arredondada! Caso II: Dados agrupados sem intervalos de classe Para determinarmos à mediana de uma distribuição de dados discreta, vamos trabalhar com as situações de n par ou n ímpar que citamos nos exemplos do caso I. Para facilitar a localização da posição da mediana, utilizaremos a freqüência acumulada. Exemplo 10: n ÍMPAR Considerando a distribuição: idades 12 14 15 16 17 total fi 3 5 6 2 5 21 Fi 3 8 14 16 21 --- Significado de Fi (posições) 1ª a 3ª 4ª a 8ª 9ª a 14ª 15ª a 16ª 17ª a 21ª --- Inicialmente, calculamos a posição ocupada pela mediana utilizando a regra de n ímpar: 21 + 0,5 = 10,5 + 0,5 = 11ª posição. 2 82 Na tabela, localizamos a linha que contém a 11ª posição, que no caso é a terceira linha. Verificamos o valor que está nessa linha, que no caso é a idade 15. Assim, Md = 15 anos. Exemplo 11: n PAR Considere a distribuição: idades 20 fi 2 Fi 2 Significado de Fi (posições) 1ª a 2ª 21 5 7 3ª a 7ª 22 7 14 8ª a 14ª total 14 --- --- Calculando a posição da mediana, utilizando a regra de n PAR: 14 = 7 ª posição e a seguinte, ou seja, 8ª posição. 2 Ou seja, os valores centrais da distribuição ocupam a 7ª e 8ª posições. Na tabela, vemos que a 7ª posição é ocupada pelo valor (idade) 21 anos, enquanto que a 8ª posição é ocupada pelo valor 22 anos. A mediana da distribuição será: Md = 21 + 22 = 21,5 anos. 2 Mais uma vez, perceba que a mediana é um valor. As posições são calculadas apenas para que cheguemos a esse valor, que no caso é Md=21,5. Caso III: Dados agrupados com intervalos de classe Quando estamos trabalhando com variáveis contínuas, ou seja, quando os dados estão agrupados em classes, determinamos a classe na qual se encontra a mediana, que chamaremos de classe mediana. Neste caso, não nos preocuparemos se estamos trabalhando com uma quantidade de dados par ou ímpar, visto que apenas precisamos determinar a classe que contém a mediana. Em seguida, calculamos o valor da mediana através da fórmula: Md = L Md n − Fant + 2 fMd .h em que: LMd é o limite inferior da classe mediana; Fant é a freqüência acumulada da classe anterior à classe mediana; h é a amplitude do intervalo da classe mediana; fMd é a freqüência simples (ou absoluta) da classe mediana. 83 Exemplo 12: considere a distribuição: classe mediana classe 180 |― 200 200 |― 220 220 |― 240 240 |― 260 260 |― 280 fi 4 18 10 5 3 Fi 4 22 32 37 40 total 40 --- Significado de Fi (posições) 1ª a 4ª 5ª a 22ª 23ª a 32ª 33ª a 37ª 38ª a 40ª Vamos verificar qual a classe que contém a mediana. Para isto, vamos calcular a posição ocupada pela mediana: 40 = 20ª posição. 2 Note que essa posição corresponde à classe 200 |― 220. Esta é a classe mediana. Utilizando a fórmula apresentada: Li = 200 Fant = 4 h= 220 – 200 = 20 fMd = 18 40 −4 .20 = 200 + 17,78 ⇒ Md = 217,78 Md = 200 + 2 18 Exemplo 13: considerando a distribuição: classe mediana Alturas (cm) fi Fi 150 |― 154 154 |― 158 4 9 4 13 Significado de Fi (posições) 1ª a 4ª 5ª a 13ª 158 |― 162 162 |― 166 11 8 24 32 14ª a 24ª 25ª a 32ª 166 |― 170 170 |― 174 5 4 37 41 33ª a 37ª 38ª a 41ª total 41 --- --- Cálculo da classe mediana: 41 = 20,5 ª posição. Vamos arredondar para a 21ª posição. Na tabela, identificamos que essa 2 posição se encontra na classe 158 |― 162. Usando a fórmula: 84 Li = 158 Fant = 13 h = 162 – 158 = 4 fMd = 11 40 − 13 .4 = 158 + 2,54 ⇒ Md = 160,54 cm Md = 158 + 2 11 4. Exemplos Vamos obter a média, a moda e a mediana para os casos a seguir. Exemplo 14: considere as notas obtidas por 25 alunos, numa avaliação de Estatística, distribuídas na tabela abaixo. Determine a média, a mediana e a moda. Média: µ = x = ∑ f .x i n i = Nota fi Fi 4 5,5 6 8,5 9 10 1 5 3 8 5 3 1 6 9 17 22 25 Total 25 --- 1.4 + 5.5,5 + 3.6 + 8.8,5 + 5.9 + 3.10 192,5 = = 7,7 . 25 25 Moda: é o valor com maior freqüência. Na tabela, vemos que a maior freqüência é 8 e corresponde à nota 8,5. Logo, Mo = 8,5. Mediana: inicialmente, calculamos a posição da mediana usando a regra do n ÍMPAR: 25 + 0,5 = 12,5 + 0,5 = 13 ª posição. Utilizando a coluna da freqüência acumulada, percebemos 2 que o valor que ocupa a 13ª posição é a nota 8,5. Assim, Md = 8,5. Resumindo: a nota média obtida na prova feita pelos 25 alunos é 7,7, sendo que a nota 8,5 ocorreu com a maior freqüência (moda) e 8,5 é a nota que separa as 50% menores notas obtidas das 50% maiores (mediana). 85 Exemplo 15: a tabela abaixo indica o aluguel de um grupo de casas. Classe Aluguel (R$) 0 | 200 200 | 400 400 | 600 600 | 800 800 | 1.000 total 1 2 3 4 5 Nº de casas 30 52 28 7 3 120 Fi 30 82 110 117 120 --- xi (ponto médio) 100 300 500 700 900 --- classe modal e classe mediana Média: para o cálculo da média, construímos, na tabela, a coluna do ponto médio, que corresponderá ao nosso xi. Aplicando a fórmula: µ=x= 30.100 + 52.300 + 28.500 + 7.700 + 3.900 40200 = = 335 reais. 120 120 Moda: observando as freqüências absolutas, percebemos que a segunda classe é aquela que possui a maior freqüência, ou seja, a classe modal é 200 | 400. Calculamos as diferenças: D1 = fMo – fant = 52 – 30 = 22 D2 = fMo – fpost = 52 – 28 = 24 Aplicando a fórmula de Czuber: D1 22 22 .h = 200 + Mo = L Mo + ⋅ 200 = 200 + 95,7 = 295,7 reais. ⋅ 200 = 200 + D D 46 + 22 + 24 2 1 Mediana: inicialmente, calculamos a posição da mediana para, em seguida, determinar a classe mediana. 120 = 60 ª posição 2 Esta posição está na segunda classe, ou seja, na classe 200 | 400 (classe mediana). Logo: LMd = 200 Fant = 30 h= 400 – 200 = 200 fMd = 52 Aplicando a fórmula: Md = L Md n − Fant + 2 fMd 120 − 30 .h = 200 + 2 .200 = 200 + 115,4 = 315,4 reais 52 86 Resumindo: o aluguel médio das casas pesquisadas é R$ 335,00, sendo que o valor que mais ocorre é R$ 295,70 e o valor mediano encontrado foi R$ 315,40, ou seja, metade dos alugueis cobrados tem valor superior ao mediano e a outra metade possui valor inferior a R$ 315,40. 5. A média é representativa? A média é uma medida que representa bem o conjunto de dados? Consideremos os conjuntos de valores, por exemplo, de 5 provas feitas por um aluno A e um outro B: A: 5, 5, 5, 5, 5 B: 0, 0, 5, 10, 10 Note que a média das provas de ambos alunos é a mesma, ou seja, µA = µB = 5. Porém, é nítido que os alunos não tiveram o mesmo desempenho ao longo das provas. Enquanto A se manteve constante, B foi muito mal no começo mas muito bem no final. Assim, só a média não é capaz de traduzir o conjunto de dados. Dessa forma, com a utilização da moda e da mediana, passamos a ter uma visão melhor de como se comportam os dados em nosso conjunto (no caso que não temos acesso ao conjunto de dados brutos). Assim, vejamos uma tabela comparativa: Grupo A B Média 5 5 Moda 5 0 e 10 Mediana 5 5 Observando esses resultados, percebemos que o conjunto A possui uma variabilidade de notas maior que o do conjunto B, dando indícios que as notas em A foram mais homogêneas que as notas em B. Mesmo assim, para termos certeza disso, devemos calcular outras medidas estatísticas, chamadas de medidas de dispersão que estudaremos mais adiante. 6. Exercícios 1. Calcule a moda, a mediana e a média das seguintes séries: i. 46, 44, 49, 45, 44, 48, 50, 42, 47 ii. 1, 1, 3, 2, 3, 5, 4, 5, 3, 3, 2, 2, 1, 1 2. Calcule a mediana e a média do conjunto de dados apresentados pela seguinte distribuição de freqüências: xi 8 12 16 20 fi 7 16 20 5 87 3. Determine a média, a moda e a mediana em cada caso: a) Em uma casa de repouso, as pessoas internadas têm as seguintes idades: idade Nº de pessoas 67 3 68 4 71 3 72 2 73 4 74 4 75 5 77 3 78 2 80 3 84 4 85 3 total 40 b) Considere a tabela, que representa a distribuição das áreas cultivadas, em hectares, de uma determinada região. Dados: xi: área em hectares, fi: número de áreas cultivadas. xi [0; 2[ [2; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 12[ [12; 14[ fi 30 35 60 35 15 8 2 4. A tabela abaixo indica os Custos, de uma determinada empresa, com encargos salariais: Custos [450; 550[ [550; 650[ [650; 750[ [750; 850[ [850; 950[ [950; 1.050[ [1.050; 1.150] fi 8 10 11 16 13 5 1 Determine: a) a classe modal; b) a moda da distribuição; c) a classe mediana; d) a mediana da distribuição; e) construa o histograma e o polígono de freqüências da distribuição. f) a média salarial. 88 5. A tabela seguinte fornece o número de erros gráficos por página de certo livro. número de erros número de páginas 0 84 1 25 2 8 3 2 4 1 Calcular: a) o número médio de erros por página b) o número mediano c) qual é a moda da distribuição? 6. Numa pesquisa entre 250 famílias de certa cidade constataram-se os seguintes dados: nº de filhos nº de famílias 0 45 1 52 2 48 3 55 4 30 5 10 6 8 7 2 Para a distribuição do número de filhos, calcular a média, a mediana e a moda. 7. Se os dados do problema anterior estivessem computados como segue: nº de filhos 0 1 2 3 4 nº de famílias 45 52 48 55 30 mais do que 4 20 qual das três medidas nós teríamos dificuldades para calcular? 8. Os dados seguintes referem-se ao tempo de vida (durabilidade) de 150 lâmpadas elétricas de certa fabricação, em centenas de horas. Duração 0 | 4 4 | 8 8 | 12 12 | 16 16 | 20 20 | 24 24 | 28 28 | 32 nº de lâmpadas 4 12 40 41 27 13 9 4 a) Qual é a moda? b) Calcular a vida média das lâmpadas. c) Qual é a mediana? 9. A média dos salários dos funcionários de uma determinada empresa é 5 salários mínimos (5 SM), enquanto que a mediana é 4 SM. Sorteando-se ao acaso um dos funcionários, o que é mais provável: que ele ganhe mais ou que ele ganhe menos do que a média dos salários? 10. Uma prova foi aplicada a três classes, de 40, 48 e 46 alunos, e as médias de cada classe foram 6,0, 6,6 e 5,8, respectivamente. Qual é a média para os 134 alunos que fizeram a prova? 11. Quando a medida de posição deve ser o valor mais típico da distribuição utilizamos: a) a média b) a mediana c) a moda d) a moda ou a média 89 12. Quando desejamos o ponto médio exato de uma distribuição de freqüência, basta calcular: a) a média b) a moda c) a mediana d) as três 13. Considere uma série estatística com 2351 elementos. A posição da mediana é representada pelo: a) 1175º elemento b) 1176º elemento c) ponto médio entre o 1175º e o 1176º elemento d) 1174º elemento 14. Um professor, após verificar que toda a classe obteve nota baixa, eliminou as questões que não foram respondidas pelos alunos. Com isso, as notas de todos os alunos foram aumentadas de 3 pontos. Então: a) a média aritmética ficou alterada, assim como a mediana. b) apenas a média aritmética ficou alterada. c) apenas a mediana ficou alterada. d) não houve alteração nem na média nem na mediana. e) nada podemos afirmar sem conhecer o número total de alunos. 15. Calcule o número médio, mediano e modal de acidentes por dia em uma determinada esquina. Números de acidentes Números de por dia (xi) dias (fi) 0 30 1 5 2 3 3 1 4 1 Total 40 16. O gráfico abaixo mostra a distribuição de freqüências das notas obtidas pelos alunos, da 2ª série do ensino médio, numa prova de Geografia. Determine: i. a mediana dessa distribuição; ii. a moda dessa distribuição iii. a média das notas. 90 17. As notas de um candidato em seis provas de um concurso foram: 8,4 ; 9,1 ; 7,2 ; 6,8 ; 8,7 ; 7,2 Determine: a) a nota média; b) a nota mediana; c) a nota modal. 18. Os salários-hora de cinco funcionários de uma companhia são: R$ 75 ; R$ 90 ; R$ 83 ; R$ 142 ; R$ 88 a) qual o salário médio? b) qual o salário mediano? 19. Considere as notas obtidas pelos alunos de uma classe em uma determinada prova: Notas Nº de alunos 2 1 3 3 4 6 5 10 6 13 7 8 8 5 9 3 10 1 Calcule: a) a nota média; b) a nota mediana; c) a nota modal. 20. A partir de uma amostra de 70 pessoas obteve-se a tabela a seguir com as estaturas dos entrevistados: Estaturas frequência (cm) 150├ 158 5 158├ 166 12 166├ 174 18 174├ 182 27 182├ 190 8 Determine, para essa distribuição: a) a média; b) a mediana; c) a moda; 91 21. Os pesos de 40 pessoas que estavam fazendo um tratamento de emagrecimento numa determinada clínica de São Paulo foram agrupados na tabela a seguir: Pesos fi (kg) 145 ├ 151 10 151 ├ 157 9 157 ├ 163 8 163 ├ 169 6 169 ├ 175 3 175 ├ 181 3 181 ├ 187 1 Determine, para essa distribuição: a) a média; b) a mediana; c) a moda; 22. Considerando a distribuição abaixo, determine: xi fi 3 4 4 8 5 11 6 10 7 8 8 3 a) a média; b) a mediana; c) a moda. 23. O histograma abaixo apresenta a distribuição de freqüência das faixas salariais numa pequena empresa. Com os dados disponíveis, calcule a média, a moda e a mediana desses salários. 92 24. Obtenha a mediana nos casos a seguir: a) 12, 15, 10, 13, 11, 19 b) 7, 7, 5, 4, 3, 5, 5, 2, 3 c) idade Frequencia 10 5 11 7 12 6 13 8 total 26 d) idade 12 13 14 15 total Frequencia 7 9 6 11 33 e) Salários (R$) 500 |-- 1000 1000 |-- 1500 1500 |-- 2000 2000 |-- 2500 total Frequencia 17 12 11 5 45 Respostas 1) a) x =46,1 Mo = 44 Md = 46 x =2,6 Mo = 3 Md = 2,5 2) x =13,9 Mo = 16 Md = 16 3)a) x =75,3 Mo = 75 Md = 74,5 b) b) x =5,02 Mo=5 Md = 4,92 4) a) [750; 850[ b) 812,5 c) [750; 850[ d) 768,8 93 e) Histograma 18 16 14 frequência 12 10 8 6 4 2 0 500 600 700 800 900 1000 1100 custos f) 754,7 5) a) 0,425 b) 0 c) 0 6) x =2,18 Mo = 3 Md = 2 7) média 8) a) 12,27 b) 14,53 c) 13,85 9) menos 10) 6,15 11) c 12) c 13) b 14) a 15) média = 0,45 ; moda = 0; mediana = 0 16) a) 6,6 b) 7 c) 7 17) a) 7,9 b) 7,8 c) 7,2 18) a) R$ 95,6 b) R$ 88 19) a) 5,9 b) 6 c) 6 20) a) 172,4 b) 174 c) 176,6 21) a) 159,4 b) 157,8 c) 150,5 22) a) 5,4 b) 5 c) 5 23) x =708,33 Mo = 291,67 Md = 428,57 24) a) R$ 12,5 b) R$ 5 c) R$ 12 d) R$ 14 e) R$ 1229,17 94 6. Separatrizes 1. Conceitos Um exemplo de separatrizes que vimos anteriormente é a mediana. Ou seja, separatrizes são números reais que dividem a seqüência ordenada de dados (rol) em partes que contêm determinada quantidade de elementos da série. Desta forma, a mediana que divide a seqüência ordenada em dois grupos, cada um deles contendo 50% dos valores da seqüência. Além da mediana, as outras medidas separatrizes que veremos são: quartis, decis e percentis. 2. Quartis Os quartis dividem uma distribuição de freqüência em quatro partes iguais. mín Q1 Q2 Q3 25% 50% 75% máx Para determinarmos a classe que contém o quartil, devemos calcular a posição do elemento correspondente ao quartil desejado. Essa posição é dada por: o n para o Q1 e 4 o 3n para Q3. 4 A fórmula para o cálculo dos i-ésimo quartil (i=1,2,3) é: i .n − Fant Qi = L Q + 4 fQ .h onde: LQ = limite inferior da classe que contém o quartil i = número do quartil a ser calculado (1,2 ou 3) n = tamanho da amostra Fant = frequência acumulada anterior à classe que contém o quartil fQ = frequência simples (ou absoluta) da classe que contém o quartil h = amplitude da classe que contém o quartil 95 3. Decis Os decis dividem uma distribuição de freqüência em dez partes iguais. D1(10%), D2(20%), D(30%), . . . ,D9(90%) Para determinarmos a classe que contém o i-ésimo decil, devemos calcular a posição do elemento correspondente ao decil desejado. Essa posição é dada por: i.n 10 o A fórmula para o cálculo dos i-ésimo decil (i=1,2,...,9) é: i .n − Fant D i = L D + 10 fD .h onde: LD = limite inferior da classe que contém o decil i = número do decil a ser calculado (1,2,...,9) n = tamanho da amostra Fant = frequência acumulada anterior à classe que contém o decil fD = frequência simples (ou absoluta) da classe que contém o decil h = amplitude da classe que contém o decil 4. Percentis Os percentis dividem uma distribuição de freqüência em cem partes iguais. P1(1%), P2(2%), P3(3%), . . . , P99(99%) Para determinarmos a classe que contém o i-ésimo percentil, devemos calcular a posição do elemento correspondente ao percentil desejado. Essa posição é dada por: i.n 100 o A fórmula para o cálculo dos i-ésimo percentil (i=1,2,...,99) é: i .n − Fant 100 Pi = L P + fP .h onde: 96 LP = limite inferior da classe que contém o percentil i = número do percentil a ser calculado (1,2,..., 99) n = tamanho da amostra Fant = frequência acumulada anterior à classe que contém o percentil fP = frequência simples (ou absoluta) da classe que contém o percentil h = amplitude da classe que contém o percentil Importante: se observarmos que os quartis, decis e percentis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo dos percentis. Todas as outras medidas podem ser identificadas como percentis. A fórmula utilizada é a mesma usada para o cálculo da mediana. Desta forma: D1 = P10 D6 = P60 Q1 = P25 D2 = P20 D7 = P70 Q2 = P50 = Md D3 = P30 D8 = P80 Q3 = P75 D4 = P40 D9 = P90 D5 = P50 = Md 5. Exemplo Considere uma tabela de custos: Custos Freqüência fi R$ 450 |─ 550 8 550 |─ 650 10 650 |─ 750 11 750 |─ 850 16 850 |─ 950 13 950 |─ 1050 5 1050 |─ 1150 1 Total 64 Fi posições 8 18 29 45 58 63 64 -- 1ª a 8ª 9ª a 19ª 20ª a 29ª 30ª a 45ª 46ª a 58ª 59ª a 63ª 64ª -- Calcule: a) Q1 A posição ocupada pelo primeiro quartil é 64 = 16 ª posição, que corresponde a classe 4 550 |─ 650. Aplicando a fórmula: 1 .64 − 8 .100 = 630 reais. Q 1 = 550 + 4 10 97 b) Q3 A posição ocupada pelo terceiro quartil é 3.64 = 48 ª posição, que corresponde a classe 4 850 |─ 950. Aplicando a fórmula: 3 .64 − 45 .100 = 873,08 reais. Q 3 = 850 + 4 13 c) D9 9.64 = 57,6 ~ 58ª posição, que corresponde a 10 classe 850 |─ 950. Aplicando a fórmula: A posição ocupada pelo nono decil é 9 .64 − 45 .100 = 946,92 reais. D 9 = 850 + 10 13 d) P38 A posição ocupada pelo 38º percentil é 38.64 = 24,32 ~ 24ª posição, que corresponde a 100 classe 650 |─ 750. Aplicando a fórmula: P38 38 .64 − 18 .100 = 707,45 reais. = 650 + 100 11 e) P25 Lembre-se que o 25º percentil corresponde ao primeiro quartil, que calculamos anteriormente. Assim: P25 = Q1 = 630 reais. 6. Exercícios 1) Em uma série ordenada, qual é o percentual de elementos que ficam à esquerda de cada uma das medidas separatrizes: a) D1 b) Q1 98 c) D2 d) Q3 e) Q2 f) D8 g) P70 2) Em uma série ordenada, qual é o percentual de elementos que ficam à direita de cada uma das medidas separatrizes: a) D4 b) P80 c) Q3 d) P2 e) P20 f) D5 g) Q1 3) Qual é o percentual de elementos de uma série ordenada que se situam entre: a) Q1 e Q3 b) P10 e P90 c) D2 e D6 d) Q1 e D3 e) D3 e P45 f) Q2 e D8 g) D3 e Q3 4) Se uma série ordenada possui 180 elementos, dê o número aproximado de elementos que se situam: a) acima do P20 b) acima do Q3 c) entre o P10 e o P80 d) entre o Q3 e P80 e) abaixo do P90 f) entre o Q1 e Q3 g) entre o P90 e P92 5) A distribuição de freqüência abaixo representa a idade de 50 alunos de uma classe de primeiro ano de uma Faculdade: Idade (anos) 17 18 19 20 21 Total Nº de alunos 3 18 17 8 4 50 Calcule: a) Q1 b) D1 c) Q3 d) P95 99 6) A distribuição de freqüência abaixo representa o consumo por nota de 54 notas fiscais emitidas durante um dia em uma loja de departamentos. Classe 1 2 3 4 5 6 Valor da nota R$ 0 | 50 50 | 100 100 | 150 150 | 200 200 | 250 250 | 300 Total Nº de notas 10 28 12 2 1 1 54 Calcule: a) Q1 b) D3 c) Q3 d) D7 e) P98 f) O gerente desta loja de departamentos decidiu premiar a nível promocional com um brinde, 10% dos fregueses que mais consumirem. A partir de qual valor de consumo da nota fiscal os clientes seriam premiados? g) O mesmo gerente, decide enviar uma mala direta aos 22% consumidores que menos gastaram nessa loja. Devem receber a mala-direta os clientes que consumiram até qual valor? Respostas 1) a) 10% b) 25% c) 20% d) 75% e) 50% f) 80% g) 70% 2) a) 60% b) 20% c) 25% d) 98% e) 80% f) 50% g) 75% 3) a) 50% b) 80% c) 40% d) 5% e) 15% f) 30% g) 45% 4) a) 144 b) 45 c) 126 d) 9 e) 162 f) 90 g) 3,6 ~ 4 5) a) 18 b) 18 c) 19 d) 21 6) a) 56,25 b) 61,07 c) 110,42 d) 99,64 e) 246,00 f) D90 = 144,17 g) P22 = 53,36 100 7. Gráfico Box–Plot 1. Amplitude Interquartílica A amplitude interquartílica também pode ser chamada de intervalo interquartílico ou amplitude interquartil. É definida como sendo a diferença entre o terceiro e o primeiro quartil, ou seja: IQ = Q3 – Q1 . Interpretação: o IQ representa a variação correspondente aos 50% dos valores centrais da distribuição. O IQ é uma medida de variação que fornece uma idéia de quanto 50% dos dados varia. Também pode ser usado para identificar valores discrepantes. Qualquer valor de dado que seja maior que 1,5 IQs à esquerda de Q1 ou à direita de Q3 é um valor discrepante. 2. Box–plot É um tipo de gráfico que também é conhecido como caixa–e–bigodes. Uma aplicação importante dos quartis é representar conjuntos de dados usando o gráfico box–plot ou caixa-e-bigodes. Um gráfico box–plot é uma ferramenta de análise de dados exploratória que enfatiza as características mais importantes de um conjunto de dados. Para representar graficamente um gráfico caixa-e-bigodes, você deve saber os valores a seguir. 1. 2. 3. 4. 5. A entrada mínima. O primeiro quartil Q1. A mediana Q2 ou Md. O terceiro quartil Q3. A entrada máxima. Esses cinco números são chamados de Regra dos cinco itens de um conjunto de dados. Desenhando um gráfico box–plot: 1. Encontre a regra dos cinco itens do conjunto de dados. 2. Construa uma escala horizontal que transpasse a amplitude dos dados. 3. Represente os cinco números sobre a escala horizontal. 4. Desenhe uma caixa acima da escala horizontal a partir de Q1 para Q3 e desenhe uma linha vertical na caixa em Q2 (= mediana). 5. Desenhe os bigodes a partir da caixa para as entradas mínimas e máximas. O gráfico fica com o seguinte aspecto: 101 3. Detectando assimetrias através do box-plot A figura, a seguir, demonstra a relação entre o box-plot e o polígono para quatro diferentes tipos de distribuição. (Observação: A área abaixo de cada polígono está dividida em quartis, correspondendo ao resumo de cinco números para o box-plot.) Os painéis A e D da figura são simétricos. Nessas distribuições, a média aritmética e a mediana são iguais. Além disso, o comprimento do bigode esquerdo é igual ao comprimento do bigode direito, e a linha mediana divide a caixa pela metade. O Painel B é assimétrico à esquerda. Os poucos valores baixos distorcem a média aritmética em direção à cauda esquerda. Para essa distribuição assimétrica à esquerda, a assimetria indica que existe uma forte concentração de valores no ponto mais alto da escala (ou seja, o lado direito); 75% de todos os valores se encontram entre a extremidade direita da caixa (Q1) e o final do bigode direito. Por conseguinte, o longo bigode à esquerda contém somente os 25% valores mais baixos, demonstrando a distorção da simetria nesse conjunto de dados. O Painel C é assimétrico à direita. A concentração de valores está na extremidade inferior da escala (ou seja, no lado esquerdo do box-plot). Nesse caso, 75% de todos os valores de dados são encontrados entre o início do bigode esquerdo (Xmenor) e a extremidade direita da caixa, Q3, enquanto os 25% de observações restantes estão dispersos ao longo do extenso bigode à direita, na extremidade superior da escala. 102 4. Exemplos Exemplo 1: as notas dos testes de 15 funcionários matriculados em um curso de treinamento de CPR são listadas a seguir: 13 9 18 15 14 21 7 10 11 20 5 18 37 16 17 a) Encontre o primeiro, o segundo e o terceiro quartis das notas dos testes. b) Calcule o intervalo interquartílico e verifique se há valores discrepantes. c) Construa o box-plot e interprete. Resolução a) Primeiro, ordene o conjunto de dados e encontre a mediana Md=Q2. Depois de encontrar Q2, divida o conjunto de dados em duas metades. O primeiro e o terceiro quartil são as medianas das metades inferior e superior do conjunto de dados. 103 b) IQ = 18 – 10 = 8. Então, 1,5 IQS à direita de Q3 é Q3 + 1,5 . 8 = 18 + 12 = 30. Como 37 > 30, então 37 é um valor discrepante. c) O box–plot é: Você pode tirar diversas conclusões com o gráfico. Uma delas é que aproximadamente metade das notas está entre 10 e 18. Olhando para o comprimento do bigode direito, podemos concluir também que a nota 37 é um possível valor discrepante (o que foi, de fato, constatado no item anterior). Exemplo 2: suponha que um produtor de laranjas costuma guardar as frutas em caixas e está interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20 caixas foram contadas. Os resultados foram: 48, 35, 37, 52, 43, 29, 61, 33, 44, 55, 69, 43, 22, 35, 38, 57, 53, 67, 62 e 48. Construa um box–plot para esse conjunto de dados. Para os dados apresentados, temos que Md = 46, Q1 = 36,5 e Q3 = 55,5. Também temos que o número mínimo de laranjas em uma caixa é 22 e o número máximo, 69. O boxplot correspondente é apresentado na figura seguinte: 104 Exemplo 3: a representação gráfica através do box-plot é bastante rica no sentido de informar, entre outras coisas, a variabilidade e simetria dos dados. Note que na figura anterior, os dados apresentam simetria acentuada (a distância da mediana para os quartis é a mesma), o mesmo podendo ser observado a respeito da distância dos pontos de mínimo e máximo em relação à mediana. Em contraste, temos na figura seguinte o box-plot para a variável peso, que apresenta uma pequena assimetria: Gráficos tipo box-plot também são úteis para detectar, descritivamente, diferenças nos comportamentos de grupos de variáveis. Por exemplo, podemos considerar gráficos da variável peso para cada sexo. O resultado é apresentado na figura seguinte, em que podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variabilidade. 105 5. Exercícios 1) A partir dos box–plots a seguir, identifique: o valor mínimo, o valor máximo, o primeiro quartil, a mediana, o terceiro quartil e o intervalo interquartílico. a) b) c) 2) Verifique se a distribuição apresentada é simétrica, assimétrica à esquerda, assimétrica à direita ou nenhuma das alternativas. a) 106 b) c) d) 3) Um grupo de estudantes do Ensino Médio foi submetido a um teste de matemática resultando em: nota frequência 0 |– 2 14 2 |– 4 28 4 |– 6 27 6 |– 8 11 8 |– 10 4 Obtenha um box–plot para esses dados. 4) Um estudo pretende verificar se o problema da desnutrição em adultos medida pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior do que em uma região industria (denotada por Região B). Para tanto, uma amostra foi tomada em cada região, fornecendo as tabelas de freqüências a seguir: 107 Região A Peso Freqüência < 40 8 40 |– 50 25 50 |– 60 28 60 |– 70 12 ≥ 70 9 total 82 Região B Peso Freqüência < 60 10 60 |– 70 34 70 |– 80 109 80 |– 90 111 ≥ 90 55 total 319 Construa os box–plots para cada região, em um mesmo par de eixos, e discuta se há evidências de que o grau de desnutrição seja diferente nas duas regiões. Respostas 1) a) Mín=10 Máx=20 Q1=13 Md = 15 Q3=17 IQ=4 b) Mín=900 Máx=2100 Q1=1250 Md = 1500 Q3=1950 IQ=700 c) Mín=–1,9 Máx=2,1 Q1=–0,5 Md = 0,1 Q3=0,7 IQ=1,2 2) a) nenhum b) assimétrica à direita c) assimétrica à esquerda d) simétrica 3) Mín=0 Máx=10 Q1=2,48 Md = 4,00 Q3=5,56 4) Região A: Mín=20 Máx=90 Q1=11,63 Md = 43,40 Q3=56,79 Região B: Mín=400 Máx=110 Q1=73,27 Md = 80,57 Q3=87,76 A Região B tem medidas superiores às da Região A. 108 8. Medidas de Dispersão 1. Introdução Conforme dissemos anteriormente, as medidas de tendência central não são suficientes para caracterizar totalmente uma seqüência numérica.Se observarmos as seqüências: X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10. Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13. Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13. concluiremos que todas possuem a mesma média 13. No entanto, são seqüências completamente distintas do ponto de vista da variabilidade de dados. Na seqüência Z não há variabilidade de dados, visto que todos os valores coincidem com a média. Na seqüência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13, ou seja, há baixa variabilidade. Na seqüência X existem muitos elementos bastante diferenciados da média 13, indicando uma alta variabilidade ao redor da média. Para avaliar o grau de variabilidade dos dados em torno da média, medidas de dispersão: desvio médio, variância e desvio padrão. usaremos as 2. Desvio Médio O conceito estatístico de desvio corresponde ao conceito matemático de distância. A dispersão dos dados em relação à média de uma seqüência pode ser avaliada através dos desvios de cada elemento da seqüência em relação à média da seqüência. O desvio médio é definido como sendo uma média aritmética dos desvios de cada elemento da série para a média da série, ou seja, DM = ∑f .x i i −x n Exemplo 1: Considere as notas 2, 8, 5, 6 obtidas por 4 alunos, numa avaliação de Biologia. Determine o desvio médio. Inicialmente, calcularemos a média: 2+8+5+6 = 5,25 4 Agora, calculamos o desvio médio, lembrando que fi = 1, visto que cada um dos quatro valores apareceu uma única vez. x= 109 DM = ∑f .x −x = n | 2 − 5,25 | + | 8 − 5,25 | + | 5 − 5,25 | + | 6 − 5,25 | | −3,25 | + | 2,75 | + | −,025 | + | 0,75 | = = = 4 4 3,25 + 2,75 + 0,25 + 0,75 7 = = = 1,75 4 4 i i Interpretação: Em média, cada elemento da seqüência está afastado do valor 5,25 por 1,75 unidades. 3. Variância (s2 ou σ2) e Desvio padrão (s ou σ) Pelo exemplo anterior, observamos que a dificuldade em se operar o DM se deve à presença do módulo, para que as diferenças xi – x possam se interpretadas como distâncias. Outra forma de se conseguir que as diferenças xi – x se tornem sempre positivas ou nulas é considerar o quadrado destas diferenças, isto é, (xi – x )2. Se substituirmos, na fórmula do DM a expressão x i − x por (xi – x )2, obteremos nova medida de dispersão chamada variância. A variância populacional é representada por σ2 (sigma ao quadrado), enquanto que a variância amostral é representada por s2. O símbolo σ é a letra grega minúscula sigma. A fórmula geral da variância populacional e da variância amostral são, respectivamente: σ 2 ∑ f (x = i. − µ) 2 i e n s 2 ∑ f .(x = i − x) 2 i n −1 O desvio padrão é a raiz quadrada da variância, ou seja σ = σ2 ou s = s 2 . De modo mais simples, podemos generalizar: DP = Var . Quando estamos trabalhando com uma amostra, sem conhecermos o verdadeiro valor da média ou do desvio padrão, admitimos que a média da amostra ( x ) esteja próxima do valor da média populacional, e que a variância da amostra (variância amostral) esteja próxima da variância populacional. A raiz quadrada da variância amostral é chamada desvio padrão amostral. 110 4. Desvio-padrão × Variância É natural a pergunta: qual das duas medidas é melhor? Na verdade, não há uma melhor que a outra, visto que são idênticas (basta extrair a raiz de uma ou elevar a outra ao quadrado). Porém, o desvio-padrão é muito melhor no sentido de facilitar a interpretação. Por exemplo, se calcularmos a variância de uma variável X que representa a idade em um conjunto de dados obtendo Var(X) = 25 anos2, teríamos dificuldades de interpretar o resultado. Afinal, qual o significado de anos2 ? Porém, o desvio-padrão nos daria DP(X) = 5 anos, que possui uma interpretação concreta. Isso ocorre porque no cálculo da variância, quando elevamos ao quadrado a diferença (xi– x ) ou (xi– µ ), a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Exatamente para suprir esta deficiência da variância é que se utiliza o desvio padrão. Como o desvio padrão é a raiz quadrada da variância, o desvio padrão terá sempre a mesma unidade de medida da série e, portanto admite interpretação. 5. Exemplos Exemplo 2: Considere as notas 2 – 8 – 5 – 6 obtidas por 4 alunos, numa avaliação de Biologia, distribuídas na tabela abaixo. Calcule o desvio padrão considerando-se uma população. Cálculo da média: µ = 2+8+5+6 = 5,25 . 4 Cálculo da variância populacional: (2 − 5,25) 2 + (8 − 5,25) 2 + (5 − 5,25) 2 + (6 − 5,25) 2 18,75 σ2 = = = 4,6875 . 4 4 O desvio padrão corresponde à raiz quadrada da variância: σ = 4,6875 = 2,17 . Assim, os dados estão, em média, afastados de 5,25 por 2,17 unidades. 111 Exemplo 3: Calcule o desvio padrão da série abaixo, considerando-se uma população. xi fi 2 3 3 5 4 8 5 4 Total 20 3 .2 + 5 .3 + 8 .4 + 4 .5 Cálculo da média: µ = = 3,65 . 20 Cálculo da variância populacional: 3.(2 − 3,65) 2 + 5.(3 − 3,65) 2 + 8.( 4 − 3,65) 2 + 4.(5 − 3,65) 2 18,55 2 σ = = = 0,9275 . 20 20 O desvio padrão corresponde à raiz quadrada da variância: σ = 0,9275 = 0,96 . Assim, os dados variam, em média, 0,96 unidades ao redor da média 3,65. Exemplo 4: Calcule o desvio padrão da série abaixo, representativa de uma amostra. Classe 1 2 3 4 Int. classe 0 | 4 4 | 8 8 | 12 12 | 16 Total Cálculo da média: µ = fi xi 1 3 5 1 10 2 6 10 14 -- Lembre-se que quando estamos trabalhando com classes, xi corresponde ao PONTO MÉDIO de cada classe. Assim, se a classe é a+b a | b, teremos x i = . 2 1.2 + 3.6 + 5.10 + 1.14 = 8,4 . 10 Cálculo da variância amostral: 1.(2 − 8,4) 2 + 3.(6 − 8,4) 2 + 5.(10 − 8,4) 2 + 1.(14 − 8,4) 2 92,8 s2 = = = 10,3111. 10 − 1 9 O desvio padrão amostral corresponde à raiz quadrada da variância amostral: s = 10,3111 = 3,2 . Assim, os dados variam, em média, 3,2 unidades ao redor da média 8,4. 112 4. Coeficiente de variação (CV) Vamos imaginar duas pessoas A e B. O indivíduo A possui R$ 10 na sua carteira e, desse valor, ele perde R$ 2. O indivíduo B possui R$ 100 e perde R$ 5. Podemos fazer duas perguntas: 1) Qual das pessoas perdeu mais dinheiro? 2) Qual das pessoas perdeu, proporcionalmente, mais dinheiro? Para a primeira questão, fica evidente que foi o indivíduo B, visto que R$ 5 é maior que R$ 2. Porém, quando analisamos relativamente, a resposta da questão 2 passa a ser o indivíduo A, pois, percentualmente, A perdeu 2/10 = 0,2 ou 20% do que possuía na carteira enquanto que B perdeu 5/100 = 0,05 ou 5% do que possuía. Esse conceito de relatividade é exatamente o que propõe o coeficiente de variação. Transformando o problema anterior em termos estatísticos, se uma série X apresenta x =10 e σx= 2 e uma série Y apresenta y = 100 e σy = 5, do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é em relação a 10. O coeficiente de variação é indicado por CV = σ µ ou CV = s x . Calculando, então, o coeficiente de variação das séries citadas tem: 2 = 0,2 ou 20% 10 5 CVy = = 0,05 ou 5% 100 CVx = Comparando os valores destes dois coeficientes concluímos que a série X admite maior dispersão relativa. Como a medida de dispersão relativa leva em consideração a medida de dispersão absoluta e a média da série, é uma medida mais completa que a medida de dispersão absoluta. 5. O uso do desvio padrão O desvio padrão é a mais importante das medidas de dispersão. Quando temos um conjunto de de dados cuja distribuição é Normal, o formato de seu histograma se assemelha a de um sino, é uma curva simétrica e, ainda, a média a moda e a mediana possuem exatamente o mesmo valor (ou são, no caso de uma amostra, muito próximos), conforme vemos na figura abaixo. 113 Sob a suposição de Normalidade, podemos afirmar que o intervalo [ µ - σ , µ + σ ] contém aproximadamente 68% dos valores da série. 68% -S x +S Zona de normalidade (2S) O intervalo [ µ - 2 σ, µ + 2 σ] contém aproximadamente 95% dos valores da série. O intervalo [ µ - 3 σ, µ + 3 σ] contém aproximadamente 99% dos valores da série. Esses percentuais 68%, 95% e 99% citados na interpretação serão comprovadas, com maior precisão, no estudo da distribuição normal de probabilidades. Quando a distribuição não é perfeitamente simétrica estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso. Se um conjunto tiver média µ = 100 e desvio padrão σ = 5, podemos interpretar estes valores da seguinte forma: a) Os valores da série estão concentrados em torno de 100. b) O intervalo [95, 105] contém aproximadamente, 68% dos valores da série. c) O intervalo [90, 110] contém aproximadamente, 95% dos valores da série. d) O intervalo [85, 115] contém aproximadamente, 99% dos valores da série. É importante perceber que, ao aumentar o tamanho do intervalo, aumenta-se o percentual de elementos contido no intervalo. Exemplo 5: foi observado que as contas de luz para uma área municipal, no mês de junho, são normalmente distribuídas. Se a média das contas for $ 42,00 e o desvio padrão populacional foi $ 12,00, entre que intervalo de valores estão 68% das contas? E 95% das contas? µ – σ = 42,00 – 12,00 = 30,00 µ + σ = 42,00 + 12,00 = 54,00 68% das contas estão entre os valores de $ 30,00 e $ 54,00 µ – 2 σ = 42,00 – 2 . 12,00 = 42,00 – 24,00 = 18,00 µ + 2 σ = 42,00 + 2 . 12,00 = 42,00 + 24,00 = 66,00 95% das contas estão entre os valores de $ 18,00 e $ 66,00 114 6. Exercícios 1) Calcule o desvio padrão da distribuição populacional: 2 | 6 | 10 | 14 | 18 | 22 5 12 21 15 7 Classes fi 2) Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio padrão, 0,80. Em Estatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão? 3) Medidas as estaturas de 1017 indivíduos, obtivemos x = 162,2 cm e s = 8,01 cm. O peso médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos apresentam maior variabilidade em estatura ou em peso? 4) Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? 5) Um grupo de cem estudantes tem uma estatura média de 163,8 cm, com um coeficiente de variação de 3,3%. Qual o desvio padrão desse grupo? 6) Uma distribuição apresenta as seguintes estatísticas: σ = 1,5 e CV = 2,9%. Determine a média da distribuição. 7) Numa fábrica de rolamentos, retirou-se da produção de um determinado dia uma amostra de 10 rolamentos, dos quais se mediu o diâmetro externo, em mm, obtendo-se: 20,2 21,7 21,4 20,4 20,8 22,0 19,6 20,5 22,1 19,3 Calcular a média e o desvio padrão desta amostra. 8) Calcular a média e o desvio padrão da seguinte distribuição amostral de uma variável X. faixas de observações 0 | 10 10 | 20 20 | 30 30 | 40 40 | 50 Total freqüência 25 48 66 44 17 200 115 9) Em 120 experimentos, onde cada um consiste em lançar 3 moedas e contar o número de caras, obtivemos os seguintes resultados: Nº de caras Nº de experimentos 0 18 1 40 2 49 3 13 Calcular a média, a variância e o desvio padrão do número de caras observado nos experimentos. 10) Uma amostra de 900 lâmpadas foi testada para se determinar a durabilidade. Os dados foram: Durabilidade em horas freqüência 150 1000 | 1400 300 1400 | 1800 450 1800 | 2200 Total 900 Na amostra testada a) qual é a porcentagem de lâmpadas que duraram menos de 1800 horas? b) qual é a durabilidade média? c) qual é o desvio padrão? 11) A tabela representa as estaturas de 35 crianças nascidas numa mesma maternidade numa certa semana. estatura (cm) 45 ├── 46 46 ├── 47 47 ├── 48 48 ├── 49 49 ├── 50 50 ├── 51 51 ├── 52 52 ├── 53 no de crianças 1 4 6 12 8 3 0 1 Determinar a média e o desvio-padrão das estaturas destas crianças ao nascerem. 12) Um restaurante cobra o almoço de cada cliente através do peso (por quilo) da quantidade de alimento consumida. Foi observado, durante um mês, que as quantidades de alimento consumidas são normalmente distribuídas. Se a média consumida for 550 g e o desvio padrão 200 g, calcular: a) a amplitude dos 95% centrais. b) a amplitude dos 99% centrais. 116 13) Os pratos produzidos por uma indústria têm diâmetro médio de 19 cm e desvio padrão de 0,2 cm. Dois pratos A e B cujos diâmetros medem respectivamente 19,8 cm e 18,3cm serão testados pelo Controle Estatístico de Qualidade, que admite uma tolerância de três desvios acima e três abaixo da média. Assinale a alternativa correta: a) O prato A será aprovado b) Ambos os pratos serão reprovados c) o prato A será reprovado e o prato B aprovado d) o prato B será reprovado. 14) O desvio padrão de um conjunto de dados é 16. A variância será: a)16 b) 64 c) 256 d) 4 15) A variância de um conjunto de dados é 16. O desvio padrão será: a) 4 b) 256 c) 36 d) 2 16) Calcule o desvio padrão das seguintes populações: a) X: 2, 3, 7, 9, 11, 13. b) Y: 5, 12, 4, 20, 13, 17. 17) Calcule o desvio padrão das seguintes amostras: a) Z: 15, 16, 17, 20, 21. b) T: 6, 5, 10, 12, 19. 18) Uma fábrica corta bambus para a confecção de cercas. Cada corte deve ter um comprimento médio de 180cm e apresenta um desvio-padrão de 1,5cm. Após cortados, os bambus passam por um controle de qualidade que rejeita cortes que estejam com 2 desvios-padrão acima ou abaixo da média especificada. Seis bambus, A, B, C D, E e F foram medidos pelo controle de qualidade e os valores obtidos são apresentados na tabela a seguir. Quais deles o controle deve aprovar e quais deve rejeitar? bambu comprimento A 178,5cm B 183,4cm C 176,2cm D 175,8cm E 182,7cm F 180,0 cm 117 19) Considere a tabela seguinte que mostra o número de unidades vendidas por dia de certo produto numa loja: Nº de unid. vendidas por dia Nº de dias 0 15 1 13 2 11 3 8 4 3 Total Determine: a) o desvio padrão amostral; b) o coeficiente de variação; c) o desvio médio. 20) Seja a amostra: idade Freqüência absoluta 10 ├ 20 10 20 ├ 30 7 30 ├ 40 3 Total 20 Determine: a) a média; b) a variância; c) o desvio-padrão; d) o coeficiente de variação; e) o desvio médio. 21) Dados: CV=7,3% e x =25, calcule o desvio padrão amostral. 22) Dados CV=12% e s=36, calcule a média amostral. 23) Uma máquina empacota café com média 500g e desvio padrão 12g. O controle de qualidade da empresa rejeita pacotes cujo peso ultrapasse 2 desvios padrão da média. Qual dos pacotes a seguir serão rejeitados pelo controle de qualidade? A = 515 g B = 490 g C = 470 g D = 525 g E = 477 g F = 500 g G = 532 g 24) Os tempos despendidos por 12 alunos, elementos de uma população, em segundos para percorrer certo trajeto foram 16, 17, 16, 20, 18, 16, 17, 19, 21, 22, 16 e 23. Sem agrupar os dados, calcule: a) a moda; b) a mediana; c) a média; 118 d) a variância; e) o desvio padrão; f) o coeficiente de variação. Respostas 1) σ =4,45 2) CV(Mat)=0,103 ; CV (Estat)=0,104. Logo a maior dispersão foi na Estatística. 3) CV (altura)=0,0493 ; CV(peso)=0,0442. Maior variabilidade na altura. 4) CV85 = 0,03717 CV125 = 0,03712 grupo de 125 pessoas é mais homogêneo 5) 5,4054 6) 51,72 7) x =20,8 ; s2 = 0,9556 ; s=0,9775 8) x =24 ; s2=129,6482 ; s=11,39 9) x =1,475 ; s2=0,7660 ; s=0,8752 10) a) 50% b) 1733,3 h c) 298,3 h 11) x =48,5 ; s=1,40 12) a) [150 ; 950] b) [0 ; 1150] 13) B 14) C 15) A 16) a) σ =3,99 b) σ =5,81 17) a) s=2,59 b) s=5,59 18) Aprovados: A, E, F ; Reprovados: B, C, D 19) a) s=1,25 b) 0,88 ou 88% c) 1,0704 20) a) 21,5 b) 55,5263 c) 7,45 d) 34,7% 21) 1,825 22) 300 23) Rejeitados: C, D, G. 24) a) 16 s b) 17,5 s c) 18,42 s d) 5,9097 s2 e) 2,43 s f) 0,1319 e) 6,5 119 9. Assimetria e Curtose 1. Simetria e Assimetria Uma distribuição de freqüência é simétrica quando a linha vertical pode ser desenhada do meio do gráfico da distribuição e as metades resultantes são aproximadamente imagens espelhadas. Uma distribuição de freqüência é uniforme (ou retangular) quando todas as entradas, ou classes, na distribuição têm freqüências iguais ou aproximadamente iguais. Uma distribuição uniforme também é simétrica. Uma distribuição de freqüências é assimétrica se a "cauda" do gráfico se alonga mais em um dos lados. Uma distribuição é assimétrica à esquerda (negativamente assimétrica) se a cauda se estende à esquerda, e assimétrica à direita (positivamente assimétrica) se a cauda se estende à direita. Quando a distribuição for simétrica e unimodal, a média, a mediana e a moda são iguais. Se a distribuição for assimétrica à esquerda, a média é menos que a mediana e a mediana é igualmente menor que a moda. Se a distribuição for assimétrica à direita, a média é maior que a mediana e igualmente maior que a moda. Exemplos dessas distribuições comuns são mostrados na figura a seguir. Resumidamente: Distribuição Moda, mediana e média Exemplo de distribuição Simétrica Normal, t–Student Mo =Md = x –––––– Assimétrica à esquerda Mo > Md > x Assimétrica à direita Qui–quadrado, F–Snedecor Mo < Md < x Fique atento que há muitas formas diferentes de distribuição. Em alguns casos, a forma pode não ser classificada como simétrica, uniforme ou assimétrica. Uma distribuição pode ter várias lacunas causadas por valores discrepantes ou por agrupamento nos dados. Os agrupamentos podem ocorrer quando diversos tipos de dados são incluídos em um conjunto de dados. 120 Note que a média sempre irá na direção em que a distribuição for assimétrica. Por exemplo, quando a distribuição é assimétrica à esquerda, a média está à esquerda da mediana. 2. Curva de Densidade A idéia básica da curva de densidade está nos histogramas. Imagine um histograma oriundo a partir de um determinado conjunto de dados. À medida em que formos construindo novos histogramas, a cada vez com um número maior de classes (ou seja, as classes vão ficando cada vez menores), passamos a perceber que os topos de cada coluna do histograma formam uma curva. Se conseguirmos um número suficientemente grande de classes (cada classe com amplitude cada vez menor) e, ainda, se esse histograma for construído utilizando uma população, teremos a curva da função densidade da distribuição. Essa é apenas uma idéia geral de como obtemos, na prática, uma função densidade, o que está esquematizado na figura seguinte. 121 Mediana e Média de uma Curva de Densidade A mediana de uma curva de densidade é o ponto de áreas iguais, ou seja, o ponto que divide ao meio a área sob a curva. A média de uma curva de densidade é o ponto de equilíbrio, no qual a curva se equilibraria se fosse feita de material sólido. A mediana e a média coincidem em uma curva simétrica de densidade. Situam-se ambas no centro da curva. A média de uma curva assimétrica é afastada da mediana na direção da cauda longa. A média de uma curva de densidade é o ponto em que ela se equilibraria. As formas das distribuições, quando observamos as curvas de densidade são: 122 Distribuição simétrica: Distribuição assimétrica à esquerda: Distribuição assimétrica à direita: 123 3. Coeficiente de Assimetria Além do método gráfico de análise, podemos trabalhar com o cálculo de um coeficiente de assimetria que nos dá informações de qual tipo de distribuição estamos tratando. Basicamente, há duas fórmulas mais utilizadas: Primeiro coeficiente de assimetria de Pearson AS = x − Mo σ onde: x é a média da distribuição; Mo é a moda da distribuição; σ é o desvio padrão da distribuição. Segundo coeficiente de assimetria de Pearson É uma alternativa à fórmula anterior que utiliza o valor da mediana. AS = ( 3 x − Md σ ) onde: x é a média da distribuição; Md é a mediana da distribuição; σ é o desvio padrão da distribuição. O primeiro coeficiente de Assimetria de Pearson tem o inconveniente de requerer a determinação prévia da moda. Assim, quando as distribuições não se apresentarem com forte assimetria, deve-se dar preferência ao Segundo Coeficiente de Assimetria de Pearson. Nos dois casos, quando: AS = 0 a distribuição é simétrica; AS > 0 a distribuição é assimétrica à direita; AS < 0 a distribuição é assimétrica à esquerda. É claro que, na prática, raramente encontraremos AS=0, e, sim, muito próximo de zero. Dessa forma, temos a seguinte classificação: – se |AS| < 0,15 então a distribuição é simétrica; – se 0,15 ≤ |AS| < 1,0 então a distribuição é assimétrica moderada; – se |AS| ≥ 1,0 então a distribuição é assimétrica forte. 124 4. Curtose Curtose é o grau de achatamento da distribuição quando comparada a uma distribuição simétrica bastante conhecida chamada Normal. Ou seja, a curtose mede o quanto uma curva de freqüência será achatada em relação a uma curva Normal de referência. O coeficiente de curtose (k) ou coeficiente percentílico de curtose é dado por: k= Q 3 − Q1 2.(P90 − P10 ) onde: Q3 e Q1 são o terceiro e primeiro quartis; P90 e P10 são o 90° e o 10° percentis. Quanto à curtose a distribuição pode ser: 1) Mesocúrtica (ou Normal): ela não é nem achatada, nem alongada. (k = 0,263). 2) Platicúrtica: mais achatada que a Normal. (k > 0,263). 3) Leptocúrtica: mais alongada que a Normal. (k < 0,263). 125 5. Exemplos Exemplo 1: (AFRF-2002.1 – adaptado) Em um ensaio para o estudo da distribuição de um atributo financeiro (X), foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüência abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. Classes frequência 70 – 90 10 90 – 110 20 110 – 130 50 130 – 150 60 150 – 170 30 170 – 190 20 190 – 210 10 Total 200 Entende-se por curtose de uma distribuição seu grau de achatamento em geral medido em relação à distribuição normal. Uma medida de curtose é dada pelo quociente k = Q / (P90 – P10), onde Q é a metade da distância interquartílica e P90 e P10 representam os percentis de 90% e 10%, respectivamente. Assinale a opção que dá o valor da curtose k para a distribuição de X. a) 0,263 b) 0,250 c) 0,300 d) 0,242 e) 0,000 Resolução Inicialmente, devemos calcular os quartis e percentis necessários para o cálculo da curtose. Verifique que: Q1 = 118,0 Q3 = 156,6 P10 = 100,0 P90 = 180,0 Logo, a curtose é: Q 3 − Q1 156,6 − 118,0 38,6 = = = 0,24125 . Logo, a resposta do teste é a 2.(P90 − P10 ) 2.(180,0 − 100,0) 160,0 alternativa D. k= 126 Exemplo 2: analisando as curvas abaixo marque a resposta correta. (I) (II) (III) a) a curva I é simétrica: x > med > mo ; b) a curva II é assimétrica positiva: mo > σ 2 > x ; c) a curva I é simétrica: x = med = mo ; d) a curva III é simétrica positiva: x = med = mo . Resolução A partir das figuras, vemos que: – a curva I é simétrica, ou seja, x = Md = Mo; – a curva II é assimétrica à esquerda ou assimétrica negativa, pois Mo > Md > x . – a curva III é assimétrica à direita ou assimétrica positiva, pois Mo < Md < x . Logo, a resposta é a alternativa C. Exemplo 3: para as distribuições abaixo foram calculados: Distrib. I Classes 02 |- 06 06 |- 10 10 |- 14 14 |- 18 18 |- 22 Fi 6 12 24 12 6 Distrib. II Classes 02 |- 06 06 |- 10 10 |- 14 14 |- 18 18 |- 22 Fi 6 12 24 30 6 Distrib. III Classes 02 |- 06 06 |- 10 10 |- 14 14 |- 18 18 |- 22 Fi 6 30 24 12 6 x = 12Kg x = 12,9Kg Med = 12Kg Mo = 12Kg Med = 13,5Kg Mo = 16Kg Med = 10,5Kg Mo = 8Kg S = 4,20Kg S = 4,20Kg S = 4,42Kg x = 11,1Kg Marque a alternativa correta: a) a distribuição I é assimétrica negativa; b) a distribuição II é assimétrica positiva; c) a distribuição III é assimétrica negativa moderada. d) a distribuição I é simétrica; 127 Resolução Vemos que, na distribuição I, temos que x = Md = Mo. Logo, ela é simétrica. Na distribuição II, Mo > Md > x , ou seja, é uma distribuição assimétrica à esquerda ou assimétrica negativa. Já na distribuição III, temos que Mo < Md < x , ou seja, é assimétrica à direita ou assimétrica positiva. Portanto, a resposta correta é a alternativa D. 6. Exercícios 1) Sabendo-se que uma distribuição apresenta as seguintes medidas: Q1 = 24,4 cm, Q3 = 41,2 cm, P10 =20,2 cm e P90 =49,4 cm, determine o coeficiente de curtose e classifique a curva com relação à forma. 2) Uma maternidade está analisando a idade das mulheres que tiveram o seu primeiro filho. Os dados obtidos são: 25 23 21 28 41 18 19 23 20 22 23. Considerando os dados como amostrais, calcule a média, a mediana, a moda e o desvio padrão desses dados. Classifique os dados em relação à assimetria. Média = 23,9 Mediana = 23 Moda = 23 , Desvio Padrão = 6 distribuição é assimétrica positiva moderada. 3) Considere os seguintes resultados relativos a três distribuições de freqüências e determine o tipo de assimetria de cada uma delas. Distribuições Média Moda A 52 52 B 45 50 C 48 46 4) Uma distribuição de freqüência apresenta as seguintes medidas: x =48,1, Md=47,5 e s=2,12. Calcule o coeficiente de assimetria. 5) Observou-se o número dos 100 sapatos vendidos em uma loja de calçados. Os resultados obtidos estão em forma de tabela, a seguir: N° de sapatos 25 | 28 28 | 31 31 | 34 34 | 37 37 | 40 40 | 43 43 | 46 fi 2 9 17 35 20 10 7 Calcule a média, a moda, a mediana, o desvio padrão e classifique a assimetria e a curtose desses dados. 128 6) Considere as seguintes medidas, relativas a três distribuições de freqüência: Q3 P10 P90 Distribuições Q1 A 814 935 772 1012 B 63,7 80,3 55,0 86,6 C 28,8 45,6 20,5 49,8 a) Calcule os respectivos graus de curtose. b) Classifique cada uma das distribuições em relação à curva normal. 7) Determine o grau de curtose e classifique a distribuição em relação à curva normal: Pesos (kg) 50 | 58 | 66 | 74 | 82 | 90 | 98 N° de 10 15 25 24 16 10 operários Respostas 1) k=0,287. Platicúrtica. 2) Média = 23,9 Mediana = 23 Moda = 23 , Desvio Padrão = 6 distribuição é assimétrica positiva moderada. 3) A = 52 – 52 = 0 , logo, distribuição simétrica B = 45 – 50 = - 5, logo, assimetria negativa C = 48 – 46 = 2, logo, assimetria positiva 4) AS=0,85 5) Média = 36,10; Mediana = 35,9; Moda = 35,5; Desvio Padrão = 4,2; AS = 0,143; Curtose = 0,23. A distribuição é simétrica e a curva é leptocúrtica. (Q1 = 33,5 Q3 = 38,8 P10 = 30,7 P90 = 42,1). 6) a) Distribuição A: k = 0,25 Distribuição B: k = 0,263 Distribuição C: k = 0,287. b) A: curva leptocúrtica; B: curva mesocúrtica; C: curva platicúrtica. 7) Q1 = 66; Q3 = 82,5; P10 = 58; P90 = 90; k = 0,258 a curva é leptocúrtica. 129 FORMULÁRIO - ESTATÍSTICA n k n −k Binomial: P( X = k ) = .p .(1 − p) k k = 1 + 3,3. log n Mediana: Md = L Md Moda: Mo = L mo amplitude total k h= + n − Fant + 2 fMd Média: x = Variância populacional: σ Desvio-padrão: σ = σ 2 D2 = fmo – fpost .h .h ∑ f .(x i e i .n − Fant Decil: D i = L D + 10 fD .h i .n − Fant Percentil: Pi = L P + 100 fP Variância amostral: s 2 = ∑ x i .fi n .h D1 ⋅h , onde D1 = fmo – fant D1 + D 2 mo i .n − Fant Quartil: Q i = L Q + 4 fQ − x) 2 i n −1 2 ∑ f .(x = i − x) 2 i n ou Coeficiente de variação: CV = Assimetria: AS = Geométrica: P(X=k) = p.(1–p)k–1 s = s2 Desvio-médio: DM = ∑f .x i i −x n σ s ou CV = x x ( x − Mo 3 x − Md ou AS = σ σ ) Curtose: k = Q 3 − Q1 2.(P90 − P10 ) 130