Mottola ESTATÍSTICA BÁSICA 1. Apresentação Estatística é a parte da Matemática que organiza e analisa dados coletados em uma amostra de um conjunto. Com base nos resultados, faz projeções para todo o conjunto com uma margem de erro estimada. Todas as áreas do conhecimento necessitam de algum tratamento estatístico. 2. Freqüências As freqüências mais importantes são: Freqüência Absoluta: Número de vezes que um elemento ocorre em uma amostra. Freqüência Absoluta Acumulada: Soma da freqüência absoluta de um elemento com as freqüências absolutas de todos os elementos anteriores. Freqüência Relativa: Quociente entre a freqüência absoluta de um elemento e o número de elementos da amostra. Pode ser expressa na forma percentual. Obs.: Se os elementos são intervalos, supõem-se que os valores estão uniformemente distribuídos, escolhendo-se o ponto médio do intervalo para representá-lo. EXEMPLOS: 1) As idades de dez alunos são: 16, 16, 17, 17, 17, 17, 18, 18, 19 e 20. Organizando em uma tabela, temos: Idades Freqüências Freqüências absolutas acumuladas 16 2 2 17 4 6 18 2 8 19 1 9 20 1 10 Freqüências relativas 2/10 = 0,2 = 20% 4/10 = 0,4 = 40% 2/10 = 0,2 = 20% 1/10 = 0,1 = 10% 1/10 = 0,1 = 10% 19 Mottola 2) Na figura, encontram-se as freqüências absolutas dos empregados que estão em determinadas faixas salariais: Faixas Salariais Freqüências em Reais absolutas [400 , 600] (600, 800] (800, 1000] 4 6 2 3. Médias Aritméticas As médias aritméticas são as mais utilizadas. Média aritmética simples é a soma de todos os n valores da amostra divida por n. A média aritmética simples dos elementos x1, x2, ... , xn é n M = (x1 + x2 + ... + xn) / n = ( xk )/ n k=1 Em certas situações há necessidade de que um elemento tenha um peso maior em uma média, como, por exemplo, no cálculo da média dos acertos das provas do Vestibular. Quando um elemento tem um peso p, significa que ele deve ser contado p vezes. Neste caso, temos a média aritmética ponderada. EXEMPLO: Em um concurso, as notas obtidas nas disciplinas e os pesos estão na tabela: Disciplinas Pesos Notas Português Matemática História 3 2 1 6 5 7 Soma 6 Neste caso, considera-se que são seis provas: 3 de português, com nota 6 cada, 2 de matemática, com nota 5 cada e uma de história com nota 7. Média ponderada: (6 + 6 + 6 + 5 + 5 + 7) / 6 = (3x6+ 2x5 + 1x7) / 6 = 5,83 Em geral, a média ponderada dos elementos x1, x2, ... ,xn, com respectivos pesos p1, p2, ... , pn, é 20 Mottola n pk .xk k=1 p1.x1 + p2.x2 + ... + pn.xn Mp = = n pk p1 + p2 + ... + pn k=1 Obs.: Quando dizemos simplesmente “média”, queremos dizer “média aritmética simples”. 4. Médias Geométrica e Harmônica A média geométrica, Mg, de n elementos x1, x2, ... ,xn é a raiz n-ésima do produto destes elementos. n Mg = x1 . x2 . ... . xn A média harmônica, Mh, é o inverso da média aritmética dos inversos dos elementos. 1 Mh = (1/x1 + 1/x2 + ... + 1/xn) /n EXEMPLO: Em três simulados um aluno obteve 21, 19 e 23 acertos. As médias são: Aritmética simples: M = (21+19+23)/3 = 21 3 Geométrica: Mg = 21x19x23 = 20,93 Harmônica: Mh = 1 = 20,87 (1/21 + 1/19 + 1/23)/3 Obs.: 1) Se os elementos são positivos, então Mh Mg M. 2) Quanto mais dispersos são os elementos, menor é a média harmônica. 21 Mottola 5. Moda e Mediana A média aritmética dá uma idéia do perfil do conjunto. Mas, em certos casos, esta idéia poderá ser enganosa. Vamos supor, por exemplo, que se queira preparar uma refeição para seis pessoas com uma média de idade de dez anos. Qual a refeição mais apropriada? Sabendo que as idades são 1, 2, 2, 2, 3 e 50, você manteria a decisão? Em casos como estes outras medidas são necessárias, tais como a moda e a mediana. Temos as definições: Moda: é o elemento com a maior freqüência absoluta. Mediana: colocando-se em ordem crescente os n elementos da amostra, sendo n ímpar, é o elemento que ocupa a posição central, ou seja, o que ocupa a posição (n+1)/2. Se n for par, é a média dos elementos centrais, ou seja, dos que ocupam as posições n/2 e a seguinte. EXEMPLOS: 1) As notas de dez alunos foram: 4, 4, 5, 5, 5, 6, 6, 7, 8 e 9. Média Aritmética: M = (4+4+5+5+5+6+6+7+8+9)/10 = 5,9 Moda: 5 Mediana: os elementos centrais das notas: 4, 4, 5, 5, 5 , 6 , 6, 7, 8, 9 são 5 e 6. Logo, a mediana é 5,5. 2) As massas de 15 alunos são apresentadas na tabela: Faixas em kg [50, 60) [60, 70) [70, 80) [80, 90] Freqüências 2 4 6 3 A tabela corresponde às massas: 55, 55, 65, 65, 65, 65, 75, 75 , 75, 75, 75, 75, 85, 85, 85. oitavo 22 Mottola Média: (2x55 + 4x65 + 6x75 + 3x85)/15 = 71,66 Moda: 75 Mediana: dos 15 elementos, o da posição central é o oitavo, obtido por (15+1)/2, que está no intervalo [70, 80). Logo, a mediana é 75. 6. Desvio Médio Além da média, moda e mediana, uma importante informação é o “grau de espalhamento” dos elementos. No exemplo apresentado, em que as idades das pessoas são 1, 2, 2, 2, 3 e 50, com média 10, moda 2 e mediana 2, a escolha do prato mais adequado ao grupo seria melhor feita se pudéssemos medir a dispersão das idades. Isto pode ser feito com o desvio médio, que informa quanto, em média, os elementos se distanciam do valor médio. Seja A={x1, x2, ... , xn} uma amostra com média M. O desvio de um elemento xk é a distância dele até a média, ou seja |xk – M|. A média de todos os desvios é o desvio médio Dm. Ou seja, n Dm = (|x1 – M| + |x2 – M| + ...+ |xn – M| ) / n = ( | xk – M| ) / n k=1 EXEMPLO: A figura mostra o número de alunos que acertaram n questões em um teste, ou seja, a freqüência absoluta f de cada número de acertos. f 4 3 2 1 3 5 6 7 n A média de acertos dos 10 alunos é M = (2x3 + 3x5 + 4x6 + 1x7)/ 10 = 5,2 Organizando em uma matriz, temos: 23 Mottola Acertos Freqüências absoluta 3 5 6 7 2 3 4 1 Somas Desvios Desvios X freqüências |3-5,2|=2,2 |5-5,2|=0,2 |6-5,2|=0,8 |7-5,2|=1,8 4,4 0,6 3,2 1,8 10 10 Desvio Médio: 10 / 10 = 1 7. Variância A eficiência de um curso pré-vestibular pode ser medida pelo percentual de aprovados. Mas há também outras formas de medir, como, por exemplo, pelo número de aprovados em Medicina por ano. Qual a melhor forma? Vai depender da proposta do curso. Podemos medir quanto os elementos se afastam da média de diversas maneiras. A escolha da medida de dispersão vai depender da informação desejada. O desvio médio, como vimos, é a média aritmética das distâncias dos elementos até o valor médio. A variância é a média aritmética dos quadrados das distâncias dos elementos até o valor médio. Para se obter a variância, basta elevar cada desvio ao quadrado na definição de desvio médio. Ou seja, n V = ((x1 – M) + (x2 – M) + ...+ (xn – M) ) / n = ( (xk – M)2 ) / n k=1 2 2 2 EXEMPLO: Vamos considerar o exemplo anterior, onde f é a freqüência do número de acertos n em um teste. f 4 3 2 1 3 5 6 7 n Como vimos a média é 5,2. 24 Mottola Organizando em uma matriz, temos: Acertos Freqüências Desvios absolutas ao quadrado 3 5 6 7 Somas 2 3 4 1 10 (3-5,2)2=4,84 (5-5,2)2=0,04 (6-5,2)2=0,64 (7-5,2)2=3,24 8,76 Desvios ao quadrado X freqüências absolutas 9,68 0,12 2,56 3,24 15,6 Variância: 15,6 / 10 = 1,56 8. Desvio Padrão O desvio padrão é outra forma de medir a dispersão dos elementos de uma amostra. Na variância, elevamos os desvios ao quadrado, produzindo certa “deformação” na medida. Uma maneira de “compensar” esta deformação é extrair a raiz quadrada, obtendo-se o desvio padrão. Assim, temos a definição: O Desvio Padrão é a Raiz Quadrada da Variância EXEMPLO: No exemplo anterior, o desvio padrão do número de acertos é 1,56 = 1,24 Obs.: 1) O desvio padrão é representado por e a variância por 2. 2) No exemplo anterior, temos Dm=1, 2=1,56, =1,24, sendo sempre Dm . 3) O desvio padrão de valores iguais é nulo. Quanto menor for o desvio padrão, mais homogênea é a amostra. 4) A variável e o desvio padrão têm a mesma unidade. A unidade da variância é o quadrado da unidade da variável. 25 Mottola 5) O gráfico formado pelos pontos (x , y), onde x é uma variável da amostra e y a freqüência absoluta de x, aproxima-se de uma curva quando o tamanho da amostra aumenta. Um conjunto de dados definirá uma Distribuição Normal quando a curva apresentar o formato de sino, como na figura. y A B M- M M+ x O intervalo [M-, M+] contém 68,2% dos valores para x, valor aproximado por 2/3. O intervalo [M-2, M+2] contém 95,4% dos valores para x. 6) Esta curva, chamada de normal, é simétrica em relação à média, que coincide com a mediana e a moda. Os pontos de inflexão A e B, ou seja, onde há troca de concavidade, ocorrem em M- e M+. 26 Mottola EXERCÍCIOS 1) Em um lote de 3000 peças, a freqüência relativa de peças defeituosas é 0,015. O número de peças NÃO defeituosas é (a) 2985 (b) 2975 (c) 2955 (d) 2850 (e) 2550 2) A diferença entre a média aritmética e a média harmônica dos elementos 2, 4 e 6 está no intervalo (a) [0 ; 0,25) (b) [0,25 ; 0,5) (c) [0,5 ; 0,75) (d) [0,75; 1) (e) [1; 1,25) 3) Considere as afirmações: (I) Se Mh, Mg e M são, respectivamente, as médias harmônica, geométrica e aritmética de um conjunto de elementos, então M Mg Mh. (II) A média harmônica dos elementos 4 e 6 é menor do que a dos elementos 3 e 7. (III) Para elementos positivos, as médias aritmética, geométrica e harmônica podem coincidir. (a) Todas são verdadeiras. (b) Todas são falsas. (c) Só a primeira é verdadeira. (d) Só a segunda é verdadeira. (e) Só a terceira é verdadeira. 4) Na tabela encontram-se as freqüências acumuladas das notas de alunos de uma turma: Notas Freqüências acumuladas 5 4 6 9 7 12 A média aritmética das notas está no intervalo (a) [5 ; 5,5) (b) [5 ; 6) (c) [6 ; 6,5) (d) [6,5 ; 7) (e) [7 ; 7,5] 27 Mottola 5) Na tabela encontram-se as freqüências dos pesos de um grupo de pessoas em intervalos: Intervalos em Kg Freqüências [50 , 60) [60, 70) [70, 80) [80 , 90] 5 7 7 4 O valor que mais se aproxima da freqüência relativa da mediana é (a) 20% (b) 25% (c) 30% (d) 35% (e) 40% 6) Na figura, encontram-se as freqüências n das alturas h das alunas de uma turma, medidas em metros. n 4 3 2 1 h 1,55 (a) (b) (c) (d) (e) 1,60 1,65 1,70 Os valores da mediana e da moda, em metros, respectivamente, são: 1,60 e 1,625 1,625 e 1,60 1,625 e 1,65 1,65 e 1,625 1,65 e 1,60 7) (PUC-SP) O histograma abaixo representa a distribuição de freqüência das faixas salariais numa pequena empresa. 14 número de funcionário s 4 2 500 1000 1500 2000 2500 salários em reais Com os dados disponíveis, pode-se concluir que a média desses salários é, aproximadamente, (a) R$ 420,00 (b) 536,00 (c) R$ 562,00 (d) 640,00 (e) 708,00 28 Mottola 8) (FGV) A tabela a seguir apresenta a distribuição de freqüências dos salários de um grupo de 50 empregados de uma empresa, num certo mês. Número da classe Salário do mês em reais 1 2 3 4 1000 2000 2000 3000 3000 4000 4000 5000 Número de empregados 20 18 9 3 O salário médio desses empregados, nesse mês foi de (a) R$ 2 637,00 (b) R$ 2 520,00 (c) R$ 2 590,00 (d) R$ 2 420,00 (e) R$ 2 400,00 9) A variância e o desvio médio dos números 4, 4, 6, 8, 8, respectivamente, são (a) 3,2 e 1,6 (b) 1,6 e 3,2 (c) 3,2 e 1,5 (d) 1,6 e 3,0 (e) 1,5 e 3,2 10) Na curva normal do gráfico, y é a freqüência absoluta de x e A e B são pontos de inflexão, distantes 1,62 unidades. A variância desta distribuição é y A B x (a) 0,6561 (b) 0,81 (c) 0,9 (d) 1,621/2 (e) 1,622 29 Mottola RESPOSTAS 1) C 2) C 3) E 4) B 5) C 6) C 7) E 8) E 9) A 10) A 30 Mottola RESOLUÇÃO 1) A freqüência relativa do número de peças defeituosas (Fr) é a razão entre o número p p de peças defeituosas (p) e o total de peças (T): 0,015 Fr 3000 T p=30000,015=45. Se há 45 peças defeituosas, então há 3000-45=2955 peças não defeituosas. 3 246 4 . A média harmônica é M h 1 1 1 3 2 4 6 1 1 1 6 3 2 11 3 3 12 36 Mh 3,27 11 2 4 6 12 12 11 11 12 M - Mh = 4-3,27 = 0,73, que está no intervalo [0,5 ; 0,75) 2) A média aritmética é M 3) (I) é F: A Mh é no máximo igual à M. Só é igual, quando todos os elementos são iguais, ou seja, quando a dispersão é nula. Logo, M Mh, sendo falsa a afirmação de que M Mg Mh. (II) é F: 4 e 6 estão mais próximos do que 3 e 7, havendo uma menor dispersão. Logo, a média harmônica de 4 e 6 é maior do que a de 3 e 7. (III) é V: Para elementos iguais, as médias aritmética, geométrica e harmônica sempre coincidem. 4) Notas Freqüências acumuladas 5 4 6 9 7 12 Como as freqüências são acumuladas, houve 4 notas 5, 5 notas 6 e 3 notas 7. A soma das 12 notas é 45+56+37=71. A média aritmética é 71/12=5,91, que está no intervalo [5 ; 6). 31 Mottola 5) Intervalos em Kg Freqüências [50 , 60) [60, 70) [70, 80) [80 , 90] 5 7 7 4 Sempre que há intervalos, deve-se considerar o ponto médio de cada intervalo. Assim, a nossa tabela fica da seguinte forma: Intervalos em Kg Freqüências 55 65 75 85 5 7 7 4 Há 5 pesos de 55 Kg, 7 pesos de 65 Kg, 7 pesos de 75 Kg e 4 pesos de 85 Kg, num total de 23 pesos: Em 23 elementos, o central é o 12° elemento (há 11 antes e 11 depois). Se há 5 pesos de 55 Kg e 7 pesos de 65 Kg, o 12° peso é, sem dúvida, de 65 Kg. Logo, a mediana é 65. Há 7 pesos de 65 Kg, num total de 23 pesos. Logo, a freqüência relativa deste peso é 7/23=0,3043, que equivale a 30,43 em 100, ou seja, 30,43%. 6) 4 n 3 2 1 h 1,55 1,60 1,65 1,70 Há 2 alunas com 1,55m, 3 com 1,60m, 4 com 1,65m e 1 com 1,70m, num total de 10 alunas. Em 10 elementos, os centrais são os 5° e 6° elementos, ou seja, as alturas 1,60m e 1,65m. A média destes elementos centrais será a mediana, ou seja, 1,625m. A altura que ocorre com a maior freqüência é 1,65m, sendo, portanto, a moda. 32 Mottola 7) 14 número de funcionário s 4 2 500 1000 1500 2000 2500 salários em reais Sempre que há intervalos, deve-se considerar o ponto central. Assim, temos o quadro: Salário 250 750 1250 1750 2250 Freqüência 14 4 2 2 2 14 funcionários recebem 250, 4 recebem 750, 2 recebem 1250, 2 recebem 1750 e 2 recebem 2250, num total de 24 funcionários. A soma dos salários é 14250 + 4750 + 21250 + 21750 + 22250 = 17000. A média aritmética é 17000/24 =708,33 8) Número da classe Salário do mês em reais 1 2 3 4 1000 2000 2000 3000 3000 4000 4000 5000 Número de empregados 20 18 9 3 Considerando os pontos centrais, temos o quadro: Salário 1500 2500 3500 4500 Freqüência 20 18 9 3 A soma dos salários é 201500 + 182500 + 93500 + 34500 = 120000. A média aritmética é 120000/50 = 2400. 33 Mottola 9) Média dos elementos: (4+4+6+8+8)/5=6. Diferença entre cada elemento e a média, ou seja, desvio de cada elemento: 4-6=-2, 4-6=-2, 6-6=0, 8-6=2, 8-6=2. Soma dos quadrados dos desvios: (-2)2 + (-2)2 + 02 + 22 + 22 = 4 + 4 + 0 + 4 + 4 =16. Média dos quadrados dos desvios: 16/5=3,2, que é a variância. Os desvios são 2, 2, 0, 2, 2. A média dos desvios é (2+2+0+2+2)/5=1,6, que é o desvio médio. 10) y A B x A distância entre A e B, 1,62, é o dobro do desvio padrão. Logo, =1,62/2=0,81. O desvio padrão é a raiz quadrada da variância, logo, a variância é 2 = 0,812 = 0,6561. 34