Professora Janete Pereira Amador 1 8 Medidas Descritivas Vimos anteriormente que um conjunto de dados pode ser resumido através de uma distribuição de freqüências, e que esta pode ser representada através de uma tabela ou de um gráfico. Se o conjunto refere-se a uma variável QUANTITATIVA há uma terceira maneira de resumi-lo: as Medidas de Síntese. As Medidas de Síntese, também chamadas de Estatísticas ou Medidas Descritivas, dividem-se em Medidas de Posição (Medidas de Tendência Central), Medidas de Dispersão e Separatrizes. As Medidas de Posição obtém um valor numérico que represente a tendência do conjunto (valor “típico”). As mais importantes são: Média, Mediana, e Moda. As Medidas de Dispersão obtém uma mensuração da disposição dos dados no conjunto, da sua variabilidade (se estão concentrados em torno de um valor, se distribuídos, etc). As mais importantes são: Intervalo, Variância, Desvio Padrão e Coeficiente de Variação. As Separatrizes são medidas que dividem o conjunto em um certo número de partes iguais: Quartis (4 partes), Decis (10 partes), Centis (100 partes). 8.1 Medidas de Posição As Medidas de Posição procuram caracterizar a tendência central do conjunto, um valor numérico que “represente” o conjunto. Esse valor pode ser calculado levando em conta todos os valores do conjunto ou apenas alguns valores ordenados. Média A média aritmética é simbolizada por x (leia-se x barra) e consiste na soma de todas as observações xi do grupo, dividida pelo número "n" de observações do grupo. n x i x1 x 2 ... x n xi i 1 n n n Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma: x “Ao somar os valores em cada turma teremos o mesmo resultado: 48. Como cada turma tem 8 alunos as três turmas terão a mesma média: 6.” No exemplo acima as três turmas têm a mesma média (6), então se apenas essa medida fosse utilizada para caracterizá-las poderíamos ter a impressão que as três turmas têm desempenhos idênticos. Será? Observe atentamente a tabela acima. Na primeira turma temos realmente os dados distribuídos regularmente em torno da média, com a mesma variação tanto abaixo quanto acima. Já na segunda vemos uma distorção maior, embora a maioria das notas sejam altas algumas notas baixas “puxam” a Caderno Didático de Estatística Professora Janete Pereira Amador 2 média para um valor menor. E no terceiro grupo há apenas uma nota baixa, mas seu valor é tal que realmente consegue diminuir a média do conjunto. Um dos problemas da utilização da média é que, por levar em conta TODOS os valores do conjunto, ela pode ser distorcida por valores discrepantes (“outliers”) que nele existam. É importante então interpretar corretamente o valor da média.O valor da média pode ser visto como o ponto central de cada conjunto de dados, ou seja o ponto de equilíbrio do conjunto: “se os valores do conjunto fossem pesos sobre uma tábua, a média é a posição em que um suporte equilibra esta tábua”. Utilizando um diagrama apropriado vejamos como as notas dos alunos, de cada turma se distribuem entorno da média. A média dos três conjuntos (Turmas) é a mesma, mas observe as diferentes disposições dos dados. O primeiro grupo (Turma A) apresenta os dados distribuídos de forma simétrica em torno da média. No segundo grupo (Turma B) a distribuição já é mais irregular, com valores mais “distantes” na parte de baixo, e o terceiro grupo (Turma B) é claramente assimétrico em relação à média (que foi distorcida pelo valor discrepante 0). Portanto muito cuidado ao caracterizar um conjunto apenas por sua média Outro aspecto importante a ressaltar é que a média pode ser um valor que a variável não pode assumir. Isto é especialmente verdade para variáveis quantitativas discretas, resultantes de contagem, como número de filhos, quando a média pode assumir um valor "quebrado", 4,3 filhos, por exemplo. É extremamente comum calcular médias de variáveis quantitativas a partir de distribuições de freqüências representadas em tabelas: simplesmente multiplica-se cada valor (ou o ponto médio da classe) pela freqüência associada, somam-se os resultados e Caderno Didático de Estatística Professora Janete Pereira Amador 3 divide-se o somatório pelo número de observações do conjunto. Na realidade trata-se de uma média ponderada pelas freqüências de ocorrência de cada valor da variável. Onde k é o número de valores da variável discreta, ou o número de classes da variável agrupada, e xi é um valor qualquer da variável discreta, ou o ponto médio de uma classe qualquer. EXa: Calcular a média do número de doadores de sangue contaminados com hepatite B (Quadro1) em 40 bancos de sangue. Observe que NENHUMA residência pode ter 4,3 pessoas. Assim, não se esqueça de que a média pode assumir valores que a variável não pode assumir. EXb: Calcular a média da taxa de mortalidade infantil em municípios do do Norte do Brasil. .. Classes 9,9 |--18,62 |--27,34 |--36,06 |--44,78 |--53,5 |--Total Caderno Didático de Estatística 18,62 27,34 36,06 44,78 53,5 62,2 fi 9 13 7 4 0 1 34 Xi 14,26 22,98 31,7 40,42 49,14 57,85 Xi.fi 128,34 298,74 221,9 161,68 0 57,85 868,51 Professora Janete Pereira Amador 4 Quando os dados não estão grupados (EXa) o resultado será idêntico ao que seria obtido simplesmente somando todos os valores e dividindo o somatório pelo número de valores. Contudo, se a tabela estiver agrupada em classes (EXb) TODAS as medidas (não somente a média) serão apenas estimativas dos valores reais, pois as medidas serão calculadas usando os pontos médios (que são os representantes das classes) e não mais os valores originais. No caso do EXb a média real vale 25,39. “Atualmente com as facilidades computacionais disponíveis não se calcula mais a média (ou qualquer outra medida) a partir de uma tabela agrupada em classes se os dados originais estão disponíveis: os programas calculam as medidas usando os dados originais e as tabelas são apresentadas apenas para dar uma idéia da variação dos dados”. Mediana (Md) A mediana é o ponto que divide o conjunto em duas partes iguais: metade dos dados têm valor menor do que a mediana e a outra metade têm valor maior do que a mediana. Pouco afetada por eventuais valores discrepantes existentes no conjunto (que costumam distorcer substancialmente o valor da média). A mediana de um conjunto ordenado de valores, anotada por Md, é definida como sendo o valor que separa o conjunto em dois subconjuntos do mesmo tamanho. Assim se “n” (número de elementos) é ímpar a mediana é o valor central do conjunto. Caso contrário a mediana é a média dos valores central do conjunto. Tem-se: Exc: Calcular a mediana das finais de três turmas de estudantes (Ex). Posição mediana = (n + 1)/2 = (8+1)/2 = 4,5 significa que o valor da mediana será calculado através da média entre os valores que estiverem na 4a e na 5 a posição do conjunto. Turma A: Md = (6 + 6)/ 2 = 6 Turma B: Md = (6 + 6)/ 2 = 6 Turma C: Md = (7 + 7)/ 2 = 7 Calcular a mediana para o grupo a seguir: 10 11 12 13 15 16 16 35 60 Posição mediana = (n + 1)/2 = (9+1)/2 = 5a como o conjunto tem um número ímpar de valores o valor da mediana será igual ao valor que estiver na 5ª posição. Md = 15 ; x = 20,89 Observe que neste caso média e mediana são diferentes, pois a média foi distorcida pelos valores mais altos 35 e 60, que constituem uma minoria. Neste caso a medida de posição que melhor representaria o conjunto seria a mediana. Se a média é Caderno Didático de Estatística Professora Janete Pereira Amador 5 diferente da mediana a distribuição da variável quantitativa no conjunto de dados é dita ASSIMÉTRICA. Calcular a média da taxa de mortalidade infantil em municípios do Norte do Brasil. Calcular a média da taxa de mortalidade infantil em municípios do Norte do Brasil. (Exemplo EXb). Classes 9,9 |--- 18,62 18,62 |--- 27,34 27,34 |--- 36,06 36,06 |--- 44,78 44,78 |--- 53,5 53,5 |--- 62,2 Total Procedimentos fi 9 13 7 4 0 1 34 Xi 14,26 22,98 31,7 40,42 49,14 57,85 xi.fi 128,34 298,74 221,9 161,68 0 57,85 868,51 Fi 9 22 29 33 33 34 n 34 = = 17 2 2 2. A Md estará localizada na classe onde Fi PMd; Classes fi Xi xi.fi Fi 3. 18,62 |--27,34 13 22,98 298,74 22 4. 3. Para encontrar o valor da mediana aplica-se a seguinte equação: n Fi anterior .h 2 Md Li f i ( Md ) Onde: Md = mediana Li = limite inferior da classe da mediana; (18,62) n = tamanho da amostra; (34) Fi = freqüência acumulada anterior a classe da Md; (9) h = amplitude da classe da Md; (8,72) fi = freqüência simples a classe da Md. (13) 17 9 8,72 Md 18,62 13 Md 23,32 Novamente o valor acima é apenas uma estimativa, a mediana real vale: Como n é par a mediana Md = 23,6 1. Calcula-se a posição Md: PMd = Moda (Mo) A moda é o valor da variável que ocorre com maior freqüência no conjunto. É a medida de posição de obtenção mais simples, e também pode ser usada para variáveis qualitativas, pois apenas registra qual é o valor mais freqüente, podendo este valor ser tanto um número quanto uma categoria de uma variável nominal ou ordinal. Um conjunto dedados pode ter apenas uma Moda, várias Modas ou nenhuma Moda. Encontre a moda das notas das três turmas. Caderno Didático de Estatística Professora Janete Pereira Amador 6 A turma A tem 3 modas: os valores 5, 6 e 7 ocorrem duas vezes cada. A turma B tem duas modas: os valores 6 e 10 ocorrem duas vezes cada. A turma C tem uma moda apenas: o valor 7 ocorre 3 vezes. Para dados agrupados em classes a moda é calculada utilizando a equação 1 .h onde; Mo i ( Mo ) 1 2 1 f i Mo f i ant 2 f i Mo f i post ; Mo = moda Li = limite inferior da classe modal Fi = freqüência acumulada anterior a classe da Md fiMo = freqüência simples a classe modal fiant = freqüência simples anterior a classe modal fipost = freqüência simples posterior a classe modal Classe modal = classe de maior fi. Calcular a moda do índice produção de produtores rurais que buscaram tecnologia para melhorias no processo produtivo, de acordo com a tabela do Exemplo EXb. 9,9 18,62 27,34 36,06 44,78 53,5 Total |--|--|--|--|--|--- Classes 18,62 27,34 36,06 44,78 53,5 62,2 fi 9 13 7 4 0 1 34 Xi 14,26 22,98 31,7 40,42 49,14 57,85 xi.fi 128,34 298,74 221,9 161,68 0 57,85 868,51 Fi 9 22 29 33 33 34 1 4 .8,72 = 18,62 Mod 18,62 .8,72 22,11 4 6 1 2 1 13 9 2 13 7 e 1 4 2 6 Analisando o conjunto original dos verificamos que o conjunto de dados é amodal desta forma este valore apenas uma estimação. Caderno Didático de Estatística Professora Janete Pereira Amador 7 Podemos apresentar uma breve comparação das medidas de posição. Fonte: REIS, M. M. & LINO, M. de O., 2005. 8.2 Medidas de Dispersão O objetivo das medidas de dispersão é medir quão próximos uns dos outros estão os valores de um grupo ou medindo a dispersão de um grupo de dados em torno da sua média. Variância (S2) A variância é uma das medidas de dispersão mais importantes. É a média aritmética dos quadrados dos desvios de cada valor em relação à média: proporciona uma mensuração da dispersão dos dados em torno da média. X 2 S2 X 2 i n n 1 Amostra X 2 i 2 X 2 i i N N População Onde xi é um valor qualquer do conjunto. Se os dados referem-se a uma POPULAÇÃO usa-se N (tamanho da população) no denominador da expressão. A razão da utilização de n – 1 no denominador é indispensável para que a variância da variável na amostra possa ser um bom estimador da variância da variável na população. A maioria dos programas computacionais, porém, costuma calcular o desvio padrão supondo que os dados são provenientes de uma população. Em algumas planilhas eletrônicas há funções pré-programadas para ambos os casos. A unidade da variância é o quadrado da unidade dos dados (e portanto o quadrado da unidade da média) causando dificuldades para avaliar a dispersão: se por exemplo temos a variável peso com média de 75 kg em um conjunto e ao calcular a variância obtemos 12 kg2 a avaliação da dispersão torna-se difícil. Quanto maior a variância mais dispersos os dados estão em torno da média (maior a dispersão do conjunto) Caderno Didático de Estatística Professora Janete Pereira Amador 8 Para fins de Análise Exploratória de Dados caracterizar a dispersão através da variância não é muito adequado. Costuma-se usar-se a raiz quadrada positiva da variância, o desvio padrão. Desvio padrão (S) É a raiz quadrada positiva da variância, apresentando a mesma unidade dos dados e da média, permitindo avaliar melhor a dispersão. X 2 X S X 2 i 2 i n X n 1 Amostra 2 i i N N População As mesmas observações sobre população e amostra feitas para a variância são válidas para o desvio padrão. É prática comum ao resumir através de medidas de síntese um conjunto de dados referente a uma variável quantitativa apresentar a média e o desvio padrão desse conjunto, para que seja possível ter uma idéia do valor típico e da distribuição dos dados em torno dele. Tal como no caso da média pode haver interesse em calcular o desvio padrão de variáveis quantitativas a partir de distribuições de freqüências representadas em tabelas. Tal como no caso da média os valores da variável (ou os pontos médios das classes), e os quadrados desses valores, serão multiplicados por suas respectivas freqüências: X . fi 2 X i2 fi S i n n 1 Ex: Calcule o desvio padrão índice produção de produtores rurais que buscaram tecnologia para melhorias no processo produtivo, de acordo com a tabela do Exemplo Classes 9,9 18,62 27,34 36,06 44,78 53,5 Total |--|--|--|--|--|--- 18,62 27,34 36,06 44,78 53,5 62,2 fi Xi Xi.fi 9 13 7 4 0 1 34 14,26 22,98 31,7 40,42 49,14 57,85 128,34 298,74 221,9 161,68 0 57,85 868,51 X . fi fi 2 S X 2 i i n 25611,1317 X i2 203,3476 528,0804 1004,89 1633,7764 2414,7396 3346,6225 X i2 fi 1830,1284 6865,0452 7034,23 6535,1056 0 3346,6225 25611,1317 868,512 34 10,19 n 1 34 1 Tal como na média, o resultado do desvio padrão calculado através de uma tabela agrupada em classes será apenas uma estimativa do valor real (o valor com os dados originais foi igual a 10,21. Coeficiente de Variação (CV%) Caderno Didático de Estatística = Professora Janete Pereira Amador 9 O coeficiente de variação percentual é uma medida de dispersão relativa, pois permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões). Onde S é o desvio padrão da variável no conjunto de dados, e X é a média da variável no mesmo conjunto. Quanto menor o coeficiente de variação percentual, mais os dados estão concentrados em torno da média, pois o desvio padrão é pequeno em relação à média. EX: Calcular o coeficiente de variação percentual para as notas das três turmas de estudantes. A turma mais homogênea é a “A”, pois apresenta o menor coeficiente de variação das três. Isso era esperado, uma vez que as notas da turma A estão distribuídas mais regularmente do que as das outras. No caso acima a comparação ficou ainda mais simples pois as médias dos grupos eram iguais, bastaria avaliar apenas os desvios padrões dos grupos, mas para comparar a dispersão de distribuições com médias diferentes é imprescindível a utilização do coeficiente de variação. O coeficiente de variação para os dados do número de residentes no domicílio corresponde a: 1,45 CV % 100 33,72% 4,3 Para os dados do índice produção de produtores rurais que buscaram tecnologia para melhorias no processo produtivo,corresponde a: 1,19 CV % 100 4,66% 25,54 8.3 Medidas de Separatrizes As separatrizes são valores que dividem a distribuição em um certo número de partes iguais: a mediana divide em 2 partes iguais, os quartis dividem em 4 partes iguais, os decis em 10 partes iguais e os centis em 100 partes iguais. O objetivo das separatrizes é proporcionar uma melhor idéia da dispersão do conjunto, principalmente da simetria ou assimetria da distribuição. Vamos nos limitar aos quartis. Caderno Didático de Estatística Professora Janete Pereira Amador 10 0% 25% 50% 75% 100% |--------------------|--------------------|--------------------|--------------------| Q1 Q2 =Md Q3 Ex: Calcular o primeiro quartil da taxa de mortalidade infantil em municípios do Norte do Brasil. 9,9 18,62 27,34 36,06 44,78 53,5 Total Classes |--- 18,62 |--- 27,34 |--- 36,06 |--- 44,78 |--- 53,5 |---| 62,2 fi 9 13 7 4 0 1 34 Xi 14,26 22,98 31,7 40,42 49,14 57,85 Fi 9 22 29 33 33 34 Procedimento: n ; 4 • O quartil estará localizado na classe onde, pela primeira vez, Fi PQi; e para encontrar o seu valor, aplica-se a equação: PQi Fiant. onde, Qi Linf . h f Qi Linf = limite inferior da classe do quartil; h = amplitude de classe; PQi = posição do quartil i; Fi.ant = freqüência acumulada anterior a classe do quartil; fQi = freqüência simples da calasse do quartil. • Calcula-se a posição do quartil através da fórmula: PQi = i Cálculo do primeiro quartil: n 34 PQi = i = 1 = 8,5 8 4 4 O primeiro quartil ocupa esta ocupando a oitava posição correspondente a primeira classe. fi Xi Fi 9,9 |--- 18,62 9 14,26 9 Montando a equação para calcular o valor do primeiro quartil PQi Fiant . = 8 0 = 17,65 Qi Linf . h 9,9 8,72 f Qi 9 Interpretando: 25% das taxas de mortalidade encontram-se em até 17,65 e 75% da das taxas encontram-se com valores superiores a 17,65. Caderno Didático de Estatística Professora Janete Pereira Amador 11 Exercícios 1) Dado o rol de 50 notas de indivíduos que cursaram a disciplina de estatística. Construir uma tabela de distribuição de freqüências (com todos os elementos já estudados), construir um histograma e polígono de freqüências, calcular todas as medidas descritivas. 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60 60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77 78 80 81 84 85 85 88 89 91 94 97 2) Os preços do pacote de café, pesando 500g, obtidos em diferentes supermercados locais, são: R$3,50, R$2,00, R$1,50 e R$1,00. Com base nessas informações, julgue (justificando) os itens que seguem: a) O preço médio do pacote de café de 500 g vale R$2,00. b) Se todos os preços tiverem uma redução de 50%, o novo preço médio será de R$1,50. c) A variância dos preços é iguala 0,625. d) Se todos os preços tiverem um acréscimo de R$1,00, o coeficiente de variação não se altera. e) Se todos os preços tiverem um acréscimo de R$1,00,o coeficiente de variação dos preços será aproximadamente igual a 31,18%. f) Se todos os preços tiverem um aumento de 50%, a nova variância será exatamente igual à anterior, pois a dispersão não será alterada. g) A variância ficará multiplicada por 2,25 se todos os preços tiverem um aumento de 50% Caderno Didático de Estatística Professora Janete Pereira Amador 12 6) Considere a distribuição de freqüências a seguir para responder às questões de 6.1 a 6.3. Peso (Kg) No de animais 2|---4 9 4|---6 12 6|--- 8 6 8|---10 2 10|---12 1 6.1) Marque a opção correta: a) 75% das observações têm peso não inferior a 4 Kg e inferior a 10 Kg. b) Mais de 75% das observações têm peso maior ou igual a 4 Kg. c) Menos de 25% das observações têm peso igual a 4 Kg. a) A soma dos pontos médios dos intervalos de classe é inferior ao tamanho da amostra. e) 8% das observações têm peso no intervalo de classe 8|---10. 6.2) A média da distribuição é igual a : a) 5,27 Kg; d) 5,19 Kg; b) 5,24 Kg; e) 5,30 Kg; c) 5,21 Kg; 6.3) A mediana da distribuição é igual a : a) 5,30Kg; d) 5,10Kg; b) 5,00Kg; e) 5,20Kg; c) um valor inferior a 5,00Kg; 7) O frigorífico Industrial Multicorte S. A. recebe de dois criadores propostas de vendas de bovinos para abate. Entretanto, ele exige do Departamento de Inspeção Sanitária que os animais a serem compredos passem por um exame. Considere as amostras seguintes (em Kg), resultantes da realização do exame de bovinos: Estatísticas Amostra Univariadas Kote Êmio Média 600 700 Desvio-padrão 80 140 Total de bois 100 60 Pergunta-se: a) Em qual das amostras houve maior variação absoluta nos pesos dos animais? b) Em termos relativos, quem está melhor em peso com relação a seu grupo, o boi Kote ou o boi Êmio? Bibliografia FONSECA,J.S. & MARTINS G. de A., P. Curso de Estatística. 5a. ed. São Paulo: Atlas, 1995. REIS, M. M. & LINO, M. de O. Notas de Aula: Introdução e Análise Exploratória de Dados. UFSC. Site: http://www.inf.ufsc.br/~marcelo/INE5121.html. Caderno Didático de Estatística Professora Janete Pereira Amador TRIOLA, M. F. Introdução a Estatística. 9a. ed. Rio de Janeiro: LTC. 2005. Caderno Didático de Estatística 13