Estatística Profª Eni Bertolini Medidas de Posições/Medidas de Tendência Central O resumo de dados por meio de tabelas, gráficos e distribuição de freqüência nos fornece informações sobre o comportamento de uma variável. O calculo de medidas nos possibilita representar um ou alguns valores que sejam representativos da serie toda. Para ressaltar as tendências características de cada distribuição, isoladamente, ou em confronto com outras, faz-se necessário introduzir conceitos que se expressem através de números, que nos permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribuição e são as: a) medidas de posição, b) medidas de variabilidade ou dispersão c) medidas de assimetria e d) medidas de curtose. As medidas de posição, estatísticas que representam uma série de dados, nos orientam quanto à posição da distribuição em relação ao eixo horizontal das abscissas (eixo x) e nos possibilitam comparações de séries de dados entre si pelo confronto desses números. São as chamadas medidas de tendência central, pois representam os fenômenos pelos seus valores médios, em torno dos quais tendem a se agruparem em torno dos valores centrais. Dentre as medidas de tendência central, destacamos: a) a média aritmética; b) a mediana; c) a moda. As outras medidas de posição são as separatrizes, que englobam os quartis, os percentis, os decis e a própria mediana. __ 1. Média Aritmética ( X ) A média aritmética é a soma dos valores da variável x dividida pelo número delas. Sejam x1, x2 , ..., x n um conjunto de números reais, onde temos “n” valores da variável x, a média deste conjunto é dada por: __ X = xi n em que n é o número de elementos do conjunto. 1 Estatística Profª Eni Bertolini 1.1. Dados não-agrupados Para dados não-agrupados, determinamos a media aritmética simples. Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos para produção média da semana: __ X = 10 + 14 + 13 + 15 + 16 + 18 + 12 = 98 = 14 7 7 __ logo, X = 14 litros. Às vezes, a média pode ser um número diferente de todos os da série dados que ela representa. É o que acontece quando temos os valores 2, 2, 4, 8 e 9, para os quais a média é 5. Esse será o número representativo dessa série de valores, embora não esteja representado nos dados originais. Neste caso, dizemos que a média não tem existência concreta. 1.2. Desvio em relação à média É a diferença entre cada elemento de um conjunto de valores e a média aritmética, ou seja, o desvio é a distância entre qualquer valor do conjunto de dados em relação à média aritmética do conjunto de dados. Existem várias medidas de dispersão que envolvem os desvios, são eles: o desvio-padrão, a variância e o coeficiente de variação. __ di = xi -X onde, d i = desvio. No exemplo anterior, temos: d1 = 10 – 14 = -4 d2 = 14 – 14 = 0 d3 = 13 – 14 = -1 d4 = 15 – 14 = 1 d5 = 16 – 14 = 2 d6 = 18 – 14 = 4 d7 = 12 – 14 = -2 2 Estatística 1.3. Profª Eni Bertolini Propriedade da média A soma algébrica dos desvios tomados em relação à média é nula: di =0 No exemplo anterior, temos: 1.4. d i = (-4) + 0 + (-1) + 1 + 2 + 4 + (-2) = 0 Dados agrupados Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando como variável o número de filhos do sexo masculino: _______________________________________________________________ nº de filhos fi 0 2 1 6 2 10 3 12 4 4 = 34 Neste caso, como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela formula: __ X = x i . fi fi Um dispositivo prático para esse cálculo é a composição da seguinte tabela: _______________________________________________________________ nº de filhos fi xi . f i 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 3 Estatística temos então: xi . Profª Eni Bertolini = 34 = 78 f i = 78 e f i = 34 logo, __ X = x i . f i = 78 = 2,3 fi 34 __ isto é, X = 2,3 meninos. Nota: Sendo x uma variável discreta, como interpretar o resultado obtido, 2 meninos e 3 décimos de menino? O valor 2,3 sugere, neste caso, que o maior número de famílias observadas tem 2 meninos e 2 meninas, sendo porém, a tendência geral de uma leve superioridade numérica em relação ao número de meninos. 1.4.1. Com intervalos de classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada, onde x i é o ponto médio da classe. Exemplo: Determinar a média da distribuição: _______________________________________________________________ renda das famílias nºde famílias Ponto médio (milhares de reais) fi das classes xi . f i xi 2├4 5 3 15 4├6 10 5 50 6├8 14 7 98 8 ├ 10 8 9 72 10 ├ 12 3 11 33 = 40 = 268 __ X = x i . fi = n 268 = 6,7 40 4 Estatística Profª Eni Bertolini Como a renda familiar foi dada em milhares pode-se dizer que a renda média desse grupo de 40 famílias é de R$ 6.700,00. 1.5. Emprego da média A média é utilizada quando: a) desejamos obter a medida de posição que possuía maior estabilidade; b) houver necessidade de um tratamento algébrico ulterior. Exercícios: 1) Sendo: Custo (R$) fi 450 ├ 550 ├ 650 ├ 750 ├ 850 ├ 950 ├ 1050 ├ 1150 8 10 11 16 13 5 1 Complete a tabela e calcule a média aritmética da distribuição de freqüência: _______________________________________________________________ i xi fi x i. fi 1 500 8 4000 2 ...... 10 ........ 3 ...... 11 ........ 4 ...... 16 ........ 5 ...... 13 ........ 6 ...... 5 ........ 7 1100 1 ........ = ...... = ...... 2) Determine a média aritmética das seguintes séries: a) 3, 4, 1, 3, 6, 5, 6 b) 7, 8, 8, 10 ,12 c) 3,2; 4; 0,75; 5; 2,13; 4,75 d) 70, 75, 76, 80, 82, 83, 90 5 Estatística Profª Eni Bertolini 3) A média mínima para aprovação em determinada disciplina é 5,0. Se um estudante obtém as notas 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5; 4,0 nos trabalhos mensais da disciplina em questão, pergunta-se se ele foi ou não aprovado. 4) Calcule para cada uma das distribuições abaixo sua respectiva média. a) b) c) xi 3 4 7 8 12 fi 2 5 8 4 3 xi fac 2 3 4 5 6 3 9 19 25 28 xi fi 7 8 9 10 11 1/16 5/18 1/3 2/9 5/48 5) Dadas as estaturas de 140 alunos, conseguiu-se a distribuição abaixo. Calcular a média. Estaturas (cm) 145 ├ 150 150 ├ 155 155├ 160 160├ 165 nº dos alunos 3 10 27 38 165 ├ 170 170 ├ 175 175 ├ 180 27 21 14 6 Estatística Profª Eni Bertolini 2. Moda (Mo) A moda é o valor mais freqüente da distribuição. 2.1. Dados não-agrupados Quando lidamos com valores não agrupados, a moda é facilmente reconhecida: basta, de acordo com a definição, procurar o valor que mais se repete. A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13,15 tem moda igual a 10. Podemos entretanto, encontrar séries nas quais não exista valor modal. É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda, chamada de amodal. Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8 e 9 temos duas modas Mo = 4 e Mo = 7, chamada de bimodal. 2.2. Dados agrupados 2.2.1. Sem intervalos de classe Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior freqüência Assim: xi 243 245 248 251 307 fi 7 17 20 8 23 Mo = 248 2.2.2. Com intervalos de classe Para dados agrupados em classes, há diversas fórmulas para o cálculo da moda. A classe que apresenta a maior freqüência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. Temos, então: Mo = l* + L* onde: 2 l* é o limite inferior da classe modal; L* é o limite superior da classe modal. 7 Estatística Profª Eni Bertolini Assim, para a distribuição: i Estaturas (cm) Fi 1 150 ├ 154 4 2 154 ├ 158 9 3 158 ├ 162 11 4 162 ├ 166 8 5 166 ├ 170 5 6 170 ├ 174 3 = 40 Temos que a classe modal é i = 3, l* = 158 e L* = 162 então: Mo = l* + L* = 158 + 162 = 320 = 160 2 2 2 Logo, Mo = 160 cm 2.2.2.1. Fórmula de Czuber 1º Passo: Identifica-se a classe modal. 2º Passo: Aplica-se a fórmula: Mo = l* + 1___ . h 1 + 2 em que: l* = limite inferior da classe modal. 1 = diferença entre a freqüência da classe modal e a imediatamente anterior. 2 = diferença entre a freqüência da classe modal e a imediatamente posterior. h = amplitude da classe. Exemplo 1: Determinar a moda para a distribuição: Classes 0├1 fi 3 1├ 2 2├ 3 10 17 3├ 4 8 4├ 5 5 43 8 Estatística Profª Eni Bertolini Classe modal: i = 3 l* = 2 1 = 17 – 10 = 7 2 = 17 – 8 = 9 h = Li – li = 3 – 2 = 1 Mo = l* + 1___ 1 + 2 . h=2+ 7__ 9+7 . 1 = 2 + 0,44 . 1 = 2,44 Exemplo 2: Calcular a moda para a distribuição onde a amplitude das classes não são iguais: OBS: Nestes casos é preciso calcular as “densidades” das classes: f i / h para se identificar qual a classe modal (aquela com maior intensidade). _______________________________________________________________ Salários (US$) fi fi / h 80 ├ 180 70 70 / 100 = 0,7 180 ├ 250 140 140 / 70 = 2,0 250 ├ 300 140 140 / 50 = 2,8 classe modal 300 ├ 500 60 60 / 200 = 0,3 Classe modal: 3ª classe i = 3 l* = 250 1 = 2,8 – 2,0 = 0,8 2 = 2,8 – 0,3 = 2,5 h = Li – li = 300 – 250 = 50 Mo = l* + 1___ 1 + 2 . h = 250 + 0,8__ . 50 = 262,12 0,8 + 2,5 Portanto, o salário mais freqüente é US$ 262,12. 2.4. Emprego da moda A moda é utilizada quando: a) quando desejamos obter uma medida rápida e aproximada de posição; 9 Estatística Profª Eni Bertolini b) quando a medida de posição deve ser o valor mais típico da distribuição. 3. Mediana (Md) Colocados em ordem crescente, mediana é o valor que divide a amostra, ou população, em duas partes iguais. Assim: 0 I 50 % I Md 100% I 3.1. Dados não-agrupados Dada uma série de valores, como, por exemplo: 5, 13, 10, 2, 18, 15, 6, 16, 9, de acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5, 6, 9, 10, 13, 15, 16, 18. Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é o 10, já que, nessa série, há quatro elementos acima dele e quatro abaixo. Temos, então: Md = 10 Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética entre 10 e 12. Logo: Md = 10 + 12 = 22 = 11 2 2 Onde: Md = 11 3.2. Dados Agrupados 3.2.1. Variável Discreta Se n for impar, a mediana será o elemento central de ordem (n + 1) / 2. Caso n seja par, a mediana será a media entre os elementos centrais de ordem n/2 e n /2 +1. 10 Estatística Profª Eni Bertolini Exemplo 1: Dada a distribuição: _______________________________________________________________ xi Fi Fac 1 1 1 2 3 4 3 5 9 contém o 6º elemento 4 2 11 n = 11 n = 11 (ímpar) n + 1 = 11 + 1 = 12 = 6º 2 2 2 Será, portanto, o sexto elemento. Para identifica-lo, abre-se a coluna de freqüência acumulada. Por meio dessas freqüências acumuladas encontra-se o valor (xi) correspondente à mediana. Neste exemplo, Md = 3 (classe que contém o 6º elemento). Exemplo 2: Seja: _______________________________________________________________ xi Fi Fac 82 5 5 85 10 15 87 15 30 21º e 22º 89 8 38 90 4 42 n = 42 n = 42 (par), logo Md será a média entre os elementos de ordem n e n +1, ou 2 2 seja, 42 = 21º e 42 + 1 = 22º. 2 2 Como no exemplo anterior, identificam-se os elementos de ordem 21º e 22º pela Fac. Assim: 21º corresponde a 87 11 Estatística Profª Eni Bertolini 22º corresponde a 87, logo Md = 87 + 87 = 87 2 3.2.2. Variável Contínua Neste caso, o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana. Para tanto, temos inicialmente que determinar a classe na qual se acha a mediana – classe mediana . Assim: 1º passo: calcula-se a ordem n . Como a variável é contínua, não se preocupe 2 se n é par ou ímpar. 2º passo: Pela Fac identifica-se a classe que contém a mediana (classe Md) 3º passo: utiliza-se a fórmula: Md= lmd + (n/2 - f ant) .h em que: Fmd l md = limite inferior da classe Md n = tamanho da amostra ou nº de elementos fant = soma das freqüências anteriores à classe Md h = amplitude da classe Md Fmd = freqüência da classe Md Exemplo: Dada a distribuição amostral, calcular a mediana. _______________________________________________________________ classes Fi Fac 35 ├ 45 5 5 45 ├ 55 12 17 55 ├ 65 18 35 classe Md.(29º) 65 ├ 75 14 49 75 ├ 85 6 55 85 ├ 95 3 58 n = 58 1º passo: n = 58 = 29º 2 2 2º passo: classe Md = 3ª 3º passo: Md= lmd + (n/2 - fant ) .h = 55+ (29 –17 ) .10 = 55 + 120 Fmd 18 18 Md = 55 + 6,67 = 61,67 12 Estatística Profª Eni Bertolini 3.3. Emprego da Mediana Empregamos a mediana quando: a ) desejamos obter o ponto que divide a distribuição em partes iguais; b )há valores extremos que afetam de uma maneira acentuada a média; c ) a variável em estudo é o salário. 4. As Separatrizes A mediana caracteriza uma série de valores devido à sua posição central. Ela apresenta uma característica importante: a mediana separa a série em dois grupos que apresentam o mesmo número de valores. Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligados à mediana. Essas medidas – os quartis, os percentis e os decis, são, juntamente com a mediana, conhecidos pelo nome genérico de separatrizes. 4.1. Os Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: I 25% I 50% I 75% I Q1 Q2 Q3 I Q1 = 1º quartil – valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. Q2 = 2º quartil – coincide com a mediana, (Q2 = Md), deixa 50% dos elementos. Q3 = 3º quartil – valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. Eis as fórmulas para os cálculos de Q1 e Q3 para o caso de variáveis contínuas: a) Determinação de Q1: 1º passo: Calcular-se n 4 2º passo: Indica-se a classe Q1 pela Fac 3º passo: Aplica-se a fórmula: 13 Estatística Profª Eni Bertolini Q1 = lQ1 + (n/4 - f ) .h FQ1 b) determinação de Q3: 1º passo: Calcula-se 3 n / 4 2º passo: Identifica-se a classe Q3 pelo Fac 3º passo: aplica-se a fórmula: Q3 = lQ3 + (3n/4 - f ) .h FQ 3 Exemplo: Dada a distribuição, determine os quartis (Q1 e Q3) e mediana. _______________________________________________________________ classes Fi Fac 7 ├ 17 6 6 17 ├ 27 15 21 classe Q1 27 ├ 37 20 41 classe Md 37 ├ 47 10 51 classe Q3 47 ├ 57 5 56 56 1º passo: n = 56 n = 14º 4 2º passo: Pela Fac, indentifica-se a classe Q1, classe Md e Classe Q3. 3º passo: Uso das fórmulas: Para Q1 = lQ1 + (n/4 - f ) .h = 17 + (56/4 – 6) . 10 = 17 + 140 = 22,33 FQ1 15 15 Para Md= lmd + (n/2 - f ) .h = 27 + (56/2 – 21) . 10 = 30,5 Fmd 20 Para Q3 = lQ3 + (3n/4 - f ) .h = 37 + (3 .56/4 – 41) . 10 = 38 FQ 3 10 Diante desses resultados, pode-se afirmar que, nesta distribuição, tem –se: 14 Estatística Profª Eni Bertolini 25% I 7 25% 25% 25% I I I I 22,33 30,5 38 57 isto é, 22,33 deixa 25% dos elementos 30,5 deixa 50% dos elementos 38 deixa 75% dos elementos 4.2. Os Decis São os nove valores que dividem a série em 10 partes iguais: 0% 10% I 20% 30% 40% 50% 60% 70% 80% 90% I I I I I I I I I D1 D2 D3 D4 D5 D6 D7 D8 D9 100% I A fórmula é semelhante: 1º passo: Calcula-se i.n , em que i = 1,2,3,4,5,6,7,8 e 9. 10 2º passo: Indentifica-se a classe Di pela Fac 3º passo: Aplica-se a fórmula: Di = lDi + (i.n/10 - f ) .h Fdi 4.3. Os Percentis São os noventa e nove valores que separam uma série em 100 partes iguais. O cálculo de um percentil é dado por: 1º passo: Calcula-se i.n , em que i = 1,2,3,4,5, ... , 98 e 99. 100 2º passo: Indentifica-se a classe Pi pela Fac 3º passo: Aplica-se a fórmula: Pi = lPi + (i.n/100 - f ) .h Fpi Exemplo: Determinar o 4º Decil e o 72º Percentil da seguinte distribuição: 15 Estatística Profª Eni Bertolini _______________________________________________________________ classes Fi Fac 4├ 9 9 ├ 14 14 ├ 19 19 ├ 24 8 12 17 3 40 8 20 37 40 classe D4 classe P72 Cálculo do D4: 1º passo: i.n = 4 . 40 = 16º 10 10 2º passo: Indentifica-se a classe D4 e P72 pela Fac 3º passo: D4= lD4 + (i.n/10 - f ) .h = 9 + (4 . 40 / 10 – 8) . 5 = 12,33 Fdi 12 P72 = lP72+ (i.n/100 - f ) .h = 14 + (72 . 40 / 100 – 20) . 5 = 16,59 Fp72 17 Portanto, nesta distribuição, o valor 12,33 divide a amostra em duas partes: uma com 40% dos elementos e a outra com 60 % (ver na reta). O valor 16,89 indica que 72% da distribuição estão abaixo dele e 28% acima. 16