ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini ÍNDICE 1. INTRODUÇÃO ....................................................................................................................................................2 2. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL ................................................................................2 3. CÁLCULO DE MEDIDAS ...................................................................................................................................3 3.1. DADOS ISOLADOS OU NÃO AGRUPADOS ..........................................................................................................3 3.1.1. CÁLCULO DA MÉDIA ...............................................................................................................................3 3.1.2. CÁLCULO DA MODA ................................................................................................................................3 3.1.3. CÁLCULO DA MEDIANA ...........................................................................................................................4 3.2. DADOS AGRUPADOS SEM INTERVALOS ..........................................................................................................5 3.2.1. CÁLCULO DA MÉDIA ...............................................................................................................................5 3.2.2. CÁLCULO DA MODA ................................................................................................................................5 3.2.3. CÁLCULO DA MEDIANA ...........................................................................................................................6 3.3. DADOS AGRUPADOS COM INTERVALOS ..........................................................................................................6 3.3.1. CÁLCULO DA MÉDIA ...............................................................................................................................7 3.3.2. CÁLCULO DA MODA ................................................................................................................................7 3.3.3. CÁLCULO DA MEDIANA ...........................................................................................................................8 4. PROPRIEDADES DA MÉDIA ...........................................................................................................................10 4.1. 1ª PROPRIEDADE: SOMA DE DESVIOS NULA...................................................................................................10 4.2. 2ª PROPRIEDADE: SOMA DE CONSTANTE .......................................................................................................10 4.3. 3ª PROPRIEDADE: PRODUTO POR CONSTANTE ..............................................................................................10 4.4. APLICAÇÃO DAS PROPRIEDADES ...................................................................................................................11 5. ANÁLISE COMPARATIVA DAS MEDIDAS DE POSIÇÃO .............................................................................11 6. POSIÇÃO RELATIVA DA MÉDIA, MODA E MEDIANA ..................................................................................12 7. MEDIDAS SEPARATRIZES .............................................................................................................................13 8. MEDIDAS DE POSIÇÃO NO EXCEL ...............................................................................................................14 EXERCÍCIOS PROPOSTOS .................................................................................................................................16 1/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 1. INTRODUÇÃO Nos capítulos anteriores foram introduzidas as técnicas que nos permitem organizar, resumir e apresentar os dados estatísticos provenientes de uma pesquisa, objetivando facilitar sua análise e interpretação. Foi visto também que a esta parte do tratamento dos dados denominamos de ESTATÍSTICA DESCRITIVA, e que DADOS ORGANIZADOS, RESUMIDOS, e APRESENTADOS de forma conveniente, facilitam a tarefa de identificar os aspectos relevantes do fenômeno em estudo (sua essência) e o delineamento de hipóteses sobre sua estrutura, ou seja, facilitam o desenvolvimento do que denominamos de ANÁLISE EXPLORATÓRIA DE DADOS. No estudo sobre DISTRIBUIÇÕES DE FREQÜÊNCIAS, a forma padrão de apresentação de dados em Estatística, observamos que este tipo de representação de dados torna possível visualizarmos como uma VARIÁVEL se distribui em termos dos casos observados. A partir deste capítulo, estamos introduzindo uma estratégia complementar para descrever e explorar VARIÁVEIS QUANTITATIVAS. No estudo de uma série estatística, e principalmente na confrontação com outras séries estatísticas, é conveniente o cálculo de algumas medidas que as caracterizem. Estas medidas, quando bem interpretadas, podem fornecer informações valiosas sobre a série estatística em estudo. Na verdade, as medidas reduzem uma série estatística a alguns valores, cuja interpretação fornece uma compreensão bastante apurada sobre o conjunto de dados que as originaram. À luz do acima exposto, podemos entender MEDIDAS ESTATÍSTICAS como VALORES NUMÉRICOS calculados sobre o conjunto de valores observados da VARIÁVEL QUANTITATIVA em estudo, cuja interpretação fornece informações específicas sobre o comportamento da variável naquele conjunto de dados. Devido à variedade de características passíveis de estudo num conjunto de dados, Medidas Estatísticas são agrupadas em quatro classes focadas em aspectos diferentes do comportamento da variável em estudo: MEDIDAS ESTATÍSTICAS MEDIDAS DE POSIÇÃO (OU DE TENDÊNCIA CENTRAL) MEDIDAS DE DISPERSÃO MEDIDAS DE ASSIMETRIA MEDIDAS DE ACHATAMENTO (OU CURTOSE) 2. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL As MEDIDAS DE POSIÇÃO expressam a característica dos dados observados tenderem a se agrupar (ou concentrar) em torno dos valores centrais. Representam valores intermediários da série (entre o menor e o maior valor), em torno dos quais os elementos da série estão distribuídos. Simultaneamente, as medidas deste tipo nos indicam a posição da série em relação ao eixo dos valores assumidos pela variável ou característica em estudo (numa representação gráfica, o eixo horizontal, das abscissas ou dos xx). Cabe lembrar que estas medidas se referem a valores da variável em estudo, e por esta razão serão sempre expressos na unidade de medida da variável (quilos, metros, $, kWh, etc.). As principais medidas de tendência central são MÉDIA, MODA e MEDIANA. MÉDIA ARITMÉTICA Matematicamente, a média é definida como a soma dos valores dividida pelo número de valores. Usando o conceito físico de ponto de equilíbrio, a média indica o centro de um conjunto de valores. Numa POPULAÇÃO a média é denotada por (letra grega equivalente ao ‘m’ minúsculo) e pronuncia-se ‘mi’. Numa AMOSTRA a média é denotada por x e pronuncia-se ‘xis barra’. MODA A moda de um conjunto de valores é definida como o valor que ocorre com maior freqüência. Referências comuns à moda incluem expressões como valor dominante, valor que ocorre o maior número de vezes, valor que predomina num conjunto, valor modal, valor mais comum, etc. Não é imperativa, mas a ordenação dos dados facilita a identificação do valor mais freqüente. A moda é denotada por Mo. 2/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini MEDIANA A mediana é o valor que separa o ROL em duas partes iguais, deixando à sua esquerda o mesmo número de elementos que à sua direita (50% para cada lado). O conceito de mediana implica necessariamente em ordenação dos dados, já que é definida sobre o ROL dos valores. A mediana é um caso particular de um conjunto de medidas chamado de SEPARATRIZES, cuja característica é dividir um conjunto de dados em duas partes, deixando P% dos elementos à sua esquerda e 100%-P% à sua direita. A mediana é denotada por Md. 3. CÁLCULO DE MEDIDAS O estudo das medidas de posição será efetuado tratando-as separadamente para dados isolados (não agrupados) e para dados agrupados, com e sem intervalos de classe. 3.1. DADOS ISOLADOS OU NÃO AGRUPADOS Considere os seguintes conjuntos de dados como exemplos para cálculos das medidas. i 1 2 3 4 5 6 7 8 9 10 11 12 Conjunto 1 18 9 13 41 17 8 6 29 14 8 5 30 10 14 3 6 14 13 20 10 14 10 16 36 17 10 16 17 11 12 7 15 6 21 7 4 33 4 16 38 Conjunto 2 Conjunto 3 Conjunto 4 3.1.1. CÁLCULO DA MÉDIA Considerando a definição da média aplicada a um conjunto de dados isolados, podemos defini-la como a razão ou quociente ou divisão da soma de todos os valores da amostra, pelo número de elementos da amostra (n). n Assim, a formulação matemática da média é: xi onde xi x i1 ou simplesmen te x n n xi são os valores da variável n é o número total de valores (nº de elementos na amostra ou conjunto de dados) 18 17 14 10 14 14 17 104 14,86 Para o Conjunto de dados 1 acima temos: x 7 7 Verifique o cálculo da média para todos os conjuntos de dados de exemplo: Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Σ n Média 104 105 105 284 7 10 11 12 14,86 10,50 9,55 23,67 3.1.2. CÁLCULO DA MODA Num conjunto de valores não agrupados, a moda é facilmente reconhecida: basta procurar o valor que mais se repete. É evidente que a ordenação dos valores contribui para a rápida identificação do(s) valor(es) mais freqüente(s). Observe a construção do Rol para cada um dos conjuntos de exemplo: i 1 2 3 4 5 6 7 8 9 10 11 12 Rol 1 10 7 3 6 14 8 4 7 14 8 4 10 14 9 5 16 17 10 6 17 17 10 6 21 18 11 12 29 13 13 30 14 16 33 15 16 36 20 38 41 Rol 2 Rol 3 Rol 4 EXEMPLO 1: Nota-se facilmente que a Moda para este conjunto de dados é o valor 14. Logo, este conjunto de dados é UNIMODAL (apenas uma Moda). Observe que o valor 17 aparece apenas duas vezes e portanto não pode ser considerado como uma moda do conjunto, uma vez que o valor 14 aparece três vezes. 3/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini i 1 2 3 4 5 6 7 8 9 10 11 12 Rol 1 10 7 3 6 14 8 4 7 14 8 4 10 14 9 5 16 17 10 6 17 17 10 6 21 18 11 12 29 13 13 30 14 16 33 15 16 36 20 38 41 Rol 2 Rol 3 Rol 4 EXEMPLO 2: Nota-se facilmente que no conjunto 2 existem duas modas, o valor 8 e o valor 10. Logo, este conjunto de dados é BIMODAL. EXEMPLO 3: No conjunto 3 existem três modas, o valor 4, o valor 6, e o valor 16. A este conjunto de dados denominamos MULTIMODAL. EXEMPLO 4: Neste conjunto de dados não existe um valor que apareça mais vezes que os outros. A este conjunto de dados denominamos AMODAL, ou seja, que não tem Moda. 3.1.3. CÁLCULO DA MEDIANA Cabem aqui algumas observações importantes sobre a Mediana: a) O valor da mediana pode coincidir ou não com um elemento da amostra. Quando o número de elementos da amostra é ímpar, há coincidência. O mesmo não acontece quando este número é par. b) A mediana e a média aritmética não têm necessariamente o mesmo valor. c) A mediana depende da posição e não dos valores dos elementos da amostra ordenada. Essa é uma das diferenças marcantes entre a mediana e média: a média se deixa influenciar, e muito, pelos valores extremos, enquanto a mediana não se importa com os valores dos dados, mas apenas com sua posição. Em função do tamanho da amostra (n), duas alternativas de cálculo são possíveis: a) n é ímpar n 1 Neste caso, o ROL comporta apenas um elemento central, cuja posição é dada por . 2 b) n é par n n Neste caso, o ROL admite dois valores centrais, de ordens e 1 . 2 2 A mediana é, por convenção, a média dos valores que ocupam estas duas posições centrais consecutivas. Considerando ser a Mediana uma medida de ordenamento do conjunto de dados, é imprescindível que seu cálculo seja efetuado sobre a amostra ordenada, ou seja, o ROL. Retomemos os conjuntos de dados ordenados dos exemplos: i 1 2 3 4 5 6 7 8 9 10 11 12 Rol 1 10 7 3 6 14 8 4 7 14 8 4 10 14 9 5 16 17 10 6 17 17 10 6 21 18 11 12 29 13 13 30 14 16 33 15 16 36 20 38 41 Rol 2 Rol 3 Rol 4 EXEMPLO 1: Este conjunto de dados possui 7 elementos, e portanto n é ímpar. Conjuntos de dados ímpares possuem um único elemento central, e sua posição é de ordem (n+1)/2. Assim, a ordem da MEDIANA num conjunto de dados com 7 elementos é o valor na posição (7+1)/2 = 4., ou seja, o valor 14. Logo, Md=14. EXEMPLO 2: Este conjunto de dados possui 10 elementos, e portanto n é par. Conjuntos de dados pares possuem dois elementos centrais, e a mediana é a média destes dois valores centrais. O primeiro destes valores centrais é de ordem n/2=10/2=5, e o segundo valor central é o seu elemento consecutivo, de ordem 6 (5+1). Neste caso, os valores dos elementos centrais são 10 (5º) e 10 (6º), e portanto a Mediana vale também 10, uma vez que ela é a média destes dois valores. Logo, Md=10. EXEMPLO 3: O conjunto 3 possui 11 elementos, e portanto é ímpar. O único elemento central neste caso é de ordem (n+1)/2. Assim, a mediana será o valor do elemento de ordem 6, que, por coincidência, neste caso também vale 6. Logo, Md=6. EXEMPLO 4: Este conjunto de dados possui 12 elementos, e portanto n é par. O primeiro valor central é de ordem n/2 = 12/2 = 6. Assim a mediana será a média entre o 6º e o 7º valores do conjunto, que são respectivamente 21 e 29. Logo Md=25. 4/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 3.2. DADOS AGRUPADOS SEM INTERVALOS Vamos retomar o exemplo de DF da variável discreta Idade dos Alunos de uma Turma com 50 alunos, utilizada no capítulo 3. Idade dos Alunos numa Turma (em anos) xi fi 17 3 18 18 19 17 20 8 21 4 Σ 50 3.2.1. CÁLCULO DA MÉDIA Neste caso, a média é calculada como a soma de cada elemento xi multiplicado pelo número de vezes que esta observação ocorre na amostra, ou seja, pela sua freqüência simples fi, dividida pelo número total de elementos na amostra (n). A fórmula de cálculo neste caso, é análoga à formula de cálculo para média ponderada, onde os pesos assumem os valores das freqüências de ocorrência de cada elemento. x f x f x i i ou x i i n onde fi xi são os valores da variável fi são as freqüências simples associadas a cada xi n é o nº de elementos na amostra, que é igual à soma das freqüências fi fi , que é o denominador da equação de cálculo da média. Falta encontrar o valor do numerador da equação representado por x i fi . A estratégia aqui é abrir uma coluna auxiliar na tabela acima, para cálculo dos produtos xixfi para cada classe, obtendo-se sua soma na linha de totalizações da tabela. Observe abaixo. Observe que na DF acima, já possuímos o valor da soma das freqüências xi 17 18 19 20 21 Σ fi 3 18 17 8 4 50 xixfi 51 324 323 160 84 942 Observe como agora o cálculo da média se torna uma operação muito simples: x 17 x 3 = 51 942 18,8 anos . 50 OBSERVAÇÃO IMPORTANTE Considerando que na DF SEM intervalos (VARIÁVEL DISCRETA) não há perda de detalhes nos valores da variável, a MÉDIA calculada através da Tabela é idêntica à MÉDIA calculada diretamente sobre os DADOS BRUTOS (à mão ou com o Excel), NÃO EXISTINDO neste caso o denominado erro de agrupamento. 3.2.2. CÁLCULO DA MODA Em uma amostra de dados agrupados em DF sem intervalos de classe, a moda é o valor de xi que ocorre com a maior freqüência fi. Como f2 é a maior freqüência, então x2 é o valor da moda. Logo, Mo=18 anos. xi 17 18 19 20 21 fi 3 18 17 8 4 5/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini 3.2.3. CÁLCULO DA MEDIANA Para determinar o valor que divide a distribuição em dois grupos que contenham o mesmo número elementos, recorre-se à freqüência acumulada, e identifica-se a qual classe pertence o elemento central, mesma forma que se procedeu para os dados não agrupados. Em função de n ser par ou ímpar e do valor freqüência acumulada da classe, determina-se o valor da Mediana. Conforme mencionado, necessitamos DF com a coluna correspondente a Fi, conforme mostrado abaixo. xi fi Fi 17 3 3 18 18 21 19 38 17 20 8 46 21 4 50 50 Σ de da da da Em virtude do tamanho da amostra (n) ser par (50), precisamos identificar quais as idades do 25º (n/2) e do 26º (consecutivo) alunos na amostra ordenada (elementos centrais), para calcular a MEDIANA como a média das idades destes dois alunos. Nosso problema reside então em identificar quais as idades dos dois alunos centrais, para o que necessitamos da Freqüência Acumulada. Vamos observar o seguinte raciocínio: A primeira classe (17 anos) contém do 1º ao 3º (F1=3) alunos. A segunda classe (18 anos) contém do 4º até o 21º (F 2=21) alunos. A terceira classe (19 anos) contém do 22º até o 38º (F3=38) alunos. Pergunta-se: em qual classe está o 25º aluno? E o 26º? Se a 3ª classe agrupa do 22º até o 38º alunos, então o 25º e o 26º estão nesta classe. Assim, o 25º aluno está na 3ª classe e possui 19 anos e o 26º aluno também está na 3ª classe e também possui 19 anos. Resumindo: Elementos centrais 25º aluno tem 26º aluno tem Idades 19 anos. 19 anos. Logo, Md=19 anos (média de 19 anos e 19 anos). Suponha agora que na turma acima, tenham ingressado 4 alunos com 20 anos e 3 alunos com 21 anos. A nova DF da turma passaria a ser: xi 17 18 19 20 21 Σ fi 3 18 17 12 7 57 Fi 3 21 38 50 57 Qual seria a nova MEDIANA? Como agora n é ímpar, existe um único valor central, que é o elemento de ordem (57+1)/2 = 29º. Qual a classe que contém o 29º aluno? Observa-se que o 29º aluno está na 3ª classe. Qual a IDADE do 29º aluno? A idade do 29º aluno é 19 anos. Logo, Md=19 anos (idade do elemento central único). 3.3. DADOS AGRUPADOS COM INTERVALOS Vamos retomar o exemplo de DF da variável contínua Salário dos Empregados da Empresa X, utilizada no capítulo 3. Salários ($) 200 |---- 300 300 |---- 400 400 |---- 500 500 |---- 600 600 |---- 700 700 |---- 800 Σ fi 2 3 13 11 9 2 40 6/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 3.3.1. CÁLCULO DA MÉDIA A fórmula de cálculo neste caso, é idêntica à formula para dados agrupados sem intervalos, com a diferença de que aqui estaremos (por convenção) assumindo que a freqüência da classe ocorre para o ponto médio da classe. x f x f x i i ou x i i n fi onde xi são os pontos médios dos intervalos de classes fi são as freqüências simples associadas a cada xi n é o nº de elementos na amostra, que é igual à soma das freqüências fi Observe que, como no caso de DF sem intervalos, aqui também já possuímos o valor da soma das freqüências fi , que é o denominador da equação de cálculo da média. Falta encontrar o valor do numerador da equação representado por x i fi . Ocorre que neste caso, xi representa os pontos médios das classes, o que vai requerer agora a abertura de duas colunas auxiliares na DF anterior: uma coluna para cálculo de xi e outra para cálculo dos produtos xixfi para cada intervalo de classe. Observe abaixo. Salários ($) 200 |---- 300 300 |---- 400 400 |---- 500 500 |---- 600 600 |---- 700 700 |---- 800 Σ Logo, x fi 2 3 13 11 9 2 40 xi 250 350 450 550 650 750 xixfi 500 1050 5850 6050 5850 1500 20800 2 x 250 = 500 x i fi 20800 = $520,00 40 fi OBSERVAÇÃO IMPORTANTE Em virtude da aproximação feita de que os pontos médios dos intervalos representam o valor de todos os elementos contidos em cada intervalo, EXISTE neste caso o denominado erro de agrupamento. A média calculada a partir da DF difere daquela calculada a partir da TABELA PRIMITIVA ou ROL. Recomenda-se neste caso utilizar a DF apenas para apresentação TABULAR e GRÁFICA, enquanto os cálculos de MEDIDAS ESTATÍSTICAS devem ser desenvolvidos com o Excel a partir da TABELA PRIMITIVA ou do BANCO DE DADOS da pesquisa. 3.3.2. CÁLCULO DA MODA A classe que apresenta a maior freqüência é denominada classe modal. Pela definição, afirmamos que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. 3.3.2.1. Moda Bruta O método mais simples para o cálculo da moda (moda bruta) consiste em tomar o ponto médio da classe modal. A CLASSE MODAL é a classe que apresenta a maior freqüência simples absoluta. Classe Modal Salários ($) 200 |---- 300 300 |---- 400 400 |---- 500 500 |---- 600 600 |---- 700 700 |---- 800 Σ fi 2 3 13 11 9 2 40 xi 250 350 450 550 650 750 Na DF de exemplo, a MODA BRUTA é Mo=$450,00 7/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini 3.3.2.2. Moda Exata ou Moda de Czuber É uma medida mais precisa, pois leva em consideração as freqüências das classes anterior à modal, da classe modal e da classe posterior à classe modal. Mo lmo D1 h D1 D2 onde: lmo – limite inferior da classe modal fmo – freqüência absoluta da classe modal fant – freqüência absoluta da classe anterior à classe modal fpos – freqüência absoluta da classe posterior à classe modal h – amplitude do intervalo de classe D1 = fmo – fant e D2 = fmo - fpos Salários ($) Classe Modal 200 300 400 500 600 700 Σ |---|---|---|---|---|---- 300 400 500 600 700 800 fi 2 3 13 11 9 2 40 xi 250 350 450 550 650 750 Identificando componentes da fórmula: mo=400; D1=13-3=10; D2=13-11=2; Mo 400 h=500-400=100 10 100 $483,33 10 2 3.3.3. CÁLCULO DA MEDIANA Para determinar a mediana dos dados agrupados em tabelas com intervalos de classes, devemos seguir os seguintes passos: a) Determinar as freqüências acumuladas absolutas. b) Calcular a ordem do elemento mediano n/2 ou equivalentemente nxP, onde P=50% (0,50) c) Identificar a classe correspondente à freqüência acumulada imediatamente superior a n/2, que é a classe que contém a mediana, para em seguida aplicar a fórmula: Md lmed n / 2 Fant hmed fmed onde lmed = limite inferior da classe mediana fmed = freqüência absoluta da classe mediana Fant = freqüência acumulada da classe anterior à classe mediana hmed = amplitude do intervalo da classe mediana NOTA: No caso de VARIÁVEIS CONTÍNUAS, não é necessário identificar se n é par ou ímpar. EXEMPLO DE CÁLCULO: Salários ($) 200 |---- 300 300 |---- 400 400 |---- 500 500 |---- 600 600 |---- 700 700 |---- 800 Σ Classe Medianal fi 2 3 13 11 9 2 40 Fi 2 5 18 29 38 40 1ª Classe com F maior ou igual a n/2 (20). Identificando componentes da fórmula: (n/2) ou (50% de n)=20; Classe Mediana=4ª; Md 500 lmed=500; fmed=11; hmed=100; Fant=18 (20 18 ) 2 100 Md 500 100 Md $518,18 11 11 8/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini Visando proporcionar um melhor entendimento da fórmula de cálculo da mediana para VARIÁVEIS CONTÍNUAS, vamos aplicar os mesmos conceitos utilizados na determinação da mediana no caso de VARIÁVEIS DISCRETAS. Foi visto que a primeira providência é identificar, através das freqüências acumuladas, qual a classe mediana, ou seja, a classe que contém o elemento de ordem (n/2). No caso de exemplo, identifica-se a 4ª classe como a classe mediana, pois ela agrupa os elementos de ordem 19º ao 29º. Como conseqüência, sabemos que o 20º elemento, que é pertencente a esta classe, possui então um salário de $500 a menos de $600. Mas como determinar exatamente, ou pelo menos com maior precisão do que $500|---$600, qual o valor do salário do elemento central da distribuição (20º elemento)? A hipótese subjacente ao modelo de cálculo adotado, é de que os elementos pertencentes à classe mediana se distribuem uniformemente no intervalo delimitado pela classe. Com base nessa premissa, podemos antever que o resultado propiciado pela fórmula é apenas uma aproximação do valor procurado, pois não há garantias sobre a uniformidade assumida. Vamos examinar no caso do exemplo, através da ilustração abaixo, qual o tratamento adotado pelo modelo de cálculo. A linha diagonal unindo as freqüências acumuladas da 3ª e 4ª classe, 18 e 29 respectivamente, representa justamente a uniformidade assumida por hipótese. Sabemos que a 4ª classe ($500|---$600) contém os elementos de ordem 19º ate o 29º (11 elementos). O modelo de uniformidade na distribuição dos elementos impõe que o 19º elemento possui o salário de $500 e que o 29º elemento recebe aproximadamente $600 (na verdade, 599,9999...). Nota-se assim que a uma variação de 11 elementos (do 19º ao 29º ou 29-18=11) correspondeu uma variação salarial de $100 ($600-$500). A pergunta a ser respondida, é quanto devemos adicionar (x) ao salário do 18º elemento ($500), para uma variação de 2 elementos (20º - 18º), de forma que tal variação se dê na mesma proporção apresentada pelos limites da 4ª classe? A solução da questão está na aplicação do critério de proporcionalidade (assumido na hipótese de distribuição uniforme), conforme mostra a ilustração acima. Montamos assim a famosa “regra de três” mostrada na figura acima, ou seja: Variação de 11 elementos (fmed) implica numa variação salarial de $100 (hmed). Variação de 2 elementos (n/2 – Fant) deve provocar uma variação de $x. 2 100 2 100 , e cujos valores são originados , que pode ser escrita também na forma x 11 11 (n / 2 Fant ) hmed . Para completar o cálculo da MEDIANA, é preciso adicionar o valor de x (18,18) ao de x fmed limite inferior da classe mediana lmed (500), obtendo-se Md=518,18. Então, o cálculo que fizemos da Mediana 2 100 . Retornando os valores utilizados neste cálculo à suas origens, verificamos que a foi Md 500 11 Mediana foi calculada como: (n / 2 Fant ) Md lmed hmed fmed A solução é: x que é exatamente a fórmula de cálculo da Mediana já apresentada. 9/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini Cabe ressaltar que o critério de uniformidade na distribuição dos elementos dentro de um intervalo, foi utilizado no cálculo da MODA, é utilizado no cálculo da MEDIANA, e será utilizado no cálculo de SEPARATRIZES, conforme será visto adiante. 4. PROPRIEDADES DA MÉDIA Vimos que a definição de Média envolveu o conceito de Somatório. Aplicando-se as propriedades deste tipo de notação à formulação da Média, podemos derivar algumas propriedades que serão muito úteis em algumas situações, permitindo-nos adiantar resultados sem a necessidade de efetuarmos extensos cálculos. 4.1. 1ª PROPRIEDADE: SOMA DE DESVIOS NULA Define-se DESVIO EM RELAÇÃO À MÉDIA, como a diferença entre o valor de um elemento de um conjunto de dados, e o valor da média deste conjunto. Di x i x 1ª PROPRIEDADE A soma algébrica de todos os desvios em relação à média é nula. Formulação matemática: n Di 0 i1 EXEMPLO: Seja o conjunto de dados 5, 6, 7, 8, 9, cuja média é facilmente identificável como sendo o valor 7. Valores xi 5 6 7 8 9 Média=7 Di=(xi – Média) -2 -1 0 1 2 ΣDi = 0 4.2. 2ª PROPRIEDADE: SOMA DE CONSTANTE 2ª PROPRIEDADE Somando-se (ou subtraindo-se) uma constante ‘C’ a todos os valores de uma variável, a MÉDIA do conjunto fica aumentada (ou diminuída) desta constante. Se Yi Xi C Y X C Formulação matemática: EXEMPLO: Seja o conjunto de dados 5, 6, 7, 8, 9, e seja C=3. Se Y=X+C, teremos: Valores Xi Valores Yi 5 8 6 9 7 10 8 11 9 12 Média=7 Média=10 4.3. 3ª PROPRIEDADE: PRODUTO POR CONSTANTE 3ª PROPRIEDADE Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante ‘K’, a MÉDIA do conjunto fica multiplicada (ou dividida) por esta constante. Se Yi Xi.K Y X.K Formulação matemática. EXEMPLO: Seja o mesmo conjunto de dados anterior, e seja K=2. Se Y=XxK, teremos: Valores Xi Valores Yi 5 10 6 12 7 14 8 16 9 18 Média=7 Média=14 10/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 4.4. APLICAÇÃO DAS PROPRIEDADES Retomemos a Distribuição de Freqüências da variável Salários da Empresa X. Salários ($) 200 |---- 300 300 |---- 400 400 |---- 500 500 |---- 600 600 |---- 700 700 |---- 800 Σ No item 3.3.1. calculamos a Média como sendo x fi 2 3 13 11 9 2 40 xi 250 350 450 550 650 750 xixfi 500 1050 5850 6050 5850 1500 20800 x i fi 20800 = $520 40 fi Suponha agora que a Empresa X tenha concedido a todos seus funcionários um aumento salarial de 10%, e também um abono de $60 a título de ajuda para transporte. Qual seria o novo SALÁRIO MÉDIO na Empresa X? O procedimento habitual seria recalcular o salário de todos os 40 funcionários, montar uma nova DF e então calcular a média para essa nova DF. No entanto, considerando que a empresa vai aplicar os aumentos concedidos igualmente a todos os funcionários, esta condição nos permite aplicar as propriedades da média conforme a seguir: a) todos os funcionários terão seus salários aumentados em 10%. Logo, um funcionário cujo salário fosse ‘x’ passaria, em função deste aumento percentual, a receber x+10%x que totaliza 1,10x. Identificamos aqui um fator multiplicador para todos os salários de valor 1,10. b) todos os funcionários passarão a receber adicionalmente uma quantia fixa de $60 a título de ajuda transporte. Logo, um funcionário cujo salário fosse ‘x’ passaria, em função deste abono (quantia fixa), a receber x+$60. Identificamos aqui um fator aditivo para todos os salários no valor fixo de $60. Observe que teremos que aplicar simultaneamente duas propriedades da média: a da soma de constante e a do produto por constante. Formulando matematicamente o problema, temos que se xi representa o salário atual de cada funcionário, o novo salário de cada funcionário, que denominaremos por yi, estará relacionado com o anterior desta forma: Yi 1,10 Xi 60 Assim, se o salário médio atual é $520, a aplicação dos dois tipos de aumento concedidos levará o novo salário médio para y 1,10 520 60 , que resulta no valor $632. OBSERVAÇÃO IMPORTANTE Somente podemos antecipar resultados através da aplicação de propriedades da média, se a alteração for aplicada igualmente a todos os elementos do conjunto. 5. ANÁLISE COMPARATIVA DAS MEDIDAS DE POSIÇÃO Analisando as definições e formas de cálculo das três medidas estatísticas MÉDIA, MODA e MEDIANA, podemos destacar as vantagens e desvantagens de cada uma destas medidas. A escolha sobre qual (ou quais) destas medidas utilizar para mostrar (ou enfatizar) a tendência dos valores de se agruparem em torno de valores centrais, ou mesmo para nos dar uma idéia sobre como o conjunto de valores está posicionado em seu eixo de valores, depende fundamentalmente do tipo de análise que se pretende desenvolver na pesquisa realizada. O quadro a seguir reúne as principais características de cada uma das três medidas estatísticas estudadas. 11/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini PRINCIPAIS CARACTERÍSTICAS DAS MEDIDAS DE POSIÇÃO MODA VANTAGENS DESVANTAGENS Fácil de calcular. Pode estar afastada do centro dos dados. Não é afetada pelos dados extremos. Difícil de incluir em funções matemáticas. Pode ser aplicada em qualquer escala: nominal, A amostra pode ter mais de uma moda e algumas ordinal, intervalar e razão (ou proporcional). amostras podem não ter moda. Não utiliza todos os dados da amostra. MEDIANA VANTAGENS Fácil de calcular. Não é afetada pelos dados extremos. É um valor único. Aplicável em escalas ordinal, intervalar e razão. DESVANTAGENS Difícil de incluir em funções matemáticas. Não utiliza todos os dados da amostra. MÉDIA VANTAGENS Fácil de compreender e aplicar. Utiliza todos os dados da amostra. É um valor único. Aplicável em escalas intervalar e razão. DESVANTAGENS É afetada pelos dados extremos da amostra. Requer o conhecimento de todos os dados da amostra. 6. POSIÇÃO RELATIVA DA MÉDIA, MODA E MEDIANA Embora o conceito de simetria não tenha sido introduzido ainda, é muito fácil de ser entendido e será necessário para verificarmos como a forma de uma DF influencia os valores das três medidas de posição. Numa distribuição de freqüências SIMÉTRICA em relação à MÉDIA, os valores da MÉDIA, MODA e MEDIANA coincidem, e não é difícil de visualizarmos este fato. Uma distribuição é ASSIMÉTRICA POSITIVA quando os valores de seu extremo superior estão mais afastados da MÉDIA que seus valores do extremo inferior, resultando num contorno que apresenta uma cauda mais longa na direção do extremo superior dos valores. No item anterior foi enfatizado que a MÉDIA é a única medida de posição que é afetada pelos valores extremos. A ASSIMETRIA POSITIVA afeta a MÉDIA ‘puxando-a’ em sua direção, ou seja, na direção da cauda mais longa que é a superior. Observe o que acontece com as três medidas de posição neste caso. Reciprocamente, uma ASSIMETRIA NEGATIVA apresenta uma cauda mais longa na direção dos valores extremos inferiores, o que afeta a MÉDIA ‘puxando-a’ também na direção dos valores extremos inferiores. A MODA é facilmente identificável em ambos os casos: é a ordenada correspondente ao pico (máximo) de freqüência. Diante da constatação de que a cauda mais longa traz a MÉDIA para seu lado, é fácil percebermos que a cauda mais longa acaba por puxar para seu lado a MEDIANA também, quando confrontada com a MODA. Assim, mesmo sem calcular os valores das três medidas, dependendo da forma (gráfico) da DF, podemos estabelecer as relações acima entre as três medidas. 12/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 7. MEDIDAS SEPARATRIZES A mediana divide uma série de valores em dois grupos, cada um deles contendo 50% dos elementos da amostra. Outras proporções entre grupos na separação de uma série de dados podem ser definidas, gerando o conjunto de medidas denominado de SEPARATRIZES. As Separatrizes mais comuns são: QUARTIS: Q1 , Q2 , Q3 (25%, 50%, 75%) DECIS: D1 , D2 , ...., D9 (10%, 20%,...90%) PERCENTIS: P10 , P45 , P75 , etc. Observe que a MEDIANA corresponde ao segundo Quartil (Q2) e também ao Percentil P50. O método de cálculo de SEPARATRIZES é análogo ao método de cálculo da MEDIANA, adaptando-se a proporção de separação n/2 (ou 50%) à esquerda ou abaixo da MEDIANA, para a proporção especificada pela SEPARATRIZ, que assim passa a ser representada por nxp, onde p é a proporção desejada (0,10; 0,20; 0,25;.....;0,75; 0,80; 0,90;....) de elementos à sua esquerda ou abaixo dela.. Para determinar uma SEPARATRIZ de qualquer ordem em dados agrupados em tabelas com intervalos de classes, a exemplo do que ocorre com a MEDIANA, devemos seguir os seguintes passos: a) Determinar as freqüências acumuladas. b) Calcular o elemento separador np c) Marcar a classe correspondente à freqüência acumulada imediatamente superior a np, que é a classe que contém a separatriz desejada, para em seguida aplicar a fórmula: Sep lsep (n p Fant ) hsep fsep onde: n = número de elementos na amostra p = percentual de elementos deixados à esquerda (ou abaixo) lsep = limite inferior da classe que contém a separatriz fsep = freqüência absoluta da classe que contém a separatriz Fant = freqüência acumulada da classe anterior à classe que contém a separatriz hsep = amplitude do intervalo da classe que contém a separatriz EXEMPLO: Vamos calcular P71 para a DF de Salários da Empresa X. Fi Salários ($) fi 200 |---- 300 2 2 300 |---- 400 3 5 400 |---- 500 13 18 500 |---- 600 11 29 600 |---- 700 9 38 700 |---- 800 2 40 Σ 40 Identificação dos componentes da fórmula: nxp = 40x0,71 = 28,4; lsep = $500; fsep = 11; Fant = 18; hsep = 100 Aplicando a fórmula temos: P71 500 1ª Classe com F maior ou igual a 28,4 (71%). 28,4 18 100 que fornece o resultado P71 = $594,55. 11 13/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini 8. MEDIDAS DE POSIÇÃO NO EXCEL Quando se dispõe de um aplicativo como o Excel, utilizaríamos a DISTRIBUIÇÃO DE FREQÜÊNCIAS apenas para a apresentação tabular e gráfica dos dados. Todas as Medidas Estatísticas podem (e devem) ser calculadas através de funções do Excel, pois além do cálculo ser muito mais rápido que os cálculos manuais, as funções podem ser aplicadas diretamente aos Dados Brutos (Tabela Primitiva ou Banco de Dados), o que torna os resultados mais precisos, como vamos observar adiante. As funções do Excel para Medidas de Posição são: MÉDIA Função MÉDIA(núm1;núm2; ...) núm1; núm2;... são de 1 a 30 argumentos numéricos para os quais se deseja obter a média. COMENTÁRIOS: a) Os argumentos devem ser números ou eles devem ser nomes, matrizes ou referências que contenham números. b) Se uma matriz ou argumento de referência contiver texto, valores lógicos ou células vazias, estes valores serão ignorados; no entanto, células com valor zero serão incluídas. MODA Função MODO(núm1;núm2;...) núm1, núm2,...são argumentos de 1 a 30 para os quais se deseja calcular a Moda. Pode-se usar também uma única matriz ou referência a uma matriz em vez de argumentos separados por pontos-evírgulas. COMENTÁRIOS a) Os argumentos devem ser números ou nomes, matrizes ou referências que contenham números. b) Se uma matriz ou argumento de referência contiver texto, valores lógicos ou células vazias, estes valores serão ignorados; no entanto, células com valor zero serão incluídas. c) Se o conjunto de dados não contiver pontos de dados duplicados, MODO retornará o valor de erro #N/D. MEDIANA Função MED(núm1;núm2;...) núm1; núm2;...são de 1 a 30 números dos quais se deseja obter a mediana. COMENTÁRIOS a) Os argumentos devem ser números ou nomes, matrizes ou referências que contenham números. O Excel examina todos os números em cada argumento de referência ou matriz. b) Se uma matriz ou argumento de referência contiver texto, valores lógicos ou células vazias, estes valores serão ignorados; no entanto, células com valor zero serão incluídas. c) Se houver uma quantidade par de números no conjunto, MED calculará a média dos dois números do meio. PERCENTIL Função PERCENTIL(matriz;k) matriz é a matriz ou intervalo de dados que se quer definir a posição relativa. k é o valor do percentil no intervalo 0...1, inclusive. COMENTÁRIOS a) Se matriz estiver vazio ou contiver mais de 8.191 pontos de dados, PERCENTIL retornará o valor de erro #NÚM!. b) Se k não for numérico, PERCENTIL retornará o valor de erro #VALOR!. c) Se k for < 0 ou se k > 1, PERCENTIL retornará o valor de erro #NÚM!. d) Se k não for um múltiplo de 1/(n - 1), PERCENTIL interpolará para determinar o valor no k-ésimo percentil. QUARTIL Função QUARTIL(matriz;quarto) matriz é a matriz ou intervalo de célula de valores numéricos cujo valor quartil você deseja obter. quarto indica o valor a ser retornado. Se quarto for igual a (0 a 4), QUARTIL retornará 0 Valor mínimo 1 Primeiro quartil (25º percentil) 2 Valor médio (50º percentil) 3 Terceiro quartil (75º percentil) 4 Valor máximo 14/17 ESTATÍSTICA I Cap 4 – MEDIDAS DE POSIÇÃO Prof Me Aloizio Magrini CONTINUAÇÃO DE QUARTIL COMENTÁRIOS Se a matriz estiver vazia, QUARTIL retornará o valor de erro #NÚM!. Se quarto não for um número inteiro, será truncado. Se quarto < 0 ou se quarto > 4, QUARTIL retornará o valor de erro #NÚM!. MÍNIMO, MED e MÁXIMO retornarão o mesmo valor que QUARTIL quando quarto for igual a 0, 2 e 4, respectivamente. Vamos verificar os resultados dos cálculos feitos à mão com os resultados obtidos com as funções do Excel. No caso da variável Idade dos Alunos, o cálculo de medidas feito à mão sobre a DF SEM intervalos resultou em: média=18,8; Mo=18; Md=19. Observa-se que NÃO houve perda de precisão no cálculo. No caso da variável Salários, o cálculo de medidas feito à mão sobre a DF COM intervalos resultou em: média=520,00; Mo=483,33; Md=518,18. Observa-se neste caso a ocorrência do que denominamos de erro de agrupamento, introduzido pelo agrupamento de valores da variável em INTERVALOS. 15/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini EXERCÍCIOS PROPOSTOS Calcule MÉDIA, MODA BRUTA e MODA DE CZUBER (quando for o caso), MEDIANA , Q1 e Q3 para todas as séries de dados a seguir: 1. DADOS NÃO AGRUPADOS a) 2, 3, 5, 4, 5, 2, 5, 7 b) 4, 12, 5, 9, 12, 4, 3 c) 7, 7, 7, 7, 7 d) 4, 5, 6, 6, 6, 7, 8, 8, 8, 9, 10, 10, 10, 11 e) 2, 5, 9, 8, 10, 12 2. DADOS AGRUPADOS. Responda também qual medida representa melhor a série. a) i 1 2 3 4 xi 2 3 4 5 Total fi 1 7 2 2 Fi xi x fi i 1 2 3 4 5 Nº Acidentes por Dia 0 1 2 3 4 Total Nº Dias 30 5 3 1 1 Fi xi x fi i 1 2 3 4 5 Salários em R$ 1.000 |---1.200 1.200 |---1.400 1.400 |---1.600 1.600 |---1.800 1.800 |---2.000 Total Nº Func. 2 6 10 5 2 Fi xi x fi xi i 1 2 3 4 5 6 Valor da Venda R$$ 0 |---50 50 |---100 100 |---150 150 |---200 200 |---250 250 |---300 Total Nº de NF Fi xi x fi xi b) c) i) 10 28 12 2 1 1 16/17 Cap 4 – MEDIDAS DE POSIÇÃO ESTATÍSTICA I Prof Me Aloizio Magrini e) i 1 2 3 4 5 i 1 2 3 4 5 6 0 2 4 6 8 Notas |---|---|---|---|---Total 2 4 6 8 10 150 160 170 180 190 200 Altura (cm) |---|---|---|---|---|---Total 160 170 180 190 200 210 Nº Alunos Fi xi x fi xi Fi xi x fi xi 5 20 12 20 3 f) Nº Alunos 2 15 18 18 16 1 17/17