ESTATÍSTICA 2 1 INTRODUÇÃO Desde a antiguidade, vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam equitativamente terras ao povo, cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje, chamaríamos de ESTATÍSTICA. Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou bélicas. A partir do Século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No Século XVIII começaram a surgir os estudos de tais fatos que foram adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou a nova Ciência (ou método) com o nome de ESTATÍSTICA, determinando o seu objetivo e suas relações com as ciências. Atualmente, a definição de Estatística não é única, pois abrange muito mais do que um traçado de gráfico e cálculos de medidas. Uma definição seria: “A Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões” (CRESPO, 2002, p.13). ¾ Ramos da Estatística ESTATÍSTICA DEDUTIVA ou DESCRITIVA: Trata da coleta, da organização e da descrição dos dados. TEORIA DA PROBABILIDADE: Proporciona uma base racional para lidar com situações influenciadas por fatores que envolvem o acaso. ESTATÍSTICA INDUTIVA ou INFERENCIAL: Trata da análise e da interpretação desses dados. ¾ Método Estatístico Método é o caminho pelo qual se chega a determinado resultado (existem outras definições). O método estatístico, diante da impossibilidade de manter as causas constantes, admite essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada um deles. Fases do método estatístico: Coleta de dados, crítica dos dados, apuração dos dados, exposição dos dados, análise dos resultados ¾ Objetivo da ESTATÍSTICA O objetivo último da estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística Descritiva), procede-se a análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que tem base a indução ou inferência, e tira-se desses resultados conclusões e previsões. ¾ Alguns conceitos fundamentais: POPULAÇÃO: É um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. A população pode ser finita ou infinita, dependendo de o número de elementos ser finito ou infinito. Na prática, quando uma população é finita, com um número grande de elementos, considera-se como população infinita. AMOSTRA: Considerando-se a impossibilidade, na maioria das vezes, do tratamento de todos os elementos da população, retira-se uma amostra (subconjunto finito de uma população), de acordo com alguma técnica de amostragem. VARIÁVEIS QUALITATIVAS: podem ser separados em diferentes categorias, atributos, que se distinguem por uma característica não numérica. Divide-se em: I – Nominal: São dados caracterizados por rótulos ou categorias. Por exemplo: sexo, estado civil, cor dos olhos, etc. II – Ordinal: são dados caracterizados por uma ordem, mas não podem ser definidos por valor numérico. Exemplo: Nível de escolaridade (Fundamental, médio, superior), 3 intensidade da luz (muito forte, forte, média, suave, muito suave), etc. VARIÁVEIS QUANTITATIVAS: Consistem em números que representam contagens ou medidas. Dividem-se em: I – Discretas: Resultam de um conjunto finito, enumerável, de valores possíveis. Exemplo: número de filhos. II – Contínuas: Resultam de um número infinito de valores possíveis, que podem ser associados a pontos em uma escala contínua. Exemplo: peso, altura. EXERCÍCIOS Classifique cada uma das variáveis a seguir em qualitativa nominal ou ordinal e em quantitativa discreta ou contínua: a) Cor dos cabelos b) Números de filhos c) O ponto obtido ao se jogar um dado d) Saldo em uma conta corrente (R$) e) Grau de instrução f) Classe econômica g) Hierarquia de uma empresa h) Diâmetro de peças produzidas i) Comprimento de peças produzidas j) Tempo de espera na fila do banco (em minutos) k) Nome dos países exportadores de petróleo l) Grau de satisfação dos clientes de uma loja m) nº de ações negociadas na bolsa de valores n) Nº de alunos de uma universidade o) Estatua dos alunos de uma escola p) Precipitação pluviométrica durante um ano q) Nº de volumes de livros existentes nas bibliotecas de Rondônia r) Índice de liquidez das indústrias de Rondônia 2. NÚMEROS APROXIMADOS E ARREDONDAMENTO DE DADOS Como sabemos, os números resultam de uma mensuração (no sentido mais amplo), a qual só pode ser exata quando assume a forma de contagem ou numeração, em números naturais, de coisas ou unidades mínimas indivisíveis. Em tais casos, a variável pode assumir valores discretos ou descontínuos (somente). ¾ Arredondamento de Dados Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta técnica é denominada ARREDONDAMENTO DE DADOS. De acordo com a resolução número 886/66 da Fundação IBGE, o arredondamento é feito da seguinte maneira: a) Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer (arredondamento por falta). Exemplo: 53,24> 53,2 58,83> 58,8 0,34853> 0,3485 3,0047523> 3,004752 b) Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer (arredondamento por excesso). Exemplo: 42,87> 42,9 24,39> 24,4 25,089> 25,09 72,99> 73 c) Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: I - Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma 4 unidade ao algarismo a permanecer. Exemplos: 2,352> 2,4 76,25002> 76,3 25,6501> 25,7 2,3851> 2,39 II - Se ao 5 seguirem zeros ou se o 5 for o último algarismo a ser conservado só será aumentado de uma unidade se for ímpar. Exemplos: 24,75> 24,8 24,85> 24,8 24,65> 24,6 24,7500> 24,8 Obs: Nunca devemos fazer arredondamentos sucessivos; é conveniente primeiro somar e depois fazer o arredondamento. EXERCÍCIOS 1) Arredonde para o décimo mais próximo (uma casa decimal): a) 2,38 c) 4,24 e) 6,829 g) 0,351 b) 24,65 d) 328,35 f) 5,550 h) 2,97 i) 89,99 j) 3,75 2) Arredonde para o centésimo mais próximo (duas casas decimais): a) 46,727 c) 299,951 e) 253,650 b) 123,842 d) 28,255 f) 34,485 3) Arredonde para a unidade mais próxima (nenhuma casa decimal): a) 26,6 c) 67,5 e) 128,5 b) 49,98 d) 68,2 f) 39,49 3. DISTRIBUIÇÃO DE FREQUÊNCIAS A distribuição de freqüência constitui-se no tipo de tabela mais importante para a Estatística Descritiva. Distribuição de freqüência sem intervalos de classe (variável discreta) Quando se trata de variável discreta de variação relativamente pequena, cada valor pode ser tomado como um intervalo de classe (intervalo degenerado). ¾ Dados Brutos: O conjunto dos dados numéricos obtidos após a crítica dos valores coletados constitui-se nos dados brutos (tabela primitiva). Exemplo: 24 26 24 35 23 21 33 33 22 25 34 31 28 36 21 34 35 26 31 25 21 22 25 25 23 30 31 33 32 26 ¾ Rol: É o arranjo dos dados brutos em ordem de freqüência crescente ou decrescente. Exemplo: 21 24 28 33 21 25 30 34 21 25 31 34 22 25 31 35 22 25 31 35 23 26 32 36 23 26 33 24 26 33 ¾ Amplitude total (At) ou Range (R): É a diferença entre o maior e o menor valor observados. No exemplo anterior temos: At = 36 − 21 = 15 ⇒ At = 15 . ¾ Freqüência absoluta (fi): É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. No exemplo anterior temos: F(21) = 3, F(36 ) = 1 , etc. ¾ Freqüência absoluta acumulada (Fi): É a soma das freqüências dos valores inferiores ou iguais ao valor dado. ¾ Freqüência relativa (fri): São os valores das razões entre as freqüências absolutas e a freqüência total. 5 ¾ Freqüência relativa acumulada (FRi): É a soma das freqüências relativas dos valores inferiores ou iguais ao valor dado. Exemplo: xi 21 22 23 24 25 26 28 30 31 32 33 34 35 36 Σ fi 3 2 2 2 4 3 1 1 3 1 3 2 2 1 30 Fi 3 5 7 9 13 16 17 18 21 22 25 27 29 30 fri 0,1000 0,0667 0,0667 0,0667 0,1333 0,1000 0,0333 0,0333 0,1000 0,0333 0,1000 0,0667 0,0667 0,0333 1,0000 FRi 0,1000 0,1667 0,2334 0,3001 0,4334 0,5334 0,5667 0,6000 0,7000 0,7333 0,8333 0,9000 0,9667 1,0000 ¾ Representação gráfica – Histograma Distribuição de freqüência com intervalos de classe (variável contínua) Número de classes(k): Não há uma fórmula exata para o cálculo do número de classes. A seguir, uma sugestão: k= 5 para n ≤ 25 e k = n , para n > 25. Exemplo: k = 55 = 7,4 , podemos ter 6,7 ou 7 classes. At ¾ Amplitude das classes (h): É dada pela relação h = k ¾ Limites das classes: Existem diversas maneiras de expressar os limites das classes. Porém iremos utilizar a seguinte Li|—li. Exemplo: 10 |— 12 compreende todos os valores de 10 até antes de 12. Li – limite superior da classe; li – limite inferior da classe. ¾ Ponto médio das classes (xi): É a média aritmética entre o limite superior e o limite inferior da classe. Assim, se a classe for 10 |— 12, tem-se: L + l 10 + 12 = 11 , como ponto médio da classe. xi = i i = 2 2 Exemplo: Dada a estatura de 40 alunos do Colégio A, pede-se: 150 156 161 164 151 156 161 165 152 157 161 166 153 158 161 167 154 158 162 168 155 160 162 168 155 160 163 169 155 160 163 170 155 160 164 172 156 160 164 173 a) O tamanho da amostra → n = 40 b) A amplitude total → At = 173 − 150 = 23 c) O número de classes → k = 40 = 6,3 , podemos ter 5, 6 ou 7 classes. d) A amplitude das classes → Como At =23 e não é divisível por 5, 6 ou 7, nesse caso 24 precisaremos ajustar seu valor At = 23 + 1=24 → h = =4 6 e) A distribuição de freqüência contendo: classes, freqüência, ponto médio, freqüência acumulada e freqüência relativa. 6 Classes 150 |— 154 154 |— 158 158 |— 162 162 |— 166 166 |— 170 170 |— 174 Σ ESTATURA DE 40 ALUNOS DO COLÉGIO A xi Fi fri 152 4 0,10 156 13 0,22 160 24 0,28 164 32 0,20 168 37 0,12 172 40 0,08 1,00 fi 4 9 11 8 5 3 40 FRi 0,10 0,32 0,60 0,80 0,92 1,00 ¾ Representação gráfica a) Histograma e polígono de freqüência b) Polígono da freqüência acumulada EXERCÍCIOS 1) Dada a amostra: 3, 4, 4, 5, 7, 6, 6, 7, 7, 4, 5, 5, 6, 6, 7, 5, 8, 5, 6, 6. Pede-se: o Rol; amplitude da amostra; a distribuição de frequência contendo frequência absoluta, frequência absoluta acumulada, frequência relativa e frequência relativa acumulada; o gráfico das frequências; a porcentagem de elementos maiores que 5. 2) Considere os dados obtidos pelas medidas das alturas de 100 indivíduos (dadas em cm): 151 161 166 168 169 170 173 176 179 182 152 162 166 168 169 170 173 176 179 182 154 163 166 168 169 171 174 176 180 183 155 163 167 168 169 171 174 177 180 184 158 163 167 168 169 171 174 177 180 185 159 164 167 168 170 171 175 177 180 186 159 165 167 168 170 172 175 177 181 187 160 165 167 168 170 172 175 178 181 188 161 165 168 169 170 172 175 178 181 190 161 166 168 169 170 173 176 178 182 190 Pede-se: a amplitude da amostra; o número de classes; a distribuição de freqüência contendo as classes, as freqüências absolutas, as freqüências absolutas acumuladas, as freqüências relativas, as freqüências relativas acumuladas e os pontos médios das classes; o histograma; o polígono de freqüência; o polígono de freqüência acumulada. 7 4. MEDIDAS DE POSIÇÃO As medidas de posição mais importantes são as MEDIDAS DE TENDÊNCIA CENTRAL que recebem tal denominação pelo fato de os dados observados tendem, em geral, a se agrupar em torno dos valores centrais. São medidas de tendência central: MÉDIA, MEDIANA e MODA. As outras medidas de posição são as SEPARATRIZES, que englobam: a própria MEDIANA, os QUARTIS, os DECIS e os PERCENTIS. ⎛ −− ⎞ 4.1 Média Aritmética ⎜ X ⎟ ⎝ ⎠ ¾ Para dados não agrupados: Sejam X1, X2, X3, ... , Xn, portanto “n” valores da variável X. A __ média aritmética SIMPLES de X representada por X é definida por: n __ X= ∑X i =1 i __ , ou ainda X = ∑X i n n Exemplo: Sabendo-se que a produção leiteira de uma vaca, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana: __ ∑ X i = 10 + 14 + 13 + 15 + 16 + 18 + 12 = 98 = 14 litros X= 7 7 n ¾ Dados agrupados Sem intervalos de classe: Quando os dados estiverem agrupados (sem intervalos de classe) numa distribuição de freqüência usa-se a média aritmética dos valores X1, X2, X3, ... , Xn, PONDERADOS pelas representativas freqüências absolutas: F1, F2, F3, ... , Fn. Assim, __ ∑ xi f i , ou ainda X__ = ∑ xi f i X= n ∑ fi Exemplo: Considerando a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculino. Qual é a média de filhos masculinos, por família? Nº. de meninos (xi) 0 1 2 3 4 Σ Nº. de famílias (fi) 2 6 10 12 4 34 Nesse caso tem-se: Nº. de meninos (xi) 0 1 2 3 4 Σ Nº. de famílias (fi) 2 6 10 12 4 34 __ X= ∑x f i n i = ∑x f ∑f i i i = xi*fi 0 6 20 36 16 78 78 = 2,3 meninos 34 Interpretação: O valor médio 2,3 meninos sugere, neste caso, que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em relação ao número de meninos. 8 Com intervalos de classe: Neste caso, convenciona-se que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula: __ ∑ xi f i ou __x = ∑ xi f i x = n ∑ fi Exemplo: Determinar a média da distribuição: Renda Familiar Milhares de R$ Nº de famílias 2 |— 4 4 |— 6 6 |— 8 8 |— 10 10 |— 12 5 10 14 8 3 Neste caso tem-se: Classes 2 |— 4 4 |— 6 6 |— 8 8 |— 10 10 |— 12 Σ fi 5 10 14 8 3 40 __ X= xi 3 5 7 9 11 - ∑x f i n i = ∑x f ∑f i i i = xi*fi 15 50 98 72 33 268 268 = 6,7 40 Como a renda familiar foi dada em milhares de reais, conclui-se que a renda média desse grupo de 40 famílias é de R$ 6.700,00. ¾ Emprego da média: A média é utilizada quando deseja-se obter a medida de posição que possui a maior estabilidade ou quando houver a necessidade de um tratamento algébrico ulterior. 4.2 Mediana (Md) A mediana é outra medida de posição definida como o número que se encontra no centro de uma série de números, estando segundo uma ordem. ¾ Mediana para dados não agrupados e distribuição de freqüência de variável discreta – se n é a quantidade de elementos, têm-se dois casos a considerar: n +1 . I - Se n for ímpar, a mediana será o elemento de ordem 2 Exemplo 1: Dada a série de valores 5, 13, 10, 2, 18, 15, 6, 16, 9. Ordenação dos elementos: 2, 5, 6, 9, 10, 13, 15, 16, 18. n +1 9 +1 = 5 º elem., Como existem 9 (nove) elementos, então o elemento de ordem = 2 2 logo Md = 10. Exemplo 2: Dada a distribuição: xi fi Fi Como n = 11 (ímpar), logo a mediana (Md) será o n + 1 11 + 1 12 1 1 1 = = = 6 º elem. Para elemento de ordem 2 3 4 2 2 2 3 5 9 encontrá-lo, abre-se a coluna de freqüência acumulada 4 2 11 (Fi). Neste caso será Md = 3. 11 Σ II - Se n for par, a mediana será a média entre os elementos centrais (de ordem n 2 e n 2 + 1 ). 9 Exemplo 1: seja a série 2, 6, 7, 10, 12, 13, 18, 21. Então: Md = 10 + 12 22 = = 11 2 2 Exemplo 2: Dada a distribuição: fi Fi n = 42 (par), então, a mediana será a média entre os xi n 42 80 5 5 = 21º elementos de ordem n 2 e n 2 + 1 , isto é: = 85 10 15 2 2 87 15 30 n 42 e +1 = + 1 = 21 + 1 = 22º 89 8 38 2 2 90 4 42 Neste caso, o 21º corresponde a 87 e o 22º também 42 Σ corresponde a 87 87 + 87 Logo, Md = = 87 2 ¾ Mediana para o caso de variável contínua, ou seja, agrupamento de dados em classes. Procedimentos: n I) Calcula-se a ordem . 2 II) Pela Fac identifica-se a classe que contém a mediana (classe mediana). ⎛n ⎞ ⎜ − ∑ f ⎟.h 2 ⎠ , onde: III) Utiliza-se a fórmula Md = l Md + ⎝ f Md LMd = limite inferior da classe mediana. n = tamanho da amostra ou número de elementos. Σf = soma de freqüências anteriores à classe mediana. H = amplitude da classe mediana. fMd = freqüência da classe mediana. Exemplo: Dada a distribuição: xi 35 |— 45 45 |— 55 55 |— 65 65 |— 75 75 |— 85 85 |— 95 Σ fi 5 12 18 14 6 3 58 Fi 5 17 35 49 55 48 n 58 = = 29º , logo a classe mediana é a terceira. 2 2 ⎛ 58 ⎞ ⎜ − 17 ⎟.10 120 2 ⎠ Md = 55 + ⎝ = 55 + = 61,67 18 18 4.3 Moda (Mo) Denominamos moda o valor que ocorre com maior freqüência em uma série de valores. ¾ Moda para dados não-agrupados Exemplos: I) Para a seqüência (7, 8, 9, 10, 10, 11, 12, 13, 15), Mo = 10 (modal) II) Para a seqüência (2, 3, 4, 4, 5, 6, 7, 7, 8, 9), Mo = 4 e 7 (bimodal) III) Para a seqüência (3, 5, 8, 10, 11, 12), não existe moda (amodal) ¾ Moda para dados agrupados Para distribuições de freqüência sem intervalos de classe é possível determinar imediatamente a moda: basta verificar o valor da variável de maior freqüência. Para a distribuição a seguir, por exemplo, a variável 87 é a moda (Mo = 87), pois apresenta a maior freqüência (15). 10 xi fi 80 5 85 10 87 15 89 8 90 4 Para dados agrupados em classes, existem diversas fórmulas para o cálculo da moda. Será apresentado a seguir uma que é bastante usada, a fórmula de CZUBER. Procedimentos: I – Identificar a classe modal (aquela que possuir maior freqüência absoluta). II – Aplicar a fórmula de Czuber: Δ1 Mo = l + .h , onde: Δ1 + Δ 2 l = limite inferior da classe modal; Δ1 = diferença entre a freqüência de classe modal e a imediatamente anterior. Δ2 = diferença entre a freqüência da classe modal e a imediatamente posterior. h = amplitude de classe. Exemplo: Em uma sala de aula de 40 alunos foi medida a estatura de cada um, conforme tabela abaixo. Determine qual a estatura predominante na sala. A classe modal é a 3ª. Estaturas (cm) Fi 150 |— 154 4 Δ1 = 11 – 9 = 2 l = 158 154 |— 158 9 Δ2 = 11 – 8 = 3 h=4 158 |— 162 11 Δ1 2 .h = 158 + Mo = l + .4 = 159,6cm 162 |— 166 8 Δ1 + Δ 2 2+3 166 |— 170 5 Isto é, a altura (estatura) predominante (a que mais aparece) 170 |— 174 3 entre os alunos da sala é de 159,6cm. 40 Σ Obs: Para o cálculo da moda, existem outras fórmulas bem conhecidas, que são a Fórmula de PEARSON e a Fórmula de KING ¾ Utilizações das medidas de tendência central Normalmente é necessário calcular apenas uma das medidas (média, mediana ou moda) para caracterizar o centro da distribuição. Surge, então, a questão: qual medida deve ser utilizada? A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da distribuição. Assim: a) Se uma medida apresenta forte concentração de dados em sua área central, a média, a moda e a mediana ficam também situadas em sua área central. Todas representam bem a distribuição no caso em questão. Como a mais conhecida é a média, esta distribuição será representada pela média. Neste caso, temos uma distribuição simétrica. b) Se uma distribuição apresenta forte concentração de dados em seu início, a mediana e a moda estarão posicionadas no início da distribuição, representando bem esta concentração. Como a mais conhecida entre mediana e moda é a MEDIANA, esta será a medida indicada para representar tal distribuição. Neste caso, tem-se uma distribuição assimétrica positiva. c) Quando a distribuição apresenta forte concentração de dados em seu final, a situação é análoga ao item (b), e daí, usa-se também a mediana para representá-la. Neste caso tem-se uma distribuição assimétrica negativa. d) A moda deve ser a opção como medida de tendência central apenas em distribuições que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à freqüência dos outros elementos da distribuição. 11 EXERCÍCIOS 1) Determinar a média aritmética, a mediana e a moda das seguintes séries: a) 3, 4, 1, 3, 6, 5, 6 c) 43, 40, 42, 43, 47, 45, 45, 43, 44, 48 b) 82, 86, 88, 84, 91, 93, 88, 91 d) 70, 75, 76, 80, 82, 83, 90 2) Calcule para cada uma das distribuições abaixo sua respectiva média aritmética, a mediana e a moda. a) xi 3 4 7 8 12 b) xi 10 11 12 13 fi 2 5 8 4 3 fi 5 8 10 6 3) Dadas as distribuições a seguir, calcular a média aritmética: Aluguel a) 1,5 |—3,5 3,5|—5,5 5,5|—7,5 7,5|—9,5 b) ($1000,00) Nº de casas 12 18 20 10 Classes Fac 68 |—72 8 72|—76 20 76|—80 35 80|—84 40 9,5|—11,5 5 4) Uma máquina produz peças que são embaladas em caixas contendo 48 unidades. Uma pesquisa realizada com 59 caixas, revelou a existência de peças defeituosas segundo a tabela: Nº de peças defeituosas por a) Determine o valor mediano da série. Nº de caixas caixas 0 1 2 3 4 5 20 15 12 6 4 2 b) Interprete o valor mediano. 5) Calcule a moda da série representativa da idade de 50 alunos de uma classe de primeiro ano de uma faculdade e a interprete. Idade (anos) 17 18 19 20 21 Nº de alunos 3 18 17 8 4 6) A distribuição abaixo representa o consumo, em kg de um produto colocado em oferta em um supermercado, que limitou o consumo máximo por cliente em 5kg. Pede-se: Consumo em kg Nº de clientes Calcule a média aritmética, a mediana e 0 |— 1 12 a moda. 1 |— 2 15 2 |— 3 21 3 |— 4 32 4 |— 5 54 4.4 SEPARATRIZES I) Quartis: Denomina-se quartis os valores de uma série que a dividem em quatro partes iguais. II) Decis: São valores que dividem a série em dez (10) partes iguais. 12 III) Percentis: São as medidas que dividem a amostra em 100 partes iguais. ⎛ in ⎞ − ∑ f ⎟.h ⎜ 100 ⎠ , i = 1, 2, 3, ... , 100. Pi = l Pi + ⎝ fPi Exemplo: Determinar o 72º percentil (P72) da seguinte distribuição: Classes 4 |— 9 9 |— 14 14 |— 19 19 |— 24 Σ fi 8 12 17 3 40 ⎛ 72 * 40 ⎞ − 20 ⎟.5 ⎜ 100 ⎠ = 14 + (28,8 − 20 ).5 = 14 + 1,6 = 16,6 P72 = 14 + ⎝ 17 17 Fi 8 20 37 40 - Obs: Para calcular os quartis ou os decis, basta convertê-los em porcentis. 5. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE Servem para verificar a representatividade das medidas de posição, pois é muito comum encontrar séries que, apesar de terem a mesma média, são compostas de maneira distinta. Exemplo: Sejam os seguintes conjuntos de valores: X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160 ___ ___ ___ Temos X = Y = Z = 70 , isto é, os três conjuntos apresentam a mesma média aritmética. Entretanto, nota-se que: ¾ O conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. ¾ O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a media representativa. Chama-se de DISPERSÃO ou VARIABILIDADE a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação. No caso do exemplo dado, pode-se dizer que: ¾ O conjunto X apresenta dispersão nula. ¾ O conjunto Y apresenta uma dispersão menor que o conjunto Z. Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão, entre esses valores e a sua medida de posição, a Estatística recorre às MEDIDAS DE DISPERSÃO ou de VARIABILIDADE. Dessas medidas, serão estudadas: a amplitude total, o desvio médio, a variância, o desvio padrão e o coeficiente de variação. 5.1 Amplitude Total (At) É a diferença entre o maior e o menor dos valores da série> At = X max − X min Exemplo 1: Para a série 40, 45, 48, 52, 54, 62 ,70, temos> At = 70 − 40 = 30 Exemplo 2: Dada a distribuição a seguir Estatura em cm (xi) 150 |— 154 154 |— 158 158 |— 162 162 |— 166 Σ fi 4 9 11 8 32 At = 166 − 150 At = 16 O valor da amplitude total afirma alguma coisa do grau de concentração. Quanto maior a amplitude total, maior é a dispersão ou variabilidade dos valores da variável. A amplitude total tem o inconveniente de só levar em conta os dados extremos da série, descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado. Ela é apenas uma indicação aproximada da dispersão ou variabilidade. 13 5.2 Desvio Médio (DM) ___ Na determinação de cada desvio d i = X i − X , medir-se-á a dispersão entre cada Xi e a ___ média X . ___ DM = ∑ xi − x . f i = ∑d . f i i ∑ fi ∑ fi Exemplo: Calcular e interpretar o DM da distribuição a seguir. Classes fi 2 |— 4 4 |— 6 6 |— 8 8 |— 10 Σ 5 10 4 1 20 xi xi.fi 3 5 7 9 15 50 28 9 102 ___ xi − x . f i 10,50 1,00 7,60 3,90 23,00 ___ ___ ∑x .f ∑ xi − x . f i 23 102 = 5,10 = = 1,15 DM = ∑ fi 20 ∑ fi 20 Interpretação: Em média, cada elemento da série esta afastado de 5,10 por 1,15 unidades. Assim, X = i i = 5.3 Variância e Desvio Padrão Têm-se as seguintes situações: I – Dados não agrupados Variância populacional Desvio padrão populacional 2 __ ⎞ ⎛ ∑⎜ xi − x ⎟ ⎜ ⎟ ⎠ σ 2 ( x) = ⎝ n Variância amostral σ= σ Desvio padrão amostral __ ⎞ 2 ⎛ ∑⎜ xi − x ⎟ ⎜ ⎟ ⎠ s 2 ( x) = ⎝ n −1 2 s= s 2 II – Dados agrupados Variância populacional Desvio padrão populacional __ ⎞ 2 ⎛ ∑⎜ xi − x ⎟ f i ⎜ ⎟ ⎠ σ 2 ( x) = ⎝ ∑ fi Variância amostral σ= σ Desvio padrão amostral __ ⎞ 2 ⎛ ∑⎜ xi − x ⎟ f i ⎜ ⎟ ⎝ ⎠ 2 s ( x) = ∑ fi − 1 2 s= s 2 Exemplo 1: Calcule o desvio padrão da sequência X: 4, 5, 8, 5 (População) __ ∑ xi = 4 + 5 + 8 + 5 = 22 = 5,5 x = 4 4 n 14 (4 − 5,5) 2 = 2,25 (5 − 5,5) 2 = 0,25 (8 − 5,5) 2 = 6,25 (5 − 5,5) 2 = 0,25u 2 2 __ ⎞ ⎛ ∑⎜ xi − x ⎟ ⎜ ⎟ ⎠ = 2,25 + 0,25 + 6,25 + 0,25 = 9 = 2,25 (var.) σ 2 ( x) = ⎝ n 4 4 σ = 2,25 = 1,5u (d.p.) Interpretação: Em média, cada elemento da série esta afastado de 5,5 por 1,15 unidades. Obs: Se a sequência em questão representasse apenas uma amostra: 2 __ ⎞ ⎛ ∑⎜ xi − x ⎟ ⎜ ⎟ ⎠ = 2,25 + 0,25 + 6,25 + 0,25 = 9 = 3 (var.) s 2 ( x) = ⎝ n −1 4 −1 3 s = 3 = 1,73u (d.p.) Exemplo 2: Dada a distribuição a seguir, representante de uma população, teremos: __ __ ⎞ 2 ∑ xi f i = 73 = 3,65 ⎛ x = ⎜ xi − x ⎟ f xi fi xi.fi ⎜ ⎟ ∑ f i 20 ⎝ ⎠ __ ⎞ 2 ⎛ 2 3 6 8,1675 ∑⎜ xi − x ⎟ f i 3 5 15 2,1125 ⎜ ⎟ 18,55 ⎠ 4 8 32 0,9800 σ 2 ( x) = ⎝ = = 0,9275u 2 (variância) 20 ∑ fi 5 4 20 7,2900 20 73 18,55 Σ σ= σ 2 = 0,9275 = 0,963u (desvio padrão) Interpretação: Em média, cada elemento da população esta afastado de 3,65 por 0,9275 unidades. Obs: Se a variável discreta fosse representativa de uma amostra: 2 __ ⎞ ⎛ ∑⎜ xi − x ⎟ f i ⎜ ⎟ 18,55 ⎠ = = 0,9763u 2 (var.) s 2 ( x) = ⎝ 19 ∑ fi −1 s= s 2 = 0,9763 = 0,988u Observações: I. No cálculo da variância, se os dados são expressos em metros, a variância é expressa em metros quadrados. I. Em alguns casos, a unidade de medida da variância não faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja, variância NÃO TÊM INTERPRETAÇÃO. 15 5.4 Coeficiente de Variação Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por: σ S CV = ___ *100 ou CV = __ *100 X x O coeficiente de variação é expresso em porcentagens. Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio-padrão de R$ 1.500,00, e o das mulheres é em média de 3.000,00, com desvio-padrão de R$ 1.200,00. Então: σ 1.500 - Para os homens CV = __ = *100 = 37,5% 4.000 x σ 1.200 - Para as mulheres CV = __ = *100 = 40% 3 . 000 x Logo, pode-se concluir que os salários das mulheres apresentam maior variabilidade (dispersão) que os dos homens. Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o coeficiente der até 10%; média dispersão quando estiver acima de 10% até 20%, e grande dispersão quando superar 20%. Alguns analistas consideram: Baixa dispersão: CV ≤ 10% Média dispersão: 10% < CV < 20% Alta dispersão: CV ≥ 20% EXERCÍCIOS 1) Calcule a amplitude total e o desvio médio da sequência X: 2, 3, 7, 9, 11, 13. 2) Calcule a amplitude total e o desvio médio da sequência Y: 5, 12, 4, 20, 13, 17 3) Calcule a variância e o desvio padrão da sequencia a seguir, representativa de uma população: Z: 15, 16, 17, 20, 21 4) Calcule a variância e o desvio padrão da sequencia a seguir, representativa de uma amostra: T: 6, 5, 10, 12, 19 5) Calcule a variância e o desvio padrão da população: Idade (anos) (xi) 17 18 19 20 21 Σ Nº de alunos (fi) 3 18 17 8 4 50 6) Calcule a variância e o desvio padrão para o número de acidentes diários, observados em cruzamentos, durante 40 dias (amostra). Nº de acidentes por dia (xi) 0 1 2 3 4 Σ Nº de dias (fi) 30 5 3 1 1 40 7) Calcule a variância e o desvio padrão para a distribuição de valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de departamentos (amostra). 16 Consumo por nota (classes) 0 |— 50 50 |— 100 100 |— 150 150 |— 200 200 |— 250 250 |— 300 Σ Nº de alunos (Fi) 10 28 12 2 1 1 54 8) Calcule a variância e o desvio padrão para as alturas de 70 alunos de uma classe (amostra) altura (cm) 150 |— 160 160 |— 170 170 |— 180 180 |— 190 190 |— 200 200 |— 210 Σ Nº de alunos (Fi) 2 15 18 18 16 1 9) Interprete os valores obtidos na questão 6. 10) Interprete os valores obtidos na questão 7. 11) Um grupo de 85 moças tem estatura média de 160,6cm, com um desvio padrão igual a 5,97cm. Outro grupo de 125 moças tem uma estatura média de 161,9cm, sendo o desvio padrão igual a 6,01cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? REFERÊNCIAS COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 3.ed. São Paulo: Herbra, 1998. CRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 2002. SILVA, Ermes Medeiros da; SILVA, ELIO Medeiros da; GONÇALVES, Valter; MUROLO, Afránio Carlos. Estatística para os cursos de: Economia, administração, ciências contábeis. 3.ed. São Paulo: Atlas, 2006. TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística básica. 2.ed. São Paulo: Atlas, 1985. 17 ANEXO – TABELAS E GRÁFICOS Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenham uma visão global da variação dessa ou dessas variáveis. E isto ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão nos fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindo-nos determinações administrativas e pedagógicas mais coerentes e científicas. 1. Tabela Tabela é um quadro que resume um conjunto de observações. Uma tabela compõe-se de: a) TÍTULO: O título deve responder as seguintes questões: O que? (Assunto a ser representado (Fato)); Onde? (O lugar onde ocorreu o fenômeno (local)); Quando? (A época em que se verificou o fenômeno (tempo)). b) CABEÇALHO: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. c) CORPO: parte da tabela composta por linhas e colunas. d) LINHAS: parte do corpo que contém uma seqüência horizontal de informações. e) COLUNAS: parte do corpo que contém uma seqüência vertical de informações. f) COLUNA INDICADORA: coluna que contém as discriminações correspondentes aos valores distribuídos nas linhas. g) CASA OU CÉLULA: parte da tabela formada pelo cruzamento de uma linha com uma coluna. h) ELEMENTOS COMPLEMENTARES (rodapé): Colocados no espaço abaixo da tabela – Fonte: é a indicação de entidade responsável pelo fornecimento dos dados ou sua elaboração; Notas: são informações de natureza geral, identificadas por algarismos romanos. Exemplo: a) b) c) d) e) Para a apresentação da tabela, deve-se observar as regras: O lado direito e esquerdo de uma tabela deve ser aberto; Use traços horizontais para separar os componentes (cabeçalho, total e as colunas); Use traços verticais internos somente se for necessário (para maior clareza); Use maiúscula somente na primeira letra da palavra inicial (vide na tabela a palavra Ano); Deve-se prestar atenção para os seguintes fatos: - um traço horizontal (-), quando é apresentado um valor zero; - três pontos (...), quando há ausência de dados; - zero (0), quando o valor é muito pequeno; 18 - um ponto de interrogação (?), quando há dúvida quanto à exatidão de determinado valor; f) A informação do total não é obrigatória. Pode ser incluída, quando for importante, ou, ainda, quando for usada para alguma análise. 2. Gráficos O gráfico estatístico é uma forma de apresentação dos dados estatísticos cujo objetivo é o de produzir, no investigador ou público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais, para ser realmente útil: SIMPLICIDADE: O gráfico deve ser destituído de detalhes de importância secundariam, assim o como de traços desnecessários que possam levar o observador a uma análise morosa ou com erros. CLAREZA: O gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. VERACIDADE: O gráfico deve expressar a verdade sobre o fenômeno em estudo. Para a construção de gráficos, você deverá observar alguns itens que se fazem necessários neles: - todo gráfico deve ter título (na parte superior) e fonte (no rodapé), para que o leitor não tenha a necessidade de voltar ao texto para saber do que se trata; - a escala do eixo horizontal deve ser escrita abaixo desse eixo e deverá crescer da esquerda para a direita; - a escala do eixo vertical deve ser escrita à esquerda do eixo e crescer de baixo para cima; - cada eixo deve ser identificado com o que está sendo medido ou representado; - não é necessário colocar linhas de grade (que saem das marcas das escalas horizontais e verticais). Estas são opcionais. Exemplo: Antigamente, os gráficos eram feitos “a mão”, com a ajuda de régua, compasso, transferidor, esquadros e canetas ou giz coloridos. Hoje podemos contar com softwares específicos que auxiliam e facilitam na construção de gráficos e, muitas vezes, propiciam mais precisão e clareza. Além dos softwares específicos de Estatística, temos os programas aplicativos de escritório que incluem as chamadas planilhas eletrônicas. Uma planilha eletrônica utiliza tabelas para a realização de cálculos e permite, também, 19 a criação de vários tipos de gráficos, o que facilita a representação e análise de dados estatísticos. Os principais tipos de gráficos são os DIAGRAMAS, os CARTOGRAMAS e os PICTOGRAMAS. ¾ Diagramas Os diagramas são gráficos geométricos de, no máximo, duas dimensões; para sua construção, em geral, fazemos uso do sistema cartesiano (eixo X e Y). Os principais diagramas são os gráficos de linhas, colunas, barras, setores ou pizza e o gráfico polar. Veja cada um desses tipos: Gráfico de linhas: Gráfico de colunas: Gráfico de barras: Gráfico de setores ou pizza: Gráfico de colunas múltiplas: Gráfico em barras múltiplas: Gráfico polar: Pictograma: 20 Cartograma: REFERÊNCIAS COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 3.ed. São Paulo: Herbra, 1998. CRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 2002.