ESTATÍSTICA BÁSICA - Profº Marcos Nascimento CÁPITULO I- Introdução Atualmente a utilização da Estatística é cada vez maior em qualquer atividade profissional. Nos mais diversificados ramos, as pessoas estão frequentemente expostas à Estatística, utilizando-a com maior ou menor intensidade devido às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam. Segue a seguir alguns definições ou conceitos importantes: 1.1 Estatística: parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição , análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. Tem como objetivo principal proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente. A coleta, a organização e descrição dos dados estão a cargo da Estatística Descritiva, enquanto a análise e a interpretação desses dados ficam a cargo da Estatística Indutiva ou Inferencial. Podemos dividir a Estatística em 3 grandes áreas: • Estatística Descritiva: tem como objetivo descrever e resumir os dados para que possamos tirar conclusões a respeito de características de interesse. • Estatística Indutiva ou Inferencial: conjunto de métodos que permitem inferir o comportamento de uma população a partir de uma amostra. • Probabilidade: ferramenta matemática que deduz a partir de um modelo as propriedades de um fenômeno aleatório. 1.2 Fases do Método Estatístico: podemos subdividi-los em: • Coleta de dados; • Apuração de Dados; • Apresentação de dados; • Análise, interpretação conclusão dos dados. 1.2.1 Coleta de dados È dividida em: • Coleta de dados primários (Direta): quando o pesquisador coleta os dados diretamente na fonte originária. A Coleta Direta de dados pode ser classificada ao fator tempo da seguinte forma: - Contínua: registros feitos continuamente.Ex.freqüência de alunos às aulas. - Periódicas: feita em intervalos constantes de tempo. Ex. censos. - Ocasional: feita extemporaneamente, para atender uma situação de emergência. Ex. praga em uma lavoura. • Coleta de dados secundários (Indireta): quando o pesquisador utiliza de outras fontes. 1.2.2 Apuração de dados Após terminarmos a coleta de dados é necessário fazer sua apuração ou contagem (tabulação). Devemos ordená-los mediante critérios de classificação, que pode ser manual, mecânica ou eletronicamente. 1.2.3 Apresentação de dados Depois de tabularmos esses dados, podemos apresentá-los em: 1 I) II) Tabelas Gráficos 1.3 Variável É o conjunto de resultados possíveis de um fenômeno. Pode ser: • Qualitativa: quando os valores forem expressos por atributos. Ex. cor da pele (branca, negra, amarela), sexo (masculino, feminino). • Quantitativa: quando os valores forem expressos em números.Ex. salários dos funcionários de uma empresa, massa corporal dos alunos de uma turma. A variável qualitativa pode ser: nominal (cor dos olhos, sexo) ou ordinal (classe social, grau de instrução). Já a variável quantitativa pode ser: contínua (peso, altura, salários), podendo assumir qualquer valor real positivo ou discreta(número de filhos, quantidade de um rebanho), podendo assumir só valores inteiros. 1.4 População e Amostra População: conjunto de elementos em estudo que possuem pelo menos uma característica em comum. Ex. os estudantes constituem uma população, pois apresentam pelo menos uma característica comum: são os que estudam. Muitas vezes , por impossibilidade ou inviabilidade econômica ou temporal, limitamos as observações referentes a uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. Amostra: qualquer subconjunto finito, não vazio, de uma população. A Estatística Indutiva tem como objetivo tirar conclusões sobre as populações, com base em resultados verificados em amostras retiradas dessa população.Para que as inferências sejam corretas, é necessário garantir que a mostra seja representativa da população, ou seja, a amostra deve possuir as mesmas características básicas da população. Assim é preciso que a amostra ou amostras que vão ser usadas sejam obtidas por processos adequados. A técnica especial que garante o sucesso nesses processos é chamada de amostragem. 1.5 Amostragem A amostragem garante, tanto quanto possível, o acaso na escolha. Assim, cada elemento da população passa a ter a mesma chance de ser escolhido, garantindo à amostra o caráter de representatividade, e isto é muito importante, pois as conclusões relativas à população vão estar baseadas nos resultados obtidos nas amostras dessa população. Veremos a seguir três das principais técnicas de amostragem. 1.5.1 Amostragem casual ou aleatória simples È equivalente ao sorteio de loterias. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer , k números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. 1.5.2 Amostragem proporcional estratificada Muitas vezes a população está dividida em subpopulações ou estratos. Como é provável que a variável em estudo apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. É exatamente isso que fazemos quando empregamos a amostragem proporcional estratificada, que além de considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos. 1.5.3 Amostragem sistemática Quando os da população já se acham ordenados, não há necessidade de construir o sistema de referência. São exemplos, as casas de uma rua, as linhas de produção etc. Nestes casos, a seleção é dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos 2 sistemática. Assim, no caso de uma entrevista em 100 casas de uma rua, podemos, a cada 10 escolher uma para pertencer a uma amostra. Fixando o tamanho da amostra em 10% da população. 1.6 REGRAS PARA ARREDONDAMENTO • Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplos: 43,24 passa a 53,2 (décimo mais próximo) 12,942 passa a 12,94 (centésimo mais próximo) 69,2 passa a 69 (unidade mais próxima) • Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer. Exemplos: 32,87 passa a 32,9 (décimo mais próximo) 46,727 passa a 46,73 (centésimo mais próximo) 26,6 passa a 27 (unidade mais próxima) • Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: I) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer. Exemplos: 2,352 passa a 2,4 (décimo mais próximo) 25,6501 passa para 25,7 (décimo mais próximo) 74,250002 passa para 74,3 (décimo mais próximo) II) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo só será aumentado de uma unidade se for ímpar. Exemplos: 34,75 34,65 28,255 67,5 128,5 passa a 34,8 (décimo mais próximo) passa a 34,6 (décimo mais próximo) passa a 28,26 (centésimo mais próximo) passa a 68 (unidade mais próxima) passa a 128 (unidade mais próxima) EXERCÍCIOS 1) Arredonde cada um dos números abaixo, conforme a precisão pedida: a) Para o décimo mais próximo: 73,4 34, 7832 48,85002 129,98 12,35 78,85 b) Para o centésimo mais próximo: 36,727 23,642 253,654 299,951 38,455 47,485 c) Para a unidade mais próxima: 39,49 78,2 36,6 59,98 228,5 33,5 1.7 Somatório e Produtório • Somatório 3 Muitos processos estatísticos exigem o cálculo da soma. Para simplificar a representação da operação de adição nas expressões algébricas, utiliza-se a notação ∑ , letra grega sigma maiúscula. As principais representações são: n 1) ∑x i ∑x i i =1 n 2) = x1 + x 2 + ... + x n SOMA SIMPLES 2 2 2 = x1 + x 2 + ... + x n 2 SOMA DE QUADRADOS i =1 2 n 3) ∑ xi = ( x1 + x 2 + ... + x n ) 2 QUADRADO DA SOMA i =1 n 4) ∑x i ⋅ y i = x1 ⋅ y1 + x 2 ⋅ y 2 + ... + x n ⋅ y n i =1 n 5) n ∑x ⋅∑ y i i =1 i SOMA DE PRODUTOS = ( x1 + x 2 + ... + x n ) ⋅ ( y1 + y 2 + ... + y n ) PRODUTO DAS SOMAS i =1 n ∑x Lê-se i como: somatório de x índice i, com i variando de 1 até n. i =1 Propriedades dos Somatórios n I) ∑ a = a + a + ... + a = n ⋅ a i =1 II) n n i =1 i =1 ∑ a ⋅ xi = a ⋅ ∑ x i n n n i =1 i =1 i =1 ∑ ( xi + y i ) = ∑ xi + ∑ y i III) 2 n n 2 IV) “O quadrado da soma é diferente da soma dos quadrados”: ∑ xi ≠ ∑ xi i =1 i =1 n V) “O produto de duas somas é diferente da soma dos produtos”: n n ∑x ⋅∑ y ≠ ∑x i i =1 i i =1 i ⋅ y1 i =1 n VI) O número k de parcelas ou termos do somatório ∑x i é dado pela seguinte expressão: i=a k = n − a +1 8 EX: ∑x i possui 6 parcelas pois k =8 -3 +1 = 6. i =3 VII) Somatórios Duplos: o somatório duplo é igual ao produto dos somatórios tomados separadamente. n ∑ i =1 • n n n j =1 i =1 j =1 ∑ x1 yi = ∑ xi ⋅ ∑ yi Produtório 4 O símbolo produtório é utilizado para facilitar a representação dos produtos. Utiliza-se a letra grega pi maiúsculo ∏ . Representação: n ∏x i = x1 ⋅ x 2 ⋅ ... ⋅ x n i =1 Propriedades: n I) ∏ b = b ⋅ b ⋅ ... ⋅ b = b n i =1 II) n n i =1 i =1 ∏ c ⋅ xi = c n ⋅ ∏ xi III) n n n i =1 i =1 i =1 ∏ xi y i = ∏ xi ⋅ ∏ y i n IV) ∏ = 1 ⋅ 2 ⋅ 3 ⋅ n = n! i =1 n n i =1 i =1 V) log ∏ xi = ∑ log x1 CAPÍTULO II -DISTRIBUIÇÃO DE FREQÜÊNCIA 2.1 Dados Brutos Feita a coleta, os dados originais ainda não se encontram prontos para a análise, por não estarem numericamente organizados.Por essa razão, costuma-se chama-los de dados brutos. Na tabela a seguir estão relacionados os valores correspondentes ao consumo individual de energia elétrica em um grupo de 50 consumidores. Tabela 2.1 Consumo Mensal de Energia Elétrica (KWH) 8 90 66 50 9 62 86 95 92 75 80 38 121 60 72 57 8 94 82 158 64 52 89 157 125 126 75 105 58 76 136 96 144 19 148 114 131 28 118 73 83 81 10 90 94 74 88 78 84 36 Nota-se que as cifras estão dispostas de forma desordenada. Em razão disso, pouca informação se consegue obter inspecionando os dados anotados. Mesmo uma informação simples como a de saber os consumos máximo e mínimo requer um exame minucioso dos dados da tabela. 2.2 Rol O rol é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Apesar de o rol propiciar ao analista mais informações e com menos esforço de concentração do que os dados brutos, ainda assim persiste o problema de a análise ter que se basear nas 50 observações. O problema se agravará quando o número de dados for muito grande. 5 Tabela 2.2 Consumo Mensal de Energia Elétrica, 8 9 10 19 28 36 38 50 52 57 58 58 60 62 64 66 72 73 74 75 75 76 78 80 81 82 83 84 86 88 89 90 90 92 94 94 95 96 105 114 118 121 125 126 131 136 144 148 157 158 2.3 Tabelas de freqüências As tabelas de freqüências são representações nas quais os valores se apresentam em correspondência com suas repetições, evitando-se assim que eles apareçam mais de uma vez na tabela, como ocorre com o rol. Através de uma tabela de freqüência obtemos estatísticas com menos cálculos e em menos tempo do que se esse trabalho fosse realizado a partir de dados brutos. Podemos ter tabelas de freqüência de dados tabulados não-agrupados em classes ou de dados agrupados em classes. 2.3.1 Distribuição de freqüência de dados tabulados não-agrupados em classes Esse tipo de apresentação é utilizada para representar uma variável discreta (que só assume valores pontuais) ou descontínua. A tabela abaixo representa o número de aparelhos defeituosos rejeitados pela seção encarregada do controle de qualidade de uma determinada empresa. Tabela 2.3.1 Número Mensal de Aparelhos Defeituosos Número de Meses ( fi ) Números de Aparelho com defeito ( xi ) 0 1 2 3 4 5 6 7 8 9 10 2 3 4 5 7 8 9 4 3 2 1 11 ∑f i = 48 i =1 2.3.2 Distribuição de freqüência de dados tabulados agrupados em classes Nesse tipo de apresentação os valores observados não mais aparecerão individualmente, mas agrupados em classes. Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores 6 representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes, evitando com isso grande extensão da tabela, aparecimento de diversos valores com freqüência nula e impossibilidade de visualização do fenômeno como um todo. A tabela abaixo representa um teste de estatística contendo 100 perguntas do tipo certo-errado numa turma de 500 estudantes. Tabela 2.3.2 Resultado do Teste de Estatística Classes notas Freqüências ( f i ) 5 15 20 45 100 130 100 60 15 10 0I 10 10 I 20 20 I 30 30 I 40 40 I 50 50 I 60 60 I 70 70 I 80 80 I 90 90 I 100 10 ∑f i = 500 i =1 2.4 Elementos de Distribuição de freqüência Para construirmos uma tabela de freqüências, é necessário conhecermos alguns termos próprios e de uso freqüente, bem como o procedimento técnico mais adequado. I) Freqüência Simples Absoluta: a freqüência simples absoluta de uma classe ou de um valor individual é número de observações correspondentes a essa classe ou a esse valor. Símbolo: f i . II) Amplitude Total: a amplitude total ou intervalo total é a diferença entre o maior e o menor valor observado da variável em estudo. Símbolo: At . III) Classe: é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela. O número de classes em uma distribuição de freqüências, é representado por k. Regra de Sturges para determinação do número de classes: Essa regra estabelece que o número de classes é igual a: k = 1 + 3,3 log10 n, onde k = número de classes e n = nº total de observações. IV) Limite Superior e Limite Inferior: os limites de classes são valores extremos. A terceira classe da tabela 2.3.2 tem como limite inferior 20 e limite superior 30. VI) Amplitude do Intervalo de Classe(h): é o comprimento da classe , sendo geralmente definida como a diferença entre os limites superior e inferior ou: At k VII) Ponto Médio da Classe ( xi ): ponto médio ou valor médio de classe é o ponto eqüidistante dos limites de classe. Para obter o ponto médio de uma classe, basta acrescentar ao seu limite inferior a metade da amplitude do intervalo de classe. Exemplo: Classe: 0 |-- 10 Amplitude do intervalo: 10 h= 7 Metade da amplitude: 5 Ponto médio dessa classe será: x1 = 0 + 5 = 5 2.5 Tipos de freqüências Freqüência Simples: Absoluta ( f i ) Relativa ( fri ou fri %) Freqüência Acumulada: Absoluta ( Fi ) Relativa ( Fri ou Fri %) 2.5.1 Freqüência Simples Absoluta ( f i ) É o número de repetições de um valor individual ou de uma classe de valores da variável. k ∑f =n i i =1 2.5.2 Freqüência Simples Relativa ( fri ou fri %) Representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. f fi fri = k i = n ∑ fi i =1 Desejando expressar o resultado em termos percentuais: fri % = fi ⋅ 100 n 2.5.3 Freqüência Absoluta Acumulada ( Fi ) A freqüência acumulada “abaixo de” uma classe ou de um valor individual é a soma da freqüência simples absoluta dessa classe ou desse valor com as freqüências simples absolutas das classes ou dos valores anteriores. 2.5.4 Freqüência Relativa Acumulada ( Fri ou Fri %) Apresentaremos duas maneiras de calcular: a) acumulando as freqüências simples relativas de acordo com a definição de freqüências acumuladas. b) calculando as freqüências relativas diretamente a partir das freqüências absolutas, de acordo com a definição de freqüências relativas. Fi n CAPÍTULO III –GRÁFICOS ESTATÍSTICOS Fri = 3.1 Introdução O gráfico estatístico é uma forma de apresentação dos dados estatísticos, tendo por objetivo principal, produzir ao leitor ou investigador, uma impressão mais rápida do fenômeno em estudo. Os gráficos comunicam as mesmas idéias das tabelas, porém produzem uma impressão e compreensão mais rápida, 8 mais viva, pois eliminam os detalhes desnecessários, visualizando somente as características mais importantes dos dados. Abrangem três características: simplicidade, clareza e veracidade. Os mesmos descrevem o comportamento geral facilitando a interpretação dos resultados de maneira que haja clareza para a tomada de decisões. Os gráficos devem sempre ser claros e objetivos, chamando a atenção para a informação. 3.2 Principais Gráficos Gráfico de Colunas: esse gráfico é formado por retângulos dispostos verticalmente de mesma largura, arbitrária, e altura proporcional às grandezas dos fenômenos. Os retângulos são separados por espaços da metade até 2/3 da largura da coluna. Recomendado para quando o nome das categorias não for extenso. Exemplo Matrículas na Escola Bom Estudo. Cuiabá. 2002-2005 Anos 2002 2003 2004 2005 Matrículas 410 620 740 810 Fonte: Secretaria da Escola Bom Estudo Matrículas na Escola X. Blumenau. 1992-1995. 900 810 740 Matrículas 800 700 620 600 500 410 400 300 200 100 0 1992 1993 1994 1995 Anos Fonte: Secretaria da Escola Bom Estudo Gráfico de Barras: esse gráfico segue as mesmas normas do gráfico de colunas, porém os retângulos ocupam posição horizontal. Indicado para séries geográficas ou específicas com nomes extensos, independentes do total. Exemplo Exportação Sul Brasileira de Alguns Produtos Produtos Algodão Cera de Carnaúba Mamona Manteiga de Cacau Toneladas 40000 11050 24400 14800 Fonte: Porto de Exportação 9 Exportação Sul Brasileira de Alguns Produtos. 1950. Produtos Manteiga de Cacau 14,8 Mamona 24,4 Cera de Carnaúba 11,05 Algodão 40 0 5 10 15 20 Toneladas 25 30 35 40 (x1000) Fonte: Porto de Exportação Gráfico de Linha: esse gráfico é utilizado principalmente para séries temporais, no eixo x colocam-se as épocas e no eixo y as grandezas unindo-as com linhas tracejadas, os pontos finais são ligados com segmentos. Obedece-se a ordem cronológica, independe do total. Adequado para representar variáveis quantitativas em que se tenha interesse em acompanhar sua evolução. Não deve ser utilizado para representar variáveis qualitativas. Exemplo Distribuição dos Alunos Desistentes da Escola Bom Estudo. Cuiabá. 1° semestre 2004. Meses Janeiro Fevereiro Março Abril Maio Junho Alunos 55 62 74 44 56 67 cm Fonte: Secretaria da Escola Bom Estudo Distribuição dos Alunos Desistentes da Escola A. Blumenau. 1° semestre 1994. 80 Alunos 70 62 55 56 60 74 44 março abril 67 50 40 30 20 10 0 janeiro fevereiro maio junho Meses Fonte: Secretaria da Escola Bom Estudo Gráfico de Setores (pizza): esse gráfico compara a parte com o todo, depende do total. Cada dado (quantidade) representa um setor do círculo, os ângulos são arredondados. Recomenda-se não inscrever no círculo, utilizar legenda. Raio do círculo é arbitrário. Geralmente o raio do círculo é de cinco centímetros. 10 Adequado para representar variáveis qualitativas com poucas categorias (poucas fatias). A construção do gráfico de setores é bem simples. Requer duas transformações na coluna das quantidades. 1º) Transformar cada valor da série em graus. Isto pode ser conseguido através de uma regra de três simples. Total 360º Cada valor x 2º) Transformar cada valor da série em porcentagem. Isto pode ser conseguido através de outra regra de três simples. Total 100% Cada valor x Exemplo Distribuição do Grupo Sangüíneo. Posto de Saúde. Cuiabá. 2006. Grupo Sangüíneo Número de Pessoas “A” 46 “B” 32 “AB” 27 “O” 124 Total 229 Fonte: Secretaria do Posto Distribuição do Grupo Sangüíneo. Posto de Saúde. Centro. Blumenau 2001. 20% “A” “B” “AB” 14% 54% “O” 12% Fonte: Secretaria do Posto Histograma: esse gráfico representa todos os elementos da série. É uma área formada por colunas justapostas de maneira contínua, na qual cada classe é uma coluna. No eixo x vão as classes de freqüência “xi” e no eixo y a freqüência “fi”. Exemplo Distribuição de Pontos obtidos Pelos Alunos Disciplina de Matemática na Prova Final. Escola Bom Estudo. 2008. xi (pontos) fi (alunos) 30 l— 40 8 40 l— 50 15 50 l— 60 17 60 l— 70 22 70 l— 80 28 80 l— 90 7 90 l— 100 3 Total 100 Fonte: Secretaria da Escola Bom Estudo 11 Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática na Prova Final. Escola Bom Estudo. 2008. 28 Número de Alunos 28 24 22 20 17 15 16 12 8 7 8 3 4 0 30 40 50 60 70 80 90 100 Pontos Fonte: Secretaria da Escola Bom Estudo Polígono de freqüência: esse é um gráfico que representa um elemento de cada classe. É a representação gráfica sob forma poligonal, na qual no eixo x vão os pontos centrais ou médios “ x i ” de cada classe (inclusive o anterior e o posterior) e no eixo y vão as freqüências de classe “fi”. Exemplo Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática na Prova Final. Escola Bom Estudo. 2008. xi (pontos) fi (alunos) 30 l— 40 40 l— 50 50 l— 60 60 l— 70 70 l— 80 80 l— 90 90 l— 100 Total 8 15 17 22 28 7 3 100 Fonte: Secretaria da Escola Bom Estudo Número de Alunos Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática na Prova Final. Escola Bom Estudo. 2008. 30 27 24 21 18 15 12 9 6 3 0 25 35 45 55 65 75 Pontos 12 85 95 105 Fonte: Secretaria da Escola Bom Estudo Comparando os dois gráficos acima podemos observar que o contorno que as duas freqüências produzem é o mesmo, pois os exemplos apresentam a mesma série. De fato, isto sempre acontece quando construímos os dois gráficos de uma mesma série. No entanto, há diferenças entre os dois gráficos. O polígono de freqüência procura mostrar apenas o comportamento das freqüências da série. O histograma, além das freqüências procura comparar as freqüências entre si bem como as freqüências com o total das freqüências. CAPÍTULO IV –Medidas de Posição ou de Tendência Central 4.1 Introdução Nos capítulos anteriores vimos que através das distribuições de freqüências foi possível descrever, de modo geral, os grupos de valores que uma variável pode assumir. Dessa forma, podemos localizar a maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no final, ou ainda, se há uma distribuição por igual. Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em confronto com outras, necessitamos introduzir conceitos que se expressem através de números, que nos permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribuição e são as: I) medidas de posição; III) medidas de assimetria; II) medidas de variabilidade ou dispersão; IV) medidas de curtose. Estudaremos nesse capítulo, as medidas de posição, que são estatísticas que representam uma série de dados, orientando-nos quanto à posição da distribuição em relação ao eixo horizontal. De um modo geral, qualquer conjunto de dados estatísticos - agrupados ou não - dependendo do estudo a que se propõe, ocupam uma posição específica dentro de uma distribuição. As medidas de posição mais importantes são as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores centrais. As principais medidas de tendência central são: I) Média (aritmética, geométrica, harmônica, quadrática) II) Moda II) Mediana IV) Separatrizes 4.2 Medidas de Posição I- Média Aritmética A média aritmética de um conjunto de números pode ser de dois tipos: simples ou ponderada. • Média Aritmética Simples ( x ) A média aritmética simples de um conjunto de números é igual ao quociente entre a soma dos valores do conjunto e o número total de valores. n x + x2 + ⋅ ⋅ ⋅xn x= 1 = n onde: 13 ∑x i =1 n i x - média aritmética simples; xi - valores da variável; n - número de observações. A média aritmética simples será calculada sempre que os valores vierem representados individualmente. • Média Aritmética Ponderada ( x p ) A média aritmética é considerada ponderada quando os valores do conjunto tiverem pesos diferentes. No caso da média aritmética simples, todos os valores possuem o mesmo peso. A média aritmética ponderada é o quociente entre o produto dos valores da variável pelos respectivos pesos e a soma dos pesos. k ∑x p i xp = i i =1 k ∑p i i =1 Em que: x p - média aritmética ponderada; xi - valores da variável; pi - pesos dos valores da variável (nº de vezes que cada valor ocorre); k ∑ pi = n - número de observações; i =1 k - número de classes ou de valores individuais diferentes da variável. Os pesos dos valores da variável correspondem ao número de vezes que cada valor ocorre. • Média Aritmética Ponderada (Dados Agrupados em Classes) O valor de xi passa a ser o ponto médio do intervalo. k ∑fx i xp = i i =1 k ∑f i i =1 Propriedades da Média 1ª) a soma algébrica dos afastamentos (ou desvios, ou resíduos) de um conjunto de números tomados em relação à média aritmética é zero. Simbolicamente: n ∑ d i = ∑ (xi − x ) = 0 i =1 k ou ∑ d i pi = ∑ ( xi − x ) pi = 0 i =1 2ª) se multiplicarmos ou dividirmos todas as informações por uma constante, a média aritmética também ficará multiplicada ou dividida por essa constante. 3ª) somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de informações, a média aritmética ficará somada ou subtraída dessa constante. 4ª) a soma dos quadrados dos desvios tomados em relação à média aritmética é um mínimo. 14 Uso da Média: é a mais utilizada dos valores médios, pela simplicidade e rapidez de seu cálculo. a) quando se deseja obter um valor médio estável e significativo que inclui no seu cálculo todos os valores; b) é usada na determinação de índices de grande importância estatística; c) quando se deseja maior precisão na determinação de uma medida, realiza-se várias induções e toma-se como resultado a média aritmética. II- Média Geométrica Simles( x G ou MG) A média geométrica de “n” valores é definida, genericamente, como a raiz n-ésima do produto de todos eles. Dados “n” valores x1, x2, ..., xn, a média geométrica desses valores será: x g = n x1 ⋅ x 2 ⋅...⋅ x n xg = n ou Π n Πx i =1 onde: i -Produtório • Média Geométrica Ponderada A média geométrica ponderada de um conjunto de números dispostos em uma tabela de freqüências é calculada por intermédio da seguinte expressão: x g = n x1f1 × x 2f 2 × ... × x kf k xg = n ou k k onde: n = ∑ f i f Π xi i i =1 i =1 Uso da Média Geométrica a) quando um dos valores é nulo não se aplica a média geométrica; b) para o cálculo do índice do custo de vida; c) crescimento demográfico. III- Média Harmônica ( x h ) A média harmônica de um conjunto de valores xi é o inverso da média aritmética dos inversos dos valores. xh = • 1 n xh = n 1 ∑ i =1 x i ou 1 1 1 + + ...+ x1 x 2 xn n Média Harmônica Ponderada ( x h ) A média harmônica ponderada de um conjunto de números, dispostos em uma tabela de freqüências, é dada pela seguinte expressão: k 1 xh = k = 1 ⋅ fi ∑ i =1 xi ∑f k 1 ∑x i =1 k ∑f i i =1 i i =1 onde: 15 i ⋅ fi = n k fi i =1 i ∑x n - número de observações; xi - valores da variável; pi - pesos dos valores da variável. Uso da Média Harmônica a) muito utilizada em fatores de ordem física (aceleração, velocidade) b) custo médio de artigos comprados com uma quantia fixa IV-Média Quadrática ( x q ) A média quadrática de um conjunto de “n” valores xi é a raiz quadrada da média aritmética dos quadrados. n ∑ x i2 i =1 xq = n onde: xi - valores da variável; • n - número de observações. Média Quadrática Ponderada Quando os valores da variável estiverem dispostos em uma tabela de freqüências, a média quadrática será determinada pela seguinte expressão: k xq = ∑x 2 i ⋅ fi i =1 n onde: xi - valores da variável; pi - pesos dos valores da variável; n - número de observações. V-Moda (Mo) A moda é outra medida de tendência central, definida como o valor mais frequente, quando comparado sua freqüência com a dos valores contíguos de um conjunto ordenado. Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais frequente desse conjunto. Esse conjunto de valores pode ser: - amodal: não apresenta uma moda, isto é, todos os valores da variável em estudo ocorreram com a mesma intensidade (freqüência). - plurimodal: quando houver mais de um valor predominante. Ex.: Calcular a moda dos seguintes conjuntos de valores: 16 A = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8} Mo = 6 B = {4, 4, 5, 5, 6, 6} Amodal, pois seus três valores apareceram 2 vezes cada um. C = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6} Mo1 = 2 e Mo2 = 5, conjunto bimodal, pois tanto o valor 2 como o valor 5 apresentaram o maior número de ocorrências. D = {1, 2, 3, 4, 5} • Amodal Moda para Dados Agrupados Os valores da variável dispostos em uma tabela de freqüências podem apresentar-se individualmente ou agrupados em classes. No primeiro caso, a determinação da moda é imediata, bastando, para isso, consultar a tabela, localizando o valor que apresenta a maior freqüência. Esse valor será a moda do conjunto. Assim, a moda do conjunto apresentado na tabela abaixo é Mo = 3, indicando que a rejeição de 3 peças defeituosas por mês foi o resultado mais observado. Ex.: Número de Peças de Precisão Defeituosas devolvidas mensalmente pelo Controle de Qualidade N° de meses N° de Peças com Defeito xi fi 0 2 1 4 2 6 3 8 4 4 5 2 6 1 7 ∑f i = 27 i =1 Tratando-se de uma tabela de freqüências com valores tabulados e agrupados em classes, o procedimento não é imediato, sendo disponíveis alguns métodos de cálculo distintos. Qualquer que seja o método adotado, o primeiro passo para determinar a moda é localizar a classe que apresenta a maior freqüência, comumente chamada de classe modal. Um dos métodos para o cálculo da Moda é o Método de Czuber. Método de Czuber O método de Czuber, para o cálculo da moda elaborada, leva em consideração não apenas as freqüências das classes adjacentes, mas também a freqüência da classe modal. O ponto que corresponde à moda divide o intervalo da classe modal em duas partes, as quais são proporcionais às diferenças entre a freqüência da classe modal e as das respectivas classes adjacentes. Assim: Mo = Li + h f Mo − f ant 2 f Mo − ( f ant + f post ) onde: 17 Li - limite inferior da classe modal; h - amplitude do intervalo de classe; fMo - freqüência simples da classe modal; fant - freqüência simples da classe anterior à classe modal; fpost - freqüência simples da classe posterior à classe modal. VI- Mediana (Md) Mediana é um valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados (crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais, cujo valor está sucedido de 50% e antecedido de 50% desse conjunto de observações. A mediana também é considerada uma medida separatriz, pois divide a distribuição (a série) ou conjunto de dados em partes iguais. É uma medida muito utilizada na análise de dados estatísticos, especialmente quando se atribui pouca importância aos valores extremos da variável. A mediana é um valor que ocupa uma determinada ordem ou posição na série ordenada. Estando ordenados os valores de uma série e sendo “n” o número de elementos da série, o valor mediano será: • Se “n” for ímpar: a mediana será o termo de ordem: P= n +1 2 Em que: P – elemento mediano (Posição); n – número de elementos do conjunto. • Se “n” for par: a mediana será a média aritmética dos termos de ordem n/2 e n/2 + 1: P1 = n 2 P2 = Exemplos 1) Para a série {4, 5, 6, 8, 10, 14, 15, 16, 19} n +1 2 Me = P1 + P2 2 n = 9 ⇒ A mediana será o termo de ordem P= 9 +1 =5 2 Assim, Md = 10 2) Para a série {3, 5, 7, 10, 12, 14, 19, 20} n = 8 ⇒ A mediana será o termo de ordem: P1 = n 8 = =4 2 2 P2 = n 8 10 + 12 + 1 = + 1 = 5 Me = = 11 2 2 2 Md = 11 Obs.: a mediana depende da “posição” e não dos valores dos elementos na série ordenada. Essa é uma das diferenças marcantes entre a mediana e a média (que se deixa influenciar, e muito, pelos valores extremos). • Mediana para Dados Agrupados em Classes Para o caso de uma distribuição, a ordem, a partir de qualquer um dos extremos, é dada por: ∑ Fi 2 18 1° passo: determina-se as freqüências acumuladas; 2° passo: calcula-se a posição da mediana; 3° passo: marca-se a classe correspondente à freqüência acumulada imediatamente superior a Posição calculada e, em seguida, emprega-se a fórmula: ∑ fi − Fant ⋅ h 2 M d = Li + f md Em que: Li – é o limite inferior da classe que contém a mediana; Fant – freqüência acumulada até a classe anterior à classe mediana; fmd – freqüência simples da classe mediana; h – amplitude do intervalo da classe mediana. Uso da Mediana: a) é usada em fenômenos educacionais quando se quer tornar objetiva a avaliação de uma classe; b) quando se quer exatamente o valor que divide a metade da distribuição; c) quando a distribuição tem resultados discrepantes e pairam dúvidas sobre sua validade e correção. CAPÍTULO V –Medidas de Dispersão 5.1 INTRODUÇÃO Fenômenos cuja análise intervém o método estatístico, bem como os dados estatísticos a eles referentes, caracterizam-se tanto pela semelhança quanto pela sua variabilidade. Dessa forma não há razão alguma se calcular a média de um conjunto de dados em que não haja variação desses elementos, e por outro lado, se a variabilidade dos dados for muito grande, sua média terá um grau de confiabilidade tão pequena que será inútil calculá-la. Assim o estudo das médias, medianas e modas são válidos, mas não são suficientes para estudos comparativos ou conclusões qualitativas. As medidas de dispersão ou variabilidade servem então para verificar a representatividade das medidas de posição. Consideremos os seguintes conjuntos de valores: A={70; 70; 70; 70; 70}, B={ 68; 69; 70; 71; 72} e C={5; 15; 50; 120; 160}. Em todos eles a média aritmética é: x = 70 , porém nota-se claramente que o conjunto A é mais homogêneo que os conjuntos B e C, e que o conjunto B é mais homogêneo que o conjunto C, já que há menor diversificação entre cada um de seus valores e a média representativa. 5.2 Medidas de Dispersão Absoluta • Amplitude Total ( At ): é a diferença entre os valores extremos de um conjunto. • Desvio Médio ( Dm ): é igual a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana. Para dados não agrupados tem-se: n Dm = ∑x i i =1 n Para dados agrupados em classes: 19 −x n Dm = ∑x i − x ⋅ fi i =1 n ∑f i i =1 em que xi é o ponto médio do intervalo de classe. • Variância ( S 2 ) e Desvio Padrão ( S ) O desvio padrão é a medida de dispersão mais usada, tendo em comum como desvio médio o fato de que os desvios são calculados em relação à média aritmética. Só que, no cálculo do desvio padrão, em lugar de serem usados os valores absolutos dos desvios, calcula-se o quadrado desses. Para dados não agrupados tem-se: Fórmula Normal n S= ∑ (x i (POPULAÇÃO) n n S= − x) 2 i =1 ∑ (x Fórmula Desenvolvida 2 n ∑ xi 1 n 2 i =1 S= ⋅ ∑ xi − n i =1 n − x) 2 i i =1 (AMOSTRA) n −1 S= (POPULAÇÃO) 2 n ∑ xi 1 n 2 i =1 ⋅ ∑ xi − n − 1 i =1 n (AMOSTRA) Para dados agrupados em classes tem-se: Fórmula Normal n S= ∑ (x i (POPULAÇÃO) n n S= − x ) ⋅ fi 2 i =1 ∑ (x Fórmula Desenvolvida 2 n ∑ xi f i 1 n 2 S= ⋅ ∑ xi f i − i =1 n i =1 n − x ) ⋅ fi 2 i i =1 n −1 (AMOSTRA) S= 2 n ∑ xi f i 1 n 2 ⋅ ∑ xi f i − i =1 n − 1 i =1 n (POPULAÇÃO) (AMOSTRA) • Coeficiente de Variação de Pearson Bibliografia CRESPO, A.A. Estatística Fácil . Editora Saraiva, São Paulo, SP, 2002. TOLEDO, G. L. e OVALLE, I. I.. Estatística Básica. Editora Atlas. São Paulo, SP, 2ª edição, 1992. SPIEGEL, M. R. Estatística. Editora Makron Books. São Paulo, 3ª Edição, 2009. 20