PCO PROGRAMA DE CERTIFICAÇÃO OPERACIONAL CST ESTATÍSTICA II ELABORAÇÃO: DEZEMBRO/04 CST - Companhia Siderúrgica de Tubarão FDH - Departamento de Recursos Humanos FHD - Divisão de Desenvolvimento e Remuneração Av. Brigadeiro Eduardo Gomes, 930, Jardim Limoeiro - Serra - ES. CEP: 29163-970 Telefone: 0 XX (27) 3348-1420 Fax: 0 XX (27) 3348-1077 Sumário 1. INTRODUÇÃO...................................................................................................................................... 6 2. DEFINIÇÕES DE TERMOS USADOS EM ESTATÍSTICA............................................................ 7 3. VARIÁVEIS DISCRETAS E CONTÍNUAS..................................................................................... 12 4. POPULAÇÕES E AMOSTRAS ......................................................................................................... 13 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 5. TÉCNICAS DE AMOSTRAGEM ......................................................................................................... 14 AMOSTRA ALEATÓRIA SIMPLES ..................................................................................................... 15 AMOSTRA SISTEMÁTICA ................................................................................................................ 15 AMOSTRA ESTRATIFICADA ............................................................................................................ 15 AMOSTRA DE CONVENIÊNCIA (GRUPO).......................................................................................... 16 ERROS DE AMOSTRAGEM............................................................................................................... 16 HISTOGRAMAS DE FREQÜÊNCIA............................................................................................... 16 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 6. PRIMEIRA ETAPA: CÁLCULO DA AMPLITUDE (R) .......................................................................... 17 SEGUNDA ETAPA: DETERMINAÇÃO DO INTERVALO DE CLASSE .................................................... 18 TERCEIRA ETAPA: PREPARAÇÃO DO FORMULÁRIO DA TABELA DE FREQÜÊNCIA .......................... 19 QUARTA ETAPA: DETERMINAÇÃO DAS CLASSES .......................................................................... 19 QUINTA ETAPA: CÁLCULO DO PONTO MÉDIO DE CADA CLASSE .................................................. 20 SEXTA ETAPA: OBTENÇÃO DAS FREQÜÊNCIAS.............................................................................. 20 DESENHANDO UM HISTOGRAMA DE FREQÜÊNCIA ............................................................ 20 6.1. 6.2. 7. POLÍGONO DE FREQÜÊNCIAS ......................................................................................................... 21 ESTRATIFICAÇÃO DE HISTOGRAMAS ............................................................................................. 22 PARÂMETROS DA DISTRIBUIÇÃO DE FREQÜÊNCIA............................................................ 24 7.1. 7.2. 7.3. 7.4. TENDÊNCIA CENTRAL ................................................................................................................... 25 DISPERSÃO .................................................................................................................................... 25 ASSIMETRIA .................................................................................................................................. 25 CURTOSE ....................................................................................................................................... 25 8. MÉDIA ARITMÉTICA ...................................................................................................................... 26 9. MÉDIA PONDERADA ....................................................................................................................... 27 10. MÉDIA DA RAIZ DA MÉDIA DOS QUADRADOS .................................................................. 29 11. MEDIA HARMÔNICA .................................................................................................................. 30 12. MEDIANA ....................................................................................................................................... 30 13. MODA.............................................................................................................................................. 31 14. MEDIDAS DE DISPERSÃO.......................................................................................................... 32 15. AMPLITUDE .................................................................................................................................. 32 16. VARIÂNCIA ................................................................................................................................... 33 17. DESVIO PADRÃO ......................................................................................................................... 34 18. COEFICIENTE DE VARIAÇÃO ................................................................................................. 36 Estatística 19. FORMATO...................................................................................................................................... 37 20. DISTRIBUIÇÃO DE PROBABILIDADES.................................................................................. 37 20.1. 20.2. 20.3. INTRODUÇÃO AO CÁLCULO DE PROBABILIDADES ......................................................................... 38 REGRA DA ADIÇÃO ........................................................................................................................ 41 REGRA DO PRODUTO ..................................................................................................................... 42 21. DISTRIBUIÇÃO BINOMIAL ....................................................................................................... 43 22. DISTRIBUIÇÃO DE POISSON .................................................................................................... 45 23. DISTRIBUIÇÃO NORMAL.......................................................................................................... 47 23.1. 23.2. 23.3. 23.4. 23.5. 23.6. 23.7. 23.8. PROPRIEDADES DA DISTRIBUIÇÃO NORMAL ................................................................................. 47 CARACTERÍSTICAS ........................................................................................................................ 48 MODELO MATEMÁTICO ................................................................................................................ 49 DISTRIBUIÇÃO NORMAL PADRÃO ................................................................................................. 50 APLICAÇÕES.................................................................................................................................. 54 DISTRIBUIÇÃO DE AMOSTRAGEM DA MÉDIA ARITMÉTICA............................................................ 56 ERRO PADRÃO DA MÉDIA ARITMÉTICA ........................................................................................ 58 TEOREMA DO LIMITE CENTRAL .................................................................................................... 59 24. DISTRIBUIÇÃO UNIFORME (OU RETANGULAR) ............................................................... 60 25. DISTRIBUIÇÃO TRIANGULAR................................................................................................. 62 26. DISTRIBUIÇÃO T (STUDENT) ................................................................................................... 65 27. GRAUS DE LIBERDADE ............................................................................................................. 67 28. INTERVALO DE CONFIANÇA................................................................................................... 67 29. EXERCÍCIOS DE ESTATÍSTICA ............................................................................................... 70 30. RESPOSTAS DOS EXERCÍCIOS DE ESTATÍSTICA.............................................................. 78 Estatística 5 Apresentação Muitas pessoas ainda pensam que Metrologia se refere apenas a Dimensão e Comprimento, que se trata de paquímetros, micrômetros, calibres e similares. Este conceito deve ser corrigido, pois Metrologia é a Ciência da Medição e se refere à medição de qualquer grandeza física. Segundo a norma 1 NBR ISO 10012, Comprovação Metrológica é um conjunto de operações necessárias para assegurar-se de que um dado equipamento de medição está em condições de conformidade com os requisitos para o uso pretendido. Quando se relata o resultado de medição de uma grandeza física, é obrigatório que seja dada alguma indicação quantitativa da qualidade do resultado, de forma tal que aqueles que o utilizam possam avaliar sua confiabilidade. Sem essa indicação, resultados de medição não podem ser comparados, seja entre eles mesmos ou com valores de referência fornecidos numa especificação técnica ou numa norma. A avaliação da qualidade de medidas é fundamental para a prática gerencial. Segundo o Dr. William Edwards Deming, “o que se registra ao final de uma determinada operação de medição é o último produto de uma longa série de operações, desde a matéria-prima até a operação de medição propriamente dita. A medição é, pois, a parte final deste processo. Assim, do mesmo modo como é vital controlar estatisticamente as outras partes deste processo, é vital controlar-se estatisticamente o processo de medição; caso contrário, não há medida que tenha significado comunicável”. Estas palavras de Deming mostram a importância do conhecimento e do uso sistemático, por parte das empresas, da comprovação metrológica, a qual utiliza as técnicas estatísticas para avaliação da capacidade de sistemas de medição. O pressuposto básico da metrologia é que toda medida possui erros. Como conseqüência, nem o valor verdadeiro e nem o valor do erro são conhecidos com exatidão. Como em outras áreas científicas, por exemplo, a física, na metrologia temos que conviver com a incerteza e os erros de medição. Convém, portanto, que a incerteza e os erros de medição sejam tratados de tal modo que as medições possam ter alguma utilidade. Uma das razões mais comuns de dados com baixa qualidade é a grande variação dos dados. Por exemplo, um sistema de medição usado para medir a vazão de um gás em uma tubulação, pode ser sensível à temperatura do gás medido. Neste caso, a variação nos dados pode ser devida ou a mudanças na vazão ou a mudanças na temperatura do gás. Isto torna a interpretação dos dados mais difícil e o sistema de medição, conseqüentemente, menos conveniente ou até mesmo inadequado. Além disso, outros fatores também influem na medição, por exemplo: o operador, os equipamentos auxiliares, as condições ambientais, o instrumento de medição etc. Esta apostila pretende tratar com mais ênfase os componentes de um Sistema de Comprovação Metrológica, fazendo, contudo, uma breve explanação dos conceitos básicos de Estatística, necessários à aplicação da metrologia. 1 Norma NBR ISO 10012/2004 – Sistemas de Gestão de Medição – Requisitos para os processos de medição e equipamento de medição. Estatística 6 1. INTRODUÇÃO A Estatística pode ser dividida em duas partes: descritiva e inferencial. A estatística descritiva “cuida dos métodos que envolvem a coleta, a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto”. Utiliza-se de tabelas, gráficos e métodos numéricos para resumir conjuntos de dados da população total ou de amostras. A estatística inferencial “cuida dos métodos que tornam possíveis a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras”. A estatística inferencial é uma técnica usada para coletar, descrever, analisar e interpretar os dados numéricos. Ela trata das variações aleatórias contidas nos dados. É conveniente deixar claro que a estatística inferencial mostra apenas as informações já contidas nos dados. Nenhuma informação nova é criada por ela. O tratamento estatístico dos dados permite fazer julgamentos objetivos relacionados com a validade dos resultados, permitindo vê-los de modos diferentes e a tomada de decisões objetivas e inteligentes quanto à qualidade e aplicação. Em metrologia a estatística inferencial é amplamente usada, pois o objetivo é obter conclusões prováveis, em condições de incerteza, sobre determinado sistema de medição baseando-se em uma pequena amostra de uma população estatística. Usando a estatística podemos determinar o valor mais provável de uma grandeza, partindo de um conjunto de dados de medição, bem como determinar o erro provável e o valor da incerteza. Quando se faz apenas uma medição dizemos que a mesma é imprevisível e aleatória. Entretanto uma série de medições é previsível e determinada. A base da estatística é a repetição das medições. Com apenas uma medição obtém-se pouca informação do mensurando, sujeita a erros. Com múltiplas medições os erros aleatórios aparecem como um espalhamento em torno da média das medições. Estatística 7 Este espalhamento é causado pelas variações da medição e pelas variações das características do sistema de medição. Dentro do possível, as variações da medição devem ser consideradas nos cálculos estatísticos e as variações do sistema de medição devem ser eliminadas. Como é sabido, devido ao alto custo das medições, torna-se impeditivo realizar muitas medições para caracterizar uma população, daí serem usadas algumas poucas amostras (medições) para inferir (tirar conclusões) sobre as populações. Por conseqüência, este processo tem suas limitações, não é exato, podendo estar sujeito a erros. A estatística inferencial poderá avaliar e controlar o tamanho do erro cometido ao se fazer estas deduções. Ou seja: a incerteza e o grau de confiança do sistema de medição. A qualidade dos dados de medição está relacionada com as propriedades estatísticas de medições múltiplas obtidas com um sistema de medição operando em condições estáveis 2. 2. DEFINIÇÕES DE TERMOS USADOS EM ESTATÍSTICA A seguir são apresentados alguns termos usados em estatística, extraídos do Guia 3 para a Expressão da Incerteza de Medição, que os extraiu da Norma 4 ISO 3534-1. Esta norma deve ser a primeira fonte a ser consultada para a definição de termos estatísticos não incluídos nesta apostila. Amostra: é uma parcela representativa da população que é escolhida para análise com o propósito de tirarmos conclusões sobre a essa população. Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo. 2 Análise dos Sistemas de Medição (MAS), 2a Edição – Fev/ 95. Guia Para a Expressão da Incerteza de Medição – 2a Edição – ABNT – INMETRO – SBM – 1998. 4 ISO 3535-1: 1993 – Statistics – Vocabulary and Symbols – Part 1: Probability and general statistical terms. 3 Estatística 8 Característica: propriedade que ajuda a identificar ou diferenciar itens de uma dada população. Nota: a característica pode ser ou quantitativa (por variáveis) ou qualitativa (por atributos). Coeficiente de confiança; nível de confiança: o valor (1 - α) da probabilidade associada com um intervalo de confiança ou um intervalo estatístico de abrangência. Nota: (1- α) é freqüentemente expresso como uma porcentagem. Dado Estatístico: dado numérico é considerado a matéria-prima sobre a qual iremos aplicar os métodos estatísticos. Desvio padrão: a raiz quadrada positiva da variância. Nota: o desvio padrão da amostra é um estimador 5 não-tendencioso do desvio padrão da população. No texto original, o estimador consta como "biased", que não corresponde à tradução "nãotendencioso”. Distribuição de freqüência: relação empírica entre valores de uma característica e suas freqüências ou suas freqüências relativas. Nota: a distribuição pode ser apresentada graficamente como um histograma, gráficos de barras, polígono de freqüência cumulativa ou como uma tabela de dupla entrada. Distribuição de Probabilidade (de uma variável aleatória): função que determina a probabilidade de uma variável aleatória assumir qualquer valor dado ou pertencer a um dado conjunto de valores. Nota: a probabilidade do conjunto inteiro de valores da variável aleatória é igual a 1. Esperança (de uma variável aleatória ou de uma distribuição de probabilidade); valor esperado; média. 5 No texto original, o estimador consta como "biased", que não corresponde à tradução "não-tendencioso”. Estatística 9 Estatística: função de variáveis aleatórias da amostra. Nota: Estatística, como uma função de variáveis aleatórias, é também uma variável aleatória e, como tal, assume diferentes valores de uma amostra para outra. O valor da estatística obtida, usando-se os valores observados nesta função, pode ser utilizado num teste estatístico ou como estimativa de um parâmetro de população, tal como uma média ou um desvio padrão. Estimação: é a operação que designa, através de observações numa amostra, valores numéricos para os parâmetros de uma distribuição escolhida, como o modelo estatístico da população da qual a amostra é extraída. Nota: um resultado desta operação pode ser expresso como um valor único singular (estimativa pontual) ou como uma estimativa de intervalo. Estimador: estatística utilizada para estimar um parâmetro de população. Estimativa: valor de um estimador obtido como um resultado de uma estimação. Fenômeno Estatístico: qualquer evento que se pretenda analisar, cujo estudo seja possível da aplicação do método estatístico. Freqüência: o número de ocorrências de um dado tipo de evento ou o número de observações que se enquadram em uma classe especificada. Função densidade de probabilidade (para uma variável aleatória contínua): derivada (quando existe) da função distribuição: f(x) = dF(x)/dx Nota: f(x)dx = Pr(x < X < x + dx) Função distribuição: função que determina, para cada valor x, a probabilidade de que a variável aleatória X seja menor ou igual a x: F(x) = Pr(X ≤ x). Graus de liberdade: em geral, o número de termos em uma soma menos o número de restrições aos termos da soma. Estatística 10 Intervalo de confiança bilateral: quando T1 e T2 são duas funções dos valores observados, tais que, θ sendo um parâmetro de população a ser estimado, a probabilidade Pr (T1 ≤ θ ≤ T2) é, pelo menos, igual a (1- α) [onde (1- α) é um número fixo, positivo e menor que 1], o intervalo entre T1 e T2 é um intervalo de confiança (1- α) bilateral para θ. Notas: 1) Os limites T1 e T2 do intervalo de confiança são estatísticas e, como tais, geralmente assumem diferentes valores de amostra para amostra. 2) Em uma longa série de amostras, a freqüência relativa dos casos nos quais o valor verdadeiro do parâmetro de população é coberto pelo intervalo de confiança, é maior ou igual a (1- α). Intervalo de confiança unilateral: quando T é uma função dos valores observados, tais que, θ sendo um parâmetro de população a ser estimado, a probabilidade Pr (T ≥ ≈ theta) [ou a probabilidade Pr (T1 ≤ θ)] é pelo menos igual a (1 - α) [onde (1 - α) é um número fixo, positivo e menor do que 1], o intervalo do menor valor possível de θ até T (ou o intervalo de T até o maior valor possível de θ) é um intervalo de confiança (1 - α) unilateral para θ. Nota: o limite T do intervalo de confiança é uma estatística e, como tal, geralmente irá supor diferentes valores de amostra para amostra. Intervalo estatístico de abrangência: intervalo para o qual pode-se dizer que, com um dado nível da confiança, ele contém pelo menos uma proporção especificada da população. Notas: 1) Quando ambos os limites são definidos por estatísticas, o intervalo é bilateral. Quando um dos dois limites não é finito ou consiste do limite absoluto da variável, o intervalo é unilateral. 2) Também denominado "intervalo estatístico de tolerância". Este termo não deve ser usado porque pode ser confundido com “intervalo de tolerância", que é definido na ISO 3534-2. Estatística 11 Média aritmética; média: a soma de valores dividida pelo número de valores. Notas: 1) O termo "média" (mean) é, geralmente, utilizado quando se refere a um parâmetro de população (média da população) e o termo "média" (average) quando se refere ao resultado de um cálculo sobre dados obtidos de uma amostra (média da amostra). 2) A média (average) de uma amostra aleatória simples tomada de uma população é um estimador não-tendencioso da média (mean) desta população. Entretanto, outros estimadores, tais como a média geométrica ou harmônica, ou a mediana ou a moda, são por vezes utilizados. Parâmetro - uma grandeza utilizada na descrição da distribuição de probabilidade de uma variável aleatória. População: totalidade de itens sob consideração. Nota: no caso de uma variável aleatória, considera-se que a distribuição de probabilidade defina a população daquela variável. Probabilidade: um número real na escala de 0 a 1 associado a um evento aleatório. Variância: uma medida de dispersão, que é a soma dos desvios quadráticos das observações de sua média aritmética dividida pelo número de observações menos um. Variável Aleatória: uma variável que pode assumir qualquer um dos valores de um conjunto especificado de valores e com a qual está associada uma distribuição de probabilidade. Nota: Uma variável aleatória que só pode assumir valores isolados é chamada “discreta”. Uma variável aleatória que pode assumir qualquer valor dentro de um intervalo finito ou infinito é chamada “contínua”. Variável aleatória centrada: uma variável aleatória cuja esperança se iguala a zero. Estatística 12 3. VARIÁVEIS DISCRETAS E CONTÍNUAS As variáveis podem ser caracterizadas como qualitativas ou quantitativas. A variável qualitativa resulta de uma classificação por tipo ou por atributo, enquanto que a quantitativa por seus valores expressos em números. As variáveis quantitativas podem ser agrupadas em discretas e contínuas. É chamada discreta quando pode assumir apenas valores isolados ao longo de uma escala. Por exemplo: o número de altos fornos existentes na CST é uma variável discreta, enquanto que a temperatura deles é uma variável contínua. Pode-se concluir também que os valores das variáveis discretas são obtidas mediante alguma forma de contagem enquanto que as variáveis contínuas advém de um processo de medição, freqüentemente fornecidos em alguma unidade de medida. Por outro lado a interpretação de um valor de uma variável discreta é dada exatamente pelo seu valor numérico. Quando dizemos que a CST possui dois altos fornos (em 2004), temos a noção exata do seu significado. Entretanto, não podemos dizer o mesmo da temperatura, pois a interpretação de uma variável contínua é a de que se trata de um valor aproximado. Isso decorre do fato de não existirem instrumentos de medida capazes de oferecer precisão absoluta, além do fato de que existem outros fatores de influência que afetam o resultado da medida, como, por exemplo, a variabilidade do processo, reajuste do equipamento, troca de operador, entre outros. Ao medirmos uma variável contínua, estamos sempre fazendo uma aproximação, cujo resultado deve ser interpretado como sendo uma aproximação compatível com o nível de precisão e com o critério utilizado para medir. Estatística 13 4. POPULAÇÕES E AMOSTRAS Por definição, população é conjunto total de elementos portadores de, pelo menos, uma característica comum. Então, qualquer subconjunto não vazio e com menor número de elementos do que a população constitui uma amostra dessa população. A figura 1 ilustra este conceito. População Amostra Figura 1 - Ilustração do conceito de população e amostra As populações podem ser finitas, como o conjunto dos habitantes de um país ou infinitas como o número de vezes em que se pode tirar a carta de “7 de paus” de um baralho. De um modo geral, considera-se como se fossem infinitas as populações finitas muito grandes. Como exemplo, o número de torcedores do Flamengo. Este número é matematicamente finito, mas tão grande que um pesquisador, ao analisar uma mostra de 1000 pessoas, pode considerar a população como infinita. Entretanto, se as informações de toda a população são coletadas, diz-se que houve um recenseamento. Pois Censo é o conjunto de dados obtidos através de recenseamento. Por outro lado, se as informações são provenientes de apenas parte da população, é dito que foi feita uma amostragem. A amostra é tanto a parte retirada da população para estudo como, também, o conjunto de dados obtidos nessa parte da população. Convém, contudo, ressaltar que mesmo que o pesquisador trabalhasse com a população, o que seria impossível, mesmo assim, poderia ter um trabalho astronômico para estudá-la e na maioria dos casos os resultados seriam sempre falhos. Imagine o número de nascimentos e mortes diários em nosso país. Portanto, vai sempre existir uma imprecisão no resultado do trabalho. Nesses casos, o estatístico recorre a uma amostra, que basicamente, constitui uma redução da população a dimensões menores, sem perda das características essenciais. Estatística 14 Na metrologia, ocorre o mesmo, pois mesmo que alguém se disponha a fazer, digamos, 100 medições da corrente elétrica de um motor, o resultado será sempre uma amostra porque, teoricamente, a corrente elétrica pode ser medida um número infinito de vezes. Além disso, o estudo cuidadoso de uma amostra tem mais valor científico do que o estudo sumário de toda a população. 4.1. TÉCNICAS DE AMOSTRAGEM Uma amostra para ser boa tem de ser representativa, ou seja, deve conter em proporção tudo o que a população possui, tanto qualitativa quanto quantitativamente. Também tem que ser imparcial, isto é, todos os elementos da população devem ter igual oportunidade de fazer parte da amostra. Imagine alguém pesquisando “que time tem a maior torcida”, no Espírito Santo, na saída do estádio, após o jogo, Desportiva e Estrela, realizado em Cariacica! Conforme a técnica utilizada, tem-se um tipo de amostra. Existem basicamente dois tipos de amostras: amostra não-probalística e amostra probabilística, as quais de dividem em: Amostra não-probalística pode ser: a) amostra de julgamento; b) amostra por quota; c) fatia. Amostra probabilística pode ser: a) amostra aleatória simples; b) amostra sistemática; c) amostra estratificada; d) amostra de conveniência (grupo). Em muitos casos, somente a amostra não-probalística está disponível, como por exemplo, em um julgamento. Nesse caso a opinião de um perito no assunto estudado é fundamental para que se possa utilizar os resultados obtidos a fim de realizar modificações em um processo. Estatística 15 Existem outros casos de amostragem não-probalística, que são: a amostragem de quota e a amostragem de fatia. Por não serem utilizadas em metrologia, não vamos estudá-las. As inferências estatísticas de uma amostra para uma população é feita através de uma amostra probabilística. 4.2. AMOSTRA ALEATÓRIA SIMPLES Neste tipo de amostragem, os elementos são retirados ao acaso da população, logo, cada elemento tem a mesma chance de todos os demais componentes da amostra de ser escolhido. 4.3. AMOSTRA SISTEMÁTICA Neste caso, os elementos são escolhidos, não por acaso, mas por um sistema. Quando a população está organizada é mais fácil obter uma amostra sistemática do que uma amostra aleatória simples. Vejamos um exemplo. Para obter uma amostra de 4% de certificados de calibração de um laboratório, é mais fácil pegar o último de cada 25 certificados do que fazer um sorteio até conseguir 4% do total de certificados emitidos. 4.4. AMOSTRA ESTRATIFICADA É composta por elementos provenientes de todos os extratos da população. Por exemplo, numa pesquisa de nível de satisfação com o governo do Estado do ES é necessário coletar amostras em um número maior de municípios do Estado e não somente na região chamada de Grande Vitória. Sempre que a população for constituída de por diferentes extratos, devem ser obtidas amostras estratificadas. Estatística 16 4.5. AMOSTRA DE CONVENIÊNCIA (GRUPO) É formada pelos elementos que se dispõe. Logo, se alguém toma os certificados de calibração de que dispõe como amostra de todos os certificados emitidos pelo laboratório, estará usando uma amostra de conveniência. Como regra geral, há muitas restrições ao uso de mostras por conveniência. Entretanto, elas são comuns, em várias áreas, principalmente quando constituem a única maneira de estudar determinado problema. 4.6. ERROS DE AMOSTRAGEM A importância da amostragem não pode ser deixada de lado. Se a amostra não for representativa da população que se quer analisar, de nada vai adiantar o esmerado cuidado nas medições, na coleta e análise dos dados. Entretanto, convém frisar que a amostragem sempre contribui para a incerteza de medição. Cabe ao metrologista avaliar previamente todas as fontes de erro oriundos da amostragem e tentar minimizá-las, pois uma vez cometidos eles são irreversíveis. Por exemplo, se ao fazer uma medição de baixo sinal DC, o equipamento não for aterrado conveniente, todas as medições poderão ser afetadas por ruídos intermitentes presentes no circuito. 5. HISTOGRAMAS DE FREQÜÊNCIA É uma ferramenta estatística apropriada para apresentação de grandes massas de dados numa forma que torna mais clara a tendência central e a dispersão dos valores ao longo da escala de medição, bem como a freqüência relativa de ocorrência dos diferentes valores. A tabela 1 apresenta dados brutos, isto é, dados que ainda não foram numericamente organizados, de medidas de comprimento de 100 eixos fabricados numa Usinagem. Observe que interpretar essa massa de dados é bastante trabalhoso. Por isso fazemos uso de alguns recursos para facilitar a análise dos dados. O histograma é um dos métodos usados que vamos aplicar agora. Siga as seis etapas do método. Estatística 17 5.1. PRIMEIRA ETAPA: CÁLCULO DA AMPLITUDE (R) A fórmula para cálculo da Amplitude (R) é a seguinte: R = Vmax – Vmin, Sendo: R = amplitude Vmax = maior valor entre os 100 valores Vmin = menor valor entre os 100 valores No. da Amostra Medidas (em mm) 1 a 10 4162 4168 4178 4165 4167 4168 4157 4161 4164 4165 11 a 20 4157 4158 4173 4183 4189 4167 4172 4171 4173 4176 21 a 30 4154 4168 4178 4169 4177 4173 4176 4166 4171 4165 31 a 40 4169 4169 4165 4171 4169 4167 4173 4172 4181 4171 41 a 50 4186 4171 4174 4164 4165 4167 4158 4172 4183 4187 51 a 60 4163 4169 4173 4169 4182 4165 4169 4170 4175 4174 61 a 70 4167 4177 4172 4179 4171 4157 4159 4178 4173 4176 71 a 80 4162 4163 4182 4169 4177 4156 4160 4178 4173 4175 81 a 90 4169 4178 4169 4173 4174 4173 4177 4169 4182 4184 91 a 100 4185 4171 4177 4169 4171 4151 4168 4177 4169 4169 Tabela 1 - Dados brutos medidas de comprimento de 100 eixos fabricados (em mm). Encontrar tanto o menor valor, quanto o maior deles, percorrendo visualmente a lista de 100 valores. Este método é passível de erro quando se tem muitos valores a comparar. É melhor acrescentar duas colunas à direita da tabela 1 e nomeá-las como “Menor Valor” e “Maior Valor”. Veja a Tabela 2. Percorrer visualmente cada linha e anotar na coluna correspondente o “Menor Valor” de cada linha. Percorrer visualmente a coluna “Menor Valor” e anotar qual é o “Menor Valor”. Repetir o mesmo procedimento para o “Maior Valor”. Feito isso, é só aplicar a fórmula de cálculo da amplitude e obter: R = Vmax – Vmin = 4189 mm – 4151 mm = 38 mm Portanto, R = 38 mm. Estatística 18 5.2. SEGUNDA ETAPA: DETERMINAÇÃO DO INTERVALO DE CLASSE O intervalo de classe pode ser determinado dividindo a amplitude (R) por 1, 2, ou 5 (ou 10, 20, 50 ou por 0, 1, 0, 2, 0,5 etc) de modo a se obter de 5 a 20 intervalos de classe, de igual amplitude. Não é conveniente ter muitos intervalos, pois isto tornam trabalhosas as etapas seguintes. Neste caso vamos dividir 38 por 1, por 2 e por 5. Logo obtemos: a) 38 / 1 = 38 b) 38 / 2 = 19 c) 38 / 5 = 7,6 que deve ser arredondado para 8. Então vamos optar pela letra c, que nos permitirá 8 classes com intervalo de 5 mm. No. da Amostra 1 a 10 11 a 20 21 a 30 31 a 40 41 a 50 51 a 60 61 a 70 71 a 80 81 a 90 91 a 100 4162 4157 4154 4169 4186 4163 4167 4162 4169 4185 4168 4158 4168 4169 4171 4169 4177 4163 4178 4171 4178 4173 4178 4165 4174 4173 4172 4182 4169 4177 4165 4183 4169 4171 4164 4169 4179 4169 4173 4169 Medidas (em mm) 4167 4168 4189 4167 4177 4173 4169 4167 4165 4167 4182 4165 4171 4157 4177 4156 4174 4173 4171 4151 4157 4161 4164 4165 4172 4171 4173 4176 4176 4166 4171 4165 4173 4172 4181 4171 4158 4172 4183 4187 4169 4170 4175 4174 4159 4178 4173 4176 4160 4178 4173 4175 4177 4169 4182 4184 4168 4177 4169 4169 Menor Valor da Tabela Maior Valor da Tabela Menor Valor 4162 4157 4154 4165 4158 4163 4157 4156 4169 4151 4151 Tabela 2 - Como encontrar o maior e o menor valor numa tabela de dados Estatística Maior Valor 4178 4189 4178 4181 4187 4182 4179 4182 4184 4185 4189 19 5.3. TERCEIRA ETAPA: PREPARAÇÃO DO FORMULÁRIO DA TABELA DE FREQÜÊNCIA Preparar um formulário conforme mostrado na tabela 3, de modo que a classe, o intervalo de classe, o ponto médio da classe, as marcas de freqüência, a freqüência (f) e a freqüência relativa possam ser registradas. Classe no Intervalo de Classe Ponto Médio da Classe Freqüências (Marcas) Total Freqüência f Freqüência Relativa 100 0,01 Tabela 3 - Formulário para Tabela de Freqüência. Observe que: a) a soma das freqüências (f) tem que ser igual à quantidade (n) de dados levantados (neste caso: 100); b) a freqüência relativa, quando desejada, é obtida pela divisão de f por n. 5.4. QUARTA ETAPA: DETERMINAÇÃO DAS CLASSES Determinar os limites dos intervalos de forma que incluam o menor e o maior valores levantados e anotar no formulário para Tabela de Freqüência. Determinar o limite inferior da primeira classe e acrescentar a amplitude do intervalo a ele, para obter o limite entre a primeira e a segunda classe. Assegurar-se de que a primeira classe contenha o menor valor observado. Os limites de classe devem ter um decimal a mais que os dados reais, sendo o último dígito igual a 5. Continuar a adicionar a amplitude do intervalo ao valor anterior para obter o segundo limite, o terceiro etc até alcançar a última classe. Conferir se a última classe contém o valor máximo observado. Preencher o formulário adequadamente com estes valores. Estatística 20 5.5. QUINTA ETAPA: CÁLCULO DO PONTO MÉDIO DE CADA CLASSE Calcular o ponto médio da primeira classe, somando os valores dos limites superior e inferior da primeira classe e dividindo o resultado por 2. Anotar no formulário da tabela de freqüência. Prosseguir com o mesmo método para as outras classes. Alternativamente, os pontos médios da segunda, terceira e demais classes também podem ser obtidos somandose ao ponto médio da primeira classe o intervalo de classe e assim sucessivamente. 5.6. SEXTA ETAPA: OBTENÇÃO DAS FREQÜÊNCIAS Ler todos os valores contidos na tabela 1 e colocar uma marca ( | ) para cada valor, agrupando-as de 5 em 5, de acordo com as classes a que pertençam. Veja exemplo na tabela 4. Contar quantas marcas foram registradas e anotar na coluna Freqüência (f). Calcular a freqüência relativa, dividindo f por n. Classe no 1 2 3 4 5 6 7 8 Intervalo de Classe 4150,5 a 4155,5 4155,5 a 4160,5 4160,5 a 4165,5 4165,5 a 4170,5 4170,5 a 4175,5 4175,5 a 4180,5 4180,5 a 4185,5 4185,5 a 4190,5 Ponto Médio da Classe 4153,5 4158,5 4163,5 4168,5 4173,5 4178,5 4183,5 4188,5 Total Freqüências (Marcas) || ||||| ||||| ||||| ||||| ||||| ||||| ||| ||| ||||| ||||| ||||| ||||| ||| ||| ||||| ||||| ||||| ||||| ||||| ||||| | ||||| Freqüência Freqüência (f) Relativa 002 0,002 008 0,008 013 0,013 025 0,025 026 0,026 015 0,015 008 0,008 003 0,003 100 0,010 Tabela 4 - Tabela de Freqüência. 6. DESENHANDO UM HISTOGRAMA DE FREQÜÊNCIA a) Usando uma folha de papel quadriculado, marcar o eixo horizontal com uma escala (mm). A escala deve ser baseada na unidade de medida dos dados (kg, oC, mm); b) Deixar um espaço aproximadamente igual ao intervalo de classe no eixo horizontal antes da primeira e após a última classe; c) Marcar o eixo vertical da esquerda com a escala de freqüência. Traçar o eixo vertical da direita, marcando nele a escala de freqüência relativa; Estatística 21 d) Marcar o eixo horizontal com os valores limites das classes; e) Usando o intervalo de classe como base, traçar retângulos cuja altura corresponda à freqüência daquela classe; f) Traçar uma linha (traço-ponto) para representar a média e, se houver, traçar linhas verticais representando os limites da especificação; g) Anotar a quantidade de dados (n), a média ( x ) e o desvio padrão (s) e quando foi feita a coleta de dados etc. Veja o exemplo da figura 2 para os dados da tabela 1. 6.1. POLÍGONO DE FREQÜÊNCIAS A construção de um polígono de freqüências é feita marcando o ponto médio (central) no “topo” de cada coluna do gráfico de histograma e freqüência e unindo estes pontos com uma linha cheia. Figura 2 - Histograma baseado nos dados da tabela 1. Nota: Esta linha sinuosa ( ) que começa no zero serve para economizar espaço. Com este recurso o valor 4151 pode ficar perto do zero. Estatística 22 Por exemplo, na tabela 4 calculamos o ponto médio de cada classe. Vamos repetir o histograma da figura 2, construindo a figura 3, e vamos marcar neste histograma o ponto médio de cada classe e em seguida vamos unir os pontos marcados. E para concluir o gráfico, imaginamos duas classes teóricas, de ponto médio = 0, nos dois extremos do histograma. Figura 3 - Polígono de Freqüências com os dados da tabela 3. 6.2. ESTRATIFICAÇÃO DE HISTOGRAMAS De forma geral, a maioria dos estudos voltados à detecção das causas de defeitos envolve a associação dos dados de causas com os dados dos correspondentes efeitos. Neste caso, a disposição dos dados numa ordem tal que mostre claramente esta correspondência, e mais tarde, a análise dos dados através da estratificação por causas ou da construção de histogramas de dispersão em função dessas causas podem facilitar a identificação das fontes do problema. Considere os dados da tabela 5. Foram coletados da medição de temperatura em duas posições do forno, a saber: lado direito (A) e lado esquerdo (B). Foi feito o histograma de todos os dados – figura 4 - e posteriormente os dados foram estratificados em dois histogramas (uma para o lado A e outro para o lado B) – figura 5 - visando identificar se há variações de temperatura entre os lados do forno. Estatística 23 Foram identificadas diferenças nas temperaturas entre os dois sensores. Este método pode ser usado para melhorar a qualidade do produto, reduzindo a variação e melhorando a média do processo. A estratificação é geralmente feita de acordo com a metodologia 6M 6 (também conhecida como “diagrama de Ishikawa”, diagrama de causa-e-efeito ou ainda “espinha de peixe”). Os 6M são: método, máquina, mão-de-obra, meio-ambiente, matéria prima e medida. o Medição N Forno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 6 A A B B A B B B A B B A A A B B A B B A B A A A Temp. em °C 184,9 183,8 186,2 185,7 183,9 186,4 186,8 187,0 183,8 186,0 186,3 183,0 183,5 182,7 185,2 186,7 183,1 185,9 187,5 183,8 187,5 184,4 183,4 184,3 o Medição N Forno 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 B B A B A A B B A A A B A A B A A A B B A B B B Temp. em °C 186,2 187,2 183,0 186,3 183,9 183,5 184,1 184,7 185,3 184,5 184,5 186,2 184,1 183,2 186,2 182,9 183,8 183,7 186,6 185,7 182,9 186,9 186,1 186,0 o Medição N Forno 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 B B B A A B A B A A B A A A B B B A B A B A A A Temp. em °C 186,6 187,0 186,7 184,9 183,7 184,7 185,1 185,4 184,4 184,2 185,8 185,1 184,4 183,8 187,0 186,9 185,5 183,7 186,0 184,5 187,9 182,7 184,2 183,9 o Medição N Forno 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 B B A A B B A B A B A B A B B A A A B B A A B B Temp. em °C 185,4 184,6 183,9 183,2 185,7 186,9 184,0 185,7 184,3 186,0 183,6 186,0 183,6 186,5 187,6 184,7 185,1 183,8 186,6 186,7 184,3 183,7 184,9 185,8 B 186,1 50 A 183,8 75 B 185,5 100 B 184,1 Tabela 5 - Dados da medição de temperatura do forno – Lados A e B. As Ferramentas da Qualidade no Gerenciamento de Processos – Werkema, Maria C. Catarino Estatística 24 25 20 15 10 5 0 1 2 3 4 5 6 7 Figura 4 - Histograma de Freqüência da Medição de Temperatura nos lados A e B 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 1 2 3 4 5 6 7 1 2 3 4 5 Figura 5 - Histogramas Estratificadas da Temperatura do Forno a) lado direito: posição A; b) lado esquerdo: posição B. 6 7 8 7. PARÂMETROS DA DISTRIBUIÇÃO DE FREQÜÊNCIA A distribuição de freqüências mostra os dados em formas e formatos comuns. Os números têm uma tendência de se agrupar e mostrar padrões semelhantes. Estes padrões podem ser identificados, medidos e analisados. Na análise dos dados de uma distribuição de freqüências há quatro parâmetros importantes: tendência central, dispersão, desvio e curtose. Estatística 25 7.1. TENDÊNCIA CENTRAL A maioria das distribuições de freqüência exibe uma “tendência central”, isto é, uma forma tal que a maior parte das observações se acumula na área entre os dois extremos. Tendência Central é um dos conceitos fundamentais em toda a análise estatística. É a média dos pontos. As curvas podem ter diferentes simetrias e dispersões, mas a mesma tendência central. Também é possível ter curvas com a mesma simetria e mesma dispersão, mas com diferente tendência central. 7.2. DISPERSÃO É a característica que indica o grau de espalhamento dos dados. Também é chamada de variação. 7.3. ASSIMETRIA Indica o grau de distorção em uma curva simétrica ou o grau de assimetria. Uma curva simétrica possui os lados direito e esquerdo da lei de centro iguais. Os dois lados de uma curva simétrica são imagens de cada lado. Uma curva se distorce para direita quando a maioria dos valores está agrupada no lado direito da distribuição. 7.4. CURTOSE É a característica que descreve o pico em uma distribuição. É uma medida relativa para comparar o pico de duas distribuições. Uma maior curtose significa um pico maior de freqüência relativa, não maior quantidade de dados. Há três classes de curtose: platicúrtica (curva plana e esparramada), leptocúrtica (curva com pico estreito e alto) e mesocúrtica (intermediária entre as duas outras). Estatística 26 8. MÉDIA ARITMÉTICA Os dados podem ser reduzidos a um único número, para fins de comparação. A média ou valor médio é o mais representativo de um conjunto de dados ou medições. Quanto maior o número de medições feitas, melhor será o resultado. O valor médio é a expectativa matemática do conjunto de dados. A média aritmética é a média mais usada e é calculada como sendo a soma de todas as medidas de um conjunto dividida pelo número total de medidas. Se uma variável x possui os n valores: x1 , x2 , ...., xn , a média aritmética, x , (leia-se: xis barra) é: x= x1 + x2 + ... + xn n n Simplificando esta fórmula podemos usar x= ∑x i =1 i n Onde: x = média aritmética ∑ = letra grega Sigma n ∑x = somatório de todos os valores xi na amostra (i varia de 1 até n) n = tamanho da amostra i =1 i Exemplo: Calcular a média de: 25, 36, 45 e 72. Usando a fórmula, temos: x= 25 + 36 + 45 + 72 = 44,5 4 Logo, a média aritmética, ou simplesmente, a média é: 44,5. É importante observar que a média baseia-se em todas os elementos do conjunto de dados, por isso ela é altamente afetada pelos valores extremos. Por isso, às vezes, a média aritmética apresenta uma representação distorcida daquilo que os dados estão transmitindo; assim sendo, a média aritmética não seria, sozinha, a melhor medida a ser utilizada para descrever ou resumir tal conjunto de dados. Estatística 27 Quando se tem uma população muito grande de dados (n tende para o infinito), o símbolo da média é expresso como: n μ = ∑x i =1 i n Sendo μ = símbolo da média (para n grande). Deve-se sempre fazer de três a cinco replicações de uma medição. Os resultados individuais de um conjunto de medições são raramente os mesmos e usa-se a média como melhor valor para o conjunto, pois a média é sempre mais confiável do que qualquer resultado individual. A variação nos dados deve fornecer uma medida da incerteza associada com o resultado. 9. MÉDIA PONDERADA Às vezes as medições x1 , x2 , ...., xn , estão associadas com certos fatores de peso, como p1 , p2 , ...., pn, respectivamente, dependendo da importância associada a estes números. Neste caso, define-se a média aritmética ponderada como: xp = x1 p1 + x2 p2 + ... + xn pn p1 + p2 + ... + pn A média ponderada é muito usada nas médias escolares, onde se pode atribuir importâncias (pesos) diferentes ao exame final, trabalhos de casa, aulas práticas e provas mensais. Em metrologia, a média ponderada mais comum usa as freqüências das medições como seus respectivos pesos. Freqüência é o número de vezes que um dado é observado. Freqüência relativa é a percentagem de vezes que um dado é observado. Considere a Figura 6, de distribuição de freqüências com k classes. Sejam x1 , x2 , ...., xk , os valores dos pontos médios de classe e sejam f1 , f 2 , ...., respectivas freqüências, como mostra a Figura 6. Estatística f k , as 28 Ponto Médio Freqüência x1 x2 f1 f2 . . . . . . xk fk Figura 6 - Distribuição de freqüências com k classes. x p = x1 f1 + x2 f 2 + ... + xk f k k xp = ∑fx i =1 k i i ∑f i =1 i Onde f i é a freqüência relativa da ocorrência da medição xi . k Nota: A expressão ∑f i =1 i será sempre igual a n (neste caso: 100). Vejamos um exemplo. Considere os dados da tabela 6 (esta tabela é a mesma já estudada anteriormente). E que desejássemos calcular a média, baseando-nos apenas nos dados desta tabela. Classe no 1 2 3 4 5 6 7 8 Intervalo de Classe 4151,5 a 4156,5 4156,5 a 4161,5 4161,5 a 4166,5 4166,5 a 4171,5 4171,5 a 4176,5 4176,5 a 4181,5 4181,5 a 4186,5 4186,5 a 4191,5 Freqüências (Marcas) 4153,5 || 002 0,002 8307,00 4158,5 ||||| ||| 008 0,008 33268,00 4163,5 ||||| ||||| ||| 013 0,013 54125,50 4168,5 ||||| ||||| ||||| ||||| ||||| 025 0,025 104212,50 4173,5 ||||| ||||| ||||| ||||| ||||| | 026 0,026 108511,00 4178,5 ||||| ||||| ||||| 015 0,015 62677,50 4183,5 ||||| ||| 008 0,008 33468,00 4188,5 ||| 003 0,003 12565,50 100 0,010 417135,00 4171,35 Total Freqüência Freqüência (f) Relativa Média Tabela 6 - Tabela de Freqüência. Estatística (Ponto Médio Classe) x (Freqüência) Ponto Médio da Classe 29 Podemos observar que a soma da coluna Freqüência (f) é 100 (total de elementos que compõem esta amostra). Para obtermos a média do diâmetro dos 100 eixos desta tabela, multiplica-se o ponto médio de cada classe (2a coluna) pela respectiva freqüência, somamse os produtos e divide-se a soma por n (neste caso, k =8, pois são 8 classes de freqüência). Então a média é: k xp ∑ f x ( f x + f x + ... + f x ) 2 * 4153,5 + 8 * 4158,5 + ... + 3 * 4188,5 = = = f + f + ... + f 2 + 8 + ... + 3 ∑f i =1 k i =1 i i 1 1 i 2 2 1 8 8 2 8 417135 = 4171,35 100 xp = 10. MÉDIA DA RAIZ DA MÉDIA DOS QUADRADOS Quando temos dados positivos e negativos e as suas influências se somam, não podemos tirar a média aritmética, pois a soma algébrica dos dados cancelam seus valores. Então se utiliza a fórmula: x rms = (x 2 1 + x 22 + ... + x n2 ) Esta fórmula também é usada em metrologia, quando se quer combinar diversos erros, por exemplo, numa malha de medição. Neste caso, x1 , x2 , ...., xn , seriam os erros de cada componente da malha de medição e x rms seria o erro médio da malha. Estatística 30 11. MEDIA HARMÔNICA A média harmônica é dada pela fórmula: xh = n n 1 ∑x i =1 i É usada quando se deseja calcular a média de grandezas inversas. Por exemplo: Suponha que um tanque esteja alimentando três clientes, com vazões individuais de 100, 120 e 140 litros por minuto. Deseja-se saber qual é a vazão média. Aplicando a fórmula da média harmônica, temos: xh = n n 1 ∑x i =1 = i 3 = 117,76 1 1 ⎞ ⎛ 1 + + ⎜ ⎟ ⎝ 100 120 140 ⎠ A vazão média é de 118 litros por minuto. 12. MEDIANA A Mediana é o valor central quando os dados estão ordenados por valor e a amostra possui número ímpar de dados. Por exemplo: 4, 6, 8 12 e 18, a mediana é 8. Se a amostra contém um número par de dados, a mediana é a média aritmética dos dois valores que ficam na posição central dos dados ordenados. Por exemplo: 25, 30, 35, 40, 60, 80, 90 e 100. Os dois valores que ficam na posição central são 40 e 60, logo a mediana será: 40 + 60 = 50 2 Veja que no gráfico da Figura 7 os dados estão representados ao longo do eixo e que a posição da mediana (linha pontilhada) está assinalada (50) e divide a amostra em dois conjuntos com igual número de dados (4 dados para cada lado). Estatística 31 Figura 7 - Distribuição dos dados sobre o eixo e a respectiva mediana. A mediana é usada para reduzir o efeito dos valores extremos ou para dados que possam ser ordenados, mas que não sejam economicamente mensuráveis (tons de cor, aparência visual, odores). Na curva percentil, é o valor da escala horizontal onde a curva alcança a altura 50%. 13. MODA A Moda é o valor que ocorre com maior freqüência. Por exemplo: 12, 14, 15, 15, 15, 18, 29, 29, e 30. A moda é 15, pois este é o número que ocorre maior número de vezes. Existem conjuntos de dados que não possuem moda, porque nenhum valor se repete maior número de vezes e existem conjuntos de dados com mais de uma moda. Por exemplo: 7, 8, 9, 10, 11, 12 e 18 não tem moda e o conjunto de números 7, 8, 8, 9, 10, 11, 11, 12 e 18 tem duas modas, a saber, 8 e 11. A moda, diferentemente das outras medidas de tendência central, pode ser obtida mesmo que a variável seja qualitativa. Veja os dados apresentados na tabela 7. O sangue tipo A ocorreu com maior freqüência entre os doadores de sangue no mês de junho. Tipo de Sangue O A B AB Freqüência 680 735 246 97 Tabela 7 - Doadores de sangue, segundo o tipo de sangue. A moda também é usada para distribuições extremamente assimétricas, situações irregulares onde dois picos são encontrados, ou para eliminar os efeitos dos valores extremos. Estatística 32 14. MEDIDAS DE DISPERSÃO Os dados estão sempre dispersos ao redor da zona de tendência central, e a extensão dessa dispersão é chamada dispersão ou variação. Uma medida de dispersão é a segunda das duas medidas mais fundamentais em toda a análise estatística. Dentre as medidas de dispersão, vamos estudar a amplitude, a variância, o desvio padrão e o coeficiente de variação. 15. AMPLITUDE Dentre as várias medidas de dispersão, a mais simples é a Amplitude, que é a diferença entre os valores máximo e mínimo dos dados. Por exemplo, calcular a amplitude entre os dados: 5, 8, 12, 17 e 32 a amplitude é 32 – 5 = 27 Como a amplitude é baseada em dois números, é mais útil quando o número de observações é pequeno (cerca de 10 ou menos). Entretanto a amplitude nem sempre nos mostra certas diferenças contidas nos dados. Sua deficiência reside no fato de que usa apenas os valores extremos – e não todos os dados. Mesmo assim, ela é muito usada, principalmente pela facilidade com que é calculada e interpretada. Estatística 33 16. VARIÂNCIA Embora a amplitude seja uma medida de dispersão, como vimos anteriormente, ela não leva em conta como os dados se distribuem ou se agrupam. Duas maneiras utilizadas para medir a variação que realmente considera como os dados se distribuem em torno da média são a variância e o desvio padrão. Para um conjunto de dados composto de: x1 , x2 , ...., xn , a variância é calculada usando a fórmula: (x − x ) + (x 2 s2 = 1 ∑ (x − x ) n s2 = 2 i =1 ) 2 ( − x + ... + xn − x n −1 ) 2 ou, simplificando n 2 i n −1 ou podemos usar também s 2 = ∑x i =1 2 i − n x2 n −1 Esta segunda fórmula facilita o cálculo, quando usamos calculadora simples. Onde: s 2 = variância x = média aritmética n = tamanho da amostra xi = encimo valor da variável aleatória x ∑ (x n i =1 i −x ) 2 = somatório de todas as diferenças ao quadrado entre os valores xi e Aqui convém explicar o uso de n − 1 ao invés de n . Isto se deve a certas propriedades matemáticas desejáveis possuídas pela estatística s 2 (variância), que a tornam apropriada para inferência estatística. À medida que cresce o tamanho da amostra, n , a diferença na divisão por n ou por n − 1 vai se tornando cada vez menor. Estatística 34 Os estatísticos chamam a expressão n − 1 de “graus de liberdade”. Quando calculamos a média, x , utilizamos todos os n dados que compunham a amostra. Dizemos então que no cálculo da média temos n valores de xi livres que devem ser considerados para podermos calcular o valor desta estatística. Ou seja, se qualquer dos valores de xi livres da amostra for desconhecido, não poderemos determinar o valor desta estatística, pois todos os valores da amostra são livres, podendo variar aleatoriamente. Por outro lado, a estatística da variância expressa pela equação acima, por usar a média, x , ao invés do parâmetro populacional µ, tem um grau de liberdade a menos. Isso ocorre porque o cálculo dessa estatística pressupõe que anteriormente já se tenha usado todos os valores da amostra no cálculo da média, x , os quais estariam sendo usados uma segunda vez no cálculo da variância. Ou seja, ao usarmos o mesmo conjunto de dados para determinar a média, x , e a variância que faz uso do valor da média, perdemos um grau de liberdade para a determinação da média. 17. DESVIO PADRÃO O desvio-padrão, s, é a medida mais importante de variação. Ele determina a dispersão dos valores em relação à média. O desvio-padrão da amostra é a raiz quadrada da variância, ou seja: s = s 2 ou substituindo s 2 , temos: ∑ (x + x ) n s= Estatística i =1 2 i n −1 35 Exemplo: Calcular o desvio padrão de: 10, 12, 9, e 14. x1 + x2 + ... + xn n A média será: x = x= 10 + 12 + 11 + 15 = 12 4 ∑ (x n A variância será: s 2 = s 2 i =1 i −x ) 2 n −1 2 2 ( 10 − 12) + (12 − 12 ) + (11 − 12) 2 + (15 − 12) 2 = s2 = 4 −1 (−2) 2 + (0) 2 + (−1) 2 + (3) 2 14 = = 4,666 3 3 O desvio padrão será: s = s 2 s = 4,666 = 2,160 Convém ressaltar que a variância e o desvio padrão nunca podem ser negativos. Entretanto podem ser zero, o que ocorre quando todos os valores são exatamente iguais. Neste caso, a amplitude também será zero. A variância e o desvio padrão medem a “dispersão média” em torno da média aritmética – ou seja, como os valores maiores e menores se distribuem acima e abaixo da média, respectivamente. Estatística 36 18. COEFICIENTE DE VARIAÇÃO O coeficiente de variação, cv( x) , é definido como o quociente entre o desvio padrão e a média. Ele mede a dispersão em torno da média aritmética. Freqüentemente é expresso em porcentagem. Sua fórmula é: cv( x) = s 100 % x Onde: cv( x) = coeficiente de variação s = desvio padrão x = média aritmética A vantagem do coeficiente de variação como uma medida relativa é devido ao fato de que ele nos permite comparar a variabilidade de dois ou mais conjuntos de dados expressos em diferentes unidades de medição. Ou então quando comparamos dois ou mais conjuntos de dados nas mesmas unidades, porém com diferenças entre si de tal monta que não permita comparação direta entre suas médias e seus desvios padrões. Por exemplo, imagine que em dois grupos de pessoas tenham sido calculadas a idade média e o desvio padrão, conforme abaixo: Grupo 1: x1 = 20 e s1 = 4 Grupo 2: x2 = 50 e s2 = 4 Se ambos os grupos têm o mesmo desvio padrão, a priori, comparar a dispersão de suas idades é um pouco difícil. Fazendo uso do coeficiente de variação, temos: Grupo 1: cv1 = s1 / x1 * 100 = 4/20*100 = 20 % Grupo 2: cv2 = s2 / x2 * 100 = 4/50*100 = 8 % Estatística 37 Podemos agora concluir que, mesmo tendo desvio padrão igual, o grupo 1 apresenta uma variação relativa muito maior (20 %) do que o grupo 2 (8 %). Além disso, por ser adimensional, o coeficiente de variação permite que se comparem as dispersões de variáveis cujas unidades sejam irredutíveis. 19. FORMATO A terceira propriedade importante em um conjunto de dados é o seu formato, ou seja: a maneira como os dados estão distribuídos. Esta distribuição pode ser simétrica ou assimétrica. Para saber o formato de um conjunto de dados, basta comparar sua média com sua mediana, ou seja: 20. • Se a média > mediana: assimetria à direita (ou positiva). • Se a média = mediana: assimetria em zero (ou simetria). • Se a média < mediana: assimetria à esquerda (ou negativa). DISTRIBUIÇÃO DE PROBABILIDADES Por causa de suas características, a distribuição da probabilidade está relacionada com as distribuições de freqüência. Mas, na distribuição de freqüência, as freqüências são números observados de eventos ocorridos e a na distribuição da probabilidade, a freqüência é derivada da probabilidade de eventos que podem ocorrer. Há diversas distribuições de probabilidades, entre elas: a) distribuição binomial; b) distribuição de Poisson; c) distribuição normal Estatística 38 d) distribuição uniforme (ou retangular) e) distribuição triangular f) distribuição t (Student) As duas primeiras distribuições são distribuições de probabilidades discretas, ou seja, são distribuições de probabilidade para uma variável discreta. Variável discreta é aquela que pode assumir apenas valores isolados ao longo de uma escala. Por exemplo: o número de altos fornos existentes na CST é uma variável discreta. As outras distribuições são funções de densidade de probabilidades contínuas. Essas distribuições encontram importantes aplicações na engenharia, nas ciências físicas, bem como na área financeira e em ciências sociais. 20.1. INTRODUÇÃO AO CÁLCULO DE PROBABILIDADES Os elementos básicos da teoria da probabilidade são os resultados do processo (ou fenômeno) em estudo. Cada tipo possível de ocorrência é relacionado como um evento. Probabilidade é, portanto, a possibilidade ou a chance de que um evento em particular venha a ocorrer. Pode ser a chance de acertar uma das faces da moeda atirada ao ar, ou de se encontrar uma carta num baralho ou mesmo de acertar na sena. Em cada um desses eventos a probabilidade é a proporção ou a fração cujos valores variam entre 0 e 1, inclusive. É bom frisar que um evento que não tem chance de ocorrer, o evento nulo, tem uma probabilidade 0 e um evento que certamente irá acontecer, evento certo, tem a probabilidade 1. Examine as duas frases seguintes: a) É provável que Pedro não venha à aula amanhã. b) É provável que a Atlântica tenha existido. Estatística 39 Em ambas as frases estão presentes as idéias de incerteza e grau de confiança que depositamos naquilo que afirmamos. Embora a palavra provável também nos dê a idéia de futuro, na segunda frase estamos afirmando algo que deve ter ocorrido no passado – se é que ocorreu, pois neste caso a probabilidade não está ligada ao tempo, mas sim à eventual veracidade da própria afirmação. Em um dado experimento um evento deve ocorrer ou não ocorrer, como por exemplo, ao jogar uma moeda ao ar, a probabilidade da ocorrência de “cara” mais a probabilidade da não ocorrência de “cara” será sempre igual a 1. Então: P(X) = P(X) + P (X’) = 1 Ou seja, o complemento de um evento X inclui todos os eventos que não fazem parte de X, e é representado por X’. Lançando-se uma moeda um número grande de vezes, deverá aparecer cara em metade dos lançamentos e coroa no restante. A freqüência relativa de caras se aproxima de 0,5 conforme é aumentado o número de lançamentos da moeda. Portanto a freqüência relativa de um ponto amostral pode ser tomada, aproximadamente, como a sua probabilidade. Por definição, probabilidade é o número de resultados da divisão do número de casos favoráveis a um evento pelo número total de casos possíveis. Por exemplo: ao jogar a moeda uma única vez, a probabilidade de sair cara é de 0,5 (50% de chance de acertar). Logo a fórmula é: (número de vezes que o evento CARA pode sair numa jogada) (Probabilidade de sair cara) = ---------------------------------------------(Número total de casos possíveis) Uma moeda “honesta” só tem uma cara e uma coroa, logo, o número total de eventos possíveis são 2 (1 cara + l coroa). Então, Probabilidade de CARA = Estatística 1 = 0,5 2 40 O símbolo P é usado para designar a probabilidade de um evento. Então P(X) denota a probabilidade de o evento X ocorrer em uma só observação ou experimento. A fórmula resumida para a probabilidade é: P(X) = f p Onde: P(X) = probabilidade de ocorrer o evento X f = número de eventos favoráveis à ocorrência de X p = número de casos possíveis No exemplo anterior, diríamos: P( X ) = f 1 = = 0,5 p 2 Observe que a probabilidade é sempre expressa por um número adimensional, isto é, sem unidade de medida. Veja este exemplo: Qual a probabilidade de sair a face 3 ao lançar um dado uma vez? Casos possíveis: Face 1, Face 2, Face 3, Face 4, Face 5, Face 6. Ou seja, temos 6 casos possíveis. Casos favoráveis: somente uma face 3. Logo, usando a fórmula. P(de sair Face 3) = Face 3 Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6 = Estatística 1 = 0,1666... 6 41 20.2. REGRA DA ADIÇÃO Outro exemplo: Qual a probabilidade de sair face impar numa única jogada? Temos como número de casos favoráveis três eventos: Face 1 ou Face 3 ou Face 5. E como número total de casos possíveis 6 eventos: Face 1, Face 2, Face 3, Face 4, Face 5, Face 6. Aplicando a fórmula, temos: P(de sair Face 1 ou Face 3 ou Face 5) = = Face 1 + Face 3 + Face 5 Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6 3 Faces 3 1 = = = 0,5 6 Faces 6 2 Observando este exemplo, conclui-se que em probabilidade a palavra “ou” significação adição. Por definição, f ≤ p, sendo que f pode ser zero. Veja o seguinte exemplo: Numa única jogada, qual a possibilidade de sair a face 7. Observe que o dado não possui a face 7. Logo, P(7) = P(7) = Zero casos favoráveis 6 casos possíveis 0 = 0 e dizemos que esta é a menor probabilidade que existe. 6 Em um dado experimento um evento deve ocorrer ou não ocorrer, como por exemplo, ao jogar uma moeda ao ar, a probabilidade da ocorrência de “cara” mais a probabilidade da não ocorrência de “cara” será sempre igual a 1. Então: P(X) = P(X) + P (X’) = 1 Ou seja, o complemento de um evento X inclui todos os eventos que não fazem parte de A, e é representado por X’. Lançando-se uma moeda um número grande de vezes, deverá aparecer cara em metade dos lançamentos e coroa no restante. A freqüência relativa de caras se aproxima de 0,5 conforme é aumentado o número de lançamentos da moeda. Portanto a freqüência relativa de um ponto amostral pode ser tomada, aproximadamente, como a sua probabilidade. Estatística 42 Se dois eventos, de um mesmo espaço amostral, não têm pontos em comum, a probabilidade de ocorrer um ou o outro é a soma de suas probabilidades. Se a probabilidade do primeiro não depende da probabilidade do segundo e vice-versa, a probabilidade desses dois eventos ocorrerem simultaneamente é o produto de suas probabilidades individuais. P (2 ou 5) = 1 1 2 1 + = = = 0,333 6 6 6 3 20.3. REGRA DO PRODUTO Uma moeda será jogada duas vezes. Qual a probabilidade de ocorrer cara nas duas jogadas? A probabilidade de ocorrer cara na primeira jogada é: P(ACARA) = 1 = 0,5 2 A probabilidade de ocorrer cara na segunda jogada é P(BCARA) = 1 = 0,5 2 Porque o fato de ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada (eventos independentes). Para obter a probabilidade de ocorrer cara nas duas jogadas (primeira e segunda), faz-se o produto: 1 1 1 {P(ACARA) e P(BCARA) }= 2 * 2 = 4 = 0,25 Suponha que numa urna tenha 3 bolas: duas brancas e uma vermelha. Retirando-se ao acaso, uma bola e em seguida a outra (sem que a primeira tenha sido recolocada na urna), qual é a probabilidade de que as duas bolas sejam brancas: A probabilidade de a primeira bola ser branca é: 2 P(branca) = 3 = 0,6666... Estatística 43 A probabilidade de a segunda bola ser branca depende do que ocorreu na primeira retirada. Se sair bola branca, a probabilidade de a segunda também ser branca é: P(branca) = 1 = 0,5 2 Para obter a probabilidade de as duas bolas retiradas serem brancas, faz-se o produto P(A e B) = P(A) * P(B) 2 1 2 1 = = 3 * 2 = 6 3 = 0,3333... Se A e B são independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A, multiplicada pela probabilidade condicional de ocorrer B, dado que A ocorreu. A fórmula é expressa assim: P(A e B) = P(A) * P(B A) Nota: P(B A) → Lê-se: probabilidade de ocorrer B, dado que A já ocorreu (probabilidade de sair bola branca já que bola branca já saiu). 21. DISTRIBUIÇÃO BINOMIAL É extremamente útil para descrever muitos fenômenos. A distribuição binomial se aplica, principalmente, à contagem de eventos, onde as duas saídas possíveis podem ser sucesso ou falha, peça normal ou defeituosa. A formula é: P ( x) = Estatística n! p x (1 − p) n − x x!(n − x)! 44 Onde: P(x) = probabilidade de x sucessos N = número de sucessos na amostra (x = 0, 1, 2, 3, ..., n) n! = fatorial de n (ou seja: se n = 5, n! = 5*4 *3*2*1 = 120 p = probabilidade de sucesso 1-p = probabilidade de fracasso Observe que a variável aleatória x pode ser qualquer valor inteiro de 0 até n e que na fórmula acima o produto do termo p x (1 − p) n − x nos informa a probabilidade de obtermos exatamente x sucessos entre n observações numa determinada seqüência. Por outro lado, o termo n! nos mostra quantas combinações de x sucessos entre n x!(n − x)! observações são possíveis. Por isso, toda vez que um conjunto de parâmetros – n e p – é especificado, uma distribuição binomial pode ser gerada. Vejamos um exemplo. Jogando um dado três vezes, qual a probabilidade de se obterem exatamente duas faces 3? Os valores deste problema são: n = 3; x = 2. Vamos primeiramente calcular p. Como o dado tem 6 faces, temos 6 casos possíveis: Face 1, Face 2, Face 3, Face 4, Face 5 e Face 6. Casos favoráveis: somente uma face 3. Logo, usando a fórmula: P(de sair Face 3) = Estatística Face 3 1 = Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6 6 45 Logo, p = 1/6. Aplicando a fórmula, temos: P ( x) = n! p x (1 − p) n − x x!(n − x)! 2 3! ⎛1⎞ ⎛ 1⎞ ⎜ ⎟ ⎜1 − ⎟ 2 ! ( 3 2 )! − ⎝6⎠ ⎝ 6⎠ P(x = 2) = 3− 2 1 = 3 * 2 *1 ⎛ 1 ⎞⎛ 1 ⎞⎛ 5 ⎞ ⎜ ⎟⎜ ⎟⎜ ⎟ 2 *1(1) ⎝ 6 ⎠⎝ 6 ⎠⎝ 6 ⎠ = 6 5 5 * = 3* = 0,0694 2 6 216 Ou seja, a probabilidade é de 6,94% de chance de em 3 lances, obter duas faces 3. Para evitar enfadonhos cálculos, principalmente para n grande, pode-se usar tabelas disponíveis na literatura técnica, onde se determina P(x) a partir de n e x. 22. DISTRIBUIÇÃO DE POISSON Esta distribuição é um caso limite da distribuição binomial, que dá o número de ocorrências de um evento num intervalo de tempo. Ela se aplica quando se tem um numero muito grande de eventos e quando a probabilidade de sucesso de cada tentativa e muito pequena e por isso e também chamada de distribuição de eventos raros. Na pratica a distribuição de Poisson se aplica à análise de controle da qualidade para estabelecer o número de itens defeituosos ou o número de paradas da máquina, em um dado intervalo de tempo. Tendo x como variável aleatória representando o número de eventos raros, então a probabilidade destes x eventos ocorrerem em algum intervalo de tempo especificado (ou espaço) é dado pela fórmula: (e − μ ) μ x P( x) = x! Estatística 46 Onde: P(x) = probabilidade de x sucessos, dado o conhecimento de µ e = 2,7182818284590... (número de Euler) µ = número esperado de sucessos x = número de sucessos Veja o exemplo a seguir: Qual é a probabilidade de que, num determinado minuto, exatamente dois clientes irão chegar na agência bancária, sabendo que: no horário de almoço, de 12 às 13 horas, chegam em média 180 clientes? Solução: A média de clientes por minuto é µ = 3 e x = 2. Aplicando a fórmula P ( x) = (e − μ ) μ x , temos, x! e −3 * 32 9 = = 0,2240 P(x = 2) = 2! (2,71828)3 * 2 Neste mesmo problema, qual seria a chance de que mais de dois clientes irão chegar em um dado minuto? Solução: P(x > 2) = P(x = 3) + P(x = 4) + ... + P(x = ∞) Como porém a soma de todas as probabilidades em uma distribuição é sempre 1, os termos no lado direito da equação P(x > 2), também representam o complemento da probabilidade de que x sejam menor ou igual a 2, ou seja: 1 - P(x ≤ 2). Portanto, P(x > 2) = 1 - P(x ≤ 2) = 1 - [P(x = 0) + P(x = 1) + P(x = 2)] E utilizando a equação P ( x) = (e − μ ) μ x , temos x! ⎡ e −3 * (3)0 e −3 * (3)1 e −3 * (3) 2 P(x > 2) = 1 − ⎢ + + 0 ! 1 ! 2! ⎣ = 1 - [0,0498 + 0,1494 + 0,2240] = 1 - 0,4232 = 0,5768 Estatística ⎤ +⎥ ⎦ 47 Deste modo, vemos que existe uma chance de aproximadamente 42,3 % de que dois ou menos clientes irão chegar ao banco a cada minuto e que existe uma chance de 57,7 % de que três ou mais clientes irão chegar. 23. DISTRIBUIÇÃO NORMAL A distribuição normal é uma distribuição contínua de probabilidade, fundamental para a inferência estatística e análise de dados. Os modelos contínuos são importantes nas aplicações de engenharia, ciências físicas, ciências sociais e em finanças. Uma forma abreviada de indicar que a variável x se distribui normalmente (ou tem distribuição normal) é escrever: x → N ( μ ;σ 2 ) Onde µ e σ2 são os parâmetros fundamentais da distribuição normal. 23.1. PROPRIEDADES DA DISTRIBUIÇÃO NORMAL Esta distribuição é muito importante na estatística pois: a) Muitos fenômenos físicos e muitos conjuntos de dados seguem uma distribuição normal; b) A distribuição normal possui propriedades matemáticas precisas e idênticas para todas as distribuições normais; c) É possível provar que várias estatísticas de amostras, principalmente a média, seguem a distribuição normal, mesmo que a população de onde foram retiradas as amostras não seja normal; d) Podemos utilizá-la para aproximar várias distribuições de probabilidade discreta. e) Ela oferece bases para a inferência estatística devido à sua afinidade com o teorema do limite central. Estatística 48 23.2. CARACTERÍSTICAS A curva de distribuição deve ter as seguintes características: a) simétrica em relação à média, indicando que os erros negativos de determinado valor são igualmente freqüentes quanto os positivos; b) O formato de uma curva de distribuição de probabilidade normal é simétrico e se parece com um sino (figura 8); Figura 8 - Formato da Curva Normal. c) O ponto máximo de f(x) é o ponto µ; d) Os pontos de inflexão da função são: x = µ + σ e x = µ - σ; e) Os parâmetros são indicadores populacionais: média aritmética (µ) e variância (σ2); f) Existem infinitas curvas, basta que seja diferente um dos parâmetros: µ ou σ2. Veja a figura 9; Figura 9 - Três distribuições normais com parâmetros diferentes µ e σ . Estatística 49 g) A curva é assintótica em relação ao eixo horizontal, isto é, suas caudas aproximam-se dele, mas não o tocam jamais; h) A área total sob a curva vale 1, porque essa área corresponde à probabilidade de a variável aleatória assumir qualquer valor real. 23.3. MODELO MATEMÁTICO A expressão matemática que representa a função densidade da probabilidade é representada pelo símbolo f(x). Para a distribuição normal, o modelo empregado para obter as probabilidades é: F ( x) = ⎡ 1 ⎛ x − μ ⎞2 ⎤ 1 exp ⎢− ⎜ ⎟ ⎥ σ 2π ⎢⎣ 2 ⎝ σ ⎠ ⎥⎦ onde: exp = 2,7182818284590... (número de Euler) π = constante matemática aproximada por 3,14159 µ = média aritmética da população σ = desvio padrão da população x = qualquer valor da variável aleatória contínua, onde - ∞ < x < + ∞ Avaliando os componentes da fórmula padrão para a função de densidade da probabilidade normal, podemos observar que e e π são constantes matemáticas. Logo as probabilidades da variável aleatória x são dependentes somente dos dois parâmetros da distribuição normal – a média aritmética da população (µ) e o desvio padrão da população (σ). Isto significa que para cada par de valores de µ e σ, teremos uma distribuição de probabilidade diferente. Estatística 50 23.4. DISTRIBUIÇÃO NORMAL PADRÃO Para evitar os cálculos exaustivos quando se usa a fórmula acima, foi estabelecida uma padronização de dados, de modo que com a utilização de apenas uma tabela – Veja Anexo A, seja possível calcular os parâmetros desejados. Observe a figura 10(a). Imagine uma variável x que tenha distribuição normal com media aritmética µ e desvio padrão σ, pois se trata de uma população (e não de uma amostra), e o eixo vertical (das freqüências), for deslocado até o ponto µ, onde se localiza a média aritmética da população. Esta operação pode ser chamada de “mudança de origem”, em que o zero “mudou de lugar”. A nova curva ficou como mostrada na figura 10(b). A fórmula de conversão passa a ser a seguinte: Z= x−μ σ Onde: Z = variável normal padronizada µ = média aritmética da população σ = desvio padrão da população x = qualquer valor da variável aleatória contínua, onde - ∞ < x < + ∞ Freqüência Z (a) (b) Figura 10 - Conversão de X em Z . Estatística 51 Assim, usando a fórmula de conversão, qualquer variável aleatória normal x pode ser convertida para uma variável normal padronizada Z . Vejamos um exemplo: O Supervisor de Inspeção de uma fábrica de tubos está interessado em conhecer melhor o tempo que os inspetores levam para a calibração de um medidor de pressão. Após realizar a pesquisa, ele verificou que o tempo, em minutos, para calibrar o medidor é distribuído de maneira normal com média aritmética (µ) de 30 minutos e desvio padrão (σ) de 5 minutos. A figura 11 mostra as curvas normais de x e de Z, juntas. Figura 11 - Transformação da Escala X em Z . A figura 11 nos mostra que é possível obter uma medida padronizada Z para qualquer medida x, usando a formula de conversão acima. Esta nova curva é chamada de distribuição normal reduzida ou ainda distribuição normal padronizada. Observe que nesta nova curva, os parâmetros mudaram: µ=0 σ=1 Estas operações e esses dados são muito importantes pelo seguinte: Estatística 52 As infinitas distribuições normais reduzem-se a apenas uma: x → N(µ;σ2), ou x → N(0; 1), onde: 2 µ = 0 e σ2= σ = 1 = 1 A variável Z não tem unidade de medida, ou seja, é um número puro. Esta notação abreviada, x →N(0;1), é muito prática e significa que a variável x se distribui normalmente (ou tem distribuição normal) e 0 é a média aritmética da população e 1 é a unidade de medida, ou seja, o desvio padrão. Veja este exemplo. Suponha que um inspetor tenha feita uma calibração em 45 minutos. Pela figura 12 podemos concluir que este tempo está a uma unidade padronizada (ou seja, a um desvio padrão, 1σ) acima da média aritmética. Veja os cálculos utilizando a fórmula de conversão: Z= x−μ σ substituindo, temos: Z= 45 − 40 =1 5 Figura 12 - A área hachurada corresponde a 1 desvio padrão (1 σ). e no caso de um inspetor que faça a mesma tarefa em 25 minutos, dizemos que este tempo está a 3 unidades padronizadas (ou seja, 3 desvios padrões, 3σ) abaixo da média, pois: Z= Estatística 25 − 40 = −3 5 53 Vemos assim que o desvio padrão se tornou uma unidade de medida. Ou seja: 45 minutos é 5 minutos mais demorado (ou seja, 1 desvio padrão) do que o tempo médio de 40 minutos, assim como o tempo de 25 minutos é 15 minutos (3 desvios padrões) mais rápido do que a média observada. A figura 13 nos permite ainda observar mais uma característica da curva normal. Por ser simétrica, a área total abaixo da curva vale 1, ou seja 100%, entre os limites - ∞ < x < + ∞ pois todos os resultados caem dentro dela. Os traços verticais perpendiculares ao eixo de x estão graduados em µ-3σ, µ-2σ, µ-1σ, µ, µ+1σ, µ+2σ e µ+3σ. Além disso, a área coberta por µ±1σ, µ±2σ, µ±3σ vale, respectivamente, 68,26 %, 95,44 % e 99,74% independente de sua largura. Figura 13 - Graduação do eixo X. A área hachurada vale 68,26 % (µ±1σ). Estatística 54 23.5. APLICAÇÕES Vamos agora aprender a usar a tabela de probabilidades (Anexo A). Esta tabela nos permite resolver diversos problemas que envolvem uma variável x normalmente distribuída. Suponha x com os seguintes parâmetros: N(45; 4). Qual será o valor de Z para x = 49,5? Aplicando a fórmula de conversão, temos: Z= x−μ σ = e, substituindo: 49,5 − 45 = 2,25 2 Isto significa que Z está 2,25 desvios padrões à direita da média µ. Agora vamos localizar este valor na tabela do Anexo A. Para consultar este valor é preciso decompor Z em duas parcelas, a saber: a) Primeira parcela: parte inteira + a 1ª casa decimal = 2,2 b) Segunda parcela: 0,0 + 2ª casa decimal = 0,05 Em seguida, localiza-se a primeira parcela (2,2) na margem esquerda da tabela (na vertical) e a segunda parcela (0,05) na margem superior (na horizontal). Ler o valor da célula correspondente ao cruzamento destes valores (0,4878), o qual é a probabilidade correspondente à área da curva entre Zero e o Z calculado. A figura 14 mostra a curva desta probabilidade. Estatística 55 Figura 14 - Probabilidade calculada para x= 49,5 e N(45/4). No exemplo anterior, onde a média aritmética da população µ = 40, e o desvio padrão da população σ = 5, e usando a notação N(0;1), temos: N(40;25), x = 45. O Z correspondente foi calculado como sendo 1. A figura 15 ilustra este exemplo. x→N(40;25) x = 45 Z=1 Figura 15 - A área hachurada mostra a probabilidade para x→N(40;25); x = 45; Z =1. Estatística 56 23.6. DISTRIBUIÇÃO DE AMOSTRAGEM DA MÉDIA ARITMÉTICA A média aritmética é a medida de tendência central mais utilizada. Ela também é a melhor medida quando se supõe que a população está normalmente distribuída. Do ponto de vista de uma distribuição normal, podemos dizer que a média aritmética possui três propriedades importantes: a) ausência de viés b) eficiência c) consistência. Com respeito à primeira propriedade, podemos dizer que a média das médias aritméticas de todas as amostras possíveis (de um dado tamanho de amostra n) será igual à média aritmética da população µ. Suponha que você tenha uma população Beta composta de (N = 5) valores: 1, 2, 3, 4 e 5. Vamos retirar amostras de tamanho n = 2, com reposição e calcular a média obtida. Construindo a tabela 8 com a média, temos: SORTEIO NO 1 1 2 3 4 5 1 1 1,5 2 2,5 3 2 1,5 2 2,5 3 3,5 SORTEIO NO 2 3 2 2,5 3 3,5 4 4 2,5 3 3,5 4 4,5 5 3 3,5 4 4,5 5 Tabela 8 - Média aritmética das amostras. Esta tabela mostra que a média é uma variável, pois também assumiu valores de 1 a 5. Além disso, existem grupos de dados em que a média ( x ) é constante, por exemplo: 1 e 4, 2 e 3, 3 e 2 e 4 e 1, cuja média é 2,5. Entretanto, verificamos que da população Beta com 5 elementos, tiramos 25 amostras de tamanho n = 2. Podemos calcular a média aritmética da população e a média das médias aritméticas ( x ) e comparar os resultados. Estatística 57 a) Cálculo da média aritmética da população N =5; x = 1, 2, 3, 4, 5 N μ= ∑x i =1 i N = 1 + 2 + 3 + 4 + 5 15 = =3 5 5 b) Calculo da média das médias aritméticas (amostrais) Amostra A n =2 (tamanho = 2) x =1; 1,5;2;2,5;...; 5 Veja os dados na tabela 9. xi ni xi * ni 1 1,5 2 2,5 3 3,5 4 4,5 5 Soma 1 2 3 4 5 4 3 2 1 25 1 3 6 10 15 14 12 9 5 75 Tabela 9 - Calculando a média das medias aritméticas. x= ∑xn ∑n i i i = 75 =3 25 c) Comparação entre as médias da população e média das médias amostrais Comparando, temos x = μ. Estatística 58 23.7. ERRO PADRÃO DA MÉDIA ARITMÉTICA As flutuações das médias aritméticas são pequenas quando comparadas com as flutuações dos elementos contidos na população. Isto decorre diretamente da lei dos grandes números. A média aritmética de uma determinada amostra comprova a média de todos os valores da amostra. Mesmo em populações com grandes variações nos seus elementos, quando estes são usados no cálculo da média, seus impactos tendem a ser reduzidos, pois no cálculo são levados em conta todos os valores contidos na amostra. Quanto maior o número de elementos na amostragem, menor será o efeito dos extremos, tanto acima quanto abaixo da média. Esta característica é expressa estatisticamente no valor do desvio padrão da média aritmética da amostra. Esta é a medida de variabilidade da média aritmética de amostra para amostra e é chamada de erro padrão da média aritmética, σ x . Considerando a amostragem com reposição, o erro padrão da média é definido como sendo o desvio padrão da população σ dividido pela raiz quadrada do tamanho da amostra n. σx = σ n Logo, à medida que cresce o número de elementos (n) na amostra, o erro padrão da média vai decrescendo a um fator igual à raiz quadrada do tamanho da amostra. Quando não conhecemos a variância (ou o desvio padrão) da população, usamos a fórmula: sx = onde sx = desvio padrão amostral. Neste caso, n ≥ 30. Estatística sx n 59 23.8. TEOREMA DO LIMITE CENTRAL O teorema do Limite Central é muito importante, tanto na estatística como na Comprovação Metrológica. Seu postulado é o seguinte: à medida que n cresce, as médias amostrais vão progressivamente tendendo a uma distribuição limite – que é a distribuição normal, independentemente do formato da distribuição dos valores individuais na população. Neste caso, n significa número de observações em cada amostra. Qual deve ser o tamanho da amostra? Como regra geral, se o tamanho da amostra for pelo menos igual a 30, a distribuição de amostras da média aritmética será muito próxima da normal. Mas se temos alguma informação sobre a população podemos aplicar o teorema do limite central para tamanhos de população ainda menores. Se a distribuição da população for relativamente simétrica, recomenda-se pelo menos 15 elementos, mas se a população for normal, a distribuição de amostragem da média será normal, independentemente do tamanho da amostra. Do Teorema do Limite Central segue-se que a distribuição de probabilidade da média aritmética q de n observações qk de uma variável aleatória q, com expectativa μ q e desvio padrão finito σ se aproxima de uma distribuição normal com média μ q e desvio padrão σ / n quando n → ∞, qualquer que possa ser a distribuição de probabilidade de q. Estatística 60 24. DISTRIBUIÇÃO UNIFORME (OU RETANGULAR) Numa distribuição de probabilidade retangular a probabilidade de que um valor de t esteja dentro do intervalo [a - , a + ] é igual a 1, para todos os pontos, e a probabilidade de que t esteja fora deste intervalo é essencialmente zero. A figura 16 mostra a curva da função densidade de probabilidade retangular. Figura 16 - Distribuição retangular. Como a área total do retângulo vale 1 (100%), temos que: Área = (a + a) * h = 1 h= 1 2a e para a variância: σ 2 (t ) = a2 3 e calculando o desvio padrão: a2 a σ (t ) = = 3 3 Estatística 61 Por exemplo, as especificações do fabricante para um voltímetro digital estabelecem que a resolução do mesmo na faixa de 10 V é 0,000 1 V = 100 μV. Se o instrumento for usado para medir uma diferença de potencial V, e que a média aritmética de um número de observações repetidas independentes de V é encontrada como sendo V = 9,928 571 V. Pode-se calcular a probabilidade de que o valor da diferença de potencial seja tal que a - ≤ V ≤ a +, supondo que a resolução declarada fornece fronteiras simétricas para uma correção aditiva a V , ∆ V , de esperança igual a zero e com igual probabilidade de estar em qualquer parte dentro das fronteiras [a - , a +]. A meia-largura “a”, mostrada na figura 16, da distribuição retangular simétrica de valores possíveis de ∆ V é, então, a = 100/2 μV a = 50 μV cuja variância σ 2 (t ) = a2 é 3 a 2 (50) 2 = = 833,3 μV σ²( ∆ V ) = 3 3 σ²( ∆ V ) = 833,3 μV a2 a e o desvio padrão σ (t ) = = é 3 3 σ( ∆ V ) = 50 a2 a = = = 28,86 ≅ 28,9 μV 3 3 3 σ( ∆ V ) = 28,9 μV Outro exemplo, as especificações do fabricante para um voltímetro digital estabelecem que entre um e dois anos depois que o instrumento é calibrado, sua exatidão na faixa de 1 V é 14 x 10-6 vezes a leitura mais 2 x 10-6 vezes a faixa. Considere que o instrumento é usado 20 meses após a calibração para medir em sua faixa de 1 V uma diferença de potencial V, e que a média aritmética de um número de observações repetidas independentes de V é encontrada como sendo V = 0,928 571 V. Estatística 62 Baseando-se na especificação do fabricante, pode-se calcular a probabilidade de que o valor da diferença de potencial seja tal que a - ≤ V ≤ a +, supondo que a exatidão declarada fornece fronteiras simétricas para uma correção aditiva a V , ∆ V , de esperança igual a zero e com igual probabilidade de estar em qualquer parte dentro das fronteiras [a - , a +]. A meia-largura “a”, mostrada na figura 17, da distribuição retangular simétrica de valores possíveis de ∆ V é, então, a = (14 x 10-6) X (0,928 571 V) + (2 x 10-6) X (1 V) = 15 μV, a = 15 μV cuja variância σ 2 (t ) = a2 é 3 σ²( ∆ V ) = a 2 (15) 2 = = 75 μV 3 3 σ²( ∆ V ) = 75 μV e o desvio padrão σ (t ) = a2 a = é 3 3 σ( ∆ V ) = a2 a 15 = = = 8,66 ≅ 8,7 μV 3 3 3 σ( ∆ V ) = 8,7 μV 25. DISTRIBUIÇÃO TRIANGULAR Acabamos de ver que no caso da distribuição retangular, por não haver conhecimento específico sobre os possíveis valores de xi dentro de seus limites estimados [a - , a + ] foi considerado que somente se poderia supor que seria igualmente provável, para xi, tomar qualquer valor entre esses limites, com probabilidade zero de estar fora deles. Em muitos casos, é mais realista esperar que valores perto dos limites sejam menos prováveis do que os que estejam perto do ponto médio. É, então razoável substituir a distribuição retangular simétrica, por uma distribuição trapezoidal simétrica, tendo lados inclinados iguais (um trapezóide isósceles), uma base de largura a + - a - = 2a e um topo de largura 2aβ, Onde 0 ≤ β ≤ 1. Estatística 63 Na medida em que β → 1, esta distribuição trapezoidal se aproxima da distribuição retangular, vista anteriormente, enquanto que, para β = 0, torna-se uma distribuição triangular. Numa distribuição de probabilidade triangular a probabilidade de que um valor de t esteja dentro do intervalo [a - , a + ] é igual a 1, para todos os pontos, e a probabilidade de que t esteja fora deste intervalo é essencialmente zero. A figura 17 mostra a curva da função densidade de probabilidade triangular. Figura 17 - Distribuição triangular Como a área total do triângulo vale 1 (100%), temos que: Área = b * h (a + a ) * h = =1 2 2 h= 2 1 = 2a a a2 e para a variância: σ (t ) = 6 2 Estatística 64 e calculando o desvio padrão: σ (t ) = a2 a = 6 6 Por exemplo, suponha que se disponha poucas informações sobre uma medição, a não ser estas: Resultado das n = 20 medições, média aritmética μ t = 200 psi e que t é descrito como uma distribuição triangular de limite inferior, a superior a + + - = 194 psi, e de mesmo limite - = 206 psi. Logo, a meia-largura a = [a - a ]/2 = (206-194)/2 = 12/2 = 6 psi. A função densidade de probabilidade de t é, então: p(t) = (t - a - )/a2, para a - ≤ t ≤ (a + + a - )/2 p(t) = (a + - t )/a2, para (a + + a - )/2 ≤ t ≤ a + p(t) = 0 para outros valores de t Logo, p(t) = (t - a - )/a2 = (200-194)/36 = 0,1666... p(t) = 0,1666... A figura 18 Ilustra graficamente a probabilidade triangular para o exemplo dado. A esperança de t = [a + + a - ]/2 = (206 +194)/2 = 200 Co. Figura 18 - Ilustração gráfica da probabilidade triangular para o exemplo dado. Estatística 65 26. DISTRIBUIÇÃO T (STUDENT) Pelo que vimos até agora, se n ≥ 30, podemos usar a distribuição normal na estimação da média da população mesmo não conhecendo bem a população. Para n < 30 somente se a população for normalmente distribuída e se σ for conhecido. A distribuição t de Student é utilizada quando a variável x é normalmente distribuída mas o σ não for conhecido. Se uma população é normalmente distribuída, a distribuição de amostragem da média, para qualquer tamanho de amostra, será também normalmente distribuída. Isto é verdade, quer σ seja conhecido, quer não. Contudo, no processo de inferência, cada valor da média é convertido para um valor normal padronizado. A fórmula é: t= x−μ sx n Onde, x = média aritmética de uma amostra (pequena, n < 30) μ = média aritmética (presumida) da população À medida que aumenta o tamanho da amostra (n), a distribuição t aproxima-se da forma da distribuição normal, ou seja, a distribuição t pode ser aproximada pela distribuição normal quando n ≥ 30, para uma única amostra. Isso acontece porque, à medida que o tamanho da amostra fica maior, sx se torna uma melhor estimativa de σ. Os valores de t para os graus apropriados de liberdade podem ser obtidos a partir da Tabela 10 – Tabela t (resumida) da distribuição t. A parte superior de cada coluna da tabela t indica a área na cauda direita da distribuição t (como são fornecidas entradas positivas para t, os valores referem-se à cauda superior) cada linha representa o valor t específico para cada grau de liberdade determinado. Exemplo: com 40 graus de liberdade e 95% de confiança, a cauda seria 1-α/2, ou seja, para 95% de confiança significa que sobrariam 5 % para as duas caudas, ou 2,5 % para cada cauda. Estatística 66 Como normalmente estes valores vem dividido por 100, temos 2,5/100 = 0,025. No cruzamento da linha de 40 graus de liberdade com a coluna 0,025 encontramos o valor de t = 2,0211. Uma vez que t é uma distribuição simétrica, com uma média aritmética 0, se o valor da cauda superior é + 2,0211, o valor da cauda inferior será -2,0211. Um valor de t = 2,0211 significa que a probabilidade de t exceder a + 2,0211 é igual a 0,025 ou 2,5%, conforme ilustrado na figura 20. Aparentemente, a distribuição t é muito parecida com a distribuição normal. Ambas têm curvas em formato de sino e são simétricas. A distribuição t tem maior área nas caudas e menor área do centro do que a distribuição normal. Isto se deve pelo fato de que σ é desconhecido e utiliza-se s para fazer sua estimativa. Como não estamos certos quanto ao valor de σ, os valores de t serão mais variáveis do que aqueles referentes a Z . Notas: a) O uso da estatística t pressupõe que a variável tenha na população de onde foi retirada uma distribuição normal. b) À medida que n cresce, t tende a Z , principalmente quando n > 30 c) Não existe uma única distribuição t, mas uma família, ou seja, para cada n existe uma distribuição e uma curva específica. Figura 19 - Distribuição t para 40 graus de liberdade. Estatística 67 27. GRAUS DE LIBERDADE Os estatísticos chamam a expressão n − 1 de “graus de liberdade”. Quando calculamos a média, x , utilizamos todos os n dados que compõem a amostra. Dizemos então que no cálculo da média temos n valores de xi livres que devem ser considerados para podermos calcular o valor desta estatística. Ou seja, se qualquer dos valores de xi livres da amostra for desconhecido, não poderemos determinar o valor desta estatística, pois todos os valores da amostra são livres, podendo variar aleatoriamente. Por outro lado, a estatística da variância por usar a média, x , ao invés do parâmetro populacional µ, tem um grau de liberdade a menos. Isso ocorre porque o cálculo dessa estatística pressupõe que anteriormente já se tenha usado todos os valores da amostra no cálculo da média, x , os quais estariam sendo usados uma segunda vez no cálculo da variância. Ou seja, ao usarmos o mesmo conjunto de dados para determinar a média, x , e a variância que faz uso do valor da média, perdemos um grau de liberdade para a determinação da média. 28. INTERVALO DE CONFIANÇA Na verdade, nunca conhecemos o valor exato da média, μ, de uma população de dados porque seria necessário um número infinito de medições. Entretanto, a teoria estatística permite estabelecer limites em torno da média obtida de uma amostra, x , e então a média verdadeira, μ, cai dentro destes limites com um dado grau de probabilidade. A esses limites chamamos de “limites de confiança” e o intervalo que eles definem é chamado de “intervalo de confiança”. O tamanho do intervalo de confiança, o qual é derivado do desvio padrão da amostra, depende da certeza com que o desvio padrão, σ, é conhecido. Se há uma razão para acreditar que o desvio padrão amostral, sx , é uma boa aproximação de σ, então o intervalo de confiança pode ser significativamente mais estreito do que o intervalo para σ baseado em apenas duas ou três medições. Estatística 68 A estimativa do intervalo de confiança é comumente usada para fazer afirmações de probabilidade acerca de amostras retiradas de população ou para prever os resultados de uma futura amostra da mesma população. Um método comum é determinar os limites de confiança para um parâmetro, de modo que se possa ter um determinado grau de confiança de que o parâmetro está dentro deste intervalo. Por exemplo: se for determinado um limite de confiança de 95 %, então, em longo prazo a média verdadeira (média das médias) da população irá cair dentro dos limites em 95% das vezes em que for medida. Os limites de confiança definem um intervalo em torno da média da amostra que provavelmente contem a média da população total. O intervalo de confiança da média dá os limites que podem ser reclamados, com um grau de confiança dado por (1-α)%, para conter o valor desconhecido da média da população. Quando o desvio padrão da população, σ, é conhecido, o intervalo simétrico vale: x − zα / 2 σ n < μ < x + zα /2 σ n Quando o desvio padrão da população, σ, não é conhecido, mas se tem o desvio da amostra, sx , usamos a distribuição t, com n-1 graus de liberdade. x − tα /2 s sx < μ < x + tα /2 x n n Onde, t α / 2 = coeficiente de confiança, obtido na tabela x, a partir do grau de liberdade (ν) e do nível de significância (α) desejado. O grau de liberdade (ν) é dado por n-1, onde n é o número de dados da amostra (medições). O nível de significância (α) é igual a um menos o coeficiente de confiança, que multiplicado por 100, dá o intervalo de confiança (em %). Exemplo: Para 95% de confiança, significa que se admite que 5% dos valores podem estar fora do intervalo de confiança. Como na tabela t estes valores estão em probabilidade (0 a 1), logo 5% valem 0,05, então α= 0,05, ou seja: 1- α) = 0,95 que corresponde a 95%. Estatística 69 Para n = 2 temos n-1 grau de liberdade (ν = n-1). Então se você consultar a tabela 9 da distribuição t verá que tα / 2 vale 12,71 para 95% de confiança, quando se faz apenas 2 medições. E tα / 2 vale 4,30 e 3,18 quando se faz 3 e 4 medições respectivamente. Isto significa uma redução do intervalo de confiança de cerca de 12,71/3,18 = 3,9968 ≈ 4 vezes, quando se opta por fazer quatro medições ao invés de duas medições. A rápida melhoria na confiabilidade de sx quando n aumenta sugere que se deva fazer muitas medições, quando isso não consumir tempo excessivo e houver amostras disponíveis. ν = (n-1) 1 2 3 4 5 6 7 8 9 10 15 20 30 60 00 α = 0,20 α = 0,10 α = 0,05 α = 0,01 3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,34 1,32 1,31 1,30 1,29 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,75 1,72 1,70 1,67 1,64 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,13 2,09 2,04 2,00 1,96 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 2,95 2,84 2,75 2,66 2,58 ν = (n-1), grau de liberdade α = (1 - intervalo de confiança) Tabela 10 - Tabela t (resumida). Estatística 70 29. EXERCÍCIOS DE ESTATÍSTICA Estatística Básica 1. As fichas de 60 alunos da 2ª. Série de uma escola pública estão arquivados em ordem alfabética. Qual é a maneira mais rápida de amostrar um décimo dos alunos 2. Uma amostra não-probalística pode ser: a) amostra de julgamento; amostra por quota; fatia b) amostra de julgamento; fatia, amostra cheia c) amostra por quota; fatia amostra cheia d) amostra de julgamento; amostra por quota, amostra cheia 3. Amostra probabilística pode ser: a) amostra aleatória simples; por cota; amostra sistemática; amostra de julgamento b) amostra por quota; amostra sistemática; amostra estratificada; amostra cheia c) amostra aleatória simples; amostra sistemática; amostra estratificada; amostra de conveniência (grupo). d) amostra por cota; amostra sistemática; amostra estratificada; amostra cheia 4. Numa amostragem simples, a) os elementos são divididos em grupos e é sorteado um grupo que deve fornecer a amostra b) os elementos são retirados ao acaso da população c) os elementos são classificados por ordem de grandeza e em seguida são escolhidos 2 de cada extremo da lista. d) Todos os elementos da população são escolhidos. 5. Na análise dos dados de uma distribuição de freqüências há quatro parâmetros importantes: a) média, tendência central, dispersão e desvio b) média, dispersão, desvio e curtose c) tendência central, dispersão, desvio e curtose d) dispersão, média, desvio e curtose Estatística 71 6. Dispersão é a característica que indica: a) o grau de espalhamento dos dados. b) o grau de distorção em uma curva c) o pico em uma distribuição d) a média aritmética dos dados 7. Se os pesos das notas forem p1 = 2, p2 = 4 , p3 = 1 e p4 = 3, a média ponderada de 8, 10, 6 e 7 é: a) 7,25 b) 8,3 c) 16,155 d) 7,75 8. A média harmônica dos números 8, 9, 10 e 11 é? a) 9,4 b) 9,5 c) 9,555 d) 9,367 9. A mediana dos números 100, 20, 70, 40 e 60 é? a) 58 b) 59 c) 60 d) 70 10. A mediana dos números 4, 8, 6, 5, 10 e 7 é? a) 6.666 b) 6,5 c) 7 d) 7,5 11. A moda dos números 5, 7, 6, 6, 7, 8, 9, 10, 5, 7 é? e) 5 f) 6 g) 10 h) 7 Estatística 72 12. A amplitude dos números 5, 7, 6, 6, 7, 8, 9, 10, 5, 7 é? a) 5 b) 6 c) 7 d) 8 13. A variância dos números 8, 6, 7 e 9 é: a) 7,5 b) 1,118 c) 5,477 d) 1,29 14. O desvio padrão de 8, 6, 7 e 9 é? a) 1,136 b) 2,340 c) 1,057 d) 2,739 15. Dados a média = 5 e a variância = 3,2, calcular o coeficiente de variação. a) 64 % b) 156,25 % c) 35,78 % d) 69,88 % Estatística 73 Probabilidades 16. As distribuições abaixo são distribuições discretas: a) distribuição binomial e de Poisson b) distribuição de Poisson e distribuição triangular c) distribuição retangular e distribuição triangular d) distribuição uniforme e distribuição t 17. Qual a probabilidade de sair a face 5 ao lançar um dado uma vez? a) 5 b) 1.333 c) 1,6666 d) 2 18. Qual a probabilidade de sair face impar numa única jogada? a) 1,333 b) 0,5 c) 1,666 d) 3 19. Jogando-se uma moeda duas vezes, qual a probabilidade de ocorrer cara nas duas jogadas? a) 1,333 b) 1,666 c) 0,25 d) 2 20. Numa urna tem 3 bolas: duas brancas e uma vermelha. Retirando-se ao acaso, uma bola e em seguida a outra (sem que a primeira tenha sido recolocada na urna), qual é a probabilidade de que as duas bolas sejam brancas? a) 0,5 b) 1,3333 c) 1,6666 d) 0,3333 Estatística 74 Distribuição Binomial 21. Jogando um dado 3 vezes, qual a probabilidade de se obterem exatamente 2 faces 5? a) 6,94% b) 10,94 % c) 12,333 % d) 1,666 % 22. Jogando uma moeda quatro vezes, quais são as chances de se obter duas caras? a) 23/16 b) 2/3 c) 11/16 d) 15/32 Distribuição de Poisson 23. Se um telefone recebe em média duas chamadas por hora, qual a probabilidade deste telefone não receber nenhuma chamada em uma hora? a) 0,15 b) 0,1353 c) 0,2325 d) 0,4 24. Qual a probabilidade do telefone acima receber no máximo duas chamadas em 30 minutos? a) 0,9197 b) 0,8133 c) 0,3333 d) 0,7156 25. Os parâmetros da distribuição normal são: a) µ e x b) σ2 e s2 c) µ e σ2 d) s2 e µ Estatística 75 26. Numa fábrica, o tempo médio µ para fabricar um eixo é de 35 minutos (distribuição normal), com desvio padrão σ de 5 minutos. Qual a probabilidade de um trabalhador escolhido aleatoriamente fabricar um eixo em menos de 25 minutos? Consultar a tabela de distribuição normal padronizada (Anexo A). a) 0,4772 b) 0,0228 c) 0,0456 d) 0,73,47 27. Usando os dados do problema anterior, qual seria a probabilidade de que um trabalhador possa concluir o eixo entre 18 e 22 minutos? a) 0,2345 b) 0,0482 c) 0,4735 d) 0,1935 Erro Padrão da Média Aritmética 28. Suponha que uma empacotadora esteja ajustada para encher pacotes de café de 400 gramas. Dados anteriores confirmam uma distribuição normal, com média aritmética de 400 gramas. O desvio padrão da população é conhecido como sendo igual a 12 gramas. Qual o erro padrão da média aritmética para uma amostra de 8 pacotes? a) 1,50 b) 4,24 c) 4,35 d) 1,48 Estatística 76 29. Suponha que uma empacotadora esteja ajustada para encher pacotes de café de 400 gramas. Dados anteriores confirmam uma distribuição normal, com média aritmética de 400 gramas. O desvio padrão da população é conhecido como sendo igual a 12 gramas. Qual a probabilidade percentual de que uma amostra de 15 pacotes, escolhida aleatoriamente das centenas de pacotes, tenha uma média entre 380 e 390 gramas? a) 40,15 % b) 45,50 % c) 12,93 % d) 10,25 % 30. Considerando os dados do problema anterior, qual a probabilidade percentual de que os pacotes tenham entre 396 e 400 gramas? a) 46 % b) 44,97 % c) 13,35 % d) 12,93 % 31. O certificado de calibração de um peso padrão de referência fornece o valor de 1kg, com incerteza de ± 5 mg, para um fator de abrangência k = 2. Consultando o histórico de um peso padrão de valor nominal de 1 kg foi possível estimar a deriva do seu valor, entre duas calibrações, como sendo 1,5 mg. Considerando esta deriva como uma função de distribuição retangular, qual o valor da função de densidade de probabilidade? a) 0,3000 mg b) 0,3333 mg c) 3,3333 mg d) 0,8660 mg 32. Considerando os dados do exercício anterior, qual a variância da deriva? a) 1,2990 mg b) 0,70 mg c) 0,75 mg d) 3 mg Estatística 77 33. Supondo haver pouca informação sobre os dados, exceto que se trata de uma distribuição triangular e que a melhor estimativa de t seja 300 oC, com os valores limites de a - = a + = 4 oC. Qual seria a função densidade de probabilidade de t? a) 0,25 oC b) 0,30 oC c) 2,256 oC d) 2,828 oC 34. Considerando os dados do exercício anterior, qual a variância desta função? a) 2,555 oC b) 2 oC c) 16 oC d) 2,666 oC 35. Para uma distribuição t de Student, qual o valor crítico de t para (1- α) = 0,95 e n = 10? a) 2,26 b) 2,22 c) 2,82 d) 1,83 Intervalo de Confiança 36. Sabe-se, pelas especificações do fabricante, que o desvio padrão da quantidade de óleo de soja nas latas de 1 litro é igual a 0,02 litros. Uma amostra aleatória de 50 latas é selecionada e a quantidade média de óleo por lata de l litro é igual a 0,995 litros. Calcular o intervalo de confiança de 99 % da verdadeira média da população da quantidade de óleo de soja contida em uma lata de 1 litro. a) 0,9877 ≤ μ ≤ 1,0023 b) 0,9834 ≤ μ ≤ 1,0065 c) 0,9945 ≤ μ ≤ 1,0123 d) 0,9845 ≤ μ ≤ 1,0043 Estatística 78 37. Um novo suco de pêssego é testado para o mercado durante 3 meses, em filiais de uma grande cadeira de supermercados. Os resultados para uma amostra de 21 filiais indicam vendas médias de R$ 8.600,00 com um desvio padrão da amostra de R$ 240,00. Calcular o intervalo de confiança para 99 % de vendas desse novo suco. a) 8.460,89 ≤ μ ≤ 8.739,11 b) 8.464,89 ≤ μ ≤ 8.735,11 c) 8.467,60 ≤ μ ≤ 8.732,40 d) 8.450,99 ≤ μ ≤ 8.749,01 30. RESPOSTAS DOS EXERCÍCIOS DE ESTATÍSTICA Estatística Básica 1. Resposta: Escolher como amostra uma ficha em cada 6, por exemplo, o 6º , o 12º, o 18º, etc. 2. Resposta: letra A. 3. Resposta: letra C 4. Reposta: letra B 5. Resposta: letra C 6. Resposta: letra A 7. Reposta: letra B 8. Resposta: letra D 9. Resposta: letra C 10. Resposta: letra B 11. Resposta: letra D 12. Resposta: letra A 13. Resposta: Letra D 14. Resposta: letra A 15. Resposta: letra C Estatística 79 Probabilidades 16. Resposta: letra A 17. Resposta: letra C 18. Resposta: letra B 19. Resposta: letra C 20. Resposta: letra D Distribuição Binomial 21. Resposta: letra A 22. Resposta: letra C Distribuição de Poisson 23. Resposta: letra B 24. Resposta: letra A 25. Resposta: letra C 26. Resposta: letra B 27. Reposta letra D Erro Padrão da Média Aritmética 28. Resposta: letra B 29. Resposta: letra A. 30. Resposta: letra D 31. Resposta: letra B 32. Resposta: letra C 33. Resposta: letra A 34. Resposta: letra D 35. Resposta: letra A Intervalo de Confiança 36. Resposta: letra A 37. Resposta: letra Dom Estatística 80 Anexo A – Tabela de Distribuição Normal Padronizada Estatística