Curso de Comprovação Metrológica

Propaganda
PCO
PROGRAMA DE CERTIFICAÇÃO
OPERACIONAL CST
ESTATÍSTICA II
ELABORAÇÃO: DEZEMBRO/04
CST - Companhia Siderúrgica de Tubarão
FDH - Departamento de Recursos Humanos
FHD - Divisão de Desenvolvimento e Remuneração
Av. Brigadeiro Eduardo Gomes, 930, Jardim Limoeiro - Serra - ES.
CEP: 29163-970
Telefone: 0 XX (27) 3348-1420
Fax: 0 XX (27) 3348-1077
Sumário
1.
INTRODUÇÃO...................................................................................................................................... 6
2.
DEFINIÇÕES DE TERMOS USADOS EM ESTATÍSTICA............................................................ 7
3.
VARIÁVEIS DISCRETAS E CONTÍNUAS..................................................................................... 12
4.
POPULAÇÕES E AMOSTRAS ......................................................................................................... 13
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
5.
TÉCNICAS DE AMOSTRAGEM ......................................................................................................... 14
AMOSTRA ALEATÓRIA SIMPLES ..................................................................................................... 15
AMOSTRA SISTEMÁTICA ................................................................................................................ 15
AMOSTRA ESTRATIFICADA ............................................................................................................ 15
AMOSTRA DE CONVENIÊNCIA (GRUPO).......................................................................................... 16
ERROS DE AMOSTRAGEM............................................................................................................... 16
HISTOGRAMAS DE FREQÜÊNCIA............................................................................................... 16
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
6.
PRIMEIRA ETAPA: CÁLCULO DA AMPLITUDE (R) .......................................................................... 17
SEGUNDA ETAPA: DETERMINAÇÃO DO INTERVALO DE CLASSE .................................................... 18
TERCEIRA ETAPA: PREPARAÇÃO DO FORMULÁRIO DA TABELA DE FREQÜÊNCIA .......................... 19
QUARTA ETAPA: DETERMINAÇÃO DAS CLASSES .......................................................................... 19
QUINTA ETAPA: CÁLCULO DO PONTO MÉDIO DE CADA CLASSE .................................................. 20
SEXTA ETAPA: OBTENÇÃO DAS FREQÜÊNCIAS.............................................................................. 20
DESENHANDO UM HISTOGRAMA DE FREQÜÊNCIA ............................................................ 20
6.1.
6.2.
7.
POLÍGONO DE FREQÜÊNCIAS ......................................................................................................... 21
ESTRATIFICAÇÃO DE HISTOGRAMAS ............................................................................................. 22
PARÂMETROS DA DISTRIBUIÇÃO DE FREQÜÊNCIA............................................................ 24
7.1.
7.2.
7.3.
7.4.
TENDÊNCIA CENTRAL ................................................................................................................... 25
DISPERSÃO .................................................................................................................................... 25
ASSIMETRIA .................................................................................................................................. 25
CURTOSE ....................................................................................................................................... 25
8.
MÉDIA ARITMÉTICA ...................................................................................................................... 26
9.
MÉDIA PONDERADA ....................................................................................................................... 27
10.
MÉDIA DA RAIZ DA MÉDIA DOS QUADRADOS .................................................................. 29
11.
MEDIA HARMÔNICA .................................................................................................................. 30
12.
MEDIANA ....................................................................................................................................... 30
13.
MODA.............................................................................................................................................. 31
14.
MEDIDAS DE DISPERSÃO.......................................................................................................... 32
15.
AMPLITUDE .................................................................................................................................. 32
16.
VARIÂNCIA ................................................................................................................................... 33
17.
DESVIO PADRÃO ......................................................................................................................... 34
18.
COEFICIENTE DE VARIAÇÃO ................................................................................................. 36
Estatística
19.
FORMATO...................................................................................................................................... 37
20.
DISTRIBUIÇÃO DE PROBABILIDADES.................................................................................. 37
20.1.
20.2.
20.3.
INTRODUÇÃO AO CÁLCULO DE PROBABILIDADES ......................................................................... 38
REGRA DA ADIÇÃO ........................................................................................................................ 41
REGRA DO PRODUTO ..................................................................................................................... 42
21.
DISTRIBUIÇÃO BINOMIAL ....................................................................................................... 43
22.
DISTRIBUIÇÃO DE POISSON .................................................................................................... 45
23.
DISTRIBUIÇÃO NORMAL.......................................................................................................... 47
23.1.
23.2.
23.3.
23.4.
23.5.
23.6.
23.7.
23.8.
PROPRIEDADES DA DISTRIBUIÇÃO NORMAL ................................................................................. 47
CARACTERÍSTICAS ........................................................................................................................ 48
MODELO MATEMÁTICO ................................................................................................................ 49
DISTRIBUIÇÃO NORMAL PADRÃO ................................................................................................. 50
APLICAÇÕES.................................................................................................................................. 54
DISTRIBUIÇÃO DE AMOSTRAGEM DA MÉDIA ARITMÉTICA............................................................ 56
ERRO PADRÃO DA MÉDIA ARITMÉTICA ........................................................................................ 58
TEOREMA DO LIMITE CENTRAL .................................................................................................... 59
24.
DISTRIBUIÇÃO UNIFORME (OU RETANGULAR) ............................................................... 60
25.
DISTRIBUIÇÃO TRIANGULAR................................................................................................. 62
26.
DISTRIBUIÇÃO T (STUDENT) ................................................................................................... 65
27.
GRAUS DE LIBERDADE ............................................................................................................. 67
28.
INTERVALO DE CONFIANÇA................................................................................................... 67
29.
EXERCÍCIOS DE ESTATÍSTICA ............................................................................................... 70
30.
RESPOSTAS DOS EXERCÍCIOS DE ESTATÍSTICA.............................................................. 78
Estatística
5
Apresentação
Muitas pessoas ainda pensam que Metrologia se refere apenas a Dimensão e Comprimento,
que se trata de paquímetros, micrômetros, calibres e similares. Este conceito deve ser
corrigido, pois Metrologia é a Ciência da Medição e se refere à medição de qualquer
grandeza física.
Segundo a norma 1 NBR ISO 10012, Comprovação Metrológica é um conjunto de
operações necessárias para assegurar-se de que um dado equipamento de medição está em
condições de conformidade com os requisitos para o uso pretendido.
Quando se relata o resultado de medição de uma grandeza física, é obrigatório que seja
dada alguma indicação quantitativa da qualidade do resultado, de forma tal que aqueles que
o utilizam possam avaliar sua confiabilidade. Sem essa indicação, resultados de medição
não podem ser comparados, seja entre eles mesmos ou com valores de referência
fornecidos numa especificação técnica ou numa norma.
A avaliação da qualidade de medidas é fundamental para a prática gerencial. Segundo o
Dr. William Edwards Deming, “o que se registra ao final de uma determinada operação
de medição é o último produto de uma longa série de operações, desde a matéria-prima
até a operação de medição propriamente dita. A medição é, pois, a parte final deste
processo. Assim, do mesmo modo como é vital controlar estatisticamente as outras partes
deste processo, é vital controlar-se estatisticamente o processo de medição; caso
contrário, não há medida que tenha significado comunicável”.
Estas palavras de Deming mostram a importância do conhecimento e do uso sistemático,
por parte das empresas, da comprovação metrológica, a qual utiliza as técnicas estatísticas
para avaliação da capacidade de sistemas de medição.
O pressuposto básico da metrologia é que toda medida possui erros. Como conseqüência,
nem o valor verdadeiro e nem o valor do erro são conhecidos com exatidão. Como em
outras áreas científicas, por exemplo, a física, na metrologia temos que conviver com a
incerteza e os erros de medição. Convém, portanto, que a incerteza e os erros de medição
sejam tratados de tal modo que as medições possam ter alguma utilidade.
Uma das razões mais comuns de dados com baixa qualidade é a grande variação dos dados.
Por exemplo, um sistema de medição usado para medir a vazão de um gás em uma
tubulação, pode ser sensível à temperatura do gás medido. Neste caso, a variação nos
dados pode ser devida ou a mudanças na vazão ou a mudanças na temperatura do gás. Isto
torna a interpretação dos dados mais difícil e o sistema de medição, conseqüentemente,
menos conveniente ou até mesmo inadequado.
Além disso, outros fatores também influem na medição, por exemplo: o operador, os
equipamentos auxiliares, as condições ambientais, o instrumento de medição etc.
Esta apostila pretende tratar com mais ênfase os componentes de um Sistema de
Comprovação Metrológica, fazendo, contudo, uma breve explanação dos conceitos básicos
de Estatística, necessários à aplicação da metrologia.
1
Norma NBR ISO 10012/2004 – Sistemas de Gestão de Medição – Requisitos para os processos de medição
e equipamento de medição.
Estatística
6
1. INTRODUÇÃO
A Estatística pode ser dividida em duas partes: descritiva e inferencial.
A estatística descritiva “cuida dos métodos que envolvem a coleta, a apresentação e a
caracterização de um conjunto de dados de modo a descrever apropriadamente as várias
características deste conjunto”. Utiliza-se de tabelas, gráficos e métodos numéricos para
resumir conjuntos de dados da população total ou de amostras.
A estatística inferencial “cuida dos métodos que tornam possíveis a estimativa de uma
característica de uma população ou a tomada de uma decisão referente à população com
base somente em resultados de amostras”.
A estatística inferencial é uma técnica usada para coletar, descrever, analisar e interpretar
os dados numéricos. Ela trata das variações aleatórias contidas nos dados. É conveniente
deixar claro que a estatística inferencial mostra apenas as informações já contidas nos
dados. Nenhuma informação nova é criada por ela. O tratamento estatístico dos dados
permite fazer julgamentos objetivos relacionados com a validade dos resultados,
permitindo vê-los de modos diferentes e a tomada de decisões objetivas e inteligentes
quanto à qualidade e aplicação.
Em metrologia a estatística inferencial é amplamente usada, pois o objetivo é obter
conclusões prováveis, em condições de incerteza, sobre determinado sistema de medição
baseando-se em uma pequena amostra de uma população estatística.
Usando a estatística podemos determinar o valor mais provável de uma grandeza, partindo
de um conjunto de dados de medição, bem como determinar o erro provável e o valor da
incerteza.
Quando se faz apenas uma medição dizemos que a mesma é imprevisível e aleatória.
Entretanto uma série de medições é previsível e determinada. A base da estatística é a
repetição das medições. Com apenas uma medição obtém-se pouca informação do
mensurando, sujeita a erros. Com múltiplas medições os erros aleatórios aparecem como
um espalhamento em torno da média das medições.
Estatística
7
Este espalhamento é causado pelas variações da medição e pelas variações das
características do sistema de medição. Dentro do possível, as variações da medição devem
ser consideradas nos cálculos estatísticos e as variações do sistema de medição devem ser
eliminadas.
Como é sabido, devido ao alto custo das medições, torna-se impeditivo realizar muitas
medições para caracterizar uma população, daí serem usadas algumas poucas amostras
(medições) para inferir (tirar conclusões) sobre as populações. Por conseqüência, este
processo tem suas limitações, não é exato, podendo estar sujeito a erros. A estatística
inferencial poderá avaliar e controlar o tamanho do erro cometido ao se fazer estas
deduções. Ou seja: a incerteza e o grau de confiança do sistema de medição.
A qualidade dos dados de medição está relacionada com as propriedades estatísticas de
medições múltiplas obtidas com um sistema de medição operando em condições estáveis 2.
2. DEFINIÇÕES DE TERMOS USADOS EM ESTATÍSTICA
A seguir são apresentados alguns termos usados em estatística, extraídos do Guia 3 para a
Expressão da Incerteza de Medição, que os extraiu da Norma 4 ISO 3534-1. Esta norma
deve ser a primeira fonte a ser consultada para a definição de termos estatísticos não
incluídos nesta apostila.
Amostra: é uma parcela representativa da população que é escolhida para análise com o
propósito de tirarmos conclusões sobre a essa população.
Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento
e os estudos necessários ao tratamento desses dados são designados genericamente de
estatística de atributo.
2
Análise dos Sistemas de Medição (MAS), 2a Edição – Fev/ 95.
Guia Para a Expressão da Incerteza de Medição – 2a Edição – ABNT – INMETRO – SBM – 1998.
4
ISO 3535-1: 1993 – Statistics – Vocabulary and Symbols – Part 1: Probability and general statistical terms.
3
Estatística
8
Característica: propriedade que ajuda a identificar ou diferenciar itens de uma dada
população.
Nota: a característica pode ser ou quantitativa (por variáveis) ou qualitativa (por atributos).
Coeficiente de confiança; nível de confiança: o valor (1 - α) da probabilidade associada
com um intervalo de confiança ou um intervalo estatístico de abrangência.
Nota: (1- α) é freqüentemente expresso como uma porcentagem.
Dado Estatístico: dado numérico é considerado a matéria-prima sobre a qual iremos
aplicar os métodos estatísticos.
Desvio padrão: a raiz quadrada positiva da variância.
Nota: o desvio padrão da amostra é um estimador 5 não-tendencioso do desvio padrão da
população.
No texto original, o estimador consta como "biased", que não corresponde à tradução "nãotendencioso”.
Distribuição de freqüência: relação empírica entre valores de uma característica e suas
freqüências ou suas freqüências relativas.
Nota: a distribuição pode ser apresentada graficamente como um histograma, gráficos de
barras, polígono de freqüência cumulativa ou como uma tabela de dupla entrada.
Distribuição de Probabilidade (de uma variável aleatória): função que determina a
probabilidade de uma variável aleatória assumir qualquer valor dado ou pertencer a um
dado conjunto de valores.
Nota: a probabilidade do conjunto inteiro de valores da variável aleatória é igual a 1.
Esperança (de uma variável aleatória ou de uma distribuição de probabilidade); valor
esperado; média.
5
No texto original, o estimador consta como "biased", que não corresponde à tradução "não-tendencioso”.
Estatística
9
Estatística: função de variáveis aleatórias da amostra.
Nota: Estatística, como uma função de variáveis aleatórias, é também uma variável
aleatória e, como tal, assume diferentes valores de uma amostra para outra. O valor da
estatística obtida, usando-se os valores observados nesta função, pode ser utilizado num
teste estatístico ou como estimativa de um parâmetro de população, tal como uma média
ou um desvio padrão.
Estimação: é a operação que designa, através de observações numa amostra, valores
numéricos para os parâmetros de uma distribuição escolhida, como o modelo estatístico da
população da qual a amostra é extraída.
Nota: um resultado desta operação pode ser expresso como um valor único singular
(estimativa pontual) ou como uma estimativa de intervalo.
Estimador: estatística utilizada para estimar um parâmetro de população.
Estimativa: valor de um estimador obtido como um resultado de uma estimação.
Fenômeno Estatístico: qualquer evento que se pretenda analisar, cujo estudo seja possível
da aplicação do método estatístico.
Freqüência: o número de ocorrências de um dado tipo de evento ou o número de
observações que se enquadram em uma classe especificada.
Função densidade de probabilidade (para uma variável aleatória contínua): derivada
(quando existe) da função distribuição: f(x) = dF(x)/dx
Nota: f(x)dx = Pr(x < X < x + dx)
Função distribuição: função que determina, para cada valor x, a probabilidade de que a
variável aleatória X seja menor ou igual a x:
F(x) = Pr(X ≤ x).
Graus de liberdade: em geral, o número de termos em uma soma menos o número de
restrições aos termos da soma.
Estatística
10
Intervalo de confiança bilateral: quando T1 e T2 são duas funções dos valores
observados, tais que, θ sendo um parâmetro de população a ser estimado, a probabilidade
Pr (T1 ≤ θ ≤ T2) é, pelo menos, igual a (1- α) [onde (1- α) é um número fixo, positivo e
menor que 1], o intervalo entre T1 e T2 é um intervalo de confiança (1- α) bilateral para θ.
Notas:
1) Os limites T1 e T2 do intervalo de confiança são estatísticas e, como tais, geralmente
assumem diferentes valores de amostra para amostra.
2) Em uma longa série de amostras, a freqüência relativa dos casos nos quais o valor
verdadeiro do parâmetro de população é coberto pelo intervalo de confiança, é maior ou
igual a (1- α).
Intervalo de confiança unilateral: quando T é uma função dos valores observados, tais
que, θ sendo um parâmetro de população a ser estimado, a probabilidade Pr (T ≥ ≈ theta)
[ou a probabilidade Pr (T1 ≤ θ)] é pelo menos igual a (1 - α) [onde (1 - α) é um número
fixo, positivo e menor do que 1], o intervalo do menor valor possível de θ até T (ou o
intervalo de T até o maior valor possível de θ) é um intervalo de confiança (1 - α)
unilateral para θ.
Nota: o limite T do intervalo de confiança é uma estatística e, como tal, geralmente irá
supor diferentes valores de amostra para amostra.
Intervalo estatístico de abrangência: intervalo para o qual pode-se dizer que, com um
dado nível da confiança, ele contém pelo menos uma proporção especificada da população.
Notas:
1) Quando ambos os limites são definidos por estatísticas, o intervalo é bilateral. Quando
um dos dois limites não é finito ou consiste do limite absoluto da variável, o intervalo é
unilateral.
2) Também denominado "intervalo estatístico de tolerância". Este termo não deve ser
usado porque pode ser confundido com “intervalo de tolerância", que é definido na ISO
3534-2.
Estatística
11
Média aritmética; média: a soma de valores dividida pelo número de valores.
Notas:
1) O termo "média" (mean) é, geralmente, utilizado quando se refere a um parâmetro de
população (média da população) e o termo "média" (average) quando se refere ao resultado
de um cálculo sobre dados obtidos de uma amostra (média da amostra).
2) A média (average) de uma amostra aleatória simples tomada de uma população é um
estimador não-tendencioso da média (mean) desta população. Entretanto, outros
estimadores, tais como a média geométrica ou harmônica, ou a mediana ou a moda, são por
vezes utilizados.
Parâmetro - uma grandeza utilizada na descrição da distribuição de probabilidade de uma
variável aleatória.
População: totalidade de itens sob consideração.
Nota: no caso de uma variável aleatória, considera-se que a distribuição de probabilidade
defina a população daquela variável.
Probabilidade: um número real na escala de 0 a 1 associado a um evento aleatório.
Variância: uma medida de dispersão, que é a soma dos desvios quadráticos das
observações de sua média aritmética dividida pelo número de observações menos um.
Variável Aleatória: uma variável que pode assumir qualquer um dos valores de um
conjunto especificado de valores e com a qual está associada uma distribuição de
probabilidade.
Nota: Uma variável aleatória que só pode assumir valores isolados é chamada “discreta”.
Uma variável aleatória que pode assumir qualquer valor dentro de um intervalo finito ou
infinito é chamada “contínua”.
Variável aleatória centrada: uma variável aleatória cuja esperança se iguala a zero.
Estatística
12
3. VARIÁVEIS DISCRETAS E CONTÍNUAS
As variáveis podem ser caracterizadas como qualitativas ou quantitativas. A variável
qualitativa resulta de uma classificação por tipo ou por atributo, enquanto que a
quantitativa por seus valores expressos em números.
As variáveis quantitativas podem ser agrupadas em discretas e contínuas. É chamada
discreta quando pode assumir apenas valores isolados ao longo de uma escala. Por
exemplo: o número de altos fornos existentes na CST é uma variável discreta, enquanto
que a temperatura deles é uma variável contínua.
Pode-se concluir também que os valores das variáveis discretas são obtidas mediante
alguma forma de contagem enquanto que as variáveis contínuas advém de um processo de
medição, freqüentemente fornecidos em alguma unidade de medida. Por outro lado a
interpretação de um valor de uma variável discreta é dada exatamente pelo seu valor
numérico. Quando dizemos que a CST possui dois altos fornos (em 2004), temos a noção
exata do seu significado. Entretanto, não podemos dizer o mesmo da temperatura, pois a
interpretação de uma variável contínua é a de que se trata de um valor aproximado. Isso
decorre do fato de não existirem instrumentos de medida capazes de oferecer precisão
absoluta, além do fato de que existem outros fatores de influência que afetam o resultado
da medida, como, por exemplo, a variabilidade do processo, reajuste do equipamento, troca
de operador, entre outros.
Ao medirmos uma variável contínua, estamos sempre fazendo uma aproximação, cujo
resultado deve ser interpretado como sendo uma aproximação compatível com o nível de
precisão e com o critério utilizado para medir.
Estatística
13
4. POPULAÇÕES E AMOSTRAS
Por definição, população é conjunto total de elementos portadores de, pelo menos, uma
característica comum. Então, qualquer subconjunto não vazio e com menor número de
elementos do que a população constitui uma amostra dessa população. A figura 1 ilustra
este conceito.
População
Amostra
Figura 1 - Ilustração do conceito de população e amostra
As populações podem ser finitas, como o conjunto dos habitantes de um país ou infinitas
como o número de vezes em que se pode tirar a carta de “7 de paus” de um baralho.
De um modo geral, considera-se como se fossem infinitas as populações finitas muito
grandes. Como exemplo, o número de torcedores do Flamengo. Este número é
matematicamente finito, mas tão grande que um pesquisador, ao analisar uma mostra de
1000 pessoas, pode considerar a população como infinita.
Entretanto, se as informações de toda a população são coletadas, diz-se que houve um
recenseamento. Pois Censo é o conjunto de dados obtidos através de recenseamento. Por
outro lado, se as informações são provenientes de apenas parte da população, é dito que foi
feita uma amostragem. A amostra é tanto a parte retirada da população para estudo como,
também, o conjunto de dados obtidos nessa parte da população.
Convém, contudo, ressaltar que mesmo que o pesquisador trabalhasse com a população, o
que seria impossível, mesmo assim, poderia ter um trabalho astronômico para estudá-la e
na maioria dos casos os resultados seriam sempre falhos. Imagine o número de
nascimentos e mortes diários em nosso país. Portanto, vai sempre existir uma imprecisão
no resultado do trabalho. Nesses casos, o estatístico recorre a uma amostra, que
basicamente, constitui uma redução da população a dimensões menores, sem perda das
características essenciais.
Estatística
14
Na metrologia, ocorre o mesmo, pois mesmo que alguém se disponha a fazer, digamos,
100 medições da corrente elétrica de um motor, o resultado será sempre uma amostra
porque, teoricamente, a corrente elétrica pode ser medida um número infinito de vezes.
Além disso, o estudo cuidadoso de uma amostra tem mais valor científico do que o estudo
sumário de toda a população.
4.1. TÉCNICAS DE AMOSTRAGEM
Uma amostra para ser boa tem de ser representativa, ou seja, deve conter em proporção
tudo o que a população possui, tanto qualitativa quanto quantitativamente. Também tem
que ser imparcial, isto é, todos os elementos da população devem ter igual oportunidade de
fazer parte da amostra. Imagine alguém pesquisando “que time tem a maior torcida”, no
Espírito Santo, na saída do estádio, após o jogo, Desportiva e Estrela, realizado em
Cariacica! Conforme a técnica utilizada, tem-se um tipo de amostra. Existem basicamente
dois tipos de amostras: amostra não-probalística e amostra probabilística, as quais de
dividem em:
Amostra não-probalística pode ser:
a) amostra de julgamento;
b) amostra por quota;
c) fatia.
Amostra probabilística pode ser:
a) amostra aleatória simples;
b) amostra sistemática;
c) amostra estratificada;
d) amostra de conveniência (grupo).
Em muitos casos, somente a amostra não-probalística está disponível, como por exemplo,
em um julgamento. Nesse caso a opinião de um perito no assunto estudado é fundamental
para que se possa utilizar os resultados obtidos a fim de realizar modificações em um
processo.
Estatística
15
Existem outros casos de amostragem não-probalística, que são: a amostragem de quota e a
amostragem de fatia. Por não serem utilizadas em metrologia, não vamos estudá-las.
As inferências estatísticas de uma amostra para uma população é feita através de uma
amostra probabilística.
4.2. AMOSTRA ALEATÓRIA SIMPLES
Neste tipo de amostragem, os elementos são retirados ao acaso da população, logo, cada
elemento tem a mesma chance de todos os demais componentes da amostra de ser
escolhido.
4.3. AMOSTRA SISTEMÁTICA
Neste caso, os elementos são escolhidos, não por acaso, mas por um sistema. Quando a
população está organizada é mais fácil obter uma amostra sistemática do que uma amostra
aleatória simples. Vejamos um exemplo. Para obter uma amostra de 4% de certificados de
calibração de um laboratório, é mais fácil pegar o último de cada 25 certificados do que
fazer um sorteio até conseguir 4% do total de certificados emitidos.
4.4. AMOSTRA ESTRATIFICADA
É composta por elementos provenientes de todos os extratos da população. Por exemplo,
numa pesquisa de nível de satisfação com o governo do Estado do ES é necessário coletar
amostras em um número maior de municípios do Estado e não somente na região chamada
de Grande Vitória.
Sempre que a população for constituída de por diferentes extratos, devem ser obtidas
amostras estratificadas.
Estatística
16
4.5. AMOSTRA DE CONVENIÊNCIA (GRUPO)
É formada pelos elementos que se dispõe. Logo, se alguém toma os certificados de
calibração de que dispõe como amostra de todos os certificados emitidos pelo laboratório,
estará usando uma amostra de conveniência.
Como regra geral, há muitas restrições ao uso de mostras por conveniência. Entretanto,
elas são comuns, em várias áreas, principalmente quando constituem a única maneira de
estudar determinado problema.
4.6. ERROS DE AMOSTRAGEM
A importância da amostragem não pode ser deixada de lado. Se a amostra não for
representativa da população que se quer analisar, de nada vai adiantar o esmerado cuidado
nas medições, na coleta e análise dos dados. Entretanto, convém frisar que a amostragem
sempre contribui para a incerteza de medição. Cabe ao metrologista avaliar previamente
todas as fontes de erro oriundos da amostragem e tentar minimizá-las, pois uma vez
cometidos eles são irreversíveis. Por exemplo, se ao fazer uma medição de baixo sinal DC,
o equipamento não for aterrado conveniente, todas as medições poderão ser afetadas por
ruídos intermitentes presentes no circuito.
5. HISTOGRAMAS DE FREQÜÊNCIA
É uma ferramenta estatística apropriada para apresentação de grandes massas de dados
numa forma que torna mais clara a tendência central e a dispersão dos valores ao longo da
escala de medição, bem como a freqüência relativa de ocorrência dos diferentes valores.
A tabela 1 apresenta dados brutos, isto é, dados que ainda não foram numericamente
organizados, de medidas de comprimento de 100 eixos fabricados numa Usinagem.
Observe que interpretar essa massa de dados é bastante trabalhoso. Por isso fazemos uso de
alguns recursos para facilitar a análise dos dados. O histograma é um dos métodos usados
que vamos aplicar agora. Siga as seis etapas do método.
Estatística
17
5.1. PRIMEIRA ETAPA: CÁLCULO DA AMPLITUDE (R)
A fórmula para cálculo da Amplitude (R) é a seguinte:
R = Vmax – Vmin,
Sendo:
R = amplitude
Vmax = maior valor entre os 100 valores
Vmin = menor valor entre os 100 valores
No. da
Amostra
Medidas
(em mm)
1 a 10
4162
4168
4178
4165
4167
4168
4157
4161
4164
4165
11 a 20
4157
4158
4173
4183
4189
4167
4172
4171
4173
4176
21 a 30
4154
4168
4178
4169
4177
4173
4176
4166
4171
4165
31 a 40
4169
4169
4165
4171
4169
4167
4173
4172
4181
4171
41 a 50
4186
4171
4174
4164
4165
4167
4158
4172
4183
4187
51 a 60
4163
4169
4173
4169
4182
4165
4169
4170
4175
4174
61 a 70
4167
4177
4172
4179
4171
4157
4159
4178
4173
4176
71 a 80
4162
4163
4182
4169
4177
4156
4160
4178
4173
4175
81 a 90
4169
4178
4169
4173
4174
4173
4177
4169
4182
4184
91 a 100
4185
4171
4177
4169
4171
4151
4168
4177
4169
4169
Tabela 1 - Dados brutos medidas de comprimento de 100 eixos fabricados (em mm).
Encontrar tanto o menor valor, quanto o maior deles, percorrendo visualmente a lista de
100 valores. Este método é passível de erro quando se tem muitos valores a comparar. É
melhor acrescentar duas colunas à direita da tabela 1 e nomeá-las como “Menor Valor” e
“Maior Valor”. Veja a Tabela 2. Percorrer visualmente cada linha e anotar na coluna
correspondente o “Menor Valor” de cada linha. Percorrer visualmente a coluna “Menor
Valor” e anotar qual é o “Menor Valor”. Repetir o mesmo procedimento para o “Maior
Valor”. Feito isso, é só aplicar a fórmula de cálculo da amplitude e obter:
R = Vmax – Vmin = 4189 mm – 4151 mm = 38 mm
Portanto, R = 38 mm.
Estatística
18
5.2. SEGUNDA ETAPA: DETERMINAÇÃO DO INTERVALO DE CLASSE
O intervalo de classe pode ser determinado dividindo a amplitude (R) por 1, 2, ou 5 (ou 10,
20, 50 ou por 0, 1, 0, 2, 0,5 etc) de modo a se obter de 5 a 20 intervalos de classe, de igual
amplitude. Não é conveniente ter muitos intervalos, pois isto tornam trabalhosas as etapas
seguintes.
Neste caso vamos dividir 38 por 1, por 2 e por 5.
Logo obtemos:
a) 38 / 1 = 38
b) 38 / 2 = 19
c) 38 / 5 = 7,6 que deve ser arredondado para 8.
Então vamos optar pela letra c, que nos permitirá 8 classes com intervalo de 5 mm.
No. da
Amostra
1 a 10
11 a 20
21 a 30
31 a 40
41 a 50
51 a 60
61 a 70
71 a 80
81 a 90
91 a 100
4162
4157
4154
4169
4186
4163
4167
4162
4169
4185
4168
4158
4168
4169
4171
4169
4177
4163
4178
4171
4178
4173
4178
4165
4174
4173
4172
4182
4169
4177
4165
4183
4169
4171
4164
4169
4179
4169
4173
4169
Medidas
(em mm)
4167 4168
4189 4167
4177 4173
4169 4167
4165 4167
4182 4165
4171 4157
4177 4156
4174 4173
4171 4151
4157 4161 4164 4165
4172 4171 4173 4176
4176 4166 4171 4165
4173 4172 4181 4171
4158 4172 4183 4187
4169 4170 4175 4174
4159 4178 4173 4176
4160 4178 4173 4175
4177 4169 4182 4184
4168 4177 4169 4169
Menor Valor da Tabela
Maior Valor da Tabela
Menor
Valor
4162
4157
4154
4165
4158
4163
4157
4156
4169
4151
4151
Tabela 2 - Como encontrar o maior e o menor valor numa tabela de dados
Estatística
Maior
Valor
4178
4189
4178
4181
4187
4182
4179
4182
4184
4185
4189
19
5.3. TERCEIRA ETAPA: PREPARAÇÃO DO FORMULÁRIO DA TABELA DE FREQÜÊNCIA
Preparar um formulário conforme mostrado na tabela 3, de modo que a classe, o intervalo
de classe, o ponto médio da classe, as marcas de freqüência, a freqüência (f) e a freqüência
relativa possam ser registradas.
Classe
no
Intervalo de
Classe
Ponto Médio
da Classe
Freqüências
(Marcas)
Total
Freqüência
f
Freqüência
Relativa
100
0,01
Tabela 3 - Formulário para Tabela de Freqüência.
Observe que:
a) a soma das freqüências (f) tem que ser igual à quantidade (n) de dados levantados
(neste caso: 100);
b) a freqüência relativa, quando desejada, é obtida pela divisão de f por n.
5.4. QUARTA ETAPA: DETERMINAÇÃO DAS CLASSES
Determinar os limites dos intervalos de forma que incluam o menor e o maior valores
levantados e anotar no formulário para Tabela de Freqüência. Determinar o limite inferior
da primeira classe e acrescentar a amplitude do intervalo a ele, para obter o limite entre a
primeira e a segunda classe. Assegurar-se de que a primeira classe contenha o menor valor
observado. Os limites de classe devem ter um decimal a mais que os dados reais, sendo o
último dígito igual a 5. Continuar a adicionar a amplitude do intervalo ao valor anterior
para obter o segundo limite, o terceiro etc até alcançar a última classe. Conferir se a última
classe contém o valor máximo observado. Preencher o formulário adequadamente com
estes valores.
Estatística
20
5.5. QUINTA ETAPA: CÁLCULO DO PONTO MÉDIO DE CADA CLASSE
Calcular o ponto médio da primeira classe, somando os valores dos limites superior e
inferior da primeira classe e dividindo o resultado por 2. Anotar no formulário da tabela de
freqüência. Prosseguir com o mesmo método para as outras classes. Alternativamente, os
pontos médios da segunda, terceira e demais classes também podem ser obtidos somandose ao ponto médio da primeira classe o intervalo de classe e assim sucessivamente.
5.6. SEXTA ETAPA: OBTENÇÃO DAS FREQÜÊNCIAS
Ler todos os valores contidos na tabela 1 e colocar uma marca ( | ) para cada valor,
agrupando-as de 5 em 5, de acordo com as classes a que pertençam. Veja exemplo na
tabela 4. Contar quantas marcas foram registradas e anotar na coluna Freqüência (f).
Calcular a freqüência relativa, dividindo f por n.
Classe no
1
2
3
4
5
6
7
8
Intervalo de
Classe
4150,5 a 4155,5
4155,5 a 4160,5
4160,5 a 4165,5
4165,5 a 4170,5
4170,5 a 4175,5
4175,5 a 4180,5
4180,5 a 4185,5
4185,5 a 4190,5
Ponto Médio
da Classe
4153,5
4158,5
4163,5
4168,5
4173,5
4178,5
4183,5
4188,5
Total
Freqüências
(Marcas)
||
|||||
|||||
|||||
|||||
|||||
|||||
|||
|||
|||||
|||||
|||||
|||||
|||
|||
||||| ||||| |||||
||||| ||||| ||||| |
|||||
Freqüência Freqüência
(f)
Relativa
002
0,002
008
0,008
013
0,013
025
0,025
026
0,026
015
0,015
008
0,008
003
0,003
100
0,010
Tabela 4 - Tabela de Freqüência.
6. DESENHANDO UM HISTOGRAMA DE FREQÜÊNCIA
a) Usando uma folha de papel quadriculado, marcar o eixo horizontal com uma escala
(mm). A escala deve ser baseada na unidade de medida dos dados (kg, oC, mm);
b) Deixar um espaço aproximadamente igual ao intervalo de classe no eixo horizontal
antes da primeira e após a última classe;
c) Marcar o eixo vertical da esquerda com a escala de freqüência. Traçar o eixo vertical
da direita, marcando nele a escala de freqüência relativa;
Estatística
21
d) Marcar o eixo horizontal com os valores limites das classes;
e) Usando o intervalo de classe como base, traçar retângulos cuja altura corresponda à
freqüência daquela classe;
f) Traçar uma linha (traço-ponto) para representar a média e, se houver, traçar linhas
verticais representando os limites da especificação;
g) Anotar a quantidade de dados (n), a média ( x ) e o desvio padrão (s) e quando foi feita
a coleta de dados etc. Veja o exemplo da figura 2 para os dados da tabela 1.
6.1. POLÍGONO DE FREQÜÊNCIAS
A construção de um polígono de freqüências é feita marcando o ponto médio (central) no
“topo” de cada coluna do gráfico de histograma e freqüência e unindo estes pontos com
uma linha cheia.
Figura 2 - Histograma baseado nos dados da tabela 1.
Nota: Esta linha sinuosa (
) que começa no zero serve para economizar espaço.
Com este recurso o valor 4151 pode ficar perto do zero.
Estatística
22
Por exemplo, na tabela 4 calculamos o ponto médio de cada classe. Vamos repetir o
histograma da figura 2, construindo a figura 3, e vamos marcar neste histograma o ponto
médio de cada classe e em seguida vamos unir os pontos marcados. E para concluir o
gráfico, imaginamos duas classes teóricas, de ponto médio = 0, nos dois extremos do
histograma.
Figura 3 - Polígono de Freqüências com os dados da tabela 3.
6.2. ESTRATIFICAÇÃO DE HISTOGRAMAS
De forma geral, a maioria dos estudos voltados à detecção das causas de defeitos
envolve a associação dos dados de causas com os dados dos correspondentes efeitos. Neste
caso, a disposição dos dados numa ordem tal que mostre claramente esta correspondência,
e mais tarde, a análise dos dados através da estratificação por causas ou da construção de
histogramas de dispersão em função dessas causas podem facilitar a identificação das
fontes do problema.
Considere os dados da tabela 5. Foram coletados da medição de temperatura em
duas posições do forno, a saber: lado direito (A) e lado esquerdo (B). Foi feito o
histograma de todos os dados – figura 4 - e posteriormente os dados foram estratificados
em dois histogramas (uma para o lado A e outro para o lado B) – figura 5 - visando
identificar se há variações de temperatura entre os lados do forno.
Estatística
23
Foram identificadas diferenças nas temperaturas entre os dois sensores. Este método pode
ser usado para melhorar a qualidade do produto, reduzindo a variação e melhorando a
média do processo. A estratificação é geralmente feita de acordo com a metodologia 6M 6
(também conhecida como “diagrama de Ishikawa”, diagrama de causa-e-efeito ou ainda
“espinha de peixe”). Os 6M são: método, máquina, mão-de-obra, meio-ambiente, matéria
prima e medida.
o
Medição N Forno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
6
A
A
B
B
A
B
B
B
A
B
B
A
A
A
B
B
A
B
B
A
B
A
A
A
Temp.
em °C
184,9
183,8
186,2
185,7
183,9
186,4
186,8
187,0
183,8
186,0
186,3
183,0
183,5
182,7
185,2
186,7
183,1
185,9
187,5
183,8
187,5
184,4
183,4
184,3
o
Medição N Forno
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
B
B
A
B
A
A
B
B
A
A
A
B
A
A
B
A
A
A
B
B
A
B
B
B
Temp.
em °C
186,2
187,2
183,0
186,3
183,9
183,5
184,1
184,7
185,3
184,5
184,5
186,2
184,1
183,2
186,2
182,9
183,8
183,7
186,6
185,7
182,9
186,9
186,1
186,0
o
Medição N Forno
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
B
B
B
A
A
B
A
B
A
A
B
A
A
A
B
B
B
A
B
A
B
A
A
A
Temp.
em °C
186,6
187,0
186,7
184,9
183,7
184,7
185,1
185,4
184,4
184,2
185,8
185,1
184,4
183,8
187,0
186,9
185,5
183,7
186,0
184,5
187,9
182,7
184,2
183,9
o
Medição N Forno
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
B
B
A
A
B
B
A
B
A
B
A
B
A
B
B
A
A
A
B
B
A
A
B
B
Temp.
em °C
185,4
184,6
183,9
183,2
185,7
186,9
184,0
185,7
184,3
186,0
183,6
186,0
183,6
186,5
187,6
184,7
185,1
183,8
186,6
186,7
184,3
183,7
184,9
185,8
B 186,1
50
A 183,8
75
B 185,5
100
B 184,1
Tabela 5 - Dados da medição de temperatura do forno – Lados A e B.
As Ferramentas da Qualidade no Gerenciamento de Processos – Werkema, Maria C. Catarino
Estatística
24
25
20
15
10
5
0
1
2
3
4
5
6
7
Figura 4 - Histograma de Freqüência da Medição de Temperatura nos lados A e B
16
14
14
12
12
10
10
8
8
6
6
4
4
2
2
0
0
1
2
3
4
5
6
7
1
2
3
4
5
Figura 5 - Histogramas Estratificadas da
Temperatura do Forno
a) lado direito: posição A; b) lado esquerdo: posição B.
6
7
8
7. PARÂMETROS DA DISTRIBUIÇÃO DE FREQÜÊNCIA
A distribuição de freqüências mostra os dados em formas e formatos comuns. Os números
têm uma tendência de se agrupar e mostrar padrões semelhantes. Estes padrões podem ser
identificados, medidos e analisados. Na análise dos dados de uma distribuição de
freqüências há quatro parâmetros importantes: tendência central, dispersão, desvio e
curtose.
Estatística
25
7.1. TENDÊNCIA CENTRAL
A maioria das distribuições de freqüência exibe uma “tendência central”, isto é, uma forma
tal que a maior parte das observações se acumula na área entre os dois extremos.
Tendência Central é um dos conceitos fundamentais em toda a análise estatística. É a
média dos pontos. As curvas podem ter diferentes simetrias e dispersões, mas a mesma
tendência central. Também é possível ter curvas com a mesma simetria e mesma dispersão,
mas com diferente tendência central.
7.2. DISPERSÃO
É a característica que indica o grau de espalhamento dos dados. Também é chamada de
variação.
7.3. ASSIMETRIA
Indica o grau de distorção em uma curva simétrica ou o grau de assimetria. Uma curva
simétrica possui os lados direito e esquerdo da lei de centro iguais. Os dois lados de uma
curva simétrica são imagens de cada lado. Uma curva se distorce para direita quando a
maioria dos valores está agrupada no lado direito da distribuição.
7.4. CURTOSE
É a característica que descreve o pico em uma distribuição. É uma medida relativa para
comparar o pico de duas distribuições. Uma maior curtose significa um pico maior de
freqüência relativa, não maior quantidade de dados.
Há três classes de curtose: platicúrtica (curva plana e esparramada), leptocúrtica (curva
com pico estreito e alto) e mesocúrtica (intermediária entre as duas outras).
Estatística
26
8. MÉDIA ARITMÉTICA
Os dados podem ser reduzidos a um único número, para fins de comparação. A média ou
valor médio é o mais representativo de um conjunto de dados ou medições. Quanto maior o
número de medições feitas, melhor será o resultado. O valor médio é a expectativa
matemática do conjunto de dados.
A média aritmética é a média mais usada e é calculada como sendo a soma de todas as
medidas de um conjunto dividida pelo número total de medidas. Se uma variável x possui
os n valores: x1 , x2 , ...., xn , a média aritmética, x , (leia-se: xis barra) é:
x=
x1 + x2 + ... + xn
n
n
Simplificando esta fórmula podemos usar
x=
∑x
i =1
i
n
Onde:
x
= média aritmética
∑
= letra grega Sigma
n
∑x
= somatório de todos os valores xi na amostra (i varia de 1 até n)
n
= tamanho da amostra
i =1
i
Exemplo: Calcular a média de: 25, 36, 45 e 72. Usando a fórmula, temos:
x=
25 + 36 + 45 + 72
= 44,5
4
Logo, a média aritmética, ou simplesmente, a média é: 44,5.
É importante observar que a média baseia-se em todas os elementos do conjunto de dados,
por isso ela é altamente afetada pelos valores extremos. Por isso, às vezes, a média
aritmética apresenta uma representação distorcida daquilo que os dados estão transmitindo;
assim sendo, a média aritmética não seria, sozinha, a melhor medida a ser utilizada para
descrever ou resumir tal conjunto de dados.
Estatística
27
Quando se tem uma população muito grande de dados (n tende para o infinito), o símbolo
da média é expresso como:
n
μ =
∑x
i =1
i
n
Sendo μ = símbolo da média (para n grande).
Deve-se sempre fazer de três a cinco replicações de uma medição. Os resultados
individuais de um conjunto de medições são raramente os mesmos e usa-se a média como
melhor valor para o conjunto, pois a média é sempre mais confiável do que qualquer
resultado individual. A variação nos dados deve fornecer uma medida da incerteza
associada com o resultado.
9. MÉDIA PONDERADA
Às vezes as medições x1 , x2 , ...., xn , estão associadas com certos fatores de peso, como
p1 , p2 , ....,
pn, respectivamente, dependendo da importância associada a estes
números. Neste caso, define-se a média aritmética ponderada como:
xp =
x1 p1 + x2 p2 + ... + xn pn
p1 + p2 + ... + pn
A média ponderada é muito usada nas médias escolares, onde se pode atribuir importâncias
(pesos) diferentes ao exame final, trabalhos de casa, aulas práticas e provas mensais.
Em metrologia, a média ponderada mais comum usa as freqüências das medições como
seus respectivos pesos. Freqüência é o número de vezes que um dado é observado.
Freqüência relativa é a percentagem de vezes que um dado é observado.
Considere a Figura 6, de distribuição de freqüências com k classes. Sejam
x1 , x2 , ...., xk , os valores dos pontos médios de classe e sejam f1 , f 2 , ....,
respectivas freqüências, como mostra a Figura 6.
Estatística
f k , as
28
Ponto Médio
Freqüência
x1
x2
f1
f2
.
.
.
.
.
.
xk
fk
Figura 6 - Distribuição de freqüências com k classes.
x p = x1 f1 + x2 f 2 + ... + xk f k
k
xp =
∑fx
i =1
k
i i
∑f
i =1
i
Onde f i é a freqüência relativa da ocorrência da medição xi .
k
Nota: A expressão
∑f
i =1
i
será sempre igual a n (neste caso: 100).
Vejamos um exemplo. Considere os dados da tabela 6 (esta tabela é a mesma já estudada
anteriormente). E que desejássemos calcular a média, baseando-nos apenas nos dados desta
tabela.
Classe
no
1
2
3
4
5
6
7
8
Intervalo
de
Classe
4151,5 a
4156,5
4156,5 a
4161,5
4161,5 a
4166,5
4166,5 a
4171,5
4171,5 a
4176,5
4176,5 a
4181,5
4181,5 a
4186,5
4186,5 a
4191,5
Freqüências
(Marcas)
4153,5
||
002
0,002
8307,00
4158,5
||||| |||
008
0,008
33268,00
4163,5
||||| ||||| |||
013
0,013
54125,50
4168,5
||||| ||||| ||||| ||||| |||||
025
0,025
104212,50
4173,5
||||| ||||| ||||| ||||| |||||
|
026
0,026
108511,00
4178,5
||||| ||||| |||||
015
0,015
62677,50
4183,5
||||| |||
008
0,008
33468,00
4188,5
|||
003
0,003
12565,50
100
0,010
417135,00
4171,35
Total
Freqüência Freqüência
(f)
Relativa
Média
Tabela 6 - Tabela de Freqüência.
Estatística
(Ponto
Médio
Classe) x
(Freqüência)
Ponto
Médio
da Classe
29
Podemos observar que a soma da coluna Freqüência (f) é 100 (total de elementos que
compõem esta amostra). Para obtermos a média do diâmetro dos 100 eixos desta tabela,
multiplica-se o ponto médio de cada classe (2a coluna) pela respectiva freqüência, somamse os produtos e divide-se a soma por n (neste caso, k =8, pois são 8 classes de
freqüência). Então a média é:
k
xp
∑ f x ( f x + f x + ... + f x ) 2 * 4153,5 + 8 * 4158,5 + ... + 3 * 4188,5
=
=
=
f + f + ... + f
2 + 8 + ... + 3
∑f
i =1
k
i =1
i i
1 1
i
2 2
1
8 8
2
8
417135
= 4171,35
100
xp =
10.
MÉDIA DA RAIZ DA MÉDIA DOS QUADRADOS
Quando temos dados positivos e negativos e as suas influências se somam, não podemos
tirar a média aritmética, pois a soma algébrica dos dados cancelam seus valores. Então se
utiliza a fórmula:
x rms =
(x
2
1
+ x 22 + ... + x n2
)
Esta fórmula também é usada em metrologia, quando se quer combinar diversos erros, por
exemplo, numa malha de medição. Neste caso, x1 , x2 , ...., xn , seriam os erros de cada
componente da malha de medição e x rms seria o erro médio da malha.
Estatística
30
11.
MEDIA HARMÔNICA
A média harmônica é dada pela fórmula:
xh =
n
n
1
∑x
i =1
i
É usada quando se deseja calcular a média de grandezas inversas. Por exemplo: Suponha
que um tanque esteja alimentando três clientes, com vazões individuais de 100, 120 e 140
litros por minuto. Deseja-se saber qual é a vazão média. Aplicando a fórmula da média
harmônica, temos:
xh =
n
n
1
∑x
i =1
=
i
3
= 117,76
1
1 ⎞
⎛ 1
+
+
⎜
⎟
⎝ 100 120 140 ⎠
A vazão média é de 118 litros por minuto.
12.
MEDIANA
A Mediana é o valor central quando os dados estão ordenados por valor e a amostra possui
número ímpar de dados. Por exemplo:
4, 6, 8 12 e 18, a mediana é 8.
Se a amostra contém um número par de dados, a mediana é a média aritmética dos dois
valores que ficam na posição central dos dados ordenados. Por exemplo:
25, 30, 35, 40, 60, 80, 90 e 100.
Os dois valores que ficam na posição central são 40 e 60, logo a mediana será:
40 + 60
= 50
2
Veja que no gráfico da Figura 7 os dados estão representados ao longo do eixo e que a
posição da mediana (linha pontilhada) está assinalada (50) e divide a amostra em dois
conjuntos com igual número de dados (4 dados para cada lado).
Estatística
31
Figura 7 - Distribuição dos dados sobre o eixo e a respectiva mediana.
A mediana é usada para reduzir o efeito dos valores extremos ou para dados que possam
ser ordenados, mas que não sejam economicamente mensuráveis (tons de cor, aparência
visual, odores). Na curva percentil, é o valor da escala horizontal onde a curva alcança a
altura 50%.
13.
MODA
A Moda é o valor que ocorre com maior freqüência. Por exemplo: 12, 14, 15, 15, 15, 18,
29, 29, e 30. A moda é 15, pois este é o número que ocorre maior número de vezes.
Existem conjuntos de dados que não possuem moda, porque nenhum valor se repete maior
número de vezes e existem conjuntos de dados com mais de uma moda. Por exemplo: 7, 8,
9, 10, 11, 12 e 18 não tem moda e o conjunto de números 7, 8, 8, 9, 10, 11, 11, 12 e 18 tem
duas modas, a saber, 8 e 11.
A moda, diferentemente das outras medidas de tendência central, pode ser obtida mesmo
que a variável seja qualitativa. Veja os dados apresentados na tabela 7. O sangue tipo A
ocorreu com maior freqüência entre os doadores de sangue no mês de junho.
Tipo de Sangue
O
A
B
AB
Freqüência
680
735
246
97
Tabela 7 - Doadores de sangue, segundo o tipo de sangue.
A moda também é usada para distribuições extremamente assimétricas, situações
irregulares onde dois picos são encontrados, ou para eliminar os efeitos dos valores
extremos.
Estatística
32
14.
MEDIDAS DE DISPERSÃO
Os dados estão sempre dispersos ao redor da zona de tendência central, e a extensão dessa
dispersão é chamada dispersão ou variação. Uma medida de dispersão é a segunda das
duas medidas mais fundamentais em toda a análise estatística.
Dentre as medidas de dispersão, vamos estudar a amplitude, a variância, o desvio padrão e
o coeficiente de variação.
15.
AMPLITUDE
Dentre as várias medidas de dispersão, a mais simples é a Amplitude, que é a diferença
entre os valores máximo e mínimo dos dados. Por exemplo, calcular a amplitude entre os
dados:
5, 8, 12, 17 e 32 a amplitude é 32 – 5 = 27
Como a amplitude é baseada em dois números, é mais útil quando o número de
observações é pequeno (cerca de 10 ou menos).
Entretanto a amplitude nem sempre nos mostra certas diferenças contidas nos dados. Sua
deficiência reside no fato de que usa apenas os valores extremos – e não todos os dados.
Mesmo assim, ela é muito usada, principalmente pela facilidade com que é calculada e
interpretada.
Estatística
33
16.
VARIÂNCIA
Embora a amplitude seja uma medida de dispersão, como vimos anteriormente, ela não
leva em conta como os dados se distribuem ou se agrupam. Duas maneiras utilizadas para
medir a variação que realmente considera como os dados se distribuem em torno da média
são a variância e o desvio padrão.
Para um conjunto de dados composto de: x1 , x2 , ...., xn , a variância é calculada usando a
fórmula:
(x − x ) + (x
2
s2 =
1
∑ (x − x )
n
s2 =
2
i =1
)
2
(
− x + ... + xn − x
n −1
)
2
ou, simplificando
n
2
i
n −1
ou podemos usar também s 2 =
∑x
i =1
2
i
− n x2
n −1
Esta segunda fórmula facilita o cálculo, quando usamos calculadora simples.
Onde:
s 2 = variância
x = média aritmética
n = tamanho da amostra
xi = encimo valor da variável aleatória x
∑ (x
n
i =1
i
−x
)
2
= somatório de todas as diferenças ao quadrado entre os valores xi e
Aqui convém explicar o uso de n − 1 ao invés de n . Isto se deve a certas propriedades
matemáticas desejáveis possuídas pela estatística s 2 (variância), que a tornam apropriada
para inferência estatística. À medida que cresce o tamanho da amostra, n , a diferença na
divisão por n ou por n − 1 vai se tornando cada vez menor.
Estatística
34
Os estatísticos chamam a expressão n − 1 de “graus de liberdade”. Quando calculamos a
média, x , utilizamos todos os n dados que compunham a amostra. Dizemos então que no
cálculo da média temos n valores de xi
livres que devem ser considerados para
podermos calcular o valor desta estatística. Ou seja, se qualquer dos valores de xi livres da
amostra for desconhecido, não poderemos determinar o valor desta estatística, pois todos
os valores da amostra são livres, podendo variar aleatoriamente.
Por outro lado, a estatística da variância expressa pela equação acima, por usar a média, x ,
ao invés do parâmetro populacional µ, tem um grau de liberdade a menos. Isso ocorre
porque o cálculo dessa estatística pressupõe que anteriormente já se tenha usado todos os
valores da amostra no cálculo da média, x , os quais estariam sendo usados uma segunda
vez no cálculo da variância. Ou seja, ao usarmos o mesmo conjunto de dados para
determinar a média, x , e a variância que faz uso do valor da média, perdemos um grau de
liberdade para a determinação da média.
17.
DESVIO PADRÃO
O desvio-padrão, s, é a medida mais importante de variação. Ele determina a dispersão dos
valores em relação à média. O desvio-padrão da amostra é a raiz quadrada da variância, ou
seja:
s = s 2 ou substituindo s 2 , temos:
∑ (x + x )
n
s=
Estatística
i =1
2
i
n −1
35
Exemplo: Calcular o desvio padrão de: 10, 12, 9, e 14.
x1 + x2 + ... + xn
n
A média será: x =
x=
10 + 12 + 11 + 15
= 12
4
∑ (x
n
A variância será: s 2 =
s
2
i =1
i
−x
)
2
n −1
2
2
(
10 − 12) + (12 − 12 ) + (11 − 12) 2 + (15 − 12) 2
=
s2 =
4 −1
(−2) 2 + (0) 2 + (−1) 2 + (3) 2 14
=
= 4,666
3
3
O desvio padrão será: s = s 2
s = 4,666 = 2,160
Convém ressaltar que a variância e o desvio padrão nunca podem ser negativos. Entretanto
podem ser zero, o que ocorre quando todos os valores são exatamente iguais. Neste caso, a
amplitude também será zero.
A variância e o desvio padrão medem a “dispersão média” em torno da média aritmética –
ou seja, como os valores maiores e menores se distribuem acima e abaixo da média,
respectivamente.
Estatística
36
18.
COEFICIENTE DE VARIAÇÃO
O coeficiente de variação, cv( x) , é definido como o quociente entre o desvio padrão e a
média. Ele mede a dispersão em torno da média aritmética. Freqüentemente é expresso em
porcentagem. Sua fórmula é:
cv( x) =
s
100 %
x
Onde:
cv( x) = coeficiente de variação
s
= desvio padrão
x
= média aritmética
A vantagem do coeficiente de variação como uma medida relativa é devido ao fato de que
ele nos permite comparar a variabilidade de dois ou mais conjuntos de dados expressos em
diferentes unidades de medição. Ou então quando comparamos dois ou mais conjuntos de
dados nas mesmas unidades, porém com diferenças entre si de tal monta que não permita
comparação direta entre suas médias e seus desvios padrões. Por exemplo, imagine que em
dois grupos de pessoas tenham sido calculadas a idade média e o desvio padrão, conforme
abaixo:
Grupo 1: x1 = 20 e s1 = 4
Grupo 2: x2 = 50 e s2 = 4
Se ambos os grupos têm o mesmo desvio padrão, a priori, comparar a dispersão de suas
idades é um pouco difícil. Fazendo uso do coeficiente de variação, temos:
Grupo 1: cv1 = s1 / x1 * 100 = 4/20*100 = 20 %
Grupo 2: cv2 = s2 / x2 * 100 = 4/50*100 = 8 %
Estatística
37
Podemos agora concluir que, mesmo tendo desvio padrão igual, o grupo 1 apresenta uma
variação relativa muito maior (20 %) do que o grupo 2 (8 %).
Além disso, por ser adimensional, o coeficiente de variação permite que se comparem as
dispersões de variáveis cujas unidades sejam irredutíveis.
19.
FORMATO
A terceira propriedade importante em um conjunto de dados é o seu formato, ou seja: a
maneira como os dados estão distribuídos. Esta distribuição pode ser simétrica ou
assimétrica.
Para saber o formato de um conjunto de dados, basta comparar sua média com sua
mediana, ou seja:
20.
•
Se a média > mediana: assimetria à direita (ou positiva).
•
Se a média = mediana: assimetria em zero (ou simetria).
•
Se a média < mediana: assimetria à esquerda (ou negativa).
DISTRIBUIÇÃO DE PROBABILIDADES
Por causa de suas características, a distribuição da probabilidade está relacionada com as
distribuições de freqüência. Mas, na distribuição de freqüência, as freqüências são números
observados de eventos ocorridos e a na distribuição da probabilidade, a freqüência é
derivada da probabilidade de eventos que podem ocorrer.
Há diversas distribuições de probabilidades, entre elas:
a) distribuição binomial;
b) distribuição de Poisson;
c) distribuição normal
Estatística
38
d) distribuição uniforme (ou retangular)
e) distribuição triangular
f) distribuição t (Student)
As duas primeiras distribuições são distribuições de probabilidades discretas, ou seja, são
distribuições de probabilidade para uma variável discreta.
Variável discreta é aquela que pode assumir apenas valores isolados ao longo de uma
escala. Por exemplo: o número de altos fornos existentes na CST é uma variável discreta.
As outras distribuições são funções de densidade de probabilidades contínuas. Essas
distribuições encontram importantes aplicações na engenharia, nas ciências físicas, bem
como na área financeira e em ciências sociais.
20.1. INTRODUÇÃO AO CÁLCULO DE PROBABILIDADES
Os elementos básicos da teoria da probabilidade são os resultados do processo (ou
fenômeno) em estudo. Cada tipo possível de ocorrência é relacionado como um evento.
Probabilidade é, portanto, a possibilidade ou a chance de que um evento em particular
venha a ocorrer. Pode ser a chance de acertar uma das faces da moeda atirada ao ar, ou de
se encontrar uma carta num baralho ou mesmo de acertar na sena.
Em cada um desses eventos a probabilidade é a proporção ou a fração cujos valores variam
entre 0 e 1, inclusive. É bom frisar que um evento que não tem chance de ocorrer, o evento
nulo, tem uma probabilidade 0 e um evento que certamente irá acontecer, evento certo,
tem a probabilidade 1.
Examine as duas frases seguintes:
a) É provável que Pedro não venha à aula amanhã.
b) É provável que a Atlântica tenha existido.
Estatística
39
Em ambas as frases estão presentes as idéias de incerteza e grau de confiança que
depositamos naquilo que afirmamos. Embora a palavra provável também nos dê a idéia de
futuro, na segunda frase estamos afirmando algo que deve ter ocorrido no passado – se é
que ocorreu, pois neste caso a probabilidade não está ligada ao tempo, mas sim à eventual
veracidade da própria afirmação.
Em um dado experimento um evento deve ocorrer ou não ocorrer, como por exemplo, ao
jogar uma moeda ao ar, a probabilidade da ocorrência de “cara” mais a probabilidade da
não ocorrência de “cara” será sempre igual a 1. Então:
P(X) = P(X) + P (X’) = 1
Ou seja, o complemento de um evento X inclui todos os eventos que não fazem parte de X,
e é representado por X’.
Lançando-se uma moeda um número grande de vezes, deverá aparecer cara em metade dos
lançamentos e coroa no restante. A freqüência relativa de caras se aproxima de 0,5
conforme é aumentado o número de lançamentos da moeda. Portanto a freqüência relativa
de um ponto amostral pode ser tomada, aproximadamente, como a sua probabilidade.
Por definição, probabilidade é o número de resultados da divisão do número de casos
favoráveis a um evento pelo número total de casos possíveis.
Por exemplo: ao jogar a moeda uma única vez, a probabilidade de sair cara é de 0,5 (50%
de chance de acertar). Logo a fórmula é:
(número de vezes que o evento
CARA pode sair numa jogada)
(Probabilidade de sair cara) = ---------------------------------------------(Número total de casos possíveis)
Uma moeda “honesta” só tem uma cara e uma coroa, logo, o número total de eventos
possíveis são 2 (1 cara + l coroa). Então,
Probabilidade de CARA =
Estatística
1
= 0,5
2
40
O símbolo P é usado para designar a probabilidade de um evento. Então P(X) denota a
probabilidade de o evento X ocorrer em uma só observação ou experimento.
A fórmula resumida para a probabilidade é:
P(X) =
f
p
Onde:
P(X) = probabilidade de ocorrer o evento X
f
= número de eventos favoráveis à ocorrência de X
p
= número de casos possíveis
No exemplo anterior, diríamos:
P( X ) =
f 1
= = 0,5
p 2
Observe que a probabilidade é sempre expressa por um número adimensional, isto é, sem
unidade de medida.
Veja este exemplo: Qual a probabilidade de sair a face 3 ao lançar um dado uma vez?
Casos possíveis: Face 1, Face 2, Face 3, Face 4, Face 5, Face 6. Ou seja, temos 6 casos
possíveis. Casos favoráveis: somente uma face 3. Logo, usando a fórmula.
P(de sair Face 3) =
Face 3
Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6
=
Estatística
1
= 0,1666...
6
41
20.2. REGRA DA ADIÇÃO
Outro exemplo: Qual a probabilidade de sair face impar numa única jogada? Temos como
número de casos favoráveis três eventos: Face 1 ou Face 3 ou Face 5. E como número total
de casos possíveis 6 eventos: Face 1, Face 2, Face 3, Face 4, Face 5, Face 6. Aplicando a
fórmula, temos:
P(de sair Face 1 ou Face 3 ou Face 5) =
=
Face 1 + Face 3 + Face 5
Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6
3 Faces 3 1
= = = 0,5
6 Faces 6 2
Observando este exemplo, conclui-se que em probabilidade a palavra “ou” significação
adição.
Por definição, f ≤ p, sendo que f pode ser zero. Veja o seguinte exemplo: Numa única
jogada, qual a possibilidade de sair a face 7. Observe que o dado não possui a face 7. Logo,
P(7) =
P(7) =
Zero casos favoráveis
6 casos possíveis
0
= 0 e dizemos que esta é a menor probabilidade que existe.
6
Em um dado experimento um evento deve ocorrer ou não ocorrer, como por exemplo, ao
jogar uma moeda ao ar, a probabilidade da ocorrência de “cara” mais a probabilidade da
não ocorrência de “cara” será sempre igual a 1. Então:
P(X) = P(X) + P (X’) = 1
Ou seja, o complemento de um evento X inclui todos os eventos que não fazem parte de A,
e é representado por X’.
Lançando-se uma moeda um número grande de vezes, deverá aparecer cara em metade dos
lançamentos e coroa no restante. A freqüência relativa de caras se aproxima de 0,5
conforme é aumentado o número de lançamentos da moeda. Portanto a freqüência relativa
de um ponto amostral pode ser tomada, aproximadamente, como a sua probabilidade.
Estatística
42
Se dois eventos, de um mesmo espaço amostral, não têm pontos em comum, a
probabilidade de ocorrer um ou o outro é a soma de suas probabilidades. Se a
probabilidade do primeiro não depende da probabilidade do segundo e vice-versa, a
probabilidade desses dois eventos ocorrerem simultaneamente é o produto de suas
probabilidades individuais.
P (2 ou 5) =
1 1 2 1
+ = = = 0,333
6 6 6 3
20.3. REGRA DO PRODUTO
Uma moeda será jogada duas vezes. Qual a probabilidade de ocorrer cara nas duas
jogadas? A probabilidade de ocorrer cara na primeira jogada é:
P(ACARA) =
1
= 0,5
2
A probabilidade de ocorrer cara na segunda jogada é
P(BCARA) =
1
= 0,5
2
Porque o fato de ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer
cara na segunda jogada (eventos independentes). Para obter a probabilidade de ocorrer cara
nas duas jogadas (primeira e segunda), faz-se o produto:
1 1 1
{P(ACARA) e P(BCARA) }= 2 * 2 = 4 = 0,25
Suponha que numa urna tenha 3 bolas: duas brancas e uma vermelha. Retirando-se ao
acaso, uma bola e em seguida a outra (sem que a primeira tenha sido recolocada na urna),
qual é a probabilidade de que as duas bolas sejam brancas:
A probabilidade de a primeira bola ser branca é:
2
P(branca) = 3 = 0,6666...
Estatística
43
A probabilidade de a segunda bola ser branca depende do que ocorreu na primeira retirada.
Se sair bola branca, a probabilidade de a segunda também ser branca é:
P(branca) =
1
= 0,5
2
Para obter a probabilidade de as duas bolas retiradas serem brancas, faz-se o produto
P(A e B) = P(A) * P(B)
2 1 2 1
=
= 3 * 2 = 6 3 = 0,3333...
Se A e B são independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de
ocorrer A, multiplicada pela probabilidade condicional de ocorrer B, dado que A ocorreu.
A fórmula é expressa assim:
P(A e B) = P(A) * P(B A)
Nota: P(B A) → Lê-se: probabilidade de ocorrer B, dado que A já ocorreu (probabilidade
de sair bola branca já que bola branca já saiu).
21.
DISTRIBUIÇÃO BINOMIAL
É extremamente útil para descrever muitos fenômenos. A distribuição binomial se aplica,
principalmente, à contagem de eventos, onde as duas saídas possíveis podem ser sucesso
ou falha, peça normal ou defeituosa. A formula é:
P ( x) =
Estatística
n!
p x (1 − p) n − x
x!(n − x)!
44
Onde:
P(x) = probabilidade de x sucessos
N = número de sucessos na amostra (x = 0, 1, 2, 3, ..., n)
n! = fatorial de n (ou seja: se n = 5, n! = 5*4 *3*2*1 = 120
p = probabilidade de sucesso
1-p = probabilidade de fracasso
Observe que a variável aleatória x pode ser qualquer valor inteiro de 0 até n e que na
fórmula acima o produto do termo p x (1 − p) n − x nos informa a probabilidade de obtermos
exatamente x sucessos entre n observações numa determinada seqüência.
Por outro lado, o termo
n!
nos mostra quantas combinações de x sucessos entre n
x!(n − x)!
observações são possíveis. Por isso, toda vez que um conjunto de parâmetros – n e p – é
especificado, uma distribuição binomial pode ser gerada.
Vejamos um exemplo. Jogando um dado três vezes, qual a probabilidade de se obterem
exatamente duas faces 3? Os valores deste problema são: n = 3; x = 2. Vamos
primeiramente calcular p. Como o dado tem 6 faces, temos 6 casos possíveis: Face 1, Face
2, Face 3, Face 4, Face 5 e Face 6. Casos favoráveis: somente uma face 3. Logo, usando a
fórmula:
P(de sair Face 3) =
Estatística
Face 3
1
=
Face 1 + Face 2 + Face 3 + Face 4 + Face 5 + Face 6 6
45
Logo, p = 1/6. Aplicando a fórmula, temos:
P ( x) =
n!
p x (1 − p) n − x
x!(n − x)!
2
3!
⎛1⎞ ⎛ 1⎞
⎜ ⎟ ⎜1 − ⎟
2
!
(
3
2
)!
−
⎝6⎠ ⎝ 6⎠
P(x = 2) =
3− 2
1
=
3 * 2 *1 ⎛ 1 ⎞⎛ 1 ⎞⎛ 5 ⎞
⎜ ⎟⎜ ⎟⎜ ⎟
2 *1(1) ⎝ 6 ⎠⎝ 6 ⎠⎝ 6 ⎠
=
6 5
5
* = 3*
= 0,0694
2 6
216
Ou seja, a probabilidade é de 6,94% de chance de em 3 lances, obter duas faces 3. Para
evitar enfadonhos cálculos, principalmente para n grande, pode-se usar tabelas disponíveis
na literatura técnica, onde se determina P(x) a partir de n e x.
22.
DISTRIBUIÇÃO DE POISSON
Esta distribuição é um caso limite da distribuição binomial, que dá o número de
ocorrências de um evento num intervalo de tempo. Ela se aplica quando se tem um numero
muito grande de eventos e quando a probabilidade de sucesso de cada tentativa e muito
pequena e por isso e também chamada de distribuição de eventos raros. Na pratica a
distribuição de Poisson se aplica à análise de controle da qualidade para estabelecer o
número de itens defeituosos ou o número de paradas da máquina, em um dado intervalo de
tempo.
Tendo x como variável aleatória representando o número de eventos raros, então a
probabilidade destes x eventos ocorrerem em algum intervalo de tempo especificado (ou
espaço) é dado pela fórmula:
(e − μ ) μ x
P( x) =
x!
Estatística
46
Onde:
P(x) = probabilidade de x sucessos, dado o conhecimento de µ
e = 2,7182818284590... (número de Euler)
µ = número esperado de sucessos
x = número de sucessos
Veja o exemplo a seguir: Qual é a probabilidade de que, num determinado minuto,
exatamente dois clientes irão chegar na agência bancária, sabendo que: no horário de
almoço, de 12 às 13 horas, chegam em média 180 clientes?
Solução: A média de clientes por minuto é µ = 3 e x = 2.
Aplicando a fórmula P ( x) =
(e − μ ) μ x
, temos,
x!
e −3 * 32
9
=
= 0,2240
P(x = 2) =
2!
(2,71828)3 * 2
Neste mesmo problema, qual seria a chance de que mais de dois clientes irão chegar em
um dado minuto?
Solução:
P(x > 2) = P(x = 3) + P(x = 4) + ... + P(x = ∞)
Como porém a soma de todas as probabilidades em uma distribuição é sempre 1, os termos
no lado direito da equação P(x > 2), também representam o complemento da probabilidade
de que x sejam menor ou igual a 2, ou seja: 1 - P(x ≤ 2). Portanto,
P(x > 2) = 1 - P(x ≤ 2) = 1 - [P(x = 0) + P(x = 1) + P(x = 2)]
E utilizando a equação P ( x) =
(e − μ ) μ x
, temos
x!
⎡ e −3 * (3)0 e −3 * (3)1 e −3 * (3) 2
P(x > 2) = 1 − ⎢
+
+
0
!
1
!
2!
⎣
= 1 - [0,0498 + 0,1494 + 0,2240]
= 1 - 0,4232 = 0,5768
Estatística
⎤
+⎥
⎦
47
Deste modo, vemos que existe uma chance de aproximadamente 42,3 % de que dois ou
menos clientes irão chegar ao banco a cada minuto e que existe uma chance de 57,7 % de
que três ou mais clientes irão chegar.
23.
DISTRIBUIÇÃO NORMAL
A distribuição normal é uma distribuição contínua de probabilidade, fundamental para a
inferência estatística e análise de dados. Os modelos contínuos são importantes nas
aplicações de engenharia, ciências físicas, ciências sociais e em finanças.
Uma forma abreviada de indicar que a variável x se distribui normalmente (ou tem
distribuição normal) é escrever:
x → N ( μ ;σ 2 )
Onde µ e σ2 são os parâmetros fundamentais da distribuição normal.
23.1. PROPRIEDADES DA DISTRIBUIÇÃO NORMAL
Esta distribuição é muito importante na estatística pois:
a) Muitos fenômenos físicos e muitos conjuntos de dados seguem uma distribuição
normal;
b) A distribuição normal possui propriedades matemáticas precisas e idênticas para todas
as distribuições normais;
c) É possível provar que várias estatísticas de amostras, principalmente a média, seguem a
distribuição normal, mesmo que a população de onde foram retiradas as amostras não seja
normal;
d) Podemos utilizá-la para aproximar várias distribuições de probabilidade discreta.
e) Ela oferece bases para a inferência estatística devido à sua afinidade com o teorema do
limite central.
Estatística
48
23.2. CARACTERÍSTICAS
A curva de distribuição deve ter as seguintes características:
a) simétrica em relação à média, indicando que os erros negativos de determinado valor
são igualmente freqüentes quanto os positivos;
b) O formato de uma curva de distribuição de probabilidade normal é simétrico e se parece
com um sino (figura 8);
Figura 8 - Formato da Curva Normal.
c) O ponto máximo de f(x) é o ponto µ;
d) Os pontos de inflexão da função são: x = µ + σ e x = µ - σ;
e) Os parâmetros são indicadores populacionais: média aritmética (µ) e variância (σ2);
f) Existem infinitas curvas, basta que seja diferente um dos parâmetros: µ ou σ2. Veja a
figura 9;
Figura 9 - Três distribuições normais com parâmetros diferentes µ e σ .
Estatística
49
g) A curva é assintótica em relação ao eixo horizontal, isto é, suas caudas aproximam-se
dele, mas não o tocam jamais;
h) A área total sob a curva vale 1, porque essa área corresponde à probabilidade de a
variável aleatória assumir qualquer valor real.
23.3. MODELO MATEMÁTICO
A expressão matemática que representa a função densidade da probabilidade é
representada pelo símbolo f(x). Para a distribuição normal, o modelo empregado para obter
as probabilidades é:
F ( x) =
⎡ 1 ⎛ x − μ ⎞2 ⎤
1
exp ⎢− ⎜
⎟ ⎥
σ 2π
⎢⎣ 2 ⎝ σ ⎠ ⎥⎦
onde:
exp = 2,7182818284590... (número de Euler)
π
= constante matemática aproximada por 3,14159
µ
= média aritmética da população
σ = desvio padrão da população
x = qualquer valor da variável aleatória contínua, onde - ∞ < x < + ∞
Avaliando os componentes da fórmula padrão para a função de densidade da probabilidade
normal, podemos observar que e e π são constantes matemáticas. Logo as probabilidades
da variável aleatória x são dependentes somente dos dois parâmetros da distribuição
normal – a média aritmética da população (µ) e o desvio padrão da população (σ). Isto
significa que para cada par de valores de µ e σ, teremos uma distribuição de probabilidade
diferente.
Estatística
50
23.4. DISTRIBUIÇÃO NORMAL PADRÃO
Para evitar os cálculos exaustivos quando se usa a fórmula acima, foi estabelecida uma
padronização de dados, de modo que com a utilização de apenas uma tabela – Veja Anexo
A, seja possível calcular os parâmetros desejados.
Observe a figura 10(a). Imagine uma variável x que tenha distribuição normal com media
aritmética µ e desvio padrão σ, pois se trata de uma população (e não de uma amostra), e o
eixo vertical (das freqüências), for deslocado até o ponto µ, onde se localiza a média
aritmética da população. Esta operação pode ser chamada de “mudança de origem”, em
que o zero “mudou de lugar”. A nova curva ficou como mostrada na figura 10(b).
A fórmula de conversão passa a ser a seguinte:
Z=
x−μ
σ
Onde:
Z = variável normal padronizada
µ = média aritmética da população
σ = desvio padrão da população
x = qualquer valor da variável aleatória contínua, onde - ∞ < x < + ∞
Freqüência
Z
(a)
(b)
Figura 10 - Conversão de X em Z .
Estatística
51
Assim, usando a fórmula de conversão, qualquer variável aleatória normal x pode ser
convertida para uma variável normal padronizada Z . Vejamos um exemplo:
O Supervisor de Inspeção de uma fábrica de tubos está interessado em conhecer melhor o
tempo que os inspetores levam para a calibração de um medidor de pressão. Após realizar
a pesquisa, ele verificou que o tempo, em minutos, para calibrar o medidor é distribuído de
maneira normal com média aritmética (µ) de 30 minutos e desvio padrão (σ) de 5 minutos.
A figura 11 mostra as curvas normais de x e de Z, juntas.
Figura 11 - Transformação da Escala X em Z .
A figura 11 nos mostra que é possível obter uma medida padronizada Z para qualquer
medida x, usando a formula de conversão acima. Esta nova curva é chamada de
distribuição normal reduzida ou ainda distribuição normal padronizada. Observe que nesta
nova curva, os parâmetros mudaram:
µ=0
σ=1
Estas operações e esses dados são muito importantes pelo seguinte:
Estatística
52
As infinitas distribuições normais reduzem-se a apenas uma: x → N(µ;σ2),
ou x → N(0; 1), onde:
2
µ = 0 e σ2= σ = 1 = 1
A variável Z não tem unidade de medida, ou seja, é um número puro. Esta notação
abreviada, x →N(0;1), é muito prática e significa que a variável x se distribui normalmente
(ou tem distribuição normal) e 0 é a média aritmética da população e 1 é a unidade de
medida, ou seja, o desvio padrão.
Veja este exemplo. Suponha que um inspetor tenha feita uma calibração em 45 minutos.
Pela figura 12 podemos concluir que este tempo está a uma unidade padronizada (ou seja, a
um desvio padrão, 1σ) acima da média aritmética. Veja os cálculos utilizando a fórmula de
conversão:
Z=
x−μ
σ
substituindo, temos:
Z=
45 − 40
=1
5
Figura 12 - A área hachurada corresponde a 1 desvio padrão (1 σ).
e no caso de um inspetor que faça a mesma tarefa em 25 minutos, dizemos que este tempo
está a 3 unidades padronizadas (ou seja, 3 desvios padrões, 3σ) abaixo da média, pois:
Z=
Estatística
25 − 40
= −3
5
53
Vemos assim que o desvio padrão se tornou uma unidade de medida. Ou seja: 45 minutos é
5 minutos mais demorado (ou seja, 1 desvio padrão) do que o tempo médio de 40 minutos,
assim como o tempo de 25 minutos é 15 minutos (3 desvios padrões) mais rápido do que a
média observada.
A figura 13 nos permite ainda observar mais uma característica da curva normal. Por ser
simétrica, a área total abaixo da curva vale 1, ou seja 100%, entre os limites - ∞ < x < + ∞
pois todos os resultados caem dentro dela. Os traços verticais perpendiculares ao eixo de x
estão graduados em µ-3σ, µ-2σ, µ-1σ, µ, µ+1σ, µ+2σ e µ+3σ. Além disso, a área coberta
por µ±1σ, µ±2σ, µ±3σ vale, respectivamente, 68,26 %, 95,44 % e 99,74% independente de
sua largura.
Figura 13 - Graduação do eixo X. A área hachurada vale 68,26 % (µ±1σ).
Estatística
54
23.5. APLICAÇÕES
Vamos agora aprender a usar a tabela de probabilidades (Anexo A). Esta tabela nos
permite resolver diversos problemas que envolvem uma variável x normalmente
distribuída. Suponha x com os seguintes parâmetros: N(45; 4). Qual será o valor de Z para
x = 49,5? Aplicando a fórmula de conversão, temos:
Z=
x−μ
σ
=
e, substituindo:
49,5 − 45
= 2,25
2
Isto significa que Z está 2,25 desvios padrões à direita da média µ. Agora vamos localizar
este valor na tabela do Anexo A. Para consultar este valor é preciso decompor Z em duas
parcelas, a saber:
a) Primeira parcela: parte inteira + a 1ª casa decimal = 2,2
b) Segunda parcela: 0,0 + 2ª casa decimal = 0,05
Em seguida, localiza-se a primeira parcela (2,2) na margem esquerda da tabela (na vertical)
e a segunda parcela (0,05) na margem superior (na horizontal). Ler o valor da célula
correspondente ao cruzamento destes valores (0,4878), o qual é a probabilidade
correspondente à área da curva entre Zero e o Z calculado. A figura 14 mostra a curva
desta probabilidade.
Estatística
55
Figura 14 - Probabilidade calculada para x= 49,5 e N(45/4).
No exemplo anterior, onde a média aritmética da população µ = 40, e o desvio padrão da
população σ = 5, e usando a notação N(0;1), temos: N(40;25), x = 45. O Z correspondente
foi calculado como sendo 1. A figura 15 ilustra este exemplo.
x→N(40;25)
x = 45
Z=1
Figura 15 - A área hachurada mostra a probabilidade para x→N(40;25); x = 45; Z =1.
Estatística
56
23.6. DISTRIBUIÇÃO DE AMOSTRAGEM DA MÉDIA ARITMÉTICA
A média aritmética é a medida de tendência central mais utilizada. Ela também é a melhor
medida quando se supõe que a população está normalmente distribuída. Do ponto de vista
de uma distribuição normal, podemos dizer que a média aritmética possui três propriedades
importantes:
a) ausência de viés
b) eficiência
c) consistência.
Com respeito à primeira propriedade, podemos dizer que a média das médias aritméticas
de todas as amostras possíveis (de um dado tamanho de amostra n) será igual à média
aritmética da população µ.
Suponha que você tenha uma população Beta composta de (N = 5) valores: 1, 2, 3, 4 e 5.
Vamos retirar amostras de tamanho n = 2, com reposição e calcular a média obtida.
Construindo a tabela 8 com a média, temos:
SORTEIO NO
1
1
2
3
4
5
1
1
1,5
2
2,5
3
2
1,5
2
2,5
3
3,5
SORTEIO NO 2
3
2
2,5
3
3,5
4
4
2,5
3
3,5
4
4,5
5
3
3,5
4
4,5
5
Tabela 8 - Média aritmética das amostras.
Esta tabela mostra que a média é uma variável, pois também assumiu valores de 1 a 5.
Além disso, existem grupos de dados em que a média ( x ) é constante, por exemplo: 1 e 4,
2 e 3, 3 e 2 e 4 e 1, cuja média é 2,5. Entretanto, verificamos que da população Beta com 5
elementos, tiramos 25 amostras de tamanho n = 2.
Podemos calcular a média aritmética da população e a média das médias aritméticas ( x ) e
comparar os resultados.
Estatística
57
a) Cálculo da média aritmética da população
N =5; x = 1, 2, 3, 4, 5
N
μ=
∑x
i =1
i
N
=
1 + 2 + 3 + 4 + 5 15
=
=3
5
5
b) Calculo da média das médias aritméticas (amostrais)
Amostra A
n =2 (tamanho = 2)
x =1; 1,5;2;2,5;...; 5
Veja os dados na tabela 9.
xi
ni
xi * ni
1
1,5
2
2,5
3
3,5
4
4,5
5
Soma
1
2
3
4
5
4
3
2
1
25
1
3
6
10
15
14
12
9
5
75
Tabela 9 - Calculando a média das medias aritméticas.
x=
∑xn
∑n
i i
i
=
75
=3
25
c) Comparação entre as médias da população e média das médias amostrais
Comparando, temos x = μ.
Estatística
58
23.7. ERRO PADRÃO DA MÉDIA ARITMÉTICA
As flutuações das médias aritméticas são pequenas quando comparadas com as flutuações
dos elementos contidos na população.
Isto decorre diretamente da lei dos grandes
números. A média aritmética de uma determinada amostra comprova a média de todos os
valores da amostra. Mesmo em populações com grandes variações nos seus elementos,
quando estes são usados no cálculo da média, seus impactos tendem a ser reduzidos, pois
no cálculo são levados em conta todos os valores contidos na amostra.
Quanto maior o número de elementos na amostragem, menor será o efeito dos extremos,
tanto acima quanto abaixo da média. Esta característica é expressa estatisticamente no
valor do desvio padrão da média aritmética da amostra. Esta é a medida de variabilidade da
média aritmética de amostra para amostra e é chamada de erro padrão da média
aritmética, σ x . Considerando a amostragem com reposição, o erro padrão da média é
definido como sendo o desvio padrão da população σ dividido pela raiz quadrada do
tamanho da amostra n.
σx =
σ
n
Logo, à medida que cresce o número de elementos (n) na amostra, o erro padrão da média
vai decrescendo a um fator igual à raiz quadrada do tamanho da amostra.
Quando não conhecemos a variância (ou o desvio padrão) da população, usamos a fórmula:
sx =
onde sx = desvio padrão amostral.
Neste caso, n ≥ 30.
Estatística
sx
n
59
23.8. TEOREMA DO LIMITE CENTRAL
O teorema do Limite Central é muito importante, tanto na estatística como na
Comprovação Metrológica. Seu postulado é o seguinte: à medida que n cresce, as médias
amostrais vão progressivamente tendendo a uma distribuição limite – que é a distribuição
normal, independentemente do formato da distribuição dos valores individuais na
população.
Neste caso, n significa número de observações em cada amostra. Qual deve ser o tamanho
da amostra? Como regra geral, se o tamanho da amostra for pelo menos igual a 30, a
distribuição de amostras da média aritmética será muito próxima da normal. Mas se temos
alguma informação sobre a população podemos aplicar o teorema do limite central para
tamanhos de população ainda menores. Se a distribuição da população for relativamente
simétrica, recomenda-se pelo menos 15 elementos, mas se a população for normal, a
distribuição de amostragem da média será normal, independentemente do tamanho da
amostra.
Do Teorema do Limite Central segue-se que a distribuição de probabilidade da média
aritmética q de n observações qk de uma variável aleatória q, com expectativa μ
q
e desvio
padrão finito σ se aproxima de uma distribuição normal com média μ q e desvio padrão
σ / n quando n → ∞, qualquer que possa ser a distribuição de probabilidade de q.
Estatística
60
24.
DISTRIBUIÇÃO UNIFORME (OU RETANGULAR)
Numa distribuição de probabilidade retangular a probabilidade de que um valor de t esteja
dentro do intervalo [a - , a + ] é igual a 1, para todos os pontos, e a probabilidade de que t
esteja fora deste intervalo é essencialmente zero. A figura 16 mostra a curva da função
densidade de probabilidade retangular.
Figura 16 - Distribuição retangular.
Como a área total do retângulo vale 1 (100%), temos que:
Área = (a + a) * h = 1
h=
1
2a
e para a variância:
σ 2 (t ) =
a2
3
e calculando o desvio padrão:
a2
a
σ (t ) =
=
3
3
Estatística
61
Por exemplo, as especificações do fabricante para um voltímetro digital estabelecem que a
resolução do mesmo na faixa de 10 V é 0,000 1 V = 100 μV. Se o instrumento for usado
para medir uma diferença de potencial V, e que a média aritmética de um número de
observações repetidas independentes de V é encontrada como sendo V = 9,928 571 V.
Pode-se calcular a probabilidade de que o valor da diferença de potencial seja tal que a - ≤
V ≤ a +, supondo que a resolução declarada fornece fronteiras simétricas para uma
correção aditiva a V , ∆ V , de esperança igual a zero e com igual probabilidade de estar em
qualquer parte dentro das fronteiras [a - , a +]. A meia-largura “a”, mostrada na figura 16,
da distribuição retangular simétrica de valores possíveis de ∆ V é, então,
a = 100/2 μV
a = 50 μV
cuja variância σ 2 (t ) =
a2
é
3
a 2 (50) 2
=
= 833,3 μV
σ²( ∆ V ) =
3
3
σ²( ∆ V ) = 833,3 μV
a2
a
e o desvio padrão σ (t ) =
=
é
3
3
σ( ∆ V ) =
50
a2
a
=
=
= 28,86 ≅ 28,9 μV
3
3
3
σ( ∆ V ) = 28,9 μV
Outro exemplo, as especificações do fabricante para um voltímetro digital estabelecem que
entre um e dois anos depois que o instrumento é calibrado, sua exatidão na faixa de 1 V é
14 x 10-6 vezes a leitura mais 2 x 10-6 vezes a faixa. Considere que o instrumento é usado
20 meses após a calibração para medir em sua faixa de 1 V uma diferença de potencial V, e
que a média aritmética de um número de observações repetidas independentes de V é
encontrada como sendo V = 0,928 571 V.
Estatística
62
Baseando-se na especificação do fabricante, pode-se calcular a probabilidade de que o
valor da diferença de potencial seja tal que a - ≤ V ≤ a +, supondo que a exatidão declarada
fornece fronteiras simétricas para uma correção aditiva a V , ∆ V , de esperança igual a zero
e com igual probabilidade de estar em qualquer parte dentro das fronteiras [a - , a +]. A
meia-largura “a”, mostrada na figura 17, da distribuição retangular simétrica de valores
possíveis de ∆ V é, então,
a = (14 x 10-6) X (0,928 571 V) + (2 x 10-6) X (1 V) = 15 μV,
a = 15 μV
cuja variância σ 2 (t ) =
a2
é
3
σ²( ∆ V ) =
a 2 (15) 2
=
= 75 μV
3
3
σ²( ∆ V ) = 75 μV
e o desvio padrão σ (t ) =
a2
a
=
é
3
3
σ( ∆ V ) =
a2
a
15
=
=
= 8,66 ≅ 8,7 μV
3
3
3
σ( ∆ V ) = 8,7 μV
25.
DISTRIBUIÇÃO TRIANGULAR
Acabamos de ver que no caso da distribuição retangular, por não haver conhecimento
específico sobre os possíveis valores de xi dentro de seus limites estimados [a - , a
+
] foi
considerado que somente se poderia supor que seria igualmente provável, para xi, tomar
qualquer valor entre esses limites, com probabilidade zero de estar fora deles. Em muitos
casos, é mais realista esperar que valores perto dos limites sejam menos prováveis do que
os que estejam perto do ponto médio. É, então razoável substituir a distribuição retangular
simétrica, por uma distribuição trapezoidal simétrica, tendo lados inclinados iguais (um
trapezóide isósceles), uma base de largura a + - a - = 2a e um topo de largura 2aβ,
Onde 0 ≤ β ≤ 1.
Estatística
63
Na medida em que β → 1, esta distribuição trapezoidal se aproxima da distribuição
retangular, vista anteriormente, enquanto que, para β = 0, torna-se uma distribuição
triangular.
Numa distribuição de probabilidade triangular a probabilidade de que um valor de t esteja
dentro do intervalo [a - , a + ] é igual a 1, para todos os pontos, e a probabilidade de que t
esteja fora deste intervalo é essencialmente zero. A figura 17 mostra a curva da função
densidade de probabilidade triangular.
Figura 17 - Distribuição triangular
Como a área total do triângulo vale 1 (100%), temos que:
Área =
b * h (a + a ) * h
=
=1
2
2
h=
2 1
=
2a a
a2
e para a variância: σ (t ) =
6
2
Estatística
64
e calculando o desvio padrão: σ (t ) =
a2
a
=
6
6
Por exemplo, suponha que se disponha poucas informações sobre uma medição, a não ser
estas: Resultado das n = 20 medições, média aritmética μ t = 200 psi e que t é descrito
como uma distribuição triangular de limite inferior, a
superior a
+
+
-
= 194 psi, e de mesmo limite
-
= 206 psi. Logo, a meia-largura a = [a - a ]/2 = (206-194)/2 = 12/2 = 6 psi.
A função densidade de probabilidade de t é, então:
p(t) = (t - a - )/a2,
para a - ≤ t ≤ (a + + a - )/2
p(t) = (a + - t )/a2,
para (a + + a - )/2 ≤ t ≤ a +
p(t) = 0
para outros valores de t
Logo,
p(t) = (t - a - )/a2 = (200-194)/36 = 0,1666...
p(t) = 0,1666...
A figura 18 Ilustra graficamente a probabilidade triangular para o exemplo dado. A
esperança de t = [a + + a - ]/2 = (206 +194)/2 = 200 Co.
Figura 18 - Ilustração gráfica da probabilidade triangular para o exemplo dado.
Estatística
65
26.
DISTRIBUIÇÃO T (STUDENT)
Pelo que vimos até agora, se n ≥ 30, podemos usar a distribuição normal na estimação da
média da população mesmo não conhecendo bem a população. Para n < 30 somente se a
população for normalmente distribuída e se σ for conhecido. A distribuição t de Student é
utilizada quando a variável x é normalmente distribuída mas o σ não for conhecido.
Se uma população é normalmente distribuída, a distribuição de amostragem da média, para
qualquer tamanho de amostra, será também normalmente distribuída. Isto é verdade, quer σ
seja conhecido, quer não. Contudo, no processo de inferência, cada valor da média é
convertido para um valor normal padronizado.
A fórmula é:
t=
x−μ
sx
n
Onde,
x = média aritmética de uma amostra (pequena, n < 30)
μ = média aritmética (presumida) da população
À medida que aumenta o tamanho da amostra (n), a distribuição t aproxima-se da forma da
distribuição normal, ou seja, a distribuição t pode ser aproximada pela distribuição normal
quando n ≥ 30, para uma única amostra. Isso acontece porque, à medida que o tamanho da
amostra fica maior, sx se torna uma melhor estimativa de σ.
Os valores de t para os graus apropriados de liberdade podem ser obtidos a partir da
Tabela 10 – Tabela t (resumida) da distribuição t. A parte superior de cada coluna da
tabela t indica a área na cauda direita da distribuição t (como são fornecidas entradas
positivas para t, os valores referem-se à cauda superior) cada linha representa o valor t
específico para cada grau de liberdade determinado. Exemplo: com 40 graus de liberdade e
95% de confiança, a cauda seria 1-α/2, ou seja, para 95% de confiança significa que
sobrariam 5 % para as duas caudas, ou 2,5 % para cada cauda.
Estatística
66
Como normalmente estes valores vem dividido por 100, temos 2,5/100 = 0,025. No
cruzamento da linha de 40 graus de liberdade com a coluna 0,025 encontramos o valor de t
= 2,0211.
Uma vez que t é uma distribuição simétrica, com uma média aritmética 0, se o valor da
cauda superior é + 2,0211, o valor da cauda inferior será -2,0211. Um valor de t = 2,0211
significa que a probabilidade de t exceder a + 2,0211 é igual a 0,025 ou 2,5%, conforme
ilustrado na figura 20.
Aparentemente, a distribuição t é muito parecida com a distribuição normal. Ambas têm
curvas em formato de sino e são simétricas. A distribuição t tem maior área nas caudas e
menor área do centro do que a distribuição normal. Isto se deve pelo fato de que σ é
desconhecido e utiliza-se s para fazer sua estimativa. Como não estamos certos quanto ao
valor de σ, os valores de t serão mais variáveis do que aqueles referentes a Z .
Notas:
a) O uso da estatística t pressupõe que a variável tenha na população de onde foi retirada
uma distribuição normal.
b) À medida que n cresce, t tende a Z , principalmente quando n > 30
c) Não existe uma única distribuição t, mas uma família, ou seja, para cada n existe uma
distribuição e uma curva específica.
Figura 19 - Distribuição t para 40 graus de liberdade.
Estatística
67
27.
GRAUS DE LIBERDADE
Os estatísticos chamam a expressão n − 1 de “graus de liberdade”. Quando calculamos a
média, x , utilizamos todos os n dados que compõem a amostra. Dizemos então que no
cálculo da média temos n valores de xi livres que devem ser considerados para podermos
calcular o valor desta estatística. Ou seja, se qualquer dos valores de xi livres da amostra
for desconhecido, não poderemos determinar o valor desta estatística, pois todos os valores
da amostra são livres, podendo variar aleatoriamente. Por outro lado, a estatística da
variância por usar a média, x , ao invés do parâmetro populacional µ, tem um grau de
liberdade a menos. Isso ocorre porque o cálculo dessa estatística pressupõe que
anteriormente já se tenha usado todos os valores da amostra no cálculo da média, x , os
quais estariam sendo usados uma segunda vez no cálculo da variância. Ou seja, ao usarmos
o mesmo conjunto de dados para determinar a média, x , e a variância que faz uso do valor
da média, perdemos um grau de liberdade para a determinação da média.
28.
INTERVALO DE CONFIANÇA
Na verdade, nunca conhecemos o valor exato da média, μ, de uma população de dados
porque seria necessário um número infinito de medições. Entretanto, a teoria estatística
permite estabelecer limites em torno da média obtida de uma amostra, x , e então a média
verdadeira, μ, cai dentro destes limites com um dado grau de probabilidade. A esses limites
chamamos de “limites de confiança” e o intervalo que eles definem é chamado de
“intervalo de confiança”.
O tamanho do intervalo de confiança, o qual é derivado do desvio padrão da amostra,
depende da certeza com que o desvio padrão, σ, é conhecido. Se há uma razão para
acreditar que o desvio padrão amostral, sx , é uma boa aproximação de σ, então o intervalo
de confiança pode ser significativamente mais estreito do que o intervalo para σ baseado
em apenas duas ou três medições.
Estatística
68
A estimativa do intervalo de confiança é comumente usada para fazer afirmações de
probabilidade acerca de amostras retiradas de população ou para prever os resultados de
uma futura amostra da mesma população. Um método comum é determinar os limites de
confiança para um parâmetro, de modo que se possa ter um determinado grau de confiança
de que o parâmetro está dentro deste intervalo. Por exemplo: se for determinado um limite
de confiança de 95 %, então, em longo prazo a média verdadeira (média das médias) da
população irá cair dentro dos limites em 95% das vezes em que for medida.
Os limites de confiança definem um intervalo em torno da média da amostra que
provavelmente contem a média da população total.
O intervalo de confiança da média dá os limites que podem ser reclamados, com um grau
de confiança dado por (1-α)%, para conter o valor desconhecido da média da população.
Quando o desvio padrão da população, σ, é conhecido, o intervalo simétrico vale:
x − zα / 2
σ
n
< μ < x + zα /2
σ
n
Quando o desvio padrão da população, σ, não é conhecido, mas se tem o desvio da
amostra, sx , usamos a distribuição t, com n-1 graus de liberdade.
x − tα /2
s
sx
< μ < x + tα /2 x
n
n
Onde,
t α / 2 = coeficiente de confiança, obtido na tabela x, a partir do grau de liberdade
(ν) e do nível de significância (α) desejado.
O grau de liberdade (ν) é dado por n-1, onde n é o número de dados da amostra (medições).
O nível de significância (α) é igual a um menos o coeficiente de confiança, que
multiplicado por 100, dá o intervalo de confiança (em %). Exemplo: Para 95% de
confiança, significa que se admite que 5% dos valores podem estar fora do intervalo de
confiança. Como na tabela t estes valores estão em probabilidade (0 a 1), logo 5% valem
0,05, então α= 0,05, ou seja: 1- α) = 0,95 que corresponde a 95%.
Estatística
69
Para n = 2 temos n-1 grau de liberdade (ν = n-1). Então se você consultar a tabela 9 da
distribuição t verá que tα / 2 vale 12,71 para 95% de confiança, quando se faz apenas 2
medições. E tα / 2 vale 4,30 e 3,18 quando se faz 3 e 4 medições respectivamente. Isto
significa uma redução do intervalo de confiança de cerca de 12,71/3,18 = 3,9968 ≈ 4 vezes,
quando se opta por fazer quatro medições ao invés de duas medições.
A rápida melhoria na confiabilidade de sx quando n aumenta sugere que se deva fazer
muitas medições, quando isso não consumir tempo excessivo e houver amostras
disponíveis.
ν = (n-1)
1
2
3
4
5
6
7
8
9
10
15
20
30
60
00
α = 0,20
α = 0,10
α = 0,05
α = 0,01
3,08
1,89
1,64
1,53
1,48
1,44
1,42
1,40
1,38
1,37
1,34
1,32
1,31
1,30
1,29
6,31
2,92
2,35
2,13
2,02
1,94
1,90
1,86
1,83
1,81
1,75
1,72
1,70
1,67
1,64
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,13
2,09
2,04
2,00
1,96
63,66
9,92
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
2,95
2,84
2,75
2,66
2,58
ν = (n-1), grau de liberdade
α = (1 - intervalo de confiança)
Tabela 10 - Tabela t (resumida).
Estatística
70
29.
EXERCÍCIOS DE ESTATÍSTICA
Estatística Básica
1. As fichas de 60 alunos da 2ª. Série de uma escola pública estão arquivados em ordem
alfabética. Qual é a maneira mais rápida de amostrar um décimo dos alunos
2. Uma amostra não-probalística pode ser:
a) amostra de julgamento; amostra por quota; fatia
b) amostra de julgamento; fatia, amostra cheia
c) amostra por quota; fatia amostra cheia
d) amostra de julgamento; amostra por quota, amostra cheia
3. Amostra probabilística pode ser:
a) amostra aleatória simples; por cota; amostra sistemática; amostra de julgamento
b) amostra por quota; amostra sistemática; amostra estratificada; amostra cheia
c) amostra aleatória simples; amostra sistemática; amostra estratificada; amostra de
conveniência (grupo).
d) amostra por cota; amostra sistemática; amostra estratificada; amostra cheia
4. Numa amostragem simples,
a) os elementos são divididos em grupos e é sorteado um grupo que deve fornecer a
amostra
b) os elementos são retirados ao acaso da população
c) os elementos são classificados por ordem de grandeza e em seguida são escolhidos
2 de cada extremo da lista.
d) Todos os elementos da população são escolhidos.
5. Na análise dos dados de uma distribuição de freqüências há quatro parâmetros
importantes:
a) média, tendência central, dispersão e desvio
b) média, dispersão, desvio e curtose
c) tendência central, dispersão, desvio e curtose
d) dispersão, média, desvio e curtose
Estatística
71
6. Dispersão é a característica que indica:
a) o grau de espalhamento dos dados.
b) o grau de distorção em uma curva
c) o pico em uma distribuição
d) a média aritmética dos dados
7. Se os pesos das notas forem p1 = 2, p2 = 4 , p3 = 1 e p4 = 3, a média ponderada de 8,
10, 6 e 7 é:
a) 7,25
b) 8,3
c) 16,155
d) 7,75
8. A média harmônica dos números 8, 9, 10 e 11 é?
a) 9,4
b) 9,5
c) 9,555
d) 9,367
9. A mediana dos números 100, 20, 70, 40 e 60 é?
a) 58
b) 59
c) 60
d) 70
10. A mediana dos números 4, 8, 6, 5, 10 e 7 é?
a) 6.666
b) 6,5
c) 7
d) 7,5
11. A moda dos números 5, 7, 6, 6, 7, 8, 9, 10, 5, 7 é?
e) 5
f) 6
g) 10
h) 7
Estatística
72
12. A amplitude dos números 5, 7, 6, 6, 7, 8, 9, 10, 5, 7 é?
a) 5
b) 6
c) 7
d) 8
13. A variância dos números 8, 6, 7 e 9 é:
a) 7,5
b) 1,118
c) 5,477
d) 1,29
14. O desvio padrão de 8, 6, 7 e 9 é?
a) 1,136
b) 2,340
c) 1,057
d) 2,739
15. Dados a média = 5 e a variância = 3,2, calcular o coeficiente de variação.
a) 64 %
b) 156,25 %
c) 35,78 %
d) 69,88 %
Estatística
73
Probabilidades
16. As distribuições abaixo são distribuições discretas:
a) distribuição binomial e de Poisson
b) distribuição de Poisson e distribuição triangular
c) distribuição retangular e distribuição triangular
d) distribuição uniforme e distribuição t
17. Qual a probabilidade de sair a face 5 ao lançar um dado uma vez?
a) 5
b) 1.333
c) 1,6666
d) 2
18. Qual a probabilidade de sair face impar numa única jogada?
a) 1,333
b) 0,5
c) 1,666
d) 3
19. Jogando-se uma moeda duas vezes, qual a probabilidade de ocorrer cara nas duas
jogadas?
a) 1,333
b) 1,666
c) 0,25
d) 2
20. Numa urna tem 3 bolas: duas brancas e uma vermelha. Retirando-se ao acaso, uma bola
e em seguida a outra (sem que a primeira tenha sido recolocada na urna), qual é a
probabilidade de que as duas bolas sejam brancas?
a) 0,5
b) 1,3333
c) 1,6666
d) 0,3333
Estatística
74
Distribuição Binomial
21. Jogando um dado 3 vezes, qual a probabilidade de se obterem exatamente 2 faces 5?
a) 6,94%
b) 10,94 %
c) 12,333 %
d) 1,666 %
22. Jogando uma moeda quatro vezes, quais são as chances de se obter duas caras?
a) 23/16
b) 2/3
c) 11/16
d) 15/32
Distribuição de Poisson
23. Se um telefone recebe em média duas chamadas por hora, qual a probabilidade deste
telefone não receber nenhuma chamada em uma hora?
a) 0,15
b) 0,1353
c) 0,2325
d) 0,4
24. Qual a probabilidade do telefone acima receber no máximo duas chamadas em 30
minutos?
a) 0,9197
b) 0,8133
c) 0,3333
d) 0,7156
25. Os parâmetros da distribuição normal são:
a) µ e x
b) σ2 e s2
c) µ e σ2
d) s2 e µ
Estatística
75
26. Numa fábrica, o tempo médio µ para fabricar um eixo é de 35 minutos (distribuição
normal), com desvio padrão σ de 5 minutos. Qual a probabilidade de um trabalhador
escolhido aleatoriamente fabricar um eixo em menos de 25 minutos? Consultar a
tabela de distribuição normal padronizada (Anexo A).
a) 0,4772
b) 0,0228
c) 0,0456
d) 0,73,47
27. Usando os dados do problema anterior, qual seria a probabilidade de que um
trabalhador possa concluir o eixo entre 18 e 22 minutos?
a) 0,2345
b) 0,0482
c) 0,4735
d) 0,1935
Erro Padrão da Média Aritmética
28. Suponha que uma empacotadora esteja ajustada para encher pacotes de café de 400
gramas. Dados anteriores confirmam uma distribuição normal, com média aritmética
de 400 gramas. O desvio padrão da população é conhecido como sendo igual a 12
gramas. Qual o erro padrão da média aritmética para uma amostra de 8 pacotes?
a) 1,50
b) 4,24
c) 4,35
d) 1,48
Estatística
76
29. Suponha que uma empacotadora esteja ajustada para encher pacotes de café de 400
gramas. Dados anteriores confirmam uma distribuição normal, com média aritmética
de 400 gramas. O desvio padrão da população é conhecido como sendo igual a 12
gramas. Qual a probabilidade percentual de que uma amostra de 15 pacotes, escolhida
aleatoriamente das centenas de pacotes, tenha uma média entre 380 e 390 gramas?
a) 40,15 %
b) 45,50 %
c) 12,93 %
d) 10,25 %
30. Considerando os dados do problema anterior, qual a probabilidade percentual de que os
pacotes tenham entre 396 e 400 gramas?
a) 46 %
b) 44,97 %
c) 13,35 %
d) 12,93 %
31. O certificado de calibração de um peso padrão de referência fornece o valor de 1kg,
com incerteza de ± 5 mg, para um fator de abrangência k = 2. Consultando o histórico
de um peso padrão de valor nominal de 1 kg foi possível estimar a deriva do seu valor,
entre duas calibrações, como sendo 1,5 mg. Considerando esta deriva como uma
função de distribuição retangular, qual o valor da função de densidade de
probabilidade?
a) 0,3000 mg
b) 0,3333 mg
c) 3,3333 mg
d) 0,8660 mg
32. Considerando os dados do exercício anterior, qual a variância da deriva?
a) 1,2990 mg
b) 0,70 mg
c) 0,75 mg
d) 3 mg
Estatística
77
33. Supondo haver pouca informação sobre os dados, exceto que se trata de uma
distribuição triangular e que a melhor estimativa de t seja 300 oC, com os valores
limites de a - = a + = 4 oC. Qual seria a função densidade de probabilidade de t?
a) 0,25 oC
b) 0,30 oC
c) 2,256 oC
d) 2,828 oC
34. Considerando os dados do exercício anterior, qual a variância desta função?
a) 2,555 oC
b) 2 oC
c) 16 oC
d) 2,666 oC
35. Para uma distribuição t de Student, qual o valor crítico de t para (1- α) = 0,95 e n = 10?
a) 2,26
b) 2,22
c) 2,82
d) 1,83
Intervalo de Confiança
36. Sabe-se, pelas especificações do fabricante, que o desvio padrão da quantidade de óleo
de soja nas latas de 1 litro é igual a 0,02 litros. Uma amostra aleatória de 50 latas é
selecionada e a quantidade média de óleo por lata de l litro é igual a 0,995 litros.
Calcular o intervalo de confiança de 99 % da verdadeira média da população da
quantidade de óleo de soja contida em uma lata de 1 litro.
a) 0,9877 ≤ μ ≤ 1,0023
b) 0,9834 ≤ μ ≤ 1,0065
c) 0,9945 ≤ μ ≤ 1,0123
d) 0,9845 ≤ μ ≤ 1,0043
Estatística
78
37. Um novo suco de pêssego é testado para o mercado durante 3 meses, em filiais de uma
grande cadeira de supermercados. Os resultados para uma amostra de 21 filiais indicam
vendas médias de R$ 8.600,00 com um desvio padrão da amostra de R$ 240,00.
Calcular o intervalo de confiança para 99 % de vendas desse novo suco.
a) 8.460,89 ≤ μ ≤ 8.739,11
b) 8.464,89 ≤ μ ≤ 8.735,11
c) 8.467,60 ≤ μ ≤ 8.732,40
d) 8.450,99 ≤ μ ≤ 8.749,01
30.
RESPOSTAS DOS EXERCÍCIOS DE ESTATÍSTICA
Estatística Básica
1. Resposta: Escolher como amostra uma ficha em cada 6, por exemplo, o 6º , o 12º, o
18º, etc.
2. Resposta: letra A.
3. Resposta: letra C
4. Reposta: letra B
5. Resposta: letra C
6. Resposta: letra A
7. Reposta: letra B
8. Resposta: letra D
9. Resposta: letra C
10. Resposta: letra B
11. Resposta: letra D
12. Resposta: letra A
13. Resposta: Letra D
14. Resposta: letra A
15. Resposta: letra C
Estatística
79
Probabilidades
16. Resposta: letra A
17. Resposta: letra C
18. Resposta: letra B
19. Resposta: letra C
20. Resposta: letra D
Distribuição Binomial
21. Resposta: letra A
22. Resposta: letra C
Distribuição de Poisson
23. Resposta: letra B
24. Resposta: letra A
25. Resposta: letra C
26. Resposta: letra B
27. Reposta letra D
Erro Padrão da Média Aritmética
28. Resposta: letra B
29. Resposta: letra A.
30. Resposta: letra D
31. Resposta: letra B
32. Resposta: letra C
33. Resposta: letra A
34. Resposta: letra D
35. Resposta: letra A
Intervalo de Confiança
36. Resposta: letra A
37. Resposta: letra Dom
Estatística
80
Anexo A – Tabela de Distribuição Normal Padronizada
Estatística
Download