xnx - UFPR

Propaganda
Estatística
pág. 2
EMENTA
CE-003 Estatística II
•
•
•
•
•
•
•
•
•
•
•
•
•
Fases de um trabalho estatístico.
Representação tabular.
Representação gráfica.
Distribuição de freqüência.
Medidas de tendência central.
Medidas de dispersão.
Medidas de assimetria e curtose.
Elementos de probabilidades.
Distribuição de probabilidades.
Noções de amostragem.
Teoria da estimação.
Hipóteses estatísticas.
Teoria de regressão e da correlação.
Guerino P. Junior
Estatística
pág. 3
INTRODUÇÃO
O termo Estatística provém da palavra “Estado” e foi utilizado originalmente
para denominar levantamento de dados, cuja finalidade era orientar o Estado em suas
decisões.
Neste sentido foi utilizado em épocas remotas para determinar o valor dos
impostos cobrados dos cidadãos, para determinar a estratégia de uma nova batalha
em guerras que se caracterizavam por uma sucessão de batalhas (era fundamental
aos comandantes saber de quantos homens, armas, cavalos etc dispunham após a
última batalha).
Atualmente, a Estatística é definida da seguinte forma:
“Estatística é um conjunto de métodos e processos quantitativos que serve para
estudar e medir fenômenos coletivos”
Guerino P. Junior
Estatística
pág. 4
1. Estatística Descritiva
1.2 Conceitos Fundamentais
1.2.1 Objetivo
Estatística tem como objetivo o estudo dos fenômenos coletivos.
1.2.2 População e Amostra
Conceituaremos “População” como sendo o conjunto de todos os itens (pessoas,
coisas, objetos) que interessam ao estudo de um fenômeno coletivo segundo alguma
característica.
Entendemos por “Amostra”, qualquer subconjunto não vazio de uma população.
Uma característica numérica estabelecida para toda uma população é
denominada “Parâmetro”, por exemplo a média populacional. Já uma característica
numérica estabelecida para uma amostra é denominada “Estimativa”, por exemplo a
média amostral, a qual é fornecida por um estimador.
Exemplo: No fenômeno Coletivo eleição para governador no Estado do Paraná:
•
•
•
•
A população é o conjunto de todos os eleitores habilitados neste estado.
Um parâmetro seria a proporção de votos do candidato A.
Uma amostra poderia ser um grupo de 1000 eleitores selecionados em todo o
estado.
Uma estimativa seria a proporção de votos do candidato A obtida na amostra.
1.3 Processos Estatísticos de Abordagem
Quando solicitados a estudar um fenômeno coletivo podemos optar entre os
seguintes processos estatísticos:
Estimação: é uma avaliação indireta de um parâmetro, com base em um
estimador, através do calculo de probabilidades.
Censo: é uma avaliação direta de um parâmetro, utilizando-se todos os
componentes da população.
Propriedades Principais da Estimação:
•
•
•
•
•
Admite erro processual positivo e tem confiabilidade menor que 100%.
É barato.
É rápido.
É atualizado.
É sempre viável.
Propriedades Principais do Censo:
•
•
•
•
•
Admite erro processual “zero” e tem confiabilidade 100%.
É caro.
É lento.
É quase sempre desatualizado.
Nem sempre é viável.
Guerino P. Junior
Estatística
pág. 5
1.4 Dados Estatísticos
Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar com
grande quantidade de valores numéricos resultantes de um censo ou de uma
estimação.
Estes valores numéricos são chamados dados estatísticos, a Estatística dispõe
de métodos racionais para a obtenção de informações e tomadas de decisões sobre
um fenômeno coletivo, através dos dados estatísticos observados.
Desta forma, a estatística pode ser dividida em duas áreas:
Estatística Descritiva: é a parte da Estatística que tem por objeto descrever os
dados observados.
Estatística Indutiva: é a parte da Estatística que tem por objetivo obter e
generalizar conclusões para a população a partir de uma amostra, através do
calculo de probabilidades.
1.5 Estatística Descritiva
A Estatística Descritiva, na sua função de descrição dos dados, tem as seguintes
atribuições:
Obtenção ou Coleta de Dados: é normalmente feita através de um questionário ou
de observação direta de uma população ou amostra.
A Organização dos Dados: consiste na ordenação e critica quanto à correção dos
valores observados, falhas humanas, omissões, abandono de dados duvidosos etc.
Redução dos Dados: o entendimento e a compreensão de grande quantidade de
dados através da simples leitura de seus valores individuais é uma tarefa árdua. A
Estatística Descritiva apresenta duas formas básicas para a redução do numero de
dados com os quais devemos trabalhar, chamadas “variável discreta” e “variável
contínua”.
Representação dos Dados: Os dados estatísticos podem ser mais facilmente
compreendidos quando apresentados através de uma representação gráfica, o que
permite uma visualização instantânea de todos os dados.
A Estatística Descritiva ainda dispõe de algumas informações como médias,
proporções, dispersões, tendências, índices, taxas, coeficientes, que facilitam a
descrição dos fenômenos observados.
1.6 Dados Brutos
Quando dispomos de n observações diretas em um fenômeno coletivo ou
observamos as respostas a uma pergunta em uma coleção de n questionários,
obtemos uma seqüência de n valores numéricos denominados dados brutos.
Esta seqüência pode ser representada por X: x1,x2,...,xn, onde:
X: Característica observada no fenômeno (variável).
xi: Valor da característica obtida na i-ésima observação.
Guerino P. Junior
Estatística
pág. 6
Assim, dados brutos é uma seqüência de valores numéricos não organizados,
obtidos diretamente da observação de um fenômeno coletivo. Quando ordenamos de
forma crescente ou decrescente, os dados Brutos passam a se chamar "Rol".
1.7 Tipos de Variáveis
1.7.1 Variáveis Qualitativas
Algumas variáveis como sexo, educação, estado civil, etc. apresentam como
possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo
que outras como número de filhos, salário, estatura, etc. apresentam como possíveis
realizações números resultantes de uma contagem ou mensuração. As variáveis do
primeiro tipo são chamadas "qualitativas" e as do segundo tipo são chamadas
"quantitativas".
1.7.2 Variáveis Quantitativas
As variáveis quantitativas podem sofrer uma classificação dicotômica:
a) variáveis discretas, cujos possíveis valores formam um conjunto finito ou
enumerável de números e que resultam, freqüentemente, de uma contagem,
como por exemplo número de filhos (0,1,2,...).
b) variáveis contínuas, cujos possíveis valores formam um intervalo de números
reais e que resultam, normalmente, de uma mensuração, como por exemplo
estatura ou peso de um indivíduo.
1.8 Séries Estatísticas
1.8.1 Apresentação de Dados Estatísticos
Normalmente se trabalha com grande quantidade de dados, um dos objetivos
da Estatística Descritiva neste caso, é obter uma significativa redução na quantidade
de dados em que se opera diretamente. Isto pode ser conseguido modificando-se a
forma de apresentação destes dados.
Suponha que observamos as notas de 30 alunos em uma prova e obtivemos os
seguintes valores:
X: nota de alunos (característica)
3,5
2,0
3,5
5,0
3,0
3,5
4,5
4,5
3,5
4,0
3,5
4,0
4,5
4,0
4,0
5,0
4,5
3,0
3,5
3,0
4,0
4,0
4,0
4,0
4,0
3,0
5,0
5,0
4,0
3,0
Se entendermos como freqüência simples de um elemento, o número de vezes
que este aparece no conjunto de dados, podemos reduzir significativamente o número
de elementos com os quais devemos trabalhar.
Para isto organiza-se o conjunto de dados na forma de uma série estatística
chamada variável discreta.
Guerino P. Junior
Estatística
pág. 7
1.8.2 Distribuição de Freqüência – Variável Discreta
É uma representação tabular de um conjunto de valores em que colocamos na
primeira coluna em ordem crescente apenas os “valores distintos” da série e na
segunda coluna colocamos os valores das freqüências simples correspondentes.
• fi: freqüência simples.
• xi: valor da i-ésima observação.
Tabela 1
Xi
2
3
3,5
4
4,5
5
Total
fi
1
5
6
10
4
4
30
1.8.3 Distribuição de Freqüência – Variável Contínua
Suponha que a observação das notas de 30 alunos em uma prova nos
conduzisse aos seguintes valores (já ordenados – Rol):
X: nota de alunos (característica)
2,0
5,0
6,5
2,5
5,0
6,5
3,0
5,0
7,0
3,5
5,5
7,5
4,0
5,5
7,5
4,0
5,5
7,5
4,0
6,0
8,0
4,5
6,0
8,5
4,5
6,0
9,0
5,0
6,5
9,5
Observando estes valores notamos grande número de elementos distintos, o
que significa que neste caso a variável discreta não é aconselhável na redução de
dados. Nesta situação é conveniente agrupar os dados por faixas de valores (classes),
ficando a série disposta na seguinte tabela de freqüências:
Tabela 1.2
Classe
1
2
3
4
Total
•
•
•
•
Notas
2Ã4
4Ã6
6Ã8
8 Ã 10
fi
4
12
10
4
30
fri
Fi
Fri
0,1333 4 0,1333
0,4000 16 0,5333
0,3333 26 0,8666
0,1333 30 1,0000
1,0000
fi: freqüência simples.
Fri: freqüência relativa simples.
Fi: freqüência absoluta.
Fri: freqüência relativa absoluta.
A construção da variável continua requer o conhecimento de alguns conceitos
que vamos estabelecer aproveitando a tabela anterior como exemplo.
Guerino P. Junior
Estatística
pág. 8
Amplitude Total de Uma Seqüência: é a diferença entre o maior e menor elemento
de uma seqüência.
At = X max − X min
Intervalo de Classe: é qualquer subdivisão da amplitude total de uma série
estatística.
Limite de Classe: cada intervalo de classe fica caracterizado por dois números
reais, o menor é chamado limite inferior (Li) e o maior é chamado limite superior
(Ls).
Amplitude do Intervalo de Classe: é a diferença entre os limites superior e inferior
da classe.
h = L s − Li ou ainda h =
At
, onde k é o número de classes.
k
Obs:
• As classes não precisam necessariamente ter mesma amplitude.
• Os intervalos podem ser semi-abertos a direita ou a esquerda, o mais comum é a
direita.
Número de Classes: o número de classes a ser utilizado depende muito da
experiência do pesquisador e das questões que ele pretende responder com a
variável contínua, todavia utilizaremos dois critérios para o calculo do número de
classes:
•
Critério da Raiz: k =
•
n , para amostras pequenas.
n
, para amostras grandes.
Formula de Sturges: k = 1+ 3,3 log 10
•
n: tamanho da amostra (série estatística)
Freqüência Simples de uma Classe (fi): é o número de elementos da seqüência que
são maiores ou iguais ao limite inferior da classe e menores que seu limite
superior.
Freqüência Relativa de um Elemento da Série (fri): é a divisão da freqüência
simples deste elemento pelo número total de elementos da série.
f ri =
fi
n
Freqüência Acumulada de um Elemento da Série (Fi): é a soma da freqüência
simples deste elemento com as freqüências simples dos elementos anteriores.
Fi = f 1 + f 2 + ... + f i
Guerino P. Junior
Estatística
pág. 9
Freqüência Acumulada Relativa de um Elemento da Série (Fri): é a divisão da
freqüência acumulada deste elemento, pelo número total de elementos da série.
Fri =
Fi
n
Exemplo: O rol de dados abaixo se refere a concentração de colesterol na bile para 36
indivíduos de uma tribo indígena:
65 93 93 98 99 100 101 101 101 103 106 111
111 120 120 120 121 122 122 122 122 129 130 133
141 143 148 150 152 159 165 165 169 177 187 250
monte a tabela de freqüências:
I)
Amplitude total: At = X max − X min = 250 − 65 = 185
II)
Classes: k =
III)
36
n = 36 = 6 - (raiz), ou k = 1 + 3,3 log 10
= 6,13 - (Sturges)
A 185
Amplitude de Classe: h = t =
= 30,83 ≅ 31
k
6
Tabela 1.3
Colesterol
65 Ã 96
96 Ã 127
127 Ã 158
158 Ã 189
189 Ã 220
220 Ã 251
Total
fi
3
18
8
6
0
1
36
fri
0,0833
0,5000
0,2222
0,1667
0,0000
0,0278
1,0000
Fi
3
21
29
35
35
36
Fri
0,0833
0,5833
0,8055
0,9722
0,9722
1,0000
Exercícios:
1) Contou-se o número de erros de impressão da primeira página de um jornal
durante 50 dias, obtendo-se os resultados abaixo:
8
6
10
7
14
11
10
16
10
8
8 12 14 13 11 14 14 5
14 19 6 12 7 5 8 8
10 12 12 8 11 6 7 12
14 5 12 7 9 12 11 9
14 8 12 10 12 22 7 15
ordene os dados (rol) e monte a tabela de freqüências usando o método de Sturges
na determinação do número de classes.
2) As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30
maiores municípios do Brasil estão dadas abaixo:
3,67
3,96
7,77
1,82
6,54
4,65
3,73
5,84
1,88
4,10
7,35
2,12
4,30
3,63
4,26
1,28
2,93
2,78
8,14
2,82
5,54
2,43
8,45
0,90
4,17
5,28
5,09
5,36
5,41
4,07
Guerino P. Junior
Estatística
pág. 10
ordene os dados (rol) e monte a tabela de freqüências usando o método da Raiz na
determinação do número de classes.
3) Os salários de uma empresa estão agrupados em classes conforme a tabela abaixo:
Notas
fi
750 Ã 1050
1050 Ã 1350
1350 Ã 1650
1650 Ã 1950
Total
Fi
fri
Fri
14
31
42
80
Complete as colunas das freqüências fi, Fi e Fri
Guerino P. Junior
Estatística
pág. 11
1.9 Representação Gráfica da Série Estatística
1.9.1 Histograma de Freqüências
É um conjunto de retângulos justapostos, representados em um sistema de
coordenadas cartesianas, cujas bases são os intervalos de classe e cujas alturas são
valores proporcionais às freqüências simples correspondentes.
Gráfico 1
Frequencias
20
18
16
Frequencias
14
12
10
8
6
4
2
25
1
a
28
2
25
1
a
22
0
18
9
a
18
9
a
15
8
15
8
96
12
7
a
12
7
a
96
65
a
65
31
a
22
0
0
Colesterol
Obs: Na construção do Histograma, deixa-se intencionalmente, um espaço igual a um
intervalo de classe no início e no final da representação gráfica para facilitar a
construção no Polígono de Freqüências.
1.9.2 Polígono de Freqüências
Se considerarmos o espaço inicial e final como sendo classes fictícias com
freqüências "zeradas" e unirmos os pontos médios das bases superiores destes
retângulos, obtemos uma nova figura chamada "Polígono de Freqüências", a qual nos
dá uma idéia melhor da curva que representa os dados
Gráfico 2
Frequencias
20
18
16
12
10
8
6
4
2
25
1
a
25
1
22
0
a
22
0
18
9
a
18
9
15
8
a
15
8
12
7
a
12
7
96
a
96
65
a
65
28
2
0
31
a
Frequencias
14
Colesterol
Guerino P. Junior
Estatística
pág. 12
1.9.3 Gráfico de Pareto
Uma importante variação de um histograma, porém para dados categóricos, é o
Gráfico de Pareto. Este gráfico é vastamente usado em esforços na melhoria da
qualidade, onde as categorias usualmente representam diferentes tipos de defeitos,
tipos de falhas, ou problemas no produto/processo. As categorias são ordenadas tal
que a categoria com maior freqüência é a primeira a esquerda, seguido pela categoria
com a segunda maior freqüência e assim por diante.
Exemplo1: numa linha de produção de determinado produto, se perdeu num período
de 8 horas a quantidade de itens relacionados abaixo, devido às seguintes causas:
Causas
Motores
Cilindros
Mancais
Elétricos
Eletrônicos
Quantidades Perdidas
3
7
35
15
5
Gráfico 3
80
87,69
Frequencia
60
40
95,38
100,00
76,92
53,85
20
0
Mancais
Elétricos
Cilindros Eletrônicos Motores
Exercícios:
1) Uma amostra de 36 salários de uma determinada empresa foi classificada
conforme a tabela abaixo, construa o histograma e polígono de freqüências para os
dados contidos na tabela:
Salários
fi
4
400 Ã 600
6
600 Ã 800
800 Ã 1000 8
1000 Ã 1200 4
1200 Ã 1400 5
1400 Ã 1600 3
1600 Ã 1800 3
1800 Ã 2000 2
2000 Ã 2200 1
Total
35
Guerino P. Junior
Estatística
pág. 13
2) Um dentista contou o número de dentes permanentes irrompidos em crianças
brancas de sete escolas, de ambos os sexos. Os dados estão dispostos na tabela
abaixo, monte o histograma de freqüências:
Escola
1
2
3
4
5
6
7
Total
Fi
7
8
10
11
8
9
10
63
3) Em uma granja foi observada a distribuição dos frangos com relação ao peso
(gramas), a qual está representada na tabela abaixo. Monte o histograma e o
polígono de freqüências:
Peso
fi
(gramas)
60
960 Ã 980
160
980 Ã 1000
1000 Ã 1020 283
1020 Ã 1040 257
1040 Ã 1060 160
80
1060 Ã 1080
Total
1000
4) Num processo de fabricação de circuitos impressos, foram observados os seguintes
tipos de defeitos, assim como a quantidade por tipo de defeito nos mesmos:
Tipo de Defeitos
Solda Insuficiente
Ponto de Solda
Componentes trocados
Falta de Componentes
Falha de Componente
Numero de Defeitos
64
45
4
18
3
monte o gráfico de Pareto para as observações acima.
Guerino P. Junior
Estatística
pág. 14
1.10 Medidas de Tendência Central (ou de Posição)
No estudo de uma série estatística é conveniente calcular algumas medidas que
a caracterizam. Tais medidas, quando bem interpretadas, podem nos fornecer
informações úteis com respeito a séries estatística, ou seja, podemos reduzir a série a
alguns valores que nos fornecerão compreensão precisa da mesma.
Uma medida de tendência central é um valor “intermediário” em torno do qual
a série se concentra e os outros elementos da série estão distribuídos. As principais
medidas de tendência central são: média, mediana e moda.
1.10.1 Média Aritmética Simples
Para uma seqüência numérica X: x1,x2,....,xn a média aritmética simples, que
designaremos por x é definida por:
•
∑
x=
•
∑
µ=
n
i =1 i
x
, caso amostral, onde n é o tamanho da amostra.
n
n
i =1
xi
, caso populacional (parâmetro), onde N é o tamanho da população
N
A média aritmética simples não é uma medida resistente, ou seja, ela pode ser
influenciada por valores extremos (muito abaixo ou muito acima dos demais). Num
processo de estimação, pode-se cometer erros, subestimar ou superestimar a média
populacional se a estimativa x for usada sem considerar alguns critérios.
1.10.2 Mediana (2O Quartil)
É um valor real que separa o rol de dados em duas partes, deixando à sua
esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um
valor que ocupa a posição central de uma série e é também uma medida separatriz.
Designaremos a mediana por:
•
~
xˆ = X  n
, caso amostral, onde n é o tamanho da amostra.
•
~
x = X N
, caso populacional, onde N é o tamanho da população.
1
2+2


1
 2 +2


Ao contrário da média, a mediana é uma medida resistente, ou seja, não é
afetada por valores extremos.
1.10.3 Moda
É o valor de maior freqüência (o que mais se repete) em um conjunto de dados,
será denotado por mo.
Um conjunto de dados pode ter uma ou mais modas (unimodal, bimodal,....),
ou então não ter moda (amodal).
Guerino P. Junior
Estatística
pág. 15
Exemplo: Calcule a média, mediana e moda para a amostra abaixo:
X: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1 – Dados brutos
Rol: 1, 2 ,3, 3, 4, 5, 5, 5, 5, 8 – Dados ordenados
∑
x=
n
i =1 i
1 + 2 + 3 + .... + 8
= 4,1
n
10
4+5
b) mediana: ~
xˆ = X  n 1  = X 10 1  = X 5,5 =
= 4,5
2
2+2
 2 +2




a) média:
x
=
c) moda: mo=5 (unimodal)
1.10.4 Utilização das Medidas de Tendência Central
Na maioria das situações, não necessitamos calcular as três medidas
tendência central, normalmente apenas uma delas pode caracterizar bem o centro
série.
Surge, então, a questão: qual medida deve ser utilizada?
Na maioria das vezes, teremos valores diferenciados para a série
consequentemente a medida irá representar bem, apenas os dados da série que
situam próximos a este valor. Os dados muito afastados (extremos) em relação
valor da medida não serão bem representados por ela.
de
da
e
se
ao
a) Simetria
Curva de Gauss (Normal)
0,4
0,3
0,2
0,1
0
-5
-3
-1
1
3
5
x
O exemplo mais clássico de curva simétrica é a curva de Gauss (distribuição
Normal). Neste caso, qualquer das três medidas de tendência central representa
muito bem o conjunto de dados descrito pela curva, pois a mesma é simétrica em
relação a média, moda e mediana, ou seja, numa curva simétrica essas três medidas
são “iguais” e são representadas pelo eixo central que divide a curva ao meio. É mais
comum se adotar a média para representar o valor central.
É importante ressaltar que na prática é extremamente difícil se ter um conjunto
de dados que gere uma curva perfeitamente simétrica, mas pode-se obter curvas
Guerino P. Junior
Estatística
pág. 16
muito próximas de uma simetria perfeita, onde os valores da média, moda e mediana
diferem muito pouco entre si, podendo-se aceitar simetria.
b) Assimetria Positiva (a direita)
Em caso de assimetria positiva, a curva que representa os dados possui a cauda
alongada para a direita, indicando que existem valores que se distanciam do centro da
curva para a direita, ou seja, existe(m) valor(es) extremo(s) muito acima dos demais.
Neste caso a média, por não ser resistente, será afetada por este(s) valore(s)
extremo(s), fazendo com que seu valor seja superestimado, situação na qual a
mediana se torna mais conveniente como medida de tendência central.
Quando se tem assimetria positiva, os valores abaixo da mediana permanecem
pouco dispersos (pouca variabilidade), enquanto os valores acima da mediana
permanecem mais dispersos (maior variabilidade).
Na assimetria positiva, tem-se a seguinte relação: m o < ~
x <x.
0,1
0,08
0,06
0,04
0,02
0
0
10
20
30
40
x
Moda (mo)
Mediana ( ~
x)
Média ( x )
c) Assimetria Negativa (a esquerda)
Em caso de assimetria negativa, a curva que representa os dados possui a
cauda alongada para a esquerda, indicando que existe(m) valore(s) que se
distancia(m) do centro da curva para a esquerda, ou seja, existe(m) valor(es)
extremo(s) muito abaixo dos demais. Neste caso a média também será afetada por
não ser uma medida resistente, pois este(s) valore(s) extremo(s) fará com que seu
valor seja subestimado, nesta situação a mediana também se torna mais conveniente
como medida de tendência central.
Quando se tem assimetria negativa, os valores abaixo da mediana permanecem
mais dispersos (maior variabilidade), enquanto os valores acima da mediana
permanecem menos dispersos (menor variabilidade).
x > x.
Na assimetria negativa, tem-se a seguinte relação: mo > ~
Guerino P. Junior
Estatística
pág. 17
0,4
0,3
0,2
0,1
0
-4
-2
0
2
4
Média
Mediana
Moda
Exemplo: Uma amostra da concentração de colesterol de 12 indivíduos apresentou os
seguintes valores (já ordenados):
X: 65 93 93 98 99 100 101 101 101 101 103 106 111
Calcule as medidas de tendência central para os valores e indique qual delas
representa melhor os dados:
∑
x=
12
•
•
•
65 + 93 + .... + 111
= 97,58
12
12
100 + 101
Mediana: ~
xˆ = X 12 1  = X [6,5] =
= 100,5
2
 2 +2


Média:
x
i =1 i
=
Moda: 101 (observação de maior freqüência)
Curva dos dados
0,05
0,04
densidade
•
0,03
0,02
0,01
0
65
75
85
95
105
115
Colesterol
Guerino P. Junior
Estatística
pág. 18
Como se pode ver, a média não é adequada como medida de tendência central
para estes dados, pois foi afetada pelo valor extremo 65, deixando-a abaixo dos
valores centrais da série (conforme esboço da curva dos dados - assimétrica
negativa). Portanto a mediana representa melhor esta realidade.
1.11 Medidas de Dispersão (Variabilidade)
Somente as medidas de Tendência Central não são suficientes para caracterizar
totalmente uma seqüência numérica.
O objetivo das medidas de dispersão é avaliar a representatividade da média,
ou seja, avaliar quão dispersos os dados estão em torno deste valor.
1.11.1 Medidas de Dispersão Absolutas
As principais medidas de dispersão absolutas são Amplitude Total, Desvio Médio
Simples, Variância e Desvio Padrão.
•
Desvio Médio Simples: É definido como sendo uma média aritmética dos desvios
de cada elemento da série para a média da série.
DMS =
•
∑ | x − x | , i=1,2,...,n.
i
n
Variância e Desvio Padrão: A variância é a média aritmética calculada a partir dos
quadrados dos desvios obtidos entre os elementos da série e a sua média,
enquanto que o desvio padrão é a raiz da variância, o qual nos dá o montante de
variação no conjunto de dados.
a) Variância:
σ
2
∑
=
σ̂ 2 =
n
i =1
( xi − µ ) 2
N
n
∑i =1 ( xi − x )2
n
, caso populacional, onde N é o tamanho da população.
, caso amostral, onde n é o tamanho da amostra.
O estimador σ̂ 2 acima é de máxima verossimilhança, porém é viciado (ou
viesado), ou seja, quando se tenta estimar a variância populacional através deste
estimador, se comete um desvio (erro) em relação ao valor populacional, porém
existe também um estimador não viciado para a variância, o qual é dado pela
expressão:
S
2
∑
=
n
i =1
( xi − x ) 2
n −1
b) Desvio Padrão:
σ = σ 2 , caso populacional
Guerino P. Junior
Estatística
pág. 19
σˆ = σˆ 2 , estimador de máxima verossimilhança (viciado)
S = Ŝ 2 , estimador não viciado
Obs: o valor da variância não pode ser comparado diretamente com os dados da
série, ou seja, a “variância não tem interpretação”, mas sim o desvio padrão que é a
sua raiz, o qual sempre está na mesma unidade de medida da série.
Exemplo: considere as 3 amostras abaixo e calcule os desvios médio e padrão para
cada uma delas:
X:10,1,18,20,35,3,7,15,11,10
Y:12,13,13,14,12,14,12,14,13,13
Z:13,13,13,13,13,13,13,13,13,13
x = 13
y = 13
z = 13
Para a seqüência X:
•
DMS =
| 10 − 13 | + | 1 − 13 | +....+ | 10 − 13 |
= 7, 2
10
Interpretação: em média, cada elemento da série está afastado do valor médio ( x )
por 7,2 unidades.
∑
=
n
i =1
( xi − x ) 2
(10 − 13) 2 + .... + (10 − 13) 2
=
= 96
9
•
S
•
S = Sˆ 2 = 96 = 9,8
2
n −1
Para a seqüência Y:
•
•
•
| 12 − 13 | + | 13 − 13 | +....+ | 13 − 13 |
= 0,6
10
n
( xi − x ) 2 (12 − 13) 2 + .... + (13 − 13) 2
∑
2
i =1
S =
=
= 0,667
n −1
9
S = Sˆ 2 = 0,667 = 0,8167
DMS =
1.11.2 Medidas de Dispersão Relativa
A medida de dispersão relativa leva em consideração a medida de dispersão
absoluta e a média da série, é uma medida mais completa que a medida de dispersão
absoluta, portanto prevalece sobre a medida de dispersão absoluta.
•
Coeficiente de Variação: é uma divisão de elementos de mesma unidade (média
por desvio padrão), é um número puro. Portanto, é expresso como uma fração ou
porcentagem da média. Para dados de diferentes populações ou fontes, a média e
o desvio padrão tendem a mudar juntos, tal que o CV é relativamente estável, logo
o CV é utilizado na comparação da variabilidade de 2 ou mais conjuntos de dados.
Guerino P. Junior
Estatística
CV =
pág. 20
σ
, caso populacional
µ
S
Cˆ V = , caso amostral
x
Exemplo: Os seguintes dados vêm de 2 amostras de alturas (em polegadas) de 1052
mulheres e 8585 homens:
Mulheres
Homens
x
S
ĈV
62,5
67,5
2,3
2,6
3,7%
3,8%
Considere agora o conjunto de dados abaixo:
X
Y
x
S
ĈV
61,4
33,7
5,22
3,15
8,5%
9,3%
Em uma avaliação, obviamente não comparamos as valores de S, desde que as
médias populacionais (ou amostrais) sejam extremamente diferentes aparentemente
para bases de dados diferentes. Ao invés disto, os CV's é que são comparados
Exercícios:
1) Considere a seqüência X:10, 13, 18, 20, 35, 3, 7, 15, 11, 10. Calcule as medidas
de posição (tendência central), diga se existe assimetria (se positiva ou negativa)
e qual medida de tendência central deve ser adotada na representação dos dados.
2) Uma amostra de 5 alunos do curso de informática de UFPR foi coletada
aleatoriamente e medidas suas alturas em cm. Calcule as medidas de posição e
diga qual delas você adotaria para representar os dados.
X: 176 178 175 171 173
3) As taxas de juros recebidas por 10 ações durante um certo período foram
(medidas em porcentagem) X:2,59
2,64
2,60
2,62
2,57
2,55
2,61
2,50 2,63 2,64. Calcule a média, a mediana e o desvio padrão para os dados.
4) Esboce as curvas de três variáveis X, Y e Z com mesma média aritmética e
mediana, porém com variabilidades diferentes.
5) Dadas as variações de dois índices econômicos, IGP (X) e INPC (Y), dos meses de
janeiro a dezembro de 2004:
X
Y
0,80 1,08 ,93
1,15 1,46 1,29 1,14
0,83 0,39 0,57 0,41 0,40 0,50 0,73
1,31 0,48 0,53 0,82 0,52
0,50 0,17 0,17 0,44 0,86
Calcule as variações média, mediana e modal, bem como as variâncias das
amostras e compare suas variabilidades.
Guerino P. Junior
Estatística
pág. 21
Até o presente momento vimos as medidas de posição (tendência central) e
variabilidade para dados simples, ou seja, para dados não agrupados em classes ou
organizados em tabelas.
Quando se trabalha com dados agrupados em classes ou reduzidos de alguma
forma, tem-se algumas alterações no calculo destas medidas, as quais veremos a
seguir.
Começaremos pelas medidas de posição.
•
Média:
∑
x=
∑
n
i =1 i
n
f Xc
f
i =1 i
∑
=
n
i =1 i
f Xc
n
, caso amostral, onde Xc é o ponto médio de casa classe, fi
e n foram definidos anteriormente.
∑
µ=
∑
N
i =1 i
N
•
f Xc
i =1
∑
=
fi
N
i =1
fi X c
N
, caso populacional
Mediana:
n
 − FB
~
ˆx = B +  2
L
 fc




 × i , caso amostral, onde:



BL: Limite inferior da classe mediana
FB: Freqüência acumulada anterior à classe mediana
fc: Freqüência simples da classe mediana
i: Amplitude da classe mediana
N
 − FB
~
x = BL +  2
 fc


•


 × i , caso populacional



Moda:
 d1
Mo = B L + 
 d1 + d 2

 × i , caso amostral e populacional, onde:

BL: Limite inferior da classe modal (maior freqüência)
d1: Freqüência simples posterior à classe modal
d2: Freqüência simples anterior à classe modal
i: Amplitude da classe modal
Uma vez conhecidas as formulas das medidas de posição, explicaremos as
medidas de dispersão.
Guerino P. Junior
Estatística
•
•
pág. 22
Variância:
S
2
σ
2
∑
=
n
i =1 i
∑
=
f X c2 − nx 2
n −1
N
i =1
, caso amostral
f i X c2 − Nµ 2
N
, caso populacional
Desvio Padrão:
S = S 2 , caso amostral
σ = σ 2 , caso populacional
•
Desvio Médio:
Dˆ =
∑
| Xc − x |
n
∑
D=
•
n
i =1
N
i =1
| Xc −µ |
N
, caso amostral
, caso populacional
Coeficiente de Variação:
S
σ
caso populacional
Cˆ V = , caso amostral e CV =
x
µ
Exemplo: Considere os dados da tabela 1.3 (Concentração de colesterol) já vista
anteriormente:
Tabela 1.3
Colesterol
65 Ã 96
96 Ã 127
127 Ã 158
158 Ã 189
189 Ã 220
220 Ã 251
Total
fi
fri
Fi
Fri
3
18
8
6
0
1
36
0,0833
0,5000
0,2222
0,1667
0,0000
0,0278
1,0000
3
21
29
35
35
36
0,0833
0,5833
0,8055
0,9722
0,9722
1,0000
Xc
fiXc
f i X c2
80,5
241,5
19440,75
111,5 2007,0 223780,50
142,5 1140,0 162450,00
173,5 1041,0 180613,50
204,5
0,0
0,00
235,5
235,5
55460,25
4665,0 641745,00
Calcule as seguintes medidas para os dados agrupados acima:
a)
b)
c)
d)
média
mediana
moda
variância e desvio padrão
Guerino P. Junior
Estatística
pág. 23
1.12 Medidas Separatrizes
São números reais que dividem a seqüência ordenada de dados em partes que
contem a mesma quantidade de elementos.
Desta forma, a mediana (2O Quartil) que divide a seqüência ordenada em dois
grupos, cada um deles contendo 50% dos valores da seqüência, é também uma
medida separatriz, conforme visto anteriormente.
•
Se dividirmos a série ordenada em 4 partes (Quartis), cada uma conterá 25% dos
dados.
Q j = X  jn
1
 4 +2


•
Se dividirmos a série ordenada em 10 partes iguais (Decis), cada uma conterá
10% dos elementos.
D j = X  jn
1
 10 + 2 


•
, onde j=1,2,3 , ou seja, j representa 1o,2o e 3o Quartis.
, onde j=1,2,3,...,9, ou seja, j representa 1o, 2o ,...,9o Decis.
Se dividirmos em 100 partes (Centis), cada uma conterá 1% dos elementos.
Cj = X
jn 1 
 100 + 2 


, onde j=1,2,3,4,...,99, ou seja, j representa 1o, 2o,..., 99o Centis.
Existem algumas relações entre as medidas separatrizes, por exemplo:
•
•
•
Q1=C25
Q2=C50=D5
Q3=C75
Considere novamente a amostra de concentração de colesterol em 12
indivíduos:
X:65 93 93 98 99 100 101 101 101 103 106 111
Q1 = X 12
1
 4 +2


= X [3,5] = 95,5
C 25 = X  25×12
1
 100 + 2 


= X [3,5] = 95,5
Q 2 = X  2×12
= X [6,5] = 100,5
D5 = X  5×12
= X [6,5] = 100,5
1
 4 +2


1
 10 + 2 


C 50 = X  50×12
= X [6,5] = 100,5
C 50 = X  50×12
= X [6,5] = 100,5
1
 100 + 2 


1
 100 + 2 


Guerino P. Junior
Estatística
pág. 24
Q3 = X  3×12
1
 14 + 2 


C 75 = X  75×12
= X [9,5] = 102
1
 100 + 2 


= X [9,5] = 102
Assim como as medidas de posição e dispersão, quando se trabalha com dados
agrupados em classes, tem-se algumas alterações no calculo das medidas
separatrizes, as quais veremos a seguir.
•
 jn
− FB

4

Quartis: Q j = B L +
 fc




 × i , onde:



J=1,2,3
BL: Limite inferior da classe que contem o j-ésimo Quartil
FB: Freqüência acumulada anterior à classe do j-ésimo Quartil
fc: Freqüência simples da classe do j-ésimo Quartil
i: Amplitude da classe do j-ésimo Quartil
•
 jn
− FB

10

Decis: D j = B L +
 fc




 × i , onde:



J=1,2,3,...,9
BL: Limite inferior da classe que contem o j-ésimo Decil
FB: Freqüência acumulada anterior à classe do j-ésimo Decil
fc: Freqüência simples da classe do j-ésimo Decil
i: Amplitude da classe do j-ésimo Decil
•
 jn
− FB

100

Centis: C j = B L +

fc




 × i , onde:



J=1,2,3,4,...,99
BL: Limite inferior da classe que contem o j-ésimo Centil
FB: Freqüência acumulada anterior à classe do j-ésimo Centil
fc: Freqüência simples da classe do j-ésimo Centil
i: Amplitude da classe do j-ésimo Centil
Considerando ainda os dados da tabela 1.3, encontre:
a) O 1o, 2o e 3o Quartis.
b) A porcentagem dos dados que se encontra abaixo de 220 e acima do 2o Decil.
c) A porcentagem dos dados que estão acima do valor mediano e abaixo 220.
Uma medida de dispersão alternativa que pode ser utilizada é o intervalo
interquartílico, que é a diferença entre o 3o e 1o quartis, denotado por:
•
d = Q3 − Q1
Guerino P. Junior
Estatística
pág. 25
Se considerarmos os valores máximo e mínimo de um conjunto de dados, então
chamaremos dispersão inferior e dispersão superior os valores:
•
•
d i = Q1 − X min
d s = X max − Q3
- dispersão inferior
- dispersão superior
A comparação destas distâncias nos fornece informação sobre a forma da
distribuição. Ou seja, para que uma distribuição seja simétrica (ou aproximadamente
simétrica), espera-se intuitivamente que:
•
•
d i ≅ d s - a dispersão inferior seja aproximadamente igual a dispersão superior.
Q 2 − Qi ≅ Q3 − Q2 - a diferença entre 2o e 1o quartis seja aproximadamente igual a
diferença entre 3o e 2o quartis.
Com base nas dispersões inferior e superior, e também nas diferenças entre a
mediana e os quartis, diga se a distribuição dos dados contidos na tabela 1.3 é
aproximadamente simétrica.
1.13 Coeficiente de Assimetria de Pearson
O coeficiente de Assimetria de Pearson mede o afastamento da simetria
expressando a diferença entre a média e a mediana em relação ao desvio padrão do
grupo de medidas. As formulas são:
3( µ − ~
x)
•
A=
•
3( x − ~
xˆ )
Aˆ =
, caso amostral
S
σ
, caso populacional
Relações de Simetria:
Aˆ < −1
− 1 ≤ Aˆ < −0,2
− 0,2 ≤ Aˆ ≤ 0,2
0,2 < Aˆ ≤ 1
Aˆ > 1
Assimetria negativa forte
Assimetria negativa fraca
Aceita-se simetria
Assimetria positiva fraca positiva
Assimetria positiva forte
Para uma distribuição simétrica, o valor do coeficiente de assimetria será
sempre "zero", neste caso teríamos simetria perfeita, porém na prática é difícil isto
acontecer, logo se o valor de  estiver entre ± 0,2 aceitaremos simetria para os
dados.
Continuando a considerar a amostra de concentração de colesterol em 12
indivíduos:
X:65 93 93 98 99 100 101 101 101 103 106 111
Sabemos que para esta amostra a média, mediana e desvio padrão são
xˆ = Q 2 = 100,5 e S = 11,39 , logo o coeficiente de assimetria
respectivamente x = 97,58 , ~
será:
Guerino P. Junior
Estatística
pág. 26
3( x − ~
xˆ ) 3(97,58 − 100,5)
Aˆ =
=
≅ −0,77
S
11,39
Como se pode ver, existe uma assimetria negativa fraca (a esquerda),
indicando que existe um valor extremo (65) muito abaixo dos demais, o qual afetou o
calculo da média. Portanto poderá haver problemas em usar a média amostral como
medida representativa para esta amostra, uma vez que se afasta bastante do centro
da série, isto implica no risco de subestimar a média populacional, o que torna o valor
mediano mais conveniente neste caso.
Exercícios:
1) O rol de dados abaixo representa as alturas (em cm) de 30 atletas de um clube:
164
170
176
a)
b)
c)
d)
164
170
177
Agrupe
Calcule
Calcule
Calcule
166
171
178
166
172
179
168
172
180
168
173
181
169
173
181
169
174
182
169
175
183
170
175
186
os dados em classes, monte o histograma e polígono de freqüências.
as medidas de posição e dispersão para os dados agrupados
o 1o e 3o quartis
o coeficiente de assimetria e diga qual medida usar, média ou mediana
2) A ingestão diária média, per capita, em gramas, de proteínas para 33 países
desenvolvidos é:
81
106
90
a)
b)
c)
d)
e)
113
103
91
108
100
92
74
100
93
79
100
87
78
101
89
90
101
78
93
101
89
105 109
95 90
89 85
94
93
94
construa a tabela, histograma e polígono de freqüências.
Calcule as medidas de posição e dispersão.
Encontre o valor para o qual existe 35% das observações acima dele.
Encontre o valor para o qual existe 20% das observações abaixo dele.
Calcule o coeficiente de assimetria e classifique a curva dos dados quanto a
simetria.
3) A tabela abaixo representa os valores dos diâmetros de 50 peças (em centímetros)
de certa peça circular fabricada por uma indústria:
Diâmetro
fi
Fi
fri
Fri
Xc
1,810 Ã 1,822
1,822 Ã 1,834
1,834 Ã 1,846
1,846 Ã 1,858
1,858 Ã 1,870
Total
7
14
18
7
4
50
7
21
39
46
50
0,1400
0,2800
0,3600
0,1400
0,0800
0,1400
0,4200
0,7800
0,9200
1,000
1,816
1,828
1,840
1,852
1,864
fiXc
f i X c2
12,712
23,085
25,592
46,782
33,120
60,941
12,964
24,009
7,456
13,898
91,844 168,715
a) construa o histograma e polígono de freqüências.
b) Calcule a média, mediana e desvio padrão.
Guerino P. Junior
Estatística
pág. 27
c) Encontre o 1o quartil e o centil 65.
d) Que porcentagem de observações estão entre o diâmetro 1,822 cm e o centil 65?
e) Qual a melhor medida de posição para representar estes dados? Média ou
mediana? Explique.
4) A distribuição de freqüências do salário mensal dos moradores de um certo bairro
que têm alguma forma de rendimento é apresentada na tabela abaixo:
Faixa Salarial
fi
Fi
fri
10000
3900
2000
1100
800
700
2000
20500
10000
13900
15900
17000
17800
18500
20500
0,4878
0,1902
0,0976
0,0537
0,0390
0,0341
0,0976
1,0000
Fri
Xc
(salário mínimo)
0Ã2
2Ã4
4Ã6
6Ã8
8 Ã 10
10 Ã 12
12 Ã 14
Total
0,4878 1
0,6780 3
0,7756 5
0,8293 7
0,8683 9
0,9024 11
1,0000 13
fiXc
f i X c2
10000 100000000
11700 45630000
10000 20000000
7700
8470000
7200
5760000
7700
5390000
26000 52000000
80300 237250000
a) Construa o histograma da distribuição
b) Calcule a média e desvio padrão da variável salário
c) Um outro bairro apresenta, para a mesma variável, uma média de 7,2 e um desvio
padrão de 15,1. Em qual dos bairros a população é mais homogênea quanto a
renda?
d) Qual a faixa salarial dos 10% mais ricos deste bairro?
e) Qual a faixa salarial dos 15% mais pobres do bairro?
f) Como se poderia classificar quanto a assimetria a curva que representa os
salários?
Guerino P. Junior
Estatística
pág. 28
1.14 Box Plot (Desenho Esquemático)
O Box Plot é um dispositivo gráfico que descreve simultaneamente algumas
características de um conjunto de dados: tendência central, dispersão (variabilidade),
falhas de simetria, identificação de “Outliers” (observações discrepantes do restante
dos dados).
Divide os dados ordenados em 4 áreas de freqüências iguais (25% em cada).
Uma caixa ao centro inclui 50% das observações (amplitude interquartílica), onde a
mediana é representada pela linha vertical ao centro e as duas linhas paralelas a ela
são 1o e 3o quartis, além disso a média é representada por um ponto em forma de
cruz.
As linhas verticais extremas representam a Barreira Inferior a Outliers
(esquerda) e Barreira Superior a Outliers (direita).
B.I.O.
B.S.O.
Q1
Q2
Q3
•
BIO: Barreira Inferior a Outliers (Q1 − (3 / 2) × d )
•
BSO: Barreira Superior a Outliers (Q3 + (3 / 2) × d )
•
•
•
•
•
Abaixo do 1o quartil (Q1) tem-se 25% dos dados
Entre 1o (Q1) e 2o (Q2) quartis tem-se 25% dos dados
Entre 2o (Q2) e 3o (Q3) quartis tem-se 25% dos dados
Acima do 3o quartil (Q3) tem-se 25% dos dados
A cruz no centro da caixa representa a média das observações
Exemplo1: Box-Plot das concentrações de colesterol na bile para 8 indivíduos:
Indivíduo
1
2
3
4
5
6
7
8
Concentração(x) 110 120 111 110 159 101 120 130
Box-Plot
100
110
120
130
140
150
160
Guerino P. Junior
Estatística
pág. 29
Pelo Box-Plot, pode-se concluir que a curva destes dados tem assimetria
positiva, grande variabilidade na concentração de colesterol entre 2o e 3o quartis,
pouca variabilidade na concentração de colesterol entre 1o e 2o quartis, além disso
apresenta uma observação discrepante das restantes (outlier) acima da BSO (valor
159). Neste caso, a medida de tendência central que melhor representa a amostra é a
mediana.
Caso fossemos esboçar a curva referente à estes dados, sua cauda estaria
alongada para o lado direito, tendo uma forma semelhante a curva abaixo:
0,04
0,03
0,02
0,01
0
100
110
120
130
140
150
160
Concentração de Colesterol
Exemplo 2: Foi medida a pressão arterial sistólica em 3 grupos (amostras) de
pessoas, sendo que cada grupo representa determinada faixa etária, sendo A, B e C.
Os 3 Box-Plots abaixo representam estes 3 grupos:
FAIXA ETÁRIA
A
B
C
90
120
150
180
210
240
PRESSÃO ARTERIAL SISTÓLICA
Na faixa etária A, tem-se uma situação de simetria, ou seja, os valores das
pressões estão distribuídos em torno da média de forma que sua variabilidade
(dispesão) seja homogênea, além disso não apresentam outlier. Neste caso tanto a
pressão média como a pressão mediana, são medidas que representam muito bem
esta amostra.
Já nos casos das faixas etárias B e C, tem-se assimetria positiva, ou seja, os
valores das pressões estão mais concentrados abaixo da mediana (pouca
variablidade) e mais dispersos (maior variabilidade) acima dela, além disso
apresentam observações discrepantes (outliers) acima da BSO. Caso fossemos
esboçar as curvas referentes à estas duas faixas etárias, suas caudas estariam
alongadas para o lado direito, Nestas duas amostras, a medida de tendência central
que melhor representa os dados é a mediana.
As três curvas abaixo representam estas amostras:
Guerino P. Junior
Estatística
pág. 30
0,04
0,03
0,02
0,01
0
91
101
111
121
131
141
151
PRESSÃO ARTERIAL - FAIXA ETÁRIA A
0,024
0,02
0,016
0,012
0,008
0,004
0
94
114
134
154
174
194
PRESSÃO ARTERIAL - FAIXA ETÁRIA B
0,016
0,012
0,008
0,004
0
90
120
150
180
210
240
PRESSÃO ARTERIAL - FAIXA ETÁRIA C
Guerino P. Junior
Estatística
pág. 31
Exercícios:
1) Construa o Box-Plot para os dados do exercício 3) pg-26 e calcule os valores das
barreiras inferior e superior a Outliers.
2) Construa o Box-Plot para os dados do exercício 4) pg-27 e calcule os valores das
barreiras inferior e superior a Outliers.
Guerino P. Junior
Estatística
2
pág. 32
Probabilidade
Quando solicitados a estudar um fenômeno coletivo, verificamos a necessidade
de descrever tal fenômeno por um modelo matemático que permita explicar da
melhor forma possível este fenômeno.
A Teoria das probabilidades permite construir modelos matemáticos para a
maioria destes fenômenos.
2.1
Fenômenos Aleatórios e Determinísticos
a) Determinísticos: são aqueles que repetidos sob mesmas condições iniciais
conduzem sempre a um só resultado.
Ex: Um corpo de massa “M” cai em queda livre de uma certa altura “h”, sobre uma
superfície, anota-se o tempo “t” da queda.
b) Aleatórios: são aquele que repetidos sob mesmas condições iniciais podem
conduzir a mais de um resultado.
Ex: Um dado é lançado sobre uma superfície, e anota-se o No da face voltada para
cima.
Obs: A teoria das probabilidades só é útil e deve ser aplicada quando lidarmos com
fenômenos aleatórios.
2.2
Experimentos
São fenômenos aleatórios que possuem as seguintes características:
a) Repetitividade: é a característica de um fenômeno poder ser repetido quantas
vezes quisermos
b) Regularidade: é a característica que diz respeito à possibilidade da ocorrência
dos resultados do fenômeno.
2.3
Teoria das Probabilidades
Como o objeto de nosso estudo são os experimentos e eles admitem mais do
que um resultado, faz sentido definir o conjunto de todos os resultados possíveis do
experimento, este conjunto é denominado “Espaço Amostral” e será denotado pela
letra grega Ω .
Exemplo 1: Lançar um moeda não viciada e anotar a face superior.
Ω ={H;T}, onde H:Cara e T:Coroa
Exemplo 2: Lançar um dado não viciado e anotar o No da face superior.
Ω ={1;2;3;...;6}
Exemplo 3: Retira-se uma carta de um baralho comum de 52 cartas e anota-se o
naipe.
Ω ={Ouros; Espadas; Paus; Copas}
Guerino P. Junior
Estatística
pág. 33
Exemplo 4: Lançar duas moedas não viciadas e observar suas faces.
Ω ={HH;HT;TH;TT}, onde H:Cara e T:Coroa
Exemplo 5: Lançar uma moeda sucessivamente, até se obter a primeira cara.
Ω ={H;HT;HHT;HHHT;.....}
Exemplo 6: Escolhe-se um ponto P ao acaso no intervalo [3;12] e anota-se a sua
distancia até o ponto 5.
Ω ={d ∈R/ 0 ≤ d ≤ 7}
Exercícios:
1) Monte os espaços amostrais para os seguintes experimentos:
a) Jogue uma moeda 4 vezes e observe o número de caras obtido.
b) Em uma linha de produção, peças estão sendo fabricadas em série. Conte o
número de peças defeituosas produzidas em um período de 6 horas.
c) Uma lâmpada é fabricada e em seguida é ligada, anota-se o seu tempo de
duração.
d) Um lote de 10 peças contem 3 defeituosas. As peças são retiradas uma a uma
(sem reposição) até que a ultima peça defeituosa seja encontrada. O numero total
de peças retiradas do lote é contada.
e) Um termógrafo registra a temperatura continuamente, num período de 24 horas.
Em determinado localidade e em uma data especificada, esse termógrafo é lido.
2) Uma caixa com N lâmpadas contem r lâmpadas (r<N) com filamento partido.
a) As lâmpadas são verificadas uma a uma, até que uma lâmpada defeituosa seja
encontrada. Descreva um espaço amostral para este experimento
b) Suponha que as lâmpadas acima sejam verificadas uma a uma, até que todas as
defeituosas tenham sido encontradas. Descreva o espaço amostral para este
experimento.
3) Lance um dado até que a face 5 apareça pela primeira vez. Enumere os possíveis
resultados deste experimento.
4) Uma urna contem duas bolas brancas (B) e três vermelhas (V). Retira-se uma bola
ao acaso da urna, se for branca, lança-se uma moeda; se for vermelha, ela é
devolvida à urna e retira-se outra bola. Dê um espaço amostral para o
experimento.
5) Três jogadores A, B e C disputam um torneio de tenis. Inicialmente, A joga com B
e o vencedor joga com C, e assim por diante. O torneio termina quando um
jogador ganha duas vezes em seguida ou quando são disputadas, ao todo, 4
partidas. Quais são os resultados possíveis do torneio?
Guerino P. Junior
Estatística
2.4
pág. 34
Eventos
É qualquer subconjunto do espaço amostral do experimento, podendo ser um
evento simples ou composto.
a) Evento Simples: um evento é chamado “simples” quando é formado por apenas
um resultado (elementar e indivisível) de Ω;
b) Evento Composto: um evento é chamado “composto” quando é formado por
mais de um evento simples.
Exemplo7: Lançamento de um dado.
Ω ={1;2;3;...;6} – evento certo
A={1,2} – sair face menor do que 3 no lançamento
B={2,4,6} – sair face par no lançamento
C={ }=∅ – sair face 8 no lançamento (evento impossível)
•
•
2.5
Cada elemento que constitui o evento é um possível resultado do experimento
Cada evento é um subconjunto de Ω
Operações com Eventos
A ∪ B = {x ∈ Ω / x ∈ A ou x ∈ B}
A ∩ B = {x ∈ Ω / x ∈ A e x ∈ B}
Ac = {x ∈ Ω / x ∉ A}
A − B = {x ∈ Ω / x ∈ A e x ∉ B}
A ⊂ B = {x ∈ Ω / x ∈ A ⇒ x ∈ B}
A= B ⇔ A⊂ B e A⊃ B
A ∪ ∅ = A; A ∩ ∅ = ∅
Leis Comutativas
A∪ B = B ∪ A
A∩ B = B ∩ A
Leis Associativas
( A ∪ B) ∪ C = A ∪ ( B ∪ C )
( A ∩ B) ∩ C = A ∩ ( B ∩ C )
Leis Distributivas
A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C )
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C )
Guerino P. Junior
Estatística
pág. 35
Leis de DeMorgan
( A ∪ B) c = A c ∩ B c
( A ∩ B) c = A c ∪ B c
( A) c = A
A − B = A ∩ B c = A − ( A ∩ B)
Exemplo 8: Lançamento de um dado, onde:
Ω ={1;2;3;...;6}, onde A={1,2,3}, B={2,3,6} e C={2,3,4}
A∪B={1,2,3,6}
A∩C={2,3}
A = {4,5,6}
B = {1,4,5}
( A ∪ B ) = ( A ∩ B ) = {4,5}
2.6
Eventos Mutuamente Exclusivos
Sejam dois eventos A e B, os mesmos são ditos mutuamente exclusivos se a
ocorrência de A exclui a possibilidade de ocorrência de B, ou seja, eles se excluem
mutuamente (A ∩ B=∅)
Exemplo 9: O nascimento de uma criança, ou será homem ou será mulher, mas não
os dois.
Exemplo 10: O lançamento de uma moeda, ou será cara (H) ou coroa (T), mas não os
dois.
2.7
Função de Probabilidade
Uma vez identificado o espaço amostral Ω ={A1,A2,...,An} de um experimento,
podemos associar a cada elemento (evento) A1,A2,...,An sua possibilidade de
ocorrência.
A função de probabilidade é uma função definida no espaço amostral Ω do
experimento, assumindo valores reais, com as seguintes propriedades:
a) 0 ≤ P ( Ai ) ≤ 1 , i=1,2,...,n → P(Ai)=probabilidade de ocorrência de Ai
b)
2.8
∑
n
i =1
P( Ai ) = 1 , i=1,2,...,n
Definição Clássica de Probabilidade
Aplica-se a situações em que os resultados que compõem o espaço amostral
ocorrem com mesma regularidade, ou seja, os resultados são equiprováveis:
P ( Ai ) =
nAi N o de casos favoráveis a ocorrência de Ai
=
n
N o total de casos
Guerino P. Junior
Estatística
pág. 36
Exemplo 11: lançamento de uma moeda → P(H) = P(T) = 1/2
Exemplo 12:lançamento de um dado → P(Fi) = 1/6
2.9
Definição Frequentista de Probabilidade
Deve ser aplicada quando não se conhece a regularidade dos resultados. Este
processo se baseia na evolução da freqüência relativa do resultado Ai, à medida que o
No de repetições do experimento cresce. Matematicamente:
P( Ai ) = lim f (a i ) =
n →∞
Frequência com que ocorre o resultado Ai
N o total de realizações do exp erimento
Exemplo 13: Lançamento de uma moeda viciada → P(H) > P(T)
2.10 Calculo de Probabilidades
2.11 Probabilidades Fundamentais
P1) P(∅) = 0
P2) P ( A) = 1 − P ( A) → Complementar
P3) P ( A) + P ( A) = 1
P4) P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) → União
Neste momento, introduziremos o conceito de independência entre eventos e
introduziremos a probabilidade P5. Portanto, se os eventos A e B são ditos
independentes, vale:
P5) P ( A ∩ B ) = P ( A).P( B )
Teorema 2.1: Sejam A e B eventos independentes, antão Ac é independente de B, Bc
é independente de A e Ac é independente de Bc.
Demonstração para Ac e Bc:
P ( A c ∩ B c ) = P( A ∪ B ) c = 1 − P ( A ∪ B )
= 1 − [ P( A) + P( B) − P( A).P( B)]
= P( A c ) − P( B)[1 − P( A)] = P( A c ).P( B c )
Fica a cargo do leitor as demonstrações de Ac e B e vice-versa.
Guerino P. Junior
Estatística
pág. 37
Exercícios:
1) Suponha que o conjunto Universo seja formado pelos inteiros positivos de 1 a 10.
Sejam A={2,3,4}, B={3,4,5}, e C={5,6,7}. Enumere os elementos dos seguintes
conjuntos:
a) A ∩ B
b) A ∪ B
c) A ∩ B
d) A ∩ ( B ∩ C )
e) A ∩ ( B ∪ C )
2) Suponha que A e B sejam eventos tais que P(A)=x, P(B)=y e P ( A ∩ B ) = z .
Exprima cada uma das seguintes probabilidades em termos de x, y e z.
a) P ( A ∪ B )
b) P ( A ∩ B )
c) P ( A ∪ B )
d) P ( A ∩ B )
3) Um certo tipo de motor elétrico falha se houver uma das seguintes situações:
emperramento dos mancais, queima dos rolamentos, desgaste das escovas.
Suponha que o emperramento seja duas vezes mais provável do que a queima,
esta sendo 4 vezes mais provável que o desgaste das escovas. Qual será a
probabilidade de que a falha seja devida a cada uma dessas circunstancias?
4) Um rebanho de 110 bovinos está formado por 52 Hereford, 27 Angus, 10
Shorthorn , 11 Zebu e 10 que são cruzamento de Zebu e Angus. Escolhido um
bovino do rebanho ao acaso, qual a probabilidade de que seja:
a) Hereford ou Angus
b) Angus ou Zebu
c) Só Angus ou só Zebu
5) A probabilidade de que um homem esteja vivo daqui a 10 anos é 4/9 e de uma
mulher também estar viva na mesma época é 3/7. Qual a probabilidade de:
a) ambos estarem vivos
b) Pelo menos um dos dois estarem vivos
c) Somente um ou outro estar vivo
6) O quadro abaixo representa a classificação de um grupo de 30 mulheres, segundo
o estado civil e cor dos cabelos.
Cor do Cabelo
E. Civil
Casada (C)
Solteira (S)
Viúva (V)
Divorciada (D)
Total
Loura
(L)
5
2
0
3
10
Morena
(M)
8
4
1
1
14
Ruiva
(R)
3
1
1
1
6
Total
16
7
2
5
30
Guerino P. Junior
Estatística
pág. 38
Escolhe-se uma delas ao acaso, qual a probabilidade de:
a)
b)
c)
d)
e)
f)
g)
h)
Ser casada
Não ser loura
Não ser morena nem ruiva
Ser viúva
Ser solteira ou casada
Ser loura ou casada
Ser morena e solteira
Ser viúva e ruiva
2.12 Probabilidade Condicional
Sejam dois eventos A e B, onde a ocorrência anterior de A modifica a
probabilidade de ocorrência de B, portanto são eventos “dependentes”. Para calcular a
probabilidade de ocorrência de um evento A, dado que já ocorreu um evento B,
usamos:
P( A | B) =
P ( A ∩ B)
∴ P ( A ∩ B) = P( A | B) P ( B )
P( B)
Exercícios:
1) Uma caixa contem 7 bolas pretas e 3 vermelhas, retira-se 2 bolas ao acaso sem
reposição. Qual a probabilidade de serem:
a) as duas pretas
b) as duas vermelhas
c) uma preta e uma vermelha
d) uma de cada cor
2) Considere novamente o exemplo das 30 mulheres classificadas segundo o estado
civil e cor dos cabelos:
Cor do Cabelo
E. Civil
Loura
(L)
Casada (C)
Solteira (S)
Viúva (V)
Divorciada (D)
Total
5
2
0
3
10
Morena
(M)
8
4
1
1
14
Ruiva
(R)
3
1
1
1
6
Total
16
7
2
5
30
Seleciona-se uma ao acaso, calcule a probabilidade de:
a)
b)
c)
d)
ser
ser
ser
ser
casada, dado que a mesma é morena
divorciada, dado que a mesma é loura
viúva, dado que a mesma é ruiva
solteira, dado que a mesma é morena
Guerino P. Junior
Estatística
pág. 39
3) Um grupo de pessoas foi classificado quanto a peso e pressão arterial de acordo
com as proporções da quadro a seguir:
Pressão
Elevada
Normal
Total
Excesso
0,10
0,15
0,25
Peso
Normal Deficiente
0,08
0,02
0,45
0,20
0,53
0,22
Total
0,20
0,80
1,00
a) Uma pessoa é escolhida ao acaso no grupo, qual a probabilidade de ter pressão
elevada?
b) Uma pessoa com excesso de peso é escolhida ao acaso, qual a probabilidade da
mesma ter pressão elevada?
c) Uma pessoa com peso deficiente é escolhida ao acaso, qual a probabilidade da
mesma ter pressão normal?
4) Duas cartas são retiradas, sucessivamente e sem reposição, de um baralho comum
de 52 cartas embaralhadas. Determine a probabilidade de:
a)
b)
c)
d)
e)
a primeira carta não ser um ás de espadas ou um rei;
a primeira carta ser um ás, mas a segunda não;
ao menos uma carta de copas;
as cartas não serem do mesmo naipe;
não mais de uma carta ser uma figura (valete, dama, rei);
5) Dois dados honestos são lançados, qual a probabilidade da soma de suas faces
ser:
a)
b)
c)
d)
8, sabendo que o resultado do primeiro dado é 2?
8, sabendo que o resultado do primeiro dado é 3?
10, sabendo que o resultado do primeiro dado é maior que do segundo?
maior que 5, sabendo que o resultado do primeiro dado é 2?
6) A urna 1 contem x bolas brancas e y bolas vermelhas. A urna 2 contem z bolas
brancas e v bolas vermelhas. Uma bola é escolhida ao acaso da urna 1 e posta na
urna 2. A seguir, uma bola é retirada da urna 2. Qual será a probabilidade de que
esta bola seja branca?
Guerino P. Junior
Estatística
pág. 40
2.13 Teorema da Probabilidade Total
Suponha que o espaço amostral Ω de um experimento seja dividido em 3
eventos: R1, R2 e R3, de modo que:
R1
R2
B
Ω=
R3
R1 ∩ R 2 = ∅
R1 ∩ R3 = ∅
R 2 ∩ R3 = ∅
R1 ∪ R2 ∪ R3 = ∅
Considere um evento B qualquer. O evento B pode ser escrito como:
B = B∩Ω
= B ∩ ( R1 ∪ R 2 ∪ R3 )
= ( B ∩ R1 ) ∪ ( B ∩ R 2 ) ∪ ( B ∩ R3 )
então:
P( B) = P[( B ∩ R1 ) ∪ ( B ∩ R 2 ) ∪ ( B ∩ R3 )]
= P( B ∩ R1 ) + P( B ∩ R 2 ) + P( B ∩ R3 )
Aplicando a probabilidade condicional P ( B I Ri ) = P ( B | Ri ) P ( Ri ) , temos:
P( B) = P( B | R1 ) P( R1 ) + P( B | R2 ) P( R 2 ) + P( B | R3 ) P( R3 ) - Teorema da Prob. Total
Nesta dedução, dividimos o espaço amostral Ω em 3 partes R1 R2 e R3. O
resultado final P(B) "independe" do No de divisões do espaço amostral Ω, portanto o
Teorema da Probabilidade Total na sua forma geral é:
P( B) = P( B | R1 ) P( R1 ) + P( B | R2 ) P( R 2 ) + .... + P( B | R n ) P( R n )
Exemplo 14: Um piloto de formula um tem 50% de probabilidade de vencer uma
corrida, quando este se realiza sob a chuva. Caso não chova durante a corrida, sua
probabilidade de vitória é 25%. Se o serviço de meteorologia estimar em 30% a
probabilidade de chover durante a corrida, qual é a probabilidade deste piloto ganhar
esta corrida?
2.14 Regra da Multiplicação
Considerando ainda os eventos R1, R2 e R3 dispostos da forma acima
(mutuamente exclusivos). Suponha também que seja de interesse a ocorrêcia destes
três eventos, então tem-se:
P( R1 ∩ R 2 ∩ R3 ) = P( R1 ).P( R2 | R1 ).P( R3 | R1 ∩ R 2 )
Guerino P. Junior
Estatística
pág. 41
A forma acima é chamada Regra/Teorema da Multiplicação e, generalizando
para n eventos “mutuamente exclusivos”, tem-se:
P( R1 ∩ R 2 ∩ ... ∩ R n ) = P( R1 ).P( R 2 | R1 ).P( R3 | R1 ∩ R 2 )....P( R n | R1 ∩ R 2 ∩ ... ∩ R n −1 )
Exercícios:
1) Uma firma recentemente apresentou proposta para um certo projeto de
construção. Se seu principal concorrente apresentar uma proposta, há apenas 0,25 de
chance desta firma ganhar a concorrência. Se seu concorrente não apresentar
proposta, há 2/3 de chance da firma ganhar. A chance de seu principal concorrente
apresentar a proposta é 50%. Qual a probabilidade da firma ganhar a concorrência?
2) Uma bolsa contém 2 moedas de prata e 4 de cobre, e uma segunda contem 4 de
prata e 3 de cobre. Se uma moeda é selecionada ao acaso de uma das duas bolsas,
qual a probabilidade dela ser de prata?
3) Uma fabrica tem 3 maquinas A, B e C, que respondem respectivamente, por 40%,
35% e 25% de sua produção. Dois por cento da produção da maquina A consiste em
peças defeituosas; essa proporção é de 1% para a maquina B e de 3% para a
maquina C. Toma-se uma peça ao acaso, qual a probabilidade da mesma não ser
defeituosa?
4) Uma companhia produz circuitos integrados em três fabricas, I ,II e III. A fabrica I
produz 40% dos circuitos, enquanto a II e a III produzem 30% cada uma. As
probabilidades de que um circuito integrado produzido por estas fabricas não funcione
são respectivamente 0,01, 0,04 e 0,03, respectivamente. Escolhido um circuito da
produção conjunta das três fabricas, qual a probabilidade de o mesmo não funcionar?
5) Um restaurante popular apresenta dois tipos de refeições: salada completa ou um
prato a base de carne. 20% dos fregueses do sexo masculino preferem salada; 30%
das mulheres escolhem carne; 75% dos fregueses são homens. Considere os
seguintes eventos:
H: freguês é homem
M: freguês é mulher
A: freguês prefere salada
B: freguês prefere carne
Calcule:
a) P(H), P(A|H), P(B|M)
b) P ( A ∩ H ) , P ( A ∪ H )
c) P ( M | A)
Guerino P. Junior
Estatística
pág. 42
2.15 Teorema de Bayes
Note que no caso da determinação de P(B) através da utilização do Teorema da
Probabilidade Total:
P( B) = P( B | R1 ) P( R1 ) + P( B | R2 ) P( R 2 ) + .... + P( B | R n ) P( R n )
precisamos conhecer as probabilidades condicionais P(B|R1),....,P(B|Rn), que
representamos de modo genérico por P(B|Ri), i=1,2,...n.
Se desejarmos avaliar uma probabilidade condicional do tipo P(Ri|B), devemos
usar:
P ( Ri | B ) =
P ( B | Ri ) P ( Ri )
P ( B)
P ( Ri | B ) =
P ( B | R i ) P ( Ri )
P( B | R1 ) P( R1 ) + P( B | R 2 ) P( R 2 ) + .... + P( B | Rn ) P( Rn )
Exemplo 15: Considere o exemplo do piloto de formula 1 dado anteriormente,
suponha que o mesmo tenha ganhado a corrida, qual a probabilidade de ter chovido?
Exercícios
1) Considere o exercício 2) anterior das 2 bolsas contendo moedas de prata e de
ouro, se uma moeda de ouro é selecionada ao acaso de uma das duas bolsas, qual
a probabilidade de ser:
a) da bolsa 1
b) da bolsa 2
2) Suponha que esteja em curso uma eleição com dois candidatos, João e Pedro. Dos
habitantes da cidade, 2/3 apoiam Pedro, mas 5/9 dos habitantes do interior
apoiam João. Metade dos habitantes vive no interior, e metade vive na cidade. Se
você inicia uma conversa com um eleitor que se revela a favor de Pedro, qual é a
probabilidade de esse eleitor viver no interior?
3) Sua firma recentemente apresentou proposta para um certo projeto de
construção. Se seu principal concorrente apresentar uma proposta, há apenas 0,25 de
chance de sua firma ganhar a concorrência. Se seu concorrente não apresentar
proposta, há 2/3 de chance de sua firma ganhar. A chance de seu principal
concorrente apresentar proposta é 50 %. Qual a probabilidade de:
a) seu concorrente ter apresentado proposta, dado que sua firma ganhou a
concorrência ?
4) Os arquivos da polícia revelaram que, das vítimas de acidentes automobilísticos
que utilizam cinto de segurança, apenas 10 % sofrem ferimentos graves, enquanto
que essa incidência é de 50% entre as vítimas que não utilizam o cinto de segurança.
Estima-se em 60% a percentagem dos motoristas que usam o cinto. A policia acaba
de ser chamada para investigar um acidente em que houve um indivíduo gravemente
ferido. Calcule a probabilidade de ele estar usando o cinto no momento do acidente. A
pessoa que dirigia o outro carro não sofreu ferimentos graves. Calcule a probabilidade
de ela estar usando o cinto no momento do acidente.
Guerino P. Junior
Estatística
pág. 43
2.15 Variável Aleatória
Muitos experimentos produzem resultados não-numéricos. Antes de avaliá-los,
é conveniente transformar seus resultados em números, isto é, um “característico
numérico do resultado do experimento”, o que é feito através da "Variável Aleatória"
(V.A.), que é uma regra de associação de um valor numérico a cada ponto do espaço
amostral Ω .
Considere um experimento ε e seu espaço amostral Ω = {ϖ 1 ,ϖ 2 ,...,ϖ n } ,
qualquer função X (ϖ ) que transforma os pontos amostrais ϖ 1 ,ϖ 2 ,...,ϖ n em números
reais é chamada variável aleatória.
Definição 2.1: Uma Variável Aleatória X em um espaço de probabilidade (Ω, Α, P ) é
uma função com domínio no espaço amostral Ω e contradomínio nos reais, isto é,
atribui um número real X (ϖ ) a cada ponto ϖ ∈ Ω .
Exemplo 16: Um experimento consiste em lançar duas moedas e observar o No de
caras obtidas neste lançamento. Logo, tem-se a seguinte variável aleatória:
X: No de caras no lançamento das duas moedas
com o seguinte espaço amostral:
Ω = {ϖ 1 , ϖ 2 , ϖ 3 , ϖ 4 } = {TT , HT , TH , HH } → Espaço amostral do experimento.
Os pontos amostrais do espaço amostral acima precisam ser transformados em
“característicos numéricos”. Logo, tem-se o seguinte espaço amostral correspondente
ao número de caras no experimento:
Ω N = { X (ϖ 1 ), X (ϖ 2 ) = X (ϖ 3 ), X (ϖ 4 )} = {0,1,2}
Assim, Ω N é o espaço amostral expresso como característica numérica. Logo,
podemos fazer a seguinte associação:
Pontos
No de caras
Amostrais de Ω
X: X (ϖ )
P(X = x) = P[X = X(ϖ)]
ϖ 1 =TT
0
P ( X = 0) = 1 / 4
ϖ 2 =HT,ϖ 3 =TH
1
P ( X = 1) = 1 / 2
ϖ 4 =HH
2
P ( X = 2) = 1 / 4
Regra de Associação
Importante
Uma variável aleatória X é uma função “unívoca”, isto é, a cada ponto ϖ ∈ Ω ,
corresponderá exatamente um valor X (ϖ ) ;
Uma variável aleatória X geralmente é representada por letras maiúsculas e seus
valores por letras minúsculas, Ex: P(X = x) .
Guerino P. Junior
Estatística
pág. 44
Logo, há necessidade de transformar o espaço amostral contendo resultados “nãonuméricos” em um que contenha resultados numéricos, dado que a cada ponto ϖ do
espaço amostral corresponde um X (ϖ ) .
2.15.1 Variável Aleatória Discreta
Definição 2.2: Seja X uma Variável Aleatória. Se o número de valores possíveis de X,
isto é, o contradomínio de X for “finito” ou “infinito enumerável”, X será denominada
Variável Aleatória Discreta.
Exemplo 17: Numa determinada lombada eletrônica na cidade de Curitiba, num
determinado intervalo de tempo, carros que ultrapassam o limite máximo de
velocidade são fotografados. Uma variável aleatória de interesse pode ser:
X: Número de carros que ultrapassaram o limite de velocidade em mais que 10%
Definição 2.3: Seja X uma Variável Aleatória Discreta. Logo, o contradomínio de X
será formado no máximo por um número infinito enumerável de valores x1, x2,... A
cada possível resultado xi associa-se um número P(X = x i ) = p ( x i ) , i=1,2,...,
denominado probabilidade de xi, satisfazendo:
i) p ( x i ) ≥ 0, ∀i
∞
ii)
∑ p( x ) = 1
i =1
i
A função p definida acima é denominada Função de Probabilidade da variável
aleatória X e, a coleção de pares [xi , p ( x i ) ] , i=1,2,3,... é também conhecida como
Distribuição de Probabilidade.
Exemplo 18: Suponha que uma válvula eletrônica seja posta em um soquete e
ensaiada, sendo em seguida recolocada no lote do qual foi tirada. Admita que a
probabilidade de que o teste seja positivo é ¾, logo a probabilidade do teste negativo
é ¼. O ensaio continua até a primeira válvula positiva ser encontrada. Seja X a V.A.
“No de testes necessários para concluir o experimento”.
a)
b)
c)
d)
Monte o Espaço Amostral Ω ;
Determine a distribuição de probabilidade;
Mostre que vale a propriedade ii) da definição 2.3;
Calcule a probabilidade de ser necessário ao menos 4 testes e no máximo 6
testes para concluir o experimento.
Para alguns problemas, precisamos encontrar a probabilidade de que X assuma
um valor igual ou menor do que certo número. Tais probabilidades chamam-se
“cumulativas” e geralmente são denotadas por F(x).
2.15.1.1 Função Distribuição Acumulada de uma V.A. Discreta
Definição 2.4: Seja X uma Variável Aleatória Discreta, tal que x1,x2,...,xn são valores
de X dados em ordem “crescente”, isto é, x1 < x 2 < ... < x n . Pode-se definir uma função
F como a Função Distribuição Acumulada de X, dada por:
Guerino P. Junior
Estatística
pág. 45
F ( x n ) = ∑i =1 p( x i ) = P( X ≤ x n )
n
(2.1)
Satisfazendo:
i)
Se xn for o maior valor de X, então F ( x n ) = 1
F ( −∞ ) = 0, F (∞ ) = 1
iii) F ( xi ) − F ( xi −1 ) = p ( xi ) , para xi > xi −1 > xi − 2 > ...
ii)
importante
Os valores fora do domínio de X (menores que x1 ou maiores que xn), só ocorrem
com probabilidade 0. Logo podemos generalizar (2.1) para
F ( x n ) = ∑i =−∞ p( xi )
n
(2.2)
Exercício: Construa a Função Distribuição Acumulada para o exemplo 18
2.15.1.2 Valor Esperado de uma V.A. Discreta
Quando estudamos as distribuições de freqüências, em Estatística Descritiva,
procuramos caracterizar as principais medidas sobre a distribuição, como: média,
variância, desvio padrão etc. Estas características das distribuições, das quais as mais
conhecidas são a “média” e a “variância”, são definidas em termos de “valores
esperados” ou de “Esperança Matemática”.
Considere uma V.A. discreta X com a seguinte distribuição de probabilidade:
X
P ( X = xi )
x1
p(x1)
x2
p(x2)
......
......
xn
p(xn)
Definição 2.5: Seja X uma Variável Aleatória Discreta, com valores possíveis
x1,x2,...,xn,... Seja P ( X = xi ) = p ( xi ) , i=1,2,...,n,... Então, o valor esperado de X (ou
Esperança Matemática de X), denotado por E(X) é definido como
∞
E ( X ) = µ = ∑i =1 x i p( x i )
(2.3)
Exercício: Considerando ainda o exemplo 18, calcule E(X)
importante
De (2.3), se X tomar um No finito de valores, isto é, E ( X ) =
∑
n
i =1
xi p( xi ) , então o
valor esperado de X será considerado uma “média ponderada” dos valores
x1,x2,...,xn.
Se os mesmos forem “equiprováveis”, então E ( X ) = (1 / n)
∑
n
i =1
xi , que é uma média
aritmética simples dos valores x1,x2,...,xn (Verifique isto para o experimento que
consiste do lançamento de um dado não viciado).
Considere uma Variável Aleatória X (discreta ou contínua) e uma constante “c”, a
Esperança Matemática, goza das seguintes propriedades:
Guerino P. Junior
Estatística
pág. 46
E1) E(c)=c
E2) E(c.X)=c.E(X)
Logo, vimos que Esperança Matemática é a própria média µ, baseada no
conceito de probabilidade, podendo ser estabelecida antes da ocorrência do
experimento, se conhecermos a distribuição de probabilidade da V.A., como veremos
adiante. Portanto, é uma média a “priori”
Exercícios:
1) Um sujeito tem R$1000,00 para investir em ações. Se optar pelas ações X, terá
85% de probabilidade de receber, depois de um mês, R$1100,00, e 15% de
chance de perder tudo. Se escolher as ações Y, terá 65% de chance de receber
R$1400,00 e 35% de probabilidade de nada receber de volta. Qual a melhor
alternativa de investimento?
2) Dois jogadores de tênis, A e B, disputam um torneio, sabe-se que a probabilidade
de A vencer uma partida é 3 vezes a probabilidade de B vencer. Suponha que
estes jogadores decidam jogar apostando, de forma que o jogador A receberá de B
R$1000,00 caso vença a partida. Quanto o mesmo deverá pagar a B, caso perca a
partida, de forma que o jogo fique equilibrado?
3) Um banqueiro paga a soma das faces mostradas por dois dados, se a referida
soma é um número primo, e recebe a soma apurada, se a soma não for um
número primo. Como classificar este jogo?
4) Considere o exemplo 18 (ensaio das válvulas), porém admita que o experimento
acabará quando forem encontradas 2 válvulas positivas (uma após a outra). Seja X
a V.A. “No de testes necessários para concluir o experimento”
a)
Monte o Espaço Amostral Ω ;
b) Determine a distribuição de probabilidade;
c)
Calcule a Função Distribuição Acumulada e monte seu gráfico
d) Calcule a probabilidade de ser necessário ao menos 4 testes e no máximo 6
testes para concluir o experimento.
5) De um lote que contém 25 peças, das quais 5 são defeituosas, são escolhidas 4 ao
acaso. Seja X a V.A. “No de peças defeituosas encontradas”. Estabeleça a
distribuição de probabilidade de X, monte sua Função Distribuição Acumulada
dando também seu gráfico e calcule E(X), quando:
a)
As peças são escolhidas com reposição;
b) As peças são escolhidas sem reposição;
2.15.1.3 Variância de uma V.A. Discreta
Como vimos em estatística descritiva, a média (Esperança Matemática) é uma
medida de tendência central (i.e., uma das medidas que caracterizam o centro de
uma distribuição de probabilidade), porém, numa análise exploratória de dados, não é
suficiente saber apenas um valor de tendência central, mas também quão “dispersos”
os dados se encontram em torno deste valor. Logo, a medida que caracteriza os
dados quanto a dispersão (variabilidade), é o desvio padrão, que nada mais é do que
a raiz da variância da V.A.
Guerino P. Junior
Estatística
pág. 47
Definição 2.6: Seja X uma Variável Aleatória Discreta, define-se Variância de X,
2
denotada por V(X) ou σ , da seguinte maneira:
V ( X ) = ∑i =1
N
1
N
( x i − µ ) 2 = ∑i =1 p( x i )( x i − µ ) 2
N
(2.4)
2
A raiz quadrada de V(X) é denominada Desvio Padrão de X, denotado por σ .
importante
O número V(X) é expresso em unidades quadradas de X, razão pela qual se utiliza
o desvio padrão ao invés de V(X), uma vez que expressa a variabilidade nas
mesmas unidades de X.
Uma outra forma de expressar a variância de uma V.A. (discreta ou contínua), é dada
por:
V ( X ) = E ( X 2 ) − [ E ( X )] 2
(2.5)
A expressão (2.5) decorre do desenvolvimento de (2.4), aplicando a Definição
2.3 (inciso ii) e (2.3). Fica a cargo do leitor esta verificação.
Assim como a Esperança Matemática, a Variância de X também possui suas
propriedades. Por hora veremos apenas três:
V1) Seja “c” uma constante, então V(c)=0;
V2) V(X±c)=V(X);
V3) V(c.X)=c2.V(X).
Exercícios
Considerando ainda o exemplo 18, calcule V(X)
1) Calcule V(X) para a V.A. X do exemplo 18.
2) Calcule V(X) para a V.A. X do exercício 4 da página anterior.
2.15.1.4 Algumas Distribuições (Modelos) para V.A.s Discretas
2.15.1.4.1 Distribuição Geométrica
Definição 2.7: Seja um experimento ξ com realizações independentes e um evento A
associado a este experimento, tal que P(A)=p e P(Ac)=1-p, constantes. Uma Variável
Aleatória X que registra o número de repetições até a 1ª ocorrência de A, tem
distribuição Geométrica e possui a seguinte função de probabilidade:
P( X = k ) = (1 − p) k −1 p, k = 1,2,3,...
Se X segue uma distribuição Geométrica com parâmetro p, isto é, X~Geométrica(p),
sua esperança e a variância são dadas por
Guerino P. Junior
Estatística
pág. 48
E( X ) =
1− p
1
e V (X ) =
p
p2
Exemplo: O exemplo 18 (ensaio das válvulas) é uma distribuição Geométrica(3/4).
2.15.1.4.2 Distribuição Bernoulli
Definição 2.8: Uma Variável Aleatória discreta X que registra o “sucesso ou fracasso”
em uma única realização de um experimento, isto é, assume o valor “0” (fracasso)
com probabilidade (1-p) ou “1” (sucesso) com probabilidade p, possui distribuição
Bernoulli e sua função de probabilidade é dada por:
P( X = k ) = p k (1 − p) 1− k , k = 0,1
Se X segue uma distribuição Bernoulli com parâmetro p, isto é, X~Bernoulli(p), sua
esperança e a variância são dadas por
E ( X ) = p e V ( X ) = p(1 − p)
Exemplo: Considere o exemplo 18, porém com uma única realização. Seja X a V.A.
que registra se o ensaio da válvula foi positivo (sucesso - 1) ou negativo (fracasso 0). Como a probabilidade do sucesso é p=3/4 e fracasso é 1-p=1/4, tem-se:
0
•
•
1
1
0
1
3
3 1
3 1
P( X = 0) =     = e P( X = 1) =     =
4
4
 4  4
4 4
3
3
E ( X ) = p = e V ( X ) = p(1 − p) =
4
16
2.15.1.4.3 Distribuição Binomial
Definição 2.9: Seja X uma Variável Aleatória discreta que consiste de n realizações
de uma Variável Aleatória Bernoulli(p), então X tem função de probabilidade dada por
n
P( X = k ) =   p k (1 − p) n − k , k = 0,1,2,..., n
k 
Para deduzir a Esperança e Variância da V.A. Binomial(n,p), faremos uso do Teorema
2, cuja prova será omitida, mas seu resultado pode ser empregado na dedução de tal
esperança e variância.
Teorema 2: Sejam Y1,Y2,...Yn variáveis aleatórias independentes e identicamente
iid
distribuídas segundo uma distribuição Bernoulli(p), isto é, Y1 , Y2 ,..., Yn ~ Bernoulli( p) .
Então X=Y1+Y2+...+Yn é uma V.A. Binomial(n,p).
Assim, se X~Binomial(n,p), pelo Teorema 2 e por independência, tem-se:
E ( X ) = E (Y1 + Y2 + ... + Yn ) = E (Y1 ) + E (Y2 ) + ... + E (Yn ) = p + p + ... + p = np
Guerino P. Junior
Estatística
pág. 49
e
V ( X ) = V (Y1 + Y2 + ... + Yn ) = V (Y1 ) + V (Y2 ) + ... + V (Yn ) = p(1 − p) + p(1 − p) + ... + p(1 − p) = np(1 − p)
Também, da Definição 2.9 e do Teorema 2, vemos que uma V.A. Binomial(n,p) é
uma soma de n V.A.’s independentes Bernoulli(p). A Figura 2.1 ilustra o
comportamento da função de probabilidade da distribuição Binomial
0,4
p(xi)
0,3
0,2
0,1
0
0
2
4
6
8
10
x
Figura 2.1: Função de probabilidade de uma V.A. Binomial com parâmetros n=10 e
p=0,2.
Exemplo: Considerando ainda o exemplo 18, suponha que 4 válvulas sejam
selecionadas aleatoriamente do lote (c/ reposição). Seja X o “No de válvulas perfeitas
encontradas nos 4 ensaios das válvulas”, calcule:
a) A probabilidade de exatamente uma válvula ser perfeita;
1
3
 4  3   1 
3
P( X = 1) =   ×   ×   =
64
1  4   4 
b) A probabilidade de ao menos uma válvula ser perfeita;
 4   3  0  1  4  255
P( X ≥ 1) = 1 − P( X = 0) = 1 −   ×   ×    =
 0   4   4   256
c) O numero esperado de válvulas perfeitas;
E( X ) = 4 ×
3
=3
4
d) A variância desta V.A.
3 1 3
V (X ) = 4× × =
4 4 4
Guerino P. Junior
Estatística
pág. 50
2.15.1.4.4 Distribuição Poisson
Definição 2.10: Seja X uma Variável Aleatória discreta, tomando os valores
0,1,2,...,n,..., que registra o número de ocorrência de um certo evento num
determinado intervalo (tempo, distância, área e etc). Então, X tem função de
probabilidade dada por
P( X = k ) =
e −λ λk
, k = 0,1,2,3,...
k!
Logo, se X~Poisson(λ), sua esperança e a variância são dadas por
E( X ) = λ e V ( X ) = λ
Na V.A. de Poisson, o parâmetro λ é proporcional ao intervalo no qual se observa o
experimento. A Figura 2.2 ilustra a função de probabilidade de uma V.A.
X~Poisson(4).
0,2
p(xi)
0,16
0,12
0,08
0,04
0
0
3
6
9
12
15
x
Figura 2.2: Função de probabilidade de uma V.A. Poisson com média 4.
Exemplo: Em determinada rodovia (extremamente perigosa), o número de acidentes
por dia é distribuído segundo uma Poisson com média 4. Com base nesta informação,
calcule:
a) A probabilidade de haver no máximo 3 acidentes num certo dia;
P( X ≤ 3) = P( X = 0) + P( X = 1) + ... + P( X = 3)
e − 4 4 0 e − 4 41
e −4 4 3
=
+
+ ... +
= 0,0183 + 0,0733 + 0,1465 + 0,1954 = 0,4335
0!
1!
3!
b) A probabilidade de ocorrer no mínimo 3 acidentes em 1,5 dias.
Para 1 dia λ=4 e para 1,5 dias λ=6, logo:
Guerino P. Junior
Estatística
pág. 51
P( X ≥ 3) = 1 − P ( X < 2) = 1 − [ P( X = 0) + P( X = 1) + P( X = 2)]
 e − 6 6 0 e − 6 61 e − 6 6 2 
= 1− 
+
+
 = 1 − (0,0025 + 0,0149 + 0,0446) = 0,938
1!
2! 
 0!
2.15.1.4.5 Aproximação da Distribuição Poisson pela Distribuição Binomial
Se uma V.A. é distribuída segundo uma Binomial(n,p), em que n é grande
(n→∞) e p proximo de zero (p→0), tal distribuição pode ser aproximada por uma
distribuição de Poisson com média λ=np. Suponha que X~Binomial(n,p), então
n
n(n − 1)...(n − k + 1) k
P( X = k ) =   p k (1 − p ) n − k =
p (1 − p) n − k
k!
k 
fazendo λ=np, temos p=λ/n e podemos reescrever a função de probabilidade acima
da seguinte forma
P( X = k ) =
λ k n (n − 1)
k! n
n
...
(n − k + 1)  λ 
1 − 
n
 n
k
 λ
1 − 
 n
−k
(2.6)
Escrevendo (2.6) como o produto de outras duas funções de n, de forma que
P( X = k ) = g (n). f (n) ,
em
que
g ( n) =
λ k (n − 1) (n − k + 1) 
k!
n
...
n
−k
λ
1 −  e
 n
 λ
f ( n ) = 1 −  ,
 n
n
assumindo também que n→∞, tem-se do calculo elementar que
lim P( X = k ) = lim f (n). lim g (n) = e − λ
n →∞
n→∞
n →∞
λk
k!
= Poisson(λ )
Logo, quando n→∞ e p→0, verifica-se da expressão acima que a distribuição
Binomial(n,p) é aproximada pela distribuição Poisson com média λ=np.
A Figura 2.3 ilustra este tipo de aproximação através das comparações das Funções
Distribuição de uma Binomial e uma Poisson.
Guerino P. Junior
Estatística
Figura 2.3: Comportamento das Funções Distribuição
Binomial(100;0,05) e uma Poisson com média λ=np=5.
pág. 52
Acumuladas
de
uma
A grande proximidades das Funções Distribuição apresentadas na Figura 2.3
evidencia a aproximação das distribuições Binomial e Poisson com os referidos
parâmetros. Para p=0,01, esta proximidade entre as duas distribuições é aumentada,
chegando a coincidir.
Exemplo: Suponha que em uma grande população a proporção de pessoas que têm
uma certa doença é 0,01. Determine a probabilidade de ao menos 4 pessoas num
grupo de 200, possuir a doença:
a) Usando a distribuição exata (Binomial);
b) Usando a aproximação pela Poisson.
2.15.2 Variável Aleatória Contínua
Definição 2.12: Diz-se que X é uma Variável Aleatória Contínua, se existir uma
função f denominada função densidade de probabilidade (fdp) de X que satisfaça
as seguintes condições:
i)
f ( x) ≥ 0, ∀x
ii)
∫
∞
−∞
f ( x)dx = 1
iii) para quaisquer a, b, com -∞<a<b<+∞, tem-se P(a ≤ X ≤ b) =
∫
b
a
f ( x)dx.
importante
X é uma V.A. Contínua se puder tomar todos os valores em algum intervalo (c,d),
onde “c e d” podem ser respectivamente -∞ e +∞;
P(c ≤ X ≤ d ) representa a área sob a curva da fdp, entre x=c e x=d;
Para qualquer valor especificado de X, digamos x0, tem-se P(X=x0)=0
Definição 2.13: Seja X uma Variável Aleatória Contínua. Define-se a função F como
a Função Distribuição Acumulada X, dada por:
Guerino P. Junior
Estatística
pág. 53
k
F (k ) = ∫ f ( x)dx = P( X ≤ k )
(2.7)
−∞
Satisfazendo:
i)
Se xn for o maior valor de X, então F ( x n ) = 1
ii)
F ( −∞ ) = 0, F (∞ ) = 1
iii) F ( xi ) − F ( xi −1 ) =
∫
xi
xi −1
f ( s )ds , para xi > xi −1 > xi − 2 > ...
Definição 2.14: Seja X uma Variável Aleatória Contínua com fdp f. O valor esperado
de X é definido como:
+∞
E ( X ) = ∫ xf ( x)dx = µ
−∞
(2.8)
importante
Pode ser que a integral (imprópria) (2.8) não convirja. Consequentemente, diz-se
que E(X) existirá se, e somente se,
∫
+∞
−∞
| x | f ( x)dx for finita;
Definição 2.15: Seja X uma Variável Aleatória Contínua com fdp f. A Variância de X é
dada por:
+∞
V ( X ) = ∫ ( x − µ ) 2 f ( x)dx
−∞
(2.9)
e valem as propriedades V1 e V2.
Exemplo: Seja X uma V.A. com fdp dada por
1


,2 ≤ x ≤ 4
f ( x) = 
2
0, para qualquer outro valor
a) De o gráfico desta densidade;
b) Calcule P(X>5/2);
c) Encontre E(x) e V(X)
2.15.2.1 Algumas Distribuições (Modelos) para V.A.s Contínuas
2.15.2.1.1 Distribuição Uniforme Contínua
Definição 2.16: Seja X uma Variável Aleatória contínua que tome todos os valores
no intervalo [a,b], com “a” e “b” finitos. Então se X tem fdp dada por
1


,a ≤ x ≤ b
f ( x) = 
b−a
0, para qualquer outro valor
Diz-se que X~Uniforme(a,b), sendo sua esperança e a variância dadas por
Guerino P. Junior
Estatística
pág. 54
(b − a ) 2
a+b
E( X ) =
e V (X ) =
2
12
Exemplo: Suponha que X seja uma V.A. Uniformemente distribuída no intervalo [-a,a]
com a>0. Determine o valor de a (se possível), de forma a satisfazer as seguintes
probabilidades:
a) P(X>1)=1/3
b) P(X>1)=1/2
c) P(X<0,5)=0,7
d) P(X<1/2)=0,3
e) P(|X|<1)=P(|X|>1)
2.15.2.1.2 Distribuição Normal
Definição 2.17: Seja X uma Variável Aleatória contínua, dizemos que X tem
Distribuição Normal com parâmetros µ e σ 2 , com − ∞ < µ < ∞ e σ 2 ≥ 0 , se sua fdp é
dada por:
f ( x) =
 1  x − µ  2 
exp− 
 , − ∞ < x < ∞
 2  σ  
σ 2π
1
A esperança e variância de uma V.A. X~Normal(µ,σ2), são dadas por:
E( X ) = µ e V ( X ) = σ 2
A curva da distribuição é simétrica (em forma de sino), conforme ilustra a Figura 2.4:
0,4
p(xi)
0,3
0,2
0,1
0
-5
-3
-1
1
3
5
x
Figura 2.4: Comportamento da fdp de uma V.A. Normal com média 0 e variância 1.
A distribuição Normal merece destaque, dado que é uma das distribuições
continuas mais importantes em probabilidade. Dela são deduzidas outras distribuições
como t-Student. Log-Normal, Pareto e etc. Esta distribuição também é chamada
“Gaussiana”, devido ao cientista alemão Karl F. Gauss, que a estabeleceu
Guerino P. Junior
Estatística
pág. 55
Se uma variável aleatória X é tal que X~N(µ ; σ), podemos transformá-la numa
outra variável aleatória Z que segue uma distribuição Normal Padronizada, ou seja,
com média 0 e desvio padrão 1, a qual será denotada por Z~N(µ = 0 ; σ = 1).
O procedimento de padronização facilita o calculo de probabilidades, o qual é
dado por:
Z=
x−µ
σ
Uma vez padronizada a variável aleatória, podemos encontrar as probabilidades
correspondentes na tabela da distribuição Normal Padronizada.
Propriedades da Distribuição Normal:
•
•
•
•
•
Devido à simetria, moda=média=mediana
f(x)→0 quando x→±∞
µ-σ e µ+σ são pontos de inflexão de f(x)
x=µ é o ponto de máximo de f(x), cujo valor máximo é 1 / 2π σ
f(x) é simétrica ao redor de x= µ, isto é, f(µ-σ)=f(µ+σ), para -∞<µ<∞
Exemplo:A taxa de hemoglobina no sangue de pessoas que gozam de boa saúde
segue uma distribuição Normal com média 12 e desvio padrão 1. Qual a probabilidade
de se encontrar uma pessoa saudável com taxa de hemoglobina:
a) superior a 15
b) inferior a 10
c) entre 10 e 13
d) inferior a 10 e superior a 13
Exercícios
1) A probabilidade de sucesso numa certa técnica de inseminação artificial é 3/4.
Considerando independência entre uma inseminação e outra, num total de 6
inseminações, qual a probabilidade de:
a) exatamente 2 darem certo
b) no mínimo duas darem certo
c) no máximo 4 darem certo
d) qual o valor esperado de sucessos
2)
a)
b)
c)
d)
Uma moeda é lançada 4 vezes, qual a probabilidade de se obter:
exatamente 2 caras
no mínimo 2 caras
no máximo 2 caras
não mais que 3 caras
3) Numa criação de coelhos, 40% dos nascem são machos. Qual a probabilidade de
que nasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos?
4) Uma fábrica de motores para geladeiras separa de sua linha de produção diária de
400 peças uma amostra de 30 itens para inspeção. O número de peças defeituosas
é de 20 por dia. Qual a probabilidade de que a amostra contenha pelo menos 3
motores defeituosos?
Guerino P. Junior
Estatística
pág. 56
5) De um lote que contém 30 peças das quais 9 são defeituosas , são escolhidas 5 ao
acaso.
a) Calcule a probabilidade de não ter nenhuma defeituosa;
b) Calcule a probabilidade de no máximo duas boas.
6) Em uma família de 7 filhos, determine a probabilidade de:
a) ao menos dois meninos;
b) no mínimo uma menina;
7) Numa central telefônica, o número de chamadas é em média de 8 por minuto.
Determine a probabilidade de:
a) se ter no mínimo 2 chamadas por minuto
b) se ter no máximo 2 chamadas em 20 segundos
c) se ter entre 7 e 9 chamadas em um minuto
8) Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de 1
a cada 2000 pés. Qual a probabilidade de que um rolo com 2000 pés de fita
magnética tenha:
d) nenhum corte
e) no máximo dois cortes
f) pelo menos dois cortes
9) Numa estrada há 2 acidentes para cada 100 km. Qual a probabilidade de que em:
a) 250 km ocorram pelo menos 3 acidentes?
b) 300 km ocorram 5 acidentes?
10) O número de partículas gama emitidas por segundo, por certa substância
radioativa, é uma variável aleatória com distribuição de Poisson com λ = 3,0. Se
um instrumento registrador torna-se inoperante quando há mais de 4 partículas
por segundo, qual a probabilidade de isto ocorrer em qualquer dado segundo?
11) Suponha que o número de erros tipográficos em uma única página de um livro
tenha uma distribuição de Poisson com parâmetro λ = 1. Calcule a probabilidade
de que:
a) Uma página qualquer contenha exatamente 1 erro;
b) Uma página qualquer não contenha erros;
c) Uma página qualquer contenha pelo menos 1 erro;
d) Uma página qualquer contenha 2 ou 3 erros;
e) No máximo 1 erro na página;
12) Um PABX recebe uma média de 0,5 chamadas por minuto. Supondo que as
chamadas que chegam constituam uma distribuição de Poisson:
a) Obter a probabilidade de que o PABX não receba chamadas durante um intervalo
de 1 minuto.
b) Calcule a probabilidade de se obter no máximo 2 chamadas em 4 minutos;
c) Calcule a probabilidade de se obter exatamente 2 chamadas em 4 minutos;
d) Calcule a probabilidade de se obter no máximo 2 chamadas em 10 minutos;
Guerino P. Junior
Estatística
pág. 57
13) Os clientes chegam em uma loja a uma razão de cinco por hora. Admitindo que
esse processo possa ser aproximado por um modelo de Poisson, determine a
probabilidade de que durante qualquer hora:
a) Não chegue nenhum cliente
b) Chegue mais de um cliente
14) A probabilidade de um indivíduo ter reação negativa a certa injeção é de 0,003.
Determine a probabilidade de que, em 2000 indivíduos injetados:
a) exatamente 3 deles tenha reação negativa – use a distribuição exata;
b) mais de 4 tenha reação negativa – use a distribuição exata;
c) calcule os itens a e b aproximando a Binomial pela Poisson
15) A altura média dos estudantes de uma certa universidade é 175 cm com desvio
padrão de 5 cm. Supondo que as alturas sejam normalmente distribuídas, calcule
a probabilidade de um estudante medir:
a) mais de 170 cm
b) menos de 185 cm
c) entre 172 cm e 180 cm
16) Se o tempo necessário para montar uma mesa de computador é uma variável
aleatória Normal com media igual a 55 minutos e desvio padrão igual a 12
minutos, quais são as probabilidades de a mesa ser montada em:
a) menos de 45 minutos;
b) em um tempo entre 45 e 60 minutos;
c) em um tempo entre 67 e 75 minutos;
17) Os resultados de um exame nacional para estudantes recem-formados
apresentam uma média igual a 500 com um desvio padrão igual a 100. Os
resultados têm uma distribuição aproximadamente normal. Qual a probabilidade
de que o grau de um indivíduo escolhido aleatoriamente esteja:
a) entre 500 e 650?
b) entre 450 e 600?
c) inferior a 300?
d) superior a 650?
e) Acima de qual grau se encontram os 15% maiores?
18) Segundo as condições do problema anterior. Que grau corresponde ao:
a) centil 50
b) centil 30
c) centil 90
19) O tempo necessário para o atendimento de uma pessoa em um guichê de um
banco tem distribuição normal com media igual a 130 segundos e desvio padrão
igual a 45 segundos. Qual a probabilidade de que um indivíduo aleatoriamente
selecionado:
a) requeira menos de 100 segundos para terminar a transação?
b) gastar entre 2 e 3 minutos no guichê?
c) dentro de que período de tempo os 20% de pessoas que realizam as transações
mais rápidas terminam seus negócios no guichê?
d) qual é o tempo mínimo necessário para os 5% de indivíduos com as transações
mais complicadas?
Guerino P. Junior
Estatística
pág. 58
20) Uma enchedora automática de garrafas de refrigerantes está regulada para que o
volume de liquido em cada garrafa seja em média de 1000 cm3 e o desvio padrão
de 100 cm3. Pode-se admitir que a distribuição da variável seja Normal.
a) qual a porcentagem de garrafas em que o volume de liquido é menor que 900
cm3?
b) qual a porcentagem de garrafas em que o volume de liquido não se desvia da
média em mais que 2 desvios padrões?
c) o que acontecerá com a porcentagem do item b) se a máquina estiver regulada
com média de 1200 cm3 e o desvio padrão de 200 cm3?
d) Uma certa fabrica de refrigerantes possui 10 destas enchedoras, qual a
probabilidade de no máximo duas delas encherem as garrafas com mais de 1050
cm3?
2.15.2.1.3 Relação Entre as Distribuições Binomial e Normal
Se n (numero de realizações) é grande, isto é, n → ∞ , e nem p e nem q são
demasiadamente próximos de zero, a distribuição Binomial pode ser satisfatoriamente
aproximada por uma distribuição normal com variável aleatória padronizada, dada
por:
Z=
X − np
npq
Aqui X é uma V.A. que da o número de sucessos em n provas de Bernoulli e p é
a probabilidade de sucesso. Quanto maior for n, melhor a aproximação. Na prática, a
aproximação é muito boa, se np e nq são ambos maiores que 5. Pode-se descrever o
fato da distribuição Binomial tender para a distribuição Normal, escrevendo:


X − np
lim P a ≤
≤ b =


n →∞
npq


1
2π
∫
b
a
e −u
2
/2
du
em outras palavras, a variável aleatória padronizada
X − np
é assintoticamente
npq
Normal.
Suponha uma V.A. X~Binomial(n=100, p=0,07), neste caso np=7 e nq=93,
logo justifica uma aproximação de X para uma outra V.A. Y ~ Normal ( µ = 7;σ 2 = 6,51) .
A Tabela 2.1 abaixo representa as distribuições acumuladas para as duas
distribuições, considerando os eventos de 1 a 20, veja como os valores das
probabilidades acumuladas são bem próximos:
Guerino P. Junior
Estatística
pág. 59
Tabela 2.1 - Comparação Entres as Distribuições Acumuladas de X e Y
x ou y
F ( x) = P[ X ≤ x]
F ( y ) = P[Y ≤ y ]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,0060
0,0258
0,0744
0,1632
0,2914
0,4443
0,5988
0,7340
0,8380
0,9092
0,9531
0,9776
0,9901
0,9959
0,9984
0,9994
0,9998
0,9999
1,0000
1,0000
0,0094
0,0250
0,0582
0,1190
0,2206
0,3483
0,5000
0,6517
0,7794
0,8810
0,9418
0,9750
0,9906
0,9969
0,9992
0,9998
0,9998
0,9998
1,0000
1,0000
Para uma melhor comparação, visualize o gráfico abaixo, o qual contem as
curvas das duas distribuições acumuladas para os eventos de 1 a 20:
D is trib u içõ e s A cu m u la da s d e X e Y
1 ,0 0 0 0
0 ,9 0 0 0
0 ,8 0 0 0
Probabilidade
0 ,7 0 0 0
0 ,6 0 0 0
0 ,5 0 0 0
0 ,4 0 0 0
0 ,3 0 0 0
0 ,2 0 0 0
0 ,1 0 0 0
0 ,0 0 0 0
0
5
10
15
20
E ve n to
x
y
Exemplo 1: Uma amostra de 200 estabilizadores de tensão é recebida pelo controle de
qualidade de uma empresa. A amostra é inspecionada, a produção toda será aceita
somente se houver no máximo 10 estabilizadores com defeitos. O fabricante dos
estabilizadores afirma que somente 5% de sua produção é composta de itens
defeituosos. Qual a probabilidade da empresa recusar a remessa de estabilizadores?
Guerino P. Junior
Estatística
pág. 60
Exemplo 2: Uma fabrica de computadores oferece garantia de 2 anos em seus
equipamentos. O fabricante afirma que apenas 3% de sua produção apresenta algum
tipo de problema antes deste prazo. Determine as probabilidades de que, num lote de
1000 computadores, se tenha:
a) no mínimo 18 computadores com problemas dentro deste prazo;
b) mais de 800 computadores sem apresentar qualquer problema neste prazo;
c) entre 900 e 950 computadores sem qualquer desfeito neste prazo;
2.15.2.1.4 Relação Entre as Distribuições de Poisson e Normal
Assim como existe uma relação entre as distribuições Binomial e Normal, e
entre a Binomial e Poisson, é de esperar-se que exista uma relação entre as
distribuições Normal e Poisson. E este é o caso, efetivamente. Pode-se mostrar que se
X é a Variável de Poisson, então
X −λ
λ
é a correspondente variável aleatória Normal
padronizada, então:
X −λ


lim P a ≤
≤ b =
λ →∞
λ


1
2π
b
∫e
a
−u 2 / 2
du
isto é, a distribuição de Poisson tende para a distribuição Normal quando λ → ∞ , ou
seja,
X −λ
λ
é assintoticamente Normal.
Suponha uma V.A. X ~ Poisson(λ = 20) , como a média desta distribuição é
relativamente grande, tentaremos uma aproximação de V.A. X por uma outra
Y ~ Normal ( µ = 20;σ 2 = 20) . A Tabela 2.2 abaixo mostra as probabilidades acumuladas
de X e Y:
Guerino P. Junior
Estatística
pág. 61
Tabela 2.2 - Comparação Entres as Distribuições Acumuladas de X e Y
x ou y
F ( x) = P[ X ≤ x]
F ( y ) = P[Y ≤ y ]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
30
0,0000
0,0000
0,0000
0,0000
0,0001
0,0003
0,0008
0,0021
0,0050
0,0108
0,0214
0,0390
0,0661
0,1049
0,1565
0,2211
0,2970
0,3814
0,4703
0,5591
0,6437
0,7206
0,7875
0,8432
0,8878
0,9221
0,9865
0,0000
0,0000
0,0000
0,0000
0,0004
0,0009
0,0018
0,0037
0,0069
0,0125
0,0222
0,0367
0,0582
0,0901
0,1314
0,1867
0,2514
0,3264
0,4129
0,5000
0,5871
0,6736
0,7486
0,8133
0,8686
0,9099
0,9875
Para uma melhor comparação, observe as curvas das duas distribuições
acumuladas no gráfico abaixo, as duas se aproximam muito:
D is trib u içõ e s d e X e Y
1 ,0 0 0 0
0 ,9 0 0 0
Probabilidade
0 ,8 0 0 0
0 ,7 0 0 0
0 ,6 0 0 0
0 ,5 0 0 0
0 ,4 0 0 0
0 ,3 0 0 0
0 ,2 0 0 0
0 ,1 0 0 0
0 ,0 0 0 0
0
5
10
15
20
25
30
35
E ve n to
x
y
Guerino P. Junior
Estatística
pág. 62
Exemplo 1: Em uma delegacia de furtos e roubos, ocorrem em média 15 queixas por
dia. Qual a probabilidade de se ter:
a) entre 18 e 22 queixas num dia?
b) menos de 15 queixas num certo dia?
c) mais de 25 queixas num dia?
Exemplo 2: Num certo provedor de acesso a internet, o número médio de acessos por
usuário é de 15 por dia. Determine a probabilidade de que:
a) Um usuário realize pelo menos 15 acessos no dia
b) Um usuário realize entre 13 e 17 acessos num dia
c) Um usuário realize no máximo 12 acessos num dia
Guerino P. Junior
Estatística
pág. 63
3. Estimação
3.1 Introdução
Suponha que estejamos interessados em estudar o comportamento das alturas
dos alunos do sexo masculino de uma universidade. Podemos obter as alturas de
todos os alunos (população) e construir o histograma correspondente. O problema
estará praticamente resolvido, pois o histograma resume uma boa parte das
informações que precisamos, como por exemplo a forma (simetria) da curva, idéia da
dispersão e concentração dos dados em torno dos valores de tendência central.
Tal processo pode ser inviável, podendo implicar em trabalho exaustivo e de
alto custo. Neste caso uma alternativa possível seria estudar uma amostra
representativa da população de alturas e construir seu histograma . Fazendo isto
constataremos que o polígono de freqüências, obtido do histograma, é próximo de
uma curva Normal, que, como vimos, é caracterizada por dois valores: µ e σ .
Portanto para estudar o comportamento de todas as alturas de alunos, precisamos
apenas determinar os valores de µ e σ , o que será feito através de uma amostra da
população.
Esta é a atitude a ser adotada em situações práticas. Através de amostras ou
de algumas informações relevantes sobre a situação em estudo, escolhemos uma
forma para a distribuição dos dados: o modelo estatístico. Obtêm-se então
aproximações para os valores (parâmetros) que caracterizam este modelo.
3.2 Parâmetros
Vimos que, no estudo do comportamento das alturas, ao qual se adapta o
modelo Normal, precisamos determinar µ e σ . A estes valores damos o nome de
parâmetros, que são números fixos, embora muitas vezes desconhecidos. Toda
distribuição de probabilidades depende de parâmetros, que determinam a sua forma
específica.
Exemplo 1) Se a distribuição das alturas, em centímetros, de um conjunto de alunos é
Normal ( µ = 170; σ = 5), qual é a probabilidade de se observar um aluno com altura
superior a 180 cm?


P(X > 180) = P Z >
180 − 170 
 = P(Z > 2 ) .= 1-0,9772 = 0,0228
5

Se os valores de µ e σ não fossem conhecidos, quais valores deveríamos usar
para calcular a probabilidade no exemplo anterior? Resposta e este tipo de problema é
dada pela inferência estatística.
3.3 População e Amostra
3.3.1 População
Por população, no sentido estatístico, entendemos o conjunto das medidas da
característica de interesse em todos os elementos que a possuem. Assim, por
exemplo, se estamos interessados nas alturas dos alunos de uma universidade, a
população estatística será o conjunto de números reais que representam as diferentes
alturas dos alunos. Desta forma os parâmetros desta população seriam, altura média,
Guerino P. Junior
Estatística
pág. 64
altura mediana, o desvio padrão e etc, sendo que a média e desvio padrão
caracterizarão a distribuição dos dados.
3.3.2 Amostra
Amostra é qualquer subconjunto de elementos da população. Em inferência
estatística, entretanto, trabalhamos apenas com amostras aleatórias, onde todos os
elementos da população têm a mesma probabilidade de ser escolhidos. Com isto,
garantimos que toda variabilidade presente na população estará refletida na amostra.
Outra conseqüência do caráter aleatório é que o conhecimento de um elemento
qualquer nada nos informa quanto ao valor dos outros elementos.
3.4 Estatísticas
Qualquer valor calculado com base nos elementos de uma amostra é chamado
uma estatística, ou ainda, qualquer função das observações aleatórias X1,X2,...,Xn é
uma estatística. Por exemplo, a média amostral, ou seja, a média dos elementos da
amostra, é uma estatística, assim como o são a mediana amostral, a proporção
amostral e etc.
As estatísticas variam de uma para outra amostra, sendo, pois, elas próprias
variáveis aleatórias. Podemos, assim, falar de população de médias amostrais, de
medianas amostrais, ou de forma equivalente, das distribuições das médias
amostrais, das medianas amostrais etc.
Exemplo 2) Suponha uma população com tamanho N=5, composta dos seguintes
valores {1, 3, 5, 5, 7}. Considerando amostragem aleatória com reposição, teremos
25 amostras possíveis de tamanho n=2, as quais gerarão 25 médias amostrais, das
quais algumas são repetidas.
Considere as tabelas de dupla entrada abaixo, onde X1 é a primeira extração da
população e X2 a segunda extração, assim X =
X1 + X 2
, a primeira tabela nos dá as
2
médias amostrais, enquanto a segunda nos da sua probabilidades de ocorrência:
X2
X2
1
3
5
5
7
1
1
2
3
3
4
1
3
5
5
7
Total
1
1/25
1/25
1/25
1/25
1/25
1/5
3
2
3
4
4
5
3
1/25
1/25
1/25
1/25
1/25
1/5
X1
5
3
4
5
5
6
X1
5
1/25
1/25
1/25
1/25
1/25
1/5
5
3
4
5
5
6
5
1/25
1/25
1/25
1/25
1/25
1/5
7
4
5
6
6
7
7
1/25
1/25
1/25
1/25
1/25
1/5
1/5
1/5
1/5
1/5
1/5
1
Desta forma a distribuição amostral de X é dada abaixo:
Guerino P. Junior
Estatística
x
P( X = x )
pág. 65
1
1/25
2
2/25
3
5/25
4
6/25
5
6/25
6
4/25
7
1/25
Total
1,00
Se fizermos o histograma de freqüências para a distribuição das médias
amostrais, teremos:
Distribuição da Média Amostral
7
6
Frequencia
5
4
3
2
1
0
1
2
3
4
5
6
7
Média Amostral
Como se pode ver, o histograma tem uma leve assimetria negativa, portanto
próximo de uma simetria. Se o tamanho da amostra crescer, isto é, n → ∞ , maior
será a aproximação da distribuição de X para uma distribuição Normal, cujos
parâmetros serão µ e σ 2 / n . Portanto X ~ Normal ( µ ;σ 2 / n) , estes resultados podem
ser verificados através do Teorema do Limite Central.
3.5 Estimação Pontual
A estimação pontual procura fixar um valor numérico único que esteja
satisfatoriamente próximo do verdadeiro valor do parâmetro. O parâmetro
populacional de interesse é geralmente designado por uma letra grega, por exemplo
µ , σ , Θ e etc. Para estimá-lo, extraímos uma amostra de tamanho n da população
(isto é, com n elementos X1,X2,....,Xn) e procuramos construir uma função destes
valores, ou seja, uma estatística, tal que seu valor, calculado com base nos dados
amostrais esteja o mais próximo possível do valor do parâmetro populacional. Uma
estatística deste tipo é chamada de estimador.
Como diferentes amostras geram valores (estimativas) distintos de um
estimador, o mesmo também é uma variável aleatória.
A tabela abaixo nos dá o exemplo de alguns parâmetros populacionais e seus
estimadores:
Característica Populacional
Média
Mediana
Parâmetro
Estimador
~
X
x
~
x̂
Variância
σ2
σˆ 2 ou S 2 (não viciado)
Proporção
P
p̂
µ
Guerino P. Junior
Estatística
pág. 66
Alguns destes estimadores já nos são conhecidos, porém iremos novamente
colocar suas fórmulas abaixo:
a) Estimação da Média: Não é de se admirar que o melhor estimador da média
populacional seja a média aritmética amostral:
x=
1
n x
( X 1 + X 2 + .... + X n ) = ∑i =1 i
n
n
este estimador é não tendencioso (não viciado) e de mínima variância, como
veremos posteriormente.
b) Estimação da Variância: A variância populacional σ 2 , pode ser estimada pelo seu
estimador de máxima verossimilhança, porém viciado:
∑ (x − x )
=
2
n
σˆ 2
i =1
i
n
ou então pelo estimador não viciado:
∑ (x − x )
=
2
n
S2
i =1
i
n −1
c) Estimação da Proporção: Se estivermos interessados na proporção p de elementos
de uma população que apresenta uma certa característica, extrai-se da mesma
uma amostra de tamanho n, onde k será o número de elementos na amostra que
possuem esta característica, assim:
pˆ =
k
n
, onde k = ∑i =1 xi ,e xi é igual a 0 ou 1.
n
As observações dos n elementos podem ser consideradas como n provas
independentes de Bernoulli com probabilidade de sucesso p, ou seja, k =
∑
n
x tem
i =1 i
distribuição Binomial(n,p), com média E[k]=np e variância V[k]=npq. O estimador p̂
também é não viciado.
3.6 Qualidades de um Estimador
3.6.1 Não Tendenciosidade
É razoável exigir que um bom estimador tenha sua distribuição de valores de
algum modo centrada no verdadeiro valor do parâmetro populacional a ser estimado.
E como a média, ou esperança, de uma variável aleatória é uma medida de centro da
mesma, uma exigência razoável para um estimador θˆ é que E[θˆ] = θ . Isto é, sua
média deve ser igual ao valor do parâmetro. Um estimador que possua esta
propriedade é chamado "não tendencioso" ou "não viciado".
Guerino P. Junior
Estatística
pág. 67
Não tendenciosidade implica que os diversos valores de θˆ se distribuam em
torno do verdadeiro valor θ sem ocasionar subestimação ou superestimação
sistemática de θ .
3.6.2 Mínima Variância
Dois estimadores θˆ1 e θˆ2 não viciados de θ podem acusar dispersões
(variabilidades) diferentes em torno do verdadeiro valor de θ . Naturalmente, quanto
menor for esta dispersão, melhor o estimador refletirá aquele valor. Então, a segunda
exigência é: entre os estimadores não viciados de θ , escolhe-se aquele que tenha
menor variância. Tal estimador, se existir, chama-se estimador não viciado de mínima
variância de θ .
Uma medida da variabilidade da distribuição de θ é dada por seu desvio
padrão, também chamado, no caso, erro padrão de θˆ . O gráfico abaixo ilustra dois
estimadores de θ , ambos não viciados, porém com erros padrão diferentes. Deve-se
preferir θˆ1 por apresentar menor dispersão.
0,4
Teta 1
Teta 2
0,3
0,2
0,1
0
-10
-6
-2
2
6
10
Valor do Parâmetro
Exemplo 1: Um pesquisador deseja estimar a produção média de um processo
químico com base na observação da produção de três realizações X1, X2 e X3 de um
experimento. Considere os dois estimadores da média:
X1 + X 2 + X 3
- media aritmética
3
X + 2X 2 + X3
x= 1
- media ponderada
4
x=
Qual deve ser o preferido?
a) quanto a não tendenciosidade?
b) quanto a variabilidade?
Guerino P. Junior
Estatística
pág. 68
3.6.3 Consistência
Um estimador é dito consistente quando seu grau de dispersão em torno do
parâmetro populacional é inversamente proporcional ao tamanho da amostra. Isso
significa que, quando o tamanho da amostra se encaminha (tende) para o tamanho
da população, ele tende estocasticamente (probabilisticamente) para o valor do
verdadeiro parâmetro e sua dispersão (e eventual vicio), para zero. Para populações
de variância finita, a média, a mediana e a variância amostrais são estimadores
consistentes dos respectivos parâmetros populacionais; se a variância populacional for
infinita, as estimativas produzidas podem ser inconsistentes.
3.6.4 Eficiência
Um estimador é dito eficiente quando gera a menor dispersão possível. Nesse
sentido, a eficiência é uma medida relativa - dos vários estimadores não viciados e
normalmente distribuídos em torno do verdadeiro parâmetro populacional (por
exemplo p̂ e x ), eficiente é o de menor dispersão. Uma das vantagens do estimador
eficiente é ele minimizar o tamanho da amostra necessária para se atingir certa
precisão. Ele reduz tanto os recursos necessários para obtê-lo quanto o intervalo onde
se espera achar o valor procurado. Nas distribuições simétricas, sabe-se que a média,
a mediana e a moda amostrais são não viciados e consistentes da média populacional.
No entanto, o valor mais comumente empregado é a média amostral, simplesmente
por ser ela o estimador mais eficiente.
3.7 Teorema do Limite Central
Seguem-se dois resultados importantes, que mencionaremos sem demonstrar:
I) Quando a população é Normalmente distribuída com media µ e desvio padrão σ ,
isto é, N ( µ ;σ ) , a média amostral X de amostras de tamanho n tem distribuição
também Normal com média µ e desvio padrão
σ
n

, ou seja, X ~ N  µ ;

σ 
.
n
II) Para uma população não-normal com média µ e desvio padrão σ , a distribuição
da média amostral
X
para amostral de tamanho n suficientemente grande é
aproximadamente Normal com média µ e desvio padrão
σ
n

, ou seja, X ~ N  µ ;

σ 
.
n
Assim, padronizando a variável aleatória X , temos:
X −µ
~ N (0,1)
σ/ n
Também pelo Teorema do Limite Central, a proporção amostral p̂ também é
Normalmente distribuída com média p e desvio padrão



forma, pˆ ~ N  p;
pq
, onde q=1-p. Desta
n
pq 
 . Em outras palavras, quando n → ∞ , a proporção amostral p̂
n 
Guerino P. Junior
Estatística
pág. 69
se torna normalmente distribuída em torno da verdadeira proporção p. Desta forma,
padronizando temos:
pˆ − p
~ N (0,1)
pq / n
Exercícios:
1) Seja X uma V.A. normalmente distribuída, com µ = 9 e σ = 3 . Qual a probabilidade
de uma de suas amostras de 20 elementos ter média maior que 10?
2) Um certo produtor vende seus vinhos em caixas com 30 garrafas. Qual a chance
de uma caixa ter volume médio inferior a 735 ml, se a média das garrafas é de
750 ml com desvio padrão de 25 ml?
3) Um fabricante de sabão em pó vende-os em caixas de 500 g de peso médio e 40 g
de desvio padrão.
a) Que peso médio se espera em lotes de 80 caixas?
b) Qual a chance deste peso médio estar entre:
j) entre 495 e 510 g?
ii) acima de 510 g?
4) Para se avaliar a taxa de desemprego em determinado estado, escolhe-se uma
amostra aleatória de 1000 habitantes em idade de trabalho e contam-se os
desempregados: 87. Estimar a proporção de desempregados em todo o estado
(população). Avaliar o erro padrão da estimativa.
5) A Cactus-Cola decidiu lançar no mercado um novo refrigerante, o qual ela afirma
matar qualquer sede. Para confirmar a qualidade de seu novo refrigerante realizou
pesquisa de mercado em que 20% dos que provaram o produto afirmaram que
seriam seus consumidores. Como ela só lança produtos que interessem a mais de
1/4 dos prováveis consumidores, qual a chance de que, em uma amostra de 200
pessoas, mais de 50 demonstrem real interesse pelo produto?
6) Uma certa granja vende ovos aos supermercados em lotes de 100 caixas de seis
dúzias. Dado que seus lotes costumam apresentar 5% de ovos chocos, em quantas
amostras de 20 caixas esperam-se encontrar menos de 90% de ovos bons?
Guerino P. Junior
Estatística
pág. 70
3.8 Estimação intervalar
Um estimador pontual com base em uma amostra produz um único número
como estimativa da parâmetro. Muitas vezes, entretanto, queremos considerar,
cojuntamente, o estimador e a precisão com que estima o parâmetro. A forma usual
de se fazer isto é através dos chamados intervalos de confiança.
Seja então X1,X2,...,Xn uma amostra aleatória de uma população e θ o
parâmetro de interesse. Sejam θˆ0
e θˆ1
estatísticas tais que θˆ0 = θˆ − EP (θˆ)
e
θˆ1 = θˆ + EP(θˆ) , onde E.P. é o erro padrão da estimativa θˆ , então:
P[θˆ0 < θ < θˆ1 ] = 1 − α
Então o intervalo [θˆ0 ;θˆ1 ] é chamado intervalo de confiança de nível 100 (1 − α )%
para o parâmetro θ .
É importante observar que o nível de confiança se aplica ao processo de
construção de intervalos, e não a um intervalo específico. Para explicitar o conceito de
intervalo de confiança, suponha que retiremos um grande número de amostras de
tamanho n, fixo, da população em estudo e, para cada amostra, construamos um
intervalo. Os limites dos intervalos resultantes serão diferentes. O verdadeiro valor do
parâmetro estará contido, em média, em 100 (1 − α )% desses intervalos, ou seja,
100 (1 − α )% dos intervalos construídos abrangerão o verdadeiro valor do parâmetro
θ.
3.8.1 Intervalo de Confiança para a Média Populacional µ
Quando se constrói um intervalo de confiança para a média populacional µ ,
com (1 − α )% de confiança, diz-se que o intervalo de confiança x ± Z α
verdadeiro valor da média com probabilidade (1 − α ) , ou seja:
2
σx
n
contém o
σ ( x)
σ ( x) 

Px − Z α
< µ < x + Zα
 =1−α
n
n
2
2

onde:
•
Z α : valor de Z na distribuição normal, cuja área acima dele corresponde a
2
uma probabilidade de (α / 2)%
•
Zα
2
•
•
σ ( x)
: erro padrão da estimativa.
n
σ ( x ) : desvio populacional conhecido
α : nível de significância
Exemplo 1) Para uma amostra de 50 observações de uma população Normal com
média desconhecida e desvio-padrão σ = 6 , a média amostral x foi 20,5. Construa
um intervalo de 95% de confiança para a media populacional µ .
Guerino P. Junior
Estatística
pág. 71
Exemplo 2) Numa certa universidade, o coeficiente de inteligência (QI) dos alunos é
Normalmente distribuído com média 110 e desvio padrão igual a 10, isto é,
X ~ N ( µ = 110; σ = 10) . Tomou-se uma amostra aleatória com reposição de 30 alunos e
o valor médio de seus QI’S foi x = 107 . Determine o intervalo de confiança de 90% p/
o QI médio.
3.8.2 Fator de Correção
Na maioria das situações, é inviável a amostragem com reposição, um dos
principais motivos é o custo.
Desta forma, se o tamanho da amostra for menor que 5% do tamanho da
população (Finita), a não reposição pode ser desprezada, caso contrário deve-se
corrigir o intervalo para compensar os efeitos da não reposição. O fator de correção a
ser usado é:
N −n
N −1
onde:
•
•
N é o tamanho da população
n é o tamanho da amostra
No caso de se utilizar o fator de correção, o intervalo de confiança para a média
populacional µ tomaria a forma x ± Z α
2
σ (x)

Px − Z α
n
2

σx
n
N −n
, e em termos probabilísticos:
N −1
σ ( x)
N −n
< µ < x + Zα
N −1
n
2
N −n
 =1−α
N −1 
Exemplo 3) Suponha novamente o exemplo 2), porém com o tamanho da população
igual a 500 alunos na universidade. Determine o IC para a média populacional com
95% de confiança.
3.8.3 Intervalo de Confiança para a Média com Desvio Padrão Desconhecido
As vezes não se tem qualquer informação sobre o desvio padrão populacional
σ , assim o desvio padrão utilizado na construção do intervalo de confiança é o seu
∑ (x − x )
2
estimador não viciado S( x ) =
S
2
(x)
=
i
n −1
, ou seja, o desvio amostral. Desta
forma, o intervalo com (1 − α )% de confiança toma a forma x ± t α

 ; n −1 
2

S( x )
n
, e em termos
probabilísticos:

S ( x)
S ( x) 
Px − t α 
< µ < x + t α 
 =1−α
 ; n −1 
 ; n −1 
n
n 
2

2


onde:
Guerino P. Junior
Estatística
•
pág. 72
t α

 ; n −1 
2

: Valor t correspondente a uma distribuição t-Student, cuja área acima
dele corresponde a uma probabilidade de (α / 2)% , com n-1 graus de
liberdade.
•
t α
S ( x)

 ; n −1 
2

:o erro padrão da estimativa
n
De forma análoga ao item anterior, caso o tamanho da amostra exceda a 5%
do tamanho da população, usa-se o fator de correção, ficando o intervalo na seguinte
forma x ± t α
S( x )

 ; n −1 
2

n
N −n
, e em termos probabilísticos:
N −1

S ( x)
Px − t α 
 ; n −1 
n

2

S ( x)
N −n
< µ < x + t α 
 ; n −1 
N −1
n
2

N −n
 =1−α
N − 1 
Exemplo 4) Numa amostragem aleatória simples sem reposição, foram escolhidos 16
indivíduos aparentemente saudáveis, dos quais se coletou uma certa substância na
urina (miligramas por dia). Determine um Intervalo com 90% de confiança para a
média populacional e o erro padrão da estimativa, sabendo-se que a media e desvio
amostrais foram respectivamente x = 0,156 e S(x) = 0,1122.
Exemplo 5) Considerando ainda o exemplo anterior, porém sabendo que a amostra foi
retirada de uma população de tamanho N=200 indivíduos, encontre o intervalo de
confiança para a média com 95%.
3.8.4 Determinação do Tamanho da Amostra para a Estimativa da Média
O binômio nível de confiança e erro padrão da estimativa constitui a precisão de
uma estimativa.
Para uma amostra de tamanho fixo, à medida que aumentamos o valor do nível
de confiança do intervalo, o erro padrão da estimativa também aumenta. O ideal, em
termos de precisão, seria aumentar o nível de confiança e diminuir o erro-padrão da
estimativa.
Isto pode ser conseguido aumentando-se o tamanho da amostra, o que induz
ao seguinte problema: qual deve ser o tamanho da amostra para se atingir
determinada precisão?
A solução deste problema é obtida observando-se a expressão do erro padrão
em uma estimativa da média:
Guerino P. Junior
Estatística
pág. 73
Pressupostos
Com desvio padrão populacional
conhecido
Com desvio padrão populacional
conhecido e população finita
Com desvio
desconhecido
padrão
populacional
Com desvio padrão populacional
desconhecido e população finita
Erro padrão
e = Zα / 2
e = Zα / 2
Tamanho da amostra
σ (x)
 Z α / 2σ ( x ) 

n = 
e


n
σ (x )
N −n
N −1
n
e = t α
S (x)
e = t α
S (x)

 ; n −1 
2


 ;; n −1 
2

Z α2 / 2σ (2x ) N
e 2 ( N − 1) + Z α2 / 2σ (2x )
 t α  s(x) 
  2 ;n −1



n= 
e




n
n
n=
2
N −n
N −1
t 2α
n=

 ; n −1 
2

2
S (2x ) N
e 2 ( N − 1) + t 2α

 ; n −1 
2

S (2x )
Exemplo 5) Considerando o exemplo 2 (QI de alunos), calcule:
a) O tamanho de amostra para que o erro padrão não seja superior a duas unidades,
mantendo a confiança de 95%
b) O mesmo que o item anterior, porém com 99% de confiança.
c) O erro padrão da estimativa, considerando uma amostra de tamanho 50 e 90% de
confiança.
Exemplo 6) Considerando o exemplo 4 (substancia na urina), calcule:
a) O tamanho que a amostra deve ter para que o erro padrão da estimativa seja no
máximo de 0,01 unidades.
b) O tamanho que a amostra deve ter para que o erro padrão da estimativa seja no
máximo 0,01, porém com 99% de confiança.
3.8.5 Intervalo de Confiança para a Proporção Populacional
Considere uma população com N elementos, e uma propriedade qualquer.
Esta propriedade divide a população em dois subconjuntos: o subconjunto dos
elementos que satisfazem esta propriedade e o subconjunto dos elementos que não
satisfazem esta propriedade.
•
K: No de elementos que satisfazem a propriedade na população – proporção
p=
•
K
.
N
N-K: No de elementos que não satisfazem a propriedade na população – proporção
q=
N −K
N
Esta situação é muito comum e nosso interesse é estimar o valor de p. Para isto
selecionamos uma amostra aleatória de n elementos desta população.
A amostra também ficará dividida pela propriedade em dois subconjuntos: o
dos elementos que satisfazem e o dos elementos que não satisfazem a esta
propriedade.
Guerino P. Junior
Estatística
pág. 74
k
n
•
k: No de elementos que satisfazem a propriedade na amostra – proporção pˆ =
•
n-k: No de elementos que não satisfazem a propriedade na amostra – proporção
qˆ =
n−k
n
Para determinar um intervalo de confiança para p, podemos usar p̂ como uma
aproximação de p, uma vez que p̂ é o estimador de p. Assim, o intervalo com
100 (1 − α )%
de confiança para p, toma a forma
pˆ ± Z α
2
pˆ qˆ
, e em termos
n
probabilísticos:

P  pˆ − Z α
2

pˆ qˆ
< p < pˆ + Z α
n
2
pˆ qˆ 
 =1−α
n 
onde:
•
pˆ qˆ
: erro padrão da estimativa
n
Zα
2
Assim, pode-se dizer que a probabilidade do intervalo acima conter o valor da
verdadeira proporção é de ( 1 − α )%.
Quando é estipulado um tamanho para a população, ou seja, a população é
finita e o tamanho da amostra excede a 5% do tamanho da população, usa-se o fator
de correção para corrigir o intervalo, assim o intervalo de confiança será
N −n
, e em termos probabilísticos:
N −1
pˆ qˆ
n
pˆ ± Z α
2

P  pˆ − Z α
2

pˆ qˆ
n
N −n
< p < pˆ + Z α
N −1
2
pˆ qˆ
n
N −n
 =1−α
N −1 
onde:
•
Zα
2
pˆ qˆ
n
N −n
: erro padrão da estimativa
N −1
Para a precisão da estimativa da proporção, temos:
Pressupostos
População Infinita
População Finita
Erro-padrão
e = Zα / 2
e = Zα
2
2
pˆ qˆ
n
pˆ qˆ
n
Tamanho da amostra
N −n
N −1
Z
pˆ qˆ 

n =  α /2


e


2
Z α / 2 pˆ qˆN
n= 2
e ( N − 1) + Z α2 / 2 pˆ qˆ
Guerino P. Junior
Estatística
pág. 75
Exemplo 7) Numa amostra de 100 indivíduos admitidos num hospital psiquiátrico, 34
admitiram ter usado maconha pelo menos uma vez na vida. Com base nos dados,
calcule:
a) O intervalo de confiança de 95% para a proporção populacional dos que usaram
maconha ao menos uma vez.
b) O intervalo de confiança de 95% da proporção populacional, admitindo que o total
de indivíduos no hospital seja 590.
c) O erro padrão da estimativa, considerando uma confiança de 99%, considerando a
população infinita
d) O tamanho que a amostra deve ter, considerando 95% e uma erro padrão de 0,02,
considerando a população infinita.
3.8.6 Intervalo de Confiança para a Variância de uma População
Se uma variável aleatória X admite distribuição normal de probabilidades com
média µ e variância σ 2 , isto é, X ~ N ( µ ; σ 2 ) , então:
 S x2 (n − 1)
S x2 (n − 1) 
2
P 2
<σ <
 =1−α
χ (2α / 2 ) 
 χ 1−(α / 2 )
onde:
•
S x2 já foi definido no item 1.3
•
χ 12−(α / 2) é o valor de uma distribuição Qui-quadrado com n-1 graus de
liberdade, que deixa a sua esquerda uma área de α / 2 .
χ (2α / 2 ) é o valor de uma distribuição Qui-quadrado com n-1 graus de
liberdade, que deixa a sua direita uma área de α / 2 .
•
Pressuposto
É fundamental que a suposição de “normalidade” da população da qual a
amostra foi retirada seja atendida, caso contrário os resultados levarão a conclusões
absurdas.
Exemplo 8) Num certo estudo para se avaliar alguns parâmetros hematológicos, foi
coletada uma amostra de 11 crianças infectadas, com idades variando de 1 mês até
4,5 anos de idade. As células de glóbulos brancos foram contadas na unidade (×
109/Litro), obtendo-se os seguintes valores:
20,2
15,4
8,4
29,8
40,9
19,7
49,5
12,1
32
72,9
13,5
Construa um intervalo de confiança para a variância populacional com 90% de
confiança.
Guerino P. Junior
Estatística
pág. 76
3.8.7 Intervalo de Confiança para a Soma e Diferença Entre Médias de Duas
Populações Normais Independentes
Se uma variável aleatória X1 admite distribuição Normal com média µ1 e
desvio-padrão σ 1 e uma Variável Aleatória X2 admite distribuição Normal com média
µ 2 e desvio-padrão σ 2 , então E ( x1 ± x 2 ) = µ 1 ± µ 2 .
Da mesma forma já verificamos que a média amostral x é normalmente
distribuída com média µ e variância σ =
2
x
σ2
n
, assim, se X1 e X2 são normalmente
distribuídos conforme acima, então as médias amostrais x 2 e x1 têm as seguintes
distribuições
x1 ~ N ( µ 1 ; σ 12 / n1 )
x 2 ~ N ( µ 2 ; σ 22 / n 2 )
Como X1 e X2 são V.A.'s independentes, então a variância da soma ou diferença
das médias amostrais, é:
σ ( x1 ± x 2 ) = σ
2
2
x1
+σ
2
x2
=
σ 12
n1
+
σ 22
n2
consequentemente o desvio padrão é:
σ ( x1 ± x 2 ) =
σ 12
n1
+
σ 22
n2
Desta forma a padronização, ou seja, a mudança que transforma uma V.A.
x = x1 ± x 2 em uma outra V.A. Normal Z é:
z=
( x1 ± x 2 ) − ( µ 1 ± µ 2 )
σ 12
n1
+
σ 22
n2
Disto temos que o intervalo com 100 (1 − α )% de confiança para a soma ou
diferença
entre
as
médias
é
dado
por
( x1 ± x2 ) ± Z α
2
σ 12
n1
+
σ 22
n2
,
e
em
termos
probabilísticos:

σ 12 σ 22
σ 12 σ 22 
P ( x1 ± x 2 ) − z α
+
< µ 1 ± µ 2 < ( x1 ± x 2 ) + z α
+
 =1−α
n1
n2
n1
n 2 

2
2
O pressuposto para a aplicação deste intervalo é que os desvios populacionais
σ 1 e σ 2 sejam conhecidos. No caso de não serem conhecidos, trabalha-se com suas
Guerino P. Junior
Estatística
pág. 77
estimativas S1 e S2, substituindo-se z po t. O intervalo nesta situação assume a forma
( x1 ± x2 ) ± tα
2
S12 S 22
+
, e em termos probabilísticos:
n1 n2

P ( x1 ± x 2 ) − t α

2
s12 s 22
+
< µ 1 ± µ 2 < ( x1 ± x 2 ) + t α
n1 n 2
2
s12 s 22 
+  =1−α
n1 n 2 
Os graus de liberdade para a variável t no intervalo acima, são calculados pelo
método de Aspin-Welch:
GL =
 s12 s 22 
 + 
n

 1 n2 
2
2
2
 s12 
 s 22 
 
 
n 
 
1
  +  n2 
n1 + 1 n 2 + 1
−2
Exemplo 9) Duas populações normais independentes com distribuições X1 e X2,
apresentam desvios σ 1 = 8 e σ 2 = 6 . Duas amostras aleatórias de tamanhos 20 e 15,
da primeira e segunda população respectivamente, apresentaram médias
x1 = 50 e x 2 = 30 . Determine o Intervalo de Confiança de 95% para µ 1 − µ 2 .
Exemplo 10) Duas amostras aleatórias de 10 e 15 elementos de duas populações
normais independentes X1 e X2 respectivamente, apresentaram médias
x1 = 18 e x 2 = 25 , com desvios s1 = 3 e s 2 = 4 . Calcule o Intervalo de Confiança de 95%
para µ 1 + µ 2 .
3.8.8 Intervalo de Confiança para a Soma ou Diferença de Proporções
Da mesma forma que a média amostral, a proporção amostral p̂ é também
normalmente distribuída com média p e variância σ 2p =
pq
. Se considerarmos uma
n
propriedade qualquer e duas populações, podemos considerar a proporção definida
por esta propriedade em cada população. A distribuição amostral da proporção em
cada população pode ser amostrada, considerando-se amostras de tamanho n1 e n2 da
primeira e segunda população respectivamente, obtem-se:
p1q1
n1
pq
E ( pˆ 2 ) = p 2 e σ 22 = 2 2
n2
E ( pˆ 1 ) = p1 e σ 12 =
Guerino P. Junior
Estatística
pág. 78
Fazendo x = pˆ 1 ± pˆ 2 , temos que a média para soma ou diferença de proporções
é
E ( x) = E ( pˆ 1 ± pˆ 2 ) = E ( pˆ 1 ) ± E ( pˆ 2 ) = p1 ± p 2
e
a
variância
e
desvio-padrão
são
p1 q1 p 2 q 2
p1q1 p2 q 2
+
e σ ( pˆ 1 ± pˆ 2 ) =
+
n1
n2
n1
n2
Aplicando-se a mudança que transforma uma V.A. x = pˆ 1 ± pˆ 2 em uma outra
respectivamente σ 2 ( pˆ1 ± pˆ 2 ) = σ 12 + σ 22 =
V.A. Normal Z, tem-se:
z=
( pˆ 1 ± pˆ 2 ) − ( p1 ± p 2 )
p1 q1 p 2 q 2
+
n1
n2
Disto temos que o intervalo de confiança para a diferença ou soma de
proporções toma a forma ( pˆ1 ± pˆ 2 ) ± Z α
2

P ( pˆ 1 ± pˆ 2 ) − z α

2
pˆ1qˆ1 pˆ 2 qˆ2
+
, e em termos probabilísticos:
n1
n2
pˆ 1 qˆ1 pˆ 2 qˆ 2
+
< p1 ± p 2 < ( pˆ 1 ± pˆ 2 ) + z α
n1
n2
2
pˆ 1 qˆ1 pˆ 2 qˆ 2
+
n1
n2

 = 1−α

Como este intervalo pressupõe amostras grandes, usa-se as aproximações
p1 ≈ pˆ 1 e p 2 ≈ pˆ 2 .
Exemplo 11) A assessoria de um candidato à Presidência da República efetuou um
levantamento amostral em dois Estados da União. No estado A selecionou-se 120
eleitores ao acaso e verificou-se que 36 votariam neste candidato. No estado B
selecionou-se 80 eleitores ao acaso e verificou-se que 22 votariam neste candidato.
Construa o Intervalo de Confiança de 95% para a diferença p1-p2, entre as Proporções
de eleitores deste candidato nos estados A e B.
Exercícios:
1) Numa tentativa de melhorar o esquema de atendimento, um médico procurou
estimar o tempo médio que gasta com cada paciente. Uma amostra aleatória de
49 pacientes, colhida num período de três semanas, acusou uma média de 30
minutos, com desvio padrão de 7 minutos. Construa um intervalo de 95 % de
confiança para o verdadeiro tempo médio de consultas.
2) Uma amostra aleatória de 15 contas não-comerciais na filial de um banco acusou
saldo médio diário de R$ 280,00 com desvio padrão de R$ 60,00.
a) Construa um intervalo de 95 % de confiança para a verdadeira média.
b) Construa um intervalo de 99 % de confiança para a verdadeira média.
3) Solicitou-se a 100 estudantes de um colégio que anotassem sua despesas com
alimentação e bebidas no período de uma semana. Há 500 estudantes no colégio.
O resultado foi uma despesa média de R$ 40,00 com desvio padrão de R$ 10,00.
Construa um intervalo de 95 % de confiança para a verdadeira média.
Guerino P. Junior
Estatística
pág. 79
4) De uma distribuição normal com variância 1,96, obteve-se a seguinte amostra:
25,2; 26,0; 26,4; 27,1; 28,2; 28,4. Determinar o intervalo de confiança para a
média da população, sendo α = 5 % e α = 10 %.
5) O tempo de reação de uma injeção intravenosa é em média de 2,1 minutos, com
desvio padrão de 0,1 minutos, para um grupo de 28 pacientes. Admitindo que a
distribuição é aproximadamente normal, construa um intervalo de 90 % de
confiança para o tempo médio para toda a população dos pacientes submetidos ao
tratamento
6) Um administrador de uma universidade coleta dados sobre uma amostra aleatória
de âmbito nacional de 230 alunos de cursos de Administração e encontra que 54
de tais estudantes tem diploma de Contabilidade. Usando um intervalo de
confiança de 90 %, estimar a proporção nacional de estudantes que possuem
diplomas de Contabilidade.
7) Para verificar se um dado era viciado, jogou-se o mesmo 120 vezes, obtendo-se
25 vezes o número cinco. Calcular um intervalo de confiança para a proporção α =
1 %. Pode-se dizer que o dado é viciado?
8) Em uma grande área metropolitana em que estão localizados 800 postos de
gasolina, para uma amostra aleatória de 36 postos, 20 comercializam um
determinado óleo lubrificante. Usando um intervalo de confiança de 95 %:
a) estimar a proporção de todos os postos de gasolina daquela área
metropolitana que comercializam o óleo;
b) o número total de postos de serviço da área que comercializam o óleo.
9) De 42 pessoas escolhidas aleatoriamente de uma longa fila de espera de um
cinema, 20 % acham que o filme principal continha demasiada violência.
a) Qual devia ser o tamanho da fila, a partir do qual se pudesse desprezar o
fator de correção finita?
b) Construa um intervalo de 98 % de confiança para a verdadeira proporção,
se há 100 pessoas na fila;
c) Construa um intervalo de 98 % de confiança para a verdadeira proporção,
se há 900 pessoas na fila;
10) Para uma amostra aleatória de 100 domicílios em uma grande área
metropolitana, o número de domicílios nos quais ao menos um adulto se encontra
desempregado e procurando emprego é 12. Estimar a percentagem de domicílios
na área, nos quais há pelo menos um adulto desempregado, utilizando o intervalo
de confiança de 95 %.
11) Um candidato encomenda uma pesquisa eleitoral nos estados X e Y. Em X, de
210 eleitores, 63 dispõem-se a votar nele; em Y, de 180, apenas 42 estão com
ele. A 5% de significância, que proporção de votos ele pode esperar nos 2
estados?
Guerino P. Junior
Estatística
pág. 80
4. Testes de Significância
Quando quisermos avaliar um parâmetro populacional, sobre o qual não
possuímos nenhuma informação com respeito a seu valor, não resta outra alternativa
a não ser estimá-lo através do intervalo de confiança.
No entanto, se tivermos alguma informação com respeito ao valor do parâmetro
que desejamos avaliar, podemos testar esta informação no sentido de aceitá-la como
verdadeira ou rejeitá-la.
Chamaremos de Hipótese nula, indicando por H0, a informação a respeito do
valor do parâmetro que queremos avaliar, e chamaremos de Hipótese alternativa,
indicando por H1, a informação a respeito do parâmetro que aceitaremos como
verdadeiro caso H0 seja rejeitada.
O teste de significância é uma regra de decisão que permite aceitar ou rejeitar
como verdadeira uma hipótese nula H0, com base na evidência amostral. Isto significa
que utilizaremos uma amostra desta população para verificar se a amostra confirma
ou não o valor do parâmetro informado pela hipótese H0.
Quando decidimos pela aceitação ou rejeição de uma hipótese nula, estamos
sujeitos a acertos e erros na decisão. De modo geral, em qualquer tipo de decisão, os
acertos e erros podem ser dispostos segundo o quadro abaixo:
Decisão
H 0 Verdadeira
H 0 é falsa
Erro tipo II
Aceita-se H 0 Decisão Correta
Erro Tipo I
Decisão Correta
Rejeita-se H 0
•
•
Erro Tipo I: Consiste em rejeitar uma hipótese H0 quando a mesma é verdadeira.
Erro Tipo II: Consiste em aceitar como verdadeira uma hipótese H0, quando a
mesma é falsa.
O nível de significância α de um teste é a probabilidade de se cometer o erro
tipo I, ou seja:
P[Re jeitar H 0 H 0 é verdadeira ] = α
Já a probabilidade de se cometer o erro tipo II, não recebe nome especial e
será indicada por β , ou seja:
P[Aceitar H 0 H 0 é falsa ] = β
A hipótese nula é sempre indicada por uma igualdade do tipo: H 0 : θ = r , onde
θ representa o parâmetro a ser testado e r o seu valor. Já a fixação da hipótese
alternativa é o que irá diferenciar os tipos de teste:
a) Testes Unilaterais:
H 0 : θ = r Versus H 1 : θ < r ou ainda
H 0 : θ = r Versus H 1 : θ > r
Guerino P. Junior
Estatística
pág. 81
b) Teste Bilateral
H 0 : θ = r Versus H 1 : θ ≠ r
A realização de um teste compreende as seguintes etapas:
1) Identificar H0.
2) Identificar H1 (pois H1 define o tipo de teste a ser empregado).
3) Construir a Região Crítica para o teste escolhido.
4) Calcular a estatística do teste e verificar se a mesma se situa na região de
aceitação ou de rejeição de H0.
5) Decisão do Teste:
-Se o valor da estatística estiver na região de aceitação (RA), aceite H0.
-Se o valor da estatística estiver na região de rejeição (ou crítica - RC), rejeite H0.
Observações:
•
•
•
Os testes realizados com nível de significância menor ou igual a 5%, são
considerados “altamente” significativos.
Os testes realizados com nível de significância entre 5% e 10% são considerados
“provavelmente” significativos.
Os testes realizados com nível de significância maior ou igual a 10% são
considerados pouco significativos.
4.1 Teste de Significância para a Média
O melhor estimador para a média é x . Como já visto a distribuição amostral
das médias é Normal, com Z 0 =
x − µ0
(estatística do teste), considerando que σ é
σ/ n
conhecido. No caso de não se conhecer σ , usa-se o estimador S, e tem-se a
estatística t0 =
x − µ0
.
S/ n
Exemplo 1) Uma amostra aleatória de 40 elementos retirados de uma população
normal com desvio padrão σ = 3 apresentou um valor médio igual a 60. Teste, ao
nível de significância de 5%, a hipótese de que a média populacional seja igual a 59,
supondo a hipótese alternativa alternativa µ > 59 .
Exemplo 2) Supondo ainda o exemplo 1, teste ao nível de significância de 5% as
seguintes hipóteses:
a) que a média populacional seja igual a 59, supondo a hipótese alternativa
alternativa µ < 59 , considerando o desvio padrão σ = 3 e a média amostral igual a
50.
b) que a média populacional seja igual a 59, supondo a hipóteses alternativa µ ≠ 59 ,
considerando o desvio padrão σ = 3 e a média amostral igual a 55.
Guerino P. Junior
Estatística
pág. 82
Exemplo 3) Em uma amostra de 49 adolescentes que foram submetidos a um estudo
imunológico, uma variável de interesse era o diâmetro da pele, para um teste de
reação a um certo antígeno. A média e desvio padrão amostrais foram
respectivamente 21 e 11 mm. Pode-se concluir, ao nível de significancia de 5%, que:
a) a média populacional é menor que 30?
b) a média populacional é maior que 20?
c) a média populacional é diferente de 22?
4.2 Teste de Significância para a Proporção
O melhor estimador de p é p̂ . A distribuição amostral das proporções é Normal,
com Z 0 =
pˆ − p0
.
pˆ qˆ n
Exemplo 4) Um criador de coelhos perde 10% de seus animais na primeira semana do
período de cria. Com a finalidade de diminuir esta incidência, está utilizando
atualmente uma nova ração vitaminada que, segundo seu fabricante, diminui o índice
de mortalidade. Um grupo de controle contendo 100 animais alimentados com esta
ração apresentou 4 mortos na primeira semana. Teste ao nível de significância de 5%
a as seguintes hipóteses:
a) o índice de mortalidade tenha diminuído.
4.3 Teste de significância para a diferença de Médias
O melhor estimador para µ1 − µ 2 é x1 − x 2 . A distribuição amostral de x1 − x 2 é
normal e Z 0 =
( x1 − x2 ) − ( µ1 − µ 2 )
σ 12
n1
+
σ 22
, se os desvios σ 1 e σ 2 são conhecidos. Como neste
n2
caso a hipótese nula é sempre H 0 : µ 1 = µ 2 , ou da mesma forma H 0 : µ1 − µ 2 = 0 , então
podemos reescrever a estatística do teste de forma mais resumida Z 0 =
( x1 − x2 )
σ 12
n1
+
σ 22
.
n2
Caso a os desvios sejam desconhecidos, usa-se seus estimadores S1 e S2, e a
estatística do teste se torna t0 =
( x1 − x2 )
s12 s22
+
n1 n2
, cujos graus de liberdade são calculados por
Aspin-Welch:
2
 s12 s22 
 + 
n n
GL =  12 2  2 − 2
2
 s1   s22 
   
 n1  +  n2 
n1 + 1 n2 + 1
Guerino P. Junior
Estatística
pág. 83
A fixação da hipótese alternativa é o que irá diferenciar os tipos de teste:
a) Testes Unilaterais:
H 0 : µ1 = µ 2 Versus H 1 : µ 1 < µ 2 ou ainda
H 0 : µ1 = µ 2 Versus H 1 : µ1 > µ 2
b) Teste Bilateral
H 0 : µ1 = µ 2 Versus H 1 : µ1 ≠ µ 2
Exemplo 5) Para avaliar se um tratamento com flúor diminui a incidência de cáries em
alunos de escola-padrão de primeiro grau, uma amostra de 30 alunos forneceu um
número médio de 1,8 caries após 2 anos de tratamento com flúor, com desvio padrão
de 0,5 carie. Em uma outra escola, que não adotou o tratamento, uma amostra de 50
alunos forneceu um número médio de 2,2 caries no mesmo período, com desvio
padrão de 0,6 carie. Teste ao nível de significância de 5% se o tratamento com flúor
não diminuiu a incidência de caries nestes alunos.
Exemplo 6) Considerando ainda o exemplo 5, suponha que na segunda escola a
amostra de 50 alunos tenha fornecido um número médio de 1,9 caries com desvio
padrão de 0,5 carie. Teste ao nível de significância de 5% se o tratamento é
realmente eficaz.
4.4 Teste de Significância para Diferença de Proporções (Dados não
Emparelhados)
Suponha que se deseja testar se as proporções de duas populações são iguais,
ou seja, H 0 : p1 = p2 . Da primeira população, uma amostra de tamanho n1 é analisada
k
, da segunda população uma amostra de tamanho n2
n1
m
é analisada e produz uma proporção pˆ 2 =
. De forma análoga à comparação de
n2
( pˆ − pˆ 2 ) − ( p1 − p2 )
médias, a distribuição amostral de pˆ1 − pˆ 2 é normal e Z 0 = 1
, onde
1 1
pˆ qˆ  + 
 n1 n2 
k+m
pˆ =
. Como neste caso a hipótese nula é sempre H 0 : p1 = p2 , ou da mesma
n1 + n2
forma H 0 : p1 − p2 = 0 , então podemos reescrever a estatística do teste de forma mais
( pˆ1 − pˆ 2 )
resumida. Z 0 =
.
1 1
pˆ qˆ  + 
 n1 n2 
e produz uma proporção pˆ1 =
Guerino P. Junior
Estatística
pág. 84
A fixação da hipótese alternativa é o que irá diferenciar os tipos de teste:
c) Testes Unilaterais:
H 0 : p1 = p2 Versus H1 : p1 < p2 ou ainda
H 0 : p1 = p2 Versus H1 : p1 > p2
d) Teste Bilateral
H 0 : p1 = p2 Versus H1 : p1 ≠ p2
Exemplo 7) Suponha que se deseja testar se a proporção de pessoas de tipo
sangüíneo A é a mesma em dois grupos populacionais. No primeiro grupo, uma
amostra de 15 pessoas é analisada, encontrando-se 7 do tipo sangüíneo A. No
segundo grupo, uma amostra de 20 pessoas é analisada, de onde se encontrou 8
deste tipo sangüíneo. Teste ao nível de significância de 10% a hipótese que:
a) a proporção do tipo A é maior no grupo 1.
b) as proporções são diferentes nos dois grupos.
Exemplo 8) Em um estudo sobre a incidencia de abortos naturais entre médicas
anestesistas e de outras especialidades, obtiveram-se os seguintes resultados:
Gestações Normais
Abortos Naturais
Totais
Anestesistas
23
14
37
Outras especialidades
52
6
58
Total
75
20
95
Teste com 5% de significância a hipótese de que:
a) a proporção de abortos naturais é menor para outras especialidades
b) as proporções de gestações normais são diferentes para anestesistas e outras
especialidades.
O quadro abaixo apresenta um resumo dos pocedimentos para os testes de
significância para média e proporção:
Guerino P. Junior
Estatística
pág. 85
Quadro Resumo dos Procedimentos de Alguns Testes de Hipóteses
Caso
Hipótese
Hipótese
Estatística do
Nula
Alternativa
Teste
Teste p/ média de
uma população com
variância conhecida.
Teste p/ média de
uma população com
variância
desconhecida.
Comparação de duas
médias
de
populações normais,
e
variâncias
conhecidas.
Comparação de duas
médias
de
populações normais,
e
variâncias
desconhecidas.
Teste
para
proporção
a
H 0 : µ = µ0
conhecida
H1 : µ ≠ µ 0
H1 : µ > µ 0
H1 : µ < µ 0
H 0 : µ = µ0
H1 : µ ≠ µ0
σ
σ
2
H1 : µ > µ 0
2
desconhecida
H1 : µ < µ 0
H 0 : µ1 = µ 2
H1 : µ1 ≠ µ 2
H1 : µ1 > µ 2
H1 : µ1 < µ 2
σ eσ
2
1
2
2
conhecidas
H1 : µ1 ≠ µ 2
H1 : µ1 > µ 2
σ 12 e σ 22
desconhecidas H1 : µ1 < µ 2
H 0 : µ1 = µ 2
H 0 : p = p0
H1 : p ≠ p0
H 1 : p > p0
Z0 =
t0 =
H 0 : p1 = p2
H1 : p1 ≠ p2
H1 : p1 > p2
H1 : p1 < p2
Z 0 > Zα 2
Z 0 > Zα
Z 0 < − Zα
x − µ0
S n
t0 > t(α 2:n −1)
t0 > t(α ; n −1)
t0 < −t(α ; n −1)
Z0 =
x1 − x2
σ
2
1
n1
t0 =
Z0 =
H1 : p < p0
Comparação de duas
proporções
x − µ0
σ n
Critério de
Rejeição
Z0 =
+
σ
Z 0 > Zα 2
2
2
n2
x1 − x2
2
1
Z 0 > Zα
Z 0 < − Zα
t0 > t(α 2:n −1)
2
2
S
S
+
n1 n2
pˆ − p0
pˆ qˆ
n
pˆ1 − pˆ 2
t0 > t(α ; n −1)
t0 < −t(α ; n −1)
Z 0 > Zα 2
Z 0 > Zα
Z 0 < − Zα
Z 0 > Zα 2
 1 1  Z 0 > Zα
pˆ qˆ  + 
 n1 n2  Z 0 < − Zα
Guerino P. Junior
Estatística
pág. 86
Exercícios:
1) Uma máquina automática de encher pacotes de café enche-os segundo uma
distribuição Normal, com média µ e variância 400 g2. O valor de µ pode ser fixado
por um mostrador situado numa posição um pouco inacessível dessa máquina. A
maquina foi regulada para µ = 500 g. Deseja-se de meia em meia hora, colher uma
amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se µ = 500
g ou não. Se uma dessas amostras apresentasse uma média x = 492 g , você pararia
ou não a produção para verificar se o mostrador está na posição correta? (considere
α = 0,05)
2) Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros
que fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratório realiza 6
analises desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice se
distribui normalmente, com variância igual a 4,86 mg2. Pode-se aceitar, ao nível de
significância de 10% a afirmação do fabricante?
3) Um fabricante afirma que seus cigarros contem não mais que 30 mg de nicotina.
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Ao
nível de 5% de significância, os dados contradizem ou não a afirmação do fabricante?
4) Duas máquinas A e B, são usadas para empacotar pó de café. A experiência
passada garante que o desvio padrão para ambas é de 10 g. Porém, suspeita-se de
que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com
25 pacotes da máquina A e outra com 16 pacotes da máquina B. As médias amostrais
foram, respectivamente 502,74 g e 496,60 g. Com estes números, e ao nível de
significância de 5%, qual seria a conclusão do teste H0: µ A = µ B ?
5) Duas técnicas de vendas são aplicadas por dois grupos de vendedores: a técnica A,
por 12 vendedores e a técnica B, por 15 vendedores. Espera-se que a técnica B
produza melhores resultados. No final do mês, obtiveram-se os seguintes resultados:
Média
Variância
Vendedores
Técnica A
68
50
12
Técnica B
76
75
15
Teste ao nível de 5% de significância, se há diferenças significativas entre as vendas
resultantes das duas técnicas.
6) Uma estação de Televisão afirma que 60% dos televisores estavam ligados no seu
programa especial da ultima segunda feira. Uma rede competidora deseja contestar
essa afirmação, e decide, para isso, usar uma amostra de 200 famílias. Admitamos
que, do trabalho de campo, entrevistando as 200 famílias sorteadas aleatoriamente,
obtivemos 104 respostas afirmativas. O que podemos concluir a respeito dos
resultados?
7) Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certa
revista, acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de
significância, os homens e as mulheres apreciam igualmente a revista?
Guerino P. Junior
Estatística
pág. 87
5. Análise de correlação e Regressão
5.1 Covariância
A covariância mede a associação entre duas variáveis X e Y. Se altos valores de
uma variável ocorrerem juntamente com altos valores de outra variável, ou então,
baixos valores de uma ocorrem com baixos valores de outra, dizemos que a
covariância é "positiva". O gráfico de dispersão abaixo, representa alturas de casais
de irmãos e é um exemplo de associação positiva entre 2 variáveis:
69
Alturas das Irmãs
67
65
63
61
59
65
67
69
71
73
Altura dos Irmãos
Se acontece o contrário, isto é, altos valores de uma variável ocorrendo com
baixos valores de outra variável, dizemos que a covariância é "negativa". Por
exemplo, o gráfico de dispersão abaixo representa a associação entre a idade (em
anos) e condição física de um grupo de homens adultos, nos quais mediu-se a força
da mão direita (em libras):
Guerino P. Junior
Estatística
pág. 88
101
96
Libras
91
86
81
76
71
23
33
43
53
63
Idade
Caso não haja evidência de relação entre valores de duas variáveis, se espera
que o valor da covariância esteja bem próximo de "zero" e o gráfico de dispersão não
apresentará qualquer padrão de relacionamento entre as variáveis.
A fórmula da covariância é dada pela expressão abaixo:
COV ( X , Y ) =
∑
xi yi − nx y
n
Exemplo: Suponha que as alturas dos 11 casais de irmãos do gráfico de dispersão
acima, estejam representadas abaixo:
Irmãos (X)
Irmãs (Y)
71
69
68
64
Dos dados acima se obteve:
∑
n
i =1
66
65
∑
67
63
70
65
71
62
70
65
73
64
n
i =1 i
72
66
x yi = 48615; n = 11; x = 69; y = 64 ;
65
59
∑
66
62
n
2
i =1 i
x = 52445 e
yi2 = 45122 , desta forma a covariância fica:
COV ( X , Y ) =
48615 − 11.69.64
= 3,55
11
5.2 Coeficiente de Correlação de Pearson
A Covariância por si só não nos dá informação sobre a força de associação entre
as variáveis, porém o coeficiente de correlação nos dá a força de associação linear
entre duas variáveis. É muito útil quantificar esta associabilidade, pois existem muitos
tipos de associação possíveis, e aqui iremos apresentar o tipo de associação mais
simples, que é a linear. Isto é, iremos definir uma medida que julga o quanto uma
nuvem de pontos num gráfico de dispersão aproxima-se de uma reta. Essa medida irá
assumir valores entre -1 e +1, ou seja, a correlação linear − 1 ≤ ρ xy ≤ 1 , onde:
Guerino P. Junior
Estatística
pág. 89
ρ xy =
(∑ x
∑x y
2
i
i
− nx
i
2
− nx y
)(∑ y
2
i
− ny 2
)
A correlação nada mais é do que a Covariância Padronizada. Quanto mais
próximo de -1 ou 1 ρ xy estiver, mais forte é a correlação entre X e Y, e quanto mais
próximo de 0, mais fraca é a correlação (ausência de associação), se ρ xy for igual a 0,
tem-se independência entre as variáveis.
Exemplo: Calcule a correlação entre as alturas dos irmãos e julgue se é forte ou fraca:
ρ xy =
48615 − 11.69.64
(52445 − 11.69 )(45122 − 11.64 )
2
2
= 0,5581
pode-se concluir que a correlação entre as alturas acima é positiva, porém podemos
aceitá-la como moderada, pois está a uma certa distância de 1.
5.3 Regressão Linear Simples
O uso do termo “regressão” deve-se ao pesquisador britânico Francis Galton
(1885), a partir de estudo com pares pais-filhos, propôs a "lei da regressão para a
mediocridade".
Galton investigava relações entre características antropométricas de sucessivas
gerações, uma de suas constatações era de que “cada peculiaridade de um homem é
transmitida aos seus descendentes, mas, em média numa menor intensidade”. Ele
chegou a esta conclusão quando verificava a relação entre alturas de pais e alturas de
filhos em grupos familiares.
No gráfico acima está representada a relação entre as alturas de pais e filhos. A
linha azul representa o esperado se os filhos tivessem exatamente as alturas dos pais
(y=x), enquanto a linha verde é a reta de regressão ajustada. Note que pais que
apresentam valores maiores desta característica têm descendência com um valor
Guerino P. Junior
Estatística
pág. 90
médio da característica menor que a média observada entre os pais. Por outro lado,
os pais que tem o valor menor da característica têm os filhos com valores maiores que
aquele da média entre os pais. Por isso a lei foi chamada de "regressão para a
média". Como curiosidade, o método estatístico de ajuste de linhas pelo método dos
mínimos quadrados é até hoje chamado de "regressão linear" por um dos seguidores
de Galton, Karl Pearson. O índice ρ xy que mostra quão bem os pontos experimentais
se ajustam a uma reta é o coeficiente de regressão linear de Pearson.
5.3.1 Modelo de Regressão Linear Simples
O modelo de regressão linear simples (MRLS), é tal que ajusta uma variável
dependente Y a uma função linear de uma variável independente x, cuja expressão é
y = β 0 + β 1 x + e , onde:
y: variável resposta ou dependente (aleatória)
x: variável independente ou preditora (fixa)
β 0 : intercepto (ponto onde a reta corta o eixo y)
β1 : regressor ou coeficiente de regressão (representa o quanto varia a média y
para o aumento de 1 unidade da variável x)
e: erro aleatório ou resíduo (variável aleatória)
A representação gráfica da equação de um MRLS, é uma reta ajustada pelo
método dos Mínimos Quadrados que passa por entre uma nuvem de pontos
(dispersão) e que melhor resume o relacionamento entre as variáveis dependente e
independente, conforme a linha verde no figura acima.
5.3.2 Estimação de Parâmetros (Mínimos Quadrados)
Como já visto, o MRLS é dado pela equação
y = β 0 + β 1 x + e , porém as
quantidades β 0 e β1 (Intercepto e Regressor) são desconhecidas e precisam ser
estimadas, suas estimativas são ( βˆ 0 , βˆ1 ), as quais são estimadas pelo método dos
Mínimos Quadrados, sendo assim o modelo ajustado (estimado) é dado pela seguinte
expressão: yˆ i = βˆ 0 + βˆ1 xi , para i=1,2,....,n, onde βˆ 0 , βˆ1 são dados pela seguintes
expressões:
βˆ 0 = y − βˆ1 x
βˆ1 =
∑
∑
n
i =1 i i
n
2
i =1 i
x y − nx y
x − nx 2
Exemplo: Uma certa indústria farmacêutica vende um remédio para combater
resfriado. Após 2 anos de operação, a mesma coletou as seguintes informações
trimestrais:
Guerino P. Junior
Estatística
pág. 91
Vendas
(R$10.000,00)
25
13
8
20
25
12
10
15
Dados:
∑x
i
Custos c/ Propaganda
(R$1.000,00)
11
5
3
9
12
6
5
9
= 60; ∑ y i = 128; ∑ xi2 = 522; ∑ y i2 = 2352; ∑ xi yi = 1101; x = 7,5; y = 16
O coeficiente de correlação foi ρ xy = 0,9531 , o que indica um relacionamento
bastante forte entre os custos com propaganda e as vendas, conforme mostra
também o gráfico de dispersão abaixo:
Vendas vs. Custos
26
venda
23
20
17
14
11
8
3
5
7
9
11
13
custo
Com base nas informações acima ajuste um modelo para explicar as vendas em
função dos custos e interprete o mesmo
5.3.3 Coeficiente de Determinação (R2)
R2 é freqüentemente chamado de proporção da variação explicada pela variável
independente (regressora) X, é a medida de variabilidade em Y (variável dependente),
considerando o efeito da variável regressora X.
Os valores de R2 estão numa amplitude entre 0 e 1, ou seja 0 ≤ R 2 ≤ 1 . Quanto
mais próximo de 1, implica que a maior parte do relacionamento entre as variáveis X
e Y estão sendo explicadas pelo modelo ajustado. O coeficiente de determinação é
dado pela seguinte expressão:
R 2 = ρ xy2
Exemplo: calcule o coeficiente de determinação para o modelo ajustado acima e
interprete o mesmo.
Guerino P. Junior
Estatística
pág. 92
5.3.4 Avaliação do Modelo de Regressão
5.3.4.1 Análise de Variância (ANOVA)
Trata-se de um quadro resumo contendo várias informações que facilitarão a
avaliação do modelo ajustado:
Análise de Variância - ANOVA
------------------------------------------------------------Fonte de
Graus de
Soma de
Quadrado
F-calculado
Variação
Liberdade
Quadrados
Médio
------------------------------------------------------------Regressão
1
SQREG
QMREG
QMREG/QMRES
Resíduos
n-2
SQRES
QMRES
------------------------------------------------------------Total
n-1
SQTOT
QMTOT
Soma de Quadrados Total – SQTOT
É uma medida de dispersão (Variabilidade) dos valores observados y em torno
de sua média y , ou seja, é a medida de variação total dos valores observados y.
SQTOT = ∑i =1 yi2 −ny 2
n
Soma de Quadrados da Regressão – SQREG
É o montante total de variabilidade nos valores observados y, levando-se em
consideração os valores observados de x. Representa a quantidade de informação
“explicada” pelo modelo.
SQREG = βˆ12
(∑
n
2
i =1 i
x −nx 2
)
Soma de Quadrados dos Resíduos – SQRES
É uma medida de dispersão dos valores observados y sobre a reta de
regressão, ou seja, é a soma dos quadrados dos erros aleatórios ε i . Representa a
quantidade de informação perdida (não explicada) pelo modelo.
SQRES = SQTOT − SQREG
Variância dos Resíduos - σ e2
A vantagem na adoção de um modelo é julgada através da medida de
diminuição do erros de previsão, ou seja, da variância residual σ e2 . Quando os
resíduos ε i = yi − yˆ i forem pequenos, é sinal de que o modelo está produzindo
resultados compensadores. A estimativa da variância residual,
S e2 ,é dada pelo
Quadrado Médio dos Resíduos – QMRES:
QM RES =
SQRES
= S e2
n−2
Guerino P. Junior
Estatística
pág. 93
Variabilidade Total - σ 2
É a variabilidade onde estão inclusas as variabilidades do modelo e resíduos.
Sua estimativa S 2 é dada pelo Quadrado Médio Total - QMTOT
QM TOT =
SQTOT
= S2
n −1
F-calculado
É uma estatística de um teste para se verificar a significância do modelo de
regressão ajustado, ou seja, verifica se realmente existe a regressão. Quando os
resíduos (erros) atendem a certas suposições (variância constante, independência e
normalidade), diz-se que a estatística F-calculado segue uma distribuição de FSnedecor com parâmetros (α ,1, n − 2) , ou seja, F(α ,1,n − 2 ) . F-calculado é dado pela
seguinte expressão:
F − calculado =
QM REG
QM RES
Teste de significância para β1
É um teste para se verificar se o regressor β1 é significativamente diferente de
“zero”, ou seja, se realmente existe a regressão. Logo, antes de usar o modelo
ajustado deve-se testar as seguintes hipóteses:
H 0 : β 1 = 0 → não existe a regressão
H 1 : β 1 ≠ 0 → existe a regressão
Estatística do teste: t b =
β̂1
Se
∑
n
2
i =1 i
x − nx 2 , uma maneira mais simples e rápida
de calcular esta estatística é através da ANOVA, ou seja, tb =
F − calculado
Se t b > t (α / 2;n − 2 )
Aceita-se H1 e conclui-se que existe a regressão
Se t b < t (α / 2;n − 2 )
Aceita-se H0 e conclui-se que não existe a regressão
O valor t (α / 2;n − 2 ) é tirado da tabela da distribuição t-student, e o valor α é o nível
de significância do teste, ou seja, a margem de erro admitida no teste.
Teste de significância para β 0
É um teste para se verificar se o intercepto β 0 é significativamente diferente de
“zero”, ou seja, se a reta de regressão passa pela origem do sistema. Portanto testase as seguintes hipóteses:
Guerino P. Junior
Estatística
pág. 94
H 0 : β 0 = 0 → reta passa pela origem
H 1 : β 0 ≠ 0 → reta não passa pela origem
Estatística do teste: t a =
β̂ 0
Se
∑
n (∑ x
n
2
i =1 i
n
2
i =1 i
x
− nx 2
)
Se t a > t (α / 2;n − 2 )
Aceita-se H1 e conclui-se que a reta não passa pela origem
Se t a < t (α / 2;n −2 )
Aceita-se H0 e conclui-se que a reta passa pela origem
Da mesma forma que no item anterior, o valor t (α / 2;n − 2 ) é tirado da tabela da
distribuição t-student, e o valor α é o nível de significância do teste.
5.3.5 Intervalos de Confiança
O objetivo principal de Modelo de Regressão Linear Simples (MRLS) é fazer
predições da variável resposta ou dependente (y) para algum nível desejado da
variável preditora ou independente (x). Por exemplo, suponha que se esteja
estudando o tempo em minutos que um indivíduo leva para reagir a um certo
medicamento , em função de sua idade.
É muito importante saber, se queremos estimar o tempo médio para um grupo
de pessoas, por exemplo de 28 anos, ou para uma pessoa de 28 anos somente. A
estimativa pontual ( ŷ0 ) será a mesma nos dois casos, o que irá mudar será o
intervalo de confiança correspondente.
5.3.5.1 Intervalo de Confiança para a Média
(x − x )
1
I .C.(θ ( x) : 1 − α ) = yˆ 0 ± t α  × Se
+
 ;n − 2 
n ∑ xi2 − nx 2
2

2
5.3.5.2 Intervalo de Confiança para uma Observação
I .C.(Y ( x) : 1 − α ) = yˆ 0 ± t α
(x − x )
1
+
n ∑ xi2 − nx 2
2
× Se 1 +

 ;n−2 
2

Exemplo: Suponha que no caso acima, o modelo encontrado para predizer o tempo de
reação (em minutos) do indivíduo, em função da idade, seja yˆ = 80,5 + 0,9 x , o qual foi
ajustado a partir de uma amostra de 20 indivíduos, de onde se encontrou também as
estatísticas abaixo:
Se = 5,59
∑x
2
i
− nx 2 = 1000 , onde x = 30
Então, se desejarmos o intervalo de 95% de confiança para o tempo médio de reação
à droga, para um grupo de pessoas de x0=28 anos, em primeiro lugar encontramos a
estimativa pontual ŷ0 :
Guerino P. Junior
Estatística
pág. 95
yˆ 0 = 80,5 + 0,9 x0 = 80,5 + 0,9(28) = 105,7
agora calculamos o intervalo de confiança para o tempo médio de reação de um grupo
de pessoas:
I .C.(θ (25) : 0,95) = yˆ 0 ± t(0,025;18 ) × Se
1
(x − x )
+
n ∑ xi2 − nx 2
2
1 (28 − 30) 2
= 105,7 ± 2,101 × 5,59 ×
+
20
1000
= [102,98;108,43]]
Por outro lado, se estivermos interessados no intervalo de 95% de confiança
para somente uma pessoa (uma observação), temos:
(x − x )
1
I .C.(Y (28) : 0,95) = yˆ 0 ± t(0,025;18 ) × Se 1 + +
n ∑ xi2 − nx 2
2
= 105,7 ± 2,101 × 5,59 × 1 +
1 (28 − 30) 2
+
20
1000
= [93,64;117,76]
Como se pode observar, o intervalo de confiança para somente uma observação
(uma pessoa) é bem mais amplo do que para um grupo de pessoas, pois neste caso o
erra padrão da estimativa é bem maior.
O nível da variável preditora x influencia na amplitude do intervalo, quanto mais
próximo o nível desta estiver de sua média, que neste caso foi x = 30 , mais compacto
(preciso) fica a estimativa. Por exemplo, x0=30 e x0=40, teremos os seguintes
intervalos de confiança para o tempo médio de reação:
I .C.(θ (30) : 0,95) = 107,5 ± 2,63
I .C.(θ (40) : 0,95) = 116,5 ± 4,55
Exercícios:
1) Certa empresa, estudando a variação de demanda de seu produto em relação à
variação de preço de venda, obteve a tabela dada abaixo:
Preço (x)
Demanda (y)
Dados:
∑x
i
= 663;
38
42
50
56
59
63
70
80
350 325 297 270 256 246 238 223
∑x
2
i
= 48719;
∑y
i
= 2628;
∑y
2
i
= 711148;
95 110
215 208
∑x y
i
i
= 165327; x = 66,30; y = 262,80
OBS: O coeficiente de correlação entre o preço e a demanda é ρ xy = −0,9015
Guerino P. Junior
Estatística
pág. 96
a) Ajuste um modelo para predizer a demanda com base no preço, interprete o
mesmo.
b) Monte a ANOVA.
c) Calcule e interprete o coeficiente de determinação – R2
d) Teste a significância de
β 1 com α = 0,05 e de a conclusão considere t (α / 2; n − 2 ) = t ( 0, 025;8) = 2,306 .
e) Qual a estimativa da demanda média para um certo numero de produtos cujo
preço seja x0 = 60? (Intervalo de Confiança p/ a média com 95% de confiança –
considere t (α / 2; n − 2 ) = t (0 ,025;8 ) = 2,306 .
2) A taxa metabólica, ou seja, a taxa à qual o corpo consome energia, tem
importância em estudos de ganho de peso, dieta e exercícios. A tabela abaixo
apresenta dados sobre a massa do corpo (Kg) sem gordura e a taxa metabólica para
10 pessoas:
Massa
62
62,9
Tx. Metabólica 1792 1666
∑x
i
36,1
995
54,6 48,5
42
47,4 50,6
42
48,7
1425 1396 1418 1362 1502 1256 1614
= 494,8 ; ∑ y i = 14.426; ∑ x i2 = 25.143,84; ∑ y i2 = 21.260.590; ∑ xi y i = 728.795,7
x = 49,48; y = 1.442,60
Os pesquisadores acreditam que a massa do copo sem gordura tem grande influência na taxa
metabólica. Com base nesta amostra:
a) Ajuste um modelo para predizer a taxa metabólica em função da massa e interprete o mesmo
b) Calcule e interprete o coeficiente de determinação
c) Qual a estimativa da taxa metabólica média para um grupo de pessoas com massa 50 Kg?
(Intervalo de Confiança p/ a média - α =0,05)
3) A altura é freqüentemente usada como uma boa variável preditora para peso. A
tabela abaixo representa as alturas (cm) e pesos (Kg) de 12 homens tendo idades
entre 19 e 26 anos:
Altura (cm)
Peso (kg)
∑x
i
185
83,9
173
63,8
168
71,3
175
65,3
183
79,6
184
70,3
174
69,2
164
56,4
169
66,2
205
88,7
161
59,7
177
64,6
= 2.118 ; ∑ y i = 839; ∑ x i2 = 375.356; ∑ y i2 = 59.692,66; ∑ xi y i = 149.174,40
x = 176,50; y = 69,92
Com base nesta amostra:
a)
b)
c)
d)
e)
f)
Ajuste um modelo para predizer o peso em função da altura e interprete o mesmo
Monte a ANOVA
Calcule a correlação entre as variáveis
Calcule e interprete o coeficiente de determinação
Teste a significância de β 1 com α =0,05 e de a conclusão
Qual a estimativa do peso médio para um grupo de homens com alturas iguais a
180 cm? (Intervalo de Confiança p/ a média - α =0,05)
g) Qual o peso esperado para um homem com altura igual a 180 cm? (Intervalo de
Confiança p/ uma observação - α =0,05)
Guerino P. Junior
Estatística
pág. 97
REFERÊNCIAS BIBLIOGRÁFICAS
[1] BUSSAB, W. O.; MORETTIN, P. A. – Estatística Básica. Atual Editora, São Paulo,
1988.
[2] BUSSAB, W. O. – Análise de Variância e de Regressão. Atual Editora, São Paulo,
1988.
[3] CESAR, C. P.; FARIAS, A. A.; SOARES, J. F. – Introdução à Estatística. Editora
Guanabara Koogan S.A., Belo Horizonte, 1991.
[4] MILONE, G. – Estatística: geral e aplicada. Pioneira Thomson Learning, São Paulo,
2004.
[5] TRIOLA, M. F. – Introdução à Estatística. Livros Técnicos e Científicos Editora S.A.,
Rio de Janeiro, 1999.
[6] SPIEGEL, M. R., - Probabilidade e Estatística. McGraw-Hill, São Paulo, 1978.
Guerino P. Junior
Download