Estatística 2 - CEFET-MG - DECOM / Home do Departamento de

Propaganda
Apostila Básica
de Estatística 2
Silvio Alves de Souza
1
ÍNDICE
Introdução................................................................................................................... 3
Software R.................................................................................................................. 4
Software SPSS........................................................................................................... 5
Distribuição normal de probabilidade ......................................................................... 6
Testes de Hipótese paramêtrico................................................................................11
Testes Não-Paramétrico............................................................................................25
Distribuição Amostral.................................................................................................31
Regressão Múltipla....................................................................................................52
Experimentos Multinomiais........................................................................................65
Tabela de Contingência.............................................................................................71
Introdução a Séries Temporais..................................................................................78
Bibliografia.................................................................................................................87
Anexo 1 .....................................................................................................................88
2
Introdução
Esta apostila é uma tentativa de compor parte do conteúdo da disciplina
Estatística 2 do CEFET – MG. Esta disciplina é ministrada no curso de
Administração.
Seu conteúdo é de acordo com o plano de ensino do curso citados acima. Na
verdade é um material complementar para os alunos. Ele não os isenta da
necessidade de consultar outras bibliografias.
A disciplina de Estatística é abordada com o auxílio de vários softwares para
tratamento de dados, entre eles o R e o SPSS.
Os exemplos e exercícios foram montados com o objetivo de contextualizar o
conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos
para que o aluno possa perceber a utilização da Estatística em cada área do
conhecimento.
3
Software R
O software R é um software livre utilizado para análise de dados, cálculo e
construão de gráficos.
Sua construção foi feita utilizando vários colaboradores.
Para sua utilização é necessário conhecimento de sua linguagem própria, ou
seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas
utilizando seus comandos e outras são necessárias a construção de algoritmos.
O R tem um help que os ajuda na execução das tarefas.
No decorrer do curso iremos utilizá-lo para análise de vários dados e para a
construção de alguns gráficos específicos. Os comandos necessários bem como a
utilização do software serão apresentados no decorrer das aulas.
A utilização deste software é uma tentativa de demonstrar como utilizar a
tecnologia computacional na análise de dados.
No anexo 2 encontra-se alguns comandos úteis.
4
Software SPSS
geral.
O software SPSS é um software não-livre utilizado para análise Estatística em
Por não ser um software livre muitas pessoas preferem a utilização do
software R. No entanto ele é muito utilizado no meio empresarial.
Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é
necessário conhecimento dos comandos.
O SPSS tem um help que os ajuda na execução das tarefas.
No decorrer do curso iremos utilizá-lo para análise de vários dados e para a
construção de alguns gráficos específicos.
A utilização deste software também é uma tentativa de demonstrar como
utilizar a tecnologia computacional na análise de dados.
5
Distribuição normal de probabilidade
Uma variável aleatória X tem distribuição normal se seu histograma tem a
forma de um sino.
200
100
Std. Dev = 994,59
Mean = 2516,6
N = 1488,00
0
,0
00
60
,0
00
55 0
,
00
50
,0
00
45
,0
00
40 0
,
00
35
,0
00
30
,0
00
25 0
,
00
20
,0
00
15
,0
00
10
0
0,
50
0
0,
Vendas de auto peças
Definição
Dados os parâmetros µ e σ > 0 reais, a função densidade de probabilidade
da normal é dada por:
f ( x) =
1
σ . 2π
.e
1 x−µ 2
− (
)
2 σ
Onde E ( X ) = µ e Var ( X ) = σ .
Podemos perceber que o cálculo de probabilidade usando a distribuição
normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este
problema é utilizar a distribuição normal padronizada.
A distribuição normal padronizada tem este nome pois sua média é 0 e a
variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar
as tabelas de probabilidade normal padronizada.
Uma conseqüência importante do fato de uma distribuição Normal ser
completamente caracterizada por sua média e desvio-padrão é que a área sob a
curva entre um ponto qualquer e a média é função somente do número de desviospadrões que o ponto está distante da média.
6
Como existem uma infinidade de distribuições normais (uma para cada média
e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso,
espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a
contar da média.
Para padronizar um conjunto de dados que tem distribuição normal é só
aplicar a fórmula
z=
X −µ
σ
Utilização da tabela da normal padronizada
A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade.
Mais a frente veremos que o desvio-padrão é alterado quando vamos
padronizar a média de um conjunto de dados. Este resultado é encontrado em um
teorema denominado “Teorema Central do Limite”.
Propriedades da distribuição normal
1) a curva é simétrica em torno da média;
f (x ) = 0
2) xlim
→∞
3) a área total sob a curva é igual a 1;
área=1
área=0,5 área=0,5
7
Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é
uma característica de qualidade importante.
Sabe-se que essa resistência segue um modelo Normal com média 40 psi e
desvio padrão 2 psi.
Se a especificação estabelece que a resistência deve ser maior que 35 psi,
qual a probabilidade que uma sacola produzida com este material satisfaça a
especificação?
P{X ≥ 35} = 1 − P{X ≤ 35}
 35 − 40 
P{X ≤ 35} = P  z ≤
 = P{z ≤ −2,5}
2 

Pela tabela da normal padronizada temos probabilidade de 0,0062.
Logo a resposta é 1-0,0062 = 99,38%.
Comparação entre média e variância
f(x)
A
B
C
x
8
a) da distribuição A para B muda a tendência central, mas a variabilidade é
constante;
b) da distribuição A para C muda a variabilidade, mas a tendência central é
constante;
c) da distribuição B para C muda a tendência central e a variabilidade.
Exercícios
1) Utilizando a tabela da distribuição normal padronizada calcule:
a) P (z < 0 ,42 )
b) P ( z < 0 ,75 )
c) P ( z < −0 ,30 )
d) P (z > 0 ,56 )
e) P (0 ,25 < z < 0 ,72 )
f) P (− 0 ,25 < z < 0 ,20 )
g) o valor de z tal que P (− z < Z < z ) = 0 ,90 .
2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha
distribuição
normal
com
média
2,5
e
desvio-padrão
0,6.
Selecionando,
aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar
absorção de água entre 2% e 3,5%?
9
3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os
pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g.
Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar
a) entre 200 e 250g;
b) mais de 230g;
c) menos que 150g.
4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e
desvio-padrão 4. Calcule:
P(2 ≤ X < 8 )
10
Testes de Hipótese paramêtrico
Teste de Hipótese
Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de
uma população.
Podemos estar interessados em saber informações sobre a média, a
proporção ou a variância.
Componentes de um teste de hipótese
1)
Hipótese nula - H0 : é uma afirmação sobre o valor de um parâmetro
populacional. Deve conter o sinal de igualdade e deve escrever-se como = , ≤ , ≥ .
2)
Hipótese alternativa - H1 : é a afirmação que deve ser verdadeira se a hipótese
nula for falsa. Não deve conter o sinal de igualdade.
Exemplos:
a) Testar a afirmação de que a média populacional é 75.
Solução: Neste caso temos H 0 : µ = 75 e H1 : µ ≠ 75 .
b) Testar a afirmação de que a média é no máximo 2,50.
Solução: Neste caso temos H 0 : µ ≤ 2,50 e H1 : µ > 2,50 .
3)
4)
Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira.
H 0 verdadeira
H 0 falsa
Rejeita H 0
Erro tipo I
Acerto
Não rejeita H 0
Acerto
Erro tipo II
Nível de significância - α : A probabilidade do erro tipo I ocorrer.
11
5)
Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa.
6)
A probabilidade de ocorrer o erro tipo II é β .
7)
Estatística de teste: É uma estatística amostral baseado nos dados amostrais.
8)
Região crítica: É o conjunto de todos os valores da estatística de teste que
levam à rejeição da hipótese nula.
9)
Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores
da estatística de teste que não levam à rejeição da hipótese nula.
Conclusões no teste de hipótese
Em um teste de hipótese concluímos por:
•
rejeitar a hipótese nula ou
•
não rejeitar a hipótese nula.
Tipos de teste
•
Bilateral (sinal de H1 : ≠ ): a região crítica está situada nas duas regiões.
Neste caso cada área tem valor
α
2
.
12
•
Unilateral esquerdo (sinal de H1 : <): a região crítica está situada na parte
esquerda. Neste caso P(Erro tipo I ) = α .
•
Unilateral direito (sinal de H1 : >): a região crítica está situada na parte direita.
P(Erro tipo I ) = α .
13
Teste de uma afirmação sobre uma média: grandes amostras
Considere uma amostra razoavelmente grande ( n ≥ 30 ) para valer o teorema
central do limite, ou que os dados provenham de uma distribuição aproximadamente
normal. Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatística de teste
z=
x − µx
σ
n
Os valores críticos são encontrados na Tabela A – 2
Obs.: Caso σ seja desconhecido podemos substituí-lo por s .
Notação
x : média amostral;
µ x : média populacional.
σ : desvio-padrão populacional;
n : tamanho da amostra;
Exemplo:
O tempo médio entre falhas de um rádio da Telektronic Companhy para
aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de
rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um
tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao
nível de significância de 0,05, teste a afirmação de que o tempo médio, após as
modificações, é menor que 420 horas .
Solução:
 H 0 : µ ≥ 420
a) As hipóteses são: 
 H1 : µ < 420
14
b) O teste é unilateral esquerdo, pois o sinal de H1 é <.
c) O nível de significância é α = 0,05 ;
d) Os valores críticos são zα = 1,645 ; Logo temos:
e) Os dados amostrais são: x = 385 e s = 24 ;
f) Como n=35 ( n ≥ 30 ), a estatística de teste é dada por:
z=
x − µx
σ
n
=
385 − 420
= −8,63
24
35
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos H 0 .
Exercícios
1) O gerente de uma empresa de transporte suspeita da afirmação de um
vendedor de pneus de que o seu produto tem uma vida média de, ao menos,
28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em
seus caminhões, obtendo uma vida média de 27 563 milhas, com desviopadrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de
um erro tipo I deve ser 0.01?
2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.
Por similaridade com outros processos de fabricação, supomos o desviopadrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a
afirmação de que a duração média de todas as lâmpadas dessa marca é igual
a 1600 horas.
15
Teste de uma afirmação sobre uma média: pequenas amostras
Considere uma amostra pequena ( n < 30 ). Suponha que:
a) os dados provenham de uma distribuição normal
b) o desvio-padrão populacional σ é desconhecido.
Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatística de teste
t=
x − µx
s
n
Os valores críticos são encontrados na Tabela A – 3
O número de Graus de liberdade = n – 1
Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a
distribuição normal, independentemente do tamanho da amostra.
z=
x − µx
σ
n
Exemplo:
Os sete valores relacionados a seguir são cargas axiais (em libras) da
primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o
peso máximo que seus lados podem suportar, e deve ser superior a 165 libras,
porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível
de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta
amostra provém de uma população com média superior a 165 libras.
270
273
258
204
254
228
282
Solução:
16
 H : µ ≤ 165
a) As hipóteses são:  0
 H1 : µ > 165
b) O teste é unilateral direito, pois o sinal de H1 é >;
c) O nível de significância é α = 0,01 ;
d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é tα = 3,143 ;
Logo temos:
e) Os dados amostrais são: x = 252,7 e s = 27,6 ;
Como n = 7 ( n < 30 ), a estatística de teste é dada por:
t=
x − µ x 252,7 − 165
=
= 8,407
s
27,6
n
7
f) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos H 0 .
Exercícios
1) Admitindo que a pressão sanguínea arterial em homens siga o modelo
Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo
os seguintes resultados:
82 - 84 - 78 - 85 - 69 - 80 - 75
17
Utilizando um nível de significância de 0,02 , teste a afirmação de a média da
pressão sanguínea é de 82.
2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve
as seguintes medidas em metros:
4,51
5,38
4,84
5,33
4,74
4,99
5,15
5,52
5,82
5,45
4,68
4,74
5,53
5,40
4,72
4,97
5,24
4,94
4,75
5,50
4,81
5,25
4,86
4,93
4,95
Pode-se afirmar, com com nível de significância de 5%, que tais barras foram
sacadas de um lote cujo comprimento médio é de 5,00 metros?
Teste de uma afirmação sobre variância ou desvio-padrão
Ao testar uma hipótese sobre o desvio-padrão σ ou a variância σ 2 de uma
população, admitimos que os valores da população sejam distribuídos normalmente.
Notação
n = tamanho da amostra
s 2 = variância amostral
σ 2 = variância populacional
Para testar uma informação sobre desvio-padrão σ ou a variância σ 2 a
estatística de teste é dada por:
Estatística de teste
χ2 =
(n − 1) ⋅ s 2
σ2
Os valores críticos são encontrados na Tabela A – 4
O número de Graus de liberdade = n – 1
18
Exemplo:
O tempo para transmitir 10 MB em determinada rede de computadores varia
segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos.
Depois de algumas mudanças na rede, acredita-se numa redução no tempo de
transmissão de dados, Além de uma possível mudança na variabilidade. Foram
realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados
os tempos de transmissão, em segundos:
6,8
7,1
5,9
7,5
6,3
6,9
7,2
7,3
6,6
6,3
Resolva:
a) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram a variabilidade no tempo de transmissão de dados? Ao nível de
0,05.
b) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram o tempo médio de transmissão de dados? Ao nível de 0,05
Solução da letra a:
 H : σ 2 = 1,3
a) As hipóteses são:  0
2
 H 1 : σ ≠ 1,3
b) O teste é bilateral direito, pois o sinal de H1 é ≠ ;
c) O nível de significância é α = 0,05 ;
19
d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são
χ 2 = 2,700 e χ 2 = 19,023 ; Logo temos:
2
e) Os dados amostrais indicam: s = 0,261 ;
f) a estatística de teste é dada por:
χ2 =
(10 − 1) ⋅ 0,261
= 1,807
1,3
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos H 0 .
Exercícios
1) A cofap alega que a variância da vida média de seus amortecedores é de nove
meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida
média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação
da Cofap?
2) Um laboratório fez oito determinações da quantidade de impurezas em porções
de certo composto. Os valores eram (em mg):
12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7
20
Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05.
3) Uma máquina de enchimento automático é usada para encher garrafas com
detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância
amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do
volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção
inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em
demasia.
Há evidência nos dados da amostra que sugira que o fabricante tenha um problema
com garrafas cheias com falta e excesso de detergente? Use nível de significância
de 5%.
Observação:
Quando vamos trabalhar com graus de liberdade cujos valores críticos não são
tabelados podemos aproxima-los utilizando a fórmula a seguir
χ2 =
1
z + 2k − 1
2
(
)
2
onde
k é o número de graus de liberdade
z é o valor crítico, encontrado na tabela normal padronizada.
Exemplo:
1) Suponha que queiramos fazer o teste
 H 0 : σ 2 ≥ 1,21

2
 H 1 : σ < 1,21
com α = 0,05 e n = 120 teremos:
a) k = 119
b) z = −1,645
c)
χ2 =
2
1
1
z + 2k − 1 = − 1,645 + 2 × 119 − 1
2
2
(
)
(
)
2
= 94,529
21
TESTE DE HIPÓTESE PARA PROPORÇÃO
O teste para proporção é aplicado em situações nas quais queremos verificar
se a proporção de algum atributo na população pode ser igual a certo valor p0 .
SUPOSIÇÕES:
1) São verificadas as condições para um experimento binomial. Isto é, temos um
número fixo de provas independentes com probabilidade constante, e cada
prova comporta dois resultados, que designamos “sucesso” e “falha”.
2) As condições np ≥ 5 e nq ≥ 5 são ambas verificadas, de modo que a
distribuição binomial das proporções amostrais pode ser aproximada por uma
distribuição normal com µ = np e σ = npq . Esta suposição é necessária
devido ao fato de termos uma boa aproximação da estatística de teste, que
neste caso é normal.
NOTAÇÃO:
n : número de provas;
p : proporção populacional (usada na hipótese nula);
pˆ =
x
: proporção amostral;
n
q = 1− p
A estatística de teste é dada por:
ESTATÍSTICA DE TESTE:
z=
pˆ − p
pq
n
Os valores críticos são obtidos na tabela A – 2 (distribuição normal
padronizada).
22
Exemplos:
1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua
linha de produção para análise da qualidade. As peças da amostra são
classificadas como defeituosas ou não, sendo que a política da empresa
exige que o processo produtivo seja revisto se houver evidência de mais de
1,5% de peças defeituosas. Na última amostra, foram encontradas nove
peças defeituosas. Usando nível de significância de 1%, o processo precisa
ser revisto?
Solução:
 H : p ≤ 0,015
h) As hipóteses são:  0
 H 1 : p > 0,015
i) O teste é unilateral direito, pois o sinal de H1 é > .
j) O nível de significância é α = 0,01 ;
k) O valor crítico é zα = 2,33 ; Logo temos:
l) Os dados amostrais são: pˆ =
9
= 0,018
500
m) Critérios para a aproximação normal:
n ⋅ p = 500 ⋅ 0,015 = 7,5 e
n ⋅ q = 500 ⋅ (1 − 0,015) = 500 ⋅ 0,985 = 492,5
n) Estatística de teste é dada por:
23
z=
0,003
pˆ − p 0,018 − 0,015
=
= 0,552
=
0,015 ⋅ 0,985 0,005436
pq
500
n
o) Conclusão: Como a estatística de teste está fora da região crítica, então não
rejeitamos H 0 .
2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em
821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões
resultaram em hospitalização do motorista. Ao nível de significância de 0,01,
teste a afirmação de que a taxa de hospitalização nos casos de air-bag é
inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados
com cintos automáticos de segurança.
3) O controle estatístico de certo processo de fabricação de determinada
lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito.
Para verificar a validade desta afirmação, foi coletada uma amostra de 150
lâmpadas das quais 138 estavam sem defeito.
Com 1% de significância, há evidência de que o processo está de acordo com
o esperado?
24
Testes Não-Paramétrico
Os testes não-paramétricos são utilizados quando não temos
informação sobre a distribuição da população.
Vantagens- Menos suposições são necessárias. Em muitos casos, apenas
dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de
numéricos (intervalares).
Desvantagens- Freqüentemente preferimos ter um modelo bem definido
com parâmetros importantes tais como média e variância incluídas para melhor
interpretação.
São vários os tipos de testes não-paramétricos:
Teste dos sinais;
Teste de postos com sinais de Wilcoxon para duas amostras
dependentes;
Teste da soma de postos de Wilcoxon para duas amostras
independentes;
Teste de kruskal-Wallis;
Correlação por postos;
Teste de repetições para aleatoriedade;
Teste do qui-quadrado;
Teste do qui-quadrado para independência ou associação;
Teste de Mann-Whitney;
Teste da mediana;
Não se refere à distribuição da estatística de teste, mas ao fato de que os
métodos podem ser aplicados a amostras de populações de qualquer distribuição.
Esta deve ser especificada apenas em termos gerais (ser continua, simétrica,
25
idêntica) sem precisar pertencer a alguma família (como normal, uniforme,
exponencial, etc).
QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS?
Mesmo se o teste paramétrico não depende crucialmente da suposição de
que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a
isso o teste não paramétrico, depende de suposições mais fracas, é preferível.
Métodos não paramétricos são usualmente os únicos disponíveis para dados que
simplesmente especificam ordem ou contagem em várias categorias.
Teste de Correlação por postos
Referência: TRIOLA, Mario F. Introdução à estatística.
O teste de correlação por postos pode ser utilizado para verificar se existe
alguma associação entre duas variáveis.
A taxa de eficiência do teste é de 91%.
Notação:
rs : coeficiente de correlação por postos para dados amostrais emparelhados;
ρ s : coeficiente de correlação por postos para todos os dados populacionais
emparelhados;
n : número de pares de dados;
d : diferença entre postos para as duas observações dentro de um par.
O índice s é utilizado em homenagem a Charles Spearman (1863 - 1945).
Ao testar se há ou não correlação, testamos as seguintes hipóteses:
H 0 : ρ s = 0

 H1 : ρ s ≠ 0
26
Estatística de teste
A estatística de teste, para o caso em que não há empate entre os postos, é
dada por:
rs = 1 −
6∑ d 2
n (n 2 − 1)
onde cada valor de d é uma diferença entre os postos para um par de dados
amostrais.
Caso haja empate entre os postos então a estatística de teste é dada por:
rs =
n∑ xy − (∑ x )(∑ y )
n∑ x 2 − (∑ x ) 2 . n∑ y 2 − (∑ y ) 2
onde x = posto de X e y = posto de Y.
Valores críticos:
Se n ≤ 30 , consulte tabela A – 9.
Se n > 30 , use a fórmula
rs =
±z
n −1
onde o valor de z corresponde ao nível de significância
27
Exemplos
1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da
viscosidade do óleo.
Volume desgastado Viscosidade
Y (10-4 mm3)
X
240
181
193
155
172
110
113
75
94
1,6
9,4
15,5
20
22
35,5
43
40,5
33
Há correlação entre as duas variáveis? Use α = 0,05 .
Solução:
H 0 : ρ s = 0
Passo 1: As hipóteses são 
 H1 : ρ s ≠ 0
Passo 2: Nível de significância é α = 0,05
Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre
a população original.
Passo 4: Estatística de teste:
Volume desgastado Viscosidade
Y (10-4 mm3)
X
240
181
193
155
172
110
113
75
94
Assim temos
1,6
9,4
15,5
20
22
35,5
43
40,5
33
Posto Y
Posto X
d
d2
9
7
8
5
6
3
4
1
2
1
2
3
4
5
7
9
8
6
8
5
5
1
1
4
5
7
4
64
25
25
1
1
16
25
49
16
∑ d 2 = 222
28
rs = 1 −
= 1−
6∑ d 2
n (n 2 − 1)
6 (222)
9 (81 − 1)
1332
720
= 1 − 1,85
= 1−
= −0,85
Passo 5: valores críticos:
Pela tabela A-9, os valores críticos são ± 0,683 .
Como rs = −0,85 está dentro da região crítica então rejeitamos H 0 . Logo existe
correlação.
300
250
200
150
100
50
0
0
10
20
30
40
50
29
2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria
no período especificado.
X = Ano Y = Venda
80
58
81
85
82
123
83
81
84
57
85
118
86
174
87
147
88
190
89
205
90
255
91
223
92
216
93
297
94
184
95
224
96
318
Existe correlação entre as variáveis?
30
Distribuição Amostral
Retirado dos livros: Estatística aplicada á Administração, Stevenson e
Introdução á Estatística, Triola.
Uma distribuição amostral é uma distribuição de probabilidade que nos
mostra como é a variação da estatística amostral ocasionada por variações na
amostragem aleatória.
Uma estatística amostral é qualquer função baseada nos dados amostrais
de uma amostra aleatória.
Uma estimativa é um valor específico, ou um intervalo de valores, numérico
de uma estatística amostral.
Um estimador é uma estatística amostral utilizada para obter uma
aproximação de um parâmetro populacional.
Exemplo:
1) Estimador da média populacional µ : x =
1 n
∑ xi .
n i =1
2

 n  

 ∑ xi  
 


n
1
 ∑ xi2 −  i =1   .
2) Estimador da variância populacional σ 2 : s 2 =
n − 1 i = 1
n







Propriedade do estimador:
Um estimador θˆ é dito não tendencioso para o parâmetro populacional θ , se
()
E θˆ = θ
Se o estimador θˆ for tendencioso, então a tendenciosidade é dada por
()
E θˆ − θ
onde E ( X ) = ∑ xP( X = xi ) .
i
31
Para verificar se um estimador é ou não tendencioso deveremos calcular a
esperança.
Para
o
cálculo
desta
esperança
algumas
propriedades
são
fundamentais:
E1) Se X = c , então E ( X ) = c ;
Prova: X é uma variável aleatória discreta. Então E ( X ) = c.P( X = c) = c.1 = c .
E2) Se Y = aX + b é uma variável aleatória, então E (Y ) = aE ( X ) + b .
Quando estamos interessados em avaliar qual o melhor estimador entre
vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do
EQM
O erro quadrático médio de um estimador θˆ do parâmetro θ é dado por
() (
)
2
EQM θˆ = E θˆ − θ
Ou
()
()
EQM θˆ = Var θˆ + (tendenciosidade )2
Algumas propriedades da variância:
V1) Se X = c , então Var ( X ) = 0 ;
V2) Var ( X + b) = Var ( X )
V3) Var ( aX + b) = a 2Var ( X )
V4) Var (aX + bY ) = a 2Var ( X ) + b 2Var (Y )
Exemplo:(Montgomery) Seja X 1 , X 2 , K , X 7 uma amostra aleatória de uma
população com média µ e variância σ 2 . Considere os seguintes estimadores:
32
θ1 =
X1 + X 2 + K + X 7
7
θ2 =
2 X1 − X 6 + X 4
2
Resolva:
a) Verifique se os estimadores são não-tendenciosos.
b) Qual é o melhor estimador?
Solução:
a) A esperança do primeiro estimador é
 X + X2 +K+ X7 
E (θ1 ) = E  1

7


E( X1) + E( X 2 ) + K + E( X 7 )
=
7
µ + µ +K+ µ
=
7
=µ
A esperança do segundo estimador é
 2X − X 6 + X 4 
E (θ 2 ) = E  1

2


2E( X1) − E( X 6 ) + E( X 4 )
=
2
2µ − µ + µ
=
2
=µ
Verificamos que os dois estimadores não são tendenciosos.
b) Variância do estimador 1
 X + X2 +K+ X7 
Var (θ1 ) = Var  1

7


Var ( X 1 ) + Var ( X 2 ) + K + Var ( X 7 )
=
72
=
σ 2 +σ 2 +K+σ 2
49
1
= σ2
7
Variância do estimador 2
33
 2X − X 6 + X 4 
Var (θ 2 ) = Var  1

2


1
= Var (2 X 1 − X 6 + X 4 )
4
4Var ( X 1 ) + Var ( X 6 ) + Var ( X 4 )
=
4
4σ 2 + σ 2 + σ 2
4
6 2
= σ
4
=
O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula
para ambos estimadores, então
( )
( )
( 1)
EQM θˆ1 = Var θˆ1 + (tendenciosidade )2
= Var θˆ
1
= σ2
7
e
( )
( )
( 2)
EQM θˆ2 = Var θˆ2 + (tendenciosidade )2
= Var θˆ
6
= σ2
4
( )
( )
Como EQM θˆ1 < EQM θˆ2 , então o melhor estimador é o primeiro.
Para entendermos como é o comportamento da amostra considere o exemplo
a seguir.
Exemplo: considere uma população formada pelos elementos
1
4
2
3
Percebemos que a média populacional é de 2,5.
Vamos então analisar a distribuição amostral. Para isso suponha todas as
amostras de tamanho 2 sem reposição. Temos C 4,2 = 6 amostras representadas no
quadro a seguir
34
Amostras
Média
1e4
2,5
1e2
1,5
1e3
2
4e2
3
4e3
3,5
2e3
2,5
Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro
valor da média populacional. As outras 4 amostras não encontramos a verdadeira
média, no entanto servem como uma aproximação.
Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição.
Neste caso teremos C 4,3 = 4 amostras representadas no quadro a seguir
Amostras
Média
1, 4 e 2
7
3
1, 4 e 3
8
3
1, 2 e 3
6
3
4, 2 e 3
9
3
Neste caso percebemos que nenhuma amostra tem média igual à média
populacional.
Tipos de estimativa
Uma estimativa pontual é um valor único usado para aproximar um
parâmetro populacional.
Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de
valores que tem probabilidade de conter o verdadeiro valor do parâmetro
populacional.
35
O grau de confiança é a probabilidade 1 − α de o intervalo de confiança
conter o verdadeiro valor do parâmetro populacional.
Um valor crítico é o número na fronteira que separa os valores das
estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance
de ocorrer.
Quando utilizamos dados amostrais para estimar um parâmetro populacional
podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima
provável (com probabilidade 1 − α )
entre o valor amostral e o verdadeiro valor
populacional. A margem de erro E é chamada também de erro máximo da
estimativa.
Para entendermos o erro, tomemos o exemplo anterior com amostras de
tamanho 2:
Amostras
Média
Erro
1e4
2,5
0
1e2
1,5
1
1e3
2
0,5
4e2
3
0,5
4e3
3,5
1,5
2e3
2,5
0
Neste caso o erro máximo foi de 1,5.
36
O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança
e o tamanho da amostra para uma população infinita.
Parâmetro
Cálculo do
Intervalo de confiança
erro
Média
(Grandes
E = zα ⋅
amostra
σ
 zα ⋅ σ 

n= 2
 E 


x−E < µ < x+E
 tα ⋅ s 
n= 2 
 E 


pˆ − E < p < pˆ + E


 zα  pˆ qˆ
ou
n =  2
E2
n
2
(Pequenas
E = tα ⋅
2
s
n
amostras)
Proporção
E = zα ⋅
2
pˆ qˆ
n
2
x−E < µ < x+E
amostras)
Média
Tamanho de
2
2
2


 zα  0,25
n =  2
E2
Variância
(n − 1)s 2 < σ 2 < (n − 1)s 2
2
2
χR
χL
Tabelado
37
Quando trabalhamos com populações finitas e a amostragem constitui mais
de 5% da população devemos aplicar o fator de correção. Assim teremos:
Parâmetro
Cálculo do erro
Intervalo de
Tamanho de amostra
confiança
Média
(Grandes
E = zα ⋅
σ
n
2
N −n
N −1
zα2 σ 2 N
x−E < µ < x+E
n=
amostras)
Média
(Pequenas
2
zα σ + E 2 ( N − 1)
2
E = tα ⋅
2
s
n
N −n
N −1
tα2 s 2 N
x−E < µ < x+E
n=
amostras)
Proporção
2
2
2
2
2
tα s + E 2 ( N − 1)
2
E = zα ⋅
2
pˆ qˆ
n
N −n
N −1
pˆ − E < p < pˆ + E
zα2 σ 2 N
n=
2
2
2
zα σ + E 2 ( N − 1)
2
Exercícios: (Triola)
1) Para as temperatura do corpo humano temos n = 106 , x = 98,20º F
e
s = 0,62º F . Para um nível de significância de 5% determine:
a) a margem de erro E ;
b) O intervalo de confiança para µ .
2) Um economista deseja estimar a renda média para o primeiro ano de
trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer
um curso de estatística. Quantos valores de renda devem ser tomados, se o
economista deseja ter 95% de confiança em que a média amostral esteja a
$500 da verdadeira média populacional? Suponha que saibamos, por um
estudo prévio, que, para tais rendas, σ = $6250 .
38
3) Deseja-se estimar o preço médio de venda de um livro-texto para uma
faculdade. Quantos exemplares devemos selecionar, para termos 95% de
confiança de que a média amostral esteja a menos de $2 da verdadeira
média populacional? (Suponha que os preços variam entre $10 a $90. Use
σ = amplitude / 4 )
4) Os pesquisadores de opinião são atormentados por uma diversidade de
fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a
1068 americanos, 673 informaram ter secretária eletrônica (com base em
dados da International Mass Retail Association, relatado em USA Today).
Com esses resultados amostrais, determine:
a) A estimativa pontual da proporção populacional de todos os americanos
que têm secretária eletrônica;
b) A estimativa intervalar de 95% da proporção populacional de todos os
americanos que têm secretária eletrônica.
5) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se
que 135 deles têm computadores pessoais (com base em dados da America
Passage Media Corporation).
a) Determine a estimativa pontual da verdadeira proporção de todos os
universitários que têm computador pessoal;
b) Determine um intervalo de 99% de confiança para a verdadeira proporção
de todos os universitários que têm computador pessoal.
6) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente,
dentre as quais 331 causadas por doenças cardíacas (com base em dados
do Center for Disease Control).
a) Com os dados mostrais, construa um intervalo de confiança de 99% para
a proporção de todas as mortes causadas por doenças cardíacas;
b) Utilizando os dados amostrais como estudo piloto, determine o tamanho
de amostra necessário para estimar a proporção de todas as mortes
causadas por doenças cardíacas. Admita um nível de confiança de 98%,
em que o erro da estimativa não supere 0.01.
39
7) No caso de estimativa da proporção quando temos uma população
relativamente pequena, de tamanho N, e a amostragem é sem reposição,
modificamos o erro para
E = zα ⋅
2
pˆ qˆ
n
N −n
N −1
Mostre que o o tamanho da amostra pode ser encontrada por


Npˆ qˆ  zα 
 2
n=
2
2


pˆ qˆ  zα  + ( N − 1)E 2
 2
8) Uma amostra consiste de 75 aparelhos de televisão adquiridos há vários
anos. Os tempos de substituição desses aparelhos têm médiia de 8.2 anos e
desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,”
Consumer Reports). Construa um intervalo de confiança de 90% para o
desvio-padrão dos tempos de substituição de todos os aparelhos de TV
daquela época.
9) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais
são distribuídos normalmente.
a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o
intervalo de confiança de 7.581 < σ 2 < 35.944 . Determine o grau de
confiança sendo n = 20; x = 45.2; s = 3.8 .
b) Dá-se o seguinte intervalo de confiança: 19.1 < σ < 45.8 . Determine o
seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança.
10) (Montgomery) Suponha que θˆ1 e θˆ2 sejam dois estimadores do parâmetro
θ
θ . Sabemos que E θˆ1 = θ , E θˆ2 = , Var θˆ1 = 10 e Var θˆ2 = 4 . Qual o
2
( )
( )
( )
( )
melhor estimador?
11) (Montgomery)
2
1 n
a) Mostre que s 2 = ∑ X i − X
é um estimador tendencioso para σ 2 .
n i =1
(
)
b) Qual é a tendenciosidade?
40
c) O que acontece com a tendência a medida que o tamanho da amostra
aumenta?
Teorema Central do Limite
Se X 1 , X 2 , L , X n for uma amostra aleatória de tamanho n, retirada de uma
população (finita ou infinita), com média µ e variância σ 2 , e se X for a média
amostral, então a forma limite da distribuição de
Z=
X −µ
σ
n
quando n tende ao infinito, é a distribuição normal padrão.
Ou:
Teorema Central do Limite
Se extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma
população com média µ e variância σ 2 , a média das médias se denota por µ x ;
assim,
µx = µ
Por sua vez, o desvio-padrão das médias amostrais se denota por σ x ; então,
σx =
σ
n
41
OBS.: (Triola)
1) O teorema central do limite se aplica quando estamos em face de uma
distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da
amostra é maior do que 30 ou quando a população original tem distribuição normal.
2) No caso de amostragem sem reposição, quando o tamanho n da amostra é
superior a 5% do tamanho N da população finita (isto é, n > 0,05 N ), ajustamos o
desvio-padrão da média amostral σ x multiplicando o pelo fator de correção para
população finita:
N −n
N −1
3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a
distribuição amostral. A distribuição binomial foi utilizada como parâmetro de
referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho
da amostra. Percebemos que à medida que o tamanho da amostra cresce a
distribuição amostral das proporções tende a uma distribuição normal. Percebe-se
também que a variabilidade decresce. Observamos que a média da distribuição
amostral é sempre igual a proporção.
42
43
4) (Stevenson) A próxima figura nos dá uma idéia do comportamento da
distribuição amostral considerando a distribuição da população.
44
Exemplo: Voltando ao exemplo da população formada pelos elementos
1
4
2
3
e considerando todas as amostras possíveis de tamanho 2
Amostras
Média
1e4
2,5
1e2
1,5
1e3
2
4e2
3
4e3
3,5
2e3
2,5
podemos observar que:
a) Se calcularmos a média das médias (média entre os elementos)
2,5
1,5
2
3
3,5
2,5
encontramos µ x = 2,5 que corresponde à média populacional µ . Assim temos, de
acordo com o teorema, que µ x = µ .
2
.
b) Calculando a variância das médias, dados do item (a), encontramos σ x =
2
Considerando os dados populacionais (1,4,2,3) encontramos σ =
15
.
3
Como o tamanho da amostra é n = 2 e o tamanho da população é N = 4 ,
verificamos que n > 0.05 N . Assim devemos aplicar o fator de correção,
encontrando σ x =
σ
n
N −n
. De fato:
N −1
45
σx =
σ
n
N −n
N −1
15
=
3
2
15
=
=
=
3
2
4−2
4 −1
2
3
15
3 3
15 3
3 3 3
3 5
9
5
=
3
=σ
=
46
Exercícios:
1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é
importante considerar os pesos das pessoas, de modo que não haja sobrecarga em
aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros
acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem
pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com
base em dados do National Health Survey dos EUA), determine a probabilidade de
que:
a) Um homem escolhido aleatoriamente pese mais de 180 lb;
b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180
lb.
c) Refaça a letra (b) supondo a população de homens igual a N = 500 .
2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de
100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal.
Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma
resistência média menor que 95 ohms.
3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18.
a) Determine µ e σ ;
b) Relacione todas as amostras de tamanho n = 2 que podem ser obtidas sem
reposição;
c) Determine a população de todos os valores de x achando a média de cada
amostra da parte (b);
d) Ache a média µ x e o desvio-padrão σ x ;
e) Verifique que
µx = µ
e σx =
σ
n
N −n
N −1
47
4) O calor liberado, em calorias por grama, de uma mistura de cimento tem
distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2.
Desejamos testar
H 0 : µ = 100
H1 : µ ≠ 100
com uma amostra de tamanho 9 espécimes.
Suponha que a região de aceitação é definida como 98,5 ≤ X ≤ 101,5 . Encontre a
probabilidade do erro tipo 1 ocorrer.
5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria
tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é
de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas
amostras acusará vida média no intervalo de 1 mês em torno de 50 meses,
admitindo ser 50 meses a verdadeira vida média das baterias?
48
Estimador de Máxima Verossimilhança
Um dos melhores métodos de obter um estimador de um parâmetro é o método da
máxima verossimilhança. Essa técnica foi desenvolvida nos anos de 1920 pelo
famoso estatístico britânico Sir R. A. Fisher. Como o nome implica, o estimador será
o valor do parâmetro que maximiza a função verossimilhança.
Suponha que X
seja uma variável aleatória com distribuição de probabilidade
f ( x,θ ) , em que θ é um único parâmetro desconhecido. Sejam x1 , x2 , K, xn os
valores observados na amostra aleatória de tamanho n . Então, a função
verossimilhança da amostra é
L(θ ) = f ( x1 , θ ) ⋅ f ( x 2 , θ ) ⋅ L ⋅ f ( x n , θ )
O estimador de máxima verossimilhança é aquele que maximiza a função de
verossimilhança.
Passos para se encontrar o estimador de máxima verossimilhança:
1) Encontrar a função de verossimilhança L (θ ) ;
2) Calcular l (θ ) = ln L(θ ) ;
3) Calcular
4) Igualar
d
l (θ ) ;
dθ
d
l (θ ) = 0 e resolver em relação ao parâmetro escolhido.
dθ
Obs.: A função de verossimilhança da amostra L(θ ) é apenas a probabilidade
P( X 1 = x1 ,K , X n = x n )
49
Exemplo:
Seja X normalmente distribuída, com média µ desconhecida e variância σ 2
conhecida. Qual o estimador de máxima verossimilhança para a média µ
considerando uma amostra de tamanho n ?
Sugestão: Utilize f ( x, µ ) =
1
σ 2π
−
e
( x − µ )2
2σ 2
Exercícios de estimadores
1) Seja X exponencialmente distribuída com parâmetro λ . A função de máxima
verossimilhança de uma amostra aleatória de tamanho n, x1 , x2 , K , xn é ?
Considere a função exponencial como λ e − λx
2) Refaça o exercício da distribuição normal considerando µ conhecido e
2
encontre o estimador para a variância σ .
3) Seja X uma variável aleatória, com a seguinte distribuição de probabilidade
(θ + 1)xθ , 0 ≤ x ≤ 1
f ( x, θ ) = 
, caso contrario
 0
A função de máxima verossimilhança para o estimador θ , considerando uma
amostra aleatória de tamanho n, x1 , x2 , K , xn é ?
Exercícios de revisão
1) Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o
débito médio anual nesses cartões, para contas individuais, é de $1592, com
desvio-padrão de $997. Construa o intervalo de 94% de confiança para o
débito médio anual em cartões de crédito para a população de todas as
contas.
50
2) 430 < µ < 470 é um intervalo de 95% de confiança para as vidas (em minutos)
de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra
de tamanho 100.
a) Construa o intervalo de 99% de confiança;
b) Qual é o valor da média amostral?
c) Qual é o valor do desvio-padrão amostral?
d) Se se obtém com os mesmos dados o intervalo de confiança
432 < µ < 468 , qual é o grau de confiança?
3) Construa um intervalo de 98% de confiança para a renda média de todos os
empregados de tempo integral que têm grau de bacharel. Uma amostra de 25
desses
empregados
revelou
que
a
distribuição
das
rendas
é
aproximadamente normal, com média $39.271 e desvio-padrão de $18.933.
4) Uma pesquisa de mercado para a Ford Motor Company revela que uma
amostra de 1220 residências selecionadas aleatoriamente inclui 1054 que
possuem um veículo. Com base nesses resultados, construa um intervalo de
98% de confiança para a porcentagem de todas as residências que possuem
um veículo.
5) Os valores relacionados são tempos de espera (em minutos) de clientes no
Jefferson Bank, onde os clientes entram em uma fila única que é atendida por
três guichês. Construa um intervalo de 95% de confiança para o desviopadrão populacional.
6,5
6,6
6,7
6,8
7,1
7,3
7,4
7,7
7,7
7,7
51
Regressão Múltipla
Este material foi retirado do livro: Estatística Aplicada e Probabilidade para
Engenheiros. Douglas C. Montgomery & George C. Runger.
1. Definição:
Uma equação de regressão linear múltipla expressa um relacionamento entre
uma variável dependente ou de resposta,
regressoras
(xi1,
yi , e as variáveis independentes ou
xi 2 , K, xik ) .
O modelo de regressão linear múltiplo com k variáveis é definido por:
yi = β 0 + β1 xi1 + β 2 xi 2 + L + β k xik + ε i
k
yi = β 0 + ∑ β j xij + ε i
j =1
Onde i = 1, 2,K, n e n > k
Notação:
n : tamanho da amostra;
k : número de variáveis independentes;
y
: valor predito da variável dependente;
xi1 , xi 2 , K, xik : variáveis independentes;
β 0 , β1 , β 2 , K, β k : coeficientes de regressão;
ε : erro.
O parâmetro β j representa a variação esperada na resposta y por unidade
de variação unitária em x j quando todos os outros regressores restantes xi (i ≠ j )
forem mantidos constantes.
Exemplo:
52
a) yˆ = 2,26379 + 2,74427 x1 + 0,01253 x2 ;
2. Estimação de Mínimos Quadrados dos Parâmetros
O método dos mínimos quadrados pode ser usado para estimar os
coeficientes de regressão no modelo de regressão múltipla.
O objetivo é minimizar a função
n
L = ∑ε i 2
i =1

= ∑  yi − β 0 −

i =1
n

∑ β j xij 
j =1

k
2
Queremos minimizar a função L com relação a β 0 , β1 , β 2 , K, β k . As
estimativas de mínimos quadrados têm de satisfazer
∂L
∂β 0
k


ˆ

= −2∑ yi − β 0 − ∑ βˆ0 xij  = 0 (1)


i =1
j =1

n
βˆ0 , βˆ1 , βˆ 2 , K, βˆ k
e
n 
k

∂L


ˆ
ˆ
ˆ , βˆ , βˆ , K, βˆ = −2∑ yi − β 0 − ∑ β 0 xij xij = 0,
β
0
1
2
k
∂β j
i =1
j =1

j = 1, 2, K, k
(2)
Simplificando as equações (1) e (2), obtemos as equações normais de
mínimos quadrados:
53
n
n
n
n
nβˆ0 + βˆ1 ∑ xi1 + βˆ2 ∑ xi 2 + K + βˆk ∑ xik = ∑ yi
i =1
i =1
i =1
i =1
n
n
n
n
n
βˆ0 ∑ xi1 + βˆ1 ∑ xi21 + βˆ2 ∑ xi1 xi 2 + K + βˆk ∑ xi1 xik = ∑ xi1 yi
i =1
i =1
i =1
i =1
i =1
M
M
M
M
M
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
βˆ0 ∑ xik + βˆ1 ∑ xik xi1 + βˆ2 ∑ xik xi 2 + K + βˆk ∑ xik2 = ∑ xik yi
Note que há p = k + 1 equações normais, uma para cada um dos coeficientes
desconhecidos da regressão. A solução para as equações normais serão os
estimadores de mínimos quadrados.
Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um
processo de fabricação de semicondutores, do comprimento do fio e da altura da
garra.
Número da
Resistência à
Comprimento
Altura da garra
observação
tração
do fio
x2
y
x1
1
9,95
2
50
2
24,45
8
110
3
31,75
11
120
4
35
10
550
5
25,02
8
295
6
16,86
4
200
7
14,38
2
375
8
9,60
2
52
9
24,35
9
100
10
27,50
8
300
11
17,08
4
412
12
37
11
400
13
41,95
12
500
54
14
11,66
2
360
15
21,65
4
205
16
17,89
4
400
17
69
20
600
18
10,30
1
585
19
34,93
10
540
20
46,59
15
250
21
44,88
15
290
22
54,12
16
510
23
56,63
17
590
24
22,13
6
100
25
21,15
5
400
Ajustaremos o modelo
y = β0 + β1xi1 + β 2 xi 2 + ε i
De acordo com a tabela temos:
25
n = 25;
25
25
∑ yi = 725,82;
∑ xi1 = 206
i =1
i =1
25
25
∑ xi2 = 8.294;
∑ xi21 = 2.396;
∑ xi22 = 3.531.848
i =1
25
i =1
i =1
25
25
∑ xi1xi2 = 77.177;
∑ xi1 yi = 8.008,47;
∑ xi2 yi = 274.816,71
i =1
i =1
i =1
Para o modelo a ser ajustado as equações normais são:
n
n
n
nβˆ0 + βˆ1 ∑ xi1 + βˆ2 ∑ xi 2 = ∑ yi
i =1
i =1
i =1
n
n 2
n
n
βˆ0 ∑ xi1 + βˆ1 ∑ xi1 + βˆ2 ∑ xi1 xi 2 = ∑ xi1 yi
i =1
i =1
i =1
i =1
n
n
n
n
βˆ0 ∑ xi 2 + βˆ1 ∑ xi1 xi 2 + βˆ2 ∑ xi22 = ∑ xi 2 yi
i =1
i =1
i =1
i =1
55
Substituindo as somas temos:
25βˆ0 + 206 βˆ1 + 8.294 βˆ2 = 725,82
206 βˆ0 + 2.396 βˆ1 + 77.177 βˆ2 = 8.008,47
8.294 βˆ0 + 77.177 βˆ1 + 3.531.848βˆ2 = 274.816,71
A solução encontrada é:
yˆ = 2,26379 + 2,7442 x1 + 0,01253 x2
3. Abordagem matricial para a regressão linear múltipla
O modelo de regressão é um sistema de n equações, que pode ser expresso
na notação matricial
y = Xβ + ε
onde
 y1 
1 x11
y 
1 x
2
21

; X =
y=
M 
M M
 

1 xn1
 yn 
x12 K x1k 
β 0 
ε1 


ε 

x22 K x2k 
β1 
2

; β=
; ε = 
M 
M 
M
M 
 
 

xn 2 K xnk 
ε n 
β k 
As equações normais do modelo são:
X ' Xβˆ = X ' y
X ' representa a transposta da matriz X .
A estimativa de mínimos quadrados é:
( )−1 X ' y
βˆ = X ' X
56
4. Estimativa da variância
A estimativa da variância é obtida através do estimador não-tendencioso
n
∑ ε i2
σˆ 2 = i =1
n− p
=
SQE
n− p
onde
n
n
i =1
i =1
SQE = ∑ ( yi − yˆ i )2 = ∑ ε i2 = ε ' ε
No denominador temos
n− p
que é denominado graus de liberdade do erro
ou do resíduo.
5. Testes de hipóteses para a regressão linear múltipla
5.1.
Teste para a significância da regressão
O teste para a significância da regressão é um teste para determinar se existe
uma relação linear entre as variáveis de resposta e as regressoras.
As hipóteses são:
 H 0 : β1 = β 2 = K = β k = 0

 H1 : β j ≠ 0 para no mínimo um j
A estatística de teste é dada por:
SQR
F0 =
SQE
k
(n − p )
=
MQR
MQE
onde
57
2 
2
 n  
 n 

 ∑ yi  
 ∑ yi 
 




SQE = y ' y −  i =1  −  βˆ ' X ' y −  i =1  
n
n








 n 
 ∑ yi 


SQE = βˆ ' X ' y −  i =1 
n
2
2
2
Podemos também usar o R e o R ajustado como uma estatística global
para avaliar o ajuste do modelo. Assim temos:
SQ E
2
R ajustado = 1 −
5.2.
(n − p )
SQT
(n − 1)
Testes para os coeficientes individuais de regressão e subconjuntos de
coeficientes
As hipóteses para testar se um coeficiente individual de regressão, como β j ,
é igual a um dado valor β j 0 é:
 H 0 : β j = β j 0

 H1 : β j ≠ β j 0
A estatística de teste é dada por:
T0 =
βˆ j − β j 0
σ 2C jj
58
6. Intervalos de confiança para a regressão linear múltipla
Um intervalo de confiança de 100(1 − α )% para o coeficiente de regressão
β j , j = 0, 1, 2, K, k no modelo de regressão linear múltipla é dado por:
βˆ j − tα
2, n − p
σˆ 2 C jj ≤ β j ≤ βˆ j + tα
2, n − p
σˆ 2C jj
7. Previsão de novas observações
Um intervalo de previsão de 100(1 − α )% para uma futura observação é dado
por:
(
)
(
yˆ 0 − tα 2 , n − p σˆ 2 1 + x0' ( X ' X )−1 x0 ≤ Y0 ≤ yˆ 0 + tα 2, n − p σˆ 2 1 + x0' ( X ' X )−1 x0
)
8. Uso computacional
Podemos utilizar vários softwares para fazer a regressão múltipla: R, SPSS,
Excel, Minitab, etc.
A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel:
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo
0,990523843
R-Quadrado
0,981137483
R-quadrado ajustado
0,979422709
Erro padrão
2,288046833
Observações
25
Análise:
R-quadrado ajustado dá o grau de relacionamento linear múltiplo, 0,979422709.
Ele leva em consideração o tamanho da amostra e o número de variáveis.
59
Observações apresenta o tamanho da amostra, 25.
60
ANOVA
gl
Regressão
Resíduo
Total
SQ
MQ
F
F de significação
2 5990,771221 2995,386 572,1671503
1,07546E-19
22 115,1734828 5,235158
24 6105,944704
Análise:
A estimativa da variância é dada por
n
∑ ε i2
σˆ 2 = i =1
n− p
=
SQE
n− p
Na tabela acima esta estimativa é dada por MQ do resíduo, 5,235158. Ele
corresponde a soma dos quadrados, SQ, do resíduo dividido pelo grau de liberdade,
gl, do resíduo.
No F de significação temos o teste de hipótese para verificar se o modelo
linear múltiplo é bem ajustado. Neste caso basta que seu valor seja menor
que o nível de significância.
Interseção
Variável X 1
Variável X 2
Coeficientes
2,263791434
2,744269643
0,012527811
Erro padrão
Stat t
valor-P 95% inferiores 95% superiores
1,060066238 2,135519 0,04409945 0,065348623 4,462234246
0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225
0,002798419 4,476746 0,000188266 0,006724246 0,018331377
Análise:
Na tabela acima temos vários resultados e testes. Entre eles temos os valores
dos coeficientes da interseção, 2,263791434 , da variável X1, 2,744269643, e da
variável X2, 0,012527811.
Também testamos se cada coeficiente é significativo, ou seja, se ele será ou
não acrescentado ao modelo. Neste caso é só observar na coluna do valor-P.
Caso este valor seja menor que o nível de significância então o coeficiente é
significativo, isto é, é utilizado no modelo.
Valor-P para Interseção: 0,04409945
Valor-P para variável X1: 3,90691E-19
Valor-P para variável X2: 0,000188266
Temos também o intervalo de confiança para cada coeficiente. Neste caso é
só observar seus limites inferiores, na coluna 95% inferiores, e limites
61
superiores, na coluna 95% superiores. Estes valor de 95% é definido na hora
de construção do modelo, podendo variar.
Intervalo de confiança para a interseção: [ 0,065348623, 4,462234246]
Intervalo de confiança para a variável X1: [2,550313062, 2,938226225]
Intervalo de confiança para a variável X2: [0,006724246, 0,018331377]
RESULTADOS DE RESÍDUOS
Observação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Y previsto
8,37872129
25,59600783
33,95409488
36,59678413
27,91365294
15,74643228
12,45025999
8,403776913
28,21499936
27,976292
18,4023283
37,46188206
41,45893285
12,26234282
15,80907134
18,25199456
64,66587113
12,33683074
36,47150602
46,55978893
47,06090138
52,56128953
56,30778409
19,98219043
20,9962642
Resíduos
1,57127871
-1,146007833
-2,204094876
-1,596784129
-2,893652939
1,113567716
1,92974001
1,196223087
-3,864999362
-0,476291996
-1,322328298
-0,461882064
0,491067154
-0,60234282
5,840928659
-0,361994562
4,334128869
-2,036830738
-1,541506015
0,030211071
-2,180901385
1,558710467
0,322215913
2,147809568
0,153735795
Análise:
Na tabela acima temos os resíduos do modelo, ε = y − yˆ .
62
Exemplo:
1) A energia elétrica consumida mensalmente por uma indústria química está
relacionada à temperatura média ambiente ( x1 ) , ao número de dias no mês
(x2 ) , à pureza média do produto (x3 )
e às toneladas do produto produzido
(x4 ) . Os dados históricos do ano passado estão disponíveis e são
apresentados na tabela a seguir:
y
x1
x2
x3
x4
240
25
24
91
100
236
31
21
90
95
270
45
24
88
110
274
60
25
87
88
301
65
25
91
94
316
72
26
94
99
300
80
25
87
97
296
84
25
86
96
267
75
24
88
110
276
60
25
91
105
288
50
25
90
100
261
38
23
89
98
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente β 0 e β1 da
regressão;
63
2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação
com x1 a viscosidade do óleo e x2 carga. Os dados são o seguinte:
y
x1
x2
293
1,6
851
230
15,5
816
172
22
1058
91
43
1201
113
33
1357
125
40
1115
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente β 0 e β1 da
regressão;
64
Experimentos Multinomiais
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à
Estatística. Autor: M. F. Triola.
Neste tópico usaremos a distribuição qui-quadrado, χ 2 , como estatística de teste.
Propriedades:
1. Ao contrário das distribuições normal e t de Student, a distribuição quiquadrado não é simétrica;
2. Os valores da distribuição qui-quadrado podem ser 0, zero, ou positivos, mas
nunca negativos;
3. Há uma distribuição qui-quadrado diferente para cada número de graus de
liberdade, GL = n − 1 .
Definição:
Um experimento multinomial é um experimento que verifica as seguintes
condições:
1. O número de provas é fixo;
2. As provas são independentes;
3. Todos os resultados de cada prova devem ser classificados em
exatamente uma dentre várias categorias;
4. As
probabilidades
para
as
diferentes
categorias
permanecem
constantes (as mesmas) em cada prova.
65
A seguir apresentaremos um teste de aderência. Ele é utilizado para testar a
afirmação de que, em um experimento multinomial, as freqüências observadas nas
diferentes categorias se ajustam a determinada distribuição.
Exemplos:
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul.
2) É comum a crença de que ocorre um maior número de acidentes fatais com
automóveis em determinados dias da semana, como sexta-feira ou sábado.
3) O gerente de determinado supermercado deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender à demanda dos
consumidores, sem que haja perda de sabores menos procurados.
Definição:
Utiliza-se um teste de aderência para testar a hipótese de que uma
distribuição de freqüências observadas se ajusta (ou adere) a determinada
distribuição teórica.
Notação:
O : representa a freqüência observada de um resultado;
E : representa a freqüência esperada de um resultado;
k : representa o número de categorias, ou resultados, diferentes;
n : representa o número total de provas.
Em situação típica podemos encontrar a freqüência esperada, E, multiplicando a
probabilidade p de uma categoria pelo número de provas diferentes:
E = np
Suposições:
66
Segue as suposições válidas ao testarmos a proporção populacional alegada para
cada uma das k categorias ( em um experimento multinomial)
1) Os dados constituem uma amostra aleatória;
2) Os dados amostrais consistem em categorias de freqüências para as k
categorias diferentes;
3) Para cada uma das k categorias, a freqüência esperada é, no mínimo, 5.
(Não há qualquer exigência de que cada freqüência observada seja no
mínimo igual a 5.)
Estatística de teste de Aderência
χ2 = ∑
(O − E )2
E
Valores Críticos:
1. Na tabela A – 4 encontram-se os valores críticos, tomando-se k − 1
graus de liberdade;
2. Os testes de hipótese de aderência são sempre unilaterais à direita.
67
Exemplo:
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir
apresentamos os dados amostrais.
Tabela: Frequência dos confeitos M&M
Marron
Amarelo
Vermelho
Laranja
Verde
Azul
33
26
21
8
7
5
Frequência
Observada
Teste a afirmação de que a distribuição de cores é a afirmada acima. Use nível de
significância 5%.
Solução:
Marron
Amarelo
Vermelho
Laranja
Verde
Azul
33
26
21
8
7
5
30
20
20
10
10
10
Frequência
Observada
Frequência
esperada
Temos que:
Para os confeitos marron: E = np = 100 ⋅ 0,30 = 30
Analogamente construímos as freqüências esperadas.
O teste a ser feito é:
H 0 : p marron = 0,30
p amarelo = 0,20
pvermelho = 0,20
plaranja = 0,10
pverde = 0,10
p azul = 0,10
H1 : pelo menos uma das proporções acima é diferente do valor alegado
Cálculo da estatística de teste:
68
Frequência Frequência
O−E
(O − E )2
(O − E )2
observada
esperada
Marron
33
30
3
9
0,3000
Amarelo
26
20
6
36
1,8000
Vermelho
21
20
1
1
0,0500
Laranja
8
10
-2
4
0,4000
Verde
7
10
-3
9
0,9000
Azul
5
10
-5
25
2,5000
E
Assim
χ2 = ∑
(O − E )2
E
= 5,9500
O valor crítico é 11,071.
Como a estatística de teste < valor crítico, 5,9500<11,071, então não rejeitamos H 0 .
Exercícios:
1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento
médico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na terça-feira,
18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira.
Teste a afirmação de que os acidentes ocorrem com a mesma proporção nos
cinco dias da semana.
2) O gerente do Supermercado Gleason deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender à demanda dos
consumidores, sem que haja perda de sabores menos procurados. O
fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes têm as seguintes preferências: 62% preferem baunilha, 18% preferem
chocolate, 12% preferem napolitano e 8% preferem baunilha com calda.
Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o
fornecedor identificou corretamente as preferências dos consumidores. Use
nível de significância de 5%.
Sabor
Baunilha
Clientes
120
Chocolate Napolitano
40
18
Baunilha em calda
22
69
3) Com nível de significância de 0,05 e os dados de acidentes industriais do
exercício 1, teste a afirmação de um técnico de segurança de que os
acidentes se distribuem pelos dias úteis como se segue: 30% na segundafeira, 15% na terça, 15% na quarta, 20% na quinta e 20% na sexta.
70
Tabela de Contingência
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à
Estatística. Autor: M. F. Triola.
Definição:
Uma tabela de contingência (ou tabela de freqüência de dupla entrada) é uma
tabela em que as freqüências correspondem a duas variáveis. (Uma variável
categoriza as linhas, a outra categoriza as colunas)
As tabelas de contingências são de grande importância pois são utilizadas para
analisar resultados de pesquisas.
Usaremos um teste, chamado teste de independência, usado para determinar se
uma variável linha de uma tabela de contingência é independente de sua variável
coluna.
Definição:
Utiliza-se um teste de independência para testar a hipótese nula de que a
variável linha e a variável coluna em uma tabela de contingência não estão
relacionadas, isto é, são independentes.
Obs.: No contexto deste material a palavra contingência se refere a dependência,
mas trata-se apenas de uma dependência estatística, e não pode ser usada para
estabelecer uma ligação direta de causa e efeito entre as duas variáveis.
Hipóteses em um teste de independência
 H 0 : as var iáveis são independen tes

 H1 : as var iáveis são dependente s
71
Suposições:
4) Os dados constituem uma amostra aleatória;
5) Para cada célula na tabela de contingência, a freqüência esperada é, no
mínimo, 5. (Não há qualquer exigência de que cada freqüência observada
seja no mínimo igual a 5.)
Estatística de teste
χ2 = ∑
(O − E )2
E
Valores Críticos:
3. Na tabela A – 4 encontram-se os valores críticos, tomando-se graus de
liberdade
gl = (r − 1)(c − 1)
onde:
r: número de linhas
c: número de colunas.
4. Os testes de hipótese de independência com tabelas de contingência
envolvem apenas regiões críticas unilaterais à direita.
Freqüência esperada para uma tabela de contingência
E=
(total
linhas )(total colunas )
total geral
72
Exemplo:
2) (Livro Estatística Aplicada à Gestão Empresarial – Adriano L. Bruni) Os dados
a seguir referem-se ao cruzamento entre as variáveis: possui habilitação e
sexo, de 53 funcionários de um escritório de contabilidade.
Tabela: Sexo versus Habilitação
Habilitado
Sim
Não
Total
Feminino
9
12
21
Masculino
25
7
32
Total
34
19
53
Teste se as variáveis são independentes. Use nível de significância 5%.
Solução:
O teste a ser feito é:
 H 0 : as var iáveis são independentes

 H1 : as var iáveis são dependentes
Cálculo das freqüências esperadas.
Habilitado
Sim
Não
Feminino
21 ⋅ 34
= 13,47
53
21 ⋅ 19
= 7,53
53
Masculino
32 ⋅ 34
= 20,53
53
32 ⋅ 19
= 11,47
53
73
Cálculo da estatística de teste:
Habilitado
Sim
(9 − 13,47 )2
Feminino
Masculino
13,47
(25 − 20,53)2
20,53
Não
(12 − 7,53)2
= 1,483
7,53
(7 − 11,47 )2
= 0,973
11,47
= 2,654
= 1,742
Assim
χ =∑
2
(O − E )2
E
= 1,483 + 2,654 + 0,973 + 1,742 = 6,852
Graus de liberdade: gl = (r − 1)(c − 1) = (2 − 1)(2 − 1) = 1
Valor crítico: χ 2 = 3,841
Como a estatística de teste > valor crítico, 6,852 > 3,841, então não rejeitamos H 0 .
Logo as variáveis são independentes.
Exercícios:
1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a
causa de morte e condição da pessoa.
Causa da Morte
Ferimento
acidental
Doença
Homicídio
Ou Suicídio
Em zona de combate
115
56
29
Fora da zona de combate
175
94
31
2) (Triola) Fez-se uma pesquisa para determinar se há restrições, quanto ao
sexo, na confiança que o povo deposita na polícia. Os resultados amostrais
constam da tabela a seguir. Com nível de 0,05 de significância, teste a
afirmação de que não há tal restrição.
Confiança na polícia
Muita
Alguma
Muito pouca ou
74
nenhuma
Homens
115
56
29
Mulheres
175
94
31
Fonte: Ministério da Justiça dos EUA e da Gallup Organization
3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de
uma amostra aleatória de vítimas de diferentes crimes. Com nível de 0,05 de
significância, teste a afirmação de que o tipo de crime é independente do fato
de o criminoso ser um estranho.
Tipo de crime
Criminoso era um estranho
Criminoso era conhecido ou
parente
Homicídio
Roubo
Assalto
12
379
727
39
106
642
75
Resíduos Padronizados
Definição
Os resíduos (diferenças entre freqüência observada e esperada) numa forma
padronizada, ou seja, expressos em unidades de desvios-padrão é dado por
Z res =
O−E
 TC  TL 
E ⋅ 1 −
1 −

 TG  TG 
onde:
O: freqüência observada;
E: freqüência esperada;
TC: total de colunas;
TL: total de linhas;
TG: total geral.
Os resíduos padronizados representam valores de relação biunívoca com
probabilidades de ocorrência, valores maiores que 1,96 ou menores que -1,96 têm
pequenas chances de ocorrência, e podem assim instruir pontos de corte para um
nível de significância de excesso ou falta de ocorrências, respectivamente.
Exemplo: Voltando ao exemplo 1, temos:
Tabela: Sexo versus Habilitação
Habilitado
Sim
Não
Total
Feminino
9
12
21
Masculino
25
7
32
Total
34
19
53
A freqüência esperada é dada por:
Habilitado
Feminino
Sim
Não
13,47
7,53
76
Masculino
20,53
11,47
Os resíduos é dado por:
Z res =
O−E
 TC  TL 
E ⋅ 1 −
1 −

 TG  TG 
Habilitado
Sim
9 − 13,47
Feminino
 34  21 
13,471 − 1 − 
 53  53 
25 − 20,53
Masculino
 34  32 
20,531 − 1 − 
 53  53 
Não
= −2,62
= 2,62
12 − 7,53
 19  21 
7,531 − 1 − 
 53  53 
7 − 11,47
 19  32 
11,471 − 1 − 
 53  53 
= 2,62
= −2,62
Análises:
1) Verificamos inicialmente que o módulo da diferença entre as freqüências
observadas e esperadas são iguais para todas as células. Neste caso não
podemos dizer qual das células mais influenciou para o resultado da
estatística de teste;
2) Analisando os resíduos vemos também que eles são, em módulos, iguais.
Considerando um nível de significância de 5%, onde o valor crítico seria
±1,96, percebemos que ambos os resíduos são superiores a este valor. Isto
indica que todos os resultados são igualmente pouco prováveis. Sendo assim
elas são significantes. Neste caso não há nenhuma freqüência que causasse
maior impacto, todas tiveram o mesmo impacto.
3) Não podemos dizer o que valor 25, na tabela de contingência, indicasse que o
número de homens habilitados seria de maior impacto.
77
Introdução a Séries Temporais
Definição
Uma série temporal consiste em um conjunto de observações de
variáveis quantitativas coletadas ao longo do tempo.
Exemplos:
1) Vendas mensais de uma fábrica de sorvete;
2) Preço semanal de gasolina;
3) Evolução do preço diário de uma ação ao longo do tempo;
4) Temperatura diária em uma cidade.
As séries temporais podem englobar dados diários, semanais, mensais, etc. Neste
caso a ordem dos dados é fundamental.
Os modelos de análise de séries temporais geralmente preocupam-se em estimar o
comportamento futuro de uma série, com base em seus dados passados.
Genericamente, os modelos de previsão empregados em séries temporais podem
ser apresentados da seguinte forma:
Yˆt +1 = f (Yt , Yt −1 , Yt − 2 ,K)
Componentes de séries temporais
a) Tendência: descreve um movimento suave, a longo prazo, dos dados, para
cima ou para baixo.
b) Variações cíclicas: correspondem a um certo grau de regularidade a longo
prazo (1 ano, dez anos, 50 anos) no comportamento das séries temporais.
Exemplo: aumento das vendas de bandeira do Brasil em função da copa do
mundo de futebol.
c) Variações sazonais: representam regularidades de variações na série em
períodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente
dentro de um ano. Exemplo: vendas de ovos de páscoa nos meses de março
e abril.
78
d) Variações irregulares ou aleatórias: correspondem a ruídos na série temporal
em decorrência de fatores variados. Como são aleatórios não são previstos
no modelo.
Exemplos:
Uma série é dita estacionária se ela for convergente. Ela flutua em torno de um
ponto.
Uma série é dita não-estacionária se ela for divergente. Neste caso ela tem raiz
unitária. Uma opção para tornar a série estacionária é aplicar o operador diferença.
79
Exemplo:
1) Dados fictícios
Quadrimestre Periodo
1998
1
1998
2
1998
3
1998
4
1999
1
1999
2
1999
3
1999
4
2000
1
2000
2
2000
3
2000
4
2001
1
2001
2
2001
3
2001
4
2002
1
2002
2
2002
3
2002
4
2003
1
2003
2
2003
3
2003
4
2004
1
2004
2
2004
3
2004
4
2005
1
2005
2
2005
3
2005
4
Y
6,7
4,4
5,8
6,2
2,1
0,1
0,8
1,5
6
3,9
4,9
4,7
12,9
10,9
11,4
11,9
8,3
5,4
6,4
6,8
11,6
9,7
10,6
11,2
19,3
16,2
17,6
18,3
13,8
11,5
12,2
12,6
80
2) Para ilustrar dados envolvendo sazonalidade considere a venda de
sorvete:
Ano
Quadrimestre
Quadrimestre
Quadrimestre
Total
1
2
3
1998
170
250
180
600
1999
174
245
186
605
2000
168
262
168
598
2001
182
260
160
602
2002
154
240
210
604
Total
848
1257
904
3009
1) Para ilustrar dados envolvendo sazonalidade com médias móveis considere a
demanda de calçados
81
Quadrimestre
Demanda
2000:1
11
2000:2
12
2000:3
13
2001:1
19
2001:2
18
2001:3
19
2002:1
26
2002:2
24
2002:3
25
Modelos:
1) Médias móveis simples
Os modelos de médias móveis simples sugerem que a estimativa do valor futuro
Yˆt +1 pode ser feita com base em uma média aritmética simples de k valores
passados. Assim,
Y + Y + Y + K + Yt − k +1
Yˆt +1 = t t −1 t − 2
k
2) Médias móveis ponderados
No modelo de médias móveis ponderadas deve-se atribuir um peso para cada ano
analisado. Assim,
Yˆt +1 = w1Yt + w2Yt −1 + w3Yt − 2 + K + wk Yt − k +1
Onde
wi : pesos
82
Geralmente, dados mais recentes recebem maior ponderação.
3) Alisamento exponencial
A previsão feita para o período posterior Yˆt +1 deve ser igual à previsão feita para o
[ (
período anterior Ŷt , acrescido de um ajuste α Yt − Yˆt
) ], função do erro da previsão
efetuada para o período anterior. O valor de α deve estar compreendido entre 0 e 1.
Algebricamente temos:
(
Yˆt +1 = Yˆt + α Yt − Yˆt
)
Expandindo a expressão anterior encontramos:
Yˆt +1 = αYt + α (1 − α )Yt −1 + α (1 − α )2 Yt − 2 + K + α (1 − α )n Yt − n
Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado é o
próprio valor realizado.
4) Tendência com modelo de regressão
Neste modelo utiliza-se a regressão linear simples onde
y = a + bx
onde
n(∑ xy ) − (∑ x )(∑ y )
b=
2
n ∑ x 2 − (∑ x )
(
a=
)
∑ y − b∑ x
n
Análise da qualidade da previsão
1) Desvio médio absoluto: representa a soma dos desvios absolutos,
representados pelo módulo da diferença ou diferença absoluta entre a
demanda real e a prevista.
n Yi − Yˆi
DMA = ∑
i =1
n
2) Erro quadrático médio: representa a soma dos desvios ao quadrado,
representados pela diferença entre a demanda real e a prevista.
n
EQM = ∑
i =1
(Yi − Yˆi )2
n
Exemplo:
83
1) Considere o histórico de vendas a seguir
Mês
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Vendas
92
83
66
74
75
84
84
81
75
63
91
84
Calcule, utilizando a média móvel dos últimos 3 meses.
a) a previsão para o mês de janeiro seguinte
b) Desvio médio absoluto
c) Erro quadrático médio
Solução:
a) Considerando a média dos 3 anteriores meses temos
Y +Y +Y
Yˆ janeiro = out nov dez
3
63 + 91 + 84
Yˆ janeiro =
3
ˆ
Y janeiro = 79,33
b) Completando a tabela com as previsões temos:
Mês
Vendas
Previsão
Y
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
92
83
66
74
75
84
84
81
75
63
91
84
Y − Yˆ
(Y − Yˆ )2
6,33
0,67
12,33
6,33
0
8
17
18
7,67
40,0689
0,4489
152,0289
40,0689
0
64
289
324
58,8289
Ŷ
80,33
74,33
71,67
77,67
81
83
80
73
76,33
Logo
84
Yi − Yˆi 76,33
DMA = ∑
=
= 8,481
n
9
i =1
n
c) O erro quadrático médio será
n
EQM = ∑
i =1
(Yi − Yˆi )2 = 968,4445 = 107,605
9
n
2) Refaça o exemplo anterior utilizando a média móvel ponderada com pesos
0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro mês anterior,
respectivamente.
3) A previsão antiga da demanda do composto RK era de 100 unidades. A última
demanda real foi de 85 unidades. Qual é a previsão exponencialmente
nivelada para o próximo período? Alfa tem valor 0,2.
4) Considere os dados amostrais:
Semana
Demanda
1
150
2
159
3
160
4
167
5
173
6
175
7
185
8
188
Utilizando o alisamento exponencial faça as previsões para cada semana e para a
semana 9, sendo:
a) Alfa de 0,2
b) Alfa de 0,3
c) Calcule o desvio médio de cada item anterior, (a) e (b)
d) Com base no desvio médio, qual a melhor previsão?
85
5) O consumo de um componente das Fábricas Tronic os últimos 10 meses foi
igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com
base em análise de regressão, a previsão de consumo para o 11º mês.
86
Bibliografia
1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição.
São Paulo: Atlas, 1985.
2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e
probabilidade para engenheiros. Rio de Janeiro: LTC, 2009.
3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning,
2006.
4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São
Paulo: Atlas, 2008.
5. TRIOLA, Mário F., Introdução à Estatística. Rio de Janeiro. Editora LTC. 7.ª
edição, 2008.
87
Anexo 1
Comandos Software R
#=======================================================
Gerar amostras aleatórias
#=======================================================
criar vetor de amostras x
sort(x)# ordena os valores de x.
sample(x,5,T)# gera 5 amostras do vetor x com reposição
sample(x,5)# gera 5 amostras do vetor x sem reposição
#=======================================================
#
Mudar diretório
#=======================================================
Arquivo
Mudar diretorio
Nome da pasta
#=======================================================
#
Leitura e Preliminares dos Dados
#=======================================================
Leitura dos dados
gasolina <- scan(file="gasolina.txt")
frango <- scan(file="frango.txt")
alcatra <- scan(file="alcatra.txt")
dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra
attach(dados)# apresenta os nomes das variáveis
names(dados)# apresenta os nomes das variáveis
dim(dados) # dimensão dos dados
dados[1:15]# apresenta os 15 primeiros resultados
88
#==========================================================
#
Estatísticas Descritivas
#==========================================================
summary(gasolina)
summary(frango)
mean(gasolina)
median(gasolina)
quantile(gasolina) # retorna os quartis
var(gasolina)# variância
cov(frango,alcatra) #Covariância
cor(frango,alcatra)#correlação
#==============================================================
#
Tabela
#===============================================================
table(frango)# apresenta tabela distribuição frequencia simples.
#==============================================================
#
Graficos
#===============================================================
boxplot(gasolina,ylab="Preços da Gasolina")
boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra")
hist(frango)
plot(alcatra)
versa
pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice
t<-ts(frango) # transforma um conjunto de dados frango em uma série
temporal
plot(t)# faz o gráfico da série temporal
par(mfrow=c(2,1))#divide a tela em 2.
hist(gasolina)
89
abline(v=mean(gasolina))# faz uma linha na média de x1.
abline(v=median(gasolina))# faz uma linha na mediana de x1.
abline(v=quantile(gasolina))# faz uma linha nos quantis de x1.
#==============================================================
Regressão linear
#===============================================================
plot(x, y) # gráfico de dispersão.
fm <- lm(y ~ x) # regressão entre conjuntos pareados y e x.
fm # apresenta os coeficientes da regressão.
anova(fm)# apresenta tabela anova do modelo.
abline(lm(y~x)) # traça a reta de regressão.
90
Download