Apostila Básica de Estatística 2 Silvio Alves de Souza 1 ÍNDICE Introdução................................................................................................................... 3 Software R.................................................................................................................. 4 Software SPSS........................................................................................................... 5 Distribuição normal de probabilidade ......................................................................... 6 Testes de Hipótese paramêtrico................................................................................11 Testes Não-Paramétrico............................................................................................25 Distribuição Amostral.................................................................................................31 Regressão Múltipla....................................................................................................52 Experimentos Multinomiais........................................................................................65 Tabela de Contingência.............................................................................................71 Introdução a Séries Temporais..................................................................................78 Bibliografia.................................................................................................................87 Anexo 1 .....................................................................................................................88 2 Introdução Esta apostila é uma tentativa de compor parte do conteúdo da disciplina Estatística 2 do CEFET – MG. Esta disciplina é ministrada no curso de Administração. Seu conteúdo é de acordo com o plano de ensino do curso citados acima. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias. A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS. Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento. 3 Software R O software R é um software livre utilizado para análise de dados, cálculo e construão de gráficos. Sua construção foi feita utilizando vários colaboradores. Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos. O R tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas. A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados. No anexo 2 encontra-se alguns comandos úteis. 4 Software SPSS geral. O software SPSS é um software não-livre utilizado para análise Estatística em Por não ser um software livre muitas pessoas preferem a utilização do software R. No entanto ele é muito utilizado no meio empresarial. Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é necessário conhecimento dos comandos. O SPSS tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. A utilização deste software também é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados. 5 Distribuição normal de probabilidade Uma variável aleatória X tem distribuição normal se seu histograma tem a forma de um sino. 200 100 Std. Dev = 994,59 Mean = 2516,6 N = 1488,00 0 ,0 00 60 ,0 00 55 0 , 00 50 ,0 00 45 ,0 00 40 0 , 00 35 ,0 00 30 ,0 00 25 0 , 00 20 ,0 00 15 ,0 00 10 0 0, 50 0 0, Vendas de auto peças Definição Dados os parâmetros µ e σ > 0 reais, a função densidade de probabilidade da normal é dada por: f ( x) = 1 σ . 2π .e 1 x−µ 2 − ( ) 2 σ Onde E ( X ) = µ e Var ( X ) = σ . Podemos perceber que o cálculo de probabilidade usando a distribuição normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este problema é utilizar a distribuição normal padronizada. A distribuição normal padronizada tem este nome pois sua média é 0 e a variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar as tabelas de probabilidade normal padronizada. Uma conseqüência importante do fato de uma distribuição Normal ser completamente caracterizada por sua média e desvio-padrão é que a área sob a curva entre um ponto qualquer e a média é função somente do número de desviospadrões que o ponto está distante da média. 6 Como existem uma infinidade de distribuições normais (uma para cada média e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso, espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a contar da média. Para padronizar um conjunto de dados que tem distribuição normal é só aplicar a fórmula z= X −µ σ Utilização da tabela da normal padronizada A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade. Mais a frente veremos que o desvio-padrão é alterado quando vamos padronizar a média de um conjunto de dados. Este resultado é encontrado em um teorema denominado “Teorema Central do Limite”. Propriedades da distribuição normal 1) a curva é simétrica em torno da média; f (x ) = 0 2) xlim →∞ 3) a área total sob a curva é igual a 1; área=1 área=0,5 área=0,5 7 Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é uma característica de qualidade importante. Sabe-se que essa resistência segue um modelo Normal com média 40 psi e desvio padrão 2 psi. Se a especificação estabelece que a resistência deve ser maior que 35 psi, qual a probabilidade que uma sacola produzida com este material satisfaça a especificação? P{X ≥ 35} = 1 − P{X ≤ 35} 35 − 40 P{X ≤ 35} = P z ≤ = P{z ≤ −2,5} 2 Pela tabela da normal padronizada temos probabilidade de 0,0062. Logo a resposta é 1-0,0062 = 99,38%. Comparação entre média e variância f(x) A B C x 8 a) da distribuição A para B muda a tendência central, mas a variabilidade é constante; b) da distribuição A para C muda a variabilidade, mas a tendência central é constante; c) da distribuição B para C muda a tendência central e a variabilidade. Exercícios 1) Utilizando a tabela da distribuição normal padronizada calcule: a) P (z < 0 ,42 ) b) P ( z < 0 ,75 ) c) P ( z < −0 ,30 ) d) P (z > 0 ,56 ) e) P (0 ,25 < z < 0 ,72 ) f) P (− 0 ,25 < z < 0 ,20 ) g) o valor de z tal que P (− z < Z < z ) = 0 ,90 . 2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha distribuição normal com média 2,5 e desvio-padrão 0,6. Selecionando, aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar absorção de água entre 2% e 3,5%? 9 3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g. Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar a) entre 200 e 250g; b) mais de 230g; c) menos que 150g. 4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e desvio-padrão 4. Calcule: P(2 ≤ X < 8 ) 10 Testes de Hipótese paramêtrico Teste de Hipótese Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de uma população. Podemos estar interessados em saber informações sobre a média, a proporção ou a variância. Componentes de um teste de hipótese 1) Hipótese nula - H0 : é uma afirmação sobre o valor de um parâmetro populacional. Deve conter o sinal de igualdade e deve escrever-se como = , ≤ , ≥ . 2) Hipótese alternativa - H1 : é a afirmação que deve ser verdadeira se a hipótese nula for falsa. Não deve conter o sinal de igualdade. Exemplos: a) Testar a afirmação de que a média populacional é 75. Solução: Neste caso temos H 0 : µ = 75 e H1 : µ ≠ 75 . b) Testar a afirmação de que a média é no máximo 2,50. Solução: Neste caso temos H 0 : µ ≤ 2,50 e H1 : µ > 2,50 . 3) 4) Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira. H 0 verdadeira H 0 falsa Rejeita H 0 Erro tipo I Acerto Não rejeita H 0 Acerto Erro tipo II Nível de significância - α : A probabilidade do erro tipo I ocorrer. 11 5) Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa. 6) A probabilidade de ocorrer o erro tipo II é β . 7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais. 8) Região crítica: É o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. 9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Conclusões no teste de hipótese Em um teste de hipótese concluímos por: • rejeitar a hipótese nula ou • não rejeitar a hipótese nula. Tipos de teste • Bilateral (sinal de H1 : ≠ ): a região crítica está situada nas duas regiões. Neste caso cada área tem valor α 2 . 12 • Unilateral esquerdo (sinal de H1 : <): a região crítica está situada na parte esquerda. Neste caso P(Erro tipo I ) = α . • Unilateral direito (sinal de H1 : >): a região crítica está situada na parte direita. P(Erro tipo I ) = α . 13 Teste de uma afirmação sobre uma média: grandes amostras Considere uma amostra razoavelmente grande ( n ≥ 30 ) para valer o teorema central do limite, ou que os dados provenham de uma distribuição aproximadamente normal. Para testarmos alguma informação com respeito à média populacional utilizamos a estatística de teste dada por: Estatística de teste z= x − µx σ n Os valores críticos são encontrados na Tabela A – 2 Obs.: Caso σ seja desconhecido podemos substituí-lo por s . Notação x : média amostral; µ x : média populacional. σ : desvio-padrão populacional; n : tamanho da amostra; Exemplo: O tempo médio entre falhas de um rádio da Telektronic Companhy para aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao nível de significância de 0,05, teste a afirmação de que o tempo médio, após as modificações, é menor que 420 horas . Solução: H 0 : µ ≥ 420 a) As hipóteses são: H1 : µ < 420 14 b) O teste é unilateral esquerdo, pois o sinal de H1 é <. c) O nível de significância é α = 0,05 ; d) Os valores críticos são zα = 1,645 ; Logo temos: e) Os dados amostrais são: x = 385 e s = 24 ; f) Como n=35 ( n ≥ 30 ), a estatística de teste é dada por: z= x − µx σ n = 385 − 420 = −8,63 24 35 g) Conclusão: Como a estatística de teste está na dentro da região crítica, então rejeitamos H 0 . Exercícios 1) O gerente de uma empresa de transporte suspeita da afirmação de um vendedor de pneus de que o seu produto tem uma vida média de, ao menos, 28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em seus caminhões, obtendo uma vida média de 27 563 milhas, com desviopadrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de um erro tipo I deve ser 0.01? 2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas. Por similaridade com outros processos de fabricação, supomos o desviopadrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a afirmação de que a duração média de todas as lâmpadas dessa marca é igual a 1600 horas. 15 Teste de uma afirmação sobre uma média: pequenas amostras Considere uma amostra pequena ( n < 30 ). Suponha que: a) os dados provenham de uma distribuição normal b) o desvio-padrão populacional σ é desconhecido. Para testarmos alguma informação com respeito à média populacional utilizamos a estatística de teste dada por: Estatística de teste t= x − µx s n Os valores críticos são encontrados na Tabela A – 3 O número de Graus de liberdade = n – 1 Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a distribuição normal, independentemente do tamanho da amostra. z= x − µx σ n Exemplo: Os sete valores relacionados a seguir são cargas axiais (em libras) da primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o peso máximo que seus lados podem suportar, e deve ser superior a 165 libras, porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta amostra provém de uma população com média superior a 165 libras. 270 273 258 204 254 228 282 Solução: 16 H : µ ≤ 165 a) As hipóteses são: 0 H1 : µ > 165 b) O teste é unilateral direito, pois o sinal de H1 é >; c) O nível de significância é α = 0,01 ; d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é tα = 3,143 ; Logo temos: e) Os dados amostrais são: x = 252,7 e s = 27,6 ; Como n = 7 ( n < 30 ), a estatística de teste é dada por: t= x − µ x 252,7 − 165 = = 8,407 s 27,6 n 7 f) Conclusão: Como a estatística de teste está na dentro da região crítica, então rejeitamos H 0 . Exercícios 1) Admitindo que a pressão sanguínea arterial em homens siga o modelo Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo os seguintes resultados: 82 - 84 - 78 - 85 - 69 - 80 - 75 17 Utilizando um nível de significância de 0,02 , teste a afirmação de a média da pressão sanguínea é de 82. 2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve as seguintes medidas em metros: 4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45 4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50 4,81 5,25 4,86 4,93 4,95 Pode-se afirmar, com com nível de significância de 5%, que tais barras foram sacadas de um lote cujo comprimento médio é de 5,00 metros? Teste de uma afirmação sobre variância ou desvio-padrão Ao testar uma hipótese sobre o desvio-padrão σ ou a variância σ 2 de uma população, admitimos que os valores da população sejam distribuídos normalmente. Notação n = tamanho da amostra s 2 = variância amostral σ 2 = variância populacional Para testar uma informação sobre desvio-padrão σ ou a variância σ 2 a estatística de teste é dada por: Estatística de teste χ2 = (n − 1) ⋅ s 2 σ2 Os valores críticos são encontrados na Tabela A – 4 O número de Graus de liberdade = n – 1 18 Exemplo: O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos. Depois de algumas mudanças na rede, acredita-se numa redução no tempo de transmissão de dados, Além de uma possível mudança na variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados os tempos de transmissão, em segundos: 6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3 Resolva: a) Existe evidência suficiente de que as mudanças na rede de computadores alteraram a variabilidade no tempo de transmissão de dados? Ao nível de 0,05. b) Existe evidência suficiente de que as mudanças na rede de computadores alteraram o tempo médio de transmissão de dados? Ao nível de 0,05 Solução da letra a: H : σ 2 = 1,3 a) As hipóteses são: 0 2 H 1 : σ ≠ 1,3 b) O teste é bilateral direito, pois o sinal de H1 é ≠ ; c) O nível de significância é α = 0,05 ; 19 d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são χ 2 = 2,700 e χ 2 = 19,023 ; Logo temos: 2 e) Os dados amostrais indicam: s = 0,261 ; f) a estatística de teste é dada por: χ2 = (10 − 1) ⋅ 0,261 = 1,807 1,3 g) Conclusão: Como a estatística de teste está na dentro da região crítica, então rejeitamos H 0 . Exercícios 1) A cofap alega que a variância da vida média de seus amortecedores é de nove meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação da Cofap? 2) Um laboratório fez oito determinações da quantidade de impurezas em porções de certo composto. Os valores eram (em mg): 12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7 20 Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05. 3) Uma máquina de enchimento automático é usada para encher garrafas com detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em demasia. Há evidência nos dados da amostra que sugira que o fabricante tenha um problema com garrafas cheias com falta e excesso de detergente? Use nível de significância de 5%. Observação: Quando vamos trabalhar com graus de liberdade cujos valores críticos não são tabelados podemos aproxima-los utilizando a fórmula a seguir χ2 = 1 z + 2k − 1 2 ( ) 2 onde k é o número de graus de liberdade z é o valor crítico, encontrado na tabela normal padronizada. Exemplo: 1) Suponha que queiramos fazer o teste H 0 : σ 2 ≥ 1,21 2 H 1 : σ < 1,21 com α = 0,05 e n = 120 teremos: a) k = 119 b) z = −1,645 c) χ2 = 2 1 1 z + 2k − 1 = − 1,645 + 2 × 119 − 1 2 2 ( ) ( ) 2 = 94,529 21 TESTE DE HIPÓTESE PARA PROPORÇÃO O teste para proporção é aplicado em situações nas quais queremos verificar se a proporção de algum atributo na população pode ser igual a certo valor p0 . SUPOSIÇÕES: 1) São verificadas as condições para um experimento binomial. Isto é, temos um número fixo de provas independentes com probabilidade constante, e cada prova comporta dois resultados, que designamos “sucesso” e “falha”. 2) As condições np ≥ 5 e nq ≥ 5 são ambas verificadas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada por uma distribuição normal com µ = np e σ = npq . Esta suposição é necessária devido ao fato de termos uma boa aproximação da estatística de teste, que neste caso é normal. NOTAÇÃO: n : número de provas; p : proporção populacional (usada na hipótese nula); pˆ = x : proporção amostral; n q = 1− p A estatística de teste é dada por: ESTATÍSTICA DE TESTE: z= pˆ − p pq n Os valores críticos são obtidos na tabela A – 2 (distribuição normal padronizada). 22 Exemplos: 1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua linha de produção para análise da qualidade. As peças da amostra são classificadas como defeituosas ou não, sendo que a política da empresa exige que o processo produtivo seja revisto se houver evidência de mais de 1,5% de peças defeituosas. Na última amostra, foram encontradas nove peças defeituosas. Usando nível de significância de 1%, o processo precisa ser revisto? Solução: H : p ≤ 0,015 h) As hipóteses são: 0 H 1 : p > 0,015 i) O teste é unilateral direito, pois o sinal de H1 é > . j) O nível de significância é α = 0,01 ; k) O valor crítico é zα = 2,33 ; Logo temos: l) Os dados amostrais são: pˆ = 9 = 0,018 500 m) Critérios para a aproximação normal: n ⋅ p = 500 ⋅ 0,015 = 7,5 e n ⋅ q = 500 ⋅ (1 − 0,015) = 500 ⋅ 0,985 = 492,5 n) Estatística de teste é dada por: 23 z= 0,003 pˆ − p 0,018 − 0,015 = = 0,552 = 0,015 ⋅ 0,985 0,005436 pq 500 n o) Conclusão: Como a estatística de teste está fora da região crítica, então não rejeitamos H 0 . 2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em 821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões resultaram em hospitalização do motorista. Ao nível de significância de 0,01, teste a afirmação de que a taxa de hospitalização nos casos de air-bag é inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados com cintos automáticos de segurança. 3) O controle estatístico de certo processo de fabricação de determinada lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito. Para verificar a validade desta afirmação, foi coletada uma amostra de 150 lâmpadas das quais 138 estavam sem defeito. Com 1% de significância, há evidência de que o processo está de acordo com o esperado? 24 Testes Não-Paramétrico Os testes não-paramétricos são utilizados quando não temos informação sobre a distribuição da população. Vantagens- Menos suposições são necessárias. Em muitos casos, apenas dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de numéricos (intervalares). Desvantagens- Freqüentemente preferimos ter um modelo bem definido com parâmetros importantes tais como média e variância incluídas para melhor interpretação. São vários os tipos de testes não-paramétricos: Teste dos sinais; Teste de postos com sinais de Wilcoxon para duas amostras dependentes; Teste da soma de postos de Wilcoxon para duas amostras independentes; Teste de kruskal-Wallis; Correlação por postos; Teste de repetições para aleatoriedade; Teste do qui-quadrado; Teste do qui-quadrado para independência ou associação; Teste de Mann-Whitney; Teste da mediana; Não se refere à distribuição da estatística de teste, mas ao fato de que os métodos podem ser aplicados a amostras de populações de qualquer distribuição. Esta deve ser especificada apenas em termos gerais (ser continua, simétrica, 25 idêntica) sem precisar pertencer a alguma família (como normal, uniforme, exponencial, etc). QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS? Mesmo se o teste paramétrico não depende crucialmente da suposição de que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a isso o teste não paramétrico, depende de suposições mais fracas, é preferível. Métodos não paramétricos são usualmente os únicos disponíveis para dados que simplesmente especificam ordem ou contagem em várias categorias. Teste de Correlação por postos Referência: TRIOLA, Mario F. Introdução à estatística. O teste de correlação por postos pode ser utilizado para verificar se existe alguma associação entre duas variáveis. A taxa de eficiência do teste é de 91%. Notação: rs : coeficiente de correlação por postos para dados amostrais emparelhados; ρ s : coeficiente de correlação por postos para todos os dados populacionais emparelhados; n : número de pares de dados; d : diferença entre postos para as duas observações dentro de um par. O índice s é utilizado em homenagem a Charles Spearman (1863 - 1945). Ao testar se há ou não correlação, testamos as seguintes hipóteses: H 0 : ρ s = 0 H1 : ρ s ≠ 0 26 Estatística de teste A estatística de teste, para o caso em que não há empate entre os postos, é dada por: rs = 1 − 6∑ d 2 n (n 2 − 1) onde cada valor de d é uma diferença entre os postos para um par de dados amostrais. Caso haja empate entre os postos então a estatística de teste é dada por: rs = n∑ xy − (∑ x )(∑ y ) n∑ x 2 − (∑ x ) 2 . n∑ y 2 − (∑ y ) 2 onde x = posto de X e y = posto de Y. Valores críticos: Se n ≤ 30 , consulte tabela A – 9. Se n > 30 , use a fórmula rs = ±z n −1 onde o valor de z corresponde ao nível de significância 27 Exemplos 1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da viscosidade do óleo. Volume desgastado Viscosidade Y (10-4 mm3) X 240 181 193 155 172 110 113 75 94 1,6 9,4 15,5 20 22 35,5 43 40,5 33 Há correlação entre as duas variáveis? Use α = 0,05 . Solução: H 0 : ρ s = 0 Passo 1: As hipóteses são H1 : ρ s ≠ 0 Passo 2: Nível de significância é α = 0,05 Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre a população original. Passo 4: Estatística de teste: Volume desgastado Viscosidade Y (10-4 mm3) X 240 181 193 155 172 110 113 75 94 Assim temos 1,6 9,4 15,5 20 22 35,5 43 40,5 33 Posto Y Posto X d d2 9 7 8 5 6 3 4 1 2 1 2 3 4 5 7 9 8 6 8 5 5 1 1 4 5 7 4 64 25 25 1 1 16 25 49 16 ∑ d 2 = 222 28 rs = 1 − = 1− 6∑ d 2 n (n 2 − 1) 6 (222) 9 (81 − 1) 1332 720 = 1 − 1,85 = 1− = −0,85 Passo 5: valores críticos: Pela tabela A-9, os valores críticos são ± 0,683 . Como rs = −0,85 está dentro da região crítica então rejeitamos H 0 . Logo existe correlação. 300 250 200 150 100 50 0 0 10 20 30 40 50 29 2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria no período especificado. X = Ano Y = Venda 80 58 81 85 82 123 83 81 84 57 85 118 86 174 87 147 88 190 89 205 90 255 91 223 92 216 93 297 94 184 95 224 96 318 Existe correlação entre as variáveis? 30 Distribuição Amostral Retirado dos livros: Estatística aplicada á Administração, Stevenson e Introdução á Estatística, Triola. Uma distribuição amostral é uma distribuição de probabilidade que nos mostra como é a variação da estatística amostral ocasionada por variações na amostragem aleatória. Uma estatística amostral é qualquer função baseada nos dados amostrais de uma amostra aleatória. Uma estimativa é um valor específico, ou um intervalo de valores, numérico de uma estatística amostral. Um estimador é uma estatística amostral utilizada para obter uma aproximação de um parâmetro populacional. Exemplo: 1) Estimador da média populacional µ : x = 1 n ∑ xi . n i =1 2 n ∑ xi n 1 ∑ xi2 − i =1 . 2) Estimador da variância populacional σ 2 : s 2 = n − 1 i = 1 n Propriedade do estimador: Um estimador θˆ é dito não tendencioso para o parâmetro populacional θ , se () E θˆ = θ Se o estimador θˆ for tendencioso, então a tendenciosidade é dada por () E θˆ − θ onde E ( X ) = ∑ xP( X = xi ) . i 31 Para verificar se um estimador é ou não tendencioso deveremos calcular a esperança. Para o cálculo desta esperança algumas propriedades são fundamentais: E1) Se X = c , então E ( X ) = c ; Prova: X é uma variável aleatória discreta. Então E ( X ) = c.P( X = c) = c.1 = c . E2) Se Y = aX + b é uma variável aleatória, então E (Y ) = aE ( X ) + b . Quando estamos interessados em avaliar qual o melhor estimador entre vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do EQM O erro quadrático médio de um estimador θˆ do parâmetro θ é dado por () ( ) 2 EQM θˆ = E θˆ − θ Ou () () EQM θˆ = Var θˆ + (tendenciosidade )2 Algumas propriedades da variância: V1) Se X = c , então Var ( X ) = 0 ; V2) Var ( X + b) = Var ( X ) V3) Var ( aX + b) = a 2Var ( X ) V4) Var (aX + bY ) = a 2Var ( X ) + b 2Var (Y ) Exemplo:(Montgomery) Seja X 1 , X 2 , K , X 7 uma amostra aleatória de uma população com média µ e variância σ 2 . Considere os seguintes estimadores: 32 θ1 = X1 + X 2 + K + X 7 7 θ2 = 2 X1 − X 6 + X 4 2 Resolva: a) Verifique se os estimadores são não-tendenciosos. b) Qual é o melhor estimador? Solução: a) A esperança do primeiro estimador é X + X2 +K+ X7 E (θ1 ) = E 1 7 E( X1) + E( X 2 ) + K + E( X 7 ) = 7 µ + µ +K+ µ = 7 =µ A esperança do segundo estimador é 2X − X 6 + X 4 E (θ 2 ) = E 1 2 2E( X1) − E( X 6 ) + E( X 4 ) = 2 2µ − µ + µ = 2 =µ Verificamos que os dois estimadores não são tendenciosos. b) Variância do estimador 1 X + X2 +K+ X7 Var (θ1 ) = Var 1 7 Var ( X 1 ) + Var ( X 2 ) + K + Var ( X 7 ) = 72 = σ 2 +σ 2 +K+σ 2 49 1 = σ2 7 Variância do estimador 2 33 2X − X 6 + X 4 Var (θ 2 ) = Var 1 2 1 = Var (2 X 1 − X 6 + X 4 ) 4 4Var ( X 1 ) + Var ( X 6 ) + Var ( X 4 ) = 4 4σ 2 + σ 2 + σ 2 4 6 2 = σ 4 = O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula para ambos estimadores, então ( ) ( ) ( 1) EQM θˆ1 = Var θˆ1 + (tendenciosidade )2 = Var θˆ 1 = σ2 7 e ( ) ( ) ( 2) EQM θˆ2 = Var θˆ2 + (tendenciosidade )2 = Var θˆ 6 = σ2 4 ( ) ( ) Como EQM θˆ1 < EQM θˆ2 , então o melhor estimador é o primeiro. Para entendermos como é o comportamento da amostra considere o exemplo a seguir. Exemplo: considere uma população formada pelos elementos 1 4 2 3 Percebemos que a média populacional é de 2,5. Vamos então analisar a distribuição amostral. Para isso suponha todas as amostras de tamanho 2 sem reposição. Temos C 4,2 = 6 amostras representadas no quadro a seguir 34 Amostras Média 1e4 2,5 1e2 1,5 1e3 2 4e2 3 4e3 3,5 2e3 2,5 Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro valor da média populacional. As outras 4 amostras não encontramos a verdadeira média, no entanto servem como uma aproximação. Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição. Neste caso teremos C 4,3 = 4 amostras representadas no quadro a seguir Amostras Média 1, 4 e 2 7 3 1, 4 e 3 8 3 1, 2 e 3 6 3 4, 2 e 3 9 3 Neste caso percebemos que nenhuma amostra tem média igual à média populacional. Tipos de estimativa Uma estimativa pontual é um valor único usado para aproximar um parâmetro populacional. Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de valores que tem probabilidade de conter o verdadeiro valor do parâmetro populacional. 35 O grau de confiança é a probabilidade 1 − α de o intervalo de confiança conter o verdadeiro valor do parâmetro populacional. Um valor crítico é o número na fronteira que separa os valores das estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance de ocorrer. Quando utilizamos dados amostrais para estimar um parâmetro populacional podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima provável (com probabilidade 1 − α ) entre o valor amostral e o verdadeiro valor populacional. A margem de erro E é chamada também de erro máximo da estimativa. Para entendermos o erro, tomemos o exemplo anterior com amostras de tamanho 2: Amostras Média Erro 1e4 2,5 0 1e2 1,5 1 1e3 2 0,5 4e2 3 0,5 4e3 3,5 1,5 2e3 2,5 0 Neste caso o erro máximo foi de 1,5. 36 O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança e o tamanho da amostra para uma população infinita. Parâmetro Cálculo do Intervalo de confiança erro Média (Grandes E = zα ⋅ amostra σ zα ⋅ σ n= 2 E x−E < µ < x+E tα ⋅ s n= 2 E pˆ − E < p < pˆ + E zα pˆ qˆ ou n = 2 E2 n 2 (Pequenas E = tα ⋅ 2 s n amostras) Proporção E = zα ⋅ 2 pˆ qˆ n 2 x−E < µ < x+E amostras) Média Tamanho de 2 2 2 zα 0,25 n = 2 E2 Variância (n − 1)s 2 < σ 2 < (n − 1)s 2 2 2 χR χL Tabelado 37 Quando trabalhamos com populações finitas e a amostragem constitui mais de 5% da população devemos aplicar o fator de correção. Assim teremos: Parâmetro Cálculo do erro Intervalo de Tamanho de amostra confiança Média (Grandes E = zα ⋅ σ n 2 N −n N −1 zα2 σ 2 N x−E < µ < x+E n= amostras) Média (Pequenas 2 zα σ + E 2 ( N − 1) 2 E = tα ⋅ 2 s n N −n N −1 tα2 s 2 N x−E < µ < x+E n= amostras) Proporção 2 2 2 2 2 tα s + E 2 ( N − 1) 2 E = zα ⋅ 2 pˆ qˆ n N −n N −1 pˆ − E < p < pˆ + E zα2 σ 2 N n= 2 2 2 zα σ + E 2 ( N − 1) 2 Exercícios: (Triola) 1) Para as temperatura do corpo humano temos n = 106 , x = 98,20º F e s = 0,62º F . Para um nível de significância de 5% determine: a) a margem de erro E ; b) O intervalo de confiança para µ . 2) Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer um curso de estatística. Quantos valores de renda devem ser tomados, se o economista deseja ter 95% de confiança em que a média amostral esteja a $500 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que, para tais rendas, σ = $6250 . 38 3) Deseja-se estimar o preço médio de venda de um livro-texto para uma faculdade. Quantos exemplares devemos selecionar, para termos 95% de confiança de que a média amostral esteja a menos de $2 da verdadeira média populacional? (Suponha que os preços variam entre $10 a $90. Use σ = amplitude / 4 ) 4) Os pesquisadores de opinião são atormentados por uma diversidade de fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a 1068 americanos, 673 informaram ter secretária eletrônica (com base em dados da International Mass Retail Association, relatado em USA Today). Com esses resultados amostrais, determine: a) A estimativa pontual da proporção populacional de todos os americanos que têm secretária eletrônica; b) A estimativa intervalar de 95% da proporção populacional de todos os americanos que têm secretária eletrônica. 5) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se que 135 deles têm computadores pessoais (com base em dados da America Passage Media Corporation). a) Determine a estimativa pontual da verdadeira proporção de todos os universitários que têm computador pessoal; b) Determine um intervalo de 99% de confiança para a verdadeira proporção de todos os universitários que têm computador pessoal. 6) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente, dentre as quais 331 causadas por doenças cardíacas (com base em dados do Center for Disease Control). a) Com os dados mostrais, construa um intervalo de confiança de 99% para a proporção de todas as mortes causadas por doenças cardíacas; b) Utilizando os dados amostrais como estudo piloto, determine o tamanho de amostra necessário para estimar a proporção de todas as mortes causadas por doenças cardíacas. Admita um nível de confiança de 98%, em que o erro da estimativa não supere 0.01. 39 7) No caso de estimativa da proporção quando temos uma população relativamente pequena, de tamanho N, e a amostragem é sem reposição, modificamos o erro para E = zα ⋅ 2 pˆ qˆ n N −n N −1 Mostre que o o tamanho da amostra pode ser encontrada por Npˆ qˆ zα 2 n= 2 2 pˆ qˆ zα + ( N − 1)E 2 2 8) Uma amostra consiste de 75 aparelhos de televisão adquiridos há vários anos. Os tempos de substituição desses aparelhos têm médiia de 8.2 anos e desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,” Consumer Reports). Construa um intervalo de confiança de 90% para o desvio-padrão dos tempos de substituição de todos os aparelhos de TV daquela época. 9) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais são distribuídos normalmente. a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o intervalo de confiança de 7.581 < σ 2 < 35.944 . Determine o grau de confiança sendo n = 20; x = 45.2; s = 3.8 . b) Dá-se o seguinte intervalo de confiança: 19.1 < σ < 45.8 . Determine o seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança. 10) (Montgomery) Suponha que θˆ1 e θˆ2 sejam dois estimadores do parâmetro θ θ . Sabemos que E θˆ1 = θ , E θˆ2 = , Var θˆ1 = 10 e Var θˆ2 = 4 . Qual o 2 ( ) ( ) ( ) ( ) melhor estimador? 11) (Montgomery) 2 1 n a) Mostre que s 2 = ∑ X i − X é um estimador tendencioso para σ 2 . n i =1 ( ) b) Qual é a tendenciosidade? 40 c) O que acontece com a tendência a medida que o tamanho da amostra aumenta? Teorema Central do Limite Se X 1 , X 2 , L , X n for uma amostra aleatória de tamanho n, retirada de uma população (finita ou infinita), com média µ e variância σ 2 , e se X for a média amostral, então a forma limite da distribuição de Z= X −µ σ n quando n tende ao infinito, é a distribuição normal padrão. Ou: Teorema Central do Limite Se extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma população com média µ e variância σ 2 , a média das médias se denota por µ x ; assim, µx = µ Por sua vez, o desvio-padrão das médias amostrais se denota por σ x ; então, σx = σ n 41 OBS.: (Triola) 1) O teorema central do limite se aplica quando estamos em face de uma distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da amostra é maior do que 30 ou quando a população original tem distribuição normal. 2) No caso de amostragem sem reposição, quando o tamanho n da amostra é superior a 5% do tamanho N da população finita (isto é, n > 0,05 N ), ajustamos o desvio-padrão da média amostral σ x multiplicando o pelo fator de correção para população finita: N −n N −1 3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a distribuição amostral. A distribuição binomial foi utilizada como parâmetro de referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho da amostra. Percebemos que à medida que o tamanho da amostra cresce a distribuição amostral das proporções tende a uma distribuição normal. Percebe-se também que a variabilidade decresce. Observamos que a média da distribuição amostral é sempre igual a proporção. 42 43 4) (Stevenson) A próxima figura nos dá uma idéia do comportamento da distribuição amostral considerando a distribuição da população. 44 Exemplo: Voltando ao exemplo da população formada pelos elementos 1 4 2 3 e considerando todas as amostras possíveis de tamanho 2 Amostras Média 1e4 2,5 1e2 1,5 1e3 2 4e2 3 4e3 3,5 2e3 2,5 podemos observar que: a) Se calcularmos a média das médias (média entre os elementos) 2,5 1,5 2 3 3,5 2,5 encontramos µ x = 2,5 que corresponde à média populacional µ . Assim temos, de acordo com o teorema, que µ x = µ . 2 . b) Calculando a variância das médias, dados do item (a), encontramos σ x = 2 Considerando os dados populacionais (1,4,2,3) encontramos σ = 15 . 3 Como o tamanho da amostra é n = 2 e o tamanho da população é N = 4 , verificamos que n > 0.05 N . Assim devemos aplicar o fator de correção, encontrando σ x = σ n N −n . De fato: N −1 45 σx = σ n N −n N −1 15 = 3 2 15 = = = 3 2 4−2 4 −1 2 3 15 3 3 15 3 3 3 3 3 5 9 5 = 3 =σ = 46 Exercícios: 1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é importante considerar os pesos das pessoas, de modo que não haja sobrecarga em aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com base em dados do National Health Survey dos EUA), determine a probabilidade de que: a) Um homem escolhido aleatoriamente pese mais de 180 lb; b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180 lb. c) Refaça a letra (b) supondo a população de homens igual a N = 500 . 2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de 100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal. Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma resistência média menor que 95 ohms. 3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18. a) Determine µ e σ ; b) Relacione todas as amostras de tamanho n = 2 que podem ser obtidas sem reposição; c) Determine a população de todos os valores de x achando a média de cada amostra da parte (b); d) Ache a média µ x e o desvio-padrão σ x ; e) Verifique que µx = µ e σx = σ n N −n N −1 47 4) O calor liberado, em calorias por grama, de uma mistura de cimento tem distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2. Desejamos testar H 0 : µ = 100 H1 : µ ≠ 100 com uma amostra de tamanho 9 espécimes. Suponha que a região de aceitação é definida como 98,5 ≤ X ≤ 101,5 . Encontre a probabilidade do erro tipo 1 ocorrer. 5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas amostras acusará vida média no intervalo de 1 mês em torno de 50 meses, admitindo ser 50 meses a verdadeira vida média das baterias? 48 Estimador de Máxima Verossimilhança Um dos melhores métodos de obter um estimador de um parâmetro é o método da máxima verossimilhança. Essa técnica foi desenvolvida nos anos de 1920 pelo famoso estatístico britânico Sir R. A. Fisher. Como o nome implica, o estimador será o valor do parâmetro que maximiza a função verossimilhança. Suponha que X seja uma variável aleatória com distribuição de probabilidade f ( x,θ ) , em que θ é um único parâmetro desconhecido. Sejam x1 , x2 , K, xn os valores observados na amostra aleatória de tamanho n . Então, a função verossimilhança da amostra é L(θ ) = f ( x1 , θ ) ⋅ f ( x 2 , θ ) ⋅ L ⋅ f ( x n , θ ) O estimador de máxima verossimilhança é aquele que maximiza a função de verossimilhança. Passos para se encontrar o estimador de máxima verossimilhança: 1) Encontrar a função de verossimilhança L (θ ) ; 2) Calcular l (θ ) = ln L(θ ) ; 3) Calcular 4) Igualar d l (θ ) ; dθ d l (θ ) = 0 e resolver em relação ao parâmetro escolhido. dθ Obs.: A função de verossimilhança da amostra L(θ ) é apenas a probabilidade P( X 1 = x1 ,K , X n = x n ) 49 Exemplo: Seja X normalmente distribuída, com média µ desconhecida e variância σ 2 conhecida. Qual o estimador de máxima verossimilhança para a média µ considerando uma amostra de tamanho n ? Sugestão: Utilize f ( x, µ ) = 1 σ 2π − e ( x − µ )2 2σ 2 Exercícios de estimadores 1) Seja X exponencialmente distribuída com parâmetro λ . A função de máxima verossimilhança de uma amostra aleatória de tamanho n, x1 , x2 , K , xn é ? Considere a função exponencial como λ e − λx 2) Refaça o exercício da distribuição normal considerando µ conhecido e 2 encontre o estimador para a variância σ . 3) Seja X uma variável aleatória, com a seguinte distribuição de probabilidade (θ + 1)xθ , 0 ≤ x ≤ 1 f ( x, θ ) = , caso contrario 0 A função de máxima verossimilhança para o estimador θ , considerando uma amostra aleatória de tamanho n, x1 , x2 , K , xn é ? Exercícios de revisão 1) Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o débito médio anual nesses cartões, para contas individuais, é de $1592, com desvio-padrão de $997. Construa o intervalo de 94% de confiança para o débito médio anual em cartões de crédito para a população de todas as contas. 50 2) 430 < µ < 470 é um intervalo de 95% de confiança para as vidas (em minutos) de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra de tamanho 100. a) Construa o intervalo de 99% de confiança; b) Qual é o valor da média amostral? c) Qual é o valor do desvio-padrão amostral? d) Se se obtém com os mesmos dados o intervalo de confiança 432 < µ < 468 , qual é o grau de confiança? 3) Construa um intervalo de 98% de confiança para a renda média de todos os empregados de tempo integral que têm grau de bacharel. Uma amostra de 25 desses empregados revelou que a distribuição das rendas é aproximadamente normal, com média $39.271 e desvio-padrão de $18.933. 4) Uma pesquisa de mercado para a Ford Motor Company revela que uma amostra de 1220 residências selecionadas aleatoriamente inclui 1054 que possuem um veículo. Com base nesses resultados, construa um intervalo de 98% de confiança para a porcentagem de todas as residências que possuem um veículo. 5) Os valores relacionados são tempos de espera (em minutos) de clientes no Jefferson Bank, onde os clientes entram em uma fila única que é atendida por três guichês. Construa um intervalo de 95% de confiança para o desviopadrão populacional. 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 51 Regressão Múltipla Este material foi retirado do livro: Estatística Aplicada e Probabilidade para Engenheiros. Douglas C. Montgomery & George C. Runger. 1. Definição: Uma equação de regressão linear múltipla expressa um relacionamento entre uma variável dependente ou de resposta, regressoras (xi1, yi , e as variáveis independentes ou xi 2 , K, xik ) . O modelo de regressão linear múltiplo com k variáveis é definido por: yi = β 0 + β1 xi1 + β 2 xi 2 + L + β k xik + ε i k yi = β 0 + ∑ β j xij + ε i j =1 Onde i = 1, 2,K, n e n > k Notação: n : tamanho da amostra; k : número de variáveis independentes; y : valor predito da variável dependente; xi1 , xi 2 , K, xik : variáveis independentes; β 0 , β1 , β 2 , K, β k : coeficientes de regressão; ε : erro. O parâmetro β j representa a variação esperada na resposta y por unidade de variação unitária em x j quando todos os outros regressores restantes xi (i ≠ j ) forem mantidos constantes. Exemplo: 52 a) yˆ = 2,26379 + 2,74427 x1 + 0,01253 x2 ; 2. Estimação de Mínimos Quadrados dos Parâmetros O método dos mínimos quadrados pode ser usado para estimar os coeficientes de regressão no modelo de regressão múltipla. O objetivo é minimizar a função n L = ∑ε i 2 i =1 = ∑ yi − β 0 − i =1 n ∑ β j xij j =1 k 2 Queremos minimizar a função L com relação a β 0 , β1 , β 2 , K, β k . As estimativas de mínimos quadrados têm de satisfazer ∂L ∂β 0 k ˆ = −2∑ yi − β 0 − ∑ βˆ0 xij = 0 (1) i =1 j =1 n βˆ0 , βˆ1 , βˆ 2 , K, βˆ k e n k ∂L ˆ ˆ ˆ , βˆ , βˆ , K, βˆ = −2∑ yi − β 0 − ∑ β 0 xij xij = 0, β 0 1 2 k ∂β j i =1 j =1 j = 1, 2, K, k (2) Simplificando as equações (1) e (2), obtemos as equações normais de mínimos quadrados: 53 n n n n nβˆ0 + βˆ1 ∑ xi1 + βˆ2 ∑ xi 2 + K + βˆk ∑ xik = ∑ yi i =1 i =1 i =1 i =1 n n n n n βˆ0 ∑ xi1 + βˆ1 ∑ xi21 + βˆ2 ∑ xi1 xi 2 + K + βˆk ∑ xi1 xik = ∑ xi1 yi i =1 i =1 i =1 i =1 i =1 M M M M M n n n n n i =1 i =1 i =1 i =1 i =1 βˆ0 ∑ xik + βˆ1 ∑ xik xi1 + βˆ2 ∑ xik xi 2 + K + βˆk ∑ xik2 = ∑ xik yi Note que há p = k + 1 equações normais, uma para cada um dos coeficientes desconhecidos da regressão. A solução para as equações normais serão os estimadores de mínimos quadrados. Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um processo de fabricação de semicondutores, do comprimento do fio e da altura da garra. Número da Resistência à Comprimento Altura da garra observação tração do fio x2 y x1 1 9,95 2 50 2 24,45 8 110 3 31,75 11 120 4 35 10 550 5 25,02 8 295 6 16,86 4 200 7 14,38 2 375 8 9,60 2 52 9 24,35 9 100 10 27,50 8 300 11 17,08 4 412 12 37 11 400 13 41,95 12 500 54 14 11,66 2 360 15 21,65 4 205 16 17,89 4 400 17 69 20 600 18 10,30 1 585 19 34,93 10 540 20 46,59 15 250 21 44,88 15 290 22 54,12 16 510 23 56,63 17 590 24 22,13 6 100 25 21,15 5 400 Ajustaremos o modelo y = β0 + β1xi1 + β 2 xi 2 + ε i De acordo com a tabela temos: 25 n = 25; 25 25 ∑ yi = 725,82; ∑ xi1 = 206 i =1 i =1 25 25 ∑ xi2 = 8.294; ∑ xi21 = 2.396; ∑ xi22 = 3.531.848 i =1 25 i =1 i =1 25 25 ∑ xi1xi2 = 77.177; ∑ xi1 yi = 8.008,47; ∑ xi2 yi = 274.816,71 i =1 i =1 i =1 Para o modelo a ser ajustado as equações normais são: n n n nβˆ0 + βˆ1 ∑ xi1 + βˆ2 ∑ xi 2 = ∑ yi i =1 i =1 i =1 n n 2 n n βˆ0 ∑ xi1 + βˆ1 ∑ xi1 + βˆ2 ∑ xi1 xi 2 = ∑ xi1 yi i =1 i =1 i =1 i =1 n n n n βˆ0 ∑ xi 2 + βˆ1 ∑ xi1 xi 2 + βˆ2 ∑ xi22 = ∑ xi 2 yi i =1 i =1 i =1 i =1 55 Substituindo as somas temos: 25βˆ0 + 206 βˆ1 + 8.294 βˆ2 = 725,82 206 βˆ0 + 2.396 βˆ1 + 77.177 βˆ2 = 8.008,47 8.294 βˆ0 + 77.177 βˆ1 + 3.531.848βˆ2 = 274.816,71 A solução encontrada é: yˆ = 2,26379 + 2,7442 x1 + 0,01253 x2 3. Abordagem matricial para a regressão linear múltipla O modelo de regressão é um sistema de n equações, que pode ser expresso na notação matricial y = Xβ + ε onde y1 1 x11 y 1 x 2 21 ; X = y= M M M 1 xn1 yn x12 K x1k β 0 ε1 ε x22 K x2k β1 2 ; β= ; ε = M M M M xn 2 K xnk ε n β k As equações normais do modelo são: X ' Xβˆ = X ' y X ' representa a transposta da matriz X . A estimativa de mínimos quadrados é: ( )−1 X ' y βˆ = X ' X 56 4. Estimativa da variância A estimativa da variância é obtida através do estimador não-tendencioso n ∑ ε i2 σˆ 2 = i =1 n− p = SQE n− p onde n n i =1 i =1 SQE = ∑ ( yi − yˆ i )2 = ∑ ε i2 = ε ' ε No denominador temos n− p que é denominado graus de liberdade do erro ou do resíduo. 5. Testes de hipóteses para a regressão linear múltipla 5.1. Teste para a significância da regressão O teste para a significância da regressão é um teste para determinar se existe uma relação linear entre as variáveis de resposta e as regressoras. As hipóteses são: H 0 : β1 = β 2 = K = β k = 0 H1 : β j ≠ 0 para no mínimo um j A estatística de teste é dada por: SQR F0 = SQE k (n − p ) = MQR MQE onde 57 2 2 n n ∑ yi ∑ yi SQE = y ' y − i =1 − βˆ ' X ' y − i =1 n n n ∑ yi SQE = βˆ ' X ' y − i =1 n 2 2 2 Podemos também usar o R e o R ajustado como uma estatística global para avaliar o ajuste do modelo. Assim temos: SQ E 2 R ajustado = 1 − 5.2. (n − p ) SQT (n − 1) Testes para os coeficientes individuais de regressão e subconjuntos de coeficientes As hipóteses para testar se um coeficiente individual de regressão, como β j , é igual a um dado valor β j 0 é: H 0 : β j = β j 0 H1 : β j ≠ β j 0 A estatística de teste é dada por: T0 = βˆ j − β j 0 σ 2C jj 58 6. Intervalos de confiança para a regressão linear múltipla Um intervalo de confiança de 100(1 − α )% para o coeficiente de regressão β j , j = 0, 1, 2, K, k no modelo de regressão linear múltipla é dado por: βˆ j − tα 2, n − p σˆ 2 C jj ≤ β j ≤ βˆ j + tα 2, n − p σˆ 2C jj 7. Previsão de novas observações Um intervalo de previsão de 100(1 − α )% para uma futura observação é dado por: ( ) ( yˆ 0 − tα 2 , n − p σˆ 2 1 + x0' ( X ' X )−1 x0 ≤ Y0 ≤ yˆ 0 + tα 2, n − p σˆ 2 1 + x0' ( X ' X )−1 x0 ) 8. Uso computacional Podemos utilizar vários softwares para fazer a regressão múltipla: R, SPSS, Excel, Minitab, etc. A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel: RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,990523843 R-Quadrado 0,981137483 R-quadrado ajustado 0,979422709 Erro padrão 2,288046833 Observações 25 Análise: R-quadrado ajustado dá o grau de relacionamento linear múltiplo, 0,979422709. Ele leva em consideração o tamanho da amostra e o número de variáveis. 59 Observações apresenta o tamanho da amostra, 25. 60 ANOVA gl Regressão Resíduo Total SQ MQ F F de significação 2 5990,771221 2995,386 572,1671503 1,07546E-19 22 115,1734828 5,235158 24 6105,944704 Análise: A estimativa da variância é dada por n ∑ ε i2 σˆ 2 = i =1 n− p = SQE n− p Na tabela acima esta estimativa é dada por MQ do resíduo, 5,235158. Ele corresponde a soma dos quadrados, SQ, do resíduo dividido pelo grau de liberdade, gl, do resíduo. No F de significação temos o teste de hipótese para verificar se o modelo linear múltiplo é bem ajustado. Neste caso basta que seu valor seja menor que o nível de significância. Interseção Variável X 1 Variável X 2 Coeficientes 2,263791434 2,744269643 0,012527811 Erro padrão Stat t valor-P 95% inferiores 95% superiores 1,060066238 2,135519 0,04409945 0,065348623 4,462234246 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225 0,002798419 4,476746 0,000188266 0,006724246 0,018331377 Análise: Na tabela acima temos vários resultados e testes. Entre eles temos os valores dos coeficientes da interseção, 2,263791434 , da variável X1, 2,744269643, e da variável X2, 0,012527811. Também testamos se cada coeficiente é significativo, ou seja, se ele será ou não acrescentado ao modelo. Neste caso é só observar na coluna do valor-P. Caso este valor seja menor que o nível de significância então o coeficiente é significativo, isto é, é utilizado no modelo. Valor-P para Interseção: 0,04409945 Valor-P para variável X1: 3,90691E-19 Valor-P para variável X2: 0,000188266 Temos também o intervalo de confiança para cada coeficiente. Neste caso é só observar seus limites inferiores, na coluna 95% inferiores, e limites 61 superiores, na coluna 95% superiores. Estes valor de 95% é definido na hora de construção do modelo, podendo variar. Intervalo de confiança para a interseção: [ 0,065348623, 4,462234246] Intervalo de confiança para a variável X1: [2,550313062, 2,938226225] Intervalo de confiança para a variável X2: [0,006724246, 0,018331377] RESULTADOS DE RESÍDUOS Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y previsto 8,37872129 25,59600783 33,95409488 36,59678413 27,91365294 15,74643228 12,45025999 8,403776913 28,21499936 27,976292 18,4023283 37,46188206 41,45893285 12,26234282 15,80907134 18,25199456 64,66587113 12,33683074 36,47150602 46,55978893 47,06090138 52,56128953 56,30778409 19,98219043 20,9962642 Resíduos 1,57127871 -1,146007833 -2,204094876 -1,596784129 -2,893652939 1,113567716 1,92974001 1,196223087 -3,864999362 -0,476291996 -1,322328298 -0,461882064 0,491067154 -0,60234282 5,840928659 -0,361994562 4,334128869 -2,036830738 -1,541506015 0,030211071 -2,180901385 1,558710467 0,322215913 2,147809568 0,153735795 Análise: Na tabela acima temos os resíduos do modelo, ε = y − yˆ . 62 Exemplo: 1) A energia elétrica consumida mensalmente por uma indústria química está relacionada à temperatura média ambiente ( x1 ) , ao número de dias no mês (x2 ) , à pureza média do produto (x3 ) e às toneladas do produto produzido (x4 ) . Os dados históricos do ano passado estão disponíveis e são apresentados na tabela a seguir: y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 270 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98 Faça: a) Encontre a reta de regressão; b) Calcule a estimativa da variância; c) Teste a significância da regressão; d) Teste os coeficientes; e) Encontre um intervalo de confiança de 95% para o coeficiente β 0 e β1 da regressão; 63 2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação com x1 a viscosidade do óleo e x2 carga. Os dados são o seguinte: y x1 x2 293 1,6 851 230 15,5 816 172 22 1058 91 43 1201 113 33 1357 125 40 1115 Faça: a) Encontre a reta de regressão; b) Calcule a estimativa da variância; c) Teste a significância da regressão; d) Teste os coeficientes; e) Encontre um intervalo de confiança de 95% para o coeficiente β 0 e β1 da regressão; 64 Experimentos Multinomiais Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à Estatística. Autor: M. F. Triola. Neste tópico usaremos a distribuição qui-quadrado, χ 2 , como estatística de teste. Propriedades: 1. Ao contrário das distribuições normal e t de Student, a distribuição quiquadrado não é simétrica; 2. Os valores da distribuição qui-quadrado podem ser 0, zero, ou positivos, mas nunca negativos; 3. Há uma distribuição qui-quadrado diferente para cada número de graus de liberdade, GL = n − 1 . Definição: Um experimento multinomial é um experimento que verifica as seguintes condições: 1. O número de provas é fixo; 2. As provas são independentes; 3. Todos os resultados de cada prova devem ser classificados em exatamente uma dentre várias categorias; 4. As probabilidades para as diferentes categorias permanecem constantes (as mesmas) em cada prova. 65 A seguir apresentaremos um teste de aderência. Ele é utilizado para testar a afirmação de que, em um experimento multinomial, as freqüências observadas nas diferentes categorias se ajustam a determinada distribuição. Exemplos: 1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons, 20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. 2) É comum a crença de que ocorre um maior número de acidentes fatais com automóveis em determinados dias da semana, como sexta-feira ou sábado. 3) O gerente de determinado supermercado deve decidir a quantidade de cada sabor de sorvete que deve estocar a fim de atender à demanda dos consumidores, sem que haja perda de sabores menos procurados. Definição: Utiliza-se um teste de aderência para testar a hipótese de que uma distribuição de freqüências observadas se ajusta (ou adere) a determinada distribuição teórica. Notação: O : representa a freqüência observada de um resultado; E : representa a freqüência esperada de um resultado; k : representa o número de categorias, ou resultados, diferentes; n : representa o número total de provas. Em situação típica podemos encontrar a freqüência esperada, E, multiplicando a probabilidade p de uma categoria pelo número de provas diferentes: E = np Suposições: 66 Segue as suposições válidas ao testarmos a proporção populacional alegada para cada uma das k categorias ( em um experimento multinomial) 1) Os dados constituem uma amostra aleatória; 2) Os dados amostrais consistem em categorias de freqüências para as k categorias diferentes; 3) Para cada uma das k categorias, a freqüência esperada é, no mínimo, 5. (Não há qualquer exigência de que cada freqüência observada seja no mínimo igual a 5.) Estatística de teste de Aderência χ2 = ∑ (O − E )2 E Valores Críticos: 1. Na tabela A – 4 encontram-se os valores críticos, tomando-se k − 1 graus de liberdade; 2. Os testes de hipótese de aderência são sempre unilaterais à direita. 67 Exemplo: 1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons, 20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir apresentamos os dados amostrais. Tabela: Frequência dos confeitos M&M Marron Amarelo Vermelho Laranja Verde Azul 33 26 21 8 7 5 Frequência Observada Teste a afirmação de que a distribuição de cores é a afirmada acima. Use nível de significância 5%. Solução: Marron Amarelo Vermelho Laranja Verde Azul 33 26 21 8 7 5 30 20 20 10 10 10 Frequência Observada Frequência esperada Temos que: Para os confeitos marron: E = np = 100 ⋅ 0,30 = 30 Analogamente construímos as freqüências esperadas. O teste a ser feito é: H 0 : p marron = 0,30 p amarelo = 0,20 pvermelho = 0,20 plaranja = 0,10 pverde = 0,10 p azul = 0,10 H1 : pelo menos uma das proporções acima é diferente do valor alegado Cálculo da estatística de teste: 68 Frequência Frequência O−E (O − E )2 (O − E )2 observada esperada Marron 33 30 3 9 0,3000 Amarelo 26 20 6 36 1,8000 Vermelho 21 20 1 1 0,0500 Laranja 8 10 -2 4 0,4000 Verde 7 10 -3 9 0,9000 Azul 5 10 -5 25 2,5000 E Assim χ2 = ∑ (O − E )2 E = 5,9500 O valor crítico é 11,071. Como a estatística de teste < valor crítico, 5,9500<11,071, então não rejeitamos H 0 . Exercícios: 1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento médico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na terça-feira, 18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira. Teste a afirmação de que os acidentes ocorrem com a mesma proporção nos cinco dias da semana. 2) O gerente do Supermercado Gleason deve decidir a quantidade de cada sabor de sorvete que deve estocar a fim de atender à demanda dos consumidores, sem que haja perda de sabores menos procurados. O fornecedor de sorvete afirma que, entre os sabores mais populares, os clientes têm as seguintes preferências: 62% preferem baunilha, 18% preferem chocolate, 12% preferem napolitano e 8% preferem baunilha com calda. Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o fornecedor identificou corretamente as preferências dos consumidores. Use nível de significância de 5%. Sabor Baunilha Clientes 120 Chocolate Napolitano 40 18 Baunilha em calda 22 69 3) Com nível de significância de 0,05 e os dados de acidentes industriais do exercício 1, teste a afirmação de um técnico de segurança de que os acidentes se distribuem pelos dias úteis como se segue: 30% na segundafeira, 15% na terça, 15% na quarta, 20% na quinta e 20% na sexta. 70 Tabela de Contingência Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à Estatística. Autor: M. F. Triola. Definição: Uma tabela de contingência (ou tabela de freqüência de dupla entrada) é uma tabela em que as freqüências correspondem a duas variáveis. (Uma variável categoriza as linhas, a outra categoriza as colunas) As tabelas de contingências são de grande importância pois são utilizadas para analisar resultados de pesquisas. Usaremos um teste, chamado teste de independência, usado para determinar se uma variável linha de uma tabela de contingência é independente de sua variável coluna. Definição: Utiliza-se um teste de independência para testar a hipótese nula de que a variável linha e a variável coluna em uma tabela de contingência não estão relacionadas, isto é, são independentes. Obs.: No contexto deste material a palavra contingência se refere a dependência, mas trata-se apenas de uma dependência estatística, e não pode ser usada para estabelecer uma ligação direta de causa e efeito entre as duas variáveis. Hipóteses em um teste de independência H 0 : as var iáveis são independen tes H1 : as var iáveis são dependente s 71 Suposições: 4) Os dados constituem uma amostra aleatória; 5) Para cada célula na tabela de contingência, a freqüência esperada é, no mínimo, 5. (Não há qualquer exigência de que cada freqüência observada seja no mínimo igual a 5.) Estatística de teste χ2 = ∑ (O − E )2 E Valores Críticos: 3. Na tabela A – 4 encontram-se os valores críticos, tomando-se graus de liberdade gl = (r − 1)(c − 1) onde: r: número de linhas c: número de colunas. 4. Os testes de hipótese de independência com tabelas de contingência envolvem apenas regiões críticas unilaterais à direita. Freqüência esperada para uma tabela de contingência E= (total linhas )(total colunas ) total geral 72 Exemplo: 2) (Livro Estatística Aplicada à Gestão Empresarial – Adriano L. Bruni) Os dados a seguir referem-se ao cruzamento entre as variáveis: possui habilitação e sexo, de 53 funcionários de um escritório de contabilidade. Tabela: Sexo versus Habilitação Habilitado Sim Não Total Feminino 9 12 21 Masculino 25 7 32 Total 34 19 53 Teste se as variáveis são independentes. Use nível de significância 5%. Solução: O teste a ser feito é: H 0 : as var iáveis são independentes H1 : as var iáveis são dependentes Cálculo das freqüências esperadas. Habilitado Sim Não Feminino 21 ⋅ 34 = 13,47 53 21 ⋅ 19 = 7,53 53 Masculino 32 ⋅ 34 = 20,53 53 32 ⋅ 19 = 11,47 53 73 Cálculo da estatística de teste: Habilitado Sim (9 − 13,47 )2 Feminino Masculino 13,47 (25 − 20,53)2 20,53 Não (12 − 7,53)2 = 1,483 7,53 (7 − 11,47 )2 = 0,973 11,47 = 2,654 = 1,742 Assim χ =∑ 2 (O − E )2 E = 1,483 + 2,654 + 0,973 + 1,742 = 6,852 Graus de liberdade: gl = (r − 1)(c − 1) = (2 − 1)(2 − 1) = 1 Valor crítico: χ 2 = 3,841 Como a estatística de teste > valor crítico, 6,852 > 3,841, então não rejeitamos H 0 . Logo as variáveis são independentes. Exercícios: 1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a causa de morte e condição da pessoa. Causa da Morte Ferimento acidental Doença Homicídio Ou Suicídio Em zona de combate 115 56 29 Fora da zona de combate 175 94 31 2) (Triola) Fez-se uma pesquisa para determinar se há restrições, quanto ao sexo, na confiança que o povo deposita na polícia. Os resultados amostrais constam da tabela a seguir. Com nível de 0,05 de significância, teste a afirmação de que não há tal restrição. Confiança na polícia Muita Alguma Muito pouca ou 74 nenhuma Homens 115 56 29 Mulheres 175 94 31 Fonte: Ministério da Justiça dos EUA e da Gallup Organization 3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de uma amostra aleatória de vítimas de diferentes crimes. Com nível de 0,05 de significância, teste a afirmação de que o tipo de crime é independente do fato de o criminoso ser um estranho. Tipo de crime Criminoso era um estranho Criminoso era conhecido ou parente Homicídio Roubo Assalto 12 379 727 39 106 642 75 Resíduos Padronizados Definição Os resíduos (diferenças entre freqüência observada e esperada) numa forma padronizada, ou seja, expressos em unidades de desvios-padrão é dado por Z res = O−E TC TL E ⋅ 1 − 1 − TG TG onde: O: freqüência observada; E: freqüência esperada; TC: total de colunas; TL: total de linhas; TG: total geral. Os resíduos padronizados representam valores de relação biunívoca com probabilidades de ocorrência, valores maiores que 1,96 ou menores que -1,96 têm pequenas chances de ocorrência, e podem assim instruir pontos de corte para um nível de significância de excesso ou falta de ocorrências, respectivamente. Exemplo: Voltando ao exemplo 1, temos: Tabela: Sexo versus Habilitação Habilitado Sim Não Total Feminino 9 12 21 Masculino 25 7 32 Total 34 19 53 A freqüência esperada é dada por: Habilitado Feminino Sim Não 13,47 7,53 76 Masculino 20,53 11,47 Os resíduos é dado por: Z res = O−E TC TL E ⋅ 1 − 1 − TG TG Habilitado Sim 9 − 13,47 Feminino 34 21 13,471 − 1 − 53 53 25 − 20,53 Masculino 34 32 20,531 − 1 − 53 53 Não = −2,62 = 2,62 12 − 7,53 19 21 7,531 − 1 − 53 53 7 − 11,47 19 32 11,471 − 1 − 53 53 = 2,62 = −2,62 Análises: 1) Verificamos inicialmente que o módulo da diferença entre as freqüências observadas e esperadas são iguais para todas as células. Neste caso não podemos dizer qual das células mais influenciou para o resultado da estatística de teste; 2) Analisando os resíduos vemos também que eles são, em módulos, iguais. Considerando um nível de significância de 5%, onde o valor crítico seria ±1,96, percebemos que ambos os resíduos são superiores a este valor. Isto indica que todos os resultados são igualmente pouco prováveis. Sendo assim elas são significantes. Neste caso não há nenhuma freqüência que causasse maior impacto, todas tiveram o mesmo impacto. 3) Não podemos dizer o que valor 25, na tabela de contingência, indicasse que o número de homens habilitados seria de maior impacto. 77 Introdução a Séries Temporais Definição Uma série temporal consiste em um conjunto de observações de variáveis quantitativas coletadas ao longo do tempo. Exemplos: 1) Vendas mensais de uma fábrica de sorvete; 2) Preço semanal de gasolina; 3) Evolução do preço diário de uma ação ao longo do tempo; 4) Temperatura diária em uma cidade. As séries temporais podem englobar dados diários, semanais, mensais, etc. Neste caso a ordem dos dados é fundamental. Os modelos de análise de séries temporais geralmente preocupam-se em estimar o comportamento futuro de uma série, com base em seus dados passados. Genericamente, os modelos de previsão empregados em séries temporais podem ser apresentados da seguinte forma: Yˆt +1 = f (Yt , Yt −1 , Yt − 2 ,K) Componentes de séries temporais a) Tendência: descreve um movimento suave, a longo prazo, dos dados, para cima ou para baixo. b) Variações cíclicas: correspondem a um certo grau de regularidade a longo prazo (1 ano, dez anos, 50 anos) no comportamento das séries temporais. Exemplo: aumento das vendas de bandeira do Brasil em função da copa do mundo de futebol. c) Variações sazonais: representam regularidades de variações na série em períodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente dentro de um ano. Exemplo: vendas de ovos de páscoa nos meses de março e abril. 78 d) Variações irregulares ou aleatórias: correspondem a ruídos na série temporal em decorrência de fatores variados. Como são aleatórios não são previstos no modelo. Exemplos: Uma série é dita estacionária se ela for convergente. Ela flutua em torno de um ponto. Uma série é dita não-estacionária se ela for divergente. Neste caso ela tem raiz unitária. Uma opção para tornar a série estacionária é aplicar o operador diferença. 79 Exemplo: 1) Dados fictícios Quadrimestre Periodo 1998 1 1998 2 1998 3 1998 4 1999 1 1999 2 1999 3 1999 4 2000 1 2000 2 2000 3 2000 4 2001 1 2001 2 2001 3 2001 4 2002 1 2002 2 2002 3 2002 4 2003 1 2003 2 2003 3 2003 4 2004 1 2004 2 2004 3 2004 4 2005 1 2005 2 2005 3 2005 4 Y 6,7 4,4 5,8 6,2 2,1 0,1 0,8 1,5 6 3,9 4,9 4,7 12,9 10,9 11,4 11,9 8,3 5,4 6,4 6,8 11,6 9,7 10,6 11,2 19,3 16,2 17,6 18,3 13,8 11,5 12,2 12,6 80 2) Para ilustrar dados envolvendo sazonalidade considere a venda de sorvete: Ano Quadrimestre Quadrimestre Quadrimestre Total 1 2 3 1998 170 250 180 600 1999 174 245 186 605 2000 168 262 168 598 2001 182 260 160 602 2002 154 240 210 604 Total 848 1257 904 3009 1) Para ilustrar dados envolvendo sazonalidade com médias móveis considere a demanda de calçados 81 Quadrimestre Demanda 2000:1 11 2000:2 12 2000:3 13 2001:1 19 2001:2 18 2001:3 19 2002:1 26 2002:2 24 2002:3 25 Modelos: 1) Médias móveis simples Os modelos de médias móveis simples sugerem que a estimativa do valor futuro Yˆt +1 pode ser feita com base em uma média aritmética simples de k valores passados. Assim, Y + Y + Y + K + Yt − k +1 Yˆt +1 = t t −1 t − 2 k 2) Médias móveis ponderados No modelo de médias móveis ponderadas deve-se atribuir um peso para cada ano analisado. Assim, Yˆt +1 = w1Yt + w2Yt −1 + w3Yt − 2 + K + wk Yt − k +1 Onde wi : pesos 82 Geralmente, dados mais recentes recebem maior ponderação. 3) Alisamento exponencial A previsão feita para o período posterior Yˆt +1 deve ser igual à previsão feita para o [ ( período anterior Ŷt , acrescido de um ajuste α Yt − Yˆt ) ], função do erro da previsão efetuada para o período anterior. O valor de α deve estar compreendido entre 0 e 1. Algebricamente temos: ( Yˆt +1 = Yˆt + α Yt − Yˆt ) Expandindo a expressão anterior encontramos: Yˆt +1 = αYt + α (1 − α )Yt −1 + α (1 − α )2 Yt − 2 + K + α (1 − α )n Yt − n Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado é o próprio valor realizado. 4) Tendência com modelo de regressão Neste modelo utiliza-se a regressão linear simples onde y = a + bx onde n(∑ xy ) − (∑ x )(∑ y ) b= 2 n ∑ x 2 − (∑ x ) ( a= ) ∑ y − b∑ x n Análise da qualidade da previsão 1) Desvio médio absoluto: representa a soma dos desvios absolutos, representados pelo módulo da diferença ou diferença absoluta entre a demanda real e a prevista. n Yi − Yˆi DMA = ∑ i =1 n 2) Erro quadrático médio: representa a soma dos desvios ao quadrado, representados pela diferença entre a demanda real e a prevista. n EQM = ∑ i =1 (Yi − Yˆi )2 n Exemplo: 83 1) Considere o histórico de vendas a seguir Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Vendas 92 83 66 74 75 84 84 81 75 63 91 84 Calcule, utilizando a média móvel dos últimos 3 meses. a) a previsão para o mês de janeiro seguinte b) Desvio médio absoluto c) Erro quadrático médio Solução: a) Considerando a média dos 3 anteriores meses temos Y +Y +Y Yˆ janeiro = out nov dez 3 63 + 91 + 84 Yˆ janeiro = 3 ˆ Y janeiro = 79,33 b) Completando a tabela com as previsões temos: Mês Vendas Previsão Y Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 92 83 66 74 75 84 84 81 75 63 91 84 Y − Yˆ (Y − Yˆ )2 6,33 0,67 12,33 6,33 0 8 17 18 7,67 40,0689 0,4489 152,0289 40,0689 0 64 289 324 58,8289 Ŷ 80,33 74,33 71,67 77,67 81 83 80 73 76,33 Logo 84 Yi − Yˆi 76,33 DMA = ∑ = = 8,481 n 9 i =1 n c) O erro quadrático médio será n EQM = ∑ i =1 (Yi − Yˆi )2 = 968,4445 = 107,605 9 n 2) Refaça o exemplo anterior utilizando a média móvel ponderada com pesos 0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro mês anterior, respectivamente. 3) A previsão antiga da demanda do composto RK era de 100 unidades. A última demanda real foi de 85 unidades. Qual é a previsão exponencialmente nivelada para o próximo período? Alfa tem valor 0,2. 4) Considere os dados amostrais: Semana Demanda 1 150 2 159 3 160 4 167 5 173 6 175 7 185 8 188 Utilizando o alisamento exponencial faça as previsões para cada semana e para a semana 9, sendo: a) Alfa de 0,2 b) Alfa de 0,3 c) Calcule o desvio médio de cada item anterior, (a) e (b) d) Com base no desvio médio, qual a melhor previsão? 85 5) O consumo de um componente das Fábricas Tronic os últimos 10 meses foi igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com base em análise de regressão, a previsão de consumo para o 11º mês. 86 Bibliografia 1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição. São Paulo: Atlas, 1985. 2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e probabilidade para engenheiros. Rio de Janeiro: LTC, 2009. 3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006. 4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São Paulo: Atlas, 2008. 5. TRIOLA, Mário F., Introdução à Estatística. Rio de Janeiro. Editora LTC. 7.ª edição, 2008. 87 Anexo 1 Comandos Software R #======================================================= Gerar amostras aleatórias #======================================================= criar vetor de amostras x sort(x)# ordena os valores de x. sample(x,5,T)# gera 5 amostras do vetor x com reposição sample(x,5)# gera 5 amostras do vetor x sem reposição #======================================================= # Mudar diretório #======================================================= Arquivo Mudar diretorio Nome da pasta #======================================================= # Leitura e Preliminares dos Dados #======================================================= Leitura dos dados gasolina <- scan(file="gasolina.txt") frango <- scan(file="frango.txt") alcatra <- scan(file="alcatra.txt") dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra attach(dados)# apresenta os nomes das variáveis names(dados)# apresenta os nomes das variáveis dim(dados) # dimensão dos dados dados[1:15]# apresenta os 15 primeiros resultados 88 #========================================================== # Estatísticas Descritivas #========================================================== summary(gasolina) summary(frango) mean(gasolina) median(gasolina) quantile(gasolina) # retorna os quartis var(gasolina)# variância cov(frango,alcatra) #Covariância cor(frango,alcatra)#correlação #============================================================== # Tabela #=============================================================== table(frango)# apresenta tabela distribuição frequencia simples. #============================================================== # Graficos #=============================================================== boxplot(gasolina,ylab="Preços da Gasolina") boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra") hist(frango) plot(alcatra) versa pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice t<-ts(frango) # transforma um conjunto de dados frango em uma série temporal plot(t)# faz o gráfico da série temporal par(mfrow=c(2,1))#divide a tela em 2. hist(gasolina) 89 abline(v=mean(gasolina))# faz uma linha na média de x1. abline(v=median(gasolina))# faz uma linha na mediana de x1. abline(v=quantile(gasolina))# faz uma linha nos quantis de x1. #============================================================== Regressão linear #=============================================================== plot(x, y) # gráfico de dispersão. fm <- lm(y ~ x) # regressão entre conjuntos pareados y e x. fm # apresenta os coeficientes da regressão. anova(fm)# apresenta tabela anova do modelo. abline(lm(y~x)) # traça a reta de regressão. 90