ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima Aula 00 Caro aluno, Seja bem vindo ao curso de “ESTATÍSTICA para AUDITOR DE CONTROLE EXTERNO DO TRIBUNAL DE CONTAS DO ESTADO DO PARÁ (TCE-PA) CARGOS 12 e 31”. Sigamos em frente ... vou me apresentar para você. Sou o professor Alexandre Lima. É uma imensa satisfação tê-lo como meu aluno. Obtive o grau de Bacharel em Ciências Navais com ênfase em Eletrônica pela Escola Naval e os de Engenheiro Elétrico com ênfase em Telecomunicações, Mestre e Doutor em Engenharia Elétrica, área de concentração: Sistemas Eletrônicos, pela Escola Politécnica da Universidade de São Paulo (EPUSP). Sou Auditor-Fiscal Tributário Municipal de São Paulo. Em paralelo, exerço o magistério universitário e ministro aulas de Matemática, Raciocínio Lógico-Quantitativo, Estatística e Econometria aqui no Ponto dos Concursos desde 2009. Sou professor orientador dos cursos de pós-graduação stricto sensu em Eng. Elétrica da EPUSP e em Engenharia da Computação do Instituto de Pesquisas Tecnológicas (IPT). Voltemos ao curso. A exposição do conteúdo programático do edital não será exaustiva, porque isso seria impraticável e improdutivo. Não obstante, farei uma varredura nas últimas provas do CESPE com o intuito de detectar as últimas tendências, ou seja, o “BIZU” do que poderá ser realmente cobrado na sua prova. É preciso ser pragmático e ter “jogo de cintura” nessa hora. Você precisará aprender o que (provavelmente) cairá na prova. Não é necessário saber toda a matéria para ser aprovado em um concurso público. Resolveremos juntos um grande número de questões que foram cobradas recentemente pelo CESPE. Por questões didáticas, também serão utilizadas questões de bancas tradicionais como ESAF, FCC e Cesgranrio, dentre outras. Ressalto que todas as questões incluídas nas aulas são cuidadosamente selecionadas para que o seu aproveitamento seja máximo. As soluções apresentadas são resultantes de um longo processo evolutivo, fruto de uma intensa interação com os alunos via forum web etc. Segue-se o conteúdo programático. Atenção: os tópicos em vermelho, apesar de não terem sido listados pelo edital, são necessários para a fluência do curso. Caso contrário, haveria descontinuidade da exposição teórica, e, por conseguinte, lacuna de conhecimento. 1 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima Aula 0 (DEMONSTRATIVA): apresentação do metodologia de ensino e resolução de exercícios. conteúdo programático, Aula 1: Estatística descritiva e análise exploratória de dados: gráficos, diagramas, tabelas, medidas descritivas (posição, dispersão, assimetria e curtose). Aula 2: Probabilidade. Definições básicas e axiomas. Probabilidade condicional e independência. Aula 3: Variáveis aleatórias discretas e contínuas. Distribuição de probabilidades. Função de probabilidade. Função densidade de probabilidade. Esperança e momentos. Distribuições especiais. Distribuições condicionais e independência. Transformação de variáveis. Aula 4: Variável aleatória bivariada. Nota: apesar deste tópico não constar do edital, trata-se de uma ponte conceitual para o restante do curso. Aula 5: Leis dos grandes números. Teorema central do limite. Amostras aleatórias. Distribuições amostrais. Técnicas de amostragem: amostragem aleatória simples, estratificada, sistemática e por conglomerados. Tamanho amostral. Aula 6: Inferência estatística. Estimação pontual: métodos de estimação, propriedades dos estimadores, suficiência. Estimação intervalar: intervalos de confiança, intervalos de credibilidade. Aula 7: Testes de hipóteses: hipóteses simples e compostas, níveis de significância e potência de um teste, teste t de Student, teste qui-quadrado. Aula 8: Análise de regressão linear. Critérios de mínimos quadrados e de máxima verossimilhança. Modelos de regressão linear. Aula 9: Inferência sobre os parâmetros do modelo. Análise de variância. Análise de resíduos. Aula 10: Revisão/Resumão da matéria para a prova. Simulado preparatório. As dúvidas serão sanadas por meio do fórum do curso, ao qual todos os matriculados terão acesso. As críticas ou sugestões poderão ser enviadas para a caixa postal [email protected]. Por último, peço que você medite nas seguintes palavras de um grande sábio judeu da antiguidade, o Rei Salomão: 2 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima “O preguiçoso deseja e nada consegue, mas os desejos do diligente são amplamente satisfeitos.” Fé na missão e fé em Deus! Prof. Alexandre Lima Março/2016 3 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima Exemplos de Exercícios Comentados e Resolvidos Nota: nesta aula demonstrativa serão apresentadas apenas questões comentadas; contudo, o curso será de teoria e exercícios. (BACEN – Área 5/CESPE/2013) 2 4 8 4 8 1 2 32 12 1 5 7 5 5 3 4 24 19 4 14 Os dados mostrados acima representam uma amostra, em minutos, do tempo utilizado na armazenagem de formulários no almoxarifado central de certa instituição por diversos funcionários. Com base nesses dados, julgue os itens a seguir. 1. A média da sequência de dados apresentada é superior ao dobro da moda. Resolução A tabela abaixo nos dá a distribuição de frequências dos dados mostrados no enunciado. x = tempo (min.) Freq. (f) Freq. Relativa (p) x.f 1 2 3 4 5 7 8 12 14 19 24 32 Soma 2 2 1 4 3 1 2 1 1 1 1 1 n = 20 2/20 = 10% 2/20 = 10% 1/20 = 5% 4/20 = 20% 3/20 = 15% 1/20 = 5% 2/20 = 10% 1/20 = 5% 1/20 = 5% 1/20 = 5% 1/20 = 5% 1/20 = 5% 100% 2 4 3 16 15 7 16 12 14 19 24 32 164 Freq. Acumulada (F) Freq. Relativa Acumulada (P) 2 4 5 9 12 13 15 16 17 18 19 20 10% 20% 25% 45% 60% 65% 75% 80% 85% 90% 95% 100% Cálculo da média: x 1 k 164 f i xi 8,2 n i1 20 4 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima O valor de maior frequência (ou moda) é o 4, pois foi observado quatro vezes. Note que (média = 8,2) > (2 x moda) = 2 x 4,0 = 8,0 Item certo. GABARITO: C 2. A mediana é maior que o 50º percentil. Resolução A mediana é igual ao 50º percentil, por definição. Logo o item é errado. Por uma questão didática, calculemos o valor da mediana usando o rol de dados abaixo, i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x 1 1 2 2 3 4 4 4 4 5 5 5 7 8 8 12 14 19 24 32 em que i = posição da observação no rol x = observação O rol contém n = 20 observações da variável x. Deste modo, a mediana é dada pela média entre as 10ª e 11ª: Mediana = (5 + 5) /2 = 5 = 50º percentil GABARITO: E 3. É inviável a elaboração de um histograma em decorrência do fato de ser este um conjunto de dados quantitativos discretos; dessa forma, apenas por meio de um gráfico de barras pode ser realizada a representação gráfica. Resolução A descrição gráfica de variáveis quantitativas discretas é normalmente feita por meio de um diagrama (gráfico) de barras. Não obstante, um conjunto de dados quantitativos discretos também pode ser representado por um histograma. Neste caso, as classes são formadas especificando-se os intervalos que serão usados para agrupar os dados. Item errado. GABARITO: E 5 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima 4. A distribuição de frequência acumulada para tempo de armazenagem observado na amostra inferior a 8 minutos é igual a 13, o que corresponde a uma frequência relativa superior a 0,60. Resolução A afirmação é correta, pois F(x < 8) = 13 P(x < 8)= 65% de acordo com a distribuição de frequências apresentada anteriormente. Nota: a banca interpretou o termo “frequência relativa” do enunciado como sendo “frequência relativa acumulada”. Essa interpretação é legítima no contexto do item. GABARITO: C (ANAC/CESPE/2009) Um estudo sobre a duração de uma operação de carregamento mostrou haver relação linear na forma Yk = βXk + εk, em que Yk é o tempo (horas) do carregamento k; Xk é o volume total (em toneladas) do carregamento k; β é o coeficiente angular; e εk representa um erro aleatório com média zero e variância 2. De uma amostra aleatória de 341 operações de carregamento, observam-se os seguintes resultados: 341 X k Yk 988 ; k 1 341 Y k 1 k 341 X k2 1.704 ; k 1 341 X k 682 ; k 1 341 Y k 1 2 k 681 ; 341 . Com base nessas informações, julgue os itens a seguir. 5. O coeficiente R2 (ou coeficiente de determinação ou explicação) do modelo apresentado é igual a 0,81, o que indica que 81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento. Resolução Note que a regressão passa pela origem, pois o modelo especificado é Yk = βXk + εk. 6 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima O coeficiente R2 mede a percentagem da variação na variável dependente Y (tempo em horas do carregamento) explicada pela variação na variável explicativa X (volume total em toneladas do carregamento) dentro do modelo de regressão. Estimativa da declividade b X Y X k k 2 k 988 0,58 1.704 Cálculo de R2 SQE Yk2 b 2 X k2 681 0,58 2 1.704 107,77 Y 2 SQT S yy Y k 2 R2 1 k n 681 3412 340 341 SQE 107,77 1 0,68 0,81 item errado SQT 340 Além disso, é errado dizer que “(...) variação total do tempo de carregamento são explicadas pelo volume total do carregamento.” A afirmação correta seria “(...) variação total do tempo de carregamento são explicadas pela variação do volume total do carregamento.” Calculemos o coeficiente de correlação. r S xy S xx S yy S xy X k Yk X Y 682 341 988 306 k X k n 2 S xx X k2 r S xy S xx S yy k n 306 340 2 1.704 341 682 2 340 341 306 0,90 r 2 0,81 340 7 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima Constatamos que r 2 R 2 para regressão sem intercepto. GABARITO: E 6. A correlação linear entre o tempo de carregamento e o volume total do carregamento é superior a 0,85. Resolução O item está certo, pois vimos que r = 0,9. O cálculo do item anterior não foi uma perda de tempo! GABARITO: C 7. Sendo os erros aleatórios distribuídos segundo uma normal, então a estimativa de máxima verossimilhança para o coeficiente β é inferior a 0,60 e superior a 0,55. Resolução Se admitirmos os erros aleatórios do modelo de regressão distribuídos normalmente, os estimadores de mínimos quadrados e de máxima verossimilhança dos coeficientes da regressão são idênticos (*). Vimos que a estimativa de Mínimos Quadrados Ordinários (MQO) para o coeficiente β é 0,58. Sob a hipótese de que os erros aleatórios do modelo de regressão são normalmente distribuídos, os estimadores de mínimos quadrados e de máxima verossimilhança dos coeficientes da regressão são idênticos. Logo, 0,55 < b = 0,58 < 0,60 item certo. (*) GUJARATI, D. N. “Econometria Básica”, 3ª Ed., Pearson Makron Books, 2000. GABARITO: C 8. Sendo y , x e ˆ , respectivamente, a média dos tempos de carregamento, a média dos volumes totais do carregamento e a estimativa de mínimos quadrados do coeficiente angular do modelo, então y ̂x . Resolução A estimativa de mínimos quadrados para o coeficiente angular do modelo é X k Yk . ˆ X k2 8 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima X k Yk A linha de regressão é dada pela equação Yˆk ˆX k X2 k X k Yk Faça X k x na equação acima. Então, Yˆk X2 k X k . x y Item errado. Observe que a linha de regressão não passa pelo ponto das médias ( x , y) quando a reta não possui intercepto. Lembre que a reta de regressão passa pelo ponto das médias quando existe o termo de intercepto. Por outro lado, e ainda considerando o modelo de regressão pela origem, é y possível demonstrar que ̂ é um estimador alternativo para o coeficiente x angular. Mas esse estimador não é de mínimos quadrados. y Neste caso, Yˆk ̂ X k X k . Fazendo X k x , obtemos Yˆk y . x GABARITO: E (ANAC/CESPE/2012/Adaptada) Em relação aos modelos de regressão, julgue os próximos itens. 9. O modelo de regressão Yi = 0 + 1exp(Xi) + i, i ~ N(0, 2) é um modelo linear simples. Resolução É preciso esclarecer o significado do termo "linear". Linearidade nas Variáveis O primeiro significado de linearidade é que a esperança condicional de Y dado x é uma função linear de x, como por exemplo, no modelo E(Y|x) = + x em que a curva de regressão em função de x é uma reta. Linearidade nos Parâmetros A segunda interpretação de linearidade é que a esperança condicional de Y dado x é uma função linear dos parâmetros e ; isso pode ou não ser linear 9 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima na variável X. Nesta interpretação, E(Y|x) = + .exp(x) é um modelo de regressão linear simples. De acordo com a segunda interpretação, o modelo de regressão Yi = 0 + 1exp(Xi) + i, i ~ N(0, 2) é um modelo linear simples nos parâmetros. Item certo. GABARITO: C 10. O gráfico abaixo mostra o consumo de combustível de aviação (em galões) por milha náutica voada e o ajuste de uma reta a todos os pontos mostrados via regressão linear. Sabendo-se que uma primeira regressão linear foi realizada utilizando-se apenas os pontos com preenchimento e que a inclusão do ponto sem preenchimento levou a um considerável deslocamento dessa reta, então é correto afirmar que esse ponto denomina-se ponto de inflexão. Resolução Até onde é de meu conhecimento, a literatura não reconhece a existência dessa terminologia chamada "ponto de inflexão" na regressão linear. Item errado. Sem maiores comentários. GABARITO: E 10 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima (ANTT – Cargo15 – Área:Estatística/CESPE/2013) parâmetro estimativa erro padrão razão t p-valor 0 60 6,0 10,0 0,00000 1 0,8 0,2 4,0 0,00007 2 3,6 2,0 1,8 0,07218 3 -0,10 0,05 -2,0 0,04578 Um estudo para investigar a associação da pressão arterial diastólica com o tempo acumulado de trabalho dos motoristas de ônibus em determinada cidade considerou o modelo de regressão linear na forma y i = β0 + β1X1i + β2X2i + β3X1iX2i + i, em que yi representa a pressão arterial diastólica (mmHg) do motorista i, X1i é a idade (em anos) do motorista i, X2i denota o logaritmo natural do tempo de trabalho (em meses) do motorista i e i representa o erro aleatório com média nula e variância 2. Esse estudo foi realizado com base em uma amostra aleatória de 1.000 motoristas de ônibus. A tabela acima apresenta a estimativa de cada parâmetro βi (i = 0, 1, 2, 3) obtida pelo método de mínimos quadrados ordinários, o erro padrão, a razão t e o p-valor correspondentes. Com base nessas informações e na tabela apresentada, julgue os itens a seguir. 11. Considerando-se o nível de significância de 5%, não se rejeita a hipótese H0: β2 = 0. Resolução Em primeiro lugar, relembremos alguns conceitos de testes de hipóteses. Dado um problema de teste de hipóteses, precisamos formular as chamadas hipótese nula e hipótese alternativa. A hipótese nula ou hipótese de trabalho (H0) é a hipótese aceita como verdadeira até prova estatística em contrário. É o ponto de partida para a análise dos dados. Em geral, ela é formulada em termos de igualdade entre parâmetros ou entre um parâmetro e uma constante. Ela geralmente representa o contrário do que queremos provar, ou seja, representa a hipótese que se quer rejeitar. Quando os dados mostrarem evidência suficiente de que a hipótese nula (H0) é falsa, o teste rejeita-a, aceitando em seu lugar a chamada hipótese alternativa (H1). Em geral, a hipótese alternativa é 11 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima formulada em termos de desigualdades (, < ou >). Ela comumente representa o que se quer provar, isto é, corresponde à própria hipótese de pesquisa formulada em termos de parâmetros. O valor-p (ou probabilidade de significância) é a probabilidade de a estatística do teste acusar um resultado tão ou mais distante do esperado, como o resultado ocorrido na particular amostra observada, supondo H0 como a hipótese verdadeira. Regra de decisão: Se valor-p ≤ , rejeitamos H0 em favor de H1. Se valor-p > , não rejeitamos H0 em favor de H1. Note que = P(erro tipo I) = P(rejeitar H0|H0 é verdadeira) é o nível de significância do teste. Quando adotamos um modelo de regressão múltipla, admitimos que todas as (k – 1) variáveis explanatórias influenciem a variável dependente y. Para confirmar essa hipótese, devemos examinar se ela é, ou não, apoiada pelos dados. Isto é, devemos procurar saber se os dados proporcionam evidência de que y esteja relacionado com cada uma das variáveis independentes. Se determinada variável explicativa, digamos Xk, não tem nenhuma influência sobre y, então k = 0. O teste dessa hipótese nula é chamado teste de significância para a variável explanatória Xk. Assim, a fim de verificar se os dados apresentam alguma evidência empírica de que y esteja relacionado com Xk, testamos a hipótese nula H0 : k = 0 contra a hipótese alternativa H1: k 0 Seja bk a estimativa de k . A estatística do teste é a variável t de Student t bk ~ t( n k ) ep (bk ) em que ep(bk) denota o erro padrão da razão t(n-k), que possui n–k graus de liberdade, n é o número de elementos da amostra e k é o número de parâmetros do modelo. Como 0,07218 > 5% (valor-p > ) não há evidência suficiente para se rejeitar H0 em favor de H1. Item certo. 12 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima GABARITO: C 12. Para se obter a estimativa de um coeficiente do modelo pelo método de mínimos quadrados ordinários, exige-se que o erro aleatório i siga uma distribuição normal com média 0 e variância 2. Resolução Para se obter a estimativa de um coeficiente do modelo pelo método de Mínimos Quadrados Ordinários (MQO), não se exige que o erro aleatório i siga uma distribuição normal com média 0 e variância 2. Se os erros não são distribuídos normalmente, então os estimadores de mínimos quadrados têm distribuição aproximadamente normal em grandes amostras, nas quais n – k é superior, digamos, a 50. Item errado. GABARITO: E 13. O produto X1iX2i, que se denomina interação, permite representar o efeito multiplicativo da idade e do logaritmo natural do tempo de trabalho na pressão arterial diastólica média de um motorista. Resolução Item trivial e auto-explicativo. O modelo conta um regressor X1iX2i denominado interação, o qual permite representar o efeito multiplicativo da idade e do logaritmo natural do tempo de trabalho na pressão arterial diastólica média de um motorista. Item certo. GABARITO: C 14. O estimador do coeficiente β1 segue uma distribuição t de Student com 995 graus de liberdade. Resolução Admitindo que os erros sejam distribuídos normalmente, yi também será uma variável aleatória distribuída normalmente. Portanto, os estimadores de mínimos quadrados terão distribuições normais (β1 inclusive), pois são funções lineares de yi. GABARITO: E 13 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima 15. Por meio do método estatístico análise de variância (ANOVA), é possível testar, por exemplo, a hipótese nula β1 = β2 = β3 = 0. Resolução A análise de variância (ANOVA) pode ser usada para testar a significância da regressão múltipla. A ideia é aplicar a ANOVA para testar a significância global da regressão estimada, ou seja, para testar a hipótese nula de que os verdadeiros coeficientes de inclinação são simultaneamente nulos (1 = 2 = ... = k = 0). Uma hipótese nula conjunta, que envolve um conjunto de hipóteses (como β1 = β2 = β3 = 0), é testada apenas por um teste F. Item certo. GABARITO: C (ANTT – Cargo15 – Área: Estatística/CESPE/2013) Julgue os itens seguintes, relativos à violação das suposições básicas dos modelos clássicos de regressão. 16. Uma vez detectada a presença de heterocedasticidade, é possível estimar o modelo por mínimos quadrados generalizados (MQG) para corrigir ou minimizar o problema, de tal forma que os estimadores de MQG sejam melhores que os estimadores de MQO. Resolução Consequências da heterocedasticidade e correlação serial para o estimador de MQO: a. O estimador de MQO ainda é linear e não tendencioso, mas não é mais o MELNV; b. Os erros padrão comumente calculados para o estimador de MQO são incorretos. Os intervalos de confiança e os testes de hipóteses que utilizam esses erros padrão podem ser enganosos. Quando há heterocedasticidade e/ou correlação serial, o estimador MELNV é o estimador de MQG. Item correto. GABARITO: C 14 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima 17. Na presença de multicolinearidade, a variância e a covariância dos estimadores serão afetadas, sendo possível que sejam alterados tanto os sinais quanto a magnitude dos estimadores. Resolução Muitas vezes as variáveis econômicas podem caminhar juntas de maneira sistemática. Tais variáveis chamam-se colineares, e o problema é a colinearidade, ou , quando estão em jogo diversas variáveis, multicolinearidade. Nesse caso, não há garantia de que os dados sejam ricos em informação, nem de que seja possível isolar as relações ou parâmetros econômicos de interesse1. Para a regressão de 𝑘 variáveis envolvendo as variáveis explicativas 𝑋1 , 𝑋2 , … , 𝑋𝑘 (em que 𝑋1 = 1 para todas as observações, permitindo o termo de intercepto), dizemos que existe uma multicolinearidade perfeita (ou dependência linear exata entre as variáveis) se for satisfeita a seguinte relação 𝜆1 𝑋1 + 𝜆2 𝑋2 + ⋯ + 𝜆𝑘 𝑋𝑘 = 0 em que os 𝜆1 , 𝜆2 , … , 𝜆𝑘 são constantes de modo que nem todos sejam simultaneamente iguais a zero. O termo multicolinearidade pode ser usado em um sentido mais amplo, como ocorre quando as variáveis 𝑋 são intercorrelacionadas, mas não perfeitamente. A multicolinearidade menos que perfeita é definida pela relação 𝜆1 𝑋1 + 𝜆2 𝑋2 + ⋯ + 𝜆𝑘 𝑋𝑘 + 𝑢𝑖 = 0 em que 𝑢𝑖 é um termo de erro aleatório. Consequências práticas da multicolinearidade2: i. Apesar de serem MELNV, os estimadores de MQO têm grandes variâncias e covariâncias, dificultando uma estimativa precisa. ii. Em virtude da consequência anterior, os intervalos de confiança tendem a ser maiores, resultando na aceitação da hipótese nula, a saber, que o verdadeiro coeficiente na população é zero, mais prontamente. iii. Também por causa da consequência i, a razão t de um ou mais coeficientes tende a ser estatisticamente insignificante. iv. Embora a razão t de um ou mais coeficientes seja estatisticamente insignificante, o coeficiente de determinação R2 pode ser bastante alto. 1 2 R. C. Hill, W. E. Griffiths, G. G. Judge. Econometria, 2a edição, Editora Saraiva, 2006, pág. 217. D. N. Gujarati. Econometria Básica, 3a edição, Pearson, 2000, pág. 326. 15 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima v. Os estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas variações nos dados. A afirmação é correta multicolinearidade. de acordo com a primeira consequência da GABARITO: C 18. A violação da suposição de homocedasticidade dos resíduos afeta a distribuição de probabilidades dos estimadores sem afetar, contudo, o seu valor esperado. Resolução Se a hipótese de mesma variância ou homocedasticidade dos choques aleatórios i é violada Var ( i ) E ( i2 ) 2 , i 1,2,...n , o estimador de MQO ainda continua sendo linear e não viesado. Mas não é o MELNV. O valor esperado do estimador de MQO não é afetado porque o estimador não é viesado. A variância do estimador de MQO muda, não sendo mais a mínima. Portanto, a distribuição de probabilidades do estimador é afetada. Item correto. GABARITO: C Abraços e até a próxima aula. Bons estudos! Alexandre Lima [email protected] 16 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima Lista de Questões Comentadas na Aula (BACEN – Área 5/CESPE/2013) 2 4 8 4 8 1 2 32 12 1 5 7 5 5 3 4 24 19 4 14 Os dados mostrados acima representam uma amostra, em minutos, do tempo utilizado na armazenagem de formulários no almoxarifado central de certa instituição por diversos funcionários. Com base nesses dados, julgue os itens a seguir. 1. A média da sequência de dados apresentada é superior ao dobro da moda. 2. A mediana é maior que o 50º percentil. 3. É inviável a elaboração de um histograma em decorrência do fato de ser este um conjunto de dados quantitativos discretos; dessa forma, apenas por meio de um gráfico de barras pode ser realizada a representação gráfica. 4. A distribuição de frequência acumulada para tempo de armazenagem observado na amostra inferior a 8 minutos é igual a 13, o que corresponde a uma frequência relativa superior a 0,60. (ANAC/CESPE/2009) Um estudo sobre a duração de uma operação de carregamento mostrou haver relação linear na forma Yk = βXk + εk, em que Yk é o tempo (horas) do carregamento k; Xk é o volume total (em toneladas) do carregamento k; β é o coeficiente angular; e εk representa um erro aleatório com média zero e variância 2. De uma amostra aleatória de 341 operações de carregamento, observam-se os seguintes resultados: 341 X k Yk 988 ; k 1 341 Y k 1 k 341 X k2 1.704 ; k 1 341 X k 682 ; k 1 341 Y k 1 2 k 681 ; 341 . Com base nessas informações, julgue os itens a seguir. 5. O coeficiente R2 (ou coeficiente de determinação ou explicação) do modelo apresentado é igual a 0,81, o que indica que 81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento. 6. A correlação linear entre o tempo de carregamento e o volume total do carregamento é superior a 0,85. 17 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima 7. Sendo os erros aleatórios distribuídos segundo uma normal, então a estimativa de máxima verossimilhança para o coeficiente β é inferior a 0,60 e superior a 0,55. 8. Sendo y , x e ˆ , respectivamente, a média dos tempos de carregamento, a média dos volumes totais do carregamento e a estimativa de mínimos quadrados do coeficiente angular do modelo, então y ̂x . (ANAC/CESPE/2012/Adaptada) Em relação aos modelos de regressão, julgue os próximos itens. 9. O modelo de regressão Yi = 0 + 1exp(Xi) + i, i ~ N(0, 2) é um modelo linear simples. 10. O gráfico abaixo mostra o consumo de combustível de aviação (em galões) por milha náutica voada e o ajuste de uma reta a todos os pontos mostrados via regressão linear. Sabendo-se que uma primeira regressão linear foi realizada utilizando-se apenas os pontos com preenchimento e que a inclusão do ponto sem preenchimento levou a um considerável deslocamento dessa reta, então é correto afirmar que esse ponto denomina-se ponto de inflexão. 18 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima (ANTT – Cargo15 – Área:Estatística/CESPE/2013) parâmetro estimativa erro padrão razão t p-valor 0 60 6,0 10,0 0,00000 1 0,8 0,2 4,0 0,00007 2 3,6 2,0 1,8 0,07218 3 -0,10 0,05 -2,0 0,04578 Um estudo para investigar a associação da pressão arterial diastólica com o tempo acumulado de trabalho dos motoristas de ônibus em determinada cidade considerou o modelo de regressão linear na forma yi = β0 + β1X1i + β2X2i + β3X1iX2i + i, em que yi representa a pressão arterial diastólica (mmHg) do motorista i, X1i é a idade (em anos) do motorista i, X2i denota o logaritmo natural do tempo de trabalho (em meses) do motorista i e i representa o erro aleatório com média nula e variância 2. Esse estudo foi realizado com base em uma amostra aleatória de 1.000 motoristas de ônibus. A tabela acima apresenta a estimativa de cada parâmetro βi (i = 0, 1, 2, 3) obtida pelo método de mínimos quadrados ordinários, o erro padrão, a razão t e o p-valor correspondentes. Com base nessas informações e na tabela apresentada, julgue os itens a seguir. 11. Considerando-se o nível de significância de 5%, não se rejeita a hipótese H0: β2 = 0. 12. Para se obter a estimativa de um coeficiente do modelo pelo método de mínimos quadrados ordinários, exige-se que o erro aleatório i siga uma distribuição normal com média 0 e variância 2. 13. O produto X1iX2i, que se denomina interação, permite representar o efeito multiplicativo da idade e do logaritmo natural do tempo de trabalho na pressão arterial diastólica média de um motorista. 14. O estimador do coeficiente β1 segue uma distribuição t de Student com 995 graus de liberdade. 15. Por meio do método estatístico análise de variância (ANOVA), é possível testar, por exemplo, a hipótese nula β1 = β2 = β3 = 0. 19 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima (ANTT – Cargo15 – Área: Estatística/CESPE/2013) Julgue os itens seguintes, relativos à violação das suposições básicas dos modelos clássicos de regressão. 16. Uma vez detectada a presença de heterocedasticidade, é possível estimar o modelo por mínimos quadrados generalizados (MQG) para corrigir ou minimizar o problema, de tal forma que os estimadores de MQG sejam melhores que os estimadores de MQO. 17. Na presença de multicolinearidade, a variância e a covariância dos estimadores serão afetadas, sendo possível que sejam alterados tanto os sinais quanto a magnitude dos estimadores. 18. A violação da suposição de homocedasticidade dos resíduos afeta a distribuição de probabilidades dos estimadores sem afetar, contudo, o seu valor esperado. 20 www.pontodosconcursos.com.br | Prof. Alexandre Lima ESTATÍSTICA – AUDITOR DE CONTROLE EXTERNO TCE–PA Aula 00 – Demonstrativa Prof. Alexandre Lima GABARITO 1. C 2. E 3. E 4. C 5. E 6. C 7. C 8. E 9. C 10. E 11. C 12. E 13. C 14. E 15. C 16. C 17. C 18. C 21 www.pontodosconcursos.com.br | Prof. Alexandre Lima