CENTRO UNIVERSITÁRIO UNA PRÓ-REITORIA DE PÓS-GRADUAÇÃO Pós-Graduação latu sensu em Engenharia de Produção ESTATÍSTICA APLICADA (20 hs) Belo Horizonte - 2011 Disciplina: Estatística Aplicada Prof.: Kerley Alberto Pereira de Oliveira [email protected] PLANO DE CURSO DISCIPLINA: Estatística Aplicada PROFESSOR: Kerley Alberto Pereira de Oliveira OBJETIVO DA DISCIPLINA: Fornecer aos alunos o instrumental estatístico básico necessário para o tratamento, análise e inferência de dados nas diversas áreas de atuação da engenharia de produção; controle de qualidade, planejamento e controle produção, pesquisa operacional, estudos de tempos e métodos etc. RESULTADOS ESPERADOS: espera-se o entendimento do aluno em relação as técnicas estatísticas apresentadas. Uma compreensão do aluno tanto na parte prática quanto teórica. EMENTA CARGA HORÁRIA Estatística Descritiva; Amostragem; Estimação de Parâmetros; Teste de Hipóteses; Teste de Aderência; Correlação e Regressão; Análise de Variância. 20 horas PLANO DE AULA Data Conteúdo a ser Abordado 19/07 Estatística Descritiva 03/10 Amostragem; Estimação de parâmetros Metodologia a ser Utilizada Aula expositiva; estudo de casos; exercícios individuais e em grupo. Aula expositiva; estudo de casos; exercícios individuais e em grupo. Aula expositiva; estudo de casos; exercícios individuais e em grupo. 10/10 Correlação e Regressão; Análise Aula expositiva; estudo de casos; exercícios individuais e em grupo. de Variância 05/10 Teste de Hipóteses; Teste de Aderência 17/10 Prova Prova Exercícios e estudos de caso 50 Avaliação Final 50 Pós de Engenharia de Produção - Estatística Total 100 2 ORIENTAÇÕES: Durante as realizações das aulas serão utilizados recursos computacionais. (Excell). BIBLIOGRAFIA BÁSICA 1. Apostila – Estatística Aplicada – Curso de Pós-Graduação (latu sensu) em Engenharia de Produção. Centro Universitário UNA. Autoria de: OLIVEIRA, Fernando Luiz Pereira de. Adaptações de: OLIVEIRA, Kerley Alberto Pereira de. Belo Horizonte, MG. 2011. BIBLIOGRAFIA COMPLEMENTAR 1. ANDERSON, Davi R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A.; PAIVA, Luis Sérgio de Castro (Org.). Estatística aplicada à administração e economia. 2 ed. São Paulo: Pioneira Thompson, 2002. 2. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 1 ed. São Paulo: Atlas 2007. 3. COSTA, Sérgio Francisco. Introdução Ilustrada à Estatística. 4 ed. São Paulo: Harbra, 2005. 4. LEVINE, David M. Estatística: teoria e aplicação utilizando o Microsoft Excel em português. Rio de Janeiro: LTC. 2005. 5. TRIOLA, M. F. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC 2008. Pós de Engenharia de Produção - Estatística 3 Kerley Alberto Pereira de Oliveira Curriculum Vitae Resumido ______________________________________________________________________ Trabalhou durante 10 anos na Força Aérea Brasileira como Especialista e Instrutor em Manutenção Aeronáutica e Segurança de Vôo. Habilitado pela ANAC para grupo Aviônicos. Graduado em Física pela Universidade Federal de Minas Gerais. Mestre em Ciência e Tecnologia das Radiações, Minerais e Materiais pelo Centro de Desenvolvimento da Tecnologia Nuclear/Comissão Nacional de Energia Nuclear (área de concentração: Análise de Risco Ambiental). Doutorando em Saneamento, Meio Ambiente e Recursos Hídricos pela Escola de Engenharia da UFMG. Coordenador dos Cursos Superiores de Tecnologia em Pilotagem Profissional de Aeronaves, Manutenção de Aeronaves e Transporte Aéreo do Centro Universitário Una – UnaTec. Coordenador do Curso de Pós-Graduação em Gestão Ambiental do Uni-BH. É professor de Física no Centro de Instrução e Adaptação da Aeronáutica/PUC Minas, Faculdade Pitágoras e UnaTec. Professor de Estatística da Pós-Graduação em Engenharia de Produção do Centro Universitário Una. Ministra disciplina de Análise e Gestão de Riscos na PósGraduação em Gestão Ambiental da Faculdade SENAC e na Pós-Graduação em Engenharia Ambiental Integrada do IETEC. Pertence a grupo de trabalho da Comissão Nacional de Energia Nuclear atuando nas áreas de avaliação e mitigação de riscos e impactos ambientais. Possui artigos publicados em revistas e anais de congressos nacionais e internacionais. É Revisor convidado do Journal of Environmental Management, sócio fundador da EcoQuality Soluções e consultor credenciado junto ao SEBRAE-MG. ______________________________________________________________________ Endereço eletrônico: [email protected] Web site: GrupoKerley.webnode.com.br Pós de Engenharia de Produção - Estatística 4 ÍNDICE I. INTRODUÇÃO, CONCEITOS E DEFINIÇÕES II. TÉCNICAS DE AMOSTRAGEM I III. APRESENTAÇÃO DE DADOS – REPRESENTAÇÃO GRÁFICA IV. MEDIDAS ESTATÍSTICAS – TENDÊNCIA CENTRAL V. MEDIDAS ESTATÍSTICAS – DISPERSÃO OU VARIABILIDADE VI. MEDIDAS ESTATÍSTICAS – POSIÇÃO VII. INTRODUÇÃO À PROBABILIDADE VIII. TÉCNICAS DE AMOSTRAGEM II IX. TESTES DE HIPÓTESES X. MEDIDAS DE ASSOCIAÇÃO LINEAR ENTRE DUAS VARIÁVEIS XI. INTRODUÇÃO AO MODELO DE ANÁLISE DE REGRESSÃO LINEAR SIMPLES Pós de Engenharia de Produção - Estatística 5 I. INTRODUÇÃO, CONCEITOS E DEFINIÇÕES Por que estatística é importante? Porque nos permite entender e lidar com a noção de variabilidade. Um exemplo típico é: • produção de parafusos. Uma fábrica produz parafusos, que devem ter seu diâmetro dentro de certas especificações. Ao medirmos o diâmetro de 100 parafusos produzidos ao acaso existirão variações individuais. Estas variações são importantes? Até que ponto as variações observadas são aceitáveis? Em geral um número em Estatística não é apenas um número! A ele associamos uma medida de incerteza ou variabilidade. A Estatística aplicada à engenharia é um ramo da estatística que estuda as suas aplicações à engenharia, onde o maior uso seja talvez no controle de processos de produtos e serviços. Mas também é usada, por exemplo, no planejamento de novas estratégias de produção, vendas, etc. Existe uma preocupação da Estatística aplicada à Engenharia que se localiza no Controle de Processos e Manufatura, analisando distribuições e lotes para padrões de qualidade nos produtos. Por exemplo, para a Engenharia de Alimentos, há certa estatística na Análise Sensorial, para observar a aceitação de um produto manufaturado em relação ao público. A estatistica é aplicada na produção para acompanhar a estabilidade dos processos, esta estabilidade é analisada por cartas de acompanhamento conhecida como cartas de controle estatistico de processo. Também se utiliza a estatistica para analisar ensaios tanto destrutivos como não destrutivos, verificando a porcentagem de peças não conforme ou probabilidade de vida de equipamentos ou peças. Utiliza-se estatistica em calibração de equipamentos de medição e na analise dos mesmos, também na verificação da condição de uso dos meios de medição. Conceito de Variável Especificação de valores coletados. É uma grandeza que não possui qualificação ou quantificação fixa, ou seja, pode ser qualificada ou quantificada de formas diferentes. Pós de Engenharia de Produção - Estatística 6 Tipos de Variável • Variável Qualitativa: não podem ser operadas algebricamente. Ex.: cor de cabelo, marca, escolaridade etc... • Variável Quantitativa: podem ser operadas algebricamente. Ex.: idade, altura, salário, peso etc... Em nossa cultura, não é elegante tratar de assuntos que envolvam variáveis quantitativas, principalmente com uma Dama. Por exemplo, não é educado perguntar sobre a idade das pessoas, altura, peso, salário etc. Contudo, não há problema em se perguntar a cor dos olhos, o tipo de cabelo, a marca do carro...só não pode perguntar o quanto custou. Muitos experimentos produzem resultados não-numéricos. Antes de analisá-los é conveniente transformar seus resultados em números. Um exemplo muito usado são as escalas de Likert: O formato típico de um item Lidert é: Concordo totalmente . . . . . . . Discordo totalmente 1. não concordo veementemente; 2. não concordo; 3. indiferente; 4. concordo; 5. concordo totalmente. População x Amostra Inferir significa generalizar com parte do todo (amostra) tentando entender o próprio todo (população). População é qualquer conjunto de informações que tenham, entre si, uma característica (variável) comum. Ex.: o conjunto de todas as cores de olhos constitui uma população de cores de olhos. População não implica necessariamente gente ou pessoas. O que importa é a variável estudada. Você pode ter uma população de cores de flores ou marcas de carro. Pós de Engenharia de Produção - Estatística 7 Se uma população for muito grande (por exemplo, o conjunto de todas as estaturas de uma comunidade), o pesquisador poderá ter um trabalho astronômico para estudá-la. Nesses casos, recorre-se a uma AMOSTRA, que, basicamente, constitui em uma redução da população a dimensões menores, SEM PERDA DAS CARACTERÍSITCAS ESSENCIAIS. Uma amostra, para ser BOA, tem de ser REPRESENTATIVA, ou seja, deve conter em proporção tudo o que a população possui QUALITATIVA e QUANTITATIVAMENTE. E precisa ser IMPARCIAL, isto é, todos os elementos da população devem ter IGUAL OPORTUNIDADE de fazer parte da amostra. A partir de uma amostra representativa da população pode-se dar origem a diversas relações estatísticas como, por exemplo, média, mediana, moda, variância etc. Essas relações estatísticas possibilitam descrever, sob diversos ângulos, o conjunto de dados representado pela amostra. Por essa razão, o estudo dessas relações pertence ao campo da ESTATÍSTICA DESCRITIVA. Contudo, o interesse do pesquisador está voltado para a população da qual se originou a amostra. Ele estuda as características da amostra, isto é, calcula as relações estatísticas) com o objetivo de TRANSFERIR, de GENERALIZAR suas CONCLUSÕES para a população. A parte da estatística que se interessa pelas GENERALIZAÇÕES, ou seja, pelas TRANSFERÊNCIAS DE CONCLUSÕES das amostras para as populações, chama-se ESTATÍSTICA INFERENCIAL. Na transferência de suas conclusões (da amostra para a população), o pesquisador vale-se de um poderoso recurso que é a TEORIA DAS PROBABILIDADES. Essa teoria permite AVALIAR E CONTROLAR o TAMANHODO ERRO (INCERTEZA) que ele estará cometendo ao fazer GENERALIZAÇÕES (INFERÊNCIAS). Mas se existe a probabilidade de ocorrência de incertezas quando se usa uma amostra, por que então não se usa sempre a população? Simplesmente por que, nem sempre é viável ou possível usar a população. Por exemplo: Pós de Engenharia de Produção - Estatística 8 • Um médico precisa avaliar as condições de seu sangue. Você vai a um laboratório e retiram de você uma amostra de sangue. Por que usaram uma amostra e não a população? • Um agrônomo precisa avaliar as condições do solo de uma área que será usada para plantio. Ele retira uma amostra do solo e envia para um laboratório. Por que usaram uma amostra e não a população? • Existem indícios de que um rio esteja contaminado. Só existe uma forma de se chegar a uma conclusão. Retira-se uma amostra de água do rio que é enviada para um laboratório. Por que usaram uma amostra e não a população? • Prévias para eleições. Por que usaram uma amostra e não a população? O uso de uma amostra também pode ser útil quando o processo de pesquisa é destrutivo. Por exemplo, se tivermos uma população de fósforos e quisermos avaliar a porcentagem de falhas. Para pensar:...Todo – mais caro, mais tempo, mais confiável....Amostra – mais barato, mais rápido mas envolve incertezas...o que fazer? Deve-se colocar na balança e avaliar o custo-benefício. “Você deseja uma válvula que não vaze e faz todo o possível para desenvolvê-la. Mas no mundo real, só existem válvulas que vazam. Você tem que determinar o grau de vazamento que pode tolerar” Wernher von Braun EXERCÍCIOS 1- Uma agência do estado classifica a ocupação dos trabalhadores como profissional liberal, funcionário e operário. No registro de dados, 1 denota o profissional liberal, 2 o funcionário e 3 o operário. Identifique a variável de interesse e qualifique como quantitativa ou qualitativa. 2- Um levantamento jornalístico argüiu 2013 adultos: “você está satisfeito com a situação da economia do país hoje?”. As categorias das respostas eram insatisfeito, satisfeito e indeciso. a) Qual a variável de interesse desse estudo? Pós de Engenharia de Produção - Estatística 9 b) Qual a população alvo desse estudo? c) Nesse estudo trabalhou-se com a população ou com uma amostra? Por que? d) Qual foi o tamanho da população ou amostra para essa pesquisa? e) Os dados coletados eram qualitativos ou quantitativos? f) Para um resumo dos dados para esta questão, faria sentido usar a média ou a porcentagem? g) Dos que responderam, 28% disseram que estavam insatisfeitos com a situação. Quantos indivíduos forneceram esta resposta? 3- Declare se cada uma das seguintes variáveis é qualitativa ou quantitativa a) idade b) gênero c) classe social d) marca de automóvel e) número de pessoas favoráveis à pena de morte f) vendas anuais g) tamanho dos refrigerantes (pequeno, médio, grande) h) ganhos por ação i) método de pagamento (à vista, com cheque, com cartão) 4- O seguinte conjunto de dados fornece um quadro do desempenho financeiro de uma empresa. Ano 1993 1994 1995 1996 Ganho por 2,78 2,13 3,41 3,83 11,87 12,57 13,43 14,92 1,51 1,17 1,89 2,12 14,35 10,98 12,67 13,98 ação Renda (bilhões) Renda líquida (bilhões) Valor nominal por ação Pós de Engenharia de Produção - Estatística 10 a) Quantas variáveis existem na tabela b) Os dados são qualitativos ou quantitativos 5- Uma empresa está interessada em testar a eficácia da propaganda de um novo comercial de TV. Como parte do teste, o comercial é mostrado em um programa de notícias locais às 18h30min. Dois dias mais tarde, uma firma de pesquisa de mercado realizou um levantamento telefônico para obter informações sobre os índices de respostas (porcentagens de espectadores que responderam vendo o comercial) e impressão sobre o comercial. a) Qual é a população desse estudo b) Qual é a amostra para esse estudo c) Por que se usaria uma amostra nessa situação? Explique. II. TÉCNICAS DE AMOSTRAGEM Amostragem x Amostra Amostragem é uma ferramenta que permite a você analisar um subconjunto de uma população, objetivando levantar informações sobre os fatos relativos a esse subconjunto, com a intenção de inferir o comportamento da população. A amostra é um número limitado de informações tirada de um conjunto da mesma natureza denominado população. Amostra é uma parte, um subconjunto de um espaço amostral. Uma amostra deverá reunir as características básicas de uma população. A importância de uma amostra está na avaliação de grandezas desconhecidas de uma população e a qualidade desta avaliação depende basicamente da representatividade da amostra e a representatividade de uma amostra depende da sua capacidade de reproduzir as características básicas da sua população. Falamos de população em termos de pessoas, mas, na realidade, ela se refere ao conjunto total de objetos que você está estudando – todos os alunos de uma escola, todos os funcionários de uma empresa, Pós de Engenharia de Produção - Estatística 11 todas as garrafas de vinho, todos os carros produzidos por uma fábrica, e assim por diante. Muito provavelmente você não será capaz de entrevistar toda uma população de pessoas ou examinar todo um conjunto de objetos, então você se orienta por um pequeno grupo retirado desta população/conjunto. Você vai inferir o comportamento da população com base nos resultados descritos da sua amostra. Uma amostra é uma parte integrante de uma população e a diferença básica entre os conceitos de amostra e população é que a amostra representa uma parte do todo, enquanto a população representa o todo. Uma amostra é considerada parte representativa da população se ela tiver a propriedade de absorver todas as características da população e se as características da população estiverem nela contidas, as conclusões a respeito desta amostra podem ser consideradas como conclusões da respectiva população. Mas à medida que o tamanho da amostra for crescendo, tais informações vão se tornando cada vez mais verdadeiras. Diversos fatores justificam os trabalhos com amostras, no lugar de estudar a respectiva população, entre os quais, destacam-se: Custo: as despesas com a operacionalização estatística da população são geralmente bem maiores que com a averiguação de uma amostra. Velocidade: as pesquisas realizadas com amostras são mais rápidas, em virtude de conter um menor número de unidades. Praticabilidade: conforme o próprio conceito, às vezes, a dimensão da população torna as pesquisas impraticáveis. Experimento Aleatório Os experimentos aleatórios são aqueles cujos resultados não são sempre os mesmos, apesar de se repetirem, várias vezes, em condições semelhantes. Estes experimentos são aqueles que apresentam resultados imprevisíveis. O lançamento de moedas e dados, bem como sorteios e extrações lotéricas são fenômenos aleatórios. Alguns experimentos aleatórios poderão ser repetidos sob as mesmas condições indefinidamente. O experimento apresenta vários resultados não sendo possível afirmar, com antecedência, qual será sua determinação antes que o mesmo tenha sido realizado. Antes do lançamento de um dado, não podemos dizer qual será o resultado, mas somos capazes Pós de Engenharia de Produção - Estatística 12 de enumerar todos os resultados. Uma característica importante de alguns experimentos é a sua possibilidade de repetição contínua, mantidas as mesmas condições iniciais. Amostragem Aleatória É uma técnica que visa selecionar os integrantes de uma amostra de tal forma que cada elemento de uma população tem a mesma probabilidade de ser incluído na amostra. Amostragem Aleatória Simples A amostragem aleatória simples é um processo que visa selecionar amostras de tamanho n entre os N elementos da população. Este processo garante a mesma chance para cada um dos elementos desta população. A adoção da técnica da amostragem aleatória simples pressupõe uma população homogênea, em relação ao característico de interesse. A amostragem aleatória simples é um processo muito empregado e o procedimento para a formação da amostra será sempre a escolha aleatória, a escolha cega, o sorteio. Sempre tendo-se em mente que o pesquisador não pode influenciar nos resultados. Amostragem Aleatória Proporcional Estratificada Este processo é utilizado quando se percebe que a população pode ser dividida em subconjuntos distintos, grupos distintos, estratos que podem possuir diferentes idéias sobre o fato em análise: população heterogênea. A participação de cada estrato em uma amostra será igual à sua participação em sua população. Exemplo 1) Em um auditório, temos 70 homens e 30 mulheres. Os homens participam desta população com 70% e as mulheres com 30%. Para selecionar uma amostra aleatória estratificada de 10 pessoas, 70% deverão ser homens e 30% de mulheres. ( 7H e 3 M). A seleção deverá ser feita por meio de sorteio. A população foi dividida em dois estratos: homens e mulheres. Pós de Engenharia de Produção - Estatística 13 Amostragem Aleatória Sistemática A amostragem sistemática consiste em selecionar aleatoriamente um número inicial “a” e depois selecionar cada item da população dentro de um certo intervalo. O processo consiste na definição de uma progressão aritmética: a, a + r, a + 2r, a + 3r, ... , a + nr. Calcula-se o intervalo de amostragem: h = N/n e faz-se “r” igual à parte inteira de h. Exemplo 2) Uma população é formada de 30 itens e desejamos formar amostras com 6 itens. O valor de h será 30/6 = 5. O valor da razão “r” será 5. Sorteia-se um número entre 1 a 5. Por exemplo o número 4, então a = 4. A amostra será formada pelos valores que se colocarem nas posições: 4º, 9º, 14º, 19º, 24º e 29º elemento. Se o número sorteado de 1 a 5 fosse o 3, então a = 3 e a amostra seria formada pelos números que estiverem nesta ordem: 3º, 8º, 13º 18º, 23º e 28º número. Exemplo 3) Uma população é formada por 400 alunos do Curso de Administração, 300 do Curso de Contábeis, 200 do Curso de Computação e 100 do Curso de Turismo. Retirando-se uma amostra estratificada proporcional de 100 alunos, teremos 40 alunos de administração, 30 alunos de contábeis, 20 alunos de computação e 10 de turismo. Observe que os cursos são os estratos e a proporcionalidade de cada curso define o percentual de cada estrato que fará parte da amostra. Exemplo 4) Em fevereiro deste ano, levantamos as vendas diárias da Empresa Sulminas, no período de 10 de janeiro a 20 de fevereiro, reunindo 36 dias úteis e seis semanas, em Belo Horizonte. Os valores estão explícitos em reais. 116 146 136 119 106 118 118 153 143 122 120 122 116 139 127 106 145 129 120 122 130 117 117 127 146 133 124 141 133 131 144 146 133 141 124 141 Pós de Engenharia de Produção - Estatística 14 a) Extrair uma amostra aleatória estratificada proporcional com nove elementos, sem reposição. Em primeiro lugar, vamos dividir este universo, por exemplo, em 3 estratos e depois de identificados os números que compõem cada estrato, faremos a divisão proporcional em razão do tamanho da amostra. Nesta amostragem, estaremos tentando dividir as vendas diárias em três partes ou estratos. Estrato A _ vendas diárias realizadas abaixo de 126,00 reais. Neste intervalo, vamos relacionar as vendas diárias cujos valores são de: 116, 119, 106, 118, 118, 122, 120, 122, 116, 106, 120, 122, 117, 117, 124, 124. Estrato B _ vendas diárias realizadas de 126,00 a 135,00 reais. Neste intervalo, vamos relacionar as vendas diárias cujos valores são de: 127, 128, 130, 127, 133, 133, 131, 133. Estrato C _ vendas diárias realizadas acima de 135,00 reais. Neste intervalo, vamos relacionar as vendas diárias cujos valores são de: 146, 136, 153, 143, 139, 145, 146, 141, 144, 146, 141, 141. Estes valores deverão ser enumerados, no estrato A, de 1 a 16, no estrato B, de 17 a 24 e no estrato C, de 25 a 36. Para sabermos quantos elementos serão retirados de cada estrato, usaremos uma regra de três para a divisão proporcional. O tamanho da população está para o da amostra, assim como o tamanho de cada estrato está para X que será a quantidade de valores deste estrato que vai compor a amostra. Extraindo uma amostra com nove vendas No estrato A, temos 16 vendas e vamos selecionar quatro vendas diárias: Na = 16 x 9 / 36 = 4 vendas. No estrato B, temos 8 vendas e vamos selecionar duas vendas diárias: Nb = 8 x 9 / 36 = 2 vendas. No estrato C, temos 12 vendas e vamos selecionar três vendas diárias: Nc = 12 x 9 /36 = 3 vendas. Para compor a amostra, selecionamos quatro vendas diárias do estrato A, duas vendas diárias do estrato B e três vendas do estrato C. Se a amostra fosse de doze vendas, deveríamos selecionar 16 x 12 / 36 = 5 vendas do estrato A; 8 x 12 / 36 = 3 vendas do estrato B e 12 x 12 / 36 = 4 vendas do estrato C. Pós de Engenharia de Produção - Estatística 15 Exemplo 5) Realizou-se, em janeiro deste ano, uma pesquisa envolvendo diversos diretores de empresa, em Belo Horizonte, encontrando-se os salários abaixo, explícitos em mil reais. 4,2 4,6 4,9 5,7 4,3 4,6 4,1 4,7 5,6 4,2 4,9 4,7 3,9 4,0 3,9 5,0 4,6 4,3 4,8 4,2 5,6 5,6 4,9 4,3 4,7 4,9 4,0 4,3 a) Construir uma amostra aleatória simples, sem reposição, com oito salários. Em primeiro lugar vamos enumerar os salários, na ordem em que eles apresentam, e em segundo lugar vamos realizar o sorteio, sem reposição, para definir os salários que vão compor a amostra. Um sorteio poderá ser feito com ou sem reposição. Com reposição, o salário de uma pessoa pode entrar na amostra vários vezes e sem reposição, o salário desta pessoa pode entrar na amostra apenas uma vez. Se a amostragem for com reposição, registram-se as repetições; se for sem reposição, abandonam-se as repetições. Após enumerar todos os salários, vamos supor que os salários sorteados foram: 3º, 7º, 11º, 15º, 21º, 25º, 26º e o 28º. Então a nossa amostra será formada pelos salários: 4,9; 4,1; 4,9; 3,9; 5,6; 4,7; 4,9; e 4,3. Observe que o salário de 4,9 mil reais foi repetido três vezes mas as pessoas são distintas. Não podemos repetir a pessoa, mas os valores sim. III. APRESENTAÇÃO DE DADOS – REPRESENTAÇÃO GRÁFICA Distribuição de Freqüência Ao estudarmos grandes conjuntos de dados, é conveniente organiza-los e resumi-los, construindo uma Tabela de Freqüências. Esta relaciona categorias (ou classes) de valores, juntamente com contagens (ou freqüências) do número de valores que se enquadram em cada categoria. Exemplo: Pós de Engenharia de Produção - Estatística 16 É praticamente inviável tirar conclusões diretamente baseadas em um grande número de dados. Assim, se o número de dados for muito grande, digamos superior a 25, é de toda conveniência que eles sejam organizados e/ou condensados previamente. O propósito desta seção é desenvolver métodos para apresentar dados, de modo a facilitar sua interpretação. Em uma tabela de distribuição de freqüência, os dados podem ser agrupados em classes. A determinação do tamanho e da quantidade de classes deve observar as seguintes normas: • as classes devem abranger todas as observações, • o extremo superior de uma classe é o extremo inferior da classe subseqüente, • cada valor observado deve enquadrar-se em apenas uma classe, • a quantidade de classes, em geral, não deve ser inferior a 5 ou superior a 15. Uma fórmula de se determinar um número razoável, k, de classes consiste em aplicar a fórmula de Sturges, que sugere o cálculo de k mediante a expressão: k = 1 + Log2 n = 1 + Log n =1 +3,32Log n Log 2 Uma outra forma de se calcular o valor de k consiste em tomar a raiz quadrada de n, assim, k= n . Pós de Engenharia de Produção - Estatística 17 Após definir o número de classes, é necessário verificar qual é o maior e o menor valor do conjunto de dados, para que possamos calcular a amplitude, que consiste na diferença entre estes dois valores. De posse do valor k e da amplitude, iremos encontrar a amplitude de classe, que é a divisão da amplitude pelo número de classes. Anteriormente à apresentação de um exemplo, devemos definir alguns termos: • amplitude é a diferença entre o maior e o menor valor do conjunto de dados, • xi é o ponto médio da i-ésima classe, é a média dos pontos extremos da classe, • n é a quantidade total de observações n = ∑ n i , • ni é a quantidade de observações, ou freqüência, da i-ésima classe, n • fi é a freqüência relativa da classe f i = i , n • Ni é a freqüência acumulada até a i-ésima classe e indica a quantidade de i observações inferiores ao limite superior da classe N i = ∑ n j , j =1 • Fi é a freqüência relativa acumulada até a i-ésima classe e indica a quantidade i de observações relativas inferiores ao limite superior da classe Fi = ∑ f j . j =1 Exemplo 1 (Dados contínuos): Construa uma tabela de distribuição, para as seguintes alturas, expressas em centímetros, de 30 atletas do sexo masculino de uma universidade: 168 172 170 181 169 173 164 175 182 177 176 173 170 186 183 170 168 166 169 180 175 164 181 179 172 169 174 171 178 166 1º passo: colocar os dados em ordem crescente 164 164 166 166 168 168 169 169 169 170 170 170 171 172 172 173 173 174 175 175 176 177 178 179 180 181 181 182 183 186 Pós de Engenharia de Produção - Estatística 18 2º passo: calcular da amplitude (maior valor – menor valor): 186 – 164 = 22 3º passo: calcular do número de classes: k = n = 30 = 5,47 ≈ 5 4º passo: calcular da amplitude de classe = amplitude 22 = = 4,40 ≈ 5 número de classe 5 Observação: O arredondamento no cálculo da amplitude de classe deve ser sempre para cima, para evitar que alguma observação da amostra fique fora da tabela de distribuição. 5º passo: definir o limite inferior da primeira classe: 162 Observação: O limite inferior da primeira classe deve ser inferior ao menor valor observado da amostra, e o limite superior da última classe deve ser superior ao maior valor observado da amostra. 6º passo: definir os intervalos (extremos) das classes: 1ª) 162 a 167; 2ª) 167 a 172; 3ª) 172 a 177; 4ª) 177 a 182; 5ª) 182 a 187 Observação: Os intervalos são definidos somando o limite inferior da primeira classe mais a amplitude da classe, o valor encontrado desta soma mais a amplitude da classe, . . ., até completar todos os intervalos das classes. 7º passo: calcular a média de cada classe (xi): 1ª) 164,5; 2ª) 169,5; 3ª) 174,5; 4ª) 179,5; 5ª) 184,5 8º passo: contar a freqüência de observações em cada classe (ni) e calcular a freqüência relativa (fi) 9º passo: calcular a freqüência acumulada (Ni) e a freqüência relativa acumulada (Fi) 10º passo: apresentar a tabela de freqüência Observação: Deve estar contido na apresentação da tabela: título ou referência da tabela e a fonte dos dados. Pós de Engenharia de Produção - Estatística 19 Distribuição de freqüência das alturas de atletas Classe (cm) xi ni fi Ni Fi 162 167 164,5 4 0,13 4 0,13 167 172 169,5 9 0,30 13 0,43 172 177 174,5 8 0,27 21 0,70 177 182 179,5 6 0,20 27 0,93 182 187 184,5 3 0,10 30 1,00 Fonte: Dados Hipotéticos Exemplo 2 (dados discretos): Construa uma tabela de distribuição, para as idades de estudantes que concluíram o 2º grau em uma escola estadual: 17 18 18 25 19 19 20 18 18 17 18 18 21 19 18 19 17 18 20 18 21 18 18 20 20 19 23 18 18 25 18 17 17 17 18 18 17 21 18 18 17 23 24 18 18 19 19 18 17 18 Pode-se construir a tabela de distribuição de freqüência da seguinte forma: Distribuição de freqüência da idade de conclusão 2º grau Classe ni fi Ni Fi 17 9 0,18 9 0,18 18 22 0,44 31 0,62 19 7 0,14 38 0,76 20 4 0,08 42 0,84 21 3 0,06 45 0,90 22 0 0,00 45 0,90 23 2 0,04 47 0,94 24 1 0,02 48 0,96 25 2 0,04 50 1,00 Fonte: Dados Hipotéticos Ou construir a tabela de distribuição de freqüência da seguinte forma: Pós de Engenharia de Produção - Estatística 20 Exemplo 2: Distribuição de freqüência da idade de conclusão 2º grau Classe ni fi Ni Fi 17 – 18 31 0,62 31 0,62 19 – 20 11 0,22 42 0,84 21 – 22 3 0,06 45 0,90 23 – 24 3 0,06 48 0,96 25 2 0,04 50 1,00 Fonte: Dados Hipotéticos Pode-se verificar que a segunda tabela de freqüência feita para estes dados não está representando os dados de forma tão satisfatória quanto a primeira tabela. Este exemplo procura demonstrar que deve haver um bom senso na escolha que quantas classes devem-se utilizar, pois a sua má escolha pode implicar em grandes perdas de informação, que poderiam ser valiosas para analise e conclusões futuras. Exemplo 3 (Dados qualitativos): Construa uma tabela de distribuição supondo que o orçamento, em milhões de reais, de um estado tenha sido elaborado com as seguintes destinações de verbas: Administração Educação Saúde Obras Públicas Segurança 47,5 70,0 75,0 45,0 12,5 Podemos construir a tabela de distribuição de freqüência da seguinte forma: Distribuição de freqüência do orçamento do estado Classe ni fi Ni Fi Administração 47,5 0,19 47,5 0,19 Educação 70,0 0,28 117,5 0,47 Saúde 75,0 0,30 192,5 0,77 Obras Públicas 45,0 0,18 237,5 0,95 Segurança 12,5 0,05 250,0 1,00 Fonte: Dados Hipotéticos Pós de Engenharia de Produção - Estatística 21 Exercício 1: Observaram-se os 50 valores seguintes de diâmetros, em centímetros, de certa peça circular fabricada por uma indústria. Construa a distribuição de freqüência, utilizando-se de 5 e 10 classes. 1,845 1,823 1,840 1,853 1,815 1,838 1,843 1,840 1,865 1,830 1,828 1,838 1,820 1,810 1,833 1,843 1,858 1,850 1,840 1,835 1,840 1,855 1,838 1,848 1,855 1,813 1,830 1,833 1,845 1,838 1,820 1,850 1,835 1,830 1,830 1,833 1,835 1,845 1,825 1,860 1,835 1,848 1,828 1,830 1,860 1,812 1,814 1,823 1,827 1,835 Representação Gráfica Uma imagem vale por mil palavras os objetivos dos gráficos não envolvem gastar o azul ou o vermelho do seu cartucho colorido, o objetivo verdadeiro é transmitir informação. Assim, quanto mais simples, melhor! Os gráficos são representações pictóricas dos dados, muito valiosas na visualização dos resultados. Os principais tipos de gráficos usados na representação estatística são: • Histograma e Polígono de Frequência • Ogiva • Gráfico em Barras (ou em colunas) • Gráfico de Pontos • Gráfico em Setores (pizza) • Gráfico em Linha Histograma e Polígono de freqüência: São utilizados para representar a distribuição de freqüência. O histograma é um conjunto de retângulos com bases sobre um eixo dividido de acordo com os tamanhos de classe, centros nos pontos médios das classes e áreas proporcionais às freqüências. Um polígono de freqüência é um gráfico que se obtém unindo por uma poligonal os pontos correspondentes às freqüências das diversas classes, centradas nos respectivos pontos médios. Pós de Engenharia de Produção - Estatística 22 Exemplo 1: Construa o histograma e o polígono de freqüência das freqüências absolutas da tabela abaixo: Alturas de Atletas Classe (cm) xi ni fi Ni Fi 162 167 164,5 4 0,13 4 0,13 167 172 169,5 9 0,30 13 0,43 172 177 174,5 8 0,27 21 0,70 177 182 179,5 6 0,20 27 0,93 182 187 184,5 3 0,10 30 1,00 Fonte: Dados Hipotéticos Exemplo 1: Histograma e Polígono de Freqüência Ogiva: É o gráfico representativo de uma distribuição acumulada de freqüências. Consta de uma poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe e no eixo vertical as freqüências acumuladas Exemplo 2: Construa o gráfico ogiva das freqüências absolutas da tabela de freqüência do exemplo 1: Pós de Engenharia de Produção - Estatística 23 Exemplo 2: Altura de Atletas Observação: O polígono de freqüências utiliza-se dos pontos médios, e o gráfico ogiva utiliza-se dos pontos extremos. Gráfico em Barras (em colunas): Por vezes os dados consistem em contagens com dados discretos, e que o número de valores distintos não é grande, constrói-se uma distribuição de freqüência utilizando os próprios valores individuais como “classes”, em lugar de intervalos de classes. Gráfico também utilizado para dados categóricos. Exemplo 3: Construa o gráfico de barras das freqüências absolutas da tabela abaixo: Idade de Conclusão 2º Grau Classe ni fi Ni Fi 17 9 0,18 9 0,18 18 22 0,44 31 0,62 19 7 0,14 38 0,76 20 4 0,08 42 0,84 21 3 0,06 45 0,90 22 0 0,00 45 0,90 23 2 0,04 47 0,94 24 1 0,02 48 0,96 25 2 0,04 50 1,00 Fonte: Dados Hipotéticos Pós de Engenharia de Produção - Estatística 24 Idade de Conclusão 2º Grau 25 20 15 10 5 0 17 18 19 20 21 22 23 24 25 Exemplo 3: Gráfico em Barras Exemplo 4: Construa o gráfico de barras das freqüências relativas da tabela abaixo: Orçamento de Estado Classe ni fi Ni Fi Administração 47,5 0,19 47,5 0,19 Educação 70,0 0,28 117,5 0,47 Saúde 75,0 0,30 192,5 0,77 Obras Públicas 45,0 0,18 237,5 0,95 Segurança 12,5 0,05 250,0 1,00 Fonte: Dados Hipotéticos Pós de Engenharia de Produção - Estatística 25 Orçamento Estadual 28% 0,30 Orçamento Estadual 30% Segurança 0,25 0,20 5% 18% Obras Públicas 19% 18% 30% Saúde 0,15 0,10 28% Educação 5% 0,05 19% Administração 0,00 Administração Saúde Segurança Educação Obras Públicas 0,00 0,10 0,20 0,30 Exemplo 4: Gráfico em Barras Gráfico de Pontos: Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas, e grafando-se as respectivas freqüências como pontos acima da reta. Exemplo 5: Construa o gráfico de pontos da tabela de distribuição de freqüência do exemplo 3: Idade de Conclusão do 2º Grau Pós de Engenharia de Produção - Estatística 26 Exemplo 5: Gráfico de Pontos Gráfico em Setores: Este gráfico é construído tomando-se um círculo (360 graus), que se divide em setores com áreas proporcionais às freqüências das diversas categorias. Utilizado para representar dados categóricos. Exemplo 6: Construa o gráfico de setores da tabela de distribuição de freqüência do exemplo 4: Orçamento Estadual 18% 5% 19% 28% 30% Administração Saúde Segurança Educação Obras Públicas Exemplo 6: Gráfico de Setores Gráfico em Linha: É um dos mais importantes gráficos, pois representa observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. Pós de Engenharia de Produção - Estatística 27 Exemplo 7: Construa o gráfico de linhas da seguinte tabela de distribuição: Exemplo 7: Consumo Mensal de Luz Mês / 98 Consumo(Kwh) Mês / 99 Consumo(Kwh) Mês / 00 Consumo(Kwh) 4 145 1 251 1 261 5 183 2 146 2 151 6 179 3 143 3 211 7 220 4 170 4 300 8 230 5 245 5 278 9 204 6 256 6 317 10 230 7 250 11 208 8 279 12 244 9 208 10 292 11 247 12 285 Fonte: Dados Hipotéticos C onsum o M ensal d e Luz Consumo (Kwh) 300 250 200 150 Mês j f m a m j j a s o n d j f m a m j j a s o n d j f m Exemplo 7: Gráfico em Linhas Gráfico Ramo e Folha: Uma forma alternativa, muito simples, de fazer essa descrição é através do chamado ramo-e-folha, método criado pelo estatístico americano John Tukey. Pós de Engenharia de Produção - Estatística 28 Exemplo 8: Construa o ramo e folha dos seguintes dados: 168 172 170 181 169 173 164 175 182 177 176 173 170 186 183 170 168 166 169 180 175 164 181 179 172 169 174 171 178 166 Ramo Folha 16 44 16 66 16 88999 17 0001 17 2233 17 455 17 67 17 89 18 011 18 23 18 6 Exemplo 8: Ramo e Folha Dados Dados Quantitativos Métodos Tabulares Métodos Gráficos Dados Quantitativos Métodos Tabulares Pós de Engenharia de Produção - Estatística Métodos Gráficos 29 • Distribuição de • Gráfico em Barras • Distribuição de Freqüência • Gráficos de Dispersão Freqüência • Distribuição de Freqüência • Gráfico Pizza em • Distribuição • Histograma de Freqüência Relativa Relativa • Distribuição • Distribuição de de Freqüência Freqüência Percentual • Ogiva Percentual • Distribuição • Distribuição • Apresentação de de Freqüência de Freqüência Cumulativa Folha Ramo-e- Percentual • Distribuição de Freqüência • Diagrama de dispersão Relativa Cumulativa • Distribuição de Freqüência Percentual Cumulativa • Tabulação Cruzada Pós de Engenharia de Produção - Estatística 30 Exercícios 1.O quadro abaixo apresenta as notas dos 35 alunos de uma turma em avaliação da disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0 créditos: 7,0 13,0 12,0 15,0 3,0 15,0 17,0 10,0 17,0 7,0 10,0 18,0 15,0 12,0 10,0 12,0 11,0 11,0 11,0 16,0 15,0 10,0 12,0 11,0 10,0 12,0 13,0 12,0 18,0 16,0 12,0 13,0 15,0 18,0 10,0 Com base nesses dados, construir: a) Construir a distribuição de freqüências b) Construir o histograma c) quantos alunos conseguiram nota até 11,0 nessa avaliação? d) considerando que a média nessa avaliação é 12,0, qual a porcentagem de alunos que conseguiu alcançar ou superar a média? 2.Com o objetivo de divulgar um de seus produtos, determinada indústria entrevistou 600 pessoas para saber qual veículo de informação (jornal, rádio, revista e televisão) era mais utilizado por elas. Dentre os entrevistados, 72 preferiam jornal, 276 rádio, 42 revista e 210 televisão. Construir uma tabela relacionando os quatro veículos de informação e as freqüências absoluta e relativa. 3.Os resultados do lançamento de um dado 50 vezes foram os seguintes: 6 5 2 6 4 3 6 2 6 5 1 6 3 3 5 1 3 6 3 4 5 4 3 1 3 5 4 4 2 6 2 2 5 2 5 1 3 6 5 1 5 6 2 4 6 1 5 2 4 3 Pós de Engenharia de Produção - Estatística 31 Forme uma distribuição de freqüências e construa o histograma: A seguir, responda as perguntas abaixo: a) qual a porcentagem de vezes em que saiu um número menor que 4 b) qual a porcentagem de vezes em que o resultado do dado foi um número maior ou igual a 3? c) indique a porcentagem de vezes em que o número anotado foi par: 4. Um dado foi jogado 25 vezes, sendo obtidos os seguintes pontos: 1,5,6,5,2,2,2,4,6,5,1,1,3,4,6,2,3,3,1,6,6,5,5,4,2 Elabore um quadro com distribuição de freqüências absolutas e relativas. A seguir, construa o histograma: Observando a tabela acima , responda: a) Quantas vezes o numero 2 foi obtido no dado? b) Quantas vezes o número obtido no dado foi menor que 5? c) Qual o índice em % em que o número 6 foi obtido no dado? d) Qual o índice em % em que números maiores que 4 foram obtidos no dado? Determine: a) N: b) as freqüências relativas 5. Dada a distribuição de freqüência: xi 3 4 5 6 7 8 FA 2 5 12 10 8 3 6. O quadro mostra a distribuição de freqüências dos salários mensais (agrupados em classes) de 40 empregados de uma firma: Pós de Engenharia de Produção - Estatística 32 Salário (em reais) Número de empregados (fi) 800 | 900 4 900 | 1 000 10 1 000 | 1 100 18 1 100 | 1 200 5 1 200 | 1 300 3 a) Qual a amplitude do intervalo de classe? b) construa o histograma: c) Quantos empregados ganham menos que R$ 1 000,00 mensais? d) Qual o índice, em porcentagem, de empregados que ganham R$ 1 000,00 ou mais? e) Quantos empregados ganham entre R$ 800,00 (inclusive) e R$ 1 200,00? f) Qual o índice, em porcentagem, de empregados que ganham menos que R$1 000,00? 7.Foi realizada uma pesquisa com 40 pessoas que procuravam um carro popular usado para comprar, de modo a levantar o carro que pretendiam comprar. A pesquisa foi encomendada por um centro de vendas de carro aqui de Belo Horizonte, e apresentou os seguintes resultados: Gol Pálio Uno Corsa Sedan Ford Ka Gol Uno Ford Ka Pálio Gol Uno Uno Uno Gol Pálio Uno Pálio Corsa Sedan Gol Gol Gol Ford Ka Pálio Uno Ford Ka Ford Ka Gol Uno Uno Pálio Gol Pálio Corsa Sedan Ford Ka Pálio Gol Gol Pálio Uno Uno A partir desse levantamento, construa uma tabela com freqüência absoluta e relativa e o diagrama. Determinar o carro mais procurado e também o menos procurado: Pós de Engenharia de Produção - Estatística 33 8.Uma loja de calçados vendeu quarenta pares de tênis com a seguinte numeração: 37 39 37 33 37 41 37 35 37 35 37 39 37 33 37 41 37 35 37 35 37 39 37 33 37 39 37 35 37 35 37 39 37 33 37 39 37 35 37 35 a) construir o histograma: IV. MEDIDAS ESTATÍSTICAS – TENDÊNCIA CENTRAL Medidas de tendência central (dados não agrupados) Há diferentes maneiras de definir o centro e/ou o meio de um conjunto de dados, assim, há diferentes definições de medidas de tendência central: a média, a mediana, a moda, o ponto médio e outros. Ponto Médio: É o valor que está a meio caminho entre o maior e o menor valor observado na amostra. Sua fórmula é apresentada a seguir: Ponto Médio = maior valor + menor valor 2 Exemplo 1: Determine o ponto médio dos tempos de sobrevivência (após a posse) dos 10 primeiros presidentes americanos, em anos: 10 29 26 28 15 23 17 25 0 20 Ponto Médio = (29 + 0) / 2 = 14,5 anos Moda: É o valor que ocorre com maior freqüência no conjunto de dados. Esta estatística apresenta dois problemas básicos, pode não existir ou existir várias, e também não leva em consideração todos os dados. Exemplo 2: Na inspeção de qualidade, antes da remessa, foram examinados 15 rádios, onde a quantidade de defeitos por unidade era de: 1 0 3 4 2 1 0 3 1 2 0 1 1 0 1. Encontre a moda desta amostra. Pós de Engenharia de Produção - Estatística 34 Mo = 1 defeito (4 rádios) Média Aritmética: É o valor obtido somando-se todos os valores do conjunto de dados e dividindo-se pelo número de observações da amostra. Esta medida de tendência central é a mais utilizada. Suas principais vantagens são a utilização de todos os dados da amostra e é uma estatística que funciona bem em quase todos os métodos estatísticos. Apresenta uma desvantagem relevante, que é a forte influência de pontos extremos em seu valor. É comumente representada por x . Sua fórmula é apresentada a seguir: Média (x ) = ∑x n , onde n é o tamanho da amostra Exemplo 3: Determine média aritmética dos tempos de sobrevivência (após a posse) dos 10 primeiros presidentes americanos, em anos: 10 29 26 28 15 23 17 25 0 20 x= ∑x n i = 10 + 29 + 26 + 28 + 15 + 23 + 17 + 25 + 0 + 20 193 = = 19,3 anos 10 10 Mediana: É o valor do meio do conjunto de dados, quando este se encontra em ordem crescente ou decrescente. A Mediana é comumente utilizada porque se trata de uma boa escolha quando há alguns valores extremos. A restrição a seu respeito é por não levar em consideração todos os dados. É comumente representada por ~ x . A duas formas de encontrar a média quando o conjunto ordenado ter uma quantidade par de valores ou ímpar. Exemplo 4: Determine a mediana dos pagamentos realizados às bandas de um concerto de rock, em reais (R$): 500 600 800 50000 1000 500 700 Mediana = Ordenando os valores temos 500 500 600 700 800 1000 50000, assim a mediana deste conjunto de dados será R$ 700 Exemplo 5: Determine a mediana se o primeiro valor (R$500) dos dados acima não estivesse na amostra. Mediana= Ordenando os valores temos: 500 600 700 800 1000 50000, assim (700 + 800) / 2 = 750, assim a mediana será R$750. Pós de Engenharia de Produção - Estatística 35 Exercício 1: Uma amostra de 20 operários de uma companhia apresentou os seguintes salários recebidos durante certa semana, em dólar (US$), e apresentados em ordem crescente: 140 140 140 140 140 140 140 140 155 155 165 165 180 190 200 205 225 230 240 250. Calcular a) a média, b) a mediana, c) a moda e o ponto médio para este grupo de salários. Observação: existe uma relação muito importante entre a média, a mediana e a 0.0 0.1 0.2 0.3 0.4 moda:em uma distribuição simétrica, observa-se que a Média=mediana=Moda. -4 -2 0 2 4 amostra x≅~ x ≅ Mo Entretanto, em uma distribuição assimétrica positiva observa-se que a Média > Mediana > Moda, e em uma distribuição com assimetria negativa, observa-se que a Média < Mediana < Moda. Portanto, temos: Moda Mediana Média Média Mediana Moda Resumindo as propriedades, temos: Pós de Engenharia de Produção - Estatística 36 Levam Medida Quão Definição Freqüente Existência em Afetada conta pelos Vantagens e todos valores Desvantagens os Extremos valores ? ? Usada em todo este curso; Média x= ∑x i n “média” Existe mais familiar sempre Sim Sim funciona bem com muitos métodos estatísticos. Costuma ser Mediana Valor do meio Usada Existe comumente sempre uma boa Não Não escolha se há alguns valores extremos Pode não Moda Valor mais Usada às freqüente vezes Apropriada para existir; pode haver mais Não Não dados ao nível nominal de uma moda. Ponto Médio maior + menor 2 Raramente Existe usada sempre Muito sensível a Não Sim valores extremos. Média Aparada: É calculada da mesma forma que a média aritmética, desconsiderando apenas os valores extremos. Esta medida de tendência central é muito utilizada quando se têm valores outliers (discrepantes). Média Ponderada: A fórmula da média aritmética supõe que cada observação tenha a mesma importância, mas no caso da Média Ponderada isto não ocorre, pois cada Pós de Engenharia de Produção - Estatística 37 observação é ponderada de acordo com o seu grau de importância. A fórmula para o cálculo é: n ∑w x i i =1 n Média Ponderada = ∑w i =1 i , onde wi é o peso da observação xi. i Exemplo 6: Uma determinada carteira de valores a receber é composta por três ativos com seus prazos de cobrança. Calcule o prazo médio de recebimento ponderando com os respectivos valores. Prazo de Ativo Valor Cobrança (dias) A 47 $22600,00 B 76 $68000,00 C 91 $134000,00 Média Ponderada = 47 × 22600 + 76 × 68000 + 91× 134000 18424200 = = 82 dias 22600 + 68000 + 134000 224600 Média Geométrica: Obtém-se esta média calculando a raiz nésima da multiplicação de todos os n valores do conjunto de dados. É largamente utilizada na Administração e na Economia para achar taxas médias de variação, ou de crescimento. É expressa da seguinte forma: n Média Geométrica = n ∏x i , se x é um número, i =1 n Média Geométrica = n ∏ (1 + r ) − 1 = , se r é uma taxa i i =1 Exemplo 7: Qual é a Média Geométrica dos números 2, 4, 10: n Média Geométrica = n ∏x i = 3 2 * 4 *10 = 4,3 i =1 Pós de Engenharia de Produção - Estatística 38 Exemplo 8: Seja um fundo de ações com as seguintes cotas ($) anuais: Ano Cota ($) Taxa de Retorno (r) 1 100 –– 2 200 100% 3 200 0% 4 200 0% 5 100 –50% Sabemos que a média aritmética do retorno é de 12,5%, calcule a Média Geométrica: Média Geométrica = 4 (1 + 1,00) * (1 + 0,00) * (1 + 0,00) * (1 − 0,50) − 1 = 4 2 * 0,05 − 1 = 4 1 − 1 = 0,00 = 0% Observação: podemos ver claramente que o valor da cota iniciou com 100 e terminou com 100, ou seja, não tendo nenhum aumento, logo a Média Geométrica representa melhor a taxa de retorno do fundo de ações que a média aritmética. Exercícios 1. As alturas dos jogadores de um time de basquete são 1,98 m,2,02 m, 2,08 m, 1,92 m e 1,95 m. Qual é a média de altura desse time? 2. Um comerciante mistura 4 kg de café tipo A, que custa R$ 6,00 o quilo; 10kg do café B, que custa R$ 5,60 o quilo; e 6 kg do café C, que custa R$ 5,00 o quilo. Qual o preço por quilo da mistura? 3. Em uma casa de repouso, as pessoas internadas têm as seguintes idades: Pós de Engenharia de Produção - Estatística 39 67 73 78 67 67 73 73 73 74 77 77 78 80 68 68 68 68 71 71 71 72 72 74 74 74 75 75 75 75 75 77 80 80 84 84 84 84 85 85 85 Calcular a média dessa distribuição 5. Determine a média e a moda do conjunto de dados representado pelo quadro: xi 8 12 16 20 fi 7 16 20 5 6. Os dados a seguir representam as massas, em quilogramas, dos atletas de uma equipe juvenil de natação: 46, 44, 49, 45, 44, 48, 50, 42 Determine a mediana e a moda dessa distribuição: 7. Calcule a média e a moda do conjunto de dados representados pelo quadro: xi 10 15 20 25 30 fi 9 21 10 32 8 8.Os preços, em reais, para uma amostra de aparelhos de TV 21 polegadas estão abaixo. 500 840 470 480 420 480 440 Com base nos preços levantados, responda: a) qual o preço médio dos aparelhos de TV? b) encontre o preço mediano (Mediana): Pós de Engenharia de Produção - Estatística 40 c) determine a moda dos preços dos aparelhos de TV: d) a produção do aparelho de TV cujo preço é R$ 420,00 é suspensa. Qual o preço mediano dos aparelhos restantes? 9. Com o objetivo de orientar pessoas com problemas cardiovasculares, um nutricionista divulgou tabela relacionando determinados alimentos com a gordura saturada: Alimento/ informação da Gordura saturada ( em gramas) quantidade Leite integral (1 copo) 5,1 Carne de porco (100 g) 3,2 Bife magro ( 100 g) 2,7 Fígado (100 g) 2,5 Frango (100 g) 2,0 Iogurte desnatado ( 1 copo) 1,8 Ovo (1) 1,7 Lula ( 100 g) 0,4 Camarão ( 100 g) 0,2 Óleo de coco (colher de sopa) 0 Óleo de milho (colher de sopa) 0 Determinar para esses dados: a) a média de gordura saturada entre os alimentos listados: b) a moda e a mediana: 10. No quadro seguinte estão as idades de 20 alunos que cursam o 1º ano do ensino médio de uma determinada escola: 15, 15, 15, 15, 14, 16, 16, 16, 16, 16, 16, 17, 17, 16, 16, 15, 14, 14, Pós de Engenharia de Produção - Estatística 15, 15 41 Nessas condições: a) faça um quadro de distribuição de freqüências absolutas: b) qual é a média aritmética dessa turma? V. MEDIDAS ESTATÍSTICAS Medidas de Dispersão ou Variabilidade Porque muitos bancos apresentavam filas separadas para os diversos guichês, e que passaram a adotar a fila única? Qual o motivo dessa modificação? Exemplo 1: Notas de 2 grupos de estudantes. Grupo A – 8 8 8 6 x = 7,5 todos aprovados Grupo B – 5 5 10 10 x = 7,5 50% de reprovados Amplitude: É a diferença entre o maior valor e o menor valor. Esta depende apenas do menor e do maior valor, portanto não é tão boa quanto outras medidas de variação que levam em conta todos os valores. Amplitude = X(n) – X(1) Exemplo 2: Calcule a amplitude do tempo de espera na fila em dois bancos distintos: Banco A (Fila única) – 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco B (Fila múltipla) – 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 Amplitude A= 7,7 – 6,5 = 1,2 minutos Amplitude B= = 10,0 – 4,2 = 5,8 minutos Podemos observar que a variação no segundo banco, onde se tem fila múltipla, é bem maior. O critério mais utilizado para medir a dispersão dos dados é a distância em relação à média. Para cada observação calcula-se x i − x Pós de Engenharia de Produção - Estatística 42 A medida total da dispersão é a soma dos desvios ponderada pelo número de observações: ∑ (x − x) i n , entretanto esta soma é zero. Desvio Médio: Uma estatística que realmente meça a variação é definida pela soma dos valores absolutos, que é dada por: Desvio Médio = ∑x −x i n Exemplo 3: Dado o seguinte conjunto de tempos de reação (em segundos) de seis indivíduos a um estímulo, 4 2 3 3 6 3, calcule a média e o desvio médio. Solução: Média ( x ) = Desvio Médio= 21 = 3,5 6 4 − 3,5 + 2 − 3,5 + 3 − 3,5 + 3 − 3,5 + 6 − 3,5 + 3 − 3,5 6 = 1 Variância: Utiliza-se a soma dos quadrados dos desvios em relação à média, que denotamos por Variância, e definimos como: s2 = ∑ (x i − x) 2 ou s 2 = n −1 onde n é o tamanho da amostra, e σ 2 ∑x − nx 2 i 2 ou s 2 = n −1 ∑ (x = i − x) ∑x ( x) − ∑ 2 2 i i n n −1 2 ,onde N é o tamanho da população. N Desvio Padrão: É a raiz quadrada da variância. Definida também como a variação média dos valores em torno da média. A grande vantagem é que esta medida está na mesma escala das observações. É dada por s= ∑ (x i − x) n −1 2 ou s = ∑x 2 i − nx n −1 2 ou s = ∑x 2 i ( x) − ∑ 2 i n n −1 Algumas propriedades: Pós de Engenharia de Produção - Estatística 43 1) se uma constante c é adicionada ou subtraída de todos os elementos da amostra, o desvio padrão não se altera; 2) se uma constante c é multiplicada por cada elemento, o desvio padrão também será; 3) Se a distribuição da variável é simétrica, pode-se mostrar que: 68% das observações estão no intervalo [x − s, x + s ] 95% das observações estão no intervalo [x − 2s, x + 2s ] 99% das observações estão no intervalo [x − 3s, x + 3s ] . Exemplo 4: Dado o seguinte conjunto de tempos de reação (em segundos) a um estímulo de seis indivíduos, 4 2 3 3 6 3, calcule a média, a variância e o desvio padrão. ∑x i = 21 ⇒ x = 21 = 3,5 6 ∑x 2 i = 16 + 4 + 9 + 9 + 36 + 9 = 83 83 − 6 × (3,5) 2 s = = 1,9 ⇒ s = 1,9 = 1,38 6 −1 2 Coeficiente de Variação: Toma-se uma medida relativa da variabilidade comparando o desvio padrão com a média. Esta medida é o coeficiente de variação, que é dado por: Coeficiente de Variação (cv) = s x Sabemos que o desvio padrão tem a mesma unidade de medida que os dados, de modo que o coeficiente de variação é adimensional. Assim, esta medida torna-se de grande utilidade, pois nos permite comparar as variabilidades de diferentes conjuntos de dados. Exemplo 6: Considerando as informações abaixo relacionadas a respeito de dois investimentos em ação, calcule os coeficientes de variação e comente. Ação A x = 24,0% s = 11,0% Ação B x = 30,0% s = 15,0% Solução: Os coeficientes de variação são: Ação A = 0,11 = 0,458 = 45,8% 0,24 Ação B = 0,15 = 0,50 = 50,0% 0,30 Pós de Engenharia de Produção - Estatística 44 Conclui-se que a Ação B apresenta menor variabilidade em relação à sua expectativa de retorno, portanto menor risco relativo. Exercício 1: Encontre a média, a variância e o desvio padrão dos dados abaixo: A B C D 10,5 6,1 3,7 2,4 8,5 12,5 14,8 8,9 10,1 7,8 16,9 6, 2 8,8 12,1 13,0 24,2 7,5 2,5 10,8 12,9 11,8 3,9 15,5 16,2 6,8 12,7 12,6 3,9 12,0 4,3 -1,1 10,0 11,2 8,4 7,0 9,5 10,2 3,9 17,5 22,4 Exercício 2: A tabela a seguir apresenta o retorno esperado e o risco de cinco possíveis projetos de uma instituição que podem ser implementados, entretanto, por questões financeiras apenas dois poderão ser desenvolvidos, um imediatamente, e outro daqui um ano. Determine o melhor projeto no qual já será implementado imediatamente e o segundo melhor que será implementado posteriormente. Projetos Retorno Esperado (%) Risco (%) A 50,0 18,0 B 30,0 12,3 C 16,0 6,4 D 35,0 15,4 E 20,0 9,6 VI. MEDIDAS ESTATÍSTICAS Pós de Engenharia de Produção - Estatística 45 Medidas de Posição Escore Padronizado: O escore padronizado é o número de desvios padrão pelo qual um valor x dista da média (para mais ou para menos). Ou seja: z= x−x ; onde se deve arredondar z para duas casas decimais. s A importância dos escores z na estatística reside no fato de que eles permitem distinguir entre valores usuais e valores raros, ou incomuns. Consideramos usuais os valores cujos escores padronizados estão entre –2,00 e 2,00, e incomuns os valores com escore z inferior a –2,00 ou superior a 2,00. Exemplo 1: As alturas de crianças de um ano e meio têm média µ=100 cm e desvio padrão σ=5 cm. A pediatra avaliou a altura (em cm) de quatro crianças: 115 93 108 86. Alguma criança merece especial atenção? z= z= z= z= x−µ σ x−µ σ x−µ σ x−µ σ ⇒z= 115 − 100 = 3,00 5 ⇒z= 93 − 100 = −1,40 5 ⇒z= 108 − 100 = 1,60 5 ⇒z= 86 − 100 = −2,80 5 → NÃO É NORMAL → NÃO É NORMAL Quartis, Decis e Percentis: Assim como a mediana divide os dados em duas partes iguais, os três quartis, denotados por Q1, Q2, e Q3 , dividem as observações ordenadas (dispostas em ordem crescente) em quatro partes iguais. Assim Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados; Q2 é a mediana; e Q3 separa os 75% inferiores dos 25% superiores dos dados. Pós de Engenharia de Produção - Estatística 46 Analogamente, há nove decis, denotados por D1, D2, D3, . . . , D9, que dividem os dados em 10 grupos com cerca de 10% deles em cada grupo. Há, finalmente, 99 percentis, que dividem os dados em 100 grupos com cerca de 1% em cada grupo. Para se calcular os percentis façam os seguintes passos: Primeiramente ordenam-se os valores em ordem crescente. Pontuando suas posições i. Para se encontrar a posição i correspondente ao percentil desejado utiliza-se a seguinte fórmula: i = P ×n; 100 Onde P = percentil desejado e n a quantidade de dados. Se o valor encontrado da posição i for fracionário o valor desejado daquele percentil será o dado correspondente a esta posição arredondada para cima. Se o valor encontrado da posição i for inteiro o valor desejado daquele percentil será i + (i + 1) , ou seja, o valor do dado encontrado na posição i somado com o valor 2 encontrado na posição i + 1 ( o próximo valor ordenado) divido por 2. Exemplo 2: Determine, por inspeção, o 25º percentil destes dados Posição i : 1 2 3 4 5 6 7 8 9 Dados: 10 25 62 65 73 86 91 104 124 Resolvendo: Notem que os dados estão ordenados então: i= 25 × 9 = 2,25 . Percebemos que o valor da posição i foi fracionário então 100 arredondando para cima temos que i = 3 . O dado correspondente a esta posição é o 62. Então o 25º percentil é o valor 62. Sendo assim para este conjunto de dados 25% estão abaixo de 62 e 75% acima. Vamos encontrar o 50º percentil. Posição i : 1 2 3 4 5 6 7 8 Dados: 2 3 5 8 9 12 13 15 i= 50 × 8 = 4 . O valor da posição i foi inteiro então o valor do 50º percentil será o 100 dado nesta posição somado com o próximo dividido por 2. P50 = 8+9 = 8,5 . 2 Pós de Engenharia de Produção - Estatística 47 Percentis pelo gráfico Ogiva: Pode-se encontrar através de representação gráfica. Exemplo 3: Temos a quantidade de gramas dos bifes de um restaurante: 1 1 1 1 1 1 2 2 2 2 7 7 8 8 9 9 0 0 0 0 0 5 0 5 0 5 0 0 0 5 Q2 = Valor ni Ni Fi 170 1 1 0,10 175 1 2 0,20 180 1 3 0,30 185 1 4 0,40 190 1 5 0,50 195 1 6 0,60 200 3 9 0,90 205 1 10 1,00 190 + 195 175 + 180 = 192,5 Q1 = = 177,5 Q3 = 200 2 2 Exercício 1: Sejam os dados a seguir, já ordenados do menor para o maior, de 50 observações, em decibéis, do nível de ruído de tráfego em certo cruzamento. Determine o Q1, Q2, Q3, D1, D9, P2, P9. Pós de Engenharia de Produção - Estatística 48 52,0 54,4 54,5 55,7 55,8 55,9 55,9 56,2 56,4 56,4 56,7 56,8 57,2 57,6 58,9 59,4 59,4 59,5 59,8 60,0 60,2 60,3 60,5 60,6 60,8 61,0 61,4 61,7 61,8 62,0 62,1 62,6 62,7 63,1 63,6 63,8 64,0 64,6 64,8 64,9 65,7 66,2 66,8 67,0 67,1 67,9 68,2 68,9 69,4 77,1 Gráfico de Box Plot: É um gráfico particularmente útil para comparar a distribuição de amostras em diferentes grupos. Para a construção do boxplot são utilizadas as seguintes estatísticas: mínimo, primeiro quartil (valor que deixa 25% dos dados abaixo), terceiro quartil (valor que deixa 75% dos dados abaixo) e máximo. Maior Valor * * Q3 Q2 * * Q1 Menor Valor * Outliers * A B C D Exemplo 4: Seja algumas estatísticas descritivas do Peso de Alunos separados por sexo.Construa o gráfico de Box Plot. Variável Mínimo Q1 Q2 Q3 Máximo Outlier 45 50 60 75 95 30, 120 Sexo Fem 45 50 55 60 Sexo Mas 60 65 75 85 Todos Alunos 70 95 Pós de Engenharia de Produção - Estatística 30 120 49 Exercício 2: Temos a população (em 10000) dos 15 municípios mais populosos do Brasil. Construa o gráfico Box Plot. (Fonte: IBGE 1996) Cida Pop. Cidade Pop. Cidade Pop. 988, Brasíli 187, Belém 116, 8 a 7 Rio de 556, Curitib 151, Janeiro 9 a 6 Salvador 224, Recife 135, Guarulh 101, 8 os 8 92,4 de São Paulo 6 0 Goiânia 102, 3 Belo 210, Porto 129, Campina Horizonte 9 Alegre 8 s Fortaleza 201, Manau 119, São 5 s 4 Gonçalo 84,7 Exercícios 1. As velocidades máximas das cinco voltas dadas em um teste de Fórmula 1, em km/h, foram: 190, 198, 196, 204, 202. Nessas condições, determine: a) a média das velocidades b) a variância c) o desvio padrão d) o coeficiente de variação 2. Dez canções concorrentes a um festival foram apreciadas por um júri que lhes atribuiu as seguintes pontuações: 1; 5; 4; 3; 2; 1; 1; 1; 5; 2. a) elabore uma tabela com as freqüências b) calcule a moda e a mediana c) determine o desvio padrão e o coeficiente de variação 3. O tempo gasto por seis alunos para fazer um trabalho foi, em minutos, 6, 5, 5, 3, 3, 2. Nessas condições, calcule a média aritmética, a variância e o desvio padrão dessa distribuição: Pós de Engenharia de Produção - Estatística 50 4. O quadro mostra as notas de uma prova de Matemática feita pelos alunos do 1º no do ensino médio de um determinado colégio: Nº.do aluno Nota 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 5 4 4 3 6 2 4 7 6 6 5 4 8 9 7 6 6 5 5 5 2 4 3 3 Nessas condições: a) organize um quadro de distribuição de freqüências absolutas e freqüências relativas: b) determine a média aritmética da distribuição c) determine a moda e a mediana da distribuição d) determine o desvio padrão e o coeficiente de variação da distribuição 5. Uma pesquisa dividiu em três micro-regiões (X, Y, Z) a região norte do estado de Minas Gerais. Cada uma dessas micro-regiões foi dividida em cinco municípios. A tabela seguinte informa o grau de satisfação (notas de 0 a 100) da população de cada município em relação à respectiva administração municipal: Região X 50 50 50 50 50 Região Y 70 60 30 40 50 Região Z 90 20 10 50 80 a) calcular o desvio padrão das notas dadas à administração municipal de cada região pesquisada b) determinar o coeficiente de variação de cada região c) classificar em ordem crescente as regiões em relação à regularidade das notas atribuídas 6. Para o conjunto de valores seguinte, determine o desvio padrão e o coeficiente de variação: 70, 65, 60, 65, 68, 72, 60 VIII. INTRODUÇÃO À PROBABILIDADE Pós de Engenharia de Produção - Estatística 51 Pós de Engenharia de Produção - Estatística 52 Pós de Engenharia de Produção - Estatística 53 Pós de Engenharia de Produção - Estatística 54 Pós de Engenharia de Produção - Estatística 55 Pós de Engenharia de Produção - Estatística 56 Distribuição Normal Agora trataremos daquela que pode ser considerada a mais importante variável aleatória, a distribuição Normal. Tal importância se deve ao fato de ser muito utilizado no desenvolvimento teórico da teoria de probabilidade e estatística como também por ser muito útil à aproximação nos cálculos de probabilidades de outras variáveis aleatórias. Dizemos que uma variável aleatória segue um modelo Normal com média µ e variância (Notação: X~N(µ, )) se sua função densidade é dada por: , Onde, . e . A distribuição normal possui propriedades interessantes, os quais são relacionados a seguir: a) é simetria em relação à média µ; quando b) ; c) O valor máximo de . 0.2 0.1 0.0 f(x) 0.3 0.4 se dá para -4 -2 0 2 4 x Figura 4. Densidade de uma variável X~N(0,1) Pós de Engenharia de Produção - Estatística 57 A distribuição de probabilidades acumuladas da normal não pode ser obtida analiticamente, e a obtenção de probabilidades em intervalos na reta é feita por aproximação e através de métodos numéricos. Por este motivo, os livros e softwares estatísticos consultam tais probabilidades associadas à normal tendo como referencial a tabela da normal com média zero e variância 1, pois a partir desta é possível obter probabilidades para normais com quaisquer outros parâmetros. Este recurso é possível graças ao que chamamos de padronização de variáveis aleatórias. A padronização de uma variável aleatória é feita subtraindo-se sua média e dividindo o resultado pelo seu desvio padrão. Qualquer variável aleatória passa a ter média zero e variância 1 após passar por esta transformação de padronização. Como combinações lineares de variáveis normais resulta em Normais, então, pode-se passar de uma normal( Seja ) para uma normal(0,1) e vice versa, ou seja: a variável obtida por uma transformação linear de uma X normal( ) da seguinte forma: , portanto, ~N(0,1). Então, , portanto, a probabilidade de X ser menor ou igual a um x é exatamente igual a obter a probabilidade de ser menor ou igual a , mas , como já falamos, é normal(0,1), e se tivermos de posse de uma tabela da normal padronizada, ou seja, da normal(0,1), podemos obter a probabilidades de interesse para normais com quaisquer parâmetros e . Pós de Engenharia de Produção - Estatística 58 Tabelas de Z Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,00 0 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,10 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,20 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,30 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,40 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,50 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,60 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,70 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,80 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,90 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 1,00 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,10 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,20 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,30 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,40 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,50 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,60 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,70 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,80 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,90 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 2,00 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,10 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,20 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,30 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,40 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,50 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,60 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,70 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,80 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,90 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 Pós de Engenharia de Produção - Estatística 59 VIII. TÉCNICAS DE AMOSTRAGEM II A amostragem consiste, essencialmente, em selecionar itens de uma população, com vistas a investigar alguma característica dessa população. Os itens selecionados compõesm o que se denomina amostra (uma parte ou uma parcela da população escolhida de maneira conveniente) e a quantidade desses itens é denomindado tamanho da amostra. A partir das propriedades da amostra inferem-se, isto é, concluem-se) as da população. É um instrumento valioso para obter dados ou informações de forma rápida, econômica e precisa. Mas, como determinar o tamanho ideal para uma amostra? Um dos passos mais importantes no processo de inferência estatística consiste na determinação do tamanho da amostra. Esse “tamanho” dependerá do grau de confiança desejado, da quantidade de dispersão entre os valores individuais da população e do erro tolerável no processo. A depender do tamanho da população (finita ou infinita) e de o fato de o desvio padrão populacional ser ou não conhecido, deferente será o processo de cálculo do tamanho da amostra. Variáveis quantitativas, desvio conhecido e população infinita σ n =z e 2 É importante destacar que o desvio e o erro devem estar referenciados sempre na mesma unidade. Ex.: um pesquisador precisa analisar os rendimentos mensais de trabalhadores assalariados da lavoura em uma determinada localidade. Ele definiu que o erro máximo aceitável deve ser igual a R$ 16,00. Sabe-se que o desvio padrão populacional dessa classe de trabalhadores assalariados é igual R$ 63,00 e o nível de confiança da pesquisa é igual a 99%. Qual deve ser o tamanho da amostra a ser estudada? Para um nível de confiança bilateral igual a 99%, o valor de z é 2,57, logo Pós de Engenharia de Produção - Estatística 60 2 63 n = 2,57 = 102,4018 16 Aproximando para cima, tem-se um tamanho de amostra igual a 103 elementos. Variáveis quantitativas, desvio desconhecido e população infinita s n = z e 2 Ex.: suponha que um pesquisador tenha analisado uma amostra formada por 200 frascos de perfume produzidos por uma imortante indústira do Sul do país. O volume contido nos frascos revelou um desvio padrão amostral igual a 20 ml. Caso o pesquisador precisasse extrair uma amostra, empregando um nível de confiança igual a 95%e um erro máximo tolerável para a média igual a 1 ml, qual seria o tamanho ideal da amostra? 2 20 n = 1,96 = 1 . 536 , 6400 1 Assim, o tamanho da amostra analisada deveria ser igual a 1.537 elementos. Variáveis quantitativas, desvio conhecido e população finita z 2σ 2 N n= 2 2 z σ + e 2 (N − 1) Ex.: uma associação formada por 420 indústrias projetou um desvio padrão dos lucros anuais de seus associados como sendo igual a R$ 40.000,00. Sabe-se que a entidade precisa estimar o lucro anual médio com um erro máximo tolerável igual a R$ 2.000,00 e um nível de confiança igual a 95%. Quantas empresas precisariam ser analisadas em uma amostra representativa? Pós de Engenharia de Produção - Estatística 61 n= (1,96 )(40 .000 ) )(40 .000 ) + (2 .000 ) (420 − 1) 2 (1,96 2 2 2 2 2 = 330 , 0141 Aproximadamente, 331 empresas deveriam ser analisadas. Variáveis quantitativas, desvio desconhecido e população finita z 2s2 N n= 2 2 z s + e 2 (N − 1) Uma amostra aleatória formada por 50 embalagens de ração de um lote formado por 5.000 embalagens apresentou um desvio padrão amostral do peso igual a 28g. assumindo um erro máximo tolerável associado à média populacional igual a 4g e um nível de confiança igual a 95%, o tamanho da amostra a ser analisada pode ser obtido por meio da equação anterior: (1,96 )(28 )(5 .000 ) n= (1,96 )(28 ) + (4 ) (5 .000 − 1) 2 2 2 2 2 2 = 181 , 4438 Seria preciso analisar 182 embalagens Variáveis qualitativas e população infinita n = z2 0 , 25 e2 Um pesquisador precisa determinar o tamanho de uma amostra para estimara a verdadeira percentagem populacional com um erro máximo igual a 5% e utilizando um nível de confiança de 95%. Pós de Engenharia de Produção - Estatística 62 n = (1,96 ) 0 , 25 = 384 ,16 0 , 05 2 2 Variáveis qualitativas e população finita z 2 ( 0 , 25 ) N n= 2 z ( 0 , 25 ) + e 2 ( N − 1 ) Imagine que um pesquisador precisasse dimensionar uma amostra de eleitores a entrevistar em um vilarejo com 2.000 habitantes. Pretende inferir qual o percentual de eleitores que pensam em votar no atual prefeito. O pesquisador precisa assumir um erro máximo igual a 8% 1, 64 2 ( 0 , 25 ) 2 . 000 n= = 99 ,8663 1, 64 2 ( 0 , 25 ) + 0 , 08 2 (2 . 000 − 1 ) 100 eleitores, aproximadamente. IX. TESTES DE HIPÓTESES Pode-se dizer que sem o “empirismo” a estatística não existiria. Os dados observados em uma amostra aleatória espelham o comportamento da variável aleatória sob estudo. Existe uma dualidade entre informação empírica e distribuição de probabilidade real do fenômeno de interesse. Quando temos interesse em acessar o modelo de probabilidade de uma variável aleatória utilizamos uma ou mais amostras para fazer aproximações sobre tal modelo. Nas situações em que o interesse não é apenas estimar, mas, especialmente, verificar se uma suposição, associada ao modelo de probabilidade de uma variável aleatória, é verdadeira, utilizamos o que é chamado na literatura estatística de “Teste de Hipóteses”. Pós de Engenharia de Produção - Estatística 63 Por exemplo: Digamos que se supõe que a renda média na região metropolitana de Belo Horizonte seja de R$900,00. Um pesquisador coleta uma amostra aleatória de pessoas desta cidade e obtém uma média amostral de R$780,00. O valor obtido com esta amostra confirma a suposição sobre os R$900,00? Observamos que este questionamento é probabilístico. A cada amostra retirada da população, um valor diferente será observado, mas, tais valores tenderão a oscilar no entorno do verdadeiro valor da média, que é aquele que observaríamos se entrevistássemos a população por completo. Portanto, podemos usar a probabilidade associada com a ocorrência do valor R$780,00 no caso em que a média real é R$900,00. O interesse, portanto, é verificar se o valor observado é típico sob a hipótese de media R$900,00. No caso da distribuição ser Normal, temos os seguintes exemplos: 0.010 0.000 0.005 Densidade N(800,800) 0.010 0.005 0.000 Densidade N(900,800) 0.015 B 0.015 A 750 800 850 900 950 1000 1050 1100 650 700 750 800 850 900 950 1000 A Figura acima representa a densidade de duas normaisrecom variância 800, sendo que a renda nda da esquerda, face A, possui média 900, e a da direita, face B, possui média 800. A linha que corta ambos os gráficos na vertical passam pelo valor 780. Qual é a distribuição mais verossímil da renda tendo em vista a tipicidade com que ocorre valores inferiores a 780 em cada densidade? Obviamente, se fôssemos “chutar” baseando-nos nesta amostra rejeitaríamos a hipótese de que a média é 900, e preferiríamos acreditar que a média 800 é mais plausível. Mas antes de definirmos formalmente um teste de hipóteses vamos primeiramente introduzir alguns conceitos importantes ao seu entendimento. Pós de Engenharia de Produção - Estatística 64 Parâmetro: Valor constante que define a forma da distribuição de probabilidades de uma variável aleatória Exemplo 1. Seja X uma variável aleatória com distribuição Exp(α ) , ou seja, a densidade de X é dada por: f ( x ) = α e −αx, x > 0. O parâmetro da variável aleatória X é α . Inferência estatística: É qualquer procedimento que utiliza os dados amostrais para acessar valores aproximados dos parâmetros associados à distribuição de probabilidade de uma variável aleatória. Estatística: Qualquer função dos dados amostrais. Hipótese: Suposição sobre o valor real do parâmetro da variável aleatória estudada. No teste de hipóteses estatístico é necessário definir as hipóteses a serem testadas. As hipóteses podem ser formuladas de várias maneiras, mas as escolhas habituais são: Teste unilateral, à esquerda ou à direita, e teste bilateral. Teste unilateral à direita H 0 : θ = θ0 H1 : θ > θ 0 θ é o parâmetro a ser testado. Teste unilateral à esquerda H 0 : θ = θ0 H1 : θ < θ0 Teste bilateral H 0 : θ = θ0 H1 : θ ≠ θ 0 Pós de Engenharia de Produção - Estatística 65 A notação H0 representa a hipótese principal a ser testada, que é chamada de hipótese nula. H1 é a hipótese alternativa, que é o caso em que H0 é falsa. Exemplo 2. Está sendo lançada uma nova droga para hipertensão e deseja-se investigar se a droga provoca um efeito melhor que a droga convencional. Baseando-se nas observações do nível de hipertensão de pacientes submetidos a esta droga, deseja-se testar se o valor da média desta variável é igual ao verificado com a droga anterior, que é de 10. Portanto, as hipóteses a serem testadas são: H 0 : µ = 10 H1 : µ ≠ 10 A amostra coletada apresentou os seguintes valores: 9, 12, 14, 8, 15, 16, 7, 10, 12 e 11. A média amostral, denotada por X , foi de 11,37. Baseado nesta amostra deve rejeitar H0? É para oferecer uma resposta razoável para este tipo de pergunta que formularemos uma metodologia que virá adiante. A expressão “resposta razoável” não é apenas uma maneira de expressar, pois de fato a resposta à escolha ou não por H0, devido à natureza aleatória do problema, está sujeita a dois possíveis erros: - Erro tipo I: Ocorre quando rejeitamos H0 quando, na realidade, ela é verdadeira. - Erro tipo II: Acontece quando não rejeitamos H0 quando na verdade ela é falsa. Define-se desta forma: α = P( erro tipo I) = P(rejeitar H0 quando ela é verdadeira) Que é a probabilidade de rejeitar H0 quando ela é verdadeira. β = P(erro tipo II) = P(não rejeitar H0 quando ela é falsa. Ou em outros termos: α = P(rejeitar H0| H0 é verdadeira) (lê-se: probabilidade de rejeitar H0 dado que ela é verdadeira) β = P(não rejeitar H0| H0 é falsa) (lê-se: probabilidade de não rejeitar H0 dado que ela é verdadeira) Pós de Engenharia de Produção - Estatística 66 Observação: Nomeamos a probabilidade de rejeitar H0 dado que ela é falsa de “Poder”, que é igual a 1 − β . Portanto, quanto maior o poder melhor é o teste. Testes de hipótese para a média populacional - Variância conhecida 2 Seja X uma variável aleatória N ( µ , σ ) , e considere que a variância σ 2 seja conhecida e o interesse é testar hipóteses sobre a média µ . Sabemos que a média amostra X é o estimador não viciado para µ portanto, vamos usá-la para testar. Primeiramente é necessário adotar um nível de significância para o teste, que é a probabilidade de rejeitar H0 dado que H0 é verdadeira, que será denotado por α. Para testar a média populacional, vamos tratar dos três tipos de teste comentados, a começar pelo teste unilateral à direita: H0: µ = µ 0 H1: µ > µ 0 Se o valor de X for muito maior que µ 0 , então teremos um indício para rejeição de H0. Mas, o que seria um valor muito maior? O que será usado como referência sobre o que seria um valor amostral extremo frente ao que esperaria sob H0, faz-se uma escolha arbitrária da probabilidade do erro tipo I ( α ). Ou seja, queremos que: P ( X > xc | µ = µ 0 ) = α (lê-se: A probabilidade da variável aleatória X ser maior que um valor xc , dado que a média verdadeira é igual a µ 0 , é igual a α ). Pode-se escolher α tão pequeno quanto se queira, mas é usual utilizar-se α =0,05. Portanto, o valor xc define uma região de rejeição da hipótese nula, a que chamaremos de região crítica. Mas para obtermos esta região crítica na prática, é necessário conhecermos a distribuição de probabilidade de X . Sabe-se que se a variável aleatória X possui distribuição N( µ ,σ 2 ), então qualquer transformação linear em X também possui distribuição normal, e no caso de X , a distribuição é N( µ , σ2 n ), sendo n o tamanho da amostra utilizada para calcular X , do que temos que o desvio padrão da média amostra é . Uma observação importante é que, como podemos ver pela variância de X , quanto maior for o tamanho da amostra, menor será a variação de X . Pós de Engenharia de Produção - Estatística 67 Portanto, supondo que X seja normalmente distribuído com média µ 0 e variância σ 2 , podemos fazer algumas manipulações na expressão da probabilidade do erro tipo I a fim de direcionar a obtenção da região crítica para a simples tarefa de consultar uma tabela da normal padronizada, ou seja, da normal com média zero e variância 1. Temos: α = P ( X > xc | µ = µ 0 ) = P ( Sendo Z = X −µ σ X −µ σ xc − µ > σ | µ = µ0 ) ~N(0,1). Assim, consultando na tabela da normal padronizada, obtemos o valor z c tal que P(Z > zc ) = α . Fazendo-se z c = xc − µ 0 σ temos que o valor crítico é dado por xc = µ 0 + σ zc , definindo a região crítica: R.C. = {x ∈ ℜ : x > xc } . Portanto, dizemos que rejeitamos H0 no teste unilateral à direita, com um nível de α 100% de significância, se o valor de X observado for maior que xc . Quanto ao teste unilateral à esquerda: H0 : µ = µ 0 H1 : µ > µ 0 O processo é análogo, pois precisamos encontrar a região crítica de modo que: α = P ( X < xc | µ = µ 0 ) = P ( X −µ σ < xc − µ σ | µ = µ0 ) Ao se encontrar z c que satisfaça α pela tabela da normal padronizada, temos que o valor crítico no teste unilateral à esquerda para a média populacional também é xc = µ 0 + σ zc , com região crítica R.C. = {x ∈ R : x < xc } . Portanto, dizemos que rejeitamos H0 no teste unilateral à esquerda, com um nível de α 100% de significância, se o valor de X observado for menor que xc . Para o teste bilateral: H0 : µ = µ 0 Pós de Engenharia de Produção - Estatística 68 H1: µ ≠ µ 0 O processo também segue a mesma filosofia que os unilaterais, à exceção do fato de se ter uma região crítica constituída por duas sub-regiões disjuntas. Intuitivamente, nota-se que procuramos os valores extremos que, sob H0, nos indicam o que seria um valor muito grande ou um valor muito pequeno, ou seja, queremos achar xc1 e xc 2 tais que: P ( X > xc 2 ou X < xC1 ) = α . Como estes intervalos são disjuntos, e a distribuição normal é simétrica, podemos encontrar tal região crítica de modo que: P ( X > xc 2 ) = α 2 e P ( X < xc1 ) = α 2 . Fazendo a padronização de X , e consultando na tabela da normal padronizada para obtermos z c1 e zc 2 , temos que xc1 = µ 0 + σ z c1 e xc 2 = µ 0 + σ zc 2 , e a região crítica será: R.C. = {x ∈ R : x < xc1 ou x > xc 2 } . Exemplo 3. Seja X uma variável aleatória N(µ,144). Uma amostra de 100 observações desta variável foi obtida a fim de testar se µ é 12 ou diferente de 12, sabendo que a média amostral das 100 observações foi igual a 16,4. Vemos que este teste é bilateral: H0: µ=12 H1: µ ≠12 Vamos obter a região crítica usando um nível de significância α=0,01. Como X é uma variável aleatória normal, que sob H0 possui média 12, e com variância conhecida igual a 144, obtemos que a média amostral normal com variância e desvio padrão também possui distribuição (12/10 neste exemplo) e, sob H0, possui média igual à média da variável X, 12. Pós de Engenharia de Produção - Estatística 69 e Pela tabela da normal padronizada (Apêndice 1) temos que o valor z1 que retorna probabilidade de 0,01 abaixo dele e o valor z2 que retorna probabilidade de 0,01 acima dele são, respectivamente, -2,58 e 2,58. Assim temos: e Então, rejeitamos H0 se o valor da média amostra que 8,904: for maior que 15,096 ou menor . A média obtida com as 100 observações foi igual a 16,4, portanto, rejeita-se H0 ao nível de 1%, e dizemos que a média da variável X é diferente de 12. Será que chegaríamos à mesma conclusão se o teste fosse unilateral à direita? Vamos verificar. As hipóteses são: H0: H1: Então: Para , temos e consultando na tabela da normal temos que E a região crítica é dada por: : . Pós de Engenharia de Produção - Estatística 70 Como o valor observado para foi de 16,4, dentro da região crítica, para um teste unilateral à direita, ao nível de 1%, rejeitamos H0 e concluímos que a média real de X é maior que 12. Com este exemplo é possível perceber que a operacionalização do teste de hipóteses segue os seguintes passos: 1- Estabelecimento das hipóteses; 2- Identificação da distribuição do estimador sob a hipótese nula; 3- Escolha do nível de significância ; 4- Obtenção da região crítica baseada na hipótese nula; 5- Comparação do valor observado com a região crítica. Testes de hipótese para a média populacional - Variância desconhecida No caso em que a variância real é desconhecida, o que na prática é mais comum, é preciso ajustar a construção do teste à estimação da variância. Apesar da mudança no contexto relacionado à variância, ainda usaremos a média amostral para estimar a média populacional. E o estimador natural para a variância é a estatística que é obtida da amostra da seguinte maneira: É intuitivo que, como de é o estimador da variância, queiramos realizar a padronização colocando, no lugar de , que não conhecemos, : Perceba que esta é uma tentativa de fazer uma analogia com a padronização Mas o denominador . é uma variável aleatória. Isto faz com que a distribuição de não seja Normal(0,1) como antes em que a variância era conhecida. Pós de Engenharia de Produção - Estatística 71 A distribuição de , no caso em que X possui distribuição normal, pode ser deduzida teoricamente, e seu nome é distribuição t-Student. O parâmetro da distribuição t-Student são os graus de liberdade, que, no caso de uma amostra de n observações, tal parâmetro vale (n-1). A notação para designar uma variável com esta distribuição é T~t(n-1), e a fim de simplificar notação costuma-se dizer apenas distribuição “ t” ao invés de “tStudent”. Assim como no caso da distribuição normal, esta distribuição também possui a importante característica de ser simétrica, porém, também não é possível obter uma forma fechada para a integral de sua função densidade em um intervalo, portanto, para a obtenção de probabilidades associadas à distribuição os livros carregam tabelas dos percentis mais usados em testes que usam esta distribuição. Agora já sabemos como obter a região crítica do teste para a média populacional de uma normal nos casos em que não conhecemos a variância, pois basta colocarmos no lugar da variância e procedemos da mesma forma que no exemplo 3. O teste unilateral à direita, por exemplo, ficaria: , onde , sob H0, denota uma variável com distribuição t-Student com (n-1) graus de liberdade. Para obtenção do valor crítico basta consultarmos a tabela da distribuição t(n-1). Exemplo 4. Em uma fábrica o processo de produção de uma peça está sob investigação. Sabe-se que a medida de uma das dimensões desta peça é normalmente distribuída, porém, deseja-se testar se a média de tal medida é menor ou igual a 6. Foram amostradas 10 peças, as quais ofereceram média amostra ( ) igual a 5,5 e variância amostral ( ) igual a 4. As hipóteses a serem testadas são: H0: H1: Usando , vamos obter a região crítica: Pós de Engenharia de Produção - Estatística 72 Da tabela da t9 temos: . Como a média observada foi igual a 5,5, que não pertence à região crítica, ao nível de 5%, não rejeitamos H0 em favor de H1. Valor-p ou Nível descritivo Em testes de hipóteses é necessário especificarmos a região crítica e, após obtido o valor da estatística via amostra, compará-lo com o valor xc crítico para a tomada de decisão quanto a rejeição de H0. Mas, em alguns caos, o valor observado é muito próximo do valor xc . Voltemos ao exemplo em que testamos: H0: µ = 12 H1 µ > 12 A região crítica deste teste foi . De modo que, se o valor da média amostral observada ( xobs . ) fosse igual 14,7 não rejeitaríamos H0, mas, 14,7 não seria também um valor atípico sob a hipótese nula? Este valor é muito próximo da fronteira xc . Portanto, é necessário, além de comparar o valor xobs . com xc , também verificar o quanto xobs . é típico sob H0. Para o teste unilateral à esquerda e nível de significância α = 0,01 temos: Pós de Engenharia de Produção - Estatística 73 X − 12 14,7 − 12 = P( Z > 2,25) ≈ 0,01222 Valor − p = P( X > xobs . | µ = 12) = P > 12 / 10 12 / 10 Ou seja, a probabilidade de obtermos um valor tão extremo quanto 14,7, sob H0, é de 0,01222, que apesar de ser maior que o nível de significância adotado, também nos dá evidências de que H0 não é razoável. Na prática devemos agir com bom senso. O nível de significância é apenas um referencial. Foi concebido para ser usado como referencial e, portanto, o valor-p é que na verdade é o grande indicado para ditar a favor ou contra H0. E quanto ao teste bilateral, como fazemos para proceder ao cálculo do valor-p? Procedemos fazendo o cálculo na direção do que mais desfavorece H0, portanto, se a média amostral observada Valor − p = P ( X > xobs. ) , e se que µ for maior xobs. for menor que sob µ H0, calculamos sob H0, calculamos Valor − p = P ( X < xobs. ) . Portanto, podemos sempre proceder ao cálculo do valor-p para tomar a decisão sobre rejeitar ou não H0, pois se o valor-p for menor que α então o valor amostral pertence à região crítica e H0, portanto, deve ser rejeitada. O Teorema Central do Limite Sejam X1, X2, ..., Xn, uma amostra aleatória de variáveis independentes e identicamente distribuídas. Então, se σ 2 é a variância de cada Xi e é finita, então: d X → N ( µ ,σ 2 / n) , para n grande, d A notação Y → N ( µ ,σ ) significa que uma variável Y tem distribuição Normal para n muito grande. Portanto, o Teorema Central do Limite nos diz que a distribuição da média amostral converge para uma distribuição Normal quando o tamanho da amostra é suficientemente grande, independentemente da distribuição original de X. Pós de Engenharia de Produção - Estatística 74 Exemplo 5. Seja X o número de unidades defeituosas de um artigo. Seja p a proporção de unidades defeituosas em determinado lote. 100 artigos são sorteados para inspeção. Deseja-se testar se p = 0,05 ou se é maior. Portanto as hipóteses a serem testadas são: H0: p = 0.05 H1: p > 0.05 n Podemos interpretar X da seguinte maneira: X = ∑ Yi , onde Yi ~ B( p) (Bernoulli) i =1 E temos que E (Yi ) = p e Var (Yi ) = p (1 − p ) . n Se calcularmos Y = ∑Y i =1 n i = X ˆ = P , que é a proporção amostral. Portanto, a proporção n amostral nada mais é do que a tão conhecida média amostral de uma variável aleatória Bernoulli. p (1 − p ) . Então, E ( Pˆ ) = p e Var ( Pˆ ) = n Continuando como o exemplo, vamos obter a região crítica do teste para α = 1% : P( Pˆ > pc | H 0 é verdadeira) = P( Pˆ > pc | p = 0,05) Como vimos, pelo Teorema Central do Limite, a média amostral converge para a distribuição Normal, e, portanto, a proporção amostral (que também é uma média) P̂ também converge para uma distribuição Normal com média p e variância p (1 − p ) / n . Então, podemos dizer por aproximação que: pc − 0,05 Pˆ − 0,05 P( Pˆ > pc | p = 0,05) = P > | p = 0,05 0,05(1 − 0,05) / 100 0,05(1 − 0,05) / 100 pc − 0,05 = α = 0,01 , onde Z ~N(0,1). ≈ P Z > 0 , 05 ( 1 − 0 , 05 ) / 100 Que pela tabela da Normal(0,1): Pós de Engenharia de Produção - Estatística 75 ⇒ pc − 0,05 = 2,33 ⇒ 0,05(1 − 0,05) / 100 pc = 0,10 . A região crítica deste teste fica: R.C. = {x ∪ ℜ : x > 0,10} . Este é um método eficiente de realizar testes de hipóteses para a média amostral nos casos em que se tem uma grande amostra, mas não se conhece a distribuição da variável original, ou, assim como vimos por este exemplo, o teste com a distribuição exata da estatística de teste poderia tornar-se trabalhoso. Testes para comparação de duas amostras Os testes que vimos até agora consideraram apenas a avaliação de médias provenientes de uma amostra, mas, e se, no lugar de testar a média de uma variável usando uma amostra, quiséssemos comparar as médias de duas variáveis usando duas amostras, sendo uma amostra de cada uma das duas variáveis. Exemplo 6. Suponhamos que um novo anticoncepcional esteja sendo testado para ser lançado ao mercado. Já se sabe que este novo medicamento tem a mesma eficácia que os já comercializados, porém, acredita-se que este provoque menos retenção de líquido no corpo das mulheres. 30 mulheres usaram este medicamento durante certo tempo, enquanto que outro grupo de 20 mulheres, com características biológicas e físicas muito similares às das primeiras, usaram um dos remédios convencionais. Deseja-se testar se a retenção de líquido no corpo de mulheres que usam a nova droga é menor ou igual à média apresentada pelo convencional. Neste exemplo fica nítida a diferença deste contexto dos que temos trabalhado, pois temos agora duas populações para comparar e não apenas uma para estudar. Vamos tratar de 4 diferentes casos que envolvem a comparação de duas amostras: amostras dependentes e variâncias desconhecidas, amostras independentes com variâncias conhecidas, amostras independentes com variâncias desconhecidas e iguais e amostras independentes com variâncias desconhecidas e diferentes. Pós de Engenharia de Produção - Estatística 76 1 - Amostras dependentes (teste t para amostras pareadas) Imaginemos que, no exemplo 6, ao invés de duas populações de mulheres, os pesquisadores trabalhassem apenas com as 30 primeiras mulheres. E o procedimento seria oferecer às mulheres durante períodos disjuntos, os dois medicamentos, tentandose garantir ao máximo que, no momento de uso de um dos medicamentos, os resíduos do outro não restem nos organismo das experimentadoras. Um argumento que poderia justificar esta metodologia seria o de que, usando-se duas amostras de mulheres distintas, os pesquisadores não saberiam ao certo se os resultados do teste se devem de fato aos tratamentos ou se foram influenciados, em algum grau, pelos fatores biológicos, físicos, psicológicos e hábitos distintos, e impossíveis de controlar simultaneamente, dos dois grupos. Vemos então que a principal característica desta abordagem é a realização de duas medições em uma mesma unidade amostral, no caso, a mulher. Este procedimento é chamado pela bioestatística de “pareamento”. Dizemos que duas amostras são pareadas se elas são originas da repetição da mediação em cada elemento amostral em dois estágios, ou quando as amostras são garantidamente idênticas frente à natureza do estudo. Foi elaborada uma escala para os valores de retenção de líquido e as medições foram baseadas nesta escala, de modo que, quanto maior o valor desta medição, menor a retenção de líquido. Vamos denotar por Xi os valores de retenção obtidos no primeiro estágio de tratamento, onde as pacientes ingeriram a nova droga, e por Yi, os valores de retenção obtidos com a ingestão do medicamento convencional. Podemos dizer, portanto que o efeito da retenção no i-ésimo indivíduo é de Xi-Yi = Di. Se as médias de retenção gerada pelos dois medicamentos são iguais, então a média da variável aleatórias Di é zero. Assim sendo, testar se as médias são iguais, é o mesmo que Pós de Engenharia de Produção - Estatística 77 testar se a média de Di, que denotaremos por µ D , é igual a zero. As hipóteses a serem testadas são: H0: µ D = 0 (os medicamentos produzem o mesmo efeito) H1: µ D > 0 (o medicamento novo produz uma retenção menor que o convencional) Pois com estamos fazendo X menos Y, se a média de X for maior, que é a hipótese alternativa original, então a diferença das médias será positiva. Vamos proceder à estimação da média µ D como de costume, usando a média amostral das diferenças que denotamos por µ D . Como também não se conhece a variância das diferenças, mesmo porque o tratamento é novo, teremos que estimá-la por: n S D2 = ∑ (D − D ) i =1 2 i n −1 Nota-se que, sob esta perspectiva, o problema recai no já visto problema de teste de uma amostra para variância desconhecida, e portanto, tendo-se as estimativas para a média e para a variância, usa-se o teste: T= D − µD , que sob a hipótese nula, e supondo-se que as medições possuem SD / n distribuição Normal, ou que o tamanho da amostra é grande, T possui distribuição tStudent com n-1 graus de liberdade. Os passos para execução deste teste são os mesmos já vistos nas seções anteriores. Com a amostra de 30 mulheres, obteve-se uma média amostral para a diferença das medições, d obs. , igual a 0,75, e um desvio padrão observado, sobs. , igual a 2,1. Adotando um α = 0,05 , temos: D − µD D d − µD dc > c > µ D = 0 = α = 0,05 P H 0 é verdadeira = P 2,1 / 30 2,1 / 30 S obs / n S obs / n Pós de Engenharia de Produção - Estatística 78 = P (T > dc 2,1 / 30 ) = 0,05 ⇒ pela tabela t 29 , dc 2,1 / 30 = 1,699 ⇒ d c = 0,6514 A região de rejeição é: R.C. = {x ∈ ℜ : x > 0,6514} . Como a média observada para a diferença entre as medições foi de 0,75, rejeita-se H0 ao nível de 5%, e podendo-se dizer que o novo medicamento apresenta uma média de retenção de líquido menor que o convencional comparado. Vamos obter o nível descritivo do teste para esta amostra, ou como usualmente é chamado, valor-p. Como o teste é unilateral à esquerda, vamos calcular a probabilidade de se obter um valor tão extremo quanto este dentre os valores superiores sob a hipótese nula: D 0,75 Valor − p = P > µ D = 0 = P(T > 1,9561) = pela tabela da t 29 = 0,03 . 2,1 / 30 2,1 / 30 É importante ressaltar, e isto é fácil de ver pela própria definição de valor-p, que toda vez que o valor amostral cai na região crítica o valor-p será menor ou igual a α , ou seja, sempre podemos usar o valor-p para tomar a decisão quanto a rejeição de H0. 2 - Amostras independentes com variâncias conhecidas (teste Z para amostras pareadas) Retornemos agora ao caso em que temos duas populações independentes, ou seja, como no caso em que tínhamos dois grupos de mulheres para o teste do anti-contraceptivo. Se conhecermos a variância real das duas populações comparadas, o teste t para amostras pareadas não é adequado, pois a distribuição da estatística padronizada, no caso da distribuição dos dados serem Normais, também é normal. Continuaremos por proceder ao teste que usa a diferença média entre as medições, só que desta vez, a estimação desta diferença se dará por D = X − Y , onde agora X denota a medição média amostral da nova droga e Y a média amostral da droga antiga. Pós de Engenharia de Produção - Estatística 79 Como estamos com duas variáveis X e Y independentes, e como as variâncias são supostamente conhecidas, a variância de D é: Var ( D ) = Var ( X − Y ) = Var ( X ) + Var (Y ) = σ2 n1 + σ2 1 1 = σ 2 + , onde n1 e n2 são n2 n1 n2 os tamanhos de cada amostra. Se X e Y tem distribuição normal ambos com variâncias iguais a σ 2 , como 1 1 E ( D ) = µ D , então, D ~ N µ D ,σ 2 + . n1 n2 Assim, a padronização de D nos leva à normal padronizada, e a obtenção da região crítica se procede como de costume. Suponhamos σ 2 = 2,8 , e sabendo que temos n1 =30 observações do grupo do novo medicamento e n2 =20 do antigo, que a diferença entre as médias observadas foi de 1,2 e adotando α = 0,05 , vamos obter a região crítica para testar H0: µ D = 0 X H1 : µD > 0 : D −0 P > 2,8 1 + 1 30 20 ⇒ = 0,05 = P Z > 1 1 2,8 + 30 20 dc − 0 dc 1 1 2,8 + 30 20 1 1 2,8 + 30 20 dc , que pela tabela da Normal(0,1), = 1,96 ⇒ d c = 0,9467 . R.C. = {x ∈ ℜ : x > 0,9467} . A diferença entre as médias observadas de cada grupo foi de 1,2, indicando novamente que, ao nível de 5%, o novo medicamento apresenta menor média na retenção de líquido. 3 - Amostras independentes com variâncias desconhecidas e iguais Pós de Engenharia de Produção - Estatística 80 O que é mais comum na prática é que as variâncias não sejam conhecidas, e no caso em que duas amostras são independentes e normalmente distribuídas, de modo que se tem duas amostras provenientes de X~N( µ1 ,σ 2 ) e Y~N ( µ 2 ,σ 2 ) , ou seja, com mesmas variâncias. A estatística de teste novamente deve ser baseada na distribuição t-Student, pois as variâncias, apesar de iguais, são desconhecidas. Fazendo novamente D = X − Y , a estatística de teste será T = D − ( µ1 − µ 2 ) S C 1 / n1 + 1 / n2 , onde S C é o desvio padrão obtido da estimação combinada da variância de X e de Y pela expressão: n1 S C2 = n2 ∑ ( X i − X ) 2 + ∑ (Yi − Y ) 2 i =1 i =1 n1 + n2 − 2 . A diferença mais importante agora é que a distribuição da estatística de teste T possui (n1 + n2 − 2) graus de liberdade. 4 - Amostras independentes com variâncias desconhecidas e diferentes De fato, na prática quase nunca se conhece a variabilidade de um conjunto de dados, quem dirá afirmar sobre a igualdade da variabilidade de duas amostras independentes. Sob este tipo mais genérico e realista de problema, temos a estatística de teste: T= D − ( µ1− µ 2 ) 2 1 2 2 S S + n1 n2 , onde S12 e S 22 são os estimadores das variâncias de X e de Y e D obtido como no caso anterior. A distribuição de referência para obtenção da região crítica também será a t-Student, porém, com os graus de liberdade dados por: v= ( S12 / n1 + S 22 / n2 ) 2 . ( S12 / n1 ) 2 ( S 22 / n2 ) 2 + n1 − 1 n2 − 1 Pós de Engenharia de Produção - Estatística 81 Estimação de Parâmetros É um processo de indução, na qual usamos dados extraídos de uma amostra para produzir inferência sobre a população. Esta inferência só será válida se a amostra for significativa. Os tipos de estimação de parâmetros são: Pontual e Intervalar. Estimação Pontual É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro populacional, ou seja, obter estimativas a partir dos valores amostrais. Estatísticas: Seja X 1 , X 2 ,..., X n uma amostra aleatória e x1 , x 2 , x n os valores representados pela amostra. Então uma função destes valores, ou seja, y = H ( x1 , x 2 ,..., x n ) é uma estatística. Onde podemos citar algumas estatísticas como: Média Amostral, Variância Amostral e Proporção Amostral. Consideradas estimativas pontuais. Estimação Intervalar. Uma forma de calcular uma estimativa de um parâmetro desconhecido, é construindo um intervalo de confiança para esse parâmetro. Onde este intervalo terá uma probabilidade de 1 − α de que o intervalo contenha o verdadeiro parâmetro. Sendo α o nível de significância, ou seja, o erro que se estará cometendo ao afirmar que o verdadeiro parâmetro está contido no intervalo. Distribuição da média amostral e intervalo de confiança para µ Considere uma variável aleatória com média µ e desvio padrão σ . Se observarmos uma amostra de tamanho n desta variável aleatória, calculando X em todas as possíveis Pós de Engenharia de Produção - Estatística 82 amostras de tamanho n, obtemos a distribuição de probabilidade deste estimador. Sendo este estimador uma variável aleatória. Uma vez conhecida a distribuição deste estimador, podemos determinar um intervalo centrado no valor médio do estimador e que contenha, por exemplo, 95% de seus valores. Este intervalo é conhecido como intervalo de confiança ao nível de 95%. Vimos o caso que a média amostral segue uma distribuição Normal e que X −µ σ →∞ n → Z onde Z ~ N (0,1) n Então um intervalo de confiança de 100( 1 − α )% para a média populacional, com variância conhecida, é dado por X ± Z α 2 σ n . Se a variável aleatória tem distribuição normal e a variância é conhecida, o intervalo de confiança para µ de 100( 1 − α )% é dado por X ± t α 2 s , n −1 n . Se temos duas populações independentes com médias µ1 e µ 2 e variâncias σ 12 e σ 22 e se X 1 e X 2 , forem as médias baseadas em duas amostras independentes de tamanhos n1 e n2 então Z = (X 1 ) − X 2 − (µ 1 − µ 2 ) σ 12 n1 + σ 22 ~ N (0,1) Sendo que o intervalo de confiança de n2 σ σ ( 1 − α )% para X é dado por: X − Z 1−α ; X + Z 1−α n 2 n 2 Distribuição da Proporção Amostral Considere uma população em que a proporção de indivíduos com certa característica é igual a η . Retira-se uma amostra aleatória de tamanho n dessa população e observa-se o valor de Y = número de indivíduos com a característica na amostra. Um estimador para η é dado por pˆ = Y . Pode-se demonstrar que Y ~ têm distribuição de probabilidade n binomial com parâmetros (n,η ) . Então E ( pˆ ) = η e Var ( pˆ ) = η (1 − η ) / n . Se o tamanho Pós de Engenharia de Produção - Estatística 83 amostral for maior que 30, p̂ ~Normal (η ,η (1 − η ) / n ) . Onde o intervalo de confiança é η (1 − η ) η (1 − η ) dado por: pˆ − Z α ; pˆ + Z α . 1− 1− n n 2 2 X. MEDIDAS DE ASSOCIAÇÃO LINEAR ENTRE DUAS VARIÁVEIS Vamos apresentar duas medidas capazes de captar a existência de associação linear entre duas variáveis, ou seja, avaliar a relação entre duas variáveis, as quais são a Covariância e a Correlação de Pearson. Para utilizarmos estas medidas, os dados correspondentes as variáveis, devem estar emparelhados, ou seja, para cada valor de uma variável se tem um correspondente da outra variável. Covariância A fórmula utilizada para estimarmos a covariância com uma amostra de tamanho n é definida como: ∑ (X n COV ( X , Y ) = S XY = i =1 i )( − X Yi − Y ) n −1 A fórmula utilizada para encontrarmos a covariância de uma população de tamanho N é definida como: ∑ (X − µ N COV ( X , Y ) = S XY = i =1 i x )(Y − µ ) i Y N µ é a média da população. Para exemplificar a utilização da Covariância utilizaremos um exemplo retirado do livro Estatística Aplicada a Administração e Economia – Anderson, Sweeney Pós de Engenharia de Produção - Estatística 84 e Williams 2005. Este exemplo retrata o interesse de um gerente de uma loja de vendas de equipamentos de som em verificar se existe uma relação entre o número de comerciais mostrados no fim de semana e as vendas na loja durante a semana seguinte. Os resultados deste estudo estão na tabela a seguir. Tabela – Dados de amostra para a loja de equipamentos de som X = 3; Y = 51 Resolvendo a covariância amostral: Sendo assim o resultado da covariância amostral seria = 11. Pós de Engenharia de Produção - Estatística 85 Podemos ter um indício da associação linear entre as variáveis, pois se a covariância é maior do que zero podemos suspeitar de uma associação positiva, se a covariância é menor do que zero uma associação negativa e, se é igual a zero, não há associação linear. O resultado da covariância para situações aplicadas é de difícil interpretação por dois motivos: Seu valor depende das unidades com as quais se mede as variáveis X e Y e seu resultado pode ser qualquer valor, dificultando a interpretação, pois como saber se o valor observado para a covariância é tal que indique uma alta associação linear? Portanto, vamos utilizar o coeficiente de correlação de Pearson, já que este coeficiente não depende da unidade da variável em questão, e ao mesmo tempo é de fácil interpretação, já que seu valor varia entre -1 e 1. Correlação de Pearson A fórmula é dada por: rXY = onde; s x = desvio padrão de sY = desvio padrão de Y . COV ( X , Y ) sx × s y X. Como já mencionado, os resultados obtidos por este coeficiente são de fácil interpretação já que os valores oscilam entre: − 1 ≤ rXY ≤ +1 . Valores positivos de r indicam que as variáveis X e Y possuem uma associação linear positiva, ou seja, variam na mesma direção, e valores negativos de r indicam que as variáveis X e Y possuem uma associação linear negativa, ou seja, variam em direção oposta. E r próximo de zero é indicação da não existência de associação linear entre as variáveis em estudo. Pós de Engenharia de Produção - Estatística 86 Valores de r próximo à unidade indicam forte ligação linear entre as variáveis, e valores próximos a zero indicam fraca ligação linear entre elas. Quanto mais próximo de +1 forem os valores de r, mais forte é a relação linear positiva entre x e y. Quanto mais próximo de -1 forem os valores de r, mais forte é a relação linear negativa entre x e y. Valores de r próximos de zero indicam ausência de relação linear entre x e y No exemplo anterior; S xy = 11 s x = 1,49 s y = 7,93 rxy = s xy sx s y = 11 = 0,93 11,81 De acordo com o valor da correlação obtido, existe uma forte ligação linear entre número de comerciais (X) e volume de venda (Y). Podemos afirmar que para estes valores a medida que o número de comerciais aumenta, o volume de vendas também aumenta. Dois fatos importantes devem ser levados em conta. 1. O fato de existir correlação entre as variáveis não significa uma situação de causalidade, ou seja, no nosso exemplo não podemos afirmar que o único motivo para aumentarmos a venda seria o aumento do número de comerciais. 2. Se as variáveis não estão associadas linearmente isso não quer dizer que não possuam um outro tipo de associação que não seja a linear. Pode-se demonstrar que a covariância e o coeficiente de correlação podem ser calculados por meio das seguintes fórmulas alternativas: ∑x y i COV (X,Y) = i − (∑ x )(∑ y ) i n −1 i n Pós de Engenharia de Produção - Estatística 87 (∑ x )(∑ y ) ∑x y − n (∑ x ) (∑ yi ) ∑ x − y − ∑ n n i i r(X,Y) = i i 2 2 i 2 i 2 i . Após o cálculo da correlação é necessário fazer um teste de hipótese para verificar a significância estatística da correlação observada. É importante citar que este teste de hipótese é utilizado em situações onde nossa população de estudo segue o modelo Normal bivariado. Temos as seguintes hipóteses: H0: r = 0 H1: r ≠ 0 Neste teste de hipótese a não rejeição da hipótese nula permite, com um nível de significância, a conclusão da não existência de correlação entre as variáveis, ou seja, que elas são independentes. Com um nível de significância α fixado, e utilizando a distribuição t de Student com n2 graus de liberdade, vamos determinar as regiões de rejeição e não rejeição para a hipótese nula. Após determinar as regiões de rejeição utilizamos a seguinte estatística de teste: t= r n−2 1− r2 ; Onde n é o tamanho da amostra e r é o coeficiente de correlação. Para um teste bilateral rejeita-se a hipótese nula se t > t n − 2; α ou t < - t 2 n − 2; α . 2 No nosso exemplo onde α = 0,05 e n = 10 . t= 0,93x 2,828427 1 − 0,8649 = 2,630437 0,1351 = 7,156493 Pós de Engenharia de Produção - Estatística 88 t n − 2; α = t 8;0,025 = 2,306. 2 Como t > t n − 2; α , rejeitamos H0 com nível de 5% de significância, então podemos 2 assumir, com base nesta amostra, a existência de correlação linear entre estas duas variáveis. Exercício 1) A tabela 3.1 fornece o valor nominal por ação e o dividendo anual para 15 ações de utility (Barron’s, 2 de janeiro de 1995). Tabela 3.1 Valores nominais e dividendos por ação para 15 ações de utility Empresa Valor nominal(US$) Am Elec 22,44 2,4 Com Ed 20,89 2,98 Detroit Ed 22,09 2,06 Niag Moh 14,48 1,09 Pac G&E 20,73 1,96 Peco 19,25 1,55 Pub Sv Ent 20,37 2,16 UnicomCp 26,43 1,6 Centerior 12,14 0,8 Cons N Gas 23,31 1,94 Houston Ind 16,23 3 0,56 0,28 0,84 0,84 NorAm Enrgy Panh East Peoples Em Dividendo Anual (US$) 18,05 1,8 SCEcorp 12,45 Fonte: Barron's, 2 de janeiro de 1995. 1,21 a) Calcule e interprete o coeficiente de correlação da amostra. b) Teste a hipótese de existência de correlação linear nestas duas variáveis a um nível α de 5% interprete. X. INTRODUÇÃO AO MODELO DE ANÁLISE DE REGRESSÃO LINEAR SIMPLES Vamos introduzir neste capítulo alguns conceitos sobre o modelo de análise de regressão linear simples. De uma forma bem simplificada, podemos dizer que o objetivo da regressão linear é estudar o possível efeito que algumas variáveis quantitativas exercem nas outras, e isto é feito basicamente medindo-se a relação entre estas variáveis. De posse da associação entre as variáveis, constrói-se a equação de uma reta, em que se coloca uma variável em função das outras. No caso da regressão linear simples, uma Pós de Engenharia de Produção - Estatística 89 variável é colocada em função de apenas uma outra variável. No modelo de regressão linear simples temos a variável Y que é chamada de variável resposta ou dependente e a variável X sendo chamada geralmente de variável explicativa, independente ou preditora. Assim, com o modelo de regressão ajustado, podemos obter uma equação onde alterações na variável explicativa influenciam na variável resposta, ou seja, uma explicação da variabilidade de Y por meio das variações observadas em X . Se esta relação é estabelecida através do modelo de regressão, podemos prever valores da variável Y através de oscilações de valores da variável X. O MODELO DE REGRESSÃO LINEAR SIMPLES O modelo de regressão linear simples pode ser representado por: Yi = β o + β 1 Χ i + ε i onde Yi a variável resposta; X i a variável explicativa; β1 o coeficiente angular da relação linear; β o o intercepto da relação linear; ε i o erro aleatório, isto é, a parte de Y que não é explicada por X, podendo ter efeito de outras variáveis que podem estar influenciando no comportamento de Y mas não estão contempladas no modelo. Na prática quase sempre existirá um efeito não explicado por X, pois na maior parte dos problemas, a relação entre as variáveis não é exata. Para que um modelo seja bem ajustado as variáveis em questão precisam ter uma relação linear significativa. A reta ajustada fornece o valor médio de Y para cada unidade de X . Para visualizar esta possível relação linear entre as variáveis recomendase construir o diagrama de dispersão plotando cada ponto pela sua coordenada de X e Y .Na figura abaixo uma ilustração da reta da regressão linear simples Pós de Engenharia de Produção - Estatística 90 ^ Y i = b0 + b1 X i Y εi X ESTIMAÇÃO DO MODELO DE REGRESSÃO LINEAR SIMPLES O método para estimação dos parâmetros β o (intercepto da reta) e β1 (inclinação da reta) é o Método dos Mínimos Quadrados (MMQ). O método MMQ é muito utilizado por possuir importantes propriedades. A reta ajustada com este método é de tal forma a minimizar a soma dos quadrados dos erros entre os y i (observados) e os ŷ i n (calculados pela reta estimada), ou seja, minimizar ∑ (y i =1 ( n ) ) Assim ∑ y i − β o − β 1 xi i =1 ) 2 − yˆ i ) . 2 i deverá ser minimizada Derivando e igualando a zero, tem-se: n ) ) dθ ) = 2∑ y i − β o − β 1 xi × (− 1) = 0 ⇒ dβ o i =1 ( ) ) ) y − n β − β ∑ i o 1 ∑ xi = 0 ⇒ Pós de Engenharia de Produção - Estatística 91 n ) ) dθ ) = 2∑ y i − β o − β 1 xi × (− xi ) = 0 ⇒ dβ 1 i =1 ( ) ) ) x y − β x − β ∑ i i o ∑ i 1 ∑ xi2 = 0 Resolvendo o sistema obtemos os estimadores para β o e β1 : ) β1 = ∑x y i i − ∑x ) βo 2 i ∑y = i (∑ x )(∑ y ) i i n (∑ xi )2 − n ) − β 1 ∑ xi n Outra forma encontrada para encontrarmos as estimativas dos parâmetros é dada por: ) β1 = ∑ ( x − x )( y − y ) = s s ∑ (x − x) i i XY 2 i ) XX ) β o = y − β1 x Uma estimativa do erro aleatório ε i da equação de regressão linear simples é dado pelo resíduo ei = yi − yˆ i . Também se faz necessário testar um conjunto de suposições que são exigidas a priori, e devem ser conferidas no modelo de regressão linear simples. A validade destas suposições é de extrema importância para que os testes de hipóteses sobre a significância dos parâmetros estimados sejam válidos. Estas suposições são testadas em relação aos resíduos gerados da regressão. E são elas: a) Os erros são independentes e identicamente distribuídos não correlacionados; b) Os erros seguem uma distribuição normal; Pós de Engenharia de Produção - Estatística 92 c) A dispersão dos pontos em torno da reta de regressão deve ser constante, ou seja, os erros aleatórios têm média zero e variância constante. Uma das formas mais utilizadas para avaliar a suposição dos resíduos é por procedimentos gráficos: a) Utilizamos um gráfico para verificar a suposição de que os erros têm média zero e variância constante, geralmente chamado de gráfico dos resíduos versus valores ajustados. b) Um gráfico utilizado para verificar se os erros são independentes é o gráfico dos resíduos versus a ordem das observações: c) Para testarmos a suposição de normalidade dos resíduos pode-se utilizar um teste de normalidade como o teste de Anderson Darling. Este teste é encontrado no software estatístico Minitab. Existem outros tópicos importantes para abordar em Análise de Regressão Linear Simples, mas este texto visa apenas introduzir este assunto. Exercício retirado na Apostila Conceitos e Aplicações de Estatística, 2007. Dos autores Wanderley Ramalho e Juliana Aparecida Ribeiro. A tabela abaixo mostra a renda familiar semanal (em U$ 1,00) e o consumo familiar semanal (em U$ 1,00) para 10 famílias. Família 1 2 3 Renda (X) 80 100 120 140 160 180 200 220 240 260 Consumo 70 65 90 4 95 5 6 7 8 9 10 110 115 120 140 155 150 (Y) Fonte: GUJARATI (1995) a) Calcule o coeficiente de correlação entre o consumo e renda; Pós de Engenharia de Produção - Estatística 93 ) ) ) b) Estimar a reta de regressão yi = β o + β 1 xi ; c) Estimar a média do consumo de famílias cuja renda semanal é 165 dólares. Solução: a) Realizando-se os cálculos, tem-se: xi yi xi2 y i2 xi yi 1 80 70 6.400 4.900 5.600 2 100 65 10.000 4.225 6.500 3 120 90 14.400 8.100 10.800 4 140 95 19.600 9.025 13.300 5 160 110 25.600 12.100 17.600 6 180 115 32.400 13.225 20.700 7 200 120 40.000 14.400 24.000 8 220 140 48.400 19.600 30.800 9 240 155 57.600 24.025 37.200 10 260 150 67.600 22.500 39.000 Total 1.700 1.110 322.000 132.100 205.500 Família Então: (∑ x )(∑ y ) 1.700×1.110 n 10 r( X , Y ) = = 2 2 (∑ xi ) 2 (∑ yi) 322.000− 1.7002 132.100− 1.1102 ∑ xi2 − ∑ yi − n 10 10 n ∑x y i i − i i 205.500 − = 0,98 De acordo com este resultado podemos dizer que existe uma forte associação linear positiva entre a renda e o consumo destas famílias. Sendo assim temos uma forte relação linear entre estas variáveis. Pós de Engenharia de Produção - Estatística 94 b) Calculando β̂ o e β̂1 : ) β1 = ∑x y i i ∑x ) βo = ∑y (∑ x )(∑ y ) − 2 i i − i n (∑ xi )2 n ) i − β 1 ∑ xi n = = 1.700 × 1.110 10 = 0,5091 1.700 2 322.000 − 10 205.500 − 1.110 − 0,5091 × 1.700 = 24,4545 10 Obtendo a equação de regressão estimada yˆ i = 24,4545 + 0,5091xi . Através das definições abordados no texto podemos afirmar que para cada elevação de 1 dólar na renda familiar semanal estima-se que, em média, o consumo familiar semanal aumenta 0,5091 dólares (51 centavos de dólares) c) Para famílias cuja renda semanal mensal é 165 dólares, a média do consumo é de: yˆ i = 24,4545 + 0,5091xi ⇒ yˆ i = 24,4545 + 0,5091 × 165 ⇒ yˆ i = 108,46 dólares. Pós de Engenharia de Produção - Estatística 95 Referências bibliográficas: ANDERSON, D.R.; SWEENEY,D.J.;WILLIANS, T.A. Estatística Aplicada a Administração e Economia – 2ª ed. Thomson, 2007. MAGALHÃES, MARCOS NASCIMENTO. Noções de Probabilidade e Estatística/ Marcos Nascimento Magalhães, Antônio Carlos de Lima – 6 ed. Ver., 1a reimpr. –São Paulo: Editora da Universidade de São Paulo, 2007. – (Acadêmica 40) MARTINS, GILBERTO DE ANDRADE. Estatística geral e aplicada – 3ª Ed. São Paulo – Atlas, 2006. RAMALHO, WANDERLEY; RIBEIRO, J. A. Apostila Conceitos e Aplicações de Estatística, 2007. Pós de Engenharia de Produção - Estatística 96 Pós de Engenharia de Produção - Estatística 97