CURSO DE ESTATÍSTICA BÁSICA APLICADA E CEP Prof. Cezar Augusto Cerqueira 1 SUMÁRIO 1 - ESTATÍSTICA: NOÇÕES GERAIS ..................................................................................................................................... 3 2 – APRESENTAÇÃO DE DADOS........................................................................................................................................... 9 2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS ..............................................................................................................10 2.2 REPRESENTAÇÃO GRÁFICA ..........................................................................................................................11 3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS .............................................................................................. 18 3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,.................................................................18 3.2 MEDIDAS DE VARIABILIDADE ....................................................................................................................... 20 3.3 ASSIMETRIA .................................................................................................................................................... 24 3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT...............................................................26 4 NOÇÕES DE PROBABILIDADE ......................................................................................................................................... 28 5. VARIÁVEIS ALEATÓRIAS ................................................................................................................................................. 31 5.1CASO DISCRETO ............................................................................................................................................. 31 5.2 CASO CONTÍNUO ........................................................................................................................................... 32 6. MODELOS DISCRETOS .................................................................................................................................................... 34 6.1 .DISTRIBUIÇÃO DE BERNOULLI .................................................................................................................... 34 6.2 DISTRIBUIÇÃO BINOMIAL ............................................................................................................................. 34 6.3 MODELO DE POISSON ................................................................................................................................... 35 6.4 MODELO HIPERGEOMÉTRICO ...................................................................................................................... 35 7. MODELOS CONTÍNUOS ................................................................................................................................................... 37 7.1 DISTRIBUIÇÃO NORMAL ............................................................................................... .............................. 37 8- DISTRIBUIÇÕES AMOSTRAIS .......................................................................................................................................... 41 8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS ....................................................................................................... 41 8.2-DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES .........................................................................................45 9 ESTIMAÇÃO: NOÇÕES GERAIS ........................................................................................................................................ 46 10. TESTES DE HIPÓTESES ................................................................................................................................................. 50 11. CORRELAÇÃO ................................................................................................................................................................ 58 11.1 DIAGRAMA DE DISPERSÃO ......................................................................................................................... 58 11.2 COEFICIENTE DE CORRELAÇÃO LINEAR .................................................................................................. 60 12 – REGRESSÃO ..................................................................................................................................................................61 13 – NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS ........................................................................................63 14 NOÇÕES DE ESTATÍSTICA NO EXCEL ...........................................................................................................................70 BIBLIOGRAFIA ........................................................................................................................................................................88 2 1 - ESTATÍSTICA: NOÇÕES GERAIS A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise de dados, sendo uma ferramenta fundamental no processo de resolução de problemas e tomada de decisões. O uso da estatística é de fundamental importância na identificação de problemas, na determinação do tipo de dados pertinentes à análise destes, sua coleta, tratamento e posterior tomada de decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de um plano de ação para a resolução do problema em questão. • A estatística, portanto reúne métodos para: • • Coleta Processamento Análise e interpretação de dados Informações numéricas analisadas servem de base para tomada de decisões; As estatísticas nos auxiliam a entender melhor os fenômenos em geral; EM GERAL, CONHECEMOS ESTATÍSTICAS: • • • Demográficas Econômicas De saúde Educacionais Empresariais, etc. A obtenção das estatísticas é apenas uma das faces do problema; É preciso aprofundar a análise Números não foram feitos apenas para serem exibidos ou armazenados ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA: • • • • Para saber como apresentar e descrever informações de forma apropriada Para saber como tirar conclusões a partir de grandes populações, com base somente na informação obtida em amostras. Para saber como melhorar processos Para saber como obter previsões confiáveis. 3 UMA PALAVRA SOBRE FONTES DE DADOS LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta de dados: 1. Obter dados já publicados por fontes governamentais, industriais ou individuais. 2. Planejar e executar um experimento para obter os dados necessários. 3. Planejar e executar uma pesquisa ou levantamento de campo. 4. Realizar uma análise através de um estudo observacional. No Brasil o governo é o principal produtor de dados sócio-econômicos e demográficos e o IBGE seu órgão oficial de estatística, que planeja e executa uma ampla gama de pesquisas, tendo como carro-chefe o Censo Demográfico, realizado a cada dez anos e que produz informações populacionais, que possibilitam uma investigação sobre os componentes da dinâmica demográfica brasileira, com destaque para dados sobre a composição da população por estrutura etária, sexo, educação, trabalho e rendimento, além de aspectos ligados à mortalidade, fecundidade e migração, entre outros. O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da produção industrial, comercial do setor de serviços; sobre emprego e desemprego, registro civil, taxas de inflação; além de dados sobre a realidade dos municípios do país, sobre o setor de saúde, entre outros. Os governos estaduais e municipais também produzem uma ampla série de informações de nível de agregação mais localizado, complementando o chamado sistema estatístico nacional. A segunda fonte de dados mencionada é a experimentação, técnica na qual um controle rigoroso é exercido no tratamento dado aos participantes. Nesse tipo de levantamento geralmente são utilizados procedimentos estatísticos mais sofisticados, como testes de hipóteses e análise de variância, entre outros. A terceira fonte de obtenção de dados é a realização de pesquisas, procedimento no qual nenhum controle é exercido sobre os participantes, no que tange ao seu comportamento. A população é indagada sobre questões relativas a crenças, valores, atitudes, características pessoais, entre outras. As respostas obtidas são devidamente tratadas para posterior análise. Na análise observacional o pesquisador observa diretamente o comportamento de seu objeto de estudo, geralmente em seu ambiente natural. Este tipo de levantamento, em geral, se aplica a situações onde pesquisas são impraticáveis ou de difícil execução. Tais estudos coletam informações, na forma de grupo, para auxiliar em processos de tomadas de decisão. Uma técnica bastante utilizada é o grupo focal, empregada para estruturar questões em aberto. Outros tipos de levantamentos observacionais são ainda utilizados, em diversas situações, entre os quais destacamos dinâmicas de grupo, “brainstorming”, etc. 4 GRANDES ÁREAS EM ESTATÍSTICA: A trabalho com dados estatísticos pode ser visualizada em três grandes áreas: | • • • Estatística Descritiva Probabilidades Inferência estatística ESTATÍSTICA DESCRITIVA • Utilizada na etapa inicial de análise • Conjunto de técnicas destinadas a descrever e resumir os dados. Tabelas Descrição Gráficos Organização Medidas Resumo Técnicas Visuais Algumas estatísticas descritivas: • Taxas de inflação Taxas de desemprego Taxas de mortalidade infantil Renda per capta Taxa de alfabetização Índice de leitos por habitantes, etc. As estatísticas descritivas tornam o dado mais compreensível 5 PROBABILIDADE • Teoria matemática utilizada para se estudar a incerteza, oriunda de fenômenos de caráter aleatório. INFERÊNCIA ESTATÍSTICA: • • Trata da análise e interpretação de dados amostrais O principio básico é tirar conclusões sobre a população a partir de uma amostra de dados obtida da mesma. APLICAÇÃO a) Uma montadora de automóveis compra amortecedores de outra indústria, em lotes de 100 peças. De cada lote é retirada uma amostra, com base na proporção de defeituosos contidos nessa amostra é tomada uma decisão quanto à aceitação ou não do lote. b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato de terem ou não um plano de saúde; cerca de 400 disseram que o possuem. O processo de coleta/ interpretação dos dados pode ser resumido no esquema abaixo: População Amostra amostra inferência Descrição Análise/da Decisão 6 NOÇÕES DE AMOSTRAGEM Os dados representam a base para a tomada de decisões confiáveis. Na área de qualidade, por exemplo, quando coletamos dados, nosso propósito primordial é obter informações sobre lotes de produtos, sobre a estabilidade de processos, sobre a capacidade de um processo atender às especificações e sobre resultados obtidos sob alterações que visem melhorar a qualidade do processo. Nesse sentido cabe destacar os conceitos de: • • POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma característica em comum, sobre o qual desejamos estabelecer conclusões ou implementar ações. AMOSTRA – Parte ou subconjunto da população a ser estudada. POR QUE USAR AMOSTRAGEM? • • • Estudo de grandes populações. Redução de custos. Resultados mais precisos em menor espaço de tempo. Aleatória simples Estratificada PROBABILÍSTICA Sistemática Grupos (cluster) Multifásica AMOSTRAGEM (Tipos) NÃO PROBABILÍSTICA 7 Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da população. Cada item da população é numerado de 1 a N. A chance de seleção de cada elemento é dada por 1/N. As amostras podem ser escolhidas com ou sem reposição. O sorteio geralmente é feito com o auxílio de tabelas de números aleatórios. Amostra Sistemática – Os N elementos da população são divididos em “k” grupos, onde k=N/n. O primeiro elemento é sorteado por um número aleatório entre 1 e k, sendo o restante da amostra obtido pela seleção de cada k-ésimo elemento respectivo na população. Amostra Estratificada – a estratificação consiste na divisão de um grupo original em diversos subgrupos, com base em determinados fatores. Na área de qualidade os fatores geralmente são equipamentos, fabricante, operadores, métodos de produção, determinadas condições ambientais de produção, entre outros. Amostras de grupos ou clusters – nesse caso, os N elementos são divididos em grupos ou clusters. Uma amostra aleatória de grupos é obtida e todos os elementos do grupo são investigados. Em algumas situações uma sub-amostra dentre de cada gruo inicialmente sorteado pode também ser adotada. Os grupos podem ser tomados como municípios, bairros, quarteirões, setores censitários, condomínios, etc. 8 2 – APRESENTAÇÃO DE DADOS No processo de análise de dados, o pesquisador tem à sua mão uma série de informações relativas a uma população ou uma amostra, e necessita resumir tais dados para torna-los informativos, para compará-los com outros resultados ou verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise descritiva propriamente dita, que antecede a etapa de inferência, é conveniente observar alguns procedimentos de resumo de dados e sua apresentação na forma tabular ou gráfica. • • • Dados brutos desorganizados, não trazem informação! Ë importante organizar e resumir os dados Obter dos dados a maior quantidade de informação TIPOS DE VARIÁVEIS Os dados coletados no trabalho de pesquisa, gerenciamento de processos, controle de qualidade de produtos e serviços, em geral podem ser de natureza qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais variáveis ainda podem ser classificadas como nominais, quando não existe nenhuma ordenação nas categorias (p/ex: sexo, estado civil), ou ordinais, quando apresentam alguma ordenação (p/ex: grau de instrução). As variáveis quantitativas podem ser classificadas como discretas ou contínuas. As discretas resultam geralmente de contagens do número de ocorrências de determinada característica de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam um intervalo de números reais e resultam normalmente de mensurações. São apresentados a seguir alguns exemplos de variáveis discretas e contínuas: Discretas -número de filhos de um casal -número de defeitos em uma chapa de aço -número de acidentes de trabalho em uma semana em certa fábrica. Contínuas -Peso ou altura de um indivíduo -Espessura de uma peça -Tempo de vida de uma lâmpada, etc IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende do tipo de variável com que se trabalha. 9 2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS • • • Após coletar, deve-se organizar os dados. Para conhecer melhor a distribuição das variáveis de interesse procura-se dispor os dados em tabelas e gráficos. Objetiva-se obter uma melhor visualização do fenômeno. CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS Exemplo: A Tabela 2.1 apresenta a distribuição dos empregados do setor de produção de certa empresa segundo o seu grau de instrução. Tabela 2.1 Empregados do setor de produção, segundo o grau de instrução, 2005. GRAU DE INSTRUÇÃO Freqüência (fi) Primeiro Grau 15 Segundo Grau 25 Superior 10 TOTAL 50 FONTE: Pesquisa direta 10 2.2 REPRESENTAÇAO GRÁFICA: GRÁFICO DE SETORES: Útil na representação de variáveis de natureza qualitativa. Empregados do Setor de Produção, segundo grau de instrução - 2000 20% 30% Primeiro Grau Segundo Grau Superior 50% CASO DE VARIÁVEIS DISCRETAS Para ilustrar, considere os dados abaixo representando a distribuição da variável número de filhos dos empregados do setor de produção. Tabela 2.2 Distribuição do número de filhos dos empregados do setor de produção NÚMERO DE FILHOS Freqüência ( fi) 0 5 1 10 2 20 3 9 4 6 11 REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas Número de filhos 20 18 16 14 12 freq. 10 8 6 4 2 0 0 1 2 3 4 filhos 12 CASO DE VARIÁVEIS CONTÍNUAS Foram obtidas as rendas mensais, em salários mínimos, dos empregados do setor de produção. Tabela 2.3 Distribuição de freqüências das rendas dos empregados do setor de produção CLASSE DE RENDA(sal.min.) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 TOTAL Freq. simples(fi) Freq. Relativa Freq. Acumulada (Fi) 7 14,0 7 8 16,0 15 20 40,0 35 10 20,0 45 5 10,0 50 50 100,0 - REPRESENTAÇÃO GRÁFICA (Histograma): Distribuição dos salários dos empregados do setor de produção 25 freq. simples 20 15 10 5 0 6 10 14 18 22 sal.min. 13 A DISPOSIÇÃO RAMO-E-FOLHA Consiste de uma outra ferramenta valiosa para organizar um conjunto de dados e ao mesmo tempo, compreender a maneira com os valores se distribuem e se agrupam ao longo da amplitude de observação no conjunto de dados. • • Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos restantes). Devemos escolher poucos ramos em relação ao total de observações (entre 5 e 20). Exemplo: Considere os dados abaixo representando a resistência à compressão de uma amostra de 80 corpos de prova de liga de alumínio: 105 97 245 163 207 134 218 199 160 196 221 154 228 131 180 178 157 151 175 201 183 153 174 154 190 76 101 142 149 200 186 174 199 115 193 167 171 163 87 176 121 120 181 160 194 184 165 145 160 150 181 168 158 208 133 135 172 171 237 170 180 167 176 158 156 229 158 148 150 118 143 141 110 133 123 146 169 158 135 149 Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir: 14 Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova. Ramo Folha 76 87 97 10 51 11 580 12 103 13 413535 14 29583169 15 471340886808 16 3073050879 17 8544162106 18 361410 19 960934 20 7108 21 8 22 189 23 7 24 5 Frequencia 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1 O GRÁFICO DE PARETO Consiste de um gráfico de barras verticais que dispõem a informação, de forma a tornar evidente e visual a priorização de temas. O princípio de Pareto estabelece que os problemas relacionados à qualidade se traduzem na forma de perdas e podem ser classificados em duas categorias: “ os poucos vitais” e os “muitos triviais”. Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da qualidade, com o objetivo de resolver o seguinte problema: aumento no número de lentes defeituosas produzidas pela empresa, a partir de fevereiro de 2004. Em uma etapa de observação, a empresa classificou uma amostra de lentes produzidas, de acordo com os tipos de defeitos encontrados, tendo obtido os resultados da Tabela 2.4, a seguir. 15 Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela indústria Freqüência de Total Tipo de Defeito defeitos Acumulado Freqüência Percentual relativa (%) Acumulado Revest. Inadequado 55 55 43,3 43,3 Trinca 41 96 32,3 75,6 Arranhão 12 108 9,4 85,0 Espessura inadequada 11 119 8,7 93,7 Mal-acabada 5 124 3,9 97,6 outros 3 127 2,4 100,0 127 - 100,0 - Total FONTE: Indústria de lentes Gráfico de Pareto para os defeitos das lentes 60 100,0 50 80,0 40 60,0 defeitos % Acum 30 40,0 20 20,0 10 0 0,0 outros Mal-acabada Espessura inadequada Arranhão Trinca Revest. Inadequado 16 O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade, destacando-se: • • • • • • Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes categorias: equipamentos, insumos, informação do processo ou medidas, condições ambientais, pessoas, métodos ou procedimentos. Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias: qualidade, custo, entrega, segurança, etc. Gráfico de Pareto expresso em unidades monetárias Gráfico de Pareto estratificado (por operador, etc) Comparações tipo antes e depois Desdobramento de gráficos de Pareto (causas e sub-causas) 17 3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS O resumo dos dados na forma de tabelas, bem como a visualização da sua distribuição, na forma de gráficos, são importantes elementos na análise dos mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na forma numérica. São apresentadas a seguir as principais medidas utilizadas para se quantificar os valores centrais da distribuição dos dados (locação), bem como o grau de dispersão dos dados em torno dos valores centrais (variabilidade). 3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética, mediana CÁLCULO DE MEDIDAS DE LOCAÇÃO A média aritmética é a medida mais comumente utilizada para representar um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito através da fórmula: n X = ∑ Xi i =1 n A mediana corresponde ao valor central de uma distribuição. No caso de dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de n ser par, a mediana é obtida como a média aritmética dos dois valores centrais da distribuição dos dados em ordem crescente, ou seja: Me = X ( n / 2 ) + X ([ n / 2 ]+1) 2 Caso os dados estejam dispostos em uma tabela de freqüências os cálculos são efetuados através das expressões a seguir. No caso da média aritmética: k X = ∑X i =1 i fi n 18 No caso da mediana, tem-se: Me = Li + [(0,5)n − Fant ] .c f Me Onde: Li = limite inferior da classe mediana; Fant = freqüência acumulada até a classe anterior fMe = freqüência simples na classe mediana c = amplitude da classe mediana. OUTRAS MEDIDAS DE LOCAÇÃO A distribuição dos dados pode ser divida em mais de duas partes. No caso de dividi-la em quatro partes iguais, os pontos de corte correspondentes são chamados de Quartis e representam medidas estratégicas na distribuição. O primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das observações abaixo de si. O segundo quartil tem aproximadamente 50% das observações abaixo de seu valor e corresponde à mediana, medida anteriormente estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das observações. Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005): 1) Se o ponto de posicionamento resultante for um numero inteiro, a observação numérica correspondente àquele ordinal será o valor do quartil. 2) Se o ponto de posicionamento estiver entre dois números inteiros, a média de seus respectivos valores será tomada como o quartil. 3) Se o ponto de posicionamento resultante não se tratar de um número inteiro, nem correspondente á metade do intervalo entre dois inteiros, uma regra a ser aplicada pode ser a de arredondar para o inteiro mais próximo e selecionar o valor numérico relativo à observação correspondente. 4) Uma outra regra a ser adotada na situação 3 pode ser interpolar entre os valores correspondentes. 19 Como exemplo, vamos calcular os quartis para a série de dados abaixo: 9,8 11,3 21,5 25 12,5 38,9 13,5 16,5 17,5 18 18,1 18,7 19 20 Q1 = (n+1)/4 = (14+1)/4 = 3,75 Assim, pela regra 3 o primeiro quartil corresponde à quarta observação ordenada, ou seja, Q1 = 13,5. Por outro lado, Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima primeira observação ordenada, ou seja, Q3 = 20. 3.2 MEDIDAS DE VARIABILIDADE A variabilidade está presente em todo e qualquer processo produtivo de bens ou serviços. De modo geral, pode-se dizer que a variabilidade é resultado de uma série de alterações nas condições sob as quais as observações são tomadas. Segundo WERKEMA (1995), tais alterações podem refletir diferenças entre matérias-primas, condições de equipamentos, métodos de trabalho, condições ambientais e operadores envolvidos no processo. A redução da variabilidade de processos permite que a produção de itens cuja característica de interesse esteja próxima de um valor alvo desejado e dentro de limites especificados. CÁLCULO DE MEDIDAS DE VARIABILIDADE A discrição dos dados através de medidas de locação pode esconder importantes informações com respeito variabilidade dos dados. Como exemplo ilustrativo, suponha que 3 grupos de alunos submeteram-se a um teste, obtendose os valores abaixo: GRUPO A GRUPO B GRUPO C 3 1 5 4 3 5 5 5 5 6 7 5 7 9 5 Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não apresentam diferenças quanto ao aspecto de locação; entretanto a variabilidade dos resultados difere bastante entre os 3 grupos, sendo necessária uma medida que sumarize esse aspecto. Uma medida, de caráter preliminar, de abordagem da dispersão é a chamada amplitude do conjunto de dados, correspondente à diferença entre o valor máximo e o valor mínimo. No caso dos dados acima, a amplitude do grupo A 20 seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria igual a 0 (zero). Embora a amplitude seja uma medida simples da variação total nos dados, ela não leva em consideração o modo como os dados estão distribuídos entre os valores extremos. O grau de dispersão ou variabilidade dos dados em torno da média pode ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente de variação. O princípio básico é medir o desvio das observações (di), em relação à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a soma desses desvios, porém essa não é uma boa alternativa porque tal soma é igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é trabalhar com a soma dos quadrados desses desvios e em seguida obter um desvio médio. Desse modo a fórmula para o cálculo da variância populacional de um conjunto de dados pode ser expressa como: n σ2 = ∑(X i =1 i − X )2 n Alternativamente, pode-se mostrar que tal expressão pode ser escrita como: (∑ X i ) 1 σ = [∑ X i2 − ] n n 2 2 Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que apresenta algumas propriedades interessantes, como representante da variância de uma população, lembrando que a diferença entre as duas fórmulas diminui à medida que o tamanho da amostra aumenta. (∑ X i ) 1 s = [∑ X i2 − ] n −1 n 2 2 Considerando os dados relativos às notas dos alunos do grupo A, temos que: ∑X 2 i = 135 21 ∑X i = 25 Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das notas será dada por: S2 = ¼(135 – 125) = 2,5. No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da expressão: (∑ X i f i ) 1 s = [∑ X i2 f i − ] n −1 n 2 2 Para ilustrar considere o cálculo da variância dos salários dos empregados, a partir da Tabela 4: Cálculo da variância dos dados da Tabela 4 (salários dos empregados) Ponto CLASSE DE Freq. Freq. Freq. RENDA(sal.min.) simples(fi) Relativa Acumulada (Fi) médio(Xi) 4 |----- 8 7 14,0 7 6 8 |----- 12 8 16,0 15 10 12 |----- 16 20 40,0 35 14 16 |----- 20 10 20,0 45 18 20 |----- 24 5 10,0 50 22 TOTAL 50 100,0 - Xifi 42 80 280 180 110 692 Xi2fi 252 800 3920 3240 2420 10632 Desse modo, tem-se que: s2 = 1 692 2 [10.632 − ] = 21,525 49 50 Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo grupo, por exemplo, se há maior grau de dispersão com relação ao peso dos 22 indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos comparar o grau de dispersão de grupos com médias bastante distintas. Em tais casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a média aritmética dos dados, sendo portanto escrito como: γ = s X Uma outra medida de dispersão que pode ser empregada é a chamada amplitude interqualtil, representada pela diferença entre o terceiro e o primeiro quartis, ou seja: J = Amplitude Interquartil = Q3-Q1. Esta medida considera a dispersão nos dados que estão entre os 50% de observações centrais, não sendo, portanto, influenciada pelas observações extremas. 23 3.3 ASSIMETRIA Um outro aspecto de interesse na análise de um conjunto de dados referese ao seu formato, ou o grau de assimetria, que está associado com a forma com que se distribuem os dados em torno dos valores centrais. Desse modo, pode-se encontrar distribuições com os seguintes aspectos: Distribuição dos salários dos empregados do setor de produção da Companhia A 30 freq. simples 25 20 15 10 5 0 6 10 14 18 22 sal.min. No caso da Companhia A tem-se uma distribuição SIMÉTRICA dos salários, ou com grau de assimetria zero. Nesse caso a média coincide com a mediana. 24 Distribuição dos salários dos empregados do setor de produção da Companhia B 16 14 freq. simples 12 10 8 6 4 2 0 6 10 14 18 22 sal.min. A Companhia B apresenta uma distribuição com uma ASSIMETRIA POSITIVA, ou seja, uma cauda mais acentuada no lado direito da distribuição e uma maior concentração em valores mais baixos. Nesse caso, a média é aumentada em função de alguns valores elevados incomuns, sendo maior que a mediana. Distribuição dos salários dos empregados do setor de produção da Companhia C 16 14 freq. simples 12 10 8 6 4 2 0 6 10 14 18 22 sal.min. A distribuição dos salários da Companhia C apresente uma ASSIMETRIA NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais 25 elevados da distribuição. No caso a média é reduzida em função de alguns valores mais baixos, sendo inferior à mediana. E agora se você gostaria de trabalhar em qual das companhias? 3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT Tanto a média como o desvio-padrão podem ser bastante afetados por observações extremas e não fornecem informação sobre o grau de assimetria da distribuição. Para tentar contornar tais dificuldades, TUCKEY (1977) propôs o uso de cinco medidas, conhecido como o esquema dos cinco números, que são: a Mediana, o primeiro e terceiro Quartis e os valores Extremos do conjunto de dados. O esquema pode ser visualizado na figura abaixo: Me Q1 Min Q3 Max O Box Plot é uma representação gráfica que procura descrever, de forma simultânea, diversas características importantes de um conjunto de dados, tais como tendência central, variabilidade, assimetria e valores extremos ou “outliers”. Seu desenho tem como base o esquema dos 5 números, tomando os valores extremos como um múltiplo da amplitude interquartil, geralmente considera-se o valor de 1,5 vezes a amplitude interquartil. Uma observação a mais de 3 amplitudes interquartis é considerada um “outlier" “extremo”. O Box Plot é representado pela figura abaixo, onde a linha central da caixa corresponde à mediana dos dados, com o canto esquerdo (ou inferior) no primeiro quartil e o canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos como: E1 = Q1 – 1,5 J e E2 = Q3 +1,5 J. E1 Q1 Me Q3 E2 26 EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de uma amostra de 14 fundos de baixo risco. Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco Fundo BRINSON Global equity Phoenix-Zweig Managed asset C AIM Global Gr In A MFS Global Tot Ret A Fremont Global Scudder Global Van Kampen Global eq All B Fidelity Global balanced Tweedy Browne Global Value MERRILL LYNCH Gbl Value D MORG STAN DW European Growth DREYFUS PREMIER Worldwide Gr A ACORN Int JANUS Worldwide Retorno 3Anos 9,77 11,35 12,46 13,8 15,47 17,48 18,37 18,47 18,61 20,72 21,49 22,47 31,5 38,16 FONTE: LEVINE ET AL. 2005 A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª observações, ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O primeiro quartil corresponde à observação (n+1)/4 = 3,75, aproximada pela 4ª observação, logo Q1 = 13,8. O terceiro quartil é aproximado pela observação (3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou seja, Q3 = 21,49. A amplitude interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse modo, os valores extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 = 21,49 + 1,5(7,69) = 33,02. 27 4 NOÇÕES DE PROBABILIDADE O primeiros estudos começaram com problemas formulados pelo Barão de Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza. A despeito do caráter casual que envolve o resultado de um experimento aleatório, é possível construir um modelo que o reproduza, sem que seja necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar um experimento simples como o lançamento sucessivo de um dado. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado Probabilidade 1 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 1/6 Ainda como ilustração, considere um lote contendo 50 peças, das quais 10 são defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado Perfeita(P) Defeituosa(D) Probabilidade 4/5 1/5 Um modelo probabilístico associado a um experimento aleatório, conforme observado acima, pode ser especificado por um espaço amostral (S), que consiste no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos do espaço amostral são denominados de eventos, geralmente denotados por letras latinas maiúsculas A,B,C, ou A1, A2, etc. DEFINIÇÕES DE PROBABILIDADE Uma probabilidade pode ser atribuída com base nas características teóricas da realização do experimento, como é o caso do exemplo do lançamento do dado, visto anteriormente. No caso, a probabilidade clássica a priori é baseada no conhecimento prévio sobre o experimento. No caso mais simples, em que cada resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do evento é dada pela expressão: P= casos favoráveis casospossíveis Uma probabilidade também pode ser obtida de forma empírica, através da freqüência relativa. Pode-se verificar que à medida que o número de realizações do experimento aumenta, a freqüência relativa de um evento de interesse tende a 28 se estabilizar em um valor que representa a sua verdadeira probabilidade. Os resultados são baseados em dados observados e não no conhecimento prévio sobre o fenômeno investigado. Tal definição de probabilidade pode ser aplicada para calcular, por exemplo, a percentagem de indivíduos fumantes em uma escola, a proporção de votos de um candidato político ou ainda o percentual de analfabetos em uma comunidade. Uma probabilidade pode ser definida como uma função que satisfaz os seguintes axiomas: 1) P(A) ≥ 0 2) P(S) = 1 n n j =1 j =1 3) P (U A j ) = ∑ P ( A j ) Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai ∩ Aj) = ∅ ALGUMAS PROPRIEDADES 1) Seja A um evento qualquer, então 0 ≤ P(A) ≤ 1. 2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A). 3) P(A ∪ B) = P(A) + P(B) – P(A ∩ B), sendo A e B eventos quaisquer. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Em muitas situações, o cálculo da probabilidade de um evento pode ser feito com base em alguma informação adicional fornecida, sendo o espaço amostral atualizado. Essa nova probabilidade recalculada pode ser chamada probabilidade condicional. Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B ocorrer, dado que o evento A ocorreu é dada por: P( B | A) = P( A ∩ B) P ( A) onde P(A) ≥ 0. Definição: dois eventos A e B são independentes se a informação da ocorrência de A não altera a chance da ocorrência de B, ou seja: P(B|A) = P(B) 29 Ou seja, P(A ∩ B) = P(A).P(B) APLICAÇÃO A tabela abaixo apresenta o número de alunos matriculados no Departamento de Matemática de certa universidade: CURSO Matemática (A) Física (F) Informática (C) Estatística (D) MASC. (M) FEM (F) 60 15 10 15 30 10 15 5 Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes: a) b) c) d) e) f) P(A) P(D) P(H) P(A ∪ M) P(B ∩ F) P(M | C). 30 5. VARIÁVEIS ALEATÓRIAS Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de uma realização para outra do experimento. Podem ser classificadas de acordo com o esquema abaixo: DISCRETA Surgem através de um processo de contagem Ex: Número de filhos de um casal, Número de defeitos em uma chapa metálica, etc VARIÁVEL ALEATÓRIA CONTÍNUA Resulta de um processo de medição, assumindo valores num conjunto infinito não enumerável Ex: Peso, Altura, Renda, etc. 5.1. CASO DISCRETO: • • • A variável aleatória assume valores X1, X2, ...... Xn A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn Pode–se definir uma função de probabilidades, f (x), tal que: f ( x) ≥ 0 e ∑ f (x) = P ( X = x) = 1 Em resumo tem-se: 31 X X1 X2 X3 ...... XN Distribuição de Probabilidades P(X=x) P1 P2 P3 ...... PN MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA: Média: E(X)= Variância: ∑ Xi . P ( X = xi ) V ( X ) = E (X2 ) – E2 ( X ) Onde: E ( X2 ) = ∑X 2 .P(X=x ) 5.2. CASO CONTÍNUO: • • A Variável assume valores em intervalos Pode–se definir a função de densidade de Probabilidades, f (x ) , tal que: 1. f ( x) ≥ 0 +∞ 2. ∫ f ( x)dx = 1 −∞ b 3. P (a < X < b) = ∫ f ( x) dx a 32 APLICAÇÃO: 1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao acaso, sem reposição. Seja X V.A representando o número de defeituosas. a) Determinar o espaço amostral do experimento e suas respectivas probabilidades. b) Obtenha a distribuição de probabilidades da variável X. c) Calcule E ( X ) e V ( X ). 2) Repetir o exercício acima usando amostragem com reposição. 33 6. MODELOS DISCRETOS: 6.1. DISTRIBUIÇÃO DE BERNOULLI Seja um experimento com apenas dois resultados possíveis: Sucesso e Fracasso. Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso contrário. Tem-se então a seguinte distribuição de probabilidades para tal variável: X 0 1 P(X=x) (1–P) P É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq 6.2. • • • DISTRIBUIÇÃO BINOMIAL Tem-se n realizações independentes de um experimento tipo Bernoulli. A Probabilidade de sucesso “p” é constante. Deseja-se obter a chance de ocorrerem k sucessos nas n realizações. Seja X Variável aleatória definida como o número de sucessos nas n realizações. Então: Função de Probabilidades Binomial P (X = K ) = ( KN ) . pk. ( 1- p)n-k Verifica-se que, no caso da Distribuição Binomial, temos: Média = np e VARIÂNCIA = npq PARÂMETROS 34 6.3. MODELO DE POISSON: Distribuição de probabilidades discreta com importantes aplicações, em casos que envolvem contagem de eventos que ocorrem em intervalos de tempo, volume, superfície. APLICAÇÕES: • • • • Chegada de clientes numa fila Ocorrência de falhas por metro quadrado de tecido produzido Número de chamadas telefônicas que chegam numa central Limite da Distribuição Binomial Formula: P (X = k) = e − λt ( λt ) K k! Onde: λ = taxa de ocorrências. t = n.º de unidades de tempo ou espaço. 6.4. MODELO HIPERGEOMÉTRICO Considere uma população de N elementos, dos quais r têm uma certa característica. Retira-se dessa população uma amostra de n elementos. Define-se X como o nº de sucessos ( nº de elementos com a característica citada ) na amostra. Deseja-se calcular P(X=k), que é dado por: ( rk )( nN−−kr ) P( X = k ) = ( nN ) 35 APLICAÇÃO: 1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas. Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se ter: a) Exatamente 2 defeituosas b) No máximo, uma perfeita 2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto. a) Nenhum cliente em intervalo de 01 minuto. b) Exatamente 06 clientes em 02 minutos. 3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de qualidade examina cada caixa testando 5 motores. Se nenhum deles for defeituoso a caixa é aceita. Se houver ao menos um defeituoso toda a caixa é testada. Sabendo que há 6 motores com defeito numa caixa, calcule a probabilidade desta ser examinada por completo. 36 7. MODELOS CONTÍNUOS 7.1. DISTRIBUIÇÃO NORMAL • • • • • • O exame dos gráficos de freqüência sugere a curva representativa da distribuição da variável. As curvas de distribuição permitem o cálculo de probabilidades sobre a Variável estudada. A curva normal é uma das mais importantes e utilizadas na Estatística. Muitas variáveis, na prática, seguem o modelo normal. O Modelo Normal possui dois parâmetros: a média (µ) e o desvio padrão (σ). Notação X~N( µ,σ ) GRÁFICO DA CURVA NORMAL: 68% µ-σ µ µ+σ Do gráfico acima, observa-se algumas importantes propriedades da curva normal: 1) 2) 3) 4) A área sob a curva é igual a 1. A curva é simétrica em relação à sua média. A curva possui dois pontos de inflexão em (µ + σ) e (µ - σ). A curva possui um ponto máximo em x = µ. 37 USO DA TABELA NORMAL Para se calcular probabilidades associadas à curva normal, deve ser utilizar X −µ . p chamado escore padrão, definido como: Z = σ A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre de interesse: 0 z Como exemplo, vamos obter as seguintes áreas: 1) P ( 0 < Z < 1 ) = 0,3413 0 1 2) P ( Z > 1 ) = 0,50 – 0,3413 1 38 3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413 -1 • 0 A Tabela Normal também pode ser usada no sentido inverso, ou seja: Dada uma determinada área, qual o escorre corresponde? Considere a situação abaixo: 5% z=1,64 0 z 2,5% z = 1,96, -z 0 =5% z 39 APLICAÇÃO: Diâmetro de parafusos produzidos por certa indústria, segue o modelo normal, com média de 172mm e desvio padrão de 5mm. a) Qual a proporção de parafusos com diâmetro inferior a 177mm? b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm? c) Qual o valor acima do qual estão 2,5% dos diâmetros? 40 8. DISTRIBUIÇÕES AMOSTRAIS As características de uma população podem ser descritas através de estatísticas populacionais, conhecidas como parâmetros, que podem então ser definidos como medidas numéricas que descrevem características de uma população. Os parâmetros são quantidades desconhecidas que precisam ser estimadas com o uso de uma amostra extraída da população. Uma importante etapa no trabalho de análise de dados é a inferência estatística, onde estatísticas amostrais tais como a média aritmética, o desvio padrão ou a proporção, são utilizadas para estimar os parâmetros populacionais correspondentes. As distribuições amostrais podem ser vistas como: • • Distribuição de probabilidades de uma estatística amostral Indicam como variam as estatísticas devido a variações no processo de amostragem. Onde está a Variabilidade? • • • Na própria estatística Na distribuição da população em estudo Tem relação inversa com o tamanho da amostra 8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS Para introduzir a idéias da distribuição amostral de médias, considere o exemplo a seguir. EXEMPLO 8.1: Suponha que nossa população de estudo é formada pelo número de defeitos encontrados em quatro chapas metálicas produzidas por certa indústria, cujos valores são: 3, 4 e 5. A média populacional é dada por: µ = (3+4+5)/4 = 4 defeitos por chapa. A variância populacional do número de defeitos é dado por: (3 − 4) 2 + (4 − 4) 2 + (5 − 4) 2 σ = = 0,6666 3 2 Vamos agora selecionas amostras de tamanho 2 dessa população que, no total são 32 = 9 amostras possíveis, cujos resultados encontram-se na tabela abaixo: 41 Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser extraídas da população do exemplo 8.1 Amostra Média Amostral (3,3) 3 (3,4) 3,5 (3,5) 4 (4,3) 3,5 (4,4) 4 (4,5) 4,5 4 (5,3) (5,4) 4,5 5 (5,5) Como cada uma das 9 amostras tem a mesma chance de ocorrência, a distribuição de probabilidades da média amostral é dada por: Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1 Valor da média Probabilidade 3 1/9 3,5 2/9 4 3/9 4,5 2/9 5 1/9 A média da distribuição amostral de médias pode ser obtida como: 1 9 2 9 3 9 2 9 1 9 µ x = 3. + 3,5. + 4. + 4,5. + 5. = 4 Portanto a média da distribuição amostral de médias é igual à média populacional, anteriormente calculada. Por outro lado, a variância da distribuição amostral de médias pode ser calculada por: σ x2 = E ( X 2 ) − E 2 ( X ) , onde 1 2 3 2 1 E ( X 2 ) = 3 2. + 3,5 2. + 4 2. + 4,5 2. + 5 2 = 16,333 , portanto: 9 9 9 9 9 σ x2 = E ( X 2 ) − E 2 ( X ) = 16,333 − 4 2 = 0,333 42 Portanto, a variância da distribuição amostral de médias poderia ser obtida como: σ = 2 x σ2 n = 0,6666 = 0,3333 . 2 Em resumo, a média da distribuição amostral de médias coincide com a média populacional, µ x = µ , enquanto a variância da distribuição amostral de médias equivale a σ x2 = σ2 n , cujo desvio-padrão é dado por σ x = σ n . AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL No caso de populações normalmente distribuídas, com média aritmética µ e desvio padrão σ, pode-se mostrar que a distribuição amostral de médias também será normalmente distribuída com média µ e desvio padrão z= (x − µ) σx = (x − µ) n σ σ n . A estatística: , tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum). 43 Em resumo, podemos afirmar sobre a distribuição amostral de médias que: • • • É obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média µ e desvio padrão σ. A média da distribuição amostral de médias é igual à média populacional A variância da distribuição amostral de médias é dada por: σ2 n • O desvio padrão da distribuição amostral de médias (erro-padrão da média) é dado por: σ n • Para um tamanho de amostra suficientemente grande, a distribuição amostral de médias é aproximadamente normal. • A estatística correspondente à equação abaixo é aproximadamente N(0,1). z = (Z σ n Z= (x − µ) n σ APLICAÇÃO: 1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de 100 dias com desvio padrão de 8 dias. Tomando-se uma amostra de 36 lâmpadas ao acaso, pergunta-se; a) Qual média e desvio padrão da distribuição amostral de médias? b) Que percentual de lâmpadas terá vida média superior a 99 dias? c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias? 44 8.2 DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES Em muitas situações trabalhamos com variáveis de natureza categórica, onde cada elemento é classificado como possuidor ou não de certa característica, ou variáveis tipo zero-um. Uma determinada peça pode ser classificada como defeituosa ou perfeita; um indivíduo pode ser classificado como a favor ou contra a pena de morte, etc. Nesses casos é importante estimar a proporção de sucessos em uma amostra, obtida como: P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é o tamanho da amostra. De forma semelhante ao que foi tratado na distribuição amostral de médias podemos resumir, no caso de proporções, que: • • A média da distribuição amostral de proporções é igual à proporção populacional O desvio padrão da distribuição amostral de proporções é dado por: σp = • • p (1 − p ) N Para amostras suficientemente grandes a distribuição amostral de proporções segue o modelo normal. A estatística da equação abaixo é aproximadamente N(0,1). z= p−P σ p APLICAÇÃO: 1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de fabricação. Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de defeituosas? 45 9. ESTIMAÇÃO: NOÇÕES GERAIS Vimos que a inferência estatística é o campo da estatística no qual são tomadas decisões sobre populações, com base na informação extraída de uma amostra. Nesse processo são produzidas estimativas sobre os parâmetros populacionais de interesse ou formuladas testes de hipóteses sobre os mesmos. Tais estimativas podem ser obtidas de forma pontual ou por intervalos. Um gerente de uma empresa de produtos automotivos pode, por exemplo, estar interessado em verificar como se comporta a resistência à tração de determinado componente, produzido sob diferentes variações na tensão elétrica. Inicialmente ele pode estar interessado em estimar a resistência média à tração, sob determinada tensão. Nesse caso ele poderá obter uma estimativa pontual ou um intervalo de confiança para a resistência média populacional, com base em uma amostra obtida. Em uma outra situação ele poderia estar interessado em verificar como se comporta a resistência média à tração, sob duas diferentes tensões elétricas no momento da produção, para testar se há diferenças estatisticamente significativas nesse parâmetro, sob as diferentes condições de produção. Nesse caso, ele estaria diante de um problema de decisão, que pode ser resolvido via testes de hipóteses estatísticas. A hipótese seria de que a resistência média à tração sobre a tensão t1 seria, por exemplo, superior à resistência média à tração em peças produzidas sob a tensão t2. Em resumo, podemos afirmar que: • • • • • Resultados extraídos de uma amostra podem ser usados para produzir inferências sobre a população. Parâmetro: medida numérica que descreve alguma característica da população. Estatísticas: funções de valores amostrais. A estimação pode ser pontual ou por intervalos Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de testes de hipóteses estatísticas. O processo de inferência sobre dados estatísticos pode ser sumarizado no esquema a seguir: 46 Pontual – a partir de observações calcula-se uma estimativa. ESTIMAÇÃO Por intervalo - fixação de dois valores com probabilidade (1-∝) de conter o verdadeiro valor do parâmetro. AMOSTRAGEM TESTES DE HIPÓTESES – permite decidir por um valor do parâmetro ou por sua modificação, com um risco conhecido. A média amostral é um estimador pontual natural da média populacional. Com o uso de resultados do chamado Teorema do Limite Central, podemos encontrar e expressão para a construção de um intervalo de confiança para a verdadeira média populacional. Tal intervalo pode ser obtido pela expressão: x ± Zα 2 σ n , onde: x Corresponde à média amostral, Zα/2 corresponde ao valor tabelado, obtido na tabela da distribuição normal, α Corresponde ao nível de significância adotado e 47 σ Corresponde ao desvio-padrão da distribuição amostral da média. n Para uma probabilidade de 95% de confiança, tal intervalo fica: x ± 1,96 σ n O que significa que, construídos dessa forma, cerca de 95% dos intervalos conterão o verdadeiro valor do parâmetro µ (média populacional). Quando o desvio padrão populacional é desconhecido, o mesmo deve ser substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t de Student em lugar da distribuição Normal. No caso de uma amostra como temos que estimar o desvio padrão e o mesmo necessita da estimação prévia da média, perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde a (n1+n2-2) graus de liberdade. Estimadores pontuais e por intervalos de alguns parâmetros populacionais mais freqüentemente usados, tais como médias, proporções e diferenças de médias são resumidos no quadro abaixo: Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros populacionais PARÂMETRO ESTIMADOR PONTUAL ESTIMADOR POR INTERVALO ___ ___ X + /− Z α / 2 X Média (com variância conhecida) ___ Média (com variância desconhecida) X Proporção P ___ X + / − tα / 2 ^ ^ P + / − Zα / 2 __ Diferenças de Médias (variâncias conhecidas) __ Diferenças de Médias (variâncias desconhecidas) __ X 1− X 2 __ X 1− X 2 __ σ N S n P(1 − P) n __ ( X 1 − X 2 ) + / − Zα / 2 __ __ ( X 1 − X 2 ) + / − tα / 2 Sc σ 12 n1 + σ 22 n2 1 1 + n1 n2 48 APLICAÇÃO: Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de 5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média populacional. Uma amostra de 50 componentes eletrônicos, extraída de um grande lote, apresenta 5 componentes defeituosos. Construir um intervalo de confiança para a proporção de defeituosos no lote. 49 10. TESTES DE HIPÓTESES 10.1 – CONSIDERAÇÕES GERAIS Testes de hipóteses constituem uma outra face do trabalho de inferência estatística e, a exemplo da estimação por intervalos, também fazem uso da informação contida em uma amostra. Uma hipótese estatística geralmente é uma afirmação sobre parâmetros populacionais e o teste de hipóteses um processo de decisão relativo a uma hipótese particular. A informação de uma amostra aleatória é utilizada para avaliar a plausibilidade da hipótese formulada. Se tal informação for consistente com a hipótese tenderemos a concluir que não há evidências que favoreçam sua rejeição, pois o fato de utilizar apenas uma amostra não nos permite concluir com certeza sobre a veracidade ou não de uma hipótese formulada. Exemplo 10.1 - Para ilustrar, suponha que uma empresa produtora de detergente deseja avaliar se a máquina que enche as garrafas plásticas está adequadamente regulada, para o valor especificado de 5 litros, por garrafa e que o desvio padrão do processo seja da ordem de 0,5 litros. Caso a máquina esteja devidamente regulada, espera-se que o valor médio de uma amostra de garrafas concorde com um valor médio de 5 litros. Formula-se então a chamada hipótese nula (H0) como sendo: H0: µ = 5. Observe que a formulação de tal hipótese leva em conta o parâmetro populacional µ, uma vez que o interesse não reside apenas na amostra a ser investigada, mas sim na população de todas as garrafas submetidas ao processo de enchimento. Para contrastar com a hipótese nula, uma outra hipótese deve ser enunciada, estabelecendo ou não um sentido para a diferença entre ambas. A chamada hipótese alternativa, geralmente é denotada por H1. No caso, suponha que tal hipótese seja definida como: H1: µ ≠ 5. Caso a hipótese nula seja verdadeira, naturalmente espera-se que a mostra investigada forneça um valor médio próximo do especificado pela mesma. Porém, devido às variações decorrentes do processo amostral, mesmo que a hipótese nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos. Se a média da amostra fornecer um valor muito distante do valor estabelecido na hipótese nula, ou seja, 5, seremos levados a concluir que a mesma teria muito pouca chance de ser verdadeira e, conseqüentemente, pela irregularidade na máquina de enchimento. A metodologia dos testes de hipóteses nos vai fornecer 50 elementos claros para melhor aquilatar essas diferenças e conseqüentemente tomar uma decisão, com base em critérios probabilísticos. Após a formulação das hipóteses, deve ser estabelecida uma estatística do teste e investigada sua distribuição amostral, que deve ser conhecida. Em seguida, a distribuição amostral da estatística do teste é dividida em duas regiões: uma região de aceitação da hipótese nula e uma região de rejeição, também conhecida como região crítica, que consiste em valores improváveis de ocorrer para a estatística do teste, caso a hipótese nula seja verdadeira. Em qualquer processo decisório estamos sujeitos a cometer erros e no caso de testes de hipóteses não é diferente. Dois tipos de erros são então observados: O erro do tipo I que consiste em rejeitar a hipótese nula quando a mesma é verdadeira. O erro do tipo II que consiste em não rejeitar a hipótese nula quando a mesma é falsa. A probabilidade de ocorrência do erro do tipo I, denotada por α, é chamada de nível de significância do teste. A fixação de um nível de significância determina uma região de rejeição de um teste, estabelecendo uma regra de decisão para o processo. Usualmente, estes valores são fixados em 1%, 5% ou 10%. De forma resumida, o processo de decisão, baseado em um teste de hipóteses, pode ser visualizado no seguinte esquema: • • Formula-se uma hipótese sobre a Média populacional desconhecida Com base numa amostra de tamanho n procura-se decidir sobre essa hipótese Rejeitar a hipótese formulada • Toma-se, então, uma decisão EVIDÊNCIAS DA AMOSTRA Não rejeitar a hipótese formulada São definidas as Hipóteses: H0: µ = µ 0 (hipótese nula) H1: µ ≠ µ 0 (hipótese alternativa) 51 • • • Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma amostra n observações, um valor amostral tão ou mais discrepante que a média observada? Se tal probabilidade for muito pequena, a média amostral observada não é compatível com a hipótese H0. Logo a hipótese formulada tende a ser rejeitada. Um teste de hipóteses procura responder a questão: A diferença entre o valor amostral e o parâmetro é devido apenas ao acaso? (variação amostral) • Em geral a regra de decisão para um teste envolve: - Uma amostra aleatória - Uma estatística amostral - Uma distribuição amostral da estatística - Definição de erros na forma de probabilidades de significância Significativo Rejeição de H0 Variação não casual Resultado amostral Não significativo Variação casual Não rejeita H0 52 Erros envolvidos num teste de hipóteses: SITUAÇÃO REAL CONCLUSÃO DO TESTE Não Rejeitar H0 Rejeitar H0 H0 VERDADE H0 FALSA Certo Erro tipo II ( β ) Erro tipo I ( α ) Certo CUIDADO! • • Resultado não significante não prova que, H0 é verdade mas, sim, que os dados não forneceram evidência suficiente para rejeita-la. Procurar afastar, na medida do possível, fatores externos que perturbem as conclusões. 53 10.2 – TESTE DE HIPÓTESE PARA A MÉDIA COM DESVIO PADRÃO CONHECIDO Considere o exemplo 10.1, relativo à máquina de enchimento de detergente. O gerente precisa decidir se a máquina está devidamente regulada, para um valor médio de 5 litros. Suponha que foi tomada uma amostra de 25 garrafas, sendo obtido um valor médio de 4,75 litros. Foram formuladas as seguintes hipóteses: H0: µ = 5. H1: µ ≠ 5. No caso o desvio padrão populacional (σ) é conhecido, sendo σ = 0,5. A distribuição amostral da média segue o modelo Normal, com média igual à média populacional, ou seja, µ, e desvio padrão igual a estatística do teste é dada por: Z = (x − µ) n σ σ . Desse modo, a n . (Quadro 10.1). Fixando um nível de significância de 5%, o tamanho da região crítica é de 0,05 e os valores críticos da distribuição normal podem ser determinados, uma vez que o desvio-padrão é conhecido. Tais valores críticos podem ser colocados na forma de unidades de desvio-padrão, chamadas de valor Zcal. Levado em conta que o teste aqui exemplificado é bi-lateral, a região crítica é divida em duas partes iguais a α/2, no caso 0,05/2 = 0,025. De acordo com a tabela da distribuição normal os valores críticos correspondestes a tal área são –1,96 e 1,96, conforme ilustrado na figura abaixo: 2,5% z = 1,96, -z 0 =5% z Uma etapa fundamental nessa abordagem de testes de hipóteses é a fixação de uma regra de decisão, que no caso pode ser formulado como rejeitar a hipótese nula (H0) se: Zcal > 1,96 ou se Zcal < -1,96. 54 Portanto, no exemplo em questão, tivemos Zcal= -2,5, portanto <-1,96, valor na área de rejeição, o que nos permite concluir pela rejeição de H0, indicando que há evidências de que a máquina estaria realmente mal regulada. Z cal = (x − µ0 ) n σ = (4,75 − 5) 25 = − 2,5 0,05 O NÍVEL DESCRITIVO (valor-p) DE UM TESTE DE HIPÓTESES Na abordagem anterior de um teste de hipóteses, partíamos de um valor α pré-fixado, entretanto, com a profusão de pacotes estatísticos computacionais, o chamado método de valor-p (nível observado de significância) tem assumido crucial importância. Tal método consiste na verdade em uma alternativa, que deixa a critério do pesquisador que realiza o teste de hipóteses, a possibilidade de calcular o nível observado de significância, que representa o menor nível a partir do qual a hipótese nula pode ser rejeitada (valor-p). A regra de decisão do nível descritivo fica a seguinte: • • Rejeitar H0 se o valor-p for menor que o nível pré-fixado (α), ou Não rejeitar H0 se o valor-p for maior ou igual a α. Consideremos o exemplo 10.1, abordado agora por este método. Como o teste é bi-lateral, teremos que encontrar a probabilidade de que a probabilidade da estatística Z do teste seja tão extrema quanto a que foi observada, ou seja, precisamos encontrar a probabilidade de que tal estatística seja inferior a –2,50 ou superior a 2,50. Consultando a tabela da distribuição normal, chegamos à conclusão de que a probabilidade de que o valor de Z ser inferior a –2,5 é de 0,0062, que pela propriedade de simetria, é igual à probabilidade de que tal estatística ser superior a 2,5, logo, o valor-p, ou probabilidade de significância observada deste teste é da ordem de 0,0062+0,0062= 0,0124 (1,24%), conforme ilustrado na figura abaixo. 0,62% z = -2,5 -z 0 =1,24% z 55 Como o valor-p obtido, αp = 1,24% é inferior ao anteriormente fixado (5%), chega-se à mesma conclusão da abordagem anterior,ou seja, conclui-se pela rejeição da hipótese H0. Convém ressaltar que a hipótese alternativa (H1) ode ser definida em termos de valores unilaterais, ou seja: H1: µ < µ0 ou ainda H1: µ > µ0. O quadro abaixo apresenta um resumo das estatísticas e distribuições utilizadas nos principais testes de hipótese: Quadro 10.1 – Estatísticas associadas a alguns testes de hipóteses TESTE DISTRIBUIÇÃO ESTATÍSTICA __ Média com desvio padrão conhecido Normal Z = d ( X − µ0 ) N σ __ Média com desvio padrão desconhecido t com (N-1)G.L. t ( X − µ0 ) N = S d __ Diferença de médias: amostras pareadas t com (N-1)G.L. t d D0 = N S d __ Diferença de médias: independentes Desvio padrão conhecido amostras Normal Z d = __ X 1− X 2 σ 12 N1 + σ 22 N2 __ Diferença de médias: amostras t com (N+N-2)G.L. independentes Desvio padrão desconhecidos e iguais t Proporção Z Normal ( N 1 − 1) S 1 + ( N 2 − 1) S 2 2 OBS: S 2 c = N1 + N 2 − 2 = d S d __ X 1− X 2 = 2 c (1 N1 + 1 P−P 0 P0 (1 − P0 / n 2 VARIÂNCIA COMBINADA 56 N2 ) APLICAÇÃO: 1. Um fabricante de lajotas de cerâmica sabe que a resistência de seu produto segue o modelo Normal com media de 206kg e desvio padrão de 12kg. Retirase uma amostra de 30 lajotas obtendo uma resistência média (x ) de 210kg. Ao nível de 10% pode-se aceitar que a resistência média tenha aumentado? 2. Certa indústria automobilística afirma que seu carro consome em média 12Km/l de gasolina. Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8 11,6. Com base nesses resultados o que se pode concluir quanto à afirmação do fabricante? 3. Uma grande rede de supermercados deseja saber se o gasto médio por cliente, na filial de Boa Viagem, é estatisticamente superior à filial de Encruzilhada. Para isto tomou amostras de clientes em ambas as lojas, obtendo os seguintes resultados: BAIRRO N.º DE ELEMENTOS MÉDIA DESVIO PADRÃO Boa Viagem 15 80 6 Encruzilhada 10 72 9 Qual a sua conclusão sobre o experimento? 57 11. CORRELAÇÃO Coeficientes de correlação têm como objetivo principal avaliar o tipo de intensidade da relação entre duas variáveis. 11.1. DIAGRAMA DE DISPERSÃO • • Gráfico que representa no plano cartesiano duas variáveis quantitativas Ferramenta simples que permite aprofundar o estudo da associação entre 2 variáveis. Exemplo: Na tabela abaixo, estão representadas o tempo de serviço e o volume de vendas semanais de uma amostra de 5 vendedores de determinado produto: VENDEDOR A B C D E TEMPO DE SERVIÇO (Anos) 1 3 4 6 8 VENDAS ( Unidades) 35 40 42 50 55 Diagrama de dispersão correspondente: 55 Y vendas 50 45 40 35 0 1 2 3 4 5 6 7 8 9 X te m p o 58 INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO: De acordo com o exame do diagrama de dispersão, podemos ter as seguintes situações: Correlação Forte Positiva rxy → 1 Correlação Forte Negativa rxy→ -1 y y x x Correlação Perfeita Negativa rxy= - 1 Correlação Perfeita Positiva rxy= 1 y y x x Correlação Não Linear Ausência de Correlação rxy→ 0 y y x x 59 • • • • Quando as variáveis crescem no mesmo sentido temos o caso de correlação positiva. Quando as variáveis crescem em sentidos opostos temos uma correlação negativa. Se os dados estão perfeitamente alinhados sobre uma reta temos uma correlação perfeita. Quando o crescimento de uma variável é acompanhado de variações casuais da outra variável a correlação é nula. 11.2. COEFICIENTE DE CORRELAÇÃO LINEAR Para medir o grau da associação linear entre duas variáveis quantitativas usamos o coeficiente de correlação linear cuja fórmula é: r XY S XY = , onde S XX S YY S XY = ∑ XY − S XX = ∑ X − 2 S YY = ∑ Y 2 − ∑ X ∑Y n (∑ X ) 2 n (∑ Y ) 2 n CUIDADO! • • Correlação não implica em relação de causa efeito. Podemos, por exemplo, encontrar uma alta correlação entre o n. º de internações por desidratação e a venda de sorvetes, e a verdadeira causa pode ser o aumento da temperatura. 60 O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais próximo de 1 maior o grau de associação linear positiva entre as variáveis e quanto mais próximo de –1 maior o grau de associação negativa. 12 - REGRESSÃO LINEAR SIMPLES O diagrama de dispersão pode revelar importantes informações acerca da relação entre duas variáveis X e Y, que pode assumir a forma de funções matemáticas simples ou mais complicadas. Quando os pontos traçados no diagrama de dispersão se agrupam em torno de uma reta, podemos obter a equação dessa reta e assim determinar um modelo matemático para a relação entre as variáveis. Tal modelo tem a seguinte forma: Yi = A + BXi + ei, onde: Yi = variável dependente ou variável resposta. Xi = variável explicativa A = coeficiente linear da reta ou ponto de interseção de Y B = coeficiente angular da reta ou inclinação. O coeficiente linear da reta corresponde ao ponto onde a mesma corta o eixo-Y, ou seja, o ponto onde o valor da variável explicativa X é zero. A inclinação indica o quanto varia a média da variável Y para o aumento de uma unidade na variável X. Este modelo tem uma série de hipóteses que permitem estimar seus parâmetros e proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta que melhor se aproxima dos dados, chamada reta de mínimos quadrados, representada pela expressão: ) Yi = a + bX i , que pode ser obtida a partir da minimização da soma dos quadrados dos desvios, que representam as diferenças entre valores observados e estimados para a variável dependente Y, ou seja, minimizando a expressão: ) F = ∑ (Yi − Yi ) 2 = ∑ [Yi − (a + bX i )]2 Os valores dos coeficientes linear e angular resultantes desse processo de minimização podem ser escritos como: b= S XY e a = y − bx S XX 61 Quando os desvios ou resíduos são valores pequenos é sinal de que o modelo está produzindo resultados compensadores. Para uma avaliação da capacidade preditiva da variável explicativa no contexto do modelo linear ajustado, diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma medida, chamada soma de quadrados total, que corresponde à variação quadrática os valores de Y em torno de sua média aritmética, ou seja: SQTOTAL = ∑ (Yi − Y ) 2 Tal soma de quadrados pode ser desmembrada um duas outras somas: uma que corresponde à soma dos quadrados dos desvios da regressão e a outra que corresponde à variação explicada pelo modelo ou soma dos quadrados da regressão, ou seja: SQTOTAL = ∑ (Yi −Yˆi ) 2 + ∑ (Yˆi − Y ) 2 , ou seja, SQTOTAL = SQRESIDUAL + SQREGRESSÃO. A relação entre a variação explicada pelo modelo ajustado (SQREGRESSÂO) e a variação total (SQTOTAL) mede o potencial explicativo do modelo ajustado, ou o percentual de variação explicada. Tal relação é conhecida como coeficiente de variação R2, ou seja: R2 = SQREGRESSAO SQTOTAL O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e naturalmente quanto mais próximo de 100% maior o poder explicativo do modelo ajustado. Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o uso de: SQREGRESSAO = bSxy. APLICAÇÃO: Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha: a) Coeficiente de correlação entre as variáveis b) A reta de regressão c) Qual o valor das vendas semanais para um empregado com 7 anos de experiência? 62 NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS (CEP) A qualidade de produtos e serviços tem se tornado um fator crucial no mundo dos negócios, independente se o consumidor seja um sujeito ou empresa. O nível de exigência e a competitividade tem acentuado ainda mais a busca por produtos de melhor qualidade, considerando que este termo está diretamente associado ao que se denomina pela “adequação ao uso” Os métodos estatísticos desempenham um papel fundamental nos processos de melhoria da qualidade de produtos e de serviços e estão diretamente associados a fatores tais como: aumento na competitividade; eliminação de desperdícios; redução na necessidade de inspeção, além do aumento no grau de satisfação dos clientes. O Controle Estatístico de Processos (CEP) consiste em um conjunto de ferramentas cuja função primordial é buscar a estabilidade de um processo e melhorar a sua capacidade, sendo crucial a redução da variabilidade e monitoramento do processo como um todo. As ferramentas mais importantes do CEP são: Estratificação, Folha de Verificação, Gráfico de Pareto, Diagrama de Causa e Efeito, Histograma, Diagrama de Dispersão e Gráfico de Controle. Como a maioria destas ferramentas já foram abordadas, daremos ênfase nesse capítulo aos Gráficos de Controle, naturalmente em uma visão introdutória. Noções de Gráficos de Controle Todo processo está sujeito a variações devido a causas que são chamadas de inerentes, que representam a junção de diversas pequenas causas de caráter essencialmente inevitáveis. Um processo que esteja operando apenas com a presença de tais causas inerentes é dito sob controle estatístico. Todavia podem estar presentes em um processo um outro tipo de variabilidade de maior intensidade que a inerente e motivada causas que supostamente pode ser adequadamente monitoradas e controladas. Geralmente tais causas estão associadas, primordialmente a fatores tais como equipamentos desajustados, erro de operadores ou problemas com matérias primas e insumos, entre outros. O gráfico de controle é uma ferramenta de monitoramento em tempo real largamente utilizada e eficaz. Na construção de um gráfico de controle, as amostras são, geralmente, selecionadas em uma sequencia de pontos no tempo. De acordo com a finalidade ou interesse, uma medida estatística é calculada. Tal medida pode ser a média de uma característica de interesse, a proporção de itens defeituosos, ou o total de defeitos por unidade. O valor dessa estatística é, então, calculado para cada amostra. Um gráfico de controle usual exibe a marcação destes valores, obtidos ao longo do tempo em um gráfico no qual constam uma linha central, um limite de controle inferior e um limite de controle superior. Se todos os pontos ficarem situados dentro dos limites de controle, então o processo estaria sob controle, ou com a presença apenas de causas inerentes, ou seja, a variação observada seria apenas casual. 63 Gráfico para a média, baseado em valores de parâmetros conhecidos. Seja X uma característica de interesse, com média populacional µ e desvio padrão σ e X1, X2, ... Xn uma amostra de tamanho n. x= ∑X n i →média amostral Vimos que a distribuição da média, de acordo com o Teorema do Limite Central é Normal, com média x (µ , ~ Normal σ n ) Os limites de controle inferior e superior são obtidos, respectivamente, pelas expressões: LIC = µ − zα 2 σ n LSC = µ + zα 2 σ n Os valores de z são obtidos da Curva Normal, de acordo com o nível de confiança adotado, sendo geralmente, utilizados os valores z=2 ou z=3. Uma opção bastante utilizada na construção de gráficos de controle é trabalhar com amostras ou subgrupos de menor tamanho chamados de subgrupos racionais, tomados a intervalos regulares de tempo. 64 Gráfico da média ( x ) e amplitude (R). Quando os parâmetros µ e σ são desconhecidos devem ser estimados a partir de estatísticas amostrais. É possível estimar o desvio padrão, com amostras de tamanho mínimo de 25 unidades. Quando amostras de tamanho pequeno são utilizadas são recomendados os procedimentos baseados em subgrupos racionais, estimando-se a variabilidade a partir da amplitude amostral (R ). Suponha que dispomos de “m” amostras de tamanho “n”, a média global é obtida a partir das médias de cada amostra ou subgrupo racional: x= x1 + x2 + .... + xm →média global m Onde: xi = xi1 + xi 2 + .... + xin → média da i − ésima amostra n Cálculo da amplitude média e estimação do desvio padrão. R= R1 + R2 + .... + Rm → amplitude média global m É possível estimar o desvio padrão pela expressão: σˆ = R d2 65 Gráfico da Média Os limites de controle para o gráfico da média ficam: LIC = x − 3 R = x − A2 R d2 LSC = x + 3 R = x + A2 R d2 Onde: A2 = 3 d2 n Os valores de A2 são consultados em tabelas. Gráfico da Amplitude – R Os limites de controle para o gráfico da amplitude são: LIC = R − 3 d3 R = D3 R d2 LSC = R + 3 d3 R = D4 R d2 D3 e D4 são Valores Tabelados 66 Gráfico de controle para a proporção de defeituosos – p Os valores da estimativa da proporção de itens defeituosos em uma amostra de tamanho n, bem como a distribuição da média e desvio padrão da proporção são dados, respectivamente, pelas expressões: pˆ = X n µ pˆ = p σ pˆ = p (1 − p ) n Os limites de controle para o gráfico de proporção de defeituosos são dados por: LSC = p + 3 p(1 − p ) n LM = p LIC = p − 3 p (1 − p ) n No caso de trabalhar com subgrupos racionais, são calculados limites baseados na média aritmética dos subgrupos, ficando as expressões dos limites de controle dadas por: 67 p (1 − p ) n LSC = p + 3 LM = p p (1 − p ) n LIC = p − 3 m onde : p = ∑p i =1 m i e pi = Xi n 68 CAPACIDADE DE PROCESSOS Em algumas situações é importante que, além dos gráficos de controle, tenhamos alguma medida sobre a capacidade do processo, ou seja, o seu desempenho, quando estivar operando sobre controle. O Histograma pode ser uma ferramente de abordagem inicial deste problema, uma vez que exibe importantes informações acerca de locação, variabilidade e distribuição dos valores obtidos para a medida de interesse. Uma outra alternativa é a utilização de medidas de capacidade do processo. Uma primeira medida é o chamado Índice de Capacidade do Processo ou índice Cp, cuja expressão é dada por: Cp = LSE − LIE 6σ O numerador da fórmula corresponde à amplitude das especificações, enquanto o denominador corresponde à amplitude do processo. O desvio padrão do processo pode ser estimado por: σˆ = r d2 O inverso deste índice corresponde à fração de amplitude das especificações usadas pelo processo. Considerando que os dados seguem, aproximadamente, o modelo Normal, um índice que excede a unidade indica que muito poucas unidades não conformes estão sendo produzidas. Um índice inferior a unidade sugere um processo muito sensível e com um elevado número de unidades não conformes. Um índice igual a 1 indica que cerca de 0,27% das unidades produzidas são não conformes. A definição de capacidade do processo dada anteriormente supõe que o processo esteja devidamente distribuído em torno do valor central especificado. Caso o processo não esteja distribuído em torno de sua média especificada, evidentemente sua capacidade será menor que a indicada pelo índice Cp. Desse modo, uma medida mais calibrada, que será útil caso o processo não esteja centralizado na média, é o chamado Cpk, cuja expressão é dada por: LSE − µ µ − LIE C pk = min ; 3σ 3σ 69 NOÇÕES DE ESTATÍSTICA NO EXCEL Construção de uma Distribuição de Frequências e Histograma usando Excel Considere os dados a seguir representando o Tempo de Vida de uma amostra de 36 lâmpadas: 697 720 773 821 831 835 848 852 852 860 868 870 876 893 899 905 909 911 924 926 926 938 939 943 946 954 971 977 984 1005 1014 1016 1041 1052 1080 1093 Passo 1 – Determinação do Número de Classes (k): Fórmula: k= n No Excel: Logo k=6 classes. 70 2)Calculo da amplitude das classes (c) Fórmula: c= amplitude total max − min 1093 − 697 = = ≅ 66 ↑ 70 num de classes k 6 É conveniente marjorar este valor de “c”, por isso trabalhamos com c=70. 3) O Valor inicial é arbitrário, podendo-se começar do míimo, ou de um valor ligeiramente abaixo deste. No caso iniciaremos do valor 690. Uma outra decisão é quanto ao tipo de intervalos de classe a serem adotados. No caso optamos por classes abertas à direita e fechadas à esquerda, tipo [a,b) ou a|------ b. A função do Excel que pode ser utilizada é a “frequência”, que necessita que sejam informados o endereço dos dados e os limites superiores de cada intervalo. Como optamos por intervalos semiabertos à direita, subtraímos 0,1 de cada valor. Desse modo os limites ficam: Primeiro intervalo, contndo valores de 690 a 690+70=760, subtraindo 0,1 fica 759,9. Para obter os valore das classes subsequentes, basta somar 70 a esse valor. Tais valores constituem que o Excel chama de Matriz Bin (matriz binária). Uso da função “frequência” 71 Para conclusão da tabela, usa-se alguns recursos adicionais de “embelezamento” para lhe dar um melhor formato e aparência, de acordo com as Normas de Apresentação Tabular. 72 4) Construção do Histograma Na Página Inicial vamos à opção “inserir” “colunas”, selecionando a opção “2D”, preferencialmente. Em seguida, vem o gráfico. 73 12 10 8 6 4 2 0 . USO DE TABELA DINÂMICA NA CONSTRUÇÃO DE TABELAS Um recursos muito útil na construção de tabelas e gráficos a partir de bancos de dados é a Tabela Dinâmica, que permite a construção de tabelas simples e cruzadas, para variáveis em escala nominal ou ordinal. 1)Inicialmente seleciona-se as opções: “inserir”, seguida de “tabela dinâmica”. 74 2)Informamos, em seguida, o endereço dos dados e onde queremos a saída, se em nova planilha ou na própria planilha em uso, nesse caso informando o endereço da saída. 75 3)Após essa etapa temos uma tela na qual informamos que variável ou variáveis serão utilizadas na construção da(s) tabela(s). No caso de uma tabela simples arrasta-se a variável de interesse até o campo de linha ou coluna e também ao campo de valor. Verificar se esta está selecionada a formatação de campo de “contagem de valores”. 76 77 Vamos agora construir uma tabela de dupla entrada, com as variáveis sexo e área. Arrastamos uma das variáveis, por exemplo “sexo” para a linha e a outra variável , por exemplo “área” para a coluna e qualquer uma delas para o campo de valores e está pronta a tabela cruzada. Contagem de Sexo Area Sexo E H S Total Geral F 16 14 7 37 M 9 2 2 13 25 16 9 50 Total Geral . ANÁLISE DESCRITIVA NO EXCEL O Excel dispõe de diversas funções para o cálculo de estatísticas descritivas, com medidas de centralidade (média, moda e mediana); dispersão (desvio padrão e variância); assimetria, além do cálculo dos quartis. No caso da média, mediana e desvio padrão, a sintaxe é bastante semelhante, bastando informar a sintaxe e endereço dos dados, por exemplo: Considerando os dados referentes ao tempo de vida de 36 lâmpadas: No caso da méda: =média(endereço dados) Mediana: =med(endereço dados) Desvio padrão amostral: =desvpada(endereço dados) 78 No caso dos quartis 1 e 3 o comando, além de informar o endereço dos dados, informa o numero correspondente ao quartil desejado (1 ou 3) e o tipo de quartil, optando-se, neste trabalho, pela sintaxe quartil.exc, que coincide com a metodologia de cálculo mais indicada deste curso. 79 Uma opção mais avançada é utilizar a aba “dados”, seguida de “análise de dados”, “estatística descritiva”, que fornece um quadro resumido das principais estatísticas descritivas para cada coluna da planilha, o que permite a análise simultânea de diversas variáveis simultaneamente. Seleciona-se a opção “resumo estatístico” e rótulos na primeira linha (caso os nomes das variáveis estejam na primeira linha de cada coluna). Informa-se, ainda, o endereço onde se deseja a saída dos dados. 80 A saída informa os resultados das estatísticas descritivas para cada variável (coluna) do banco de dados. Id Média 17 Erro padrão 1,683251 Mediana 17 Modo #N/D Desvio padrão 9,66954 Variância da amostra 93,5 Curtose -1,2 Assimetria -3E-17 Intervalo 32 Mínimo 1 Máximo 33 Soma 561 Contagem 33 Idade Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem Alt 19 0,356222 18 18 2,046338 4,1875 3,099649 1,793544 8 17 25 627 33 Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem Peso 1,666667 0,014471 1,65 1,65 0,083129 0,00691 -0,03117 0,772712 0,31 1,54 1,85 55 33 Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem 81 59,17879 1,61014 58 58 9,249553 85,55422 1,157595 1,125462 38,2 47 85,2 1952,9 33 ANÁLISE BIDIMENSIONAL: CONSTRUÇÃO DE DIAGRAMA DE DISPERSÃO COM AJUSTE LINEAR O diagrama de dispersão é uma importante ferramenta na análise da associação entre duas variáveis quantitativas. O Excel permite a construção do diagrama, com opção de exibição da reta ajustada e do coeficiente de determinação, uma medida preliminar de qualidade do ajuste. Além do ajuste linear, são oferecidas outras opções como o ajuste exponencial, logarítmica e potência. Inicialmente, selecionamos os dados correspondentes às duas variáveis de interesse e o menu “inserir”, seguido de “dispersão. 82 O resultado inicial do gráfico: Como os pontos do eixo-Y estão muito concentrados na faixa de 50 a 90, convém alterar o valor mínimo desta escala vertical. Clicamos duas vezes nos valores da escala vertical e, em seguida, alteramos o mínimo para 40. 83 O gráfico alterado fica: 85,0 80,0 75,0 70,0 65,0 60,0 55,0 50,0 45,0 40,0 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 84 Em seguida, após clicar no gráfico, selecionamos a opção “layout”, seguida de linhas de tendência” e “mais opções de linha de tendência”, “exibir equação e R2 no gráfico” O resultado final fica: 85 Uma outra opção, que fornece um resultado mais completo é selecionar na aba “dados” “análise de dados”, E, em seguida, “regressão”. Informamos o endereço de cada variável: X (explicativa) e Y (dependente), assinalando a plotagem de linha e endereço da saída. 86 Alguns resultados disponibilizados, com esta opção foram: a tabela de análise de variância, modelo ajustado, Além de testes de hipóteses e intervalos de confiança para os parâmetros ajustados. Estatística de regressão R múltiplo 0,96114122 R-Quadrado 0,923792445 R-quadrado ajustado 0,919558692 Erro padrão 1,832479796 Observações 20 ANOVA gl Regressão Resíduo Total 1 18 19 Interseção Alt Coeficientes -54,56842716 70,73128265 SQ MQ F F de significação 732,7018204 732,7018 218,1971 1,66608E-11 60,44367963 3,357982 793,1455 Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% 8,119439166 -6,72071 2,67E-06 -71,62673586 -37,51011846 -71,62673586 -37,51011846 4,788363298 14,77149 1,67E-11 60,67130466 80,79126064 60,67130466 80,79126064 87 13 - BIBLIOGRAFIA BERQUÓ, ELZA et al. Bioestatística, São Paulo, EPU, 1986. BUSSAB, W. O e MORETTIN, P. A . Estatística básica, Atual Editora, São Paulo, 1986. BUSSAB, W. O. Análise de Variância e de Regressão, São Paulo, Atual, 1986. CALEGARE, ALVARO J. A. Técnicas de Garantia da Qualidade, Rio de Janeiro, Ao Livro Técnico, 1985. DRAPER, N. e H. SMITH. Applied Regression Analysis, New York, John Willey, 1966. FONSECA, JAIRO S. e MARTINS, G. A ., Curso de Estatística, São Paulo, Atlas, 1987. GATTAS, R. R. Elementos de Probabilidade e Inferência, São Paulo, Atlas, 1978. GUEDES, M. e GUEDES, J. S., Bioestatística para profissionais de Saúde, Brasília, Ao livro Técnico, 1988. HOFFMAN, RODOLFO e VIEIRA, S., Análise de Regressão, São Paulo, Hucitec, 1982 HUFF, D. Como Mentir com Estatística, São Paulo, Ediouro, 1992. JURAN, J. M. Planejamento para a Qualidade, São Paulo, Pioneira, 1986. JURAN, J. M. e GRYNA F. M., Controle para a Qualidade, VOL. 6, São Paulo, Makron Books, 1993. LEVINE D. N. ET AL, Estatística – Teoria e Aplicações, Rio de Janeiro, LTC Editora, 2005. MAGALHÂES, M. N. e PEDROSO DE LIMA, A. C. Noções de Probabilidade e Estatística, IME-USP, São Paulo, 2000. MONTGOMERY, D. C., RUNGER, G.C. e HUBELE, N. F., Estatística Aplicada à Engenharia, 2ª Edição, Rio de Janeiro, LTC, 2005. MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000. 88 MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books, 1998. MORETTIN, P. A . Introdução à Estatística para Ciências Exatas, São Paulo, 1991. PARATHAMAN, D. Controle da Qualidade, São Paulo, Mc. Graw Hill, 1990. VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas, 1986. VIEIRA, S. , O que é Estatística, São Paulo, Brasiliense, 1987. STEVESON, W. J. Estatística Aplicada à Administração, São Paulo, Harbra, 1986. SHAMBLIN, J. E. Pesquisa Operacional, São Paulo, Atlas, 1979. 89 ERROR: syntaxerror OFFENDING COMMAND: --nostringval-STACK: /Title () /Subject (D:20150805143912-03’00’) /ModDate () /Keywords (PDFCreator Version 0.9.5) /Creator (D:20150805143912-03’00’) /CreationDate (cezar) /Author -mark-