Estatı́stica Básica Instrutor: Dorival Leão Estatcamp Consultoria em Estatı́stica e Qualidade Rua: Adolpho Cattani, 682 Jardim Macarengo CEP: 13560-470 São Carlos/SP Fone/Fax: (16) 3376-2047 E-mail: [email protected] Novembro/2006 ii Sumário 1 Introdução 1 2 Coleta de Dados 2 2.1 2.2 Dados Quantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1 Dados Quantitativos Discretos . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.2 Dados Quantitativos Contı́nuos . . . . . . . . . . . . . . . . . . . . . . . 3 Dados Qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.1 6 Construindo um Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . 3 Gráficos 3.1 Distribuição de Freqüências e Histograma . . . . . . . . . . . . . . . . . . . . . . 4 Medidas de Posição 9 9 14 4.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5 Medidas de Dispersão 16 5.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 6 Estatı́sticas Descritivas 6.1 19 Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7 Probabilidades 23 7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 7.2 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 7.3 Distribuição de Probabilidade Discreta . . . . . . . . . . . . . . . . . . . . . . . 28 Sumário iii 7.3.1 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . 28 7.3.2 Relação entre a Função de Distribuição Acumulada e a Distribuição de Probabilidade Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 7.4 7.3.3 Esperança de Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . 29 7.3.4 Variância de Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . 30 Modelos Probabilı́sticos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 30 7.4.1 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 7.4.2 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7.4.3 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 7.4.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 38 7.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.6 Distribuições de Probabilidade Continua . . . . . . . . . . . . . . . . . . . . . . 41 7.6.1 Relação entre a Função de Distribuição Acumulada e a Função densidade de Probabilidade Contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.7 7.8 7.6.2 Esperança de Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . 42 7.6.3 Variância de Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . 42 Modelos Probabilı́sticos Contı́nuos . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.7.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.7.2 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Modelos Probabilı́sticos para o Tempo de Falha . . . . . . . . . . . . . . . . . . 46 7.8.1 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.8.2 Distribuição de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.8.3 Distribuição de Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.8.4 Distribuição Log-normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 8 A Distribuição Normal 54 9 Teorema do Limite Central 61 10 Teste para Normalidade 64 10.1 Papel de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 10.2 Teste de Kolmogorov - Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 10.3 Teste Anderson-Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Sumário 11 Indicadores da Qualidade iv 77 11.1 Rendimento de um Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 11.2 Intervalo de confiança para o rendimento . . . . . . . . . . . . . . . . . . . . . . 80 11.3 Defeitos por milhão de oportunidades (DPMO) . . . . . . . . . . . . . . . . . . 85 11.4 Intervalo de confiança para o DPMO . . . . . . . . . . . . . . . . . . . . . . . . 87 11.5 Rendimento: Análise da resposta do processo (Rolled Throughput Yield) . . . . 91 11.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 11.7 Métrica da Qualidade: SIGMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 12 Definições 98 A Tabela Normal Padrão - 6σ 100 Referências Bibliográficas 100 v Lista de Figuras 2.1 Classificação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Diagrama de Pareto - Relativo a Custos . . . . . . . . . . . . . . . . . . . . . . 8 3.1 Histograma - Frequência Absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2 Histograma - Porcentagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Histograma - Frequência Absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4 Histograma - Porcentagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6.1 Construção do Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 6.2 Comparação entre dois Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 7.1 Gráfico da função densidade de probabilidade da Uniforme . . . . . . . . . . . . 43 7.2 Gráfico da função de confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.3 Gráfico da função taxa de falha da distribuição Weibull . . . . . . . . . . . . . . 49 7.4 Gráfico da função densidade da distribuição Log-Normal . . . . . . . . . . . . . 52 8.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 8.2 Áreas sob a Curva Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 8.3 Distribuição Normal Padronizada . . . . . . . . . . . . . . . . . . . . . . . . . . 55 8.4 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 8.5 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 8.6 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 8.7 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 8.8 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 8.9 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 8.10 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Lista de Figuras vi 8.11 Área sob a curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 9.1 Histograma-Dados Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 9.2 Média de Grupos de 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 9.3 Médias dos 5 Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 10.1 Papel de Probabilidade para o exemplo 10.1. . . . . . . . . . . . . . . . . . . . . 67 10.2 Papel de Probabilidade do Teste Anderson-Darling . . . . . . . . . . . . . . . . 76 11.1 Gráfico da Estratégia de Rompimento . . . . . . . . . . . . . . . . . . . . . . . . 77 11.2 Gráfico de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 11.3 Gráfico do Rendimento Clássico . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 11.4 Gráfico do Rendimento do Processo . . . . . . . . . . . . . . . . . . . . . . . . . 93 11.5 Áreas sob a Curva Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 11.6 Limites de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 vii Lista de Tabelas 2.1 Número de Peças Defeituosas em Lotes de 1.000 (Com Apuração) . . . . . . . . 3 2.2 Diâmetro do Eixo de 200 Motores . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Diâmetro do Eixo de 200 Motores (Com Apuração) . . . . . . . . . . . . . . . . 4 2.4 Tipos de problemas Numa Indústria de Computadores . . . . . . . . . . . . . . 6 3.1 Diâmetro do Eixo de 200 Motores (Sem Apuração) . . . . . . . . . . . . . . . . 9 3.2 Distribuição de Frequências dos Diâmetros dos Eixos . . . . . . . . . . . . . . . 11 3.3 Critério Para Determinar os Intervalos . . . . . . . . . . . . . . . . . . . . . . . 12 3.4 Número de Peças Defeituosas em Lotes de 1.000 (Sem Apuração) . . . . . . . . 12 3.5 Distribuição de Frequências dos Dados do exemplo 2.1 . . . . . . . . . . . . . . 13 7.1 Tabela do Exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7.2 Tabela de probabilidade da distribuição geométrica . . . . . . . . . . . . . . . . 37 9.1 Dados Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 10.1 Construção do papel de probabilidade. . . . . . . . . . . . . . . . . . . . . . . . 68 10.2 Tabela de Valores para Dn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 10.3 Resumo do Cálculo de Dn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 10.4 Teste de Kolmogorov - Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 10.5 Teste de Kolmogorov - Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 10.6 Tabela de pontos percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 10.7 Calculando o valor de A2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 11.1 Resumo dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 11.2 Colheitadeira de Cana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.3 DPMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 11.4 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Lista de Tabelas viii 11.5 Colheitadeira de Cana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 11.6 Resumo dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 11.7 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 11.8 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 11.9 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 A.1 Tabela Normal 6σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 1 Capı́tulo 1 Introdução Neste capı́tulo, vamos apresentar elementos básicos da análise de dados. Veremos as estatı́sticas descritivas para um conjunto de dados, que é a forma de reduzir e conhecer o nosso conjunto de dados. O resumo de dados será apresentado em forma de gráficos, diagramas e tabelas. As técnicas estatı́sticas são utilizadas para avaliar as variações. A variabilidade está presente em todo lugar. Por exemplo, ao estacionar um carro em uma garagem, sua posição não é a mesma ao longo dos dias. A posição do carro apresenta uma variação. Para se fazer uma aplicação de técnicas estatı́sticas existem várias etapas: • Coleta dos dados; • Exposição dos dados; • Modelos Estatı́sticos. Vejamos cada uma destas etapas. 2 Capı́tulo 2 Coleta de Dados Uma população é um agregado de elementos (finitos ou não) para o qual deseja-se obter informações sobre algumas de suas caracterı́sticas. Duas populações são consideradas distintas se uma delas contém um elemento que não está contido na outra população. Como exemplo de população temos a produção diária de um empresa, o conjunto de resultados de medição de uma haste de aço realizada com um micrômetro, entre outras. A amostra é uma parcela de uma população que pode conter informações sobre a população. Para estudarmos adequadamente uma população através de uma amostra devemos planejar a coleta de dados. Planejando a Coleta de Dados • Qual a pergunta a ser respondida? • Como comunicar a resposta obtida? • Qual ferramenta de análise pretende-se usar e como serão comunicados os resultados? • Quais tipos de dados são necessários para utilizar as ferramentas desejadas e responder a pergunta? • Onde acessar estes dados? • Como coletar esses dados com o mı́nimo de esforço e de erro? • Quais informações adicionais serão necessárias para estudos futuros, referências ou reconhecimento? Os Dados podem ser classificados como: 2. Coleta de Dados 3 Figura 2.1: Classificação dos Dados 2.1 Dados Quantitativos Neste caso a caracterı́stica observada assume valores numéricos. Este tipo de dado pode ser ainda classificado como discreto ou contı́nuo. 2.1.1 Dados Quantitativos Discretos Neste caso os dados observados formam um conjuto finito ou enumerável de números. Exemplo 2.1. Foram observados 20 lotes de 1.000 peças cada um. O número de peças defeituosas encontradas em cada lote foi: 10, 12, 9, 11, 10, 8, 9, 10, 7, 10, 8, 9, 9, 10, 10, 11, 9, 11, 10, 10. Podemos fazer a apuração através de uma tabela (Tabela 2.1). Número de peças Apuração Número de lotes Defeituosas 7 / 1 8 // 2 9 ///// 5 10 //////// 8 11 /// 3 12 / 1 Tabela 2.1: Número de Peças Defeituosas em Lotes de 1.000 (Com Apuração) Vemos então que a variável número de peças defeituosas assume valores inteiros: . . . , 7, 8, 9, . . .. Logo, é uma variável discreta. 2.1.2 Dados Quantitativos Contı́nuos São os que decorrem de mensurações. Os possı́veis valores incluem “todos” os números do intervalo de variação da caracterı́stica medida, isto é, todos os possı́veis valores pertencem a um 2. Coleta de Dados 4 intervalo de números reais. Na prática estes valores são discretizados pela precisão do aparelho de medida. Por exemplo, quando se mede diâmetros de eixos de determinados motores, se está coletando dados contı́nuos. Exemplo 2.2. Numa fábrica de pequenos motores, problemas de encaixe estavam ocorrendo com o eixo. Resolveu-se então medir o diâmetro de 200 motores e o resultado foi apresentado na tabela 2.2. 4,8 4,9 5,1 5,0 5,4 5,7 5,1 4,9 5,0 4,8 4,8 4,9 5,1 5,0 5,4 5,7 5,1 4,9 5,0 4,8 4,2 5,1 4,6 5,0 4,2 4,9 4,9 4,8 5,2 5,1 4,2 5,1 4,6 5,0 4,2 4,9 4,9 4,8 5,2 5,1 5,1 4,8 4,9 5,0 5,1 5,2 4,9 4,2 4,2 4,6 5,1 4,8 4,9 5,0 5,1 5,2 4,9 4,2 4,2 4,6 5,2 4,9 4,3 5,1 4,9 4,8 5,1 5,2 4,9 4,8 5,2 4,9 4,3 5,1 4,9 4,8 4,9 5,2 4,9 4,8 4,8 4,8 4,9 4,9 4,3 4,9 5,2 5,1 5,1 5,2 4,8 4,8 4,9 4,9 4,3 4,9 5,2 5,1 5,1 5,2 4,7 5,0 4,7 4,8 4,6 4,9 4,7 4,7 4,6 4,5 4,7 5,0 4,7 4,8 4,6 4,9 4,7 4,7 4,6 4,5 4,9 5,3 5,2 4,8 4,7 4,4 4,8 5,5 5,4 4,9 4,9 5,3 5,2 4,8 4,7 4,4 4,8 5,5 5,4 4,9 4,5 4,9 4,8 5,0 4,7 4,7 4,6 4,7 4,6 4,5 4,7 4,9 4,8 5,0 4,8 4,7 4,7 4,6 4,7 4,6 4,9 5,5 4,4 4,8 5,3 4,9 5,2 4,7 4,8 5,4 4,9 5,5 4,4 4,8 5,3 4,8 5,2 4,7 4,8 5,4 4,5 5,2 5,6 5,1 4,4 5,1 5,5 4,4 5,2 4,5 4,5 5,2 5,6 5,1 4,4 5,1 5,5 4,4 5,2 4,5 Tabela 2.2: Diâmetro do Eixo de 200 Motores Podemos fazer a apuração considerando intervalos de medidas, como apresentado na tabela 2.3. Diâmetro Apuração No de motores 4, 2 ` 4, 4 / / / / / / / / / / / / 12 4, 4 ` 4, 6 //////////.../ 16 4, 6 ` 4, 8 //////////...// 32 4, 8 ` 5, 0 //////////...//// 64 5, 0 ` 5, 2 //////////.../ 36 5, 2 ` 5, 4 //////////...//// 24 5, 4 ` 5, 6 / / / / / / / / / / / / 12 5, 6 ` 5, 8 //// 4 Tabela 2.3: Diâmetro do Eixo de 200 Motores (Com Apuração) 2. Coleta de Dados 5 Veja que, ao se estabelecer intervalos, está-se admitindo que o eixo pode assumir qualquer valor entre o limite inferior, inclusive, e o limite superior, exclusive. 2.2 Dados Qualitativos Os dados qualitativos apresentam como possı́veis realizações uma qualidade (ou atributo) do indivı́duo pesquisado. Dentre os dados quantitativos podemos fazer uma distinção entre dois tipos: dado qualitativo nominal, para o qual não existe nenhuma ordenação nas possı́veis realizações, e dado qualitativo ordinal, para o qual existe uma ordem em seus resultados. Sexo, estado civil, são exemplos de dados qualitativos nominais. Já grau de instrução é um exemplo de dado qualitativo ordinal, pois ensinos fundamental, médio e superior correspondem a uma ordenação. Exemplo 2.3. Uma indústria de computador preocupada com vários defeitos que um de seus produtos vem apresentando, fez um levantamento e constatou os seguintes problemas que foram designados da seguinte forma: • A : Defeito na cobertura plástica. • B : Defeito no teclado. • C : Defeito na fonte de energia. • D : Soldas soltas. • E : Defeito na placa da unidade de processamento. • F : Defeito no visor. • G : Outros. Nesta situação consideremos uma variável T como sendo o tipo de defeito encontrado no produto. Portanto a variável T pode assumir os valores T = A, T = B, · · · . Assim, para um computador com defeito na cobertura plástica temos que T = A, por exemplo. Numa segunda fase tabelamos (tabela 2.4) os valores observados. Assim, podemos ver que os dados A, B, ... são dados qualitativos nominais. 2. Coleta de Dados 6 Tipo de Problemas (T) Frequência A 10 B 20 C 55 D 80 E 25 F 3 G 7 Tabela 2.4: Tipos de problemas Numa Indústria de Computadores Na figura 2.2 temos o Diagrama de Pareto referente a estes dados. Figura 2.2: Diagrama de Pareto 2.2.1 Construindo um Diagrama de Pareto 1. Selecione os problemas a serem comparados e estabeleça uma ordem através de: 2. Coleta de Dados 7 • Brainstorming - Exemplo: Qual é o nosso maior problema de qualidade no departamento de compras? • Utilização de dados existentes - Exemplo: Verificar os registros da qualidade do departamento de compras ao longo do último mês. 2. Selecione um padrão de comparação com unidade de medida - Exemplo: Custo mensal, frequência de ocorrência. 3. Especifique o perı́odo de tempo em que os dados serão coletados - Exemplo: Uma semana, um mês. 4. Colete os dados necessários para cada categoria - Exemplo: Defeito A ocorreu X vezes ou defeito C custou Y. 5. Compare a frequência ou custo de cada categoria com relação a todas as outras categorias - Exemplo: Defeito A ocorreu 75 vezes, defeito B ocorreu 107 vezes, defeito C ocorreu 42 vezes ou defeito A custa 75 reais mensalmente, defeito B custa 580 reais mensalmente. 6. Liste as categorias da esquerda para direita no eixo horizontal em ordem decrescente de frequência ou custo. Os itens de menor importância podem ser combinados na categoria outros, que é colocada no extremo direito do eixo, com a última barra. 7. Acima de cada categoria desenhe um retângulo cuja a altura representa a frequência ou custo daquela categoria. 8. A partir do topo da maior barra e da esquerda para a direita, ascendendo, uma linha pode ser adiciona representando a frequência acumulada das categorias. Diagrama de Pareto Relativo a Custos Exemplo 2.4. Consideremos um exemplo de cartões perfurados, levando em consideração os custos envolvidos. 2. Coleta de Dados 8 Principais Defeitos Números Trocados Caracteres Errados Amassada Perfurada Impressão Ilegı́vel de Dados Rasgada Outros TOTAL No de Embalagens Custo por Unidade Defeituosas Defeituosa (R$) 28 0,05 28 0,05 4 1,00 3 0,05 2 2 1 68 0,05 1,00 0,05 Custo do Defeito (R$) 1,40 1,40 4,00 0,15 0,10 2,00 0,05 Figura 2.3: Diagrama de Pareto - Relativo a Custos A exposição dos dados pode ser feita através de tabela e/ou gráficos. Aproveitando os exemplos anteriores poderı́amos apresentar os dados através de suas respectivas tabelas, com a ressalva de que deverı́amos eliminar a coluna “Apuração”, para uma apresentação mais elegante. Também é lógico que se contarmos com um computador esta coluna não faz sentido. Inúmeros gráficos auxiliam na apresentação e interpretação dos fatos, mas destacaremos os mais usuais em indústrias. 9 Capı́tulo 3 Gráficos 3.1 Distribuição de Freqüências e Histograma Com as tabelas e/ou gráficos em mãos, tendo uma melhor visualização dos dados, muitas vezes já temos condições de interpretar o fenômeno em estudo. Entretanto, para alguns casos ainda haverá necessidade de se efetuar operações numéricas para se chegar a conclusões mais sólidas. Devido ao fato de dados quantitativos serem os mais freqüentemente encontrados na indústria, desenvolveremos inicialmente métodos de análise para eles. Ou seja, passamos à sua descrição, através do que é chamado de distribuição de frequências. Dados Contı́nuos Vejamos o exemplo 2.2, onde a Tabela 2.3 é agora apresentada sem a coluna APURAÇÃO, ou seja: Diâmetro No de motores 4, 2 ` 4, 4 12 4, 4 ` 4, 6 16 4, 6 ` 4, 8 32 4, 8 ` 5, 0 64 5, 0 ` 5, 2 36 5, 2 ` 5, 4 24 5, 4 ` 5, 6 12 5, 6 ` 5, 8 4 Tabela 3.1: Diâmetro do Eixo de 200 Motores (Sem Apuração) Note que neste exemplo a variável de interesse é o “Diâmetro” enquanto que “Número de Motores” é a freqüência de medidas em cada intervalo. 3. Gráficos 10 Freqüência Absoluta (fi ): É o número de observações correspondente a cada intervalo. A freqüência absoluta é, geralmente, chamada apenas de frequência. No exemplo 2.2, a frequência é o número de motores. Para um dado intervalo i, denotaremos a frequência absoluta correspondente a este intervalo por fi . Assim, por exemplo, a frequência do quarto intervalo, na Tabela 3.1, é f4 = 64. Frequência Relativa (f ri ): É o quociente entre a frequência absoluta e o número total fi de observações, e será denotada por f ri . Isto é, f ri = onde n representa o número total de n observações. No nosso exemplo, como n = 200, temos que a freqüência relativa é dada por f r4 = 64 = 0, 32. 200 Frequência Percentual (pi ): É conseguida multiplicando-se a frequência relativa por 100%. No exemplo que estamos usando a frequência percentual da quarta classe é dada por: p4 = 64 ∗ 100% = 32%. 200 Frequência Acumulada: É o total acumulado (soma) de todas as classes anteriores até a classe atual. Pode ser Frequência Acumulada Absoluta (Fi ), Frequência Acumulada Relativa (F ri ), ou Frequência Acumulada Percentual (Pi ). Ponto Médio (xi ): É obtido somando o limite inferior e o limite superior de cada intervalo e dividindo o resultado por 2. Consideramos este ponto como sendo o valor representativo de cada intervalo. No caso do primeiro intervalo, no exemplo dado, temos: x1 = 4, 2 + 4, 4 = 4, 3. 2 Agora que temos estas quantidades definidas, vamos usar o exemplo que estamos acompanhando e mostrar todas elas através de uma tabela completa. Como Frequência Acumulada iremos apresentar somente a Frequência Acumulada Percentual. 3. Gráficos 11 Diâmetro 4, 2 ` 4, 4 4, 4 ` 4, 6 4, 6 ` 4, 8 4, 8 ` 5, 0 5, 0 ` 5, 2 5, 2 ` 5, 4 5, 4 ` 5, 6 5, 6 ` 5, 8 xi 4,3 4,5 4,7 4,9 5,1 5,3 5,5 5,7 fi 12 16 32 64 36 24 12 4 f ri pi (%) Pi (%) 0,06 6 6 0,08 8 14 0,16 16 30 0,32 32 62 0,18 18 80 0,12 12 92 0,06 6 98 0,02 2 100 Tabela 3.2: Distribuição de Frequências dos Diâmetros dos Eixos Figura 3.1: Histograma - Frequência Absoluta Figura 3.2: Histograma - Porcentagens Algumas indicações na construção da distribuição de frequências são: 1. Na medida do possı́vel, as classes deverão ter amplitudes iguais. 2. Escolher os limites dos intervalos entre duas possı́veis observações. 3. O número de intervalos não deve ultrapassar 20. 4. Escolher limites que facilitem o agrupamento. 5. Marcar os pontos médios dos intervalos. 6. Ao construir um histograma, cada retângulo deverá ter área proporcional à frequência relativa correspondente (ou à frequência absoluta, o que dá no mesmo) . 7. Um critério para determinar os intervalos (classes) é: 3. Gráficos 12 Tamanho da Amostra (n) Número de Classes (c) 30 a 50 5a7 51 a 100 6 a 10 10l a 250 7 a 12 acima de 250 10 a 20 Tabela 3.3: Critério Para Determinar os Intervalos Determinação do tamanho da classe ou intervalo (L): L = amplitude R = o n de classes c onde R é o maior valor da amostra menos o menor valor da amostra. Como a tabela de frequência, o histograma tem a caracterı́stica de analisar as relações essenciais que os dados apresentam, e ainda verificar algumas suposições. Dados Discretos Consideremos agora o Exemplo 2.1, onde a Tabela 2.1 é apresentada sem a coluna APURAÇÃO. Número de Peças Defeituosas 7 8 9 10 11 12 Número de lotes 1 2 5 8 3 1 Tabela 3.4: Número de Peças Defeituosas em Lotes de 1.000 (Sem Apuração) A variável de interesse é “Número de peças defeituosas”, enquanto que “Número de Lotes” é a frequência observada para cada classe da variável de interesse. Com as quantidades já definidas, construiremos a tabela completa para este exemplo. Note que a coluna “Ponto Médio” não é necessária, pois se trata de dados discretos. 3. Gráficos 13 Número de Peças Defeituosas 7 8 9 10 11 12 fi f ri 1 2 5 8 3 1 0,05 0,10 0,25 0,40 0,15 0,05 pi (%) Pi (%) 5 10 25 40 15 5 5 15 40 80 95 100 Tabela 3.5: Distribuição de Frequências dos Dados do exemplo 2.1 Figura 3.3: Histograma - Frequência Absoluta Figura 3.4: Histograma - Porcentagens 14 Capı́tulo 4 Medidas de Posição A seguir apresentaremos as medidas básicas para resumir um conjunto de dados. Estas medidas são amplamente utilizadas para descrever um conjunto de dados. As medidas de posição é uma forma de resumir os dados, fornecendo apenas um valor, por exemplo, o valor médio de um conjunto de dados. 4.1 Média Aritmética A média aritmética, ou simplesmente média, é calculada somando-se os valores das observações e dividindo-se o resultado pelo número de valores. Notação: • X : valor de cada indivı́duo da amostra. • X : média amostral. • µ : média populacional. • n : tamanho da amostra. • N : tamanho do universo (população). Assim, a média amostral é dada por: X= X1 + . . . + Xn n (4.1) 4. Medidas de Posição 15 Exemplo 4.1. Uma amostra de 5 barras de aço foi retirada da linha de produção e seus comprimentos foram medidos. Os valores foram: 4,5; 4,6; 4,5; 4,4; 4,5. A média amostral dos comprimentos é: x= 4, 5 + 4, 6 + 4, 5 + 4, 4 + 4, 5 5 O comprimento médio das barras de aço desta amostra é x = 4, 5. 4.2 Mediana Para calcular a mediana devemos, em primeiro lugar, ordenar os dados do menor para o maior valor. Se o número de observações for ı́mpar, a mediana será a observação central. Se o número de observações for par, a mediana será a média aritmética das duas observações centrais. Notação: e : mediana • X Exemplo 4.2. Uma amostra de 7 caixas de um dispositivo eletrônico, com 100 unidades por caixa, apresentou os seguintes números de dispositivos defeituosos por caixa: 27, 5, 10, 7, 8, 12, 9. Em primeiro lugar devemos ordenar os valores: 5, 7, 8, 9, 10, 12, 27. Como o número de observações é ı́mpar, a mediana é o valor central, isto é, x e = 9. Exemplo 4.3. Consideremos os seguintes dados correspondentes aos comprimentos de 8 rolos de fio de aço: 65, 72, 70, 77, 60, 67, 69, 68. Ordenando os valores, temos: 60, 65, 67, 68, 69, 70, 72, 77. Como o número de observações é 8, portanto par, a mediana é dada pela média dos dois valores centrais que são 68 e 69, isto é: x e= 68 + 69 = 68, 5. 2 16 Capı́tulo 5 Medidas de Dispersão Dispersão é sinônimo de variação ou variabilidade de uma distribuição. Para medir a dispersão são freqüentemente usadas a amplitude e o desvio padrão. 5.1 Amplitude A amplitude é a diferença entre o maior e menor valor do conjunto de dados. Notação: • R: amplitude. • X(1) : menor valor do conjunto de dados. • X(n) : maior valor do conjunto de dados. Assim, a amplitude é dada por: R = X(n) − X(1) (5.1) Exemplo 5.1. As temperaturas num perı́odo de 8 horas (uma medida/hora) foram: 60, 65, 67, 68, 69, 70, 72, 77. A amplitude deste conjunto é: R = 77 − 60 = 17 5. Medidas de Dispersão 5.2 17 Variância A variância de uma população de N elementos é a medida de dispersão definida como a média do quadrado do desvios dos elementos em relação a média. Notação: • σ 2 : variância populacional. • s2 : variância amostral. Assim, a variância amostral é dada por: n X s2 = 5.3 (Xi − X)2 i=1 n−1 . (5.2) Desvio Padrão O desvio padrão de um conjunto de dados é igual à raiz quadrada positiva da variância. Notação: • σ : desvio padrão populacional. • s : desvio padrão amostral. Assim, o desvio padrão amostral é dado por: s= p σ2 = v u N uX u (xi − x)2 u t i=1 n−1 . (5.3) Exemplo 5.2. Considere a amostra dos comprimentos de 8 rolos de fio de aço cujos valores foram: 65, 72, 70, 77, 60, 67, 69, 68. Calcular o desvio padrão. Para calcular o desvio padrão devemos primeiramente calcular a média x, isto é: x= 65 + 72 + 70 + 77 + 60 + 67 + 69 + 68 = 68, 5. 8 Agora vamos subtrair x = 68, 5 de cada valor, elevar cada resultado ao quadrado e somá-los. 5. Medidas de Dispersão 18 65 72 70 77 60 67 69 68 (x − x) - 68,5 = -3,5 - 68,5 = 3,5 - 68,5 = 1,5 - 68,5 = 8,5 - 68,5 = -8,5 - 68,5 = -1,5 - 68,5 = 0,5 - 68,5 = 0,5 (x − x)2 (−3, 5) = 12,25 (3, 5)2 = 12,25 (1, 5)2 = 2,25 (8, 5)2 = 72,25 (−8, 5)2 = 72,25 (−1, 5)2 = 2,25 (0, 5)2 = 0,25 (0, 5)2 = 0,25 Total = 174,00 2 Então dividimos o total dos quadrados pelo número de valores menos 1, ou seja, por (n-1) e extraı́mos a raiz quadrada: √ 174 = 24 ⇒ s = 24 ⇒ s = 4, 9 7 Portanto o desvio padrão é 4,9. 19 Capı́tulo 6 Estatı́sticas Descritivas Uma análise das estatı́sticas descritivas da amostra é fundamental para resumirmos algumas informações sobre a população. Estas informações são utilizadas para tomada de decisão e formação de modelos estatı́sticos paramétricos. • Mı́nimo(Min): menor elemento da amostra; • Máximo(Max ): maior elemento da amostra; • Primeiro quartil (Q1) e terceiro quartil (Q3): o conjunto de dados com n observações é ordenado em ordem crescente. – Q1: número que deixa 25% das observações abaixo e 75% acima, isto é, é a observação de posição (n+1)/4. – Q3: número que deixa 75% das observações abaixo e 25% acima, isto é, é a observação de posição 3(n+1)/4. • Tri-Média: removemos os 5% maiores valores e os 5% menores valores, arredondados para o maior inteiro, e então a média é calculada. • Skewness : medida de assimetria. Um valor negativo indica que uma skewness está tendida à esquerda e um valor positivo indica que a skewness está tendida à direita. Um valor nulo não necessariamente indica simetria. A fórmula da Skewness: P [(xi − x)/s]3 b1 = n onde: 6. Estatı́sticas Descritivas 20 xi : é a n-ésima observação. x: é a média das observações. N : é o número de executadas. s: é o desvio padrão. • Kurtosis: é a medida de quão diferente a distribuição difere da distribuição normal. Um valor positivo costuma indicar um pico mais agudo, um corpo mais fino e uma calda mais gorda que a calda da distribuição normal. Um valor negativo indica um pico mais tênue, um corpo mais grosso e uma calda mais fina que a da distribuição normal. A fórmula da Kurtosis: X xi − x 4 N (N + 1) 3(N − 1)2 b2 = − (N − 1)(N − 2)(N − 3) s (N − 2)(N − 3) onde: xi : é a n-ésima observação. x: é a média das observações. N : é o número de executadas. S: é o desvio padrão. Exemplo 6.1. Consideremos uma amostra dos comprimentos de 11 rolos de fio de aço cujos valores são: 72, 70, 77, 60, 67, 69, 68, 66, 65, 71, 69. Os dados ordenados de forma crescente é: 60, 65, 66, 67, 68, 68, 69, 70, 71, 72, 77. Os resultados serão: M in = 60 M ax = 77 A Tri-Média foi calculada retirando-se o maior e o menor valor do conjunto de dados e calculamos a média dos 9 restantes, então: Tri-Média = 65 + 66 + · · · + 72 = 68, 56 9 Posição do Q1 = 11 + 1 =3 4 ⇒ Q1 = 66 6. Estatı́sticas Descritivas 21 Posição do Q3 = 3 11 + 1 4 =9 ⇒ Q3 = 71 Skewness: 1 b1 = n (60 − 68, 55)3 + (65 − 68, 55)3 + · · · + (77 − 68, 55)3 (4, 32)3 = −0, 028 Kurtosis: 11(12) b2 = (10)(9)(8) 6.1 (60 − 68, 55)4 + (65 − 68, 55)4 + · · · + (77 − 68, 55)4 (4, 32)4 − 3(10)2 = 1, 53 (9)(8) Box-Plot O Box Plot (gráfico de caixa) é importante para descrever vários aspectos dos dados, entre estes, apresentar de forma visual a diferença entre o terceiro e primeiro quartil. O box plot é formado pelo primeiro e terceiro quartil, e pela mediana. As linhas verticais são estendidas até os limites: Limite inferior : Q1 − 1, 5(Q3 − Q1 ) Limite superior : Q3 + 1, 5(Q3 − Q1 ) Os pontos fora destes limites são considerados valores discrepantes (outliers) e são denotados com um asterisco (*). A Figura 6.1 apresenta o formato do Box Plot. Figura 6.1: Construção do Boxplot O Box-Plot pode ainda ser utilizado para uma comparação visual entre dois ou mais grupos. Por exemplo, duas caixas são colocadas lado a lado e se compara a variabilidade entre elas, a 6. Estatı́sticas Descritivas 22 mediana e assim por diante. Figura 6.2: Comparação entre dois Boxplots 23 Capı́tulo 7 Probabilidades 7.1 Introdução Podemos classificar os fenômenos da natureza ou criados pelo homem em dois tipos: aleatórios (casuais) e não aleatórios (determinı́sticos). Lidaremos com os aleatórios, os quais não sabemos o resultado a priori. No entanto, podemos listar os possı́veis resultados do fenômeno aleatório, que formarão um conjunto denominado de Espaço Amostral (S). Ao estudarmos uma caracterı́stica da qualidade de um processo (ou produto), o espaço amostral consiste de todos os valores possı́veis que a caracterı́stica da qualidade pode assumir. Exemplo 7.1. Considere o experimento de lançar um dado e observar a face que cair para cima. O espaço amostral é S = {1, 2, 3, 4, 5, 6}. Considere um experimento no qual classificamos um produto em conforme ou não conforme. Neste caso, o espaço amostral é S = {Conforme, Não conforme}. Outro experimento aleatório consiste em contar o número de defeitos em uma peça pintada (por exemplo). Neste caso, os possı́veis resultados são S = {0, 1, 2, 3, · · · }. Relacionado a um experimento, como acima, uma série de sentenças podem ser formuladas. Estas sentenças são denominadas Eventos. Exemplo 7.2. Consideremos o lançamento do dado no exemplo 7.1. Podemos definir vários eventos. Alguns são: A = “sair número par”, B = “sair número ı́mpar”, C = “sair número maior do que 3”. Esses eventos podem ser representados, respectivamente, pelos conjuntos: A = {2, 4, 6} , B = {1, 3, 5} e C = {4, 5, 6}. Considere o experimento de classificar a peça em conforme ou não, podemos definir como eventos, A = {Conforme}, B = {Não conforme}. Ao contarmos o número de defeitos em uma peça pintada, geralmente, estaremos interessados no evento A = {Zero Defeito} = {0}. 7. Probabilidades 7.2 24 Definições De uma forma geral, qualquer subconjunto de um espaço amostral será denominado Evento. Os eventos são denotados por letras maiúsculas (A, B, C, ...). Outro aspecto importante da teoria de probabilidade está na manipulação de eventos. Do ponto de vista prático, os eventos são as sentenças (perguntas) que podemos formular sobre nosso experimento. Assim, desejamos definir formas de manipular, ou seja, de operar estas sentenças. As três operações básicas são: União ( ∪ ) : A união de dois conjuntos quaisquer E e F conterá todos os elementos de E e de F , incluindo os elementos que sejam comum aos dois ou não. Intersecção ( ∩ ) : A intersecção de dois conjuntos quaisquer E e F conterá os elementos comuns a E e F. Complementar (Ac ) : O evento complementar ao evento A é o conjunto dos elementos do espaço amostral que não pertencem a A. Exemplo 7.3. Consideremos o lançamento do dado no exemplo 7.2 . Temos: a) A ∪ B = {1, 2, 3, 4, 5, 6} b) A ∩ B = {} = φ conjunto vazio c) A ∩ C = {4, 6} e A ∪ C = {2, 4, 5, 6} d) C c = {1, 2, 3} Na terminologia da teoria de conjuntos, o conjunto vazio é o conjunto composto por nenhum elemento, que denotaremos por φ . Este conjunto está contido em qualquer outro evento do espaço amostral. A probabilidade é uma forma de atribuirmos “pesos” relativo a ocorrência dos eventos. A probabilidade, que denotaremos por P, é uma função que tem domı́nio na classe de eventos e tem como imagem números (pesos) entre 0 e 1. Além disso, a probabilidade deve satisfazer as seguinte regras. Considere um experimento, S o espaço amostral associado e P uma função definida sobre a classe de eventos, tal que: 1. P (S) = 1; 2. 0 ≤ P (A) ≤ 1; 7. Probabilidades 25 3. Se A1 , ..., An são mutuamente exclusivos, isto é, Ai Pn i=1 P (Ai ). T S Aj = ∅, i 6= j, então P ( ni=1 Ai ) = Onde A e B são eventos, isto é, subconjuntos do espaço amostral S. Qualquer função P que atribua pesos a eventos associados a um espaço amostral e que satisfaça as propriedades (1) e (2) acima será denominada probabilidade. Se os elementos de um espaço amostral S = e1 , e2 , · · · , en (finito) são equiprováveis, isto é, todos os elementos do espaço amostral tem o mesmo “peso” (probabilidade) de ocorrer, temos que 1 n P ({ei }) = Neste caso, podemos definir a probabilidade de um evento E = {ej1, · · · , ejk}, composto por k (com k menor que n) elementos, como sendo: P (E) = número de casos favoráveis a E k = número de casos possı́veis de S n Exemplo 7.4. Considere o lançamento do dado descrito nos exemplos 7.2 e o 7.3. Neste caso, os elementos do espaço amostral S = {1, 2, 3, 4, 5, 6} são equiprováveis, pois cada resultado tem a mesma chance de ocorrer, isto é, P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1 6 Assim, temos que P (A) = P ({2, 4, 6}) = P ({2}) + P ({4}) + P ({6}) = 1 1 1 + + 6 6 6 = 3 6 Com isso, obtemos que a probabilidade de ocorrer o evento A é igual ao número de elementos favoráveis a A = {2, 5, 6} que é 3 (pois A tem 3 elementos) dividido pelo número de elementos no espaço amostral que é 6. Desta forma, obtemos P (A) = 3 6 P (A ∪ B) = , 6 = 1 6 P (B) = , 3 6 , P (C) = P (A ∩ B) = 0 = 0 6 3 6 7. Probabilidades 26 P (A ∪ C) = 4 6 , P (A ∩ C) = 2 6 Uma propriedade importante para calcularmos a probabilidade de ocorrência de eventos associados ao experimento é a regra da soma (união) de dois eventos. Regra da Soma: a probabilidade da união de dois eventos E e F pode ser calculada por P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ) Exemplo 7.5. Considere o exemplo 7.4. Queremos calcular P (A ∪ C). Temos P (A ∪ C) = P (A) + P (C) − P (A ∩ C) = 3 2 4 3 + − = 6 6 6 6 Outra propriedade muito importante para a teoria de probabilidade é a independência entre dois eventos. Na prática, dois eventos são independentes quando a ocorrência de um evento não influência na ocorrência ou não do outro evento. Do ponto de vista probabilı́stico, definimos: Independência: Dois eventos E e F são ditos “independentes” se P (E ∩ F ) = P (E) × P (F ) Exemplo 7.6. Uma caixa contém 10 peças, sendo 7 boas (B) e 3 defeituosas (D). Retiramos duas peças, ao acaso e com reposição, para inspeção. Qual a probabilidade de se obter duas peças defeituosas? Resposta: O experimento de realizar a primeira retirada tem como espaço amostral S1 = {D1 ; B1 } e a segunda retirada tem como espaço amostral S2 = {D2 ; B2 }, onde Di significa que retiramos uma peça Defeituosa na i-ésima retirada e Bi significa que retiramos uma peça Boa na i-ésima retirada, para i = 1, 2. Além disso, temos que P (D1 ) = P (D2 ) = 3 10 e P (B1 ) = P (B2 ) = 7 10 Pois as duas peças são retiradas ao acaso e com reposição, isto é, após retirarmos a primeira peça, esta é a resposta à caixa para que possamos efetuar a segunda retirada. Associamos ao 7. Probabilidades 27 experimento de retirar duas peças ao acaso e com reposição o espaço amostral S = {(D1 , B2 ); (B1 , D2 ); (D1 , D2 ); (B1 , B2 )} . Desde que a primeira e a segunda retiradas são executadas de forma independente, temos que P [(D1 ; D2 )] = P (D1 ∩ D2 ) = P (D1 ) × P (D2 ) = 3 3 9 × = 10 10 100 Muitas vezes precisamos calcular a probabilidade da ocorrência de dois eventos simultaneamente. Para efetuarmos tal cálculo, introduzimos o conceito de probabilidade condicional. Probabilidade Condicional: A probabilidade de ocorrer um evento E dado que ocorreu um evento F é dada por P (E / F ) = P (E ∩ F ) P (F ) Dessa relação sai a Regra do Produto que é dada por P (E ∩ F ) = P (F ) × P (E / F ) Com isso, concluı́mos que a probabilidade de ocorrência simultânea dos eventos E e F é igual a probabilidade de ocorrência do evento F (ou E) vezes a probabilidade de ocorrência do evento E (ou F) dado que ocorreu o evento F (ou E). Exemplo 7.7. Considere o exemplo 7.6, mas agora as retiradas serão feitas sem reposição, isto é, a primeira peça retirada não volta ao lote para retirarmos a segunda peça. A probabilidade de se retirar duas peças defeituosas é dada por: P (D1 ∩ D2 ) = P (D1 ) × P (D2 / D1 ) = 2 6 3 × = 10 9 90 Exercı́cio 7.1. Considere um processo que apresenta 8% de defeituosos. Duas peças são selecionadas ao acaso e classificadas em defeituosas ou não. a) Qual o espaço amostral associado ao experimento de selecionar duas peças e classificá-las? b) Qual a probabilidade de obtermos duas peças defeituosas? 7. Probabilidades 28 Exercı́cio 7.2. Considere um processo composto por duas etapas. A etapa I apresenta 5% de peças defeituosas, enquanto que a etapa II apresenta 9% de peças defeituosas. Qual a probabilidade do processo fornecer uma peça sem defeito? 7.3 Distribuição de Probabilidade Discreta A distribuição de probabilidades de uma variável aleatória discreta X, definida em um espaço amostral (S), é uma tabela que associa a cada valor de X sua probabilidade. Exemplo 7.8. Considere que uma moeda é lançada duas vezes. Seja X a função definida no espaço amostral que é igual ao número de caras nos dois lançamentos (C - Cara e C - Coroa). Temos então: Os valores das probabilidades, na tabela acima, são obtidos da seguinte maneira: Valores de X 0 1 2 Pontos amostrais CC CC, CC CC Probabilidades 1/4 1/2 1/4 Tabela 7.1: Tabela do Exercı́cio P [X = 0] = P (CC) = 1 4 P [X = 1] = P (CC) + P (CC) = P [X = 2] = P (CC) = 7.3.1 1 2 1 4 Função de Distribuição Acumulada O conceito de função de distribuição acumulada que introduziremos aplica-se tanto a variáveis aleatórias discretas quanto a variáveis aleatórias contı́nuas. A função de distribuição acumulada nos dá outra maneira de descrever como as probabilidades são associadas aos valores ou aos intervalos de valores de uma variável aleatória. Definição 7.3.1. A função de distribuição acumulada de uma variável aleatória X é uma função que a cada número real x associa o valor: F (x) = P [X ≤ x] 7. Probabilidades 29 A notação [X ≤ x] é usada para designar o conjunto {ω ∈ S : X(ω) ≤ x}, isto é, denota a imagem inversa do intervalo (−∞, x] pela variável aleatória X. Lema 7.3.1. A função de distribuição acumulada de uma variável aleatória X satisfaz as seguintes condições: 1. 0 ≤ F (x) ≤ 1 2. F (x) é não decrescente e contı́nua à direita 3. limx→−∞ F (x) = 0 e limx→∞ F (x) = 1 7.3.2 Relação entre a Função de Distribuição Acumulada e a Distribuição de Probabilidade Discretas Seja X uma variável aleatória discreta cuja distribuição de probabilidade associa aos valores x 1 , x2 , . . . , x n as respectivas probabilidades P [X = x1 ], P [X = x2 ], . . . , P [X = xn ] . Como os valores de X são mutuamente exclusivos, temos que: F (x) = X P [X = xi ] Assim, dada a distribuição de probabilidade de uma variável aleatória discreta sua função de distribuição acumulada fica determinada. 7.3.3 Esperança de Variáveis Aleatórias Discretas Definição 7.3.2. A esperança matemática de uma variável aleatória discreta X que assume os valores xi , com respectivas probabilidades P [X = xi ], para i = 1, 2, . . . , é dada por: E(X) = X xi P [X = xi ] (7.1) 7. Probabilidades 30 Lema 7.3.2. Se as esperanças das variáveis aleatórias X e Y existem, então existe a esperança de X + Y e se c é uma constante tem-se: E(X + Y ) = E(X) + E(Y ) E(cX) = cE(X) 7.3.4 Variância de Variáveis Aleatórias Discretas Definição 7.3.3. A variância de uma variável aleatória discreta X é definida por: V ar(X) = E(X − E(X))2 (7.2) ou V ar(X) = E(X 2 ) − (E(X))2 7.4 Modelos Probabilı́sticos Discretos Agora iremos apresentar alguns dos principais modelos probabilı́sticos utilizados para descrever vários fenômenos ou situações que encontramos na natureza ou ainda experimentos por nós construı́dos. Na prática, nossos experimentos consistem em medir etapas de um processo. Como resultados destas medições obtemos valores numéricos ou atributos, que caracterizam a performance do processo. Os resultados das medições são denominados variáveis aleatórias. 7.4.1 Distribuição Binomial Quando queremos classificar um lote de 20 peças em defeituosas ou não, e contamos o número de peças defeituosas, associamos uma variável aleatória X, que representa este número de peças defeituosas. Esta variável pode assumir, por exemplo, valores 0, 1, 2, · · · , 20. Associado a uma variável aleatória, assumindo um número finito (ou infinito enumerável) de valores, definimos a função de probabilidade da variável aleatória X, como a probabilidade da variável X assumir o valor x. A função de probabilidade será denotada por P [X = x]. 7. Probabilidades 31 Como o leitor deve ter notado, em todas as situações descritas cada elemento da população é classificado segundo possua ou não uma dada caracterı́stica. Para construir o modelo binomial vamos introduzir uma seqüencia de ensaios de Bernoulli. Uma seqüencia de Bernoulli é definida por meio das três condições seguintes: i. Em cada ensaio considera-se somente a ocorrência ou não-ocorrência de um certo evento que sera denominado sucesso (S) e cuja não ocorrência será denominada falha (F). ii. Os ensaios são independentes. iii. A probabilidade de sucesso, que denotaremos por p, é a mesma para cada ensaio. A probabilidade de falha será denotada por 1 - p. Para um experimento que consiste na realização de n ensaios de Bernoulli, o espaço amostral pode ser considerado como o conjunto de n-uplas de comprimento n, em que cada posição há um sucesso (S) ou uma falha (F). Pelas condições 2 e 3 vemos que a probabilidade de um ponto amostral com sucessos nos k primeiros ensaios e falhas nos n − k ensaios seguintes é pk (1 − p)n−k . Note que esta é a probabilidade de qualquer ponto com k sucessos e n-k falhas. O número de pontos do espaço amostral que satisfaz essa condição é igual ao número de maneiras com que podemos escolher k ensaios dentre os n para a ocorrência de sucesso, pois nos n-k restantes deverão ocorrerfalhas. n Este número é igual ao número de combinações de n elementos tomados k a k, ou seja . k Decorre do que foi exposto que, para k = 0,1,. . . ,n: P [X = k] = n k pk (1 − p)n−k . (7.3) A fórmula 7.3 é denominada distribuição binomial com parâmetros n e p, onde n é o número de ensaios e p a probabilidade de sucesso em cada ensaio. O número de sucessos X em n ensaios de Bernoulli pode ser representado por meio de variáveis aleatórias associadas a cada ensaio, que assumem valores zero ou 1. Seja Xi = 1 se ocorre sucesso no i-ésimo ensaio e Xi = 0 se ocorre falha, para i = 1, 2, . . . , n. Então X pode ser expresso da seguinte maneira: X = X1 + X2 + · · · + Xn . 7. Probabilidades 32 Como motivação, suponha que estamos interessados em retirar o número 4 ao lançar um dado. Se ocorrer o no 4 diremos que ocorreu SUCESSO, caso contrário, diremos que ocorreu FRACASSO. Assim temos P (SUCESSO) = 1 6 e P (FRACASSO) = 5 6 Suponha agora que lancemos o dado 5 vezes. É claro que o resultado de um lançamento independe do anterior, do posterior ou de qualquer outro lançamento. Digamos que estamos interessados em calcular a probabilidade de obter o no 4, duas vezes. Podemos obter o no 4, duas vezes de várias maneiras. Uma maneira é (a não ocorrência de 4 será denotada por 0): 4 4 0 0 0 com probabilidade 1 1 5 5 5 × × × × = 6 6 6 6 6 2 3 1 5 × 6 6 com probabilidade 1 5 1 5 5 × × × × = 6 6 6 6 6 2 3 1 5 × 6 6 Uma outra maneira é 4 0 4 0 0 com probabilidade igual a anterior. Assim, qualquer seqüência contendo o no 4, duas vezes e três outros valores quaisquer tem a mesma probabilidade. Como qualquer uma dessas seqüências serve ao nosso interesse, a probabilidade procurada é a soma das probabilidades de todas as seqüências. Precisamos saber então quantas seqüências existem. A resposta é dada por: C(5, 2) = 5! = 10 2! × (5 − 2)! onde 5! = 5 × 4 × 3 × 2 × 1 = 120 (fatorial de 5) . O número C(i, j) corresponde ao número de vezes que podemos combinar i elementos em subgrupos de j, com j menor ou igual a i. Assim temos 2 3 1 5 P (n 4 duas vezes) = 10 × × 6 6 o Agora vamos generalizar esse resultado. Suponha um experimento com apenas dois resultados possı́veis: SUCESSO e FRACASSO, tal que P (SUCESSO) = p e P (FRACASSO) = 1 − p = q . Vamos repetir esse experimento n vezes e estamos interessados em obter k SUCESSOS, e conseqüentemente n − k FRACASSOS. O número de sucessos a serem obtidos é variável e o chamaremos de X. Assim temos que 7. Probabilidades 33 P (X = k) = C(n, k) × pk × (1 − p)n−k onde k = 0, 1, 2, · · · , n e C(n, k) = n! . k! × (n − k)! Exemplo 7.9. Suponha que numa linha de produção a probabilidade de se obter uma peça defeituosa (sucesso) é p = 0, 1. Toma-se uma amostra de 10 peças para serem inspecionadas. Qual a probabilidade de se obter: a) Uma peça defeituosa? b) Nenhuma peça defeituosa? c) Duas peças defeituosas? d) No mı́nimo duas peças defeituosas? e) No máximo duas peças defeituosas? Solução: a) P (X = 1) = C(10, 1) × (0, 1)1 × (1 − 0, 1)10−1 = b) P (X = 0) = C(10, 0) × (0, 1)0 × (1 − 0, 1)10−0 = c) P (X = 2) = C(10, 2) × (0, 1)2 × (1 − 0, 1)10−2 = 10! 1!×(10−1)! 10! 0!×(10−0)! × 0, 1 × (0, 9)9 = 0, 3874 × (0, 9)10 = 0, 3486 10! 2!×(10−2)! × (0, 1)2 × (0, 9)8 = 0, 1937 d) P (X ≥ 2) = P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) ou P (X ≥ 2) = 1 − [P (X = 0) + P (X = 1)] = 0, 2639 e) P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0, 9298 Uma caracterı́stica de uma variável aleatória X é o seu valor esperado, que é denotado por E[X]. O valor esperado representa o número médio de peças defeituosas em uma amostra de peças. Por definição, temos que E[X] = n X k × P (X = k) k=0 Considerando X com distribuição binomial, então 7. Probabilidades 34 E[X] = n X k × C(n, k) × pk × (1 − p)n−k = n × p k=0 Para uma amostra de tamanho 10 e p = 0.1 , obtemos que E[X] = n × p = 10 × 0, 1 = 1 e a variância Var[X] corresponde ao valor médio quadrático em torno de E[X], ou seja V ar[X] = E (X − E[X])2 = E[X 2 ] − (E[X])2 = n × p × (1 − p) Para o exemplo, temos que σx2 = V ar[X] = n × p × (1 − p) = 10 × 0, 1 × 0, 9 = 0, 9 e o desvio padrão é σx = p σx2 = 0, 9487 Exercı́cio 7.3. Considere uma linha de montagem que apresenta 6% de produtos defeituosos. Em um lote de 50 produtos calcule a probabilidade de: a) Encontrarmos nenhum produto defeituoso; b) Obtermos dois produtos defeituosos; c) Obtermos dois ou mais produtos defeituosos; d) Qual o número esperado de produtos defeituosos em um lote de 200 produtos? e) Calcular também o desvio padrão. 7.4.2 Distribuição de Poisson Na distribuição binomial quando o tamanho da amostra n é grande (n → ∞) e p é pequeno (p → 0) , o cálculo da probabilidade P (X = k) = C(n, k) × pk × (1 − p)n−k 7. Probabilidades 35 pode ser feito usando a seguinte expressão P (X = k) = onde k = 0, 1, 2, 3, · · · , e = 2, 718 e e−λ × λk k! λ = n × p. Essa expressão é devido a Poisson e é muito usada para calcular probabilidades de ocorrências de defeitos “raros” em sistemas e componentes. O número de defeitos é a variável representada por X. A média de X é dada por: µx = E(X) = ∞ X k × P (X = k) = k=0 ∞ X k× k=0 e−λ × λk = λ k! que freqüentemente é chamada de taxa de defeitos. A variância de X é dada por: σx2 = E(X 2 ) − [E(X)]2 = λ e o desvio padrão é: σx = p σx2 = √ λ Exemplo 7.10. Para um processo que mantém uma taxa de 0,2 defeitos por unidade. Qual a probabilidade de uma unidade qualquer apresentar: a) Dois defeitos? b) Um defeito? c) Zero defeito? Resposta: Temos que λ = 0, 2 , então a) P (X = 2) = e−0,2 ×(0,2)2 2! = 0, 0164 b) P (X = 1) = e−0,2 ×(0,2)1 1! = 0, 1637 c) P (X = 0) = e−0,2 ×(0,2)0 0! = 0, 8187 esse último valor, P (X = 0), é chamado de “rendimento” do processo (ou produto). 7. Probabilidades 36 Exercı́cio 7.4. Suponha que temos um produto composto por três componentes A, B e C. A taxa de ocorrência de defeitos do componente A é de 0,02, do componente B é de 0,04 e do componente C é de 0,03. Calcule a probabilidade do produto apresentar zero defeito. 7.4.3 Distribuição Geométrica Consideremos uma seqüência ilimitada de Bernoulli, com probabilidade de sucesso p em cada ensaio. Designemos sucesso por S e falha por F . Realizamos os ensaios até que ocorra o primeiro sucesso. O espaço amostral para este experimento é o conjunto : (S, FS, FFS, . . ., FF, . . ., FS, . . .) Um elemento tı́pico desse espaço amostral é uma seqüencia de comprimento n em que nas primeiras n − 1 posições temos F e na n-ésima temos S. Seja X a variável aleatória que dá o número de falhas que precedem o primeiro sucesso. A distribuição de probabilidade de X é dada por P [X = j] = (1 − p)j p , j = 0, 1, . . . . (7.4) O evento [X = j] ocorre se e somente se ocorrem somente falhas nos j primeiros ensaios e sucesso no (j + 1)-ésimo ensaio. A expressão 7.4 segue da independência dos ensaios. Vamos calcular E(X) a partir da definição. No Cálculo de E(X), utilizaremos uma expressão que vale a pena destacar, pois é de interesse geral. Para todo número real x no intervalo (0,1) consideremos a série geométrica cuja soma é dada a seguir: ∞ X xi = i=0 1 1−x (7.5) Derivando-se ambos os membros da igualdade, temos: X d X 1 xi = ix(i−1) = . dx (1 − x)2 (7.6) Usando-se a definição de esperança temos: E(X) = X j(1 − p)j p = p X j(1 − p)j = p(1 − p) X j(1 − p)j−1 = p(1 − p) . p2 (7.7) 7. Probabilidades 37 Observe que utilizamos 7.6 e x = 1−p para obter a última desigualdade acima. Simplificando vem: E(X) = 1−p p (7.8) Usando a expressão podemos calcular E(X 2 ) e obter a variância de X. Sugerimos ao leitor que faça esse cálculo que fornecerá: V ar[X] = 1−p p2 (7.9) A distribuição geométrica tem uma propriedade que serve para caracterizá-la no conjunto das distribuições discretas, que é expressa no seguinte lema: Lema 7.4.1. Se X é variável aleatória discreta com distribuição geométrica, então, para todo j, k = 1, 2, . . . tem-se: P [X ≥ j + k|X ≥ j] = P [X ≥ k] Este Lema reflete a falta de memória ou de desgaste da distribuição geométrica. Exemplo 7.11. A duração (em centenas de horas) de um determinado componente eletrônico, foi modelada por uma distribuição geométrica com parâmetro p=0,8. Determine a probabilidade desse componente eletrônico: a. Durar menos de 400 horas. b. Durar mais de 500 horas. Duração em horas(centenas) 0 1 2 3 4 5 Probabilidade 0,8000 0,1600 0,0320 0,0064 0,0013 0,0003 Acumulada 0,8000 0,9600 0,9920 0,9984 0,9997 0,9999 Tabela 7.2: Tabela de probabilidade da distribuição geométrica Solução: 7. Probabilidades 38 a. Para tal temos :P [X = k] = (1 − p)k .p, agora para a P [X ≥ 400horas] = P [X = 0] + P [X = 1] + P [X = 2] + P [X = 3] = (1 − 0, 8)0 × (0, 8) + (1 − 0, 8)1 × (0, 8) + (1 − 0, 8)2 × (0, 8) + (1 − 0, 8)3 × (0, 8) = 0, 800000 + 0, 160000 + 0, 032000 + 0, 006400 = 0, 9984 b. Para tal temos :P [X = k] = (1 − p)k .p, agora para a P [X ≥ 500horas] = 1 − P [X = 5] = 1 − (1 − 0, 8)5 × (0, 8) = 1 − 0, 999936 = 0, 000064 7.4.4 Distribuição Hipergeométrica Essa distribuição representa um modelo para amostragem sem reposição de uma população com um número finito de elementos, em que cada elemento pode ser de um de dois tipos. Se a população tem N elementos, M de um tipo e N − M do outro. Então podemos mostrar que a distribuição de probabilidade da variável aleatória X é dada por: P [X = k] = M k N −M N n n−k , onde max{0, n − (N − M )} ≤ k ≤ min{M, n} Por exemplo, suponha uma urna contendo M bolas brancas e N − M bolas vermelhas. Retira-se da urna n bolas sem reposição, isto é, após cada retirada a bola selecionada não é reposta na urna. Vamos designar X o número de bolas brancas entre as n bolas retiradas da urna. Para justificar os limites, notemos que o número de bolas brancas na amostra k é menor ou igual ao número de bolas brancas na urna M e também menor ou igual ao número de bolas 7. Probabilidades 39 na amostra n, portanto menor ou igual ao menor deles. Se o tamanho da amostra n é menor ou igual ao número de bolas vermelhas N − M , então na amostra todas podem ser vermelhas e portanto k = 0. Se n ≥ (N − M ), então mesmo que todas as (N − M ) vermelhas pertençam à amostra, haverá n − (N − M ) brancas na amostra. O espaço amostral para esse experimento é formado pelo conjunto das amostras não ordenadas de n bolas retiradas das N , ou o que é o mesmo, pelo conjunto das combinações de N elementos tomados n a n, cuja representação é igual a: Existem M N n combinações de k bolas brancas retiradas das M e N −M com- k n−k binações de n − k vermelhas retiradas das N − M . Assim o número de combinações com k brancas e n − k vermelhas é o produto: M k N −M n−k Mostramos assim a Distribuição de Probabilidade da Hipergeométrica. Se X segue uma distribuição Hipergeométrica com parâmetros N − 1, M − 1 e n − 1, então a Esperança é dada por: E(X) = n. M N e a Variância é dada por: M N −M V ar(X) = n N N n−1 1− N −1 Exemplo 7.12. Uma empresa fabrica um tipo de tomada que são embalados em lote de 25 unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade da empresa tomou o seguinte procedimento. Sorteia um lote e desse lote seleciona 8 tomadas para teste, sem reposição. Se constatar no máximo duas defeituosas, aceita o lote fornecido pelo fabrica. Se a caixa sorteada tivesse 7 peças defeituosas, qual seria a probabilidade de rejeitar o lote? N=25, n=8 (tamanho da amostra) e r=7 (n◦ de defeituosas). Solução: 7. Probabilidades 40 P [aceitar o lote] = P [D ≤ 2] = P [D = 0] + P [D = 1] + P [D = 2] = 7 0 7.5 25 − 7 25 8 8−0 7 1 25 − 7 + 25 8 8−1 7 2 25 − 7 + 25 8 8−2 = 0, 0010069 Exercı́cios Nestes quatro capı́tulos iniciais, discutimos a estratégia de rompimento para a melhoria contı́nua e métodos estatı́sticos para contagem de peças defeituosas. Abaixo, vamos revisar alguns destes conceitos através de exercı́cios. Exercı́cio 7.5. Uma instalação é constituı́da por duas caldeiras e uma máquina. Esta instalação funciona se a máquina e pelo menos uma das caldeiras estiver funcionando. Sejam os eventos: • A: Máquina em condições de funcionamento; • B1 : A caldeira 1 está em condições de funcionamento; • B2 : A caldeira 2 está em condições de funcionamento; • C: A instalação está em condições de funcionamento; Expresse o evento C e o evento C c (complementar) em termos dos eventos A e Bk (k = 1, 2). Exercı́cio 7.6. Utilizando a mesma notação do exercı́cio 7.5, se P (A) = 0, 95, P (B1 ) = 0, 78 e P (B2 ) = 0, 85, qual a probabilidade da instalação não estar em condições de funcionamento? Exercı́cio 7.7. Um lote é formado por 10 peças boas, 4 com defeitos menores e 2 com defeitos graves. Uma peça é escolhida ao acaso. Ache a probabilidade de que: a) A peça seja defeituosa; b) A peça não tenha defeito grave; c) A peça seja boa ou tenha defeito grave; 7. Probabilidades 41 Exercı́cio 7.8. Através de dados históricos, sabemos que a proporção de peças defeituosas em uma fábrica é de 6%. Um lote de 30 peças é retirado da produção: a) Qual a probabilidade de encontrarmos nenhuma peça defeituosa na amostra? b) Qual a probabilidade de encontrarmos duas ou mais peças defeituosas na amostra? c) Qual o número esperado de peças defeituosas na amostra e qual o seu desvio padrão? Exercı́cio 7.9. No processo de fundição de peças, o problema de descontinuidades na peça (óxido, bolha, poros, entre outros) pode sucatear a peça. Utilizando dados históricos, sabemos que a taxa de ocorrência de descontinuidades por peça é de 0,2. Qual a probabilidade de obtermos uma peça com zero descontinuidades? Em um lote de 200 peças, qual o número esperado de descontinuidades? 7.6 Distribuições de Probabilidade Continua As variáveis aleatórias contı́nuas, como o tempo de duração de uma chamada telefônica num dado instante assumem valores na reta ou em intervalos da reta. Não podemos esperar que possamos atribuir probabilidades aos valores de uma variável contı́nua da mesma maneira que o fizemos para as variáveis discretas, pois a soma de uma quantidade não enumerável de números positivos não poderia ser igual a um. Então podemos atribuir probabilidades a intervalos de valores da variável contı́nua por meio de uma função. É uma função não negativa tal que sua integral num dado intervalo é igual a probabilidade da variável pertencer ao intervalo. Impõe-se ainda a condição de que a integral estendida à reta toda seja igual a um, pois ao ser realizado o experimento algum evento ocorre. Definição 7.6.1. A função densidade de probabilidade de uma variável aleatória contı́nua é uma função f (x) ≥ 0, tal que: Z +∞ f (x)dx = 1 −∞ 7. Probabilidades 7.6.1 42 Relação entre a Função de Distribuição Acumulada e a Função densidade de Probabilidade Contı́nua Para uma variável aleatória contı́nua com densidade de probabilidade f (x) podemos obter a função de distribuição F (x) integrando-se a densidade de probabilidade, Z x F (x) = P [X ≤ x] = f (y)dy −∞ Se a densidade f (x) for contı́nua no seu campo de definição, então decorre do teorema fundamental do cálculo que: F (1) (x) = f (x) 7.6.2 Esperança de Variáveis Aleatórias Contı́nuas Definição 7.6.2. A esperança matemática de uma variável aleatória contı́nua X, com densidade de probabilidade f (x) é dada por: Z ∞ E(X) = xf (x)dx −∞ 7.6.3 Variância de Variáveis Aleatórias Contı́nuas Definição 7.6.3. A variância de uma variável aleatória contı́nua X é definida por: V ar(X) = E(X − E(X))2 ou V ar(X) = E(X 2 ) − (E(X))2 7.7 Modelos Probabilı́sticos Contı́nuos Agora apresentaremos os modelos probabilı́sticos descritos por variáveis aleatórias que possuem uma densidade de probabilidade. Cada modelo corresponde a uma famı́lia de distribuições de probabilidade, expressa por densidades de probabilidade que dependem de um ou mais parâmetros. 7. Probabilidades 7.7.1 43 Distribuição Uniforme Definição 7.7.1. A variável aleatória X tem distribuição uniforme no intervalo [a, b] se sua densidade de probabilidade for dada por: f (x) = 1 b−a para a ≤x≤ b e f (x) = 0 fora desse intervalo Figura 7.1: Gráfico da função densidade de probabilidade da Uniforme Vamos calcular a expressão 7.10. Z E(X) = x 1 a+b dx = b−a 2 (7.10) O segundo momento de X é dado por: 1 E(X ) = b−a 2 Z a b x2 dx = a2 + ab + b2 3 (7.11) Substituindo os valores dados por 7.10 e 7.11 na expressão 7.12 obtemos a variância de X V ar(X) = E(X 2 ) − (E(X))2 = (b − a)2 . 12 (7.12) Vamos descrever um experimento cujo resultado nos dá a distribuição uniforme no intervalo (0, 2π). Consideremos um segmento de comprimento 2π. Vamos unir as duas pontas desse segmento e formar um cı́rculo de raio unitário. O comprimento desse cı́rculo é precisamente de 2π. Vamos fixar um ponteiro no centro desse cı́rculo e vamos então girá-lo, observando até que ele venha a parar. Por razões de simetria nós vemos que a chance do ponteiro parar de girar em qualquer arco do cı́rculo é a mesma para qualquer arco de um comprimento dado. Seja X o comprimento do arco determinado pela origem e pelo ponto onde o ponteiro parar. Assim temos uma variável aleatória com distribuição uniforme no intervalo (0, 2π). 7. Probabilidades 44 Se quisermos obter a distribuição uniforme no intervalo [a, b] basta pôr b−a = 2πr, construir b−a 2π um cı́rculo de raio r = e proceder da maneira descrita. Exemplo 7.13. A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada por uma distribuição Uniforme entre [0 e 7]. Qual é a probabilidade de que uma pane venha a ocorrer nos primeiros 800 metros? E de que ocorra nos 3 km centrais da rede? Solução:A função densidade da distribuição Uniforme é dada por f (x) = 17 , 0 ≤ x ≤ 7. Assim, Z 0,8 P [X ≤ 0, 8] = f (x)dx = 0 Z 0, 8 − 0 = 0, 1142. 7 5 P [2 ≤ x ≤ 5] = f (x)dx = P [X ≤ 5] − P [X ≤ 2] = 2 7.7.2 5−2 5 2 − = = 0, 4285. 7 7 7 Distribuição Normal Uma variável aleatória X com distribuição normal tem função densidade de probabilidade em forma de “sino”, como abaixo A função densidade de probabilidade é definida por: 1 " 1 f (x) = √ exp − 2 2πσ 2 x−µ σ 2 # , x ∈ (−∞, +∞) Além disso, Z ∞ µ = E[X] = f (x)dx ∈ (−∞, +∞) e σ 2 = E[X 2 ] − (E[X])2 ∈ [0, +∞) −∞ Se tomarmos µ = 0 e σ = 1, dizemos que a variável aleatória tem distribuição normal padrão. Abaixo, apresentamos o gráfico da função densidade da normal e algumas áreas (probabilidades) importantes. 7. Probabilidades 45 Quando µ e σ são desconhecidos, como geralmente acontece, são substituı́dos por x e s, respectivamente, a partir da amostra. x̄ = x1 + x2 + . . . + xn n v u u s=t n 1 X (xi − x̄)2 n − 1 i=1 Para cada valor de µ e/ou σ , temos uma distribuição. Mas para se calcular áreas especı́ficas, se faz uso de uma distribuição particular: a “distribuição normal padronizada”. Esta distribuição tem média µ = 0 e desvio padrão σ = 1, e está tabelada. Como a distribuição é simétrica em relação à média, a área à direita é igual a área à esquerda de µ. Assim, as tabelas fornecem áreas acima de valores não-negativos que vão desde 0.00 até 4.09, dependendo da tabela. Se X é uma variável aleatória com distribuição normal, com média e desvio padrão quaisquer, podemos reduzir X a uma variável aleatória normal com média zero e variância σ 2 , na forma: Z= X −µ σ (7.13) Exemplo 7.14. Considere X uma variável aleatória Normal com média 11,15 e desvio-padrão 2,238. Para calcularmos a probabilidade de X ser menor que 8,7 procedemos: 8, 7 − 11, 15 P [X < 8, 7] = P = P [Z < −1, 0947] = 0, 1368 = 13, 7% 2, 238 (7.14) 7. Probabilidades 7.8 46 Modelos Probabilı́sticos para o Tempo de Falha Existe uma série de modelos probabilı́sticos utilizados em análise de dados de confiabilidade, alguns destes modelos ocupam uma posição de destaque por sua comprovada adequação a várias situações práticas. Entre estes modelos podemos citar o Exponencial, Weibull, Valor Extremo ou Gumbel, o Log-normal. É importante entender que cada distribuição de probabilidade pode gerar estimadores diferentes para caracterı́sticas de durabilidade do produto. Desta forma, a utilização de um modelo inadequado levará a erros grosseiros nas estimativas destas quantidades. A escolha de um modelo adequado para descrever o tempo de falha de um determinado produto deve ser feita com bastante cuidado. Uma função que será utilizada inúmeras vezes para descrever dados de tempo de falha é a função taxa de falha. A função taxa de falha no intervalo [t1 , t2 ) é definida como a probabilidade de que a falha ocorra nesse intervalo, dado que esta falha não ocorreu antes de t1, dividida pelo comprimento do intervalo. A taxa de falha no intervalo [t1 , t2 ) é expressa por: h(t) = R(t1 ) − R(t2 ) , (t2 − t1 )R(t1 ) onde R(t) é a função de confiabilidade. No caso de distribuições contı́nuas, a expressão para taxa de falha é dada por: h(t) = 7.8.1 f (t) R(t) Distribuição Exponencial Esta é uma distribuição que se caracteriza por ter uma função de taxa de falha constante. A distribuição exponencial é a única com esta propriedade. Ela é considerada uma das mais simples em termos matemáticos. Esta distribuição tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais. Ela descreve adequadamente o tempo de vida de óleos isolantes e dielétricos entre outros. A função densidade para um tempo de falha T com distribuição exponencial é dada por f (t) = 1 exp(−t/α) α (7.15) onde α ≥ 0 é o tempo médio de vida. O parâmetro tem a mesma unidade do tempo da falha t. Isto é, se t é medido em horas, α também será medido em horas. A função de confiabilidade 7. Probabilidades 47 R(t) que é a probabilidade do produto continuar funcionando além do tempo t, é dada para a distribuição exponencial por Z R(t) = 1 − F (t) = 1 − t f (s)ds = exp(−t/α) (7.16) 0 Figura 7.2: Gráfico da função de confiabilidade A Figura 7.2 mostra a forma tı́pica desta função de confiabilidade. A função da taxa de falha associada a distribuição exponencial é constante igual a 1 α 0. Como foi dito anteriormente, somente a distribuição exponencial tem uma taxa de falha constante. Isto significa que, tanto uma unidade velha quanto uma unidade nova que ainda não falharam têm a mesma probabilidade de falhar em um intervalo futuro. Esta propriedade é chamada de falta de memória da distribuição exponencial. Outras caracterı́sticas de durabilidade de interesse são a média, a variância e os percentis. O percentil 100p% corresponde ao tempo médio em que 100p% dos produtos falharam. A média da distribuição exponencial (MTTF ou MTBF) é α e a variância é α2 . Os percentis são importantes quando queremos obter informações, por exemplo, a respeito de falhas prematuras. Eles podem ser obtidos a partir da função de confiabilidade. Estes cálculos são ilustrados a seguir. 7. Probabilidades 48 Exemplo 7.15. O tempo até a falha do ventilador de motores a diesel tem uma distribuição exponencial com MTBF (α) é igual a 28700 horas. A probabilidade de um destes ventiladores não falhar nas primeiras 8000 horas de funcionamento é então: R(8000) = exp(−8000/28700) = 0.76 Se 8000 horas é o tempo de garantia dado pelo fabricante, significa que 24% é a fração esperada de ventiladores que falharam na garantia. O percentil 100p%, tp, é dado para a distribuição exponencial por 1 − p = R(tp) = exp(−tp /α) Aplicando o logaritmo de ambos os lados, obtemos tp = α log(1 − p). Em estudos de durabilidade queremos muitas vezes conhecer baixos percentis de 1% e também a mediana que é o percentil de 50%. A média da distribuição exponencial corresponde ao t0,63 , ou seja, o percentil 63%. Por exemplo, para ventiladores de motores a diesel no exemplo acima o percentil 1% é T0,01 = −28700log(1 − 0.01) = 288 horas. Isto significa, que é esperado que cerca de 1% dos ventiladores falhem nas primeiras 288 horas de uso. De forma similar a mediana é calculada obtendo 19900 horas. 7.8.2 Distribuição de Weibull A Distribuição de Weibull foi proposta originalmente por W. Weibull (1954) em estudos relacionados ao tempo de falha devido a fadiga de metais. Ela é frequentemente usada para descrever o tempo de vida de produtos industriais. A sua popularidade em aplicações práticas deve-se ao fato dela apresentar uma grande variedade de formas, todas com uma propriedade básica: a sua função de taxa de falha é monótona. Isto é, ou ela é crescente ou decrescente ou constante. Ela descreve adequadamente vida de mancais, componentes eletrônicos, cerâmicas, capacitores e dielétricos. A função de densidade da distribuição de Weibull é dada por δ δ−1 t exp[−(t/α)δ ], t ≥ 0 δ α Exemplo 7.16. Um exemplo de uso da distribuição de Weibull é o tempo de vida de um f (t) = capacitor com α = 100000 horas e δ = 0, 5. A função de confiabilidade é dada por Z R(t) = 1 − 0 t α t f (s)ds = exp − , α t≥0 7. Probabilidades 49 Desta forma a confiabilidade para um ano é R(8760) = exp[−(8760/100000)0,5 ] = 0,74 ou 74%. Isto significa que a probabilidade do capacitor operar por um tempo superior a um ano é de 0,74. As expressões para a média e a variância da Weibull inclui o uso da função gama, isto é MTTF(ou MTBF) = E[T] = αΓ[1 + (1/δ)] V ar(T ) = α2 {Γ[1 + (2/δ)] − Γ[1 + (1 + δ)]2 )]} onde Γ(r) = (r − 1)! para r inteiro. Os valores para a função gama podem ser obtidos via Minitab. E os percentis são dados por tp = α[− ln(1 − p)]1/δ No exemplo acima, o tempo médio de vida do capacitor é 100000Γ(1 + 2) = 200000 horas. O percentil 10% é t0,10 = 100000(− ln(0, 9))2 = 1110 horas. A distribuição de Weibull tem uma função de taxa de falha dada por h(t) = δ (t/α)δ−1 , α t≥0 Figura 7.3: Gráfico da função taxa de falha da distribuição Weibull A Figura 7.3 mostra algumas formas desta função para a distribuição de Weibull. Observe que h(t) é estritamente crescente para δ > 1 e estritamente decrescente para δ < 1. A distribuição exponencial é um caso particular da distribuição de Weibull quando δ = 1 e então, 7. Probabilidades com taxa de falha constante. 50 7. Probabilidades 7.8.3 51 Distribuição de Gumbel É importante neste ponto, introduzir uma distribuição que é bastante relacionada a Weibull. Ela é chamada de distribuição do valor extremo ou de Gumbel e surge quando se toma o logaritmo de uma variável com a distribuição de Weibull. Isto é, se a variável T tem uma distribuição de Weibull, então a variável Y = log(T ) tem uma distribuição Valor Extremo com a seguinte função densidade f (y) = 1 y−µ y−µ exp[ − exp( )] σ σ σ onde σ = 1/δ e µ = log(α). A função de confiabilidade da variável Y é dada por R(y) = exp[−exp[ y−µ ]] σ A média e a variância são respectivamente µ − vσ e (π 2 /6)2 , onde v = 0, 5772 . . . é a conhecida constante de Euler. O percentil 100p% é dado por tp = µ + σ ln[− ln(1 − p)] Na análise de dados de durabilidade é muitas vezes conveniente trabalhar com o logaritmo dos valores observados. Desta forma, se os dados tiverem uma distribuição de Weibull, a distribuição Valor Extremo aparecerá naturalmente na modelagem. 7.8.4 Distribuição Log-normal Assim como a distribuição de Weibull, a distribuição Log-normal é muito usada para caracterizar tempo de vida de produtos e materiais. Isto inclui, fadiga de metal, semicondutores, diodos e isolação elétrica. A função de densidade para uma distribuição log-normal é dada por: f (t; µ, σ) = 1 √ tσ 2π e −[log(t)−µ]2 2σ 2 , t > 0 (7.17) onde, µ < é mádia do logaritmo do tempo de falha e σ > 0 é o desvio padrão. Existe uma relação entre as distribuições Log-normal e Normal similar à relação existente entre as distribuições de Weibull e do valor extremo. Como o nome sugere, o logaritmo de uma variável com distribuição Log-normal com parâmetros µ e σ tem uma distribuição Normal com média µ e 7. Probabilidades 52 desvio-padrão σ. Esta relação significa que dados provenientes de uma distribuição Log-normal podem ser analisados segundo uma distribuição Normal se trabalharmos com o logaritmo dos dados ao invés dos valores originais. Figura 7.4: Gráfico da função densidade da distribuição Log-Normal A função de confiabilidade de uma variável Log-normal é dada por R(t) = Φ{− [log(t) − µ] σ (7.18) onde, Φ(.) é a função de distribuição acumulada de uma Normal padrão. Exemplo 7.17. Um exemplo de uso da distribuição Log-normal é o tempo de vida de isolações da classe H. Na temperatura de uso o tempo de vida tem uma distribuição Log-normal com µ = 9, 65 horas e σ = 0, 1053 horas. A confiabilidade de isolação nas 20000 primeiras horas de uso é: R(20000) = Φ{− [log(20000) − 9.65] } = 0.008 0, 1053 Isto significa que a grande maioria (99, 2%) das isolações falhariam nas 20000 primeiras horas de uso. Os percentis para a distribuição Log-normal podem ser obtidos a partir da tabela da normal padrão, usando a seguinte expressão tp = exp(Zp σ+)µ 7. Probabilidades 53 onde Zp é o 100p% percentil da normal padrão. A média a variância da distribuição lognormal são dadas respectivamente por e exp(µ + σ 2 /2) e exp(2µ + σ 2 )(exp(σ 2 ) − 1). 54 Capı́tulo 8 A Distribuição Normal A variação natural de muitos processos industriais é realmente aleatória. Embora as distribuições de muitos processos possam assumir uma variedade de formas, muitas variáveis observadas possuem uma distribuição de freqüências que é, aproximadamente, uma distribuição de probabilidade Normal. A distribuição é normal quando tem a forma de “sino”: Figura 8.1: Distribuição Normal Veremos na Seção seguinte como testar se uma distribuição é normal ou não. Se concluirmos que há normalidade, é possı́vel calcular probabilidade de intervalos de medida ocorrerem, calculando a área sob a curva naquele intervalo. Para achar a área sob a curva normal devemos conhecer dois valores numéricos (também chamados de parâmetros), a média µ e o desvio padrão σ. O gráfico a seguir mostra algumas áreas importantes: Quando µ e σ são desconhecidos, como geralmente acontece, são substituı́dos por X̄ e S, respectivamente, a partir da amostra. Nota: Áreas sob a curva normal são probabilidades que na prática são dadas em percent- 8. A Distribuição Normal 55 Figura 8.2: Áreas sob a Curva Normal agens. Para cada valor de µ e/ou σ, temos uma distribuição. Mas para se calcular áreas especı́ficas, se faz uso de uma distribuição particular: a ”distribuição normal padronizada”, também chamada de standartizada ou reduzida. Esta distribuição tem média µ = 0 e desvio padrão σ = 1, e está tabelado. Veja o gráfico da curva normal padronizada na Figura 8.3. Figura 8.3: Distribuição Normal Padronizada Nota: A variável que tem distribuição normal padronizada é denotada por Z. Exemplo 8.1. A área sob a curva normal para Z maior do que 4,00 é 0,00003. Ou seja, a 8. A Distribuição Normal 56 probabilidade de Z ser maior do que 4,00 é 0,003%. Veja o gráfico na Figura 8.4 Figura 8.4: Área sob a curva normal Exemplo 8.2. A área sob a curva para Z maior do que 1,00 é 0,1587. Ou seja, a probabilidade de Z ser maior do que 1 é 15,87%. Veja o gráfico na Figura 8.5 Figura 8.5: Área sob a curva normal 8. A Distribuição Normal 57 Exemplo 8.3. A área sob a curva para Z maior do que 1,19 é 0,1170, ou seja, a probabilidade de Z ser maior do que 1,19 é 11,70%. Veja o gráfico na Figura 8.6 Figura 8.6: Área sob a curva normal Exemplo 8.4. A área sob a curva para Z menor do que 2,00 não é fornecida diretamente pela tabela. Então devemos encontrar a área para Z maior do que 2,00. Em seguida fazemos 1 menos a área encontrada e temos a área desejada. A área sob a curva para Z maior do que 2,00 é 0,0228. A área desejada é 1 − 0, 0228 = 0, 9772. Ou seja, a probabilidade de Z ser menor do que 2,00 é 97,72%. Veja o gráfico na Figura 8.7 Quando se tem uma variável X com distribuição normal com média µ diferente de 0 (zero) e/ou desvio padrão σ diferente de 1 (um), devemos reduzi-la a uma Z, efetuando o seguinte cálculo: Z = X − µ σ Exemplo 8.5. Consideremos os diâmetros do Exemplo 2.2 como tendo distribuição normal com média µ = 4, 888 e desvio padrão σ = 0, 31949. Queremos calcular a probabilidade de um eixo apresentar diâmetro inferior a 5,0 mm. 8. A Distribuição Normal 58 Figura 8.7: Área sob a curva normal Z = 5, 0 − 4, 888 = 0, 35 0, 31949 Usando a tabela da normal padronizada, temos que a área sob a curva e abaixo de 0,35 é 0,6368. Ou seja, a probabilidade de um eixo apresentar diâmetro inferior a 5,0 mm é 63,68%. Vejam os gráficos nas Figuras 8.8 e 8.9. Figura 8.8: Área sob a curva normal Exemplo 8.6. Suponha que a espessura das arruelas no exemplo 4 tenha distribuição normal com média 11,15 e desvio padrão 2,238. Qual a porcentagem de arruelas que tem espessura entre 8,70 e 14,70? Temos que encontrar dois pontos da distribuição normal padronizada. O primeiro ponto é: 8. A Distribuição Normal 59 Figura 8.9: Área sob a curva normal Z1 = 8, 70 − 11, 15 = −1, 09 2, 238 A área para valores maiores do que -1,09 é 0,8621 ou 86,21%. O segundo ponto é: Z1 = 14, 70 − 11, 15 = 1, 58 2, 238 A área para valores maiores do que 1,58 é 0,0571 ou 5,71%. O que procuramos é a área entre Z1 e Z2, como mostram os gráficos nas Figuras 8.10 e 8.11. Figura 8.10: Área sob a curva normal Portanto, fazemos: 0, 8621 − 0, 0571 = 0, 8050 Ou seja, a porcentagem de arruelas com espessura entre 8,70 e 14,70 (limites de tolerância da especificação) é somente de 80,50%. Portanto, cerca de 19,50% das arruelas não atendem aos 8. A Distribuição Normal 60 Figura 8.11: Área sob a curva normal limites de especificações. Anteriormente, havı́amos calculado esta porcentagem diretamente do histograma e o valor encontrado foi de 22%. A diferença entre os dois cálculos fica por conta da suposição de normalidade que fizemos. 61 Capı́tulo 9 Teorema do Limite Central Suponha uma amostra aleatória simples de tamanho n retirada de uma população com média µ e variância σ 2 (note que o modelo da variável aleatória não é apresentado). Representando tal amostra por n variáveis aleatórias independentes X1 ,. . .,Xn e, denotando sua média por X, temos, pelo Teorema do Limite Central, que, quando n for grande, a variável Z= X −µ √ , σ/ n tem distribuição aproximadamente N (0, 1). Assim, o Teorema do Limite Central garante que, para n grande, a distribuição da média amostral, devidamente padronizada, se comporta segundo um modelo normal com média µ = 0 e variância σ 2 = 1. De imediato, podemos notar a importância do Teorema do Limite Central, pois em muitas situações práticas, em que o interesse reside na média amostral, o teorema permite que utilizemos a distribuição normal para estudar X probabilisticamente. Pelo teorema temos que quanto maior a amostra, melhor é a aproximação. Estudos envolvendo simulações mostram que em muitos casos valores em torno de 30 fornecem boas aproximações para as aplicações práticas. Em casos que a verdadeira distribuição é simétrica, excelentes aproximações são obtidas, mesmo com valores de n inferiores a 30. Vamos justificar o intuito matemático de modo mais instrutivo, ou seja, utilizar um exemplo para demonstrar tal resultado. Considere os dados da tabela 9.1, com o histograma apresentado na figura 9.1. Notemos que o gráfico mostra que o conjunto de dados segue uma distribuição não simétrica. Vamos, agora, agrupar os valores do conjunto de dados em grupos de 5 e tirar a média de cada grupo. Podemos observá-los conforme a figura 9.2. 9. Teorema do Limite Central 0,18039 0,04858 2,04899 0,29371 1,82698 0,70571 0,10034 0,18068 1,67637 0,75177 1,86995 1,20456 1,84546 0,20692 1,07056 0,33364 0,835 0,97558 0,49084 1,88966 1,21121 0,3745 1,19616 0,30181 3,21402 0,0903 2,61544 0,49725 0,35147 0,97265 0,77907 0,25324 0,57609 0,06105 0,05189 0,00578 0,07804 0,9184 2,32028 1,09242 0,03391 0,3829 0,14673 0,11694 1,32523 1,00032 1,04208 1,56307 0,10242 1,0241 0,70493 0,42526 2,54082 1,63265 0,55206 1,31787 1,88888 2,01428 2,67363 0,34815 0,29042 0,13475 0,05683 0,04533 0,06947 0,00047 0,33264 0,04937 0,24781 0,483 1,30431 1,44356 0,11591 0,33554 0,66678 0,85142 1,0702 0,15098 0,18113 0,77392 3,97567 0,24987 1,75904 0,02362 0,21363 0,05887 2,49013 0,96108 0,1115 0,9136 1,5868 0,38425 3,7862 2,32141 2,31799 0,08027 1,21407 0,14656 0,15099 1,0589 4,0006 0,43687 0,2983 0,68007 1,04687 0,93788 2,82354 1,27616 0,60226 5,24055 3,82457 1,95966 0,53456 0,12068 0,436 0,655 1,8392 1,71473 0,49302 0,58964 0,87766 0,3589 1,7155 0,01396 0,17188 0,17602 0,56294 1,42038 0,6846 0,15632 1,43476 0,74214 62 0,04611 2,44309 0,02991 3,75236 3,9539 3,07768 0,86555 0,21896 0,15644 0,10131 0,91629 2,21574 0,12043 0,37931 0,0591 0,63775 1,5316 0,23149 0,1912 1,94563 0,73067 0,52777 0,61516 0,49844 0,31211 4,38611 0,49381 1,10058 0,28477 0,29454 1,54651 0,58053 0,88673 2,07919 1,19279 0,52321 0,283 1,00186 0,91547 0,11135 0,61599 1,49853 0,00041 0,74449 1,24752 0,02755 0,55943 0,09311 0,92961 2,38105 0,42528 0,30273 2,88959 0,5809 0,10678 2,2579 1,80252 1,41659 0,47624 1,11899 0,23771 0,61507 0,40381 1,03375 0,2361 1,0456 0,16426 0,36034 1,19931 0,01252 2,1392 1,0711 0,22064 2,70122 0,2438 1,04934 1,54706 3,01742 1,12134 0,1528 0,13433 0,1736 1,31363 0,70005 0,50795 0,76715 0,20309 0,89247 0,5537 0,78627 0,20996 1,7204 0,33027 0,16611 0,70722 0,38346 0,20112 1,30842 3,40522 0,13756 0,14896 0,97063 0,07863 0,65945 0,78354 2,54724 0,59041 0,69662 0,71689 1,71929 0,48124 0,15825 0,32622 1,13353 0,5642 4,87441 0,81429 0,59502 0,08922 1,19891 0,68666 1,12084 2,30031 0,56251 1,97416 0,91986 0,19464 0,16977 0,3467 0,21492 0,90432 1,31729 2,25764 1,02117 0,65404 1,51493 2,44657 0,10735 2,32252 0,9296 0,03946 0,6841 0,57949 0,50226 0,39719 1,34607 0,06729 0,07914 1,87911 0,14648 0,0055 1,50332 0,41577 0,40921 1,18308 0,37888 0,64183 0,15397 1,10484 0,53044 2,07863 0,08971 1,23729 0,38311 0,19672 0,69611 0,22775 1,2899 0,58831 2,26175 1,8086 0,21121 0,37208 1,68575 0,40779 0,06082 0,752 0,73928 0,1881 0,73302 1,69506 1,19198 1,14152 0,99069 1,44135 4,83329 3,13698 5,6274 0,27255 0,7217 0,20741 0,3501 1,10223 0,21453 0,29033 0,02209 0,01359 0,84027 0,00666 0,19664 0,56337 0,40478 0,04064 3,58991 0,99732 0,96049 1,68336 0,655 4,50549 0,07319 0,75933 0,63464 3,68017 3,81342 4,01736 1,63649 0,05411 0,25575 0,83598 0,15909 0,38246 0,13101 0,01722 1,23387 0,6366 2,63819 2,31535 0,71624 1,92794 0,2938 0,38748 1,43685 0,67209 0,28809 0,12692 0,90853 0,28985 0,73894 0,97886 1,97248 2,59891 1,31121 0,7532 0,98665 0,01368 0,36334 1,18567 0,98998 0,42354 0,08015 0,52356 3,31921 0,78276 1,26049 0,25451 0,2567 0,83222 0,64013 1,73767 0,06885 2,05792 1,81139 1,03444 1,29327 Tabela 9.1: Dados Exponenciais Figura 9.1: Histograma-Dados Exponenciais Percebemos que a média dos dados foi deslocada, fazendo com que os dados mudassem suas caracterı́sticas de simetria. Novamente, vamos agrupar os dados em grupos de 5 e tirar a média. O resultado está na figura 9.3. 9. Teorema do Limite Central 63 Figura 9.2: Média de Grupos de 5 Como podemos perceber, este gráfico já possui uma distribuição similar a da distribuição normal. Figura 9.3: Médias dos 5 Grupos 64 Capı́tulo 10 Teste para Normalidade 10.1 Papel de Probabilidade O papel de probabilidade é uma técnica gráfica utilizada para verificar a adequação de um determinado modelo estatı́stico aos dados. A técnica que iremos descrever é simples de utilizar e pode ser aplicada a inúmeros tipos de modelos estatı́sticos. Aqui, vamos considerar o modelo Normal com média µ e variância σ, cuja densidade é dada por (x − µ)2 f (x) = √ exp − 2σ 2 2πσ 2 1 e função distribuição de probabilidade acumulada F, dada por Z x F (x) = P (X ≤ x) = Z x f (s)ds = −∞ −∞ (s − µ)2 √ exp − 2σ 2 2πσ 2 1 ds É comum trabalharmos, ao invés da distribuição Normal com média µ e variância σ, com a distribuição Normal padronizada, N (0, 1), cuja função densidade é dada por 2 1 z f (z) = √ exp − , 2 2π obtida mediante a transformação Z= X −µ . σ Sua função distribuição acumulada é denotada por Φ. A relação entre a função distribuição acumulada F , de uma distribuição Normal com média µ e variância σ e a função distribuição 10. Teste para Normalidade 65 acumulada Φ de uma distribuição Normal padronizada é dada por: F (x) = Φ x−µ σ = Φ(z) (10.1) A distribuição Normal Padrão é tabelada e por isso fica fácil calcular probabilidades. Na relação dada em 10.1, vamos aplicar a função Φ−1 em ambos os lados, ou seja, Φ −1 x−µ Φ (F (x)) = Φ σ x−µ = σ −1 Daı́, obtemos que x = σ Φ−1 (F (x)) + µ (10.2) onde Φ−1 (F (x)) é o quantil da distribuição normal padrão, calculado para o valor de F (x). Observe que a expressão 10.2 tem o formato de uma expressão linear. Com isso, ao fazermos o gráfico entre x e Φ−1 (F (x)) devemos esperar um comportamento linear dos pontos caso a distribuição normal for adequada. Para construir o papel de probabilidade Normal devemos seguir os passos: 1. Considere uma amostra aleatória X1 , ..., Xn . Primeiramente, vamos ordenar esses valores de forma crescente, ou seja, X(1) ≤ ... ≤ X(n) . Aqui, consideramos que X(1) é a primeira estatı́stica de ordem, ou seja, o menor valor da amostra. 2. Calcule n pontos di = (i − 0, 3)/(n + 0, 4), i = 1, ..., n. Existem outras opções para o cálculo dos di ’s. 3. Calcule os quantis da distribuição normal padrão para cada um dos valores de di , isto é, calcule os valores de Φ−1 (di ), i = 1, ..., n. 4. Faça um gráfico com os pontos (x(i) , Φ−1 (di )), i = 1, ..., n. Para avaliarmos a normalidade dos dados, devemos construir o gráfico entre as variáveis resı́duos ordenados e Φ−1 (di ). Exemplo 10.1. Em uma análise de capacidade do processo, o engenheiro da qualidade retirou uma amostra de 25 peças e as mediu. Para calcularmos os ı́ndices de capacidade do processo, 10. Teste para Normalidade 66 precisamos avaliar a normalidade dos dados. Aqui, vamos realizar uma análise gráfica através do papel de probabilidade. O cálculo dos di ’s e os quantis normais são encontrados na tabela da normal padronizada) para cada di . Na tabela 10.1, temos os dados de medição das peças ordenados e os respectivos di ’s. A seguir, exemplificamos o cálculo dos di ’s para alguns pontos: i − 0, 3 1 − 0, 3 0, 7 = = = 0, 027559 n + 0, 4 25 + 0, 4 25, 4 2 − 0, 3 = = 0, 066969 25, 4 .. = . d1 = d2 .. . d25 = 0, 972441. assim, obtemos Φ−1 (d1 ) = F (0, 027559) = −1, 917945 Φ−1 (d2 ) = F (0, 066969) = −1, 498752 .. .. . = . Φ−1 (d25 ) = F (0, 972441) = 1, 917945. Fazendo o gráfico dos pontos (x(i) , Φ−1 (di )), i = 1, ..., 25, obtemos a figura 10.1. 10. Teste para Normalidade 67 Figura 10.1: Papel de Probabilidade para o exemplo 10.1. 10.2 Teste de Kolmogorov - Smirnov Grande parte dos problemas que encontramos na prática, são solucionados, primeiramente, considerando algumas suposições iniciais, tais como, assumir uma função de distribuição para os dados amostrados. Nesse sentido, surge a necessidade de certificarmos se essas suposições podem, realmente, ser assumidas. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar sua análise. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov. O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses: H : Os dados seguem uma distribuição normal 0 H : Os dados não seguem uma distribuição normal 1 Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empı́rica dos dados. Como critério, comparamos esta diferença com um valor crı́tico (tabela 10.2), para um dado nı́vel de significância. 10. Teste para Normalidade 68 Medição -3,8 -3,6 -3,4 -3,4 -2,8 -2,8 -2,6 -2,6 -0,8 -0,8 0,2 0,2 0,4 0,4 0,4 1,2 1,4 1,4 1,4 1,6 2,6 2,6 3,4 4,2 5,2 posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 di 0,027559 0,066929 0,106299 0,145669 0,185039 0,224409 0,26378 0,30315 0,34252 0,38189 0,42126 0,46063 0,5 0,53937 0,57874 0,61811 0,65748 0,69685 0,73622 0,775591 0,814961 0,854331 0,893701 0,933071 0,972441 Φ−1 (di ) -1,91794 -1,49906 -1,24645 -1,05519 -0,89633 -0,75739 -0,63174 -0,51536 -0,4056 -0,30052 -0,19867 -0,09885 0 0,09885 0,19867 0,30052 0,4056 0,51536 0,63174 0,75739 0,89633 1,05519 1,24645 1,49906 1,91794 Tabela 10.1: Construção do papel de probabilidade. A estatı́stica utilizada para o teste é: Dn = sup | F (x) − Fn (x) | x Esta função corresponde a distância máxima vertical entre os gráficos de F (x) e Fn (x) sobre a amplitude dos possı́veis valores de x. Em Dn temos que • F (x) representa a função de distribuição acumulada assumida para os dados; • Fn (x) representa a função de distribuição acumulada empı́rica dos dados. Sejam X(1) , X(2) , · · · , X(n) observações aleatórias ordenadas de forma crescente da variável aleatória contı́nua X. A função de distribuição acumulada assumida para os dados é definida por F (x(i) ) = P (X ≤ x(i) ) e a função de distribuição acumulada empı́rica é definida por uma função escada, dada pela fórmula: 10. Teste para Normalidade 69 n 1X Fn (x) = I{(−∞, n i=1 x]} (x(i) ) (10.3) onde I{A} é a função indicadora. A função indicadora é definida da seguinte forma: 1 se x ∈ A I{A} (x) = 0 c.c. Observe que a função da distribuição empı́rica Fn (x) corresponde à proporção de valores menores ou iguais a x. A expressão (10.3) pode também ser escrita da seguinte forma: Fn (x) = 0 k n 1 se x < x(1) se x(k) ≤ x < x(k+1) se x > x(n) Consideremos duas outras estatı́sticas: D+ = sup | F (x(i) ) − Fn (x(i) ) | x(i) D− = sup | F (x(i) ) − Fn (x(i−1) ) | x(i) Essas estatı́sticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empı́rica, nos pontos x(i−1) e x(i) . Com isso, podemos utilizar como estatı́stica de teste: Dn = max(D+ ; D− ) Se Dn for maior que o valor crı́tico encontrado na tabela 10.2, rejeitamos a hipótese de normalidade dos dados com (1−α)100% de confiança. Caso contrário, não rejeitamos a hipótese de normalidade. 10. Teste para Normalidade 70 Valores Crı́ticos para a estatı́stica do teste de Komolgorov - Smirnov (Dn ). n 5 10 15 20 25 30 35 40 45 50 Valores maiores Nı́vel 0,2 0,45 0,32 0,27 0,23 0,21 0,19 0,18 0,17 0,16 0,15 1,07 √ n de Significância (α) 0,1 0,05 0,01 0,51 0,56 0,67 0,37 0,41 0,49 0,30 0,34 0,40 0,26 0,29 0,36 0,24 0,27 0,32 0,22 0,24 0,29 0,20 0,23 0,27 0,19 0,21 0,25 0,18 0,20 0,24 0,17 0,19 0,23 1,22 √ n 1,36 √ n 1,63 √ n Tabela 10.2: Tabela de Valores para Dn Estas estatı́sticas podem ser resumidas na Tabela 11.3. x (ordenado) Fn (x) x(1) 1 n x(2) 2 n . . . . . . x(n−1) n−1 n x(n) 1 F (x) = P |F (x(i) ) − Fn (x(i) )| |F (x(i) ) − Fn (x(i−1) )| z(1) |F (x(1) ) − Fn (x(1) )| |F (x(1) ) − 0)| |F (x(2) ) − Fn (x(2) )| |F (x(2) ) − Fn (x(1) )| . . . . . . |F (x(n−1) ) − Fn (x(n−1) )| |F (x(n−1) ) − Fn (x(n−2) )| |F (x(n) ) − Fn (x(n) )| |F (x(n) ) − Fn (x(n−1) )| F (x) = P F (x) = P x(i) − x s x(1) − x ≤ s x(2) − x ≤ s z(i) ≤ z(2) . . . x(n−1) − x z(n−1) ≤ s x(n) − x F (x) = P z(n) ≤ s F (x) = P Tabela 10.3: Resumo do Cálculo de Dn x(i) − x é encontrado na tabela da distribuição normal Observação: o valor de P Z(i) ≤ s padrão. Exemplo 10.2. Uma amostra de dez elementos forneceu os seguintes valores: 27,8 29,2 30,6 27,0 33,5 29,5 27,3 25,4 28,0 30,2 Testar a hipótese de que ela seja proveniente de uma populção normal de média 30 e desvio padrão 2. Primeiramente devemos ordenadar os dados em forma crescente. Após ordenarmos os dados, obtemos o valor de Fn (x(i) ) fazendo a razão entre a posição i e o valor total de dados, n. Exemplo 10.3. Avaliar a normalidade dos dados referente a medição de 10 peças. 10. Teste para Normalidade 1,90642 2,10288 1,52229 71 2,61826 1,42738 2,22488 1,69742 3,15435 1,98492 1,99568 Após ordenarmos os dados, obtemos o valor de Fn (x(i) ) fazendo a razão entre a posição i e o valor total de dados, n. O valor de F (x(i) ) é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação Z(i) = x(i) − x s onde x é a média aritmética dos dados e s é o desvio padrão dos dados. Dados 1,42738 1,52229 1,69742 1,90642 1,98492 1,99568 2,10288 2,22488 2,61826 3,15435 Fn (x) (empı́rica) 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Máximo F (x) (teórica) 0,109008 0,147346 0,239320 0,380772 0,439859 0,448101 0,530802 0,623132 0,859056 0,982786 | F (x(i) ) − Fn (x(i) ) | 0,009008 0,052654 0,060680 0,019228 0,060141 0,151899 0,169198 0,176868 0,040944 0,017214 0,176868 | F (x(i) ) − Fn (x(i−1) ) | 0,109008 0,047346 0,039320 0,080772 0,039859 0,051899 0,069198 0,076868 0,059056 0,082786 0,109008 Tabela 10.4: Teste de Kolmogorov - Smirnov Com isso, Dn = max(0, 176868; 0, 109008) = 0, 176868 . Considerando α = 0, 05 e n = 10, encontramos pela tabela 10.2 o valor crı́tico 0,41. Como Dn = 0, 176868 < 0, 41 não temos evidências para rejeitar a hipótese de normalidade dos dados.Figura. Exemplo 10.4. Para os dados referente a análise de capacidade do processo, apresentado no Exemplo 10.1, vamos testar a normalidade através do teste de Kolmogorov-Smirnov. Após ordenarmos os dados (vide tabela 10.1), obtemos o valor de Fn (x(i) ) tomando a razão entre a posição i e o valor total de dados, n = 25. O valor de F (x(i) ) é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação Z(i) = x(i) − x s onde x é a média aritmética dos dados, dado por x= −3, 8 + (−3, 6) + (−3, 4) + · · · + 5, 2 6, 661338e − 16 = = 2, 664535e − 17 ≈ 0. 25 25 10. Teste para Normalidade 72 e s é o desvio padrão dos dados, dado por r s= (−3, 8 − 0)2 + (−3, 6 − 0)2 + · · · + (5, 2 − 0)2 = 2, 591 24 Assim, obtemos a tabela 10.5. Dados Padronizados (Z(i) ) Fn (x) (empı́rica) -1,466246 0,04 -1,389075 0,08 -1,311904 0,12 -1,311904 0,16 -1,080391 0,20 -1,080391 0,24 -1,003221 0,28 -1,003221 0,32 -0,308683 0,36 -0,308683 0,40 0,077171 0,44 0,077171 0,48 0,154342 0,52 0,154342 0,56 0,154342 0,60 0,463025 0,64 0,540196 0,68 0,540196 0,72 0,540196 0,76 0,617367 0,80 1,003221 0,84 1,003221 0,88 1,311904 0,92 1,620587 0,96 2,006441 1,00 Máximo F (x) (teórica) 0,071291 0,082405 0,094776 0,094776 0,139984 0,139984 0,157877 0,157877 0,378781 0,378781 0,530756 0,530756 0,561330 0,561330 0,561330 0,678327 0,705469 0,705469 0,705469 0,731504 0,842123 0,842123 0,905224 0,947447 0,977595 | F (x(i) ) − Fn (x(i) ) | 0,031291 0,002405 0,025224 0,065224 0,060016 0,100016 0,122123 0,162123 0,018781 0,021219 0,090756 0,050756 0,041330 0,001330 0,038670 0,038327 0,025469 0,014531 0,054531 0,068496 0,002123 0,037877 0,014776 0,012553 0,022405 0,162123 | F (x(i) ) − Fn (x(i−1) ) | 0,071291 0,042405 0,014776 -0,025224 -0,020016 -0,060016 -0,082123 -0,122123 0,058781 0,018781 0,130756 0,090756 0,081330 0,041330 0,001330 0,078327 0,065469 0,025469 -0,014531 -0,028496 0,042123 0,002123 0,025224 0,027447 0,017595 0,130756 Tabela 10.5: Teste de Kolmogorov - Smirnov Com isso, Dn = max(0, 162123; 0, 130756) = 0, 162123. Considerando α = 0, 05 e n = 25, encontramos pela tabela 10.2 do apêndice o valor crı́tico 0,27. Como Dn = 0, 162123 < 0, 27 não temos evidências para rejeitar a hipótese de normalidade dos dados. 10.3 Teste Anderson-Darling Seja X1 , X2 , . . . , Xn uma amostra aleatória simples retirada de uma dada população. Suponha que F (x) seja uma provável candidata para função de distribuição acumulada dos dados. Estamos interessados agora em verificar a adequabilidade da distribuição, ou seja, testar as seguintes hipóteses: 10. Teste para Normalidade 73 H : a amostra tem distribuição F (x) 0 H : a amostra não tem distribuição F (x) 1 (10.4) Anderson e Darling (1952, 1954) propuseram a seguinte estatı́stica para testar (10.4) 2 Z ∞ A =n −∞ [Fn (x) − F (x)] dF (x) F (x)(1 − F (x)) (10.5) onde Fn (x) é a função de distribuição acumulada empı́rica definida como 0, se x < x(1) n 1X k Fn (x) = = , se x(k) ≤ x < x(k+1) n n i=1 1, se x > x (n) (10.6) e x(1) ≤ x(2) ≤ ... ≤ x(n) são as estatı́sticas de ordem da amostra aleatória. A estatı́stica A2 pode ser colocada numa forma equivalente: n 1 X A = −n − (2i − 1) ln( F (x(i) ) ) + ( 2(n − i) + 1 ) ln(1 − F (x(i) ) ) n i=1 2 (10.7) Consideremos que a transformação F (x(i) ) leva x(i) em U(i) de uma amostra de tamanho n com distribuição uniforme em (0, 1). Logo, n 1 X A = −n − (2i − 1) ln( U(i) ) + ( 2(n − i) + 1 ) ln(1 − U(i) ) n i=1 2 (10.8) Para calcular o valor da estatı́stica A2 procedemos da seguinte forma: 1- Ordenamos os valores da amostra: x(1) ≤ x(2) ≤ ... ≤ x(n) ; 2- Quando necessário estime os parâmetros da distribuição de interesse; 3- Calcule Ui = F (x(i) ) e calcule o valor da estatı́stica de Anderson Darling ( 10.8); n 1X A = −n − [(2i − 1) (ln( Ui ) + ln(1 − Un+1−i ))] n i=1 2 (observe que esta é uma forma equivalente à (10.8) ); 4- Para cada uma das distribuições calcule, se for o caso, o valor da estatı́stica modificado de acordo com as tabelas dadas para cada uma delas. 10. Teste para Normalidade 74 O Teste Anderson-Darling pode ser aplicado às distribuições de probabilidade como: Distribuição Normal, Exponencial, Weibull, Lognormal, Valor Extremo e Logı́stica. Para estas distribuições o parâmetro θ = (α, β) pode ser univariado ou bivariado, isto é, ele tem no máximo dois componentes, conforme os seguintes casos: Caso 1 : O parâmetro θ = (α, β) é totalmente conhecido; Caso 2 : α é conhecido; Caso 3 : β é conhecido; Caso 4 : Nenhum dos componentes de θ = (α, β) é conhecido. Vamos agora ver um exemplo para o caso da Distribuição Normal. Distribuição Normal Consideremos X uma variável aleatória com distribuição Normal com função densidade de probabilidade dada por (x − µ)2 √ f (x) = exp − 2σ 2 2πσ 2 1 (−∞ < x < ∞). Caso 1 : O parâmetro θ = (µ, σ) é totalmente conhecido; Caso 2 : µ é conhecido e σ é estimado por s2 ; Caso 3 : σ é conhecido e µ é estimado por x; Caso 4 : Nenhum dos componentes de θ = (µ, σ) é conhecido e são estimados por (x, s2 ). A seguinte tabela fornece alguns valores de quantis e a estatı́stica de Anderson-Darling modificada: Pontos percentis para cada Caso Modificação 15.0 10.0 5.0 2.5 0 Nenhuma 1.610 1.933 2.492 3.070 1 0.784 0.897 1.088 1.281 2 1.443 1.761 2.315 2.890 3 A2 (1 + (4/n) − (25/n2 )) 0.560 0.632 0.751 0.870 Tabela 10.6: Tabela de pontos percentis α(%) 1.0 3.857 1.541 3.682 1.029 10. Teste para Normalidade 75 Exemplo 10.5. Considere as seguintes medidas de peso de peças (em pounds) 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236. Vamos testar: H : Os dados seguem uma distribuição Normal N (µ, σ) 0 H : Os dados não seguem uma distribuição Normal 1 A média dos dados é x = 172 e o desvio padrão é s = 24, 9520. dados 154 148 170 161 160 166 162 158 182 195 236 dados ordenados 148 154 158 160 161 162 166 170 182 195 236 F (xi ) ln(F (xi )) ln(1 − F (xi )) 0,168063 -1,78341 -0,184 0,235336 -1,44674 -0,26832 0,287372 1,24698 -0,3388 0,315285 -1,15428 0,37875 0,329662 -1,10969 -0,39997 0,344295 -1,06626 -0,42204 0,404986 -0,9039 -0,51917 0,468057 -0,75916 -0,63122 0,655705 -0,42204 -1,06626 0,821676 -0,19641 -1,72415 0,99484 -0,00517 -5,26684 Tabela 10.7: Calculando o valor de A2 Utilizando a fórmula ( 10.8), temos: D = (2 ∗ 1 − 1) ∗ (−1, 78341) + (2 ∗ (11 − 1) + 1) ∗ (−0, 184) + (2 ∗ 2 − 1) ∗ (−1, 44674) + (2 ∗ (11 − 2) + 1) ∗ (−0, 26832) + (2 ∗ 3 − 1) ∗ (−1, 24698) + (2 ∗ (11 − 3) + 1) ∗ (−0, 3388) + (2 ∗ 4 − 1) ∗ (−1, 15428) + (2 ∗ (11 − 4) + 1) ∗ (−0, 37875) + (2 ∗ 5 − 1) ∗ (−1, 10969) + (2 ∗ (11 − 5) + 1) ∗ (−0, 39997) + (2 ∗ 6 − 1) ∗ (−1, 06626) + (2 ∗ (11 − 6) + 1) ∗ (−0, 42204) + (2 ∗ 7 − 1) ∗ (−0, 9039) + (2 ∗ (11 − 7) + 1) ∗ (−0, 51917) + (2 ∗ 8 − 1) ∗ (−0, 75916) + (2 ∗ (11 − 8) + 1) ∗ (−0, 63122) + (2 ∗ 9 − 1) ∗ (−0, 42204) + (2 ∗ (11 − 9) + 1) ∗ (−1, 06626) + (2 ∗ 10 − 1) ∗ (−0, 19641) + (2 ∗ (11 − 10) + 1) ∗ (−1, 72415) + (2 ∗ 11 − 1) ∗ (−0, 00517) + (2 ∗ (11 − 11) + 1) ∗ (−5, 26684) = −131.4145 10. Teste para Normalidade 76 A2 = − D 131, 4145 −n= − 11 = 0, 9467719. n 11 A estatı́stica de Anderson Darling modificada para esse caso (Caso 4: µ e σ desconhecidos) é dada por: A2m = A2 ∗ (1 + (4/n) − (25/n2 )) = 0, 9467719 ∗ 1, 157025 = 1, 095439. Para o obter o p-valor aproximado vamos fazer uma interpolação com os dados da Tabela (10.6) 1, 095439 − 1, 088 1, 291 − 1, 088 = 2, 5 − 5, 0 x − 5, 0 Assim, temos (x − 5, 0) ∗ 0, 193 = −0, 007439 ∗ 2, 5 x= −0, 0185975 + 5, 0 = −0, 003589318 + 5, 0 = 4, 996411 ∼ = 4, 9%. 0, 193 Portanto, o p-valor é aproximadamente 4,9%. Portanto, existe forte evidência de que os dados podem não vir de uma distribuição Normal. Podemos ainda realizar uma análise gráfica, como mostra a figura 10.2: note que os pontos então distribuı́dos de forma aleatória em torno da reta. Figura 10.2: Papel de Probabilidade do Teste Anderson-Darling 77 Capı́tulo 11 Indicadores da Qualidade Este Capı́tulo tem como objetivo apresentar as principais métricas para avaliar produtos e processos. Como a competição entre as empresas está cada vez mais competitiva, existe uma forte pressão sobre os setores de desenvolvimento de produtos, produção e serviços de suporte para se tornarem cada vez mais produtivos e eficientes. O setor de desenvolvimento de produto tem que criar produtos inovadores em menor tempo e com grau de complexidade cada vez maior. A produção deve aumentar a qualidade dos produtos enquanto diminui custos e aumenta o volume de produção. Os setores de serviços devem reduzir o tempo de ciclo de seus processos e aumentar a satisfação dos clientes. A metodologia 6 SIGMA atua diretamente sobre estas necessidades, com a seguinte estratégia de rompimento: Figura 11.1: Gráfico da Estratégia de Rompimento 11. Indicadores da Qualidade 78 O termo SIGMA (σ) é uma letra grega usada para descrever variabilidade. A métrica da qualidade sigma, que estudaremos neste curso, oferece um indicador da freqüência com que os defeitos ocorrem. Uma empresa atinge o nı́vel 6 SIGMA quando a taxa de ocorrência de defeitos alcança 3,4 defeitos por milhão de oportunidades. Para atingir o nı́vel de qualidade 6 SIGMA, precisamos identificar os processos chaves para os negócios da empresa, e medir estes processos de tal forma que possamos avaliar se (e quanto) os nossos processos de negócio atingem seus objetivos e metas. É extremamente importante escolhermos o melhor conjunto medições para cada situação e focar sua ênfase na análise estatı́stica e nas ferramentas para melhoria. A estratégia para medição consiste em atacar os pontos com alto custo devido a má qualidade, pois eles podem afetar drasticamente os negócios da empresa O custo da má qualidade deve incluir, sucata, retrabalho e reuniões sem propósito. As empresas podem perder muito dinheiro quando focam apenas a ponta do ”iceberg”, sendo importante dirigir os esforços para o problema (iceberg) como um todo. Este curso vai se concentrar nas técnicas para medir, de forma adequada, processos e produtos, focando no problema (iceberg) como um todo. Como as métricas para medir os processos e produtos são baseadas na contagem de defeitos, vamos discutir alguns aspectos da teoria de contagem e probabilidade antes de apresentarmos as métricas. Questões: 1. Quais processos devemos medir? 2. O que deve fazer parte de nossas métricas? 3. Reflita sobre qualidade e competitividade. 4. O que é processo? 11.1 Rendimento de um Produto Com os princı́pios da teoria de contagem e probabilidade, vamos apresentar a primeira métrica para qualidade. Aqui, vamos analisar o rendimento de um produto através do número de defeitos associado aos seus componentes. Considere um produto que é composto por diversos componentes. As ocorrências de assistência técnica deste produto foram registradas. Após um perı́odo de coleta de dados, uma tabela contendo o número de unidades em acompanhamento, número de defeitos registrados e os componentes defeituosos, é montada conforme abaixo: 11. Indicadores da Qualidade 79 Componentes 1 .. . Unidades U .. . Defeitos D .. . DPU D/U .. . K U Soma de D Soma de D/U Rendimento e−DPU .. . −DPU e Soma de DPU YT R = Produto Resposta Média de DPU − ln(YT R ) Somas Médias Unidades Defeitos Média da soma Média de de unidades defeitos Tabela 11.1: Resumo dos Dados DPU : Defeitos por Unidade Definimos como rendimento de um produto a probabilidade de zero defeito. • Probabilidade de um componente sem defeitos (dentro das especificações). Utilizando a distribuição de Poisson, temos que Prob [ Obter zero defeito ] =Prob [ e−α ×α0 ] 0! = Exp ( - DPU )= rendimento do produto Como estamos analisando a probabilidade de obtermos produtos defeituosos em uma linha de produção, o parâmetro da distribuição ,α, será o DPU. • Regras da Teoria da Probabilidade: Desde que cada componente falha independentemente de qualquer outro (hipótese), a probabilidade de zero defeito do produto é dada por: P[Zero defeito no C1 e Zero defeito no C2 e ... e Zero defeito no Ck ] = P[Zero defeito no C1 ] ×P[Zero defeito no C2 ] × · · · × P[Zero Defeito no Ck ] Portanto o rendimento do produto será calculado através da multiplicação dos rendimentos das componentes do produto. Uma métrica bastante utilizada, o PPM, representa o número esperado de peças defeituosas em um lote de um milhão de peças. Assim, temos que • PPM do produto = 106 × (Prob falha) Obs: Podemos calcular o PPM utilizando apenas o rendimento, da seguinte forma: Seja R = rendimento, portanto RC = 1 − R = probabilidade de defeito. Como o P P M = 106 × probabilidade de defeito, temos que P P M = 106 × 1 − R. 11. Indicadores da Qualidade 80 Exercı́cio 11.1. Considere uma máquina colheitadeira de cana onde vamos verificar a cabine da máquina. Dentro da cabine temos diversos componentes que falham ao longo do uso. Complete a tabela 11.2: Componentes Unidade Defeito DPU Rend. Prob. defeito PPM Tacômetro 57 49 0,86 0,423 0,576 576680 Mangueiras 57 29 0,509 0,601 0,398 398760 Vedação 57 18 Ar Condicionado 57 14 Portas 57 10 Caixa de Controle 57 6 Sistema Elétrico no Painel 57 5 Cabo de Controle 57 3 Instrumento 57 2 Ventilação 57 2 Coluna 57 1 Tabela 11.2: Colheitadeira de Cana a) Calcular o rendimento do produto cabine; b) Obter o PPM do produto. 11.2 Intervalo de confiança para o rendimento Seja Xi uma variável aleatória (v.a.) que representa o número de defeitos da componente i de uma produção, i = 1, 2, . . . , n. Portanto: iid X1 , X2 , . . . , Xn ∼ P oisson(λ) • Estimador de máxima verossimilhança Sabemos que a função densidade de uma distribuição Poisson é dada por: f (x, λ) = P [X = x] = e−λ × λx , x = 0, 1, 2, . . . x! Logo, a função verossimilhança L(λ; x) será: n Y i=1 e−nλ × λ Qn f (xi , λ) = i=1 Pn i=1 xi ! xi 11. Indicadores da Qualidade 81 O EMV de λ é o valor λ̂ que maximiza a função verossimilhança L(λ). Como a função logaritmo é uma função monótona, então o valor λ̂ que maximiza L(λ; x) também maximiza l(λ; x). ∴ l(λ; x) = −nλ + n X xi log λ − log i=1 n Y xi ! i=1 Neste caso, é possı́vel fazer a maximização derivando em relação a λ e igualando a equação à zero. Então, temos: ∂ ∂ λ̂ Pn i=1 l(λ̂; x) = 0 ⇔ −n + xi λ̂ Pn = 0 ⇔ λ̂ = i=1 xi n Pn ⇔ λ̂ = i=1 xi n = X̄ ∴ λ̂ = X̄ é um ponto crı́tico da função l(λ; x). Vamos verificar se é um ponto de mı́nimo ou de máximo: n X xi ∂2 l(λ; x) = − <0 ∂λ2 λ2 i=1 Então, conclui-se que a derivada segunda de l(λ; x) é negativa e portanto λ̂ = X̄ é um ponto de máximo. ∴ λ̂ = X̄ é o EMV de λ. No caso do rendimento, temos que: λ̂ = DP U (defeitos por unidade)= Pn i=1 n Xi pois Pn i=1 Xi representa a quantidade total de defeitos da amostra X1 , X2 , . . . , Xn e n é o número de unidades fabricadas pela linha de produção. • Intervalo de confiança (IC) Temos que λ̂ = X̄ é o EMV de uma distribuição Poisson. Então: Pn i=1 E(λ̂) = E( n Pn V (λ̂) = V ( Xi i=1 n Xi n 1 X n ) = E( Xi ) = E(X1 ) = λ n i=1 n )= n X 1 n λ X ) = V ( V (X ) = i 1 n2 i=1 n2 n 11. Indicadores da Qualidade 82 iid Obs: E(X1 ) = V (X1 ) = λ pois X1 , X2 , . . . , Xn ∼ P oisson(λ). Aplicando o teorema do limite central, temos que X̄ − E(X̄) X̄ − λ ∼ N (0, 1) Q= p = q λ V (X̄) n para n grande. Observe que Q não depende de λ. ∴ Q é uma quantidade pivotal. Note que Q foi encontrada a partir de um EMV, e portanto temos indı́cios de que é uma boa escolha para encontrarmos um intervalo de confiança. Calculando o IC: Seja z o valor que satisfaz Φ(z) = γ, onde Φ representa a função densidade da distribuição normal reduzida e γ é o coeficiente de confiança escolhido arbitrariamente. Temos: X̄ − λ P −z < q < z = γ ⇔ P r −z λ n r ⇔ P X̄ − z λ − X̄ < −λ < z n λ < λ < X̄ + z n r λ − X̄ n ! =γ r ! λ =γ n Sabemos que X̄ = λ̂, e aproximando λ por λ̂ temos que: q q I = (λ̂ − z nλ̂ ; λ̂ + z nλ̂ ) é um intervalo de confiança aproximado de 100γ% de confiança para λ. Como já vimos, o rendimento é dado por e−DP U . Utilizando o EMV encontrado, podemos considerar a substituição do parâmetro λ por X̄ uma boa aproximação, então o rendimento será obtido por e−X̄ . Note que e−X̄ é uma função decrescente e I é um IC para λ. Utilizando a Obs 2 dada no Apêndice, temos que: −(λ̂+z (e q λ̂ ) n −(λ̂−z ;e q λ̂ ) n ) é um intervalo de 100γ% de confiança para e−λ , e portanto, é um IC para o rendimento. 11. Indicadores da Qualidade 83 Exemplo 11.1. Vamos encontrar intervalos de confiança para o produto cabine e também para cada um de seus componentes. Baseados nos dados do exercı́cio 11.1 A tabela 11.2 traz informações sobre todos os componentes do produto cabine. Neste exercı́cio, foram analisadas 57 cabines. Note que, sobre o tacômetro por exemplo, a única informação dada é que houveram 49 tacômetros defeituosos. Não sabemos quais tacômetros de quais cabines estavam com defeitos pois isso não importa para os nossos cálculos. Em uma linguagem mais estatı́stica, o rendimento P da cabine possui distribuição Poisson (que pertence à famı́lia exponencial) e portanto Xi é uma informação suficiente. Não é o caso deste exercı́cio, mas observe também que a quantidade de ocorrência de defeitos nos tacômetros poderia ser superior a 57, pois, ao termos um defeito em uma peça da cabine, esta é trocada por uma peça que talvez também seja defeituosa. Note também que as 49 ocorrências de defeitos podem ter vindo todas da mesma cabine. Como já vimos, um intervalo de confiança para o rendimento é dado por: −(λ̂+z q (e λ̂ ) n −(λ̂−z q ;e λ̂ ) n ) Queremos encontrar um intervalo de 95% de confiança para o produto cabine, então temos pela tabela da distribuição Normal padrão que z = 1, 96. Sejam X1 , X2 , . . . , Xn v.a.´s independentes que representam o número total de defeitos da componente i, i = 1, 2, . . . , 11; das cabines. Na tabela 11.2 podemos encontrar com facilidade a quantidade de defeitos totais: 11 X Xi = 139 i=1 EM V λ̂ = X̄ = (e−(2,438+1,96 √ 2,438 139 = 2, 438 = DP Ucabine 57 ) ; e−(2,438−1,96 (0, 0582 ; 0, 1309) 57 √ 2,438 57 ) ) é um IC de 95% de confiança para o rendimento da cabine. O rendimento da cabine é dado por: P[zero defeito na cabine] = P[zero defeito no tacômetro e zero defeito na mangueira e . . . e 11. Indicadores da Qualidade 84 ind zero defeito na coluna] = P[zero defeito no tacômetro] P[zero defeito na mangueira] . . . P[zero defeito na coluna] = (0, 423)(0, 601) . . . (0, 983) = 0,0902 Note que o rendimento encontrado pertence ao intervalo (0,0582 ; 0,1309). Vamos agora, encontrar intervalos de confiança para cada componente da cabine. o procedimento será o mesmo utilizado para encontrar um intervalo de confiança para a cabine, mas agora o EMV λ̂ será o DPU de cada componente. Os valores serão calculados da seguinte forma: • Tacômetro IC(Rendtac ; 0, 95) = (e−(0,86+1,96 √ 0,86 57 ) ; e−(0,86−1,96 √ 0,86 57 ) ) = (0, 3326; 0, 5383) Sejam LI e LS os limites inferiores e superiores, respectivamente, do intervalo de confiança encontrado para cada componente. Componentes Unidade Defeito DPU Rend LI LS Tacômetro 57 49 0,86 0,423 0,3326 0,5383 Mangueiras 57 29 0,509 0,601 0,4994 0,7234 Vedação 57 18 0,316 0,729 0,630 0,8436 Ar Condicionado 57 14 0,246 0,782 0,6874 0,8893 Portas 57 10 0,175 0,839 0,7530 0,9357 Caixa de Controle 57 6 0,105 0,900 0,8276 0,9793 Sistema Elétrico no Painel 57 5 0,088 0,916 0,8478 0,9890 Cabo de Controle 57 3 0,053 0,949 0,8933 1,0000 Instrumento 57 2 0,035 0,965 0,9198 1,0000 Ventilação 57 2 0,035 0,965 0,9198 1,0000 Coluna 57 1 0,017 0,983 0,9504 1,0000 11. Indicadores da Qualidade 11.3 85 Defeitos por milhão de oportunidades (DPMO) Algumas empresas avaliam apenas a taxa de defeituosos no final do processo. Por exemplo, se foram produzidos 200 unidades e 10 unidades falharam no final da montagem, a taxa de defeitos reportada é de 5%. A taxa de defeito por unidade pode ser melhorada incluindo o número de oportunidades, para focar no processo e/ou produto. Um indicador adequado para a taxa de defeitos por unidade deve considerar o número de oportunidade para a falha nos cálculos. Para ilustrar, considere um processo onde os defeitos são classificados por tipo e o número de oportunidades para a falha (OP) são definidos para cada tipo. O número de defeitos (D) e unidades (U) são obtidos do processo durante algum perı́odo de tempo. O cálculo do indicador pode ser obtido na forma: Tipo de defeito Número de Defeitos Unidades Oportunidades Total de Oportunidades Defeitos por Unidade Defeitos pelo Total de Oportunidades Defeitos por Milhão de Oportunidades Descrição D U OP TOP = U × OP DPU = D / U DPO = D /TOP DPMO = DPO × 1000000 Tabela 11.3: DPMO Nas aplicações temos até 20 tipos diferentes de defeitos, cujo cálculo do indicador DPMO deve ser obtido para cada tipo de defeito. Então, tomamos a média do indicador DPO e DPMO para o processo e/ou produto e construı́mos um gráfico de Pareto para o DPMO dos defeitos. Para uma aplicação na indústria eletrônica, considere o processo de solda de componentes em uma placa de circuito impresso. Neste caso, o número de oportunidades para a falha pode ser o número de componentes (de cada tipo) vezes o número de pontas de solda. A vantagem de utilizar o DPMO para esta situação é que diferentes componentes são montados na placa, cada um desses componentes contém um número diferente de pontos de solda. Assim, com o DPMO podemos uniformizar o indicador sobre o processo. Exemplo 11.2. Os defeitos encontrados na assistência técnica de um produto foram classificados em tipos A, B, C, D, E, e F. Durante um certo perı́odo de tempo foram coletados os dados referentes ao número de defeitos (D), unidades (U) e oportunidades por unidade. Os dados são apresentados na tabela 11.4: 11. Indicadores da Qualidade Tipo A B C D E F TOTAL 86 D U OP TOP 21 327 92 30084 10 350 85 29750 8 37 43 1591 68 743 50 37150 74 80 60 4800 20 928 28 25984 201 2465 358 129359 DPU 0,06422 0,028571 0,216216 0,091521 0,925 0,021552 DPO 0,000698 0,000336 0,005028 0,00183 0,015417 0,00077 DPMO 698,0455 336,1345 5028,284 1830,417 15416,67 769,7044 Tabela 11.4: Dados DP OT OT AL Pn Di 201 = Pn i=1 = = 0, 00155 129359 i=1 T OPi DP M OT OT AL = DP OT OT AL × 1000000 = 1553, 8153 Figura 11.2: Gráfico de Pareto 11. Indicadores da Qualidade 87 Exercı́cio 11.2. Considere uma máquina colheitadeira de cana onde vamos verificar a cabine da máquina. Abaixo estão relacionados os tipos de defeitos, unidades fabricadas e número de oportunidades por defeito. Preencher a tabela 11.5 e montar o gráfico de Pareto para o tipo de defeito utilizando o DPMO. a) Calcule o DPO e DPMO do produto: b) Montar o gráfico de Pareto: Componentes Unid Tacômetro 57 Mangueira 57 Vedação 57 Ar Condicionado 57 Portas 57 Caixa de Controle 57 Sistema Elétrico no Painel 57 Cabo de Controle 57 Instrumento 57 Ventilação 57 Coluna 57 Defeito Oport TOP 49 2 114 29 2 114 18 6 342 14 1 10 2 6 1 5 10 3 2 2 2 2 1 1 1 DPO DPMO 0,43 429824,561 0,254 254385,964 0,053 52631,5789 Tabela 11.5: Colheitadeira de Cana 11.4 Intervalo de confiança para o DPMO Ao estudarmos o rendimento, vimos que a amostra X1 , X2 , . . . , Xn tinha distribuição Poisson. Neste capı́tulo a métrica utilizada será o DPMO, e como a quantidade de defeitos é finita (pois a cabine será classificada como defeituosa ou não), X1 , X2 , . . . , Xn terá distribuição Binomial. Portanto: iid X1 , X2 , . . . , Xn ∼ Bernoulli(θ) • Estimador de máxima verossimilhança A função densidade de uma distribuição Bernoulli é dada por: f (x, θ) = P [X = x] = θx (1 − θ)1−x 11. Indicadores da Qualidade 88 Logo, a função verossimilhança será: L(x; θ) = n Y f (xi , θ) = θ Pn i=1 xi (1 − θ)n− Pn i=1 xi i=1 E portanto: l(x; θ) = n X xi log θ + n log (1 − θ) − i=1 n X xi log (1 − θ) i=1 Novamente, derivando e igualando a zero, temos: ∂ ∂ θ̂ Pn i=1 l(θ̂; x) = θ̂ ⇔ 1 θ̂ xi − Pn n− i=1 1 − θ̂ xi =0⇔ 1 − θ̂ θ̂ Pn n − 1 = Pn i=1 xi − 1 ⇔ θ̂ = i=1 n P n − ni=1 xi = Pn i=1 xi xi = x̄ ∴ x̄ é um ponto crı́tico de l(θ; x). Vamos verificar se é um ponto de mı́nimo ou de máximo: ∂2 l(θ; x) = − ∂θ2 Pn i=1 θ2 xi Pn n i=1 xi − + (1 − θ)2 (1 − θ)2 Como X1 , X2 , . . . , Xn tem distribuição Bernoulli, então: 1 sucesso, i = 1, . . . , n Xi = 0 f racasso ∴ n X xi ≤ n i=1 e ∴ ∂2 l(θ; x) < 0 ∂θ2 ∴ θ̂ = x̄ é o EMV de θ. • Intervalo de Confiança θ̂ = X̄ é o EMV de θ e Pn i=1 iid Xi ∼ Binomial(n; θ) 11. Indicadores da Qualidade 89 Pn i=1 E(θ̂) = E( Pn V (θ̂) = V ( Xi n i=1 Xi n n 1 X n ) = E( Xi ) = E(X1 ) = θ n i=1 n n X 1 n θ(1 − θ) ) = 2V ( Xi ) = 2 V (X1 ) = n n n i=1 iid Obs: E(X1 ) = θ e V (X1 ) = θ(1 − θ) pois X1 , X2 , . . . , Xn ∼ Binomial(θ). Aplicando o TLC, temos: X̄ − θ Q= q ∼ N (0, 1) θ(1−θ) n e portanto Q é uma quantidade pivotal. Seja z definido como anteriormente, então: X̄ − θ P −z < q < z = γ ⇔ P θ(1−θ) n r −z θ(1 − θ) − X̄ < −θ < z n s s ⇔ P X̄ − z θ̂(1 − θ̂) < θ < X̄ + z n ∴ θ̂ − z θ̂(1 − θ̂) ; θ̂ + z n θ(1 − θ) − X̄ n ! =γ θ̂(1 − θ̂) =γ n s s r θ̂(1 − θ̂) n é um IC aproximado de 100γ% de confiança para θ. Exemplo 11.3. Vamos encontrar intervalos de confiança para o DPMO da cabine e também para o DPMO de cada componente da cabine. Baseados nos dados do exercı́cio 11.2. No cálculo do DPMO, não é possı́vel que o número de defeitos seja maior que o número de cabines pois cada componente será classificada como defeituosa ou não defeituosa (distribuição P de Bernoulli). Novamente temos apenas a informação sobre a estatı́stica suficiente ( Xi ). Completando a tabela fornecida no Exercı́cio 11.2, temos: Sejam X1 , X2 , . . . , Xn v.a.´s independentes que representam o número total de defeitos da componente i, i = 1, 2, . . . , 11; das cabines. Seja n o número total de componentes utilizados P na produção das 57 cabines ( total de oportunidades de cada componente). Temos que: 11. Indicadores da Qualidade 90 Componentes Unid Tacômetro 57 Mangueira 57 Vedação 57 Ar Condicionado 57 Portas 57 Caixa de Controle 57 Sistema Elétrico no Painel 57 Cabo de Controle 57 Instrumento 57 Ventilação 57 Coluna 57 Defeito Oport TOP 49 2 114 29 2 114 18 6 342 14 1 57 10 2 114 6 1 57 5 10 570 3 2 114 2 2 114 2 1 57 1 1 57 P11 EM V θ̂ = X̄ = DP Ocabine = i=1 n Xi = DPO 0,43 0,254 0,053 0,245 0,087 0,105 0,0087 0,0263 0,0175 0,035 0,0175 139 = 0, 081286 1710 Então o DPMO da cabine será dado por 106 × DP Ocabine = 81.286, 54. Uma fórmula para encontrar um intervalo de confiança para o DPMO é dada por: s s 106 θ̂ − z θ̂(1 − θ̂) ; θ̂ + z n θ̂(1 − θ̂) n Queremos um intervalo com 95% de confiança, e portanto temos que z=1,96. Então: r 106 0, 081286 − 1, 96 r 0, 081286(0, 918714) ; 0, 081286 + 1, 96 1.710 0, 081286(0, 918714) 1.710 ! = (68.333, 43; 94.238, 57) é um IC de 95% de confiança para o DPMO da cabine. Repetindo este mesmo procedimento para cada componente da cabine, encontraremos intervalos de 95% de confiança. 11. Indicadores da Qualidade 91 • Tacômetro r IC(DP M Otac ; 0, 95) 6 0, 42982 − 1, 96 r 0, 42982(0, 57017) ; 0, 42982 + 1, 96 1.710 = 10 = (406.360, 24; 453.288, 87) 0, 42982(0, 57017) 1.710 ! Componentes DPMO LI LS Tacômetro 429.824,561 406.360,24 453.288,87 Mangueira 254.385,96 233.743,49 275.028,43 Vedação 52.631,57 42.047,80 63.215,35 Ar Condicionado 245.614,03 225.211,62 266.016,44 Portas 87.719,29 74.311,11 101.127,47 Caixa de Controle 105.263,15 90.717,14 119.809,16 Sistema Elétrico no Painel 8.771,929 4.352,23 13.191,62 Cabo de Controle 26.315,78 18.728,69 33.902,88 Instrumento 17.543,859 11.321,18 23.766,53 Ventilação 35.087,71 26.366,45 43.808,98 Coluna 17.543,85 11.321,18 23.766,53 11.5 Rendimento: Análise da resposta do processo (Rolled Throughput Yield) Quando analisamos somente a taxa de defeito no final do processo, perdemos informações sobre o retrabalho que ocorre durante o processo. Ao utilizarmos a análise da resposta do processo podemos identificar a fase do processo com maior taxa de defeitos e/ou retrabalho. Figura 11.3: Gráfico do Rendimento Clássico 11. Indicadores da Qualidade 92 Tabela de cálculo do indicador ”rendimento do processo”. Componentes 1 .. . Unidades U .. . Defeitos D .. . DPU D/U .. . K U Soma de D Soma de D/U Resposta e−DPU .. . − DPU e Soma de DPU YT R = Produto Resposta Unidades Média da soma Defeitos Média de de unidades por operação defeitos por operação Média de DPU por operação − ln(YT R ) Somas Médias Tabela 11.6: Resumo dos Dados 11. Indicadores da Qualidade 93 Figura 11.4: Gráfico do Rendimento do Processo Sabemos que o rendimento corresponde a Rendimento = e−DP U , portanto DP U = −ln[e−DP U ]. Teorema da Probabilidade Total: Considere A1 , A2 , · · · , An eventos quaisquer. Então, temos que P (A1 ∩ A2 ∩ · · · ∩ An ) = P (An |A1 ∩ A2 ∩ · · · ∩ An−1 ) × · · · × P (A2 |A1 ) × P (A1 ) 11. Indicadores da Qualidade 11.6 94 Exercı́cios Exercı́cio 11.3. Considere um processo de fabricação do pistão de um motor. Este processo é dividido em quatro etapas básicas: • A - Fundição; • B - Pré usinagem; • C - Usinagem e; • D - Tratamento superficial. Calcule o rendimento total do processo de fabricação do pistão. Operação A B C D Soma Médias Unid Defeito DPU 45.000 580 44.420 220 44.200 310 43.890 75 Rendimento Prob. Def. Tabela 11.7: Coleta de Dados Exercı́cio 11.4. Um eletrodoméstico é dividido em seis módulos básicos. Através de dados de assistência técnica temos as ocorrências de defeitos em cada produto. Os dados referentes a um lote de produção estão dispostos na tabela : Módulos 1 2 3 4 5 6 Somas Médias Unidades Defeitos 1500 12 1500 16 1500 17 1500 8 1500 22 1500 5 DPU Rendimento Tabela 11.8: Coleta de Dados a) Calcular o rendimento do produto; b) Obter o PPM do produto; c) Montar o gráfico de Pareto. 11. Indicadores da Qualidade 95 Exercı́cio 11.5. Considere o processo de solda de componentes em uma placa de circuito impresso. Neste caso, o número de oportunidades para a falha pode ser o número de componentes (de cada tipo) vezes o número de pontas de solda. A placa é constituı́da por 8 transistores, 10 diodos, 15 resistores e 4 circuitos integrados. Os dados referentes a um dia montagem estão dispostos na tabela : Tipo Transistores Resistores Diodos CI Total D 45 23 32 150 U OP TOP DPU 10000 24 10000 20 10000 10000 DPO DPMO Tabela 11.9: Coleta de Dados a) Calcule o DPO e DPMO do produto; b) Montar o gráfico de Pareto. 11.7 Métrica da Qualidade: SIGMA Aqui, vamos estudar a relação entre a métrica da qualidade SIGMA obtida via a distribuição normal e a taxa de defeitos por milhão. A distribuição é Normal quando sua densidade tem a forma de ”sino”: Figura 11.5: Áreas sob a Curva Normal 11. Indicadores da Qualidade 96 Esta figura ilustra o conceito básico das métricas de sistema da qualidade onde as peças são manufaturadas e avaliadas a porcentagem (ou PPM) de peças fora de especificação. Especificações Porcentagem PPM de defeitos ±1σ 68.27 317300 ±2 σ 95.45 54500 ±3 σ 99.73 2700 ±4 σ 99.9937 63 ±5 σ 99.999943 0.57 ±6 σ 99.9999998 0.002 Em geral, não conseguimos manter um processo totalmente centrado, sempre temos uma pequena variação na média do processo devido a mudanças na matéria-prima, condições ambientais, manutenção de máquina e ferramentas, entre outras causas. Assim, a Motorola sugeriu uma variação natural de 1.5σ em torno da média do processo. Abaixo apresentamos um gráfico ilustrando a variação. Figura 11.6: Limites de Variação Especificações Porcentagem PPM de defeitos ±1σ 30.23 697700 ±2σ 69.13 308700 ±3σ 93.32 66810 ±4σ 99.379 6210 ±5σ 999.767 233 ±6σ 9.999.966 3.4 11. Indicadores da Qualidade 97 Esta relação é determinada utilizando a variação de ± 1.5 × σ, sendo expressa de forma aproximada por [Schmidt e Launsby (1997)]: Número de SIGMA = 0, 8406 + p 29, 37 − 2, 221 × ln(P P M ) OBS: Se usarmos oportunidade de defeito para calcular o indicador da qualidade, devemos substituir o PPM por DPMO. Exemplo 11.4. Considere um processo com PPM igual a 20. Quantos sigma tem o processo? Número de SIGMA = 0, 8406 + p 29, 37 − 2, 221 × ln(20) = 0, 8406 + 4, 7661 = 5, 6 Exercı́cio 11.6. Com os dados do exercı́cio 11.1, calcular a métrica sigma. 98 Capı́tulo 12 Definições Def: (função verossimilhança) Seja X1 , X2 , . . . , Xn uma amostra aleatória com função densidade f (x; θ). A função verossimilhança de θ correspondente à amostra observada é dada por: L(θ; x) = n Y f (xi |θ) i=1 Obs 1: O logaritmo da função verossimilhança L(·) é denotado por l(·). Def: (estimador de máxima verossimilhança) O estimador de máxima verossimilhança (EMV) de θ é o valor θ̂ que maximiza a função verossimilhança L(θ; x). Def: (quantidade pivotal ) Uma v.a. Q(X1 , X2 , . . . , Xn ; θ) = Q(X; θ) é dita ser uma quantidade pivotal para o parâmetro θ se a sua distribuição for independente de θ. Def: (intervalo de confiança) Seja X1 , X2 , . . . , Xn uma amostra aleatória com função densidade f (·; θ). Sejam T1 = t1 (X1 , X2 , . . . , Xn ) e T2 = t2 (X1 , X2 , . . . , Xn ) duas estatı́sticas satisfazendo T1 ≤ T2 para cada Pθ [T1 < τ (θ) < T2 ] ≡ γ, onde γ não depende de θ. Então o intervalo aleatório (T1 , T2 ) é chamado de intervalo de confiança de 100γ% para τ (θ). γ é chamado de coeficiente de confiança, T1 e T2 são chamados de limites de confiança inferior e superior, respectivamente, para τ (θ). Um valor (t1 , t2 ) do intervalo aleatório (T1 ;T2 ) é também chamado de intervalo de confiança de 100γ% para τ (θ). Obs 2: Seja g uma função crescente e (T1 , T2 ) um intervalo de confiança para o parâmetro θ, então (g(T1 ), g(T2 )) é um IC para g(θ). Se g é decrescente, então (g(T2 ), g(T1 )) é um IC para 12. Definições 99 g(θ). Teorema do Limite Central (TLC): Seja X1 , X2 , . . . , Xn uma sequência de variáveis aleatórias independentes com mesma distribuição. Sejam µ = E(Xi ) e σ 2 = V (Xi ) a esperança P e a variância comuns. Seja S = ni=1 Xi . Então sob determinadas condições, temos: S − E(S) p ∼ N (0, 1) V (S) 100 Apêndice A Tabela Normal Padrão - 6σ A. Tabela Normal Padrão - 6σ Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 Área 0,500000000 0,496010644 0,492021686 0,488033527 0,484046563 0,480061194 0,476077817 0,472096830 0,468118628 0,464143607 0,460172163 0,456204687 0,452241574 0,448283213 0,444329995 0,440382308 0,436440537 0,432505068 0,428576284 0,424654565 0,420740291 0,416833837 0,412935577 0,409045885 0,405165128 0,401293674 0,397431887 0,393580127 0,389738752 0,385908119 0,382088578 0,378280478 0,374484165 0,370699981 0,366928264 0,363169349 0,359423567 0,355691245 0,351972708 0,348268273 0,344578258 0,340902974 0,337242727 0,333597821 0,329968554 0,326355220 0,322758110 0,319177509 0,315613697 0,312066949 Z 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 101 Área 0,308537539 0,305025731 0,301531788 0,298055965 0,294598516 0,291159687 0,287739719 0,284338849 0,280957309 0,277595325 0,274253118 0,270930904 0,267628893 0,264347292 0,261086300 0,257846111 0,254626915 0,251428895 0,248252230 0,245097094 0,241963652 0,238852068 0,235762498 0,232695092 0,229649997 0,226627352 0,223627292 0,220649946 0,217695438 0,214763884 0,211855399 0,208970088 0,206108054 0,203269392 0,200454193 0,197662543 0,194894521 0,192150202 0,189429655 0,186732943 0,184060125 0,181411255 0,178786380 0,176185542 0,173608780 0,171056126 0,168527607 0,166023246 0,163543059 0,161087060 Z 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 Área 0,158655254 0,156247645 0,153864230 0,151505003 0,149169950 0,146859056 0,144572300 0,142309654 0,140071090 0,137856572 0,135666061 0,133499513 0,131356881 0,129238112 0,127143151 0,125071936 0,123024403 0,121000484 0,119000107 0,117023196 0,115069670 0,113139446 0,111232437 0,109348552 0,107487697 0,105649774 0,103834681 0,102042315 0,100272568 0,098525329 0,096800485 0,095097918 0,093417509 0,091759136 0,090122672 0,088507991 0,086914962 0,085343451 0,083793322 0,082264439 0,080756659 0,079269841 0,077803841 0,076358510 0,074933700 0,073529260 0,072145037 0,070780877 0,069436623 0,068112118 Z 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 Área 0,066807201 0,065521712 0,064255488 0,063008364 0,061780177 0,060570758 0,059379941 0,058207556 0,057053433 0,055917403 0,054799292 0,053698928 0,052616138 0,051550748 0,050502583 0,049471468 0,048457226 0,047459682 0,046478658 0,045513977 0,044565463 0,043632937 0,042716221 0,041815138 0,040929509 0,040059157 0,039203903 0,038363570 0,037537980 0,036726956 0,035930319 0,035147894 0,034379502 0,033624969 0,032884119 0,032156775 0,031442763 0,030741909 0,030054039 0,029378980 0,028716560 0,028066607 0,027428950 0,026803419 0,026189845 0,025588060 0,024997895 0,024419185 0,023851764 0,023295468 A. Tabela Normal Padrão - 6σ Z 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,20 2,21 2,22 2,23 2,24 2,25 2,26 2,27 2,28 2,29 2,30 2,31 2,32 2,33 2,34 2,35 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,44 2,45 2,46 2,47 2,48 2,49 Área 0,022750132 0,022215594 0,021691694 0,021178270 0,020675163 0,020182215 0,019699270 0,019226172 0,018762766 0,018308900 0,017864421 0,017429178 0,017003023 0,016585807 0,016177383 0,015777607 0,015386335 0,015003423 0,014628731 0,014262118 0,013903448 0,013552581 0,013209384 0,012873721 0,012545461 0,012224473 0,011910625 0,011603792 0,011303844 0,011010658 0,010724110 0,010444077 0,010170439 0,009903076 0,009641870 0,009386706 0,009137468 0,008894043 0,008656319 0,008424186 0,008197536 0,007976260 0,007760254 0,007549411 0,007343631 0,007142811 0,006946851 0,006755653 0,006569119 0,006387155 Z 2,50 2,51 2,52 2,53 2,54 2,55 2,56 2,57 2,58 2,59 2,60 2,61 2,62 2,63 2,64 2,65 2,66 2,67 2,68 2,69 2,70 2,71 2,72 2,73 2,74 2,75 2,76 2,77 2,78 2,79 2,80 2,81 2,82 2,83 2,84 2,85 2,86 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,94 2,95 2,96 2,97 2,98 2,99 102 Área 0,006209665 0,006036558 0,005867742 0,005703126 0,005542623 0,005386146 0,005233608 0,005084926 0,004940016 0,004798797 0,004661188 0,004527111 0,004396488 0,004269243 0,004145301 0,004024589 0,003907033 0,003792562 0,003681108 0,003572601 0,003466974 0,003364160 0,003264096 0,003166716 0,003071959 0,002979763 0,002890068 0,002802815 0,002717945 0,002635402 0,002555130 0,002477075 0,002401182 0,002327400 0,002255677 0,002185961 0,002118205 0,002052359 0,001988376 0,001926209 0,001865813 0,001807144 0,001750157 0,001694810 0,001641061 0,001588870 0,001538195 0,001488999 0,001441242 0,001394887 Z 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 3,20 3,21 3,22 3,23 3,24 3,25 3,26 3,27 3,28 3,29 3,30 3,31 3,32 3,33 3,34 3,35 3,36 3,37 3,38 3,39 3,40 3,41 3,42 3,43 3,44 3,45 3,46 3,47 3,48 3,49 Área 0,001349898 0,001306238 0,001263873 0,001222769 0,001182891 0,001144207 0,001106685 0,001070294 0,001035003 0,001000782 0,000967603 0,000935437 0,000904255 0,000874032 0,000844739 0,000816352 0,000788846 0,000762195 0,000736375 0,000711364 0,000687138 0,000663675 0,000640953 0,000618951 0,000597648 0,000577025 0,000557061 0,000537737 0,000519035 0,000500937 0,000483424 0,000466480 0,000450087 0,000434230 0,000418892 0,000404058 0,000389712 0,000375841 0,000362429 0,000349463 0,000336929 0,000324814 0,000313106 0,000301791 0,000290857 0,000280293 0,000270088 0,000260229 0,000250707 0,000241510 Z 3,50 3,51 3,52 3,53 3,54 3,55 3,56 3,57 3,58 3,59 3,60 3,61 3,62 3,63 3,64 3,65 3,66 3,67 3,68 3,69 3,70 3,71 3,72 3,73 3,74 3,75 3,76 3,77 3,78 3,79 3,80 3,81 3,82 3,83 3,84 3,85 3,86 3,87 3,88 3,89 3,90 3,91 3,92 3,93 3,94 3,95 3,96 3,97 3,98 3,99 Área 0,000232629 0,000224053 0,000215773 0,000207780 0,000200064 0,000192616 0,000185427 0,000178491 0,000171797 0,000165339 0,000159109 0,000153099 0,000147302 0,000141711 0,000136319 0,000131120 0,000126108 0,000121275 0,000116617 0,000112127 0,000107800 0,000103630 0,000099611 0,000095740 0,000092010 0,000088417 0,000084957 0,000081624 0,000078414 0,000075324 0,000072348 0,000069483 0,000066726 0,000064072 0,000061517 0,000059059 0,000056694 0,000054418 0,000052228 0,000050122 0,000048096 0,000046148 0,000044274 0,000042473 0,000040741 0,000039076 0,000037475 0,000035936 0,000034458 0,000033037 A. Tabela Normal Padrão - 6σ Z 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 4,12 4,13 4,14 4,15 4,16 4,17 4,18 4,19 4,20 4,21 4,22 4,23 4,24 4,25 4,26 4,27 4,28 4,29 4,30 4,31 4,32 4,33 4,34 4,35 4,36 4,37 4,38 4,39 4,40 4,41 4,42 4,43 4,44 4,45 4,46 4,47 4,48 4,49 Área 0,000031671 0,000030359 0,000029099 0,000027888 0,000026726 0,000025609 0,000024536 0,000023507 0,000022518 0,000021569 0,000020658 0,000019783 0,000018944 0,000018138 0,000017365 0,000016624 0,000015912 0,000015230 0,000014575 0,000013948 0,000013346 0,000012769 0,000012215 0,000011685 0,000011176 0,000010689 0,000010221 0,000009774 0,000009345 0,000008934 0,000008540 0,000008163 0,000007801 0,000007455 0,000007124 0,000006807 0,000006503 0,000006212 0,000005934 0,000005668 0,000005413 0,000005169 0,000004935 0,000004712 0,000004498 0,000004294 0,000004098 0,000003911 0,000003732 0,000003561 103 Z 4,50 4,51 4,52 4,53 4,54 4,55 4,56 4,57 4,58 4,59 4,60 4,61 4,62 4,63 4,64 4,65 4,66 4,67 4,68 4,69 4,70 4,71 4,72 4,73 4,74 4,75 4,76 4,77 4,78 4,79 4,80 4,81 4,82 4,83 4,84 4,85 4,86 4,87 4,88 4,89 4,90 4,91 4,92 4,93 4,94 4,95 4,96 4,97 4,98 4,99 Área 0,000003398 0,000003241 0,000003092 0,000002949 0,000002813 0,000002682 0,000002558 0,000002439 0,000002325 0,000002216 0,000002112 0,000002013 0,000001919 0,000001828 0,000001742 0,000001660 0,000001581 0,000001506 0,000001434 0,000001366 0,000001301 0,000001239 0,000001179 0,000001123 0,000001069 0,000001017 0,000000968 0,000000921 0,000000876 0,000000834 0,000000793 0,000000755 0,000000718 0,000000683 0,000000649 0,000000617 0,000000587 0,000000558 0,000000530 0,000000504 0,000000479 0,000000455 0,000000433 0,000000411 0,000000391 0,000000371 0,000000352 0,000000335 0,000000318 0,000000302 Z 5,00 5,01 5,02 5,03 5,04 5,05 5,06 5,07 5,08 5,09 5,10 5,11 5,12 5,13 5,14 5,15 5,16 5,17 5,18 5,19 5,20 5,21 5,22 5,23 5,24 5,25 5,26 5,27 5,28 5,29 5,30 5,31 5,32 5,33 5,34 5,35 5,36 5,37 5,38 5,39 5,40 5,41 5,42 5,43 5,44 5,45 5,46 5,47 5,48 5,49 Área 0,000000287 0,000000272 0,000000258 0,000000245 0,000000233 0,000000221 0,000000210 0,000000199 0,000000189 0,000000179 0,000000170 0,000000161 0,000000153 0,000000145 0,000000137 0,000000130 0,000000123 0,000000117 0,000000111 0,000000105 0,000000100 0,000000094 0,000000089 0,000000085 0,000000080 0,000000076 0,000000072 0,000000068 0,000000065 0,000000061 0,000000058 0,000000055 0,000000052 0,000000049 0,000000046 0,000000044 0,000000042 0,000000039 0,000000037 0,000000035 0,000000033 0,000000032 0,000000030 0,000000028 0,000000027 0,000000025 0,000000024 0,000000023 0,000000021 0,000000020 Tabela A.1: Tabela Normal 6σ Z 5,50 5,51 5,52 5,53 5,54 5,55 5,56 5,57 5,58 5,59 5,60 5,61 5,62 5,63 5,64 5,65 5,66 5,67 5,68 5,69 5,70 5,71 5,72 5,73 5,74 5,75 5,76 5,77 5,78 5,79 5,80 5,81 5,82 5,83 5,84 5,85 5,86 5,87 5,88 5,89 5,90 5,91 5,92 5,93 5,94 5,95 5,96 5,97 5,98 5,99 6,00 Área 0,000000019 0,000000018 0,000000017 0,000000016 0,000000015 0,000000014 0,000000013 0,000000013 0,000000012 0,000000011 0,000000011 0,000000010 0,000000010 0,000000009 0,0000000085 0,0000000080 0,0000000076 0,0000000071 0,0000000067 0,0000000064 0,0000000060 0,0000000056 0,0000000053 0,0000000050 0,0000000047 0,0000000045 0,0000000042 0,0000000040 0,0000000037 0,0000000035 0,0000000033 0,0000000031 0,0000000029 0,0000000028 0,0000000026 0,0000000025 0,0000000023 0,0000000022 0,0000000021 0,0000000019 0,0000000018 0,0000000017 0,0000000016 0,0000000015 0,0000000014 0,0000000013 0,0000000013 0,0000000012 0,0000000011 0,0000000010 0,0000000010 104 Referências Bibliográficas [1] Douglas C. Montgomery - Introduction to Statistical Quality Control, John Wiley and Sons, 1985. [2] Fundamentos do Controle Estatı́stico do Processo - Manual de Referência, IQA. [3] Schmidt, S. R. and Launsby, R. G. - Understanding Industrial Designed Experiments, Air Academic Press, Colorado Springs, CO, (1997). [4] Forrest W. Breyfogle (1999) - Implementing Six Sigma: Smarter Solution Using Statistical Methods, John Wiley & Sons, INC. [5] M. N. Magalhães e A. C. P. De Lima (2001) Noções de Probabilidade e Estatı́stica, 3 edição, Editora USP. [6] P. L. Meyer (1983) - Probabilidade: Aplicações à Estatı́stica, segunda edição, Livros técnicos e Cientı́ficos Editora. [7] W. O. Bussab e P. A. Morettin (1987) - Estatı́stica Básica - 4 Edição, Atual Editora. [8] Breyfogle, Forrest W. - Implementing Six Sigma: Smarter Solution Using Statistical Methods, John Wiley & Sons, INC, (1999). [9] Fundamentos do Controle Estatı́stico do Processo - Manual de Referência, IQA. [10] R. L. Mason, R. F. Gunst, J. L. Hess (1989) Statistical Design and Analysis of Experiments: with applications do Engineering and Science, John Wiley & Sons. [11] BIPM, IEC, IFCC, ISO, IUPAC, IUPAP, OIML, Guide to the Expression of Uncertainty in Measurement, 1995. [12] NBR ISO 10012-1, Requisitos de Garantia da Qualidade para Equipamentos de Medição, 1993. Referências Bibliográficas 105 [13] MSA, Análise dos Sistemas de medição, terceira edição. [14] Versão Brasileira do documento de referência EA-4/02: Expressão da incerteza de medição na calibração, INMETRO. [15] Montgomery, Douglas C., Design and Analysis of Experiments - - Fourth Edition - Ed. John Wiley & Sons, 1997.