Controle Estatístico de Processos: a questão da autocorrelação, dos erros de mensuração e do monitoramento de mais de uma característica de qualidade Docentes: Maysa S. de Magalhães; Linda Lee Ho; Antonio Fernando B. Costa. 1 João Pessoa, 2 a 5 de Setembro 2008 Prefácio O monitoramento de um processo é feito com base nas informações de uma, ou de mais de uma característica de qualidade, que são selecionadas de acordo com as especificações do produto. Por exemplo, saquinhos de leite devem conter entre 985 ml e 1015 ml; um saquinho de leite com menos de 985 ml gera multa a empresa, e com mais de 1015 ml tem risco de estourar durante o manuseio e transporte. Neste caso, a característica de qualidade de interesse X é a quantidade de leite dentro do saquinho e a missão do monitoramento é manter as variações de X dentro de níveis que não comprometam as especificações. A variável X é também chamada de variável de monitoramento. Pois bem, para obter os valores de X, defronta-se primeiro com a questão da precisão do sistema de medição e, em seguida, com a questão da correlação entre Xi e Xi+1, onde o sub índice (i) é o número do item, de acordo com a seqüência de produção. As notas deste mini-curso são constituídas de cinco seções, a primeira parte destas notas é uma revisão das propriedades dos gráficos de Shewhart; a segunda parte é dedicada ao estudo dos gráficos de Shewhart, mais especificamente do gráfico de X , na presença de erros de mensuração e da autocorrelação entre valores de X. A terceira e quarta seções são dedicadas ao monitoramento de processos multivariados; são distintas uma da outra, por tratarem de variáveis contínuas e discretas, respectivamente e por fim comentários finais são feitas na última seção. Este mini-curso trata, portanto, de pesquisas recentes na área de Controle Estatístico de Processos, que abordam a questão da autocorrelação dos dados, do erro de mensuração e do monitoramento simultâneo de várias características de qualidade. Maysa Sacramento de Magalhães; Linda Lee Ho; Antonio Fernando Branco Costa. Setembro 2008 2 João Pessoa, 2 a 5 de Setembro 2008 Conteúdo SEÇÃO UM: .............................................................................................. 5 REVISÃO DAS PROPRIEDADES DOS GRÁFICOS DE SHEWHART ................ 5 1. INTRODUÇÃO .......................................................................................... 5 1.1 - ALARME FALSO NO GRÁFICO DE X .......................................................... 7 1.2 PODER DO GRÁFICO DE X .................................................................... 10 REFERÊNCIA .............................................................................................. 12 SEÇÃO DOIS ........................................................................................... 13 ERRO DE MENSURAÇÃO E DADOS AUTOCORRELACIONADOS .............. 13 2 . INTRODUÇÃO........................................................................................ 13 2.1 ERRO DE MENSURAÇÃO........................................................................ 13 2.2 DADOS AUTO CORRELACIONADOS ........................................................... 17 2.3. ERRO DE MENSURAÇÃO COM DADOS AUTOCORRELACIONADOS .................... 25 REFERÊNCIAS ............................................................................................ 27 SEÇÃO TRÊS: .......................................................................................... 28 PROCESSOS MULTIVARIADOS - VARIÁVEIS CONTÍNUAS ........................ 28 3. INTRODUÇÃO ........................................................................................ 28 3.1 O VETOR DE MÉDIAS E A MATRIZ DE COVARIÂNCIAS AMOSTRAIS .................... 28 3.2 GRÁFICOS DE CONTROLE PARA O MONITORAMENTO DO VETOR DE MÉDIAS ...... 31 3.3. GRÁFICOS DE CONTROLE PARA O MONITORAMENTO DA MATRIZ DE COVARIÂNCIAS .......................................................................................... 33 3 João Pessoa, 2 a 5 de Setembro 2008 REFERÊNCIAS ............................................................................................ 36 SEÇÃO QUATRO..................................................................................... 38 PROCESSOS MULTIVARIADOS-VARIÁVEIS DISCRETAS ........................... 38 4 - INTRODUÇÃO ....................................................................................... 38 4.1 – DISTRIBUIÇÃO POISSON BIVARIADA – UMA BREVE REVISÃO ........................ 39 4.2 – GRÁFICOS DE CONTROLE PARA OBSERVAÇÕES INDIVIDUAIS DE UM PROCESSO DE POISSON BIVARIADO ................................................................................... 43 4.3 – EXEMPLO NUMÉRICO ......................................................................... 50 4.4- CONSIDERAÇÕES FINAIS........................................................................ 53 REFERÊNCIAS ............................................................................................ 54 APÊNDICE................................................................................................. 55 SEÇÃO CINCO: ....................................................................................... 57 COMENTÁRIOS FINAIS ........................................................................... 57 4 João Pessoa, 2 a 5 de Setembro 2008 Seção UM: UM: Revisão das propriedades dos gráficos de Shewhart 1. Introdução Antes de se pensar em controlar um processo é preciso primeiro estudar o comportamento da característica de qualidade X a ser monitorada; para isto é preciso que o sistema de medição seja confiável. Erros de mensuração bem como a correlação em série entre valores da variável X, que compõem os subgrupos racionais, comprometem o desempenho dos gráficos de controle. Para ilustrar o efeito do erro de mensuração e da autocorrelação das observações no desempenho dos gráficos de controle, seja o gráfico de X . Nesta seção é feita uma revisão das propriedades dos gráficos de X para dados independentes e sem erros de mensuração. A próxima seção estende os resultados, incorporando os erros de mensuração e a autocorrelação. Quando o gráfico de X está em uso, monitorando um processo, amostras de tamanho n são retiradas a cada h horas, e o valor calculado da estatística X para cada amostra é plotado no gráfico de controle. Este dispositivo estatístico pode ser visto como uma seqüência de testes de hipóteses, onde, a cada h horas, testamos sempre as mesmas hipóteses: H 0 : Processo em controle H1 : Processo fora de controle Outras maneiras de descrever as hipóteses H 0 e H1 são: H 0 : Processo ajustado H1 : Processo desajustado 5 João Pessoa, 2 a 5 de Setembro 2008 ou H 0 : Processo centrado no valor-alvo H1 : Processo não centrado no valor-alvo ou H 0 : Processo livre de causas especiais H1 : Processo sob a influência de causas especiais ou, ainda, H 0 : µ = µ0 H1 : µ ≠ µ 0 onde µ0 é o valor-alvo ou o valor médio em controle da variável aleatória X. A hipótese H 0 é aceita como verdadeira todas as vezes que o valor de X cair dentro dos limites de controle. Já a hipótese H1 é aceita como verdadeira sempre que o valor de X cair fora dos limites de controle. Se o processo estiver em controle ( H 0 verdadeira), α representa o risco (probabilidade) de erroneamente se considerar o processo fora de controle (“alarme falso”). Se o processo estiver fora de controle ( H1 verdadeira), β representa o risco (probabilidade) de erroneamente se considerar o processo em controle (“não-detecção”). A conseqüência de ordem prática associada ao erro do tipo I (alarme falso) é intervir no processo na hora errada, quando o mesmo está isento de causas especiais (o que em si já acarreta um custo — de interrupção do processo, de mão de obra — além de um risco de desajustar um processo que estava ajustado); e a conseqüência de ordem prática associada ao erro do tipo II (não detecção) é não intervir no processo na hora certa, quanto o mesmo está sob a influência de causas especiais. 6 João Pessoa, 2 a 5 de Setembro 2008 Dado que o processo é considerado em controle (“ H 0 verdadeira”) quando X cai dentro dos limites do gráfico e fora de controle (“ H 0 falsa”) quando X está fora dos limites do gráfico, as probabilidades de alarme falso ( α ) e de não-detecção ( β ) são dadas por: α = Pr[ X > LSC X ou X < LIC X µ = µ 0 ] β = Pr[ LIC X < X < LSC X µ ≠ µ 0 ] onde LIC X e LSC X são respectivamente os limites inferior e superior de controle do gráfico de controle. O poder do gráfico de controle, Pd, é definido como sendo a probabilidade de detecção (Pd=1-β ). Assume-se que as causas especiais não alteram o desvio padrão σ da variável aleatória X. 1.1 - Alarme Falso no Gráfico de X Quando a hipótese H 0 é a hipótese verdadeira (processo isento de causas especiais) o ideal é que todos os pontos X caiam dentro dos limites de controle do gráfico. Contudo, por tratar-se de um teste estatístico, existe o risco α de um deles cair fora dos limites. Quando isto acontece, tem-se alarme falso: um sinal indevido de que o processo está sob a influência de alguma causa especial, portanto demandando ajustes. Devido a esse sinal, interfere-se no processo na hora errada, ou seja, quando o mesmo se encontra no mais perfeito estado de controle (com a distribuição da característica de qualidade X estável e ajustada no alvo, µ = µ 0 ). A Figura 1 retrata a ocorrência de um alarme falso. Nessa figura, a hipótese H 0 é verdadeira, pois a média µ X da variável aleatória X é igual ao valor-alvo µ 0 . Para se calcular o risco α — probabilidade de alarme falso — é necessário conhecer a distribuição da variável aleatória X . Na verdade, graças ao Teorema do Limite Central, para 7 João Pessoa, 2 a 5 de Setembro 2008 uma grande variedade de distribuições de X, a distribuição de X tenderá, com boa precisão, a uma distribuição normal, mesmo para amostras pequenas. Definindo a variável aleatória Z como: Z= X − µX σX esta terá distribuição normal com média µ Z = 0 e desvio padrão σ Z = 1 . Quando o processo está em controle, µ X = µ 0 e σ X = σ . n X ~ N ( µ X ;σ X ) ~ N ( µ 0 ;σ / n ) Alarme falso LSC = µ0 + 3σ / n LM = µ 0 LIC = µ0 − 3σ / n 15 30 45 60 75 90 105 Minutos Figura 1: Gráfico de X – ocorrência de um alarme falso (Extraída da Figura 3.7 do livro de Costa, Epprecht e Carpinetti, 2005) 8 João Pessoa, 2 a 5 de Setembro 2008 Tradicionalmente, os limites de controle do gráfico de X são estabelecidos — usando os valores em controle dos parâmetros do processo, µ0 e σ — a ± 3 desvios padrão amostrais da linha média (LM= µ0 ), ou seja, em µ0 ± 3 σ ; ver Figura 1. Se o processo estiver em n controle, a probabilidade de um ponto X cair fora dos limites de controle assim localizados é igual a α = Pr[ X > LSC X ] + Pr[ X < LIC X ] = LSC X − µ X = Pr Z > σX LIC X − µ X + Pr Z < σX Substituindo LSC X por µ 0 + 3σ X , LIC X por µ 0 − 3σ X , e (já que está supondo o processo em controle) µ X por µ 0 e σ X por σ X = σ , chega-se, após simplificações n imediatas, a α = Pr[| Z |> 3] Para z=3, o risco α é igual a 0,0027. Então, durante o período em que o processo permanece estável e ajustado, portanto sob controle, essa é a probabilidade de o valor de X cair na região de ação do gráfico (acima do LSC X ou então, abaixo do LIC X ); ou seja, é a probabilidade que cada amostra tem de gerar um alarme falso. A distribuição do número de amostras, L, que antecedem um alarme falso (incluindo a amostra que gera o alarme falso) segue uma distribuição geométrica de parâmetro p=α cuja função de probabilidade é dada por Pr[ L = d ] = p (1 − p ) d −1 , d=1, 2, 3,… 9 João Pessoa, 2 a 5 de Setembro 2008 Por exemplo, na Figura 1 temos L=7. A média da distribuição geométrica é igual a 1/p, portanto o número médio de amostras (NMA) até um alarme falso é igual a 1 / α . Em outras palavras, com limites de 3 desvios padrão, tem em média um alarme falso a cada (1/0,0027) = 370,4 pontos plotados. Caso o usuário considere esta freqüência de alarmes falsos inaceitável, uma alternativa consiste em alargar os limites de controle, por exemplo, aumentar k de 3,00 para 3,10 (k é o fator de abertura dos limites de controle, ou seja, LIC = µ0 − k LSC = µ0 + k σ σ e n ). Com k=3,10, o risco de alarme falso diminui para 0,0019 e o NMA aumenta n para 516,7. O risco α é função apenas do fator de abertura dos limites de controle, k. α = Pr[ Z > k ] 1.2 Poder do Gráfico de X Quando a hipótese H1 é a hipótese verdadeira (processo sob a influência de causas especiais), o ideal seria que o primeiro ponto plotado já caísse fora dos limites de controle (sinalizando o estado de falta de controle). Contudo, isto nem sempre ocorre, em especial se o deslocamento sofrido pela média do processo for pequeno. É usual expressar este deslocamento em unidades iguais ao desvio padrão da variável X, de forma que o novo valor da média, µ1, pode ser escrito como µ1 = µ 0 + δσ , portanto δ= µ1 − µ 0 . σ De um modo geral, se δ ≥ 1,5 , então rapidamente um valor de X cairá fora dos limites de controle. Caso contrário, existirá uma certa inércia. Por exemplo, na Figura 2, o sinal só 10 João Pessoa, 2 a 5 de Setembro 2008 ocorre quando o 5º valor de X é plotado. Nessa figura, a hipótese H1 é verdadeira porque a média µ X da variável X é diferente de µ 0 ; na verdade, ela é igual a µ 0 + δσ . A probabilidade de um valor de X cair acima do Limite Superior de Controle é dada por: Pr[ X > LSC ] = Pr[ Z > Z LSC ] , onde Z LSC = ( LSC − µ X ) σX = [ µ0 + kσ X − ( µ0 + δσ )] σX = k − δ n , e a probabilidade de um valor de X cair abaixo do Limite Inferior de Controle (LIC) é dada por: Pr[ X < LIC ] = Pr[ Z < Z LIC ] , onde Z LIC = ( LIC − µ X ) σX = [ µ0 − kσ X − ( µ0 + δσ )] σX = − k − δ n . Como Pr[Z>z]=Pr[Z<-z], (e portanto Pr[Z>LSC]=Pr[Z<-LSC]), tem-se Pd = Pr[Z < −k + δ n ] + Pr[Z < −k − δ n ] . A distribuição do número de amostras, M, que antecede um alarme verdadeiro (incluindo a amostra que gerou o sinal, ou seja, a amostra cujo valor X não pertence ao intervalo delimitado pelos limites de controle) segue uma distribuição geométrica de parâmetro p=(Pd), cuja função de probabilidade é dada por Pr[ M = m] = p (1 − p ) m −1 , m=1, 2, 3,… 11 João Pessoa, 2 a 5 de Setembro 2008 X ~ N( µ X ;σ X ) ~ N( µ0 + δσ ;σ / n ) Alarme verdadeiro LSC = µ0 + 3σ / n µ = µ0 + δσ δσ LM = µ0 LIC = µ0 − 3σ / n 15 30 45 60 75 90 Minutos Figura 2: Gráfico de X – ocorrência de um alarme verdadeiro (Extraída da Figura 3.10 do livro de Costa, Epprecht e Carpinetti, 2005) Por exemplo, na Figura 2, temos M=5. A média da distribuição geométrica de parâmetro p é igual a 1/p, portanto o número médio de amostras (NMA) que antecedem um alarme verdadeiro é igual a 1/(Pd). Referência COSTA, A.F.B.; EPPRECHT E.K.; CARPINETTI, L.C.R. Controle Estatístico de Qualidade. 2. ed. São Paulo: Editora Atlas, 2005. 334 p. 12 João Pessoa, 2 a 5 de Setembro 2008 Seção DOIS Erro de mensuração e dados autocorrelacionados 2 . Introdução Os gráficos de controle foram introduzidos por Shewhart que, em um primeiro momento, supôs um sistema de medição isento de erros e uma variável de monitoramento gerando observações independentes. Nesta seção, os efeitos do erro de mensuração e/ou da autocorrelação no desempenho do gráfico de controle serão investigados. 2.1 Erro de Mensuração É importante salientar que estudos de Repetibilidade e Reprodutibilidade devem anteceder até mesmo as investigações preliminares do comportamento da variável de monitoramento X. Nesta seção, alguns comentários sobre o efeito do erro de mensuração no desempenho do gráfico de controle serão feitos. Para tanto, considere uma amostra de tamanho n em que cada item é medido m vezes formando o seguinte conjunto de observações: X1 + e11 X2 + e21 ... Xn + en1 X1 + e12 X2 + e22 ... Xn + en2 ... ... X1 + e1m X2 + e2m ... ... Xn + enm 13 João Pessoa, 2 a 5 de Setembro 2008 Devido ao erro de medição, o valor exato, X i , da característica de qualidade é acompanhado de um erro eij . Deste modo, a característica de qualidade de um mesmo item pode ter m diferentes valores: X i + ei1 , X i + ei 2 ,.., X i + eim . A média amostral é dada por m n X = m( X 1 + X 2 + ...X n ) + ∑ ∑ eij j =1i =1 nm Sejam σ o desvio padrão do processo e σm o desvio padrão do erro de mensuração. Se as observações de X não forem autocorrelacionadas e os erros de mensuração eij forem independentes de X, então: σ (X ) = σ2 + σ m2 m n Neste caso, os limites de controle do gráfico da média são dados por LC = µ 0 ± k 1 σ 2 + σ m2 / m n Para X ~ N( µ ; σ ) e e ~ N(0; σ m ) o poder de detecção é dado por: Pd = Φ (− k − Cδ n ) + Φ (− k + Cδ n ) onde C = m m + (σ m / σ ) 2 = m m + C12 e Φ (.) denota a função acumulada de distribuição normal padrão. 14 João Pessoa, 2 a 5 de Setembro 2008 A constante C assume valores entre 0 e 1. Quando C =1, não se tem erro de mensuração. O gráfico de controle perde poder de detecção à medida que C diminui. Na Tabela 1, estão valores de C para m= 1 e 4 e C1 = σm = 0; 0,1; 0,3; 0,5 e 1,0. Quando m=1, cada σ item é medido uma única vez, e quando C1 = 0, não existe erro de mensuração. Tabela 1. Valores de C C C1 m=1 m=4 0 1 1 0,1 0,9950 0,9988 0,3 0,9578 0,9889 0,5 0,8944 0,9701 1,0 0,7071 0,8944 O erro de mensuração pode ser minimizado pela repetição da medida de um mesmo item (m>1). Por exemplo, quando o erro de mensuração corresponde a 30% da variabilidade do processo ( σm =0,3), tem-se para m=1 um valor de C =0,9578 e para m=4 um valor de σ C =0,9889, isto é, medindo um mesmo item quatro vezes o valor de C fica mais próximo da unidade, que é quando o erro de mensuração deixa de existir. O gráfico da Figura 3 ilustra o efeito do erro de mensuração no desempenho do gráfico da média. Por exemplo, quando a causa especial desloca a média de um desvio padrão, sem o erro de mensuração o NMA= 6,3; já supondo que a variabilidade do instrumento de medida seja da mesma ordem da variabilidade do processo ( σm =1,0), o NMA aumenta assustadoramente, σ NMA=17,7. Este aumento é minimizado quando o mesmo item é medido várias vezes. De acordo com a Figura 4, se um mesmo item é medido quatro vezes (m=4), o NMA se reduz de 17,7 para 8,9. 15 João Pessoa, 2 a 5 de Setembro 2008 Nos estudos de Repetibilidade e Reprodutibilidade, um instrumento de medida é considerado apropriado quando a sua variabilidade não exceder de 30% da variabilidade do processo ( C1 <0,3). Nestes casos, o efeito do erro de mensuração no desempenho do gráfico é pequeno (isto é percebido nas Figuras 3 e 4, pela proximidade das linhas correspondentes a C 1 =0 e C 1 =0,3). 100 C1=0 C1=0,3 C1=1,0 NMA Escala logarítmica 10 1 0,5 0,75 1 1,25 1,5 1,75 2 δ Figura 3. Efeito do erro de mensuração no NMA, m=1, n=4. 16 João Pessoa, 2 a 5 de Setembro 2008 100 C1=0 C1=0,3 C1=1,0 NMA Escala logarítmica 10 1 0,5 0,75 1 1,25 δ 1,5 1,75 2 Figura 4. Efeito do erro de mensuração no NMA, m=4, n=4. 2.2 Dados Auto correlacionados Para se utilizar um gráfico de controle convencional (de Shewhart) é necessário que as observações da característica de qualidade de interesse sejam independentes e normalmente distribuídas. Satisfeitas estas condições, então é possível fazer uso destes dispositivos estatísticos para tomar decisões sobre o estado do processo: se em controle ou se fora de controle. Se a hipótese de normalidade for ligeira ou moderadamente violada, ainda assim os gráficos convencionais funcionam razoavelmente bem; entretanto, quando os valores da característica de qualidade possuem alguma interdependência, ou autocorrelação, mesmo que 17 João Pessoa, 2 a 5 de Setembro 2008 em grau relativamente pequeno, o risco α — probabilidade de uma observação cair fora dos limites do gráfico, com o processo em controle — aumenta, e compromete a credibilidade deste dispositivo pela ocorrência de um número elevado de alarmes falsos. De fato, Shewhart, ao criar os gráficos de controle, estava destinando-os à indústria de partes discretas, com quase ou nenhum grau de automação. Em tais processos, a condição de independência das observações geralmente era satisfeita. Hoje em dia, porém, processos contínuos e por batelada são extremamente freqüentes, principalmente (embora não exclusivamente) na indústria química e na indústria metalúrgica. Tais processos raramente produzem observações independentes, de modo que não podem ser monitorados pelos gráficos de controle convencionais. Esse problema não se restringe a processos contínuos e por batelada: processos discretos altamente automatizados, freqüentes hoje em dia, também costumam produzir dados autocorrelacionados. É, portanto importante antes de iniciar o monitoramento de um processo, identificar se ele produz observações independentes ou se é autocorrelacionado, pois um gráfico de controle inadequado, que produza alarmes falsos em excesso, acabará sendo descartado, ou pior, mantido apenas para cumprir alguma exigência formal; os alarmes são simplesmente ignorados pelo pessoal envolvido com o processo. O exemplo a seguir foi extraído do livro de Costa, Epprecht e Carpinetti (2005). A coluna “Xi” da Tabela 2 registra os valores de 150 medições sucessivas (espaçadas de 3 minutos) da temperatura de um banho químico, cujo valor-alvo é 225°C. A primeira medida foi efetuada às 8:00h, a segunda, às 8:03h, e assim por diante. Para melhor visualização, a Figura 5 apresenta o gráfico da temperatura do banho químico em função do tempo. As demais colunas da Tabela 2 foram construídas deslocando as observações da 1o coluna: o 1º elemento da 2ª coluna é o 2º elemento da 1ª coluna, o 1º elemento da 3ª coluna é o 2º elemento da 2ª coluna, que por sua vez é o 3º elemento da 1ª coluna, e assim por diante. 18 João Pessoa, 2 a 5 de Setembro 2008 Tabela 2. Série de Medidas da Temperatura de um Banho Químico. i 1 2 3 4 5 6 7 ... 141 142 143 144 145 146 147 148 149 150 xi 237,59 234,40 233,66 237,42 232,54 233,70 235,20 ... 233,25 229,59 228,78 226,59 226,19 225,98 225,12 229,09 229,95 223,64 xi+1 234,40 233,66 237,42 232,54 233,70 235,20 232,36 ... 229,59 228,78 226,59 226,19 225,98 225,12 229,09 229,95 223,64 xi+2 233,66 237,42 232,54 233,70 235,20 232,36 229,21 ... 228,78 226,59 226,19 225,98 225,12 229,09 229,95 223,64 xi+3 237,42 232,54 233,70 235,20 232,36 229,21 231,97 ... 226,59 226,19 225,98 225,12 229,09 229,95 223,64 xi+4 232,54 233,70 235,20 232,36 229,21 231,97 227,02 ... 226,19 225,98 225,12 229,09 229,95 223,64 xi+5 233,70 235,20 232,36 229,21 231,97 227,02 229,42 ... 225,98 225,12 229,09 229,95 223,64 xi+6 235,20 232,36 229,21 231,97 227,02 229,42 227,65 ... 225,12 229,09 229,95 223,64 xi+7 232,36 229,21 231,97 227,02 229,42 227,65 226,88 ... 229,09 229,95 223,64 Temperatura 250 240 230 220 210 Número da Medida 200 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 Figura 5. Série de Medidas da Temperatura do Banho Químico. A Tabela 3 apresenta os coeficientes de autocorrelação amostral rk para a defasagem k=1, 2,... Observe que existe uma correlação positiva muito alta entre os valores das colunas Xi 19 João Pessoa, 2 a 5 de Setembro 2008 e Xi+1 ( r1 = 0,893). Este nível de correlação é alto, o suficiente para comprometer o desempenho do gráfico de controle de Shewhart; uma alta autocorrelação positiva provoca freqüentes alarmes falsos. Tabela 3. Coeficientes de autocorrelação amostral k rk k rk 1 0,893 7 0,465 2 0,793 M M 3 0,714 15 0,217 4 0,638 16 0,194 5 0,588 M M 6 0,527 M M Costa, Epprecht e Carpinetti (2005) apresentam maneiras de se controlar processos quando os valores da variável de monitoramento X são autocorrelacionados. Nenhuma delas, contudo, é estabelecida com base em uma expressão matemática da forma como as observações se relacionam como, por exemplo, a que segue: X i − µ = φ ( X i −1 − µ ) + ei , i=1, 2, .. , X 0 = µ , e ei ~ N(0 ,σ e ) A expressão acima representa o modelo autoregressivo de primeira ordem AR (1). Em muitos processos industriais os valores da característica de qualidade X, medidas no tempo, se ajustam a um modelo AR (1). Nesta seção, investiga-se como é o desempenho do gráfico de controle de médias quando os valores de X não são independentes, mas descritos por um modelo AR (1). Para o modelo AR(1), a variância do processo e do erro tem a seguinte relação: σ 2 = σ e2 /(1 − φ 2 ) . Aqui, assume-se que o intervalo entre retirada de amostras é suficientemente espaçado para garantir que os valores de X de uma amostra são independentes dos valores de X da amostra anterior. Para exemplificar considere o caso em que n=3: 20 João Pessoa, 2 a 5 de Setembro 2008 X 1 = µ + e1 X 2 = µ + φ ( X 1 − µ ) + e2 X 3 = µ + φ ( X 2 − µ ) + e3 Segue que σ 2( X ) = 3 + 4φ + 2φ 2 2 σ2 σ = 9 3C 22 A Tabela 4 apresenta as expressões de nC 2−2 para n=2, 3, 4, 5, 6. A constante C2 assume valores entre 0 e 1. Para φ=0 as observações de X tornam-se independentes e C2=1. Tabela 4. Expressões de nC 2−2 n nC 2−2 2 2 + 2φ 3 3 + 4φ + 2φ 2 4 4 + 6φ + 4φ 2 + 2φ 3 5 5 + 8φ + 6φ 2 + 4φ 3 + 2φ 4 6 6 + 10φ + 8φ 2 + 6φ 3 + 4φ 4 + 2φ 5 Os limites de controle do gráfico da média são dados por LC = µ 0 ± k σ C2 n e o poder de detecção por: Pd = Φ (−k − C 2δ n ) + Φ (−k + C 2δ n ) 21 João Pessoa, 2 a 5 de Setembro 2008 O gráfico de controle perde poder de detecção à medida que C2 diminui. Na Tabela 5 estão os valores de C2 para n=4, 5 e φ=0; 0,2; 0,5; 0,7. Tabela 5. Valores de C2. φ C2 n=4 0 n=5 1 1 0,2 0,86258 0,85279 0,5 0,69631 0,67040 0,7 0,60729 0,56995 O gráfico da Figura 6 ilustra o efeito da autocorrelação no desempenho do gráfico da média. Por exemplo, quando a causa especial desloca a média de um desvio padrão e as observações são independentes, o NMA= 6,3. Supondo agora que as observações de X são descritas por um modelo autoregressivo de primeira ordem AR (1) com φ=0,5, o NMA aumenta assustadoramente, NMA=18,5. Uma maneira de se reduzir o efeito da autocorrelação no desempenho do gráfico de controle consiste em se espaçar as observações. Por exemplo, ao invés de formar a amostra com quatro itens produzidos na seqüência, selecionam-se sete itens, e forma-se a amostra com o primeiro, o terceiro, o quinto, e o sétimo itens. Suponha, por exemplo, que a cada meia hora uma amostra é extraída do processo, então o primeiro item produzido na meia hora irá fazer parte da amostra, o segundo não, o terceiro sim, o quarto não, o quinto sim, o sexto não e o sétimo sim. Esta forma de composição da amostra será denominada de composição C1. Com isto tem-se um novo valor para a autocorrelação φC1 = φ 2 . Caso sejam selecionados dez itens, e a amostra seja constituída pelo primeiro, quarto, sétimo e décimo itens, o novo valor da autocorrelação será φ C2 = φ 3 . Esta forma de composição da amostra será denominada de 22 João Pessoa, 2 a 5 de Setembro 2008 composição C2. A composição amostral C0 é a usual em que os itens da amostra são itens que foram produzidos um após o outro, na seqüência, portanto a autocorrelação é dada por φ . 100 φ= 0 φ = 0,2 φ = 0,5 φ= 0,7 NMA Escala logarítmica 10 1 0,5 0,75 1 1,25 1,5 1,75 2 δ Figura 6. Efeito da autocorrelação no NMA, n=4. O gráfico da Figura 7 ilustra a melhora no desempenho do gráfico de controle quando a composição C0 é substituída pelas composições C1 ou C2. O NMA se reduz de 18,5 para 11,0 e 8,4 respectivamente. 23 João Pessoa, 2 a 5 de Setembro 2008 100 Dados independentes, sem correlação composição C2, correlação=0,125 Composição C1, correlação=0,25 Composição C0, correlação=0,5 NMA Escala logarítmica 10 1 0,5 0,75 1 1,25 1,5 1,75 2 δ Figura 7. Efeito da composição da amostra no NMA, n=4. Artigos recentes de Costa e Claro (2008); Claro, Costa e Machado (2007) tratam do monitoramento de processos autocorrelacionados. 24 João Pessoa, 2 a 5 de Setembro 2008 2.3. Erro de mensuração com dados autocorrelacionados Para ilustrar o efeito da autocorrelação, combinado com o erro de mensuração, no desempenho do gráfico de X , considere novamente o modelo autoregressivo de primeira ordem AR(1). X i − µ = φ ( X i −1 − µ ) + ei , i=1, 2, ..; X 0 = µ , e ei ~ N(0 ,σ e ) . Neste caso, como já visto, a variância de X é dada por: σ 2 (X ) = σ2 nC 22 Na Tabela 4 estão as expressões de nC 2−2 para n=2, 3, 4, 5, 6. Com a adição do erro de mensuração a expressão da variância de X passa a ser σ 2 (X ) = com C1 = σ2 1 C2 σ 2 2 + 1 = n C 2 m nC 32 σm . Portanto σ Pd = Φ (− k − C3δ n ) + Φ (− k + C3δ n ) . A constante C3 assume valores entre 0 e 1. Quando C3=1, não se tem erro de mensuração e as observações de X são independentes. O gráfico de controle perde poder de detecção à medida que C3 diminui. Na Tabela 6 estão os valores de C3 para m=1 , n=4, φ=0,2; 0,5 e 0,7 e C1 = 0,3; 0,5 e 1,0. E o gráfico da Figura 8 ilustra o efeito no desempenho do gráfico de controle da média da autocorrelação combinada com o erro de mensuração. Por exemplo, quando a causa especial 25 João Pessoa, 2 a 5 de Setembro 2008 desloca a média de um desvio padrão, sem o erro de mensuração e observações independentes o NMA= 6,3; por outro lado quando a variabilidade do instrumento de medida é equivalente a 30% da variabilidade do processo ( C1 =0,3), o NMA para dados autocorrelacionados (φ=0,5) e sem replicações (m=1) aumenta assustadoramente, NMA=19,7. Tabela 6. Valores de C3. φ C1 0,3 0,5 1,0 0,2 0,8351 0,7921 0,6532 0,5 0,6816 0,6576 0,5714 0,7 0,5975 0,5811 0,5191 100 C1=0 C1=0,3 NMA C1=1,0 Escala logarítmica 10 1 0,5 0,75 1 1,25 δ 1,5 1,75 2 Figura 8. Efeito da autocorrelação e do erro de mensuração no NMA. (n=4, m=1 e φ=0,5) 26 João Pessoa, 2 a 5 de Setembro 2008 Referências CLARO, F. A. E.; COSTA, A.F.B.; MACHADO, M. A. G. Gráficos de controle de EWMA e X para monitoramento de processos autocorrelacionados. Produção, v. 17, p. 536-546, 2007. COSTA, A. F. B.; CLARO, F. A. E. Double sampling X control chart for a first-order autoregressive and moving average process model. The International Journal of Advanced Manufacturing Technology, in press, 2008. COSTA, A.F.B.; EPPRECHT E.K.; CARPINETTI, L.C.R. Controle Estatístico de Qualidade. 2. ed. São Paulo: Editora Atlas, 2005. 334 p. 27 João Pessoa, 2 a 5 de Setembro 2008 Seção TRÊS: Processos multivariados - Variáveis contínuas 3. Introdução Até agora foram discutidos os gráficos de controle univariados. Porém, o aumento da complexidade e dos níveis de automação dos processos industriais e a crescente disponibilidade de suporte computacional, têm aumentado o interesse pelo monitoramento simultâneo de várias características de qualidade, também chamadas de variáveis do processo. Pouco a pouco as novas estratégias de monitoramento para processos univariados estão sendo estendidas ao monitoramento de processos multivariados. Antes de discutir as estratégias de monitoramento para processos multivariados, algumas notações e definições de vetores aleatórios, matrizes de covariância e de correlação utilizados no controle estatístico de processos multivariados serão apresentados. 3.1 O vetor de médias e a matriz de covariâncias amostrais Seja X um vetor contendo p componentes, onde cada componente é uma variável aleatória, isto é, Xi é uma variável aleatória onde i = 1, 2, ..., p. Então, X é chamado de vetor aleatório e é denotado por: X1 X 2 X= M X p 28 João Pessoa, 2 a 5 de Setembro 2008 O vetor transposto de vetor aleatório X é denotado por X′ = [ X 1 X 2 X 3 ... X p ] . O vetor µ = E ( X) é chamado de vetor de médias do vetor X′ = [ X 1 X 2 X 3 ... X p ] , sendo E( X1 ) E( X ) 2 ⋅ µ = E ( X) = ⋅ = ⋅ E ( X p ) µ1 µ2 ⋅ ⋅ µ p onde µ i = E ( X i ) denota a média, ou esperança, da variável aleatória Xi, i = 1, 2, ..., p. A variância do i-ésimo componente do vetor X é denotada por Var ( X i ) = σ i2 = σ ii . O desvio-padrão é denotado por σi ou σ ii e fornece a informação sobre a dispersão dos valores das variáveis Xi em relação a µ i , isto é, indica se os valores de Xi estão próximos ou distantes da média µ i . Assim, valores grandes de σi indicam uma maior dispersão de valores de Xi em relação à média µ i . A covariância entre os valores da i-ésima e j-ésima variáveis do vetor X é definida por: Cov( X i , X j ) = σ ij = E[( X i − µ i )( X j − µ j )] A covariância serve para medir o grau de relacionamento linear entre duas variáveis aleatórias. De acordo com a expressão acima, quando os valores de Xi acima (abaixo) da média µ i tendem a estar associados aos valores de Xj acima (abaixo) da média µ j , a covariância σ ij tende a ser positiva. Portanto, à medida que a variável Xi cresce (decresce) numericamente, a variável Xj também cresce (decresce) linearmente. Quando os valores de Xi acima da média µ i tendem a estar associados com valores de Xj abaixo da média µ j , ou vice-versa, a covariância σ ij tende a ser negativa. Neste caso, à medida que a variável Xi cresce (decresce) numericamente, a variável Xj decresce (cresce) linearmente. Embora a covariância tenha informação sobre o relacionamento linear entre duas variáveis, é difícil julgar se a relação é 29 João Pessoa, 2 a 5 de Setembro 2008 forte ou não, observando-se apenas os seus valores numéricos uma vez que não se tem um valor de referência mínimo ou máximo para comparação dos valores σ ij . Assim, uma medida mais útil na prática é a correlação. (Mingoti, 2005). É prática comum apresentar os valores de σ ij em uma matriz chamada matriz de covariâncias. A matriz de variâncias e covariâncias do vetor aleatório X é denotada por: Cov( X) = Σ p x p σ 11 σ 12 L σ 1 p σ 21 σ 22 L σ 2 p = . M M O M σ p1 σ p 2 L σ pp 8 A título de ilustração, a matriz Σ 2 x 2 = −2 − 2 representa a matriz de covariâncias de 5 um vetor aleatório X′ = [ X 1 X 2 ] , tal que σ 11 = σ 12 = 8; σ 22 = σ 22 = 5; σ 12 = σ 21 = -2. O coeficiente de correlação entre a i-ésima e j-ésima variáveis do vetor X é definido por: ρ ij = σ ij σ iiσ jj = σ ij σ iσ j onde − 1 ≤ ρ ij ≤ 1 , i = 1, 2, ..., p. A correlação é uma medida mais adequada para avaliar o grau de relacionamento linear entre duas variáveis quantitativas do que a covariância, pois seus valores estão sempre entre -1 e 1. Assim quanto mais próximo de 1, maior é o relacionamento linear positivo entre as variáveis Xi e Xj e quanto mais próximo de -1, maior o relacionamento linear negativo entre as variáveis. Uma correlação próxima de zero é uma indicação numérica de um não-relacionamento linear entre as variáveis em questão. Quando se têm muitas variáveis, o procedimento mais comum é apresentar os valores de ρij em uma matriz chamada de matriz de correlação. 30 João Pessoa, 2 a 5 de Setembro 2008 3.2 Gráficos de controle para o monitoramento do vetor de médias Desde que foi criado, o gráfico de controle baseado na estatística T 2 para o monitoramento de processos multivariados (Hotelling, 1947) passou a ser o dispositivo estatístico mais usual no monitoramento do vetor de médias de duas ou mais características de qualidade. O gráfico de controle T 2 é utilizado no monitoramento simultâneo de p variáveis de interesse. Quando o vetor das médias e a matriz de covariâncias, µ 0 e Σ 0 , de um processo pvariado distribuído normalmente são conhecidos, a estatística T 2 de Hotelling para a i-ésima amostra é dada por: ′ Ti 2 = n Xi − µ 0 Σ −01 Xi − µ 0 , ( ) ( ) onde n é o tamanho da i-ésima amostra e Xi é o vetor das médias amostrais dos p parâmetros para a amostra i. Quando o processo está sob controle, Ti 2 segue uma distribuição de quiquadrado com p graus de liberdade. Uma dificuldade encontrada ao se lidar com qualquer gráfico de controle multivariado é a interpretação prática de um sinal de fora de controle. Especificamente, não se sabe ao certo qual das p variáveis (ou qual subconjunto delas) é responsável pelo sinal. A prática padrão consiste em ter gráficos de X univariados para as variáveis X 1 , X 2 , X 3 ,..., X p . Durante o período fora de controle, a causa especial gera alterações de magnitude d nos parâmetros do processo, sendo d = (µ − µ 0 )′ ∑ −1 (µ − µ 0 ) , onde µ é o vetor de médias das p características de qualidade após a ocorrência da causa especial. Após a ocorrência da causa especial, Ti 2 tem distribuição de qui-quadrado não-central com parâmetro de não-centralidade λ d = nd 2 , sendo n o tamanho da amostra, isto é, Ti 2 ~ χ p2 (λd ) . 31 João Pessoa, 2 a 5 de Setembro 2008 O gráfico de Hotelling foi proposto com o intuito de se reduzir o número de gráficos de controle. Por exemplo, se cinco características de qualidade precisam ser monitoradas, há duas opções, ou utilizar cinco gráficos de controle de X , um para cada característica, ou apenas um gráfico de Hotelling. A questão que não se pode esquecer é o desempenho do gráfico ou do conjunto de gráficos de controle em sinalizar alterações no processo. A título de ilustração, na Tabela 7, são comparados os valores do NMA do gráfico de Hotelling com os valores do NMA que se obtém com o uso conjunto de dois gráficos de X (notação X s ) , para o caso bivariado. O que se observa da Tabela 7 é que quando as variáveis não são independentes e a causa especial altera a média de ambas variáveis, os dois gráficos de X , em uso conjunto, sinalizam com maior rapidez. Detalhes deste estudo estão em Machado e Costa (2008). Tabela 7. Valores de NMA para o gráfico de Hotelling e para os gráficos X s ρ 0,0 0,3 2 0,5 0,7 Xs Xs Xs Xs T T T T2 LSC 3,023 10,597 3,021 10,597 3,015 10,597 2,996 10,597 LIC -3,023 -3,021 -3,015 -2,996 - δ1 δ2 0,0 0,0 0,0 0,0 0,0 200,0 0,5 117,4 1,0 41,6 1,5 15,1 2 2 200,0 115,6 41,9 15,8 200,0 117,4 41,6 15,1 200,0 200,0 200,0 110,5 117,5 99,7 38,0 41,5 30,6 13,9 15,0 10,5 200,0 115,8 40,3 14,5 200,0 78,0 19,0 5,94 83,2 36,4 14,4 76,9 33,0 13,6 84,0 36,9 14,5 91,7 40,1 15,8 85,4 37,5 14,6 99,7 41,9 15,0 87,0 37,8 14,5 106,7 38,7 11,4 1,0 1,0 23,44 1,0 1,5 11,89 18,5 9,36 24,1 12,3 25,8 13,0 24,93 12,65 30,60 15,01 25,96 13,01 35,25 15,73 1,5 1,5 5,76 8,50 8,53 8,91 10,51 9,42 12,58 0,5 0,5 0,5 1,0 0,5 1,5 8,09 32 João Pessoa, 2 a 5 de Setembro 2008 Artigos recentes de Costa e Machado (2007 e 2008) consideram a estatística de Hotelling como a estatística de monitoramento do vetor de médias. 3.3. Gráficos de controle para o monitoramento da matriz de covariâncias Assim como é importante monitorar o vetor de médias de um processo, é também importante monitorar a sua matriz de covariâncias. O primeiro gráfico de controle utilizado no monitoramento da matriz de covariâncias Σ se baseou na estatística obtida do teste da razão de máxima verossimilhança generalizada (Alt, 1985): S + tr Σ 0−1 ⋅ S A1 = − pn + pn ln n − n ln Σ0 ( s11 s 21 onde S = M s p1 s12 s22 M sp2 ésima variável e ) L s1 p L s2 p é a matriz de covariâncias, sendo s ii a variância amostral da iL M L s pp s ij a covariância amostral entre a i-ésima e a j-ésima variáveis. S é o determinante da matriz S e tr(S) é o traço da matriz S (a soma dos elementos da diagonal). Quando o processo está sob controle, isto é Σ = Σ 0 , A1 é assintoticamente distribuído como uma qui-quadrado com p( p + 1) 2 graus de liberdade. Para o caso bivariado, Alt (1985) propôs o uso da variância amostral generalizada S para s controlar a matriz de covariâncias Σ . S = 11 s12 Quando o processo está sob controle, s12 é a matriz de covariâncias amostral. s 22 2 ⋅ (n − 1) ⋅ S Σ0 12 12 tem distribuição de qui-quadrado com 2n − 4 graus de liberdade (Alt, 1985). 33 João Pessoa, 2 a 5 de Setembro 2008 Estudos recentes têm mostrado que é possível trabalhar com estatísticas de monitoramento mais simples que a da variância amostral generalizada S . Por exemplo, a estatística VMAX que é dada simplesmente pelo maior valor das variâncias amostrais padronizadas. No caso de duas características de qualidade X 1 e X 2 , VMAX= max{S12 , S 22 } n onde S12 = 2 ∑ x1 j j =1 n n e S 22 = 2 ∑ x2 j j =1 n , x1 j = (X 1j − µ1 ) σ1 e x2 j = (X 2j − µ2 ) σ2 . σ 12 σ , sendo Com o processo em controle, a matriz de covariâncias é dada por Σ 0 = 11 σ 21 σ 22 σ 11 e σ 22 as variâncias de X 1 e X 2 e σ 12 = σ 21 , as covariâncias entre X 1 e X 2 , sendo ρ = σ 12 a correlação entre X 1 e X 2 . Existem duas maneiras de uma causa especial alterar a σ 1σ 2 a1 ⋅ a1 ⋅ σ 11 matriz de covariâncias, resultando na matriz Σ 1 = a ⋅ a ⋅ σ 2 21 1 a1 ⋅ a 2 ⋅ σ 12 . A primeira a 2 ⋅ a 2 ⋅ σ 22 possibilidade (caso I) supõe que a causa especial afeta somente a variância da variável aleatória X 1 , isto é, a1 = γ e a 2 = 1 , ou somente a variância da variável aleatória X 2 , neste caso a 2 = γ e a1 = 1 . A segunda possibilidade (caso II) supõe que a causa especial altera tanto a variância de X 1 quanto a de X 2 , isto é, a1 = a 2 = perturbação. Em ambos os casos, a correlação ρ = γ , sendo γ >1 a magnitude da σ 12 entre X 1 e X 2 não é afetada pela σ 1σ 2 causa especial. Se σ 1 = σ 2 = 1 , então ρ = σ 12 = σ 21 . Quando o gráfico de VMAX está em uso, amostras de tamanho n são retiradas do processo em intervalos de tempo regulares. As duas características de qualidade X 1 e X 2 das n unidades da amostra são medidas e a estatística VMAX é calculada. Se a estatística VMAX for maior do que o limite de controle LC , o gráfico sinaliza um desajuste do processo. Após a ocorrência do sinal, o usuário pode imediatamente examinar as variâncias amostrais de X 1 e 34 João Pessoa, 2 a 5 de Setembro 2008 X 2 para descobrir quais variáveis foram afetadas pela causa especial, ou seja, aquelas cujas variâncias amostrais são maiores que LC. O limite de controle LC do gráfico de VMAX pode ser obtido pela expressão (a seguir) do poder do gráfico de VMAX, bastando fazer a1 = a 2 = 1 e pd = α . pd = 1 − ∫ nLC a12 nLC Pr χ 2 < n , tρ 2 1 − ρ 2 a 2 1 − ρ 2 2 ( 0 1 e − t 2 t (n 2 )−1dt 2 n 2 Γ(n 2) ) A Figura 9 apresenta o gráfico de VMAX. VMAX LC 1 2 3 4 5 6 7 8 9 10 11 12 13 Número da amostra (i) Figura 9. Gráfico de controle de VMAX. A título de ilustração, na Tabela 8 comparam-se os valores do NMA dos gráficos de VMAX e de S para o caso em que ρ =0,5. O que se pode concluir desta tabela é que o gráfico de VMAX é sempre mais ágil na sinalização da causa especial. Este resultado se mantém para outros valores de ρ . 35 João Pessoa, 2 a 5 de Setembro 2008 Tabela 8. Valores do NMA dos gráficos de VMAX e de S (p=2, ρ =0,5) n 4 |S| γ2 LC 6,134 1,0 1,1 1,2 1,3 1,4 1,5 2,0 3,0 5,0 200,0 146,8 112,5 89,1 73,3 60,4 30,2 13,6 6,37 5 VMAX caso I caso II 4,094 4,094 5,375 VMAX caso I caso II 3,668 3,668 200,0 136,6 92,4 63,9 45,7 33,9 11,6 4,09 1,95 200,0 141,4 104,6 80,5 64,1 51,9 24,1 10,2 4,58 200,0 132,5 86,8 58,3 40,7 29,6 9,62 3,38 1,67 200,0 143,0 107,0 82,9 66,1 54,1 25,4 10,7 4,77 |S| 200,0 139,7 102,4 78,0 61,4 49,6 22,3 9,09 3,98 Artigos recentes de Costa e Machado (2008a e 2008b), Machado e Costa (2008a) e Machado, De Magalhães e Costa (2008) consideram a estatística de VMAX como a estatística de monitoramento da matriz de covariâncias. Referências ALT, F. B. Multivariate control charts. Encyclopedia of Statistical Sciences. Kotz, S., Johnson, N. L., Eds.; Wiley, 1985. HOTELLING, H. Multivariate quality control, illustrated by the air testing of sample bombsights. Techniques of Statistical Analysis, p. 111-184, New York, McGraw Hill, 1947. COSTA, A. F. B.; MACHADO, M. A. G. Synthetic control chart with two-stage sampling for monitoring bivariate processes. Pesquisa Operacional, v. 27, p. 117-130 , 2007. 36 João Pessoa, 2 a 5 de Setembro 2008 COSTA, A. F. B.; MACHADO, M. A. G. Bivariate control charts with double sampling. Journal of Applied Statistics, aceito, 2008. COSTA, A. F. B.; MACHADO, M. A. G. A new chart for monitoring the covariance matrix of bivariate processes. Communications in Statistics – Simulation and Computation, aceito, 2008a. COSTA, A. F. B.; MACHADO, M. A. G. A new chart based on the sample variances for monitoring the covariance matrix of multivariate processes. International Journal of Advanced Manufacturing Technology, aceito, 2008b. MACHADO, M. A. G; COSTA, A. F. B. The use of principal components and simultaneous univariate charts to control multivariate processes. Pesquisa Operacional, v. 28, p. 173-196, 2008. MACHADO, M. A. G; COSTA, A. F. B. The double sampling and the EWMA charts based on the sample variances. International Journal of Production Economics, v. 114, p. 134-148, 2008a. MACHADO, M. A. G.; De MAGALHÃES, M.S; COSTA, A. F. B. Gráfico de controle de VMAX para o monitoramento da matriz de covariâncias, Revista Produção, v. 18, p. 222-239, 2008. MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada. 1. ed. Belo Horizonte: Editora UFMG, 2005. 297 p. 37 João Pessoa, 2 a 5 de Setembro 2008 Seção QUATRO Processos multivariados-Variáveis discretas 4 - Introdução Na seção 3 foram apresentados alguns gráficos de controle considerando processos multivariados cujas variáveis de processos eram variáveis contínuas. Dando prosseguimento aos processos multivariados, nesta seção serão abordados gráficos de controle para o caso de variáveis discretas (será considerado apenas o caso bivariado). Monitorar o número de defeitos ou o de não conformidades ao invés da fração de não conformidade é preferível em muitos processos de produção como os de placas de circuito impresso, de tecido ou papel. Neste caso, geralmente assume-se que o número de defeitos obedece a uma distribuição Poisson e em controle de qualidade os gráficos de controles c ou u têm sido usados para fim. Para assegurar a qualidade dos produtos, em muitas situações práticas mais de um tipo de defeito é monitorado na mesma unidade inspecionada. Por exemplo, dois tipos de defeitos podem ser observados na mesma placa de circuito impresso se o processo de solda não estiver bem calibrado: defeitos por excesso de solda e defeitos de superfície. É comum sugerir que sejam utilizados dois gráficos de controle (gráficos de controle c ou u), um para cada tipo de controle. Esta pode ser uma boa solução para eventos independentes, contudo, se os defeitos forem positivamente correlacionados (conforme o número de defeitos por excesso de solda aumenta, o mesmo pode ser observado no número de defeitos de superfície também), dois gráficos de controle (separados) podem não levar em consideração esta possibilidade. Portanto, o processo descrito é um caso de controle multivariado de processo. E esta é uma das seções do controle estatístico de processo que tem apresentado um 38 João Pessoa, 2 a 5 de Setembro 2008 dos mais rápidos desenvolvimentos. No entanto a maioria dos trabalhos é voltada para variáveis contínuas (e normalmente distribuídas). Poucas contribuições relativas ao controle de qualidade para variáveis discretas como as distribuições binomial e Poisson multivariadas podem ser encontradas na literatura. Patel (1973) apresentou um esquema para monitorar processos binomiais e Poisson multivariados como uma extensão da proposta do Hotelling e recentemente Skinner, Montgomery & Runger (2003) consideraram um modelo linear generalizado para monitorar dados de contagens multivariadas. Portanto existe uma carência de gráficos de controle para este tipo de distribuições multivariadas. Antes de discutir as estratégias de monitoramento para este tipo de processo, a distribuição de Poisson bivariada e suas propriedades serão apresentadas. 4.1 – Distribuição Poisson bivariada – uma breve revisão A distribuição Poisson bivariada foi primeiramente apresentada por Holgate (1964) como uma soma de três variáveis aleatórias independentes com distribuição Poisson. Sejam Y1, Y2 e Y3 variáveis aleatórias independentes de parâmetros (a-d); (b-d) e d respectivamente. Deste modo o vetor X 1 = Y1 + Y3 ; X 2 = Y2 + Y3 ; segue uma distribuição bivariada Poisson cuja função de probabilidade é dada por min( x1 , x2 ) P( X1 = x1, X 2 = x2 ) = exp[−(λ1 + λ2 + λ3 )] ∑ i =0 λ1x1 −i λ2x2 −i λ3i (1) ( x1 − i )!( x2 − i )!i ! onde λ1 = a − d ; λ2 = b − d e λ3 = d . Manipulando a expressão (1), ela pode ser escrita como P( X1 = x1, X 2 = x2 ) = exp[−(λ1 + λ2 + λ3 )] λ1x1 λ2x2 min( x1 , x2 ) x1 ! x2 ! i =0 ∑ i x1 x2 λ3 i ! i i (λ1λ2 (2) As expressões de recorrência em (3) 39 João Pessoa, 2 a 5 de Setembro 2008 x1P ( x1 , x2 ) = λ1P( x1 − 1, x2 ) + λ3 P( x1 − 1, x2 − 1) x2 P( x1, x2 ) = λ2 P( x1, x2 − 1) + λ3 P ( x1 − 1, x2 − 1) (3) facilitam o cálculo dos valores das probabilidades em (2). Alguns parâmetros importantes como média, variância, covariância e correlação estão dadas em (4) E ( X1 ) = Var ( X1 ) = λ1 + λ3 E ( X 2 ) = Var ( X 2 ) = λ2 + λ3 (4) Cov( X1 , X 2 ) = λ3 0 ≤ Corr ( X1 , X 2 ) = λ3 (λ1 + λ3 )(λ2 + λ3 ) ≤ λ3[λ3 + min(λ1 , λ2 )]−0.5 Note que a correlação assume somente valores positivos. A distribuição de probabilidade condicional de X1|X2 é expressa como P( X1 = x1 | X 2 = x2 ) = exp(−λ1 ) min( x1 , x2 ) ∑ i =0 i x2 λ3 λ2 i ! i λ3 + λ2 λ3 + λ2 x2 −i λ1x1 −i ( x1 − i )! (5) Pode-se notar que a expressão (5) é uma convolução de duas variáveis independentes: λ3 uma variável Poisson com parâmetro λ1 e uma binomial de parâmetros x2 , . A média e λ3 + λ2 a variância da distribuição condicional são respectivamente E ( X1 | X 2 ) = λ1 + λ3 x λ3 + λ2 2 λ3λ2 Var ( X1 | X 2 ) = λ1 + Se λ3 + λ2 → ∞ , λ3 + λ1 → ∞ ,e λ3 (λ3 + λ2 ) 2 (λ1 + λ3 )(λ2 + λ3 ) x2 → ρ , então 40 João Pessoa, 2 a 5 de Setembro 2008 ( Z1, Z 2 ) = X1 − (λ1 + λ3 ) X 2 − (λ2 + λ3 ) , (λ1 + λ3 ) (λ2 + λ3 ) Z12 − 2 ρ Z1Z 2 + Z 22 ) ( segue uma distribuição normal bivariada padrão e assintoticamente é uma 1− ρ2 variável aleatória com uma distribuição qui-quadrado com dois graus de liberdade. De acordo com Rayner & Best (1995), esta aproximação não fornece bons resultados no caso de alta correlação. Outros modelos de contagem Poisson bivariada usando probabilidades condicionais foram introduzidos por Berkhout & Plug (2004). Os parâmetros da distribuição Poisson bivariada podem ser estimados por diferentes métodos como os mais conhecidos: Métodos dos Momentos e da Máxima Verossimilhança. Alguns métodos foram especificamente desenvolvidos para estimar o parâmetro da covariância como o Método do double-zero proportion e even point (maiores detalhes ver, Kocherlakota & Kocherlakota (1992)). O uso do algoritmo EM para estimação de máxima verossimilhança dos parâmetros da distribuição Poisson multivariada está descrito em Karlis (2003). E recentemente Karlis & Ntzoufras (2005) incluíram uma função denominada bivpois no pacote estatístico R para estimar os parâmetros de modelos de regressão Poisson bivariada pelo método da máxima verossimilhança. Para maiores detalhes sobre distribuição Poisson bivariada ver Johnson; Kotz & Balakrishnan (1997); Kocherlakota & Kocherlakota (1992). Outras distribuições interessantes podem ser derivadas a partir da distribuição Poisson bivariada. Por exemplo: a distribuição de DF=X1-X2, a distribuição de SM=X1+X2 e a distribuição de MX=Max(X1, X2). A função de probabilidade de DF=X1-X2 pode ser obtida calculando ∞ ∞ j =0 j= y P( DF = y ) = ∑ P( X 1 = j , X 2 = j − y ) = e − ( λ1 + λ2 ) ∑ λ2j − y λ1j j !( j − y )! (6) Note que (6) não depende do parâmetro da covariância. Média e variância são respectivamente 41 João Pessoa, 2 a 5 de Setembro 2008 E ( DF ) = λ1 − λ2 Var ( DF ) = λ1 + λ2 A função de distribuição de SM=X1+X2 é dada por y (7) P( SM = y ) = ∑ P( X 1 = j , X 2 = y − j ) j =0 y = ∑ exp[−(λ1 + λ2 + λ3 )] j =0 λ λ2( y − j ) j 1 j ! ( y − j )! min( j , y − j ) ∑ i =0 j y − i i i j λ3 . i ! (λ1λ2 Sua média e variância são respectivamente E ( SM ) = λ1 + λ2 + 2λ3 Var ( SM ) = λ1 + λ2 + 4λ3 E a função da distribuição de MX=Max(X1,X2) é igual a y −1 (8) P( MX = y ) = P( X 1 = y, X 2 = y ) + ∑ P( X 1 = j , X 2 = y ) + P( X 1 = y, X 2 = j ) = j =0 i e[−(λ1 + λ2 + λ3 )] y −1 λ1j λ2y + λ1y λ2j j j y λ3 (λ1 λ2 ) y = ∑ + ∑ i ! y! j! y! i =0 i i λ1λ2 j =0 2 y λ3 ∑ i ! i =0 i λ1λ2 y i As expressões de E(MX) e Var(MX) são um tanto complicadas e foram deixadas no Apêndice. Para qualquer uma das três variáveis aleatórias derivadas da distribuição Poisson bivariada, valem os seguintes resultados E (Y ) = f (λ1 , λ2 , λ3 ) (9) Var (Y ) = g (λ1 , λ2 , λ3 ) Y=MX, SM ou DF. Assim as estimativas de (9) são disponíveis substituindo os parâmetros pelas suas estimativas (como os estimadores de máxima verossimilhança, por exemplo) 42 João Pessoa, 2 a 5 de Setembro 2008 Eˆ (Y ) = f (λˆ1 , λˆ2 , λˆ3 ) ˆ (Y ) = g (λˆ1 , λˆ2 , λˆ3 ) Var (10) Var (Y ) E assintoticamente Y ~ N E (Y ); , n é o tamanho da amostra. n 4.2 – Gráficos de controle para observações individuais de um processo de Poisson bivariado Nesta seção, os gráficos de controle para observações individuais de um processo de Poisson bivariado serão introduzidos. Especificamente gráficos de controle baseados nas simples estatísticas descritivas: SM = X 1 + X 2 ; MX = max( X 1 , X 2 ); DF = X 1 − X 2 ; e dois gráficos (separados) de controle (um para X1 e o outro para X2 – que doravante serão referidos como 2C) serão considerados. Fixado um nível do erro tipo I (α), os limites dos gráficos de controle foram determinados tal que P (C < c) = α ou P(c L <C < c ) =α U onde C é uma estatística monitorada (no caso: SM, MX, DF ou X1 e X2), c é o limite de controle para gráficos de controle unilaterais (especificamente para os gráficos de controle SM; MX; X1 e X2) e cL e cU são respectivamente os limites de controle inferior e superior para o gráfico de controle bilateral (no caso DF). Tabela 1 apresenta para doze combinações de valores dos parâmetros λ1, λ2 e λ3, as médias (sob controle) de X1 e X2, a respectiva correlação e os limites de controle para os gráficos SM, MX, DF e 2C (para um fixado valor do erro tipo I < 0.0027). Devido à natureza da 43 João Pessoa, 2 a 5 de Setembro 2008 variável em questão (variáveis discretas), os limites de controle foram ajustados ou determinados de modo a ter NMA o mais próximo possível do nível escolhido ( (0.0027) −1 ≈ 370.4 ) para poder comparar os desempenhos dos diferentes gráficos de controle. Para exemplificar considere o caso 1 (λ1= λ2= λ3=1). Se utilizasse estatística SM, um sinal de que o processo está fora de controle será dado se X1+X2 > 12; caso fosse utilizado MX, um sinal seria se Max (X1, X2) > 7 e caso empregasse DF, um sinal seria com (X1-X2) <-5 ou ( X1-X2) > 4. E caso utilizasse dois gráficos separados, um sinal seria dado se X1> 7 e/ou X2>7. Na Tabela 1, os casos simétricos isto é, quando E(X1) = E(X2) estão marcados com “s” e os assimétricos por “a”. Limite de controle que forneceu o maior valor NMA0 está em negrito. Os primeiros oito casos seguem o planejamento de um experimento fatorial; os quatros últimos casos foram incluídos para analisar casos quando |E(X1)-E(X2)| > 1. Um total de sessenta e quatro mudanças nos diversos parâmetros (dada pelas combinações de kλ1; kλ2, kλ3; com k=1,…, 4 ) foi considerado para comparar os desempenhos dos gráficos de controle. Tabela 1 – Descrição dos parâmetros e limites de controle 44 João Pessoa, 2 a 5 de Setembro 2008 Os valores de NMA´s dos gráficos de controle SM, MX, DF e 2C cujos parâmetros são λ1=λ2=λ3=1 e (λ1=λ3=1 e λ2=2) quando o processo está sob controle estão respectivamente, nas Tabelas 2 e 3. O primeiro é um caso simétrico uma vez que E(X1) = E(X2) com coeficiente de correlação ρ=0.50 e o segundo é um caso assimétrico com E(X1) =2 e E(X2) =3 e um coeficiente de correlação de ρ=0.41. Tabelas semelhantes para outros conjuntos de parâmetros foram construídas, porém elas não serão reproduzidas aqui. O menor valor de NMA para cada caso de mudança nos parâmetros está em negrito. Adicionalmente nas duas tabelas, os valores de NMA’s dos gráficos de controle 2C (denotados por 2C*) foram calculados assumindo (erroneamente) que as variáveis X1 e X2 fossem independentes (ver as últimas colunas das Tabelas 2 e 3). Por exemplo, na Tabela 2, quando λ1 quadruplica (λ1=4) e os demais parâmetros permanecem inalterados (λ2=λ3=1), o menor valor de NMA é 4.18 (quinta linha da Tabela 2) e o gráfico de controle DF é o mais rápido para detectar este tipo de distúrbio. Nos casos onde o gráfico de controle DF é a melhor opção (ver Tabela 2 – da segunda a sexta linha), observa-se que o valor de λ3permaneceu inalterado. As próximas linhas da Tabela 2 estão os casos de distúrbios (de diferentes tamanhos em todos os parâmetros) que os gráficos de controle MX e 2C detectam mais rapidamente (com igual desempenho). Valores médios dos parâmetros (λ1, λ2 e λ3, quando processo fora do controle) destes casos foram calculados para descrever o perfil, obtendo-se respectivamente 2.62; 2.81; 2.10 que corresponde aos seguintes valores esperados E(X1) =4.71; E(X2) =4.90 e ρ=0.43 (estes valores estão no segundo bloco de colunas da Tabela 4). Note que este valor médio de correlação é menor que o valor quando o processo está sob controle. E finalmente os distúrbios (para diferentes tamanhos em todos os parâmetros) que o gráfico de controle SM detecta rapidamente. Os valores médios de λ1, λ2 e λ3 são respectivamente 2.50; 2.50 e 3.12 fornecendo E(X1) = 5.62; E(X2) =5.62 e ρ=0.56 (maior que o valor quando o processo está sob controle). 45 João Pessoa, 2 a 5 de Setembro 2008 Tabela 2 – Valores de NMA dos gráficos de controle (caso 1: λ1=λ2=λ3=1) 46 João Pessoa, 2 a 5 de Setembro 2008 47 João Pessoa, 2 a 5 de Setembro 2008 Tabela 4 – O melhor gráfico de controle Leitura similar pode ser feita com os resultados da Tabela 3. Por exemplo, quando λ1 permanece inalterado (λ1=1), mas se λ2 triplica (λ2=6) e λ3 duplica (λ3=2), os gráficos de controle MX e 2C são mais rápidos para detectar este tipo de distúrbio com o menor NMA igual 48 João Pessoa, 2 a 5 de Setembro 2008 a 3.53. Valores médios de λ1, λ2 e λ3 (fora de controle), quando os gráficos de controle MX e 2C são as melhores opções, são respectivamente 1.36; 7.27 e 2.64 que resultam valores de E(X1) =4.00; E(X2)=9.91 e ρ=0.41. Note que a correlação (fora de controle) é igual ao seu valor se o processo estivesse sob controle, mas grandes mudanças foram observados em λ2 e conseqüentemente grandes mudanças no valor de E(X2). Para identificar um apropriado gráfico de controle para detectar rapidamente algum tipo de distúrbio específico, Tabela 4 foi construída. Os valores dos parâmetros sob controle de processo estão colocados no primeiro de bloco de colunas. Os valores dos principais parâmetros quando o processo está fora de controle estão no segundo bloco de colunas e no último bloco de colunas um mosaico foi construído para identificar qual gráfico de controle é mais adequado para detectar mais rapidamente algum distúrbio específico. As entradas deste último bloco de colunas são as razões entre os valores dos parâmetros fora de controle e sob controle denotados como λi =1, 2, 3, 4 e i=1, 2, 3. λ i0 Analisando a Tabela 4, algumas observações podem ser feitas: • Note que o gráfico de controle DF aparece como a melhor opção apenas na coluna λ3 =1 e na maioria das vezes quando λ30 λ1 λ =1 ou 20 =1. Em outras palavras, o 0 λ1 λ2 parâmetro da covariância permaneceu inalterado e distúrbios somente em uma das médias ou E(X1) ou E(X2), tendo como conseqüência uma diminuição da correlação, conforme pode-se observar os valores médios dos parâmetros relativos ao gráfico DF no segundo bloco de colunas. • Os gráficos MX e 2C (doravante denominados como gráficos M2) são as melhores opções quando os valores sob controle de λ1 e λ2 são iguais (os casos simétricos 1, 2, 7 e 8). Observam-se causas especiais provocando grandes ou moderados aumentos simultaneamente em λ1 e λ3 mantendo-se λ2inalterado; ou simetricamente, aumentos grandes ou moderados simultâneos em λ2 e λ3 mantendo λ1 inalterado. Nestes casos 49 João Pessoa, 2 a 5 de Setembro 2008 ocorrem mudanças (aumentos) nas médias de X1 ou de X2. De modo geral, a correlação sofre poucas mudanças. • Ainda considerando os casos simétricos, quando λ3 λ λ >1, 10 ≤ 2 e 20 ≤ 2, o gráfico SM 0 λ3 λ1 λ2 tem tido o melhor desempenho. • Considerando os casos assimétricos, quando pouca ou quase nenhuma correlação ocorreu (porém alterações nas médias) devido às causas especiais, o gráfico de controle MX e 2C são as melhores opções. No entanto, as causas especiais provam um aumento (decréscimo) na correlação, o gráfico SM (DF) é a melhor opção. 4.3 – Exemplo numérico Nesta seção considere os dados extraídos de Ho & Singer (2001) onde dois tipos de defeitos são contados em 230 amostras de 100 g de fibras têxteis produzidas por duas máquinas de um fabricante (os dados estão reproduzidos na Tabela 5). Tabela 5 – Freqüência de defeitos em 100 g de fibras têxteis. # de defeitos do Máquina A1 A2 # de defeitos do tipo 2 Tipo 1 0 1 2 3 4 5 6 7 Total 0 13 26 22 16 3 1 3 9 12 7 5 2 . . 82 2 1 . 39 2 . 3 1 . 3 . . 1 1 . 1 . . 5 . . . 1 5 Total 16 38 36 25 8 5 1 1 130 0 15 14 11 10 3 1 . . 54 1 2 12 6 7 5 3 1 . 36 2 . 1 2 1 . 2 . . 6 3 . . . 1 1 1 1 . 4 Total 17 27 19 19 9 7 2 . 100 50 João Pessoa, 2 a 5 de Setembro 2008 Neste contexto, cada maquina define um estrato e após a comparação das taxas médias de defeitos entre os estratos e avaliação da intensidade e homogeneidade da associação entre as freqüências dos dois tipos de defeitos, os parâmetros relevantes foram estimados (pelo método da máxima verossimilhança) e reproduzidos na Tabela 6. Tabela 6 – Estimativa dos parâmetros do exemplo numérico Parâmetro Estimativa Erro padrão Taxa média de defeito tipo I 0.5243 0.0476 Taxa média de defeito do tipo II 1.9914 0.0928 Covariância entre os números de 0.3013 0.0629 defeitos do tipo I e II Note que a correlação entre os dois tipos de defeitos nas fibras têxteis é positiva (correlação de 0.295). Este fato sugere que o aumento de incidência num tipo de defeito pode levar a aumentar ocorrências do outro tipo de defeito. Limites de controle e valores de NMA0 estão resumidos na Tabela 7. Os gráficos de controle SM e MX identificam uma observação como fora de controle ((X1=3; X2=7, da máquina A1). Tabela 7 – Limites de controle do exemplo numérico Gráfico de Controle Limites de Controle NMA0 SM [0;8] 282.05 MX [0;6] 229.5 DF [-7;1] 209.1 2C [0;3];[0;7] 334.9 Figura 1 ilustra os gráficos de controle propostos considerando um conjunto de dados simulados. As dez primeiras amostras foram tomadas de modo a ter taxas médias iguais aos valores estimados da Tabela 6 (ou seja, com λ1=0.2230; λ2=1.6901 e λ3=0.3013) e as dez 51 João Pessoa, 2 a 5 de Setembro 2008 últimas observações foram simuladas alterando λ3 para 4.3013 e mantendo inalterados os parâmetros λ1 e λ2. Empregando os limites de controle da Tabela 7, um sinal de que processo pode estar fora de controle é dada na décima terceira amostra (três amostra após o ponto de mudança) através do gráfico de controle SM. Caso empregue o gráfico de controle MX, um sinal é dado apenas na décima sexta amostra. No gráfico DF um sinal é dado apenas na décima nona observação e caso dois gráficos individuais fossem empregados apenas um sinal em X1 seria dado também na décima nona observação. 9 14 8 12 7 6 10 6 8 SM 8 MX 5 4 6 3 4 2 1 2 0 0 2 2 4 6 8 10 12 A mostra 14 16 18 4 6 8 20 Gráfico de controle SM 10 12 A mostra 14 16 18 20 Gráfico de controle MX 9 Variable X1 X2 2 8 1 1 7 7 0 6 X1;X2 -1 DF -2 -3 5 4 3 -4 2 -5 1 -6 3 0 -7 -7 2 4 6 8 10 12 Amostra 14 16 18 2 4 6 8 10 12 A mostra 14 16 18 20 20 Gráfico de controle DF Gráfico de controle 2C Figura 1 – Gráficos de controle para processo de Poisson bivariada – dados simulados Estes resultados de certo modo são coerentes visto que mudança somente em λ3 de 0.3013 para 4.3013 mantendo os demais parâmetros irá causar aumentos nas duas médias, assim como na correlação, alterando a correlação de 0.295 (sob controle) para 0.826 (fora de 52 João Pessoa, 2 a 5 de Setembro 2008 controle). E neste caso, o gráfico de controle SM é mais rápido para detectar este tipo de mudança. 4.4- Considerações finais Nesta seção, gráficos de controle utilizando simples estatísticas descritivas para monitorar dois tipos de defeitos em unidades produzidos sob uma distribuição de Poisson bivariada foram apresentados. Os três gráficos foram baseados no monitoramento das estatísticas SM=X1+ X2; MX=max(X1, X2); DF=X1-X2 além de dois gráficos de controle separados (uma para X1 e a outra para X2, no texto referenciados como gráficos de controle 2C). Os gráficos de controle foram planejados adotando-se como risco de alarme falso ≤0.0027. Devido à natureza da variável em questão (variáveis discretas), os limites de controle foram ajustados ou determinados de modo a ter risco de alarme falso o mais próximo possível do nível escolhido. Outra conclusão é que não existe um único gráfico de controle que sempre ofereça uma rápida detecção de qualquer tamanho e natureza. O principal ganho nos gráficos propostos SM, DF, ou MX é a simplicidade em julgar se o processo está sob controle ou não através de monitoramento de estatísticas simples com um gráfico de controle ao invés de dois gráficos de controle separadamente. A principal dificuldade em aplicar os gráficos propostos pode ser a escolha correta ou a melhor escolha de um gráfico adequado. Algumas recomendações podem ser feitos: se aumento for observado somente em um dos tipos de defeitos, o gráfico DF parece ser a melhor opção. Contudo se aumentos forem observados nos dois tipos defeitos, a regra é dada através da correlação; se a correlação aumentar, o gráfico SM é a melhor opção; se a correlação permanecer estável, gráficos MX ou 2C são as melhores opções. 53 João Pessoa, 2 a 5 de Setembro 2008 Referências BERKHOUT P. & PLUG E. A bivariate Poisson count data model using conditional probabilities. Statistica Neerlandica, v. 58, #3, p. 349-364, 2004. HO L.L. & SINGER J.M. Generalized least squares methods for bivariate Poisson regression. Communications in Statistics: Theory and Methods, v. 30, p. 263-277, 2001. HOLGATE P. Estimation for the bivariate Poisson distribution. Biometrika, v. 51, p. 241-245, 1964. JOHNSON N., KOTZ S. & BALAKRISHNAN N. Discrete multivariate distributions. Wiley, New York, 1997. KARLIS D. & NTZOUFRAS I. Bivariate Poisson and diagonal inflated bivariate Poisson regression models in R. Journal of Statistical Software vol. 14 #10. http://www.jstatsoft.org/, 2005 KARLIS D. An EM algorithm for multivariate Poisson distribution and related models. Journal of Applied Statistics, vol. 30(1), p. 63-77, 2003. KOCHERLAKOTA S. & KOCHERLAKOTA K. Bivariate discrete distributions. New York: Marcel Dekker, 1992. KOCHERLAKOTA S. & KOCHERLAKOTA K. Regression in the bivariate Poisson distribution. Communication in Statistics: Theory and Methods, vol. 30, p. 381-393, 2001. PATEL H.I. Quality control methods for multivariate binomial and Poisson distribution. Technometrics, vol. 15, p. 103-112, 1973. RAYNER J.C.W. & BEST D.J. Smooth tests for the bivariate Poisson distribution. Australian Journal of Statistics. Vol. 37(2), p. 233-45, 1995. 54 João Pessoa, 2 a 5 de Setembro 2008 SKINNER K.R.; MONTGOMERY D.C. & RUNGER G.C. Process monitoring for multiple count data using generalized linear model-based control charts. International Journal of Production Research. Vol. 41(6), p. 1167-1180, 2003. Apêndice A.1 – Função de probabilidade de MX=Max(X1,X2) y −1 y −1 j =0 j =0 P ( MX = y ) = ∑ P ( X 1 = j , X 2 = y ) + ∑ P ( X 1 = y , X 2 = j ) + P ( X 1 = y , X 2 = y ) i e[−(λ1 + λ2 + λ3 )] y −1 λ1j λ2y + λ1y λ2j j j y λ3 (λ1 λ2 ) y = ∑ + ∑ i ! y! j! y! i =0 i i λ1λ2 j =0 2 y λ3 ∑ i ! i =0 i λ1λ2 y i A.2 – Calculando E(MX) y −1 y −1 E ( MX ) = ∑ y ∑ P( X 1 = j, X 2 = y ) + ∑ P ( X 1 = y, X 2 = j ) + P( X 1 = y, X 2 = y ) y = 0 j =0 j =0 y −1 y −1 ∞ = ∑ ∑ yP ( X 1 = j, X 2 = y ) + ∑ yP ( X 1 = y, X 2 = j ) + yP ( X 1 = y, X 2 = y ) y = 0 j =0 j =0 ∞ (A.1) Utilizando as relações de recorrência (3) em (A.1) as igualdades podem ser escritas: ∞ y −1 E ( MX ) = ∑ ∑ ( λ2 P ( X 1 = j , X 2 = y − 1) + λ1P ( X 1 = y − 1, X 2 = j ) y = 0 j =0 +λ3 ( P( X 1 = y − 1, X 2 = j − 1) + P ( X 1 = j − 1, X 2 = y − 1) ) ) +λ1 P( X 1 = y − 1, X 2 = y ) + λ3 P( X 1 = y − 1, X 2 = y − 1)] (A.2) Após manipulações algébricas, a equação (A.2) pode ser expressa como 55 João Pessoa, 2 a 5 de Setembro 2008 ∞ E ( MX ) = ∑ (λ1 + λ2 + λ3 ) [ P( X 1 = y, X 2 = y ) + P( X 1 = y + 1, X 2 = y ) ] y =0 ∞ ∞ y =0 y=0 + ∑ (λ1 + λ3 ) [ P( X 1 > y, X 2 = y ) ] + ∑ (λ2 + λ3 )[ P ( X 1 = y, X 2 > y + 1)] (A.3) A.3 - Calculando E(MX2) y −1 ∞ y −1 E ( MX 2 ) = ∑ y 2 ∑ P( X 1 = j , X 2 = y ) + ∑ P ( X 1 = y, X 2 = j ) + P( X 1 = y, X 2 = y ) y =0 j =0 j =0 y −1 ∞ y −1 = ∑ ∑ y 2 P ( X 1 = j , X 2 = y ) + ∑ y 2 P ( X 1 = y, X 2 = j ) + y 2 P ( X 1 = y , X 2 = y ) y = 0 j =0 j =0 (A.4) Novamente empregando as relações de recorrência em (A.4), E(MX2) pode ser expressa como ∞ =∑ y =0 y −1 ∑ λ P( X j =0 2 1 = j , X 2 = y − 1) + λ3 P( X 1 = j − 1, X 2 = y − 1) + λ22 P( X 1 = j , X 2 = y − 2) +2λ2λ3 P ( X 1 = j − 1, X 2 = y − 2) + λ32 P( X 1 = j − 2, X 2 = y − 2) ∞ +∑ y =0 y −1 ∑ λ P( X j =0 1 1 = y − 1, X 2 = j ) + λ3 P( X 1 = y − 1, X 2 = j − 1) + λ12 P( X 1 = y − 2, X 2 = j ) +2λ1λ3 P( X 1 = y − 2, X 2 = j − 1) + λ32 P( X 1 = y − 2, X 2 = j − 2) +λ1λ2 P( X 1 = y − 1, X 2 = y − 1) + 2λ1λ3 P( X 1 = y − 2, X 2 = y − 1) +λ3 P ( X 1 = y − 1, X 2 = y − 1) + λ32 P( X 1 = y − 2, X 2 = y − 2) (A.5) Após manipulações algébricas, a expressão (A.5) resultou em ∞ E ( MX 2 ) = λ3 (1 + λ3 ) + ∑ λ2 (1 + λ3 ) P ( X 1 ≤ y, X 2 = y ) + λ22 P( X 1 ≤ y + 1, X 2 = y ) y =0 +λ1 P( X 1 = y, X 2 ≤ y ) + λ1 (1 + λ3 ) P ( X 1 = y, X 2 = y + 1) + λ1λ2 P ( X 1 = y, X 2 = y ) (A.6) A.4 – Var(MX) Com as expressões (A.3) e (A.6), Var(MX) pode ser obtida. 56 João Pessoa, 2 a 5 de Setembro 2008 Seção Cinco: COMENTÁRIOS FINAIS Nestas notas foram trabalhadas algumas questões do monitoramento de processos, que embora pontuais, têm sido as responsáveis pela frustração de muitos adeptos dos gráficos de Shewhart. As questões do erro de mensuração e da autocorrelação das observações, se não tratadas de forma adequada comprometem a eficiência do gráfico. Na seção dois destas notas, as curvas do Número Médio de Amostras (NMA) que o gráfico de controle requer para sinalizar uma causa especial foram construídas. Basta olhá-las para perceber o “estrago” que a autocorrelação e o erro de mensuração causam na performance dos gráficos de controle. Para minimizar o efeito do erro de mensuração só mesmo inspecionando um mesmo item várias vezes; quanto à questão da autocorrelação, uma forma simples de minimizar o seu efeito consiste em não se formar os subgrupos racionais com itens “vizinhos”. Nas seções três e quatro a questão do monitoramento simultâneo de muitas características de qualidade foi abordada. O mais importante a salientar é que, o que está disponível hoje na literatura, sobre estatísticas de monitoramento multivariadas para o caso de atributos é quase nada, e para o caso de variáveis, as estatísticas ainda são muito complicadas e pouco eficientes. Para finalizar, cumpre salientar que existem ainda outros pontos importantíssimos a serem pesquisados em monitoramento de processos, tais como a questão da estimação dos parâmetros após a Fase I, onde as causas especiais que atuam no processo são eliminadas, tornando-o monitorável. 57 João Pessoa, 2 a 5 de Setembro 2008