CAP 2 Medidas descritivas e gráficos básicos

Propaganda
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Capítulo 2. Medidas descritivas e gráficos básicos
Sumário
2.1 Introdução
2.2 Média
2.3 Mediana
2.4 Quartil
2.5 Medida de variabilidade – desvio padrão
2.6 O desvio padrão de Shewhart em Controle estatístico de qualidade
2.7 Desvio quartílico
2.8 Gráficos – Caixa das Medianas e Histograma
2.9 Questões para discussão e exercícios
2.10 Referências
Capítulo 2. Medidas descritivas e gráficos básicos
1
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Capítulo 2. Medidas descritivas e gráficos básicos
2.1 Introdução
Quando o Gerente de produção mede e analisa uma característica da linha de produção,
uma característica física do produto ou uma medida do desempenho do processo, ele tem
em mente a melhoria do processo. Ele vê um sistema em movimento, uma combinação dos
insumos do processo, a atuação dos operadores juntos com a combinação dos insumos e as
atividades das máquinas, e finalmente o produto final. A visão do gerente é de aspectos
concretos da sua linha de produção e em termos sistêmicos.
O Estatístico por outro lado vai ver esse mesmo processo como algo mais abstrato, como
uma função de gerador de números. Ele vai ver se os números gerados são centrados e
simétricos ao redor de uma tendência central, se existir ou não alguns dados muito
discrepantes dos outros, se tiver ou não relações entre variáveis e dados diferentes.
É fácil ver que o gerente trabalhando sem a ajuda do Estatístico não vai captar todas as
informações disponíveis nos dados, e o Estatístico sozinho não vai saber onde ele deve
concentrar seus esforços para melhorar o processo. Portanto, o Gerente e o Estatístico têm
muito para ganhar trabalhando juntos.
Neste capítulo, noções preliminares sobre algumas medidas importantes que ajudam a
definir uma população de dados são introduzidas junto com alguns gráficos para enxergar
melhor a tendência central dos dados e outras características como a dispersão. No capítulo
anterior, argumentamos que certo nível de variabilidade é inerente a qualquer processo
industrial ou administrativo. Existem uma variabilidade aceitável e outra que extrapola os
limites de qualidade. Em CEQ, tentamos quantificar e identificar esses limites, e é assim
que o estudo de aleatoriedade fica tão importante.
Toda a área de estatística se baseia na pedra fundamental do conceito de variável aleatória.
É uma função que depende da média, da dispersão, da assimetria, e várias outras
características as quais, todas juntas, geram realizações de dados observados. O problema
todo é que nos não vemos a função gerando os dados, vemos apenas os dados. É dos dados
observados que podemos imaginar a forma da função. São as características das variáveis
aleatórias que são a preocupação principal do engenheiro ou administrador de processo.
Estabilizando as características da função da variável aleatória significa médias no alvo,
dispersão mínima, e previsibilidade assegurada. Conseqüentemente, os dados observados
subseqüentemente ficam dentro das especificações, e altos níveis de qualidade são
alcançados. Eventualmente dados observados díspares ocorrem em momentos raros, mas a
estabilidade do processo garante que são facilmente identificados, as causas eliminadas e
processos corrigidos.
2.2 Média
Em qualquer área de investigação onde números aparecem com freqüência, os profissionais
da área estudam maneiras e metodologias gráficas e estatísticas para expressar esses
números mais claramente e mais resumidamente. Isso é um dos objetivos principais do
Capítulo 2. Medidas descritivas e gráficos básicos
2
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
trabalho dos gerentes e estatísticos. Por exemplo, existem várias maneiras de medir a
tendência central dos dados, e nenhuma maneira é necessariamente o melhor, tudo depende
da situação. O cálculo de uma tendência central é importante porque ela consegue
condensar uma série de dados em um único número. Certamente a mais popular é a média
n
X , chamado mesmo de x-barra, a soma de uma série de dados
X
i 1
i
dividida pelo
número n de dados na soma. Em termos matemáticos, então, podemos escrever
n
X
X
i 1
n
i
.
Na tabela 2.1, são colocadas 50 medidas em milímetros do comprimento de uma peça, por
sinal, uma das características essenciais da peça. Uma coluna de números não é nada
interessante para o engenheiro, como a primeira coluna da tabela. Por outro lado, a média
das medidas da primeira coluna da tabela é
100,324 = (102,230 + 99,070 + 99,079 + ... + 98,143)/50,
e o engenheiro agora pode saber se o produto está sendo fabricado centrado no alvo
desejado.
Um problema que pode ocorrer é que a média perde a sua representatividade quando, entre
os números, existem valores muito diferentes dos outros. Esses valores levam a média para
um valor muito longe da tendência central dos dados, e não muito perto dos outros
números. Uma maneira de resolver o problema dessa distorção seria simplesmente eliminar
esses números, no entanto o gerente não recomenda esse caminho por causa de certo grau
de arbitrariedade. Podemos eliminar dados que são realmente errados, por erros de
digitação, ou medição, por sinal. Por exemplo, o gerente pode sentir uma necessidade de
eliminar o valor 102,557 da tabela 2.1 como o maior (e pior) dos números, mas para qual
razão? Não é justificativo tirar um número da amostra porque o chefe não vai gostar vê-lo.
Se não tiver nenhuma boa justificativa para tirá-lo, por exemplo, poderia ter sido o
resultado de uma mensuração mal feita e errada, o número fica. Na próxima seção é
apresentada uma medida de tendência central para dados assimétricos e na presença de
dados suspeitos.
Capítulo 2. Medidas descritivas e gráficos básicos
3
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Dados
Dados
Comentário Contador
originais ordenados
Ordem
102,230
99,070
99,079
97,818
101,901
102,000
101,797
100,894
98,572
101,259
102,168
99,005
102,557
102,230
102,223
102,170
102,168
102,101
102,090
102,000
101,995
101,990
101,901
101,900
Máximo
1
2
3
4
5
6
7
8
9
10
11
12
Quartil
13
99,073
101,810
101,775
97,962
101,480
101,995
98,477
102,090
98,476
101,780
102,170
100,827
101,990
101,797
101,780
101,775
101,773
101,607
101,480
101,408
101,276
101,259
101,178
100,988
99,182
98,254
100,894
100,827
101,810
98,140
102,557
100,636
100,428
100,410
100,355
101,276
100,355
99,182
102,223
101,773
98,677
101,178
100,428
98,940
99,079
99,073
99,070
99,005
98,940
98,677
101,408
98,572
101,900
98,253
102,101
100,988
98,310
101,607
97,876
100,636
97,968
97,929
100,410
98,477
98,476
98,310
98,254
98,253
98,143
98,140
97,968
97,962
97,929
97,876
98,143
97,818
14
15
16
17
18
19
20
21
22
23
24
Mediana =
100,861
25
26
27
28
29
Média =
100,324
30
31
32
33
34
35
36
37
Quartil
38
39
40
41
42
43
44
45
46
47
48
49
Mínimo
50
Tabela 2.1 – Comprimento de barra de ouro em mm, n = 50.
Capítulo 2. Medidas descritivas e gráficos básicos
4
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
2.3 Mediana
Para resolver a distorção de números discrepantes e assimétricos, utiliza-se da mediana, o
número no meio dos números ordenados (ou a média dos dois números no meio dos
números), nesse caso, na tabela 2.1,
100,861 ( = (100,827 + 100,894)/2).
Vamos explicar melhor. Numa relação de números ordenados do maior para o menor existe
um número que separa todos os números em dois grupos de tamanho igual, os números
maiores que a mediana e os números menores. Na lista dos 50 números, há 25 números
maiores que 100,861 e 25 números menores. Pode notar que quando o número de dados é
ímpar a mediana é exatamente o número no meio dos números ordenados, sem a
necessidade de calcular a média dos dois números no meio. Os analistas argumentam que a
mediana é melhor do que a média para representar a tendência central dos números na
presença de dados muito diferentes que os outros. Isso ocorre porque a mediana é
insensível aos valores muito grandes ou muito pequenos. Se for alterado o valor de 102,557
para 1.025.566,0 o valor da mediana não mudaria, porque com a mediana de 100,861, ainda
tem a metade dos dados por cima e a metade dos dados por baixo da mediana. A diferença
numérica entre a mediana e a média no exemplo da tabela 2.1
(100,861 - 100,324 = 0,537)
poderia ser considerada razoavelmente grande pelo engenheiro, se for considerada pequena
a variabilidade dos números, e significaria que a média é realmente distorcida como medida
de tendência central, levando o engenheiro a utilizar a mediana.
Aqui temos uma lição importante da área de estatística, distancias e tamanhos e outras
mensurações devem ser analisadas em termos da variabilidade dos dados, e não em termos
das unidades originais como milímetros ou gramas. Esse conceito é essencial para as
ferramentas de gráficos de controle nos capítulos seguintes.
2.4 Quartil
Os quartís são calculados, partindo da mediana. Com a mediana os dados ordenados foram
divididos em dois subgrupos, acima e abaixo da mediana. Para cada subgrupo encontra-se
sua própria mediana e essa mediana se chama de quartil. Obviamente tem um quartil
inferior, o primeiro quartil, e um quartil superior, o terceiro quartil. Para completar o
raciocínio, pode chamar a mediana de segundo quartil. Os quartis dividem os dados
ordenados em quatro grupos distintos, cada grupo tem um quarto dos dados. No exemplo
na tabela 2.1, cada um dos quatro subgrupos tem aproximadamente 50/4 elementos. Os
quartís são assinalados na tabela 2.1: quartil inferior de 98,572 e quartil superior de
101,810. A diferença numérica entre os quartís superior e inferior, o desvio quartílico, pode
ser utilizada também para definir a variabilidade dos dados, assunto detalhado na seção 2.7.
2.5 Medida de variabilidade – desvio padrão
Capítulo 2. Medidas descritivas e gráficos básicos
5
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Igualmente importante com as medidas de tendência central são as medidas de dispersão,
representando como os dados se espalham ao redor da média. Quando os números são
sempre próximos à média, isso significa que a tendência central representa bem os dados.
No entanto, se números ficam longe da média, então a média não representa muito bem
todos os dados. A idéia de variabilidade é importante na área de engenharia de qualidade,
como foi destacado na introdução desse livro, porque oferece uma definição operacional
para qualidade, uma definição que permite medições e análise concretas, e discussões
objetivas. Peças fabricadas que exibem mensurações muito espalhadas não têm qualidade,
pois muitas peças vão acabar rejeitadas e retrabalhadas, significando custos altos de
fabricação e posição fraca em termos da competição empresarial do mercado.
O desvio ao redor da média é definido como a diferença entre um número individual e a
média de todos os dados. Por exemplo, a tabela 2.2 mostra 30 dados de tempo gasto pela
empresa para solucionar problemas dos clientes do momento do recebimento da queixa até
que a solução seja conferida. A média de tempo gasto é 182,89 minutos, um pouco mais
que 3 horas. O primeiro desvio calculado (na terceira coluna) é
-82,89 = 100 – 182,89 = desvio = X i  X .
É uma tradição dos estatísticos de colocar na expressão do desvio a média depois do dado
individual. Assim, quando a média é menor que o dado individual o desvio é positivo e
vice-versa. É muito interessante calcular a média dos desvios que representaria a
variabilidade dos dados. Como fica demonstrada na tabela 2.2, a soma dos desvios é
sempre igual a zero, é uma fatalidade matemática, e, portanto a média dos desvios também
é sempre igual a zero. Então a questão é como calcular a média dos desvios numa maneira
consistente e esclarecedora. A quarta coluna da tabela 2.2 contém os mesmos desvios da
terceira coluna, mas essa vez sem o sinal do desvio, chamada o módulo ou valor absoluto
do desvio. A média dos desvios nessa coluna e 75,83. Intuitivamente isso é a melhor
maneira, sem dúvida, de calcular a variabilidade dos dados, no entanto, na estatística existe
outra maneira mais confusa.
Por razões históricas e por causa de algumas características matemáticas difíceis de
compreender, mas muito importante para o teórico, a média do desvio sem sinal não e
tipicamente utilizado em estudos estatísticos e nem no chão da fábrica. Para resolver o
2
problema do sinal do desvio, é preferível utilizar o quadrado do desvio X i  X  , também
sem sinal, todos somados como antes e a média deles calculada1:
( X i  X )2
= Variância = 
= SQT/(n – 1)
n 1
i 1
n
SX2
A expressão SQT é usada na área de regressão, assunto do capítulo 13. A média dos
quadrados dos desvios leva o nome técnico de variância. Para chegar a uma medida do
desvio médio então é necessário aplicar a raiz quadrada à variância. Esse desvio
O símbolo X é utilizado para representar a média de uma amostra e pode ser calculado, e μ X a média da
população, e geralmente não é calculável porque a população é grande demais ou a mensuração implica em
destruição do objeto mensurado, etc.
1
Capítulo 2. Medidas descritivas e gráficos básicos
6
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Código da
reclamação
123
872
478
123
301
261
222
182
143
104
164
158
169
179
190
200
211
222
232
243
253
264
275
285
296
306
317
328
338
349
Tempo gasto em
minutos
100,00
216,01
113,42
287,33
221,47
194,95
161,55
325,89
292,62
266,38
106,19
307,56
255,49
203,39
148,71
17,00
66,78
165,34
95,20
102,95
427,43
186,34
82,04
59,00
36,00
168,89
207,95
217,94
225,79
227,19
Desvio ao redor
da média
-82,89
33,11
-69,47
104,43
38,58
12,06
-21,35
142,99
109,73
83,49
-76,70
124,66
72,59
20,50
-34,19
-165,89
-116,11
-17,55
-87,70
-79,94
244,53
3,45
-100,85
-123,89
-146,89
-14,00
25,05
35,05
42,90
44,30
Módulo do desvio (valor
absoluto)
82,89
33,11
69,47
104,43
38,58
12,06
21,35
142,99
109,73
83,49
76,70
124,66
72,59
20,50
34,19
165,89
116,11
17,55
87,70
79,94
244,53
3,45
100,85
123,89
146,89
14,00
25,05
35,05
42,90
44,30
Desvio
quadrado
6871,36
1096,46
4826,37
10906,22
1488,33
145,42
455,70
20447,30
12040,82
6970,70
5882,76
15541,31
5269,52
420,24
1168,83
27520,70
13481,55
308,07
7690,68
6390,97
59796,28
11,91
10171,11
15349,64
21577,74
195,97
627,58
1228,18
1840,23
1962,51
Soma da coluna
5486,8
0,00
2274,84
261684,46
Media =
182,89
0,00
75,83
8722,82
Amplitude Total
410,43
Raiz da média do desvio
quadrado =
93,40
Desvio padrão =
94,99
Tabela 2.2 - Minutos corridos até solucionar a reclamação do cliente, e desvios.
médio tem outro nome em estatística, o desvio padrão (SX = √SX2). Para os dados da tabela
2.2, o desvio padrão é 94,99. Nota-se que para formar o desvio padrão a soma dos
quadrados não é dividida pelo número de dados na coluna (n = 30), mas sim por um
Capítulo 2. Medidas descritivas e gráficos básicos
7
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
número chamado de grau de liberdade, aqui igual a (n -1 = 29), um conceito discutido mais
tarde. Muitas vezes é enfatizado que este desvio padrão se baseia em valores individuais,
um conceito retomado na apresentação do desvio padrão de Shewhart.
Um conceito muito importante para os gráficos de controle estudados na segunda parte do
livro é o desvio padrão de uma coleção de médias, e leva o nome erro padrão. É quase igual
ao desvio padrão, mas a diferença é que é dividido pela raiz quadrada do tamanho da
amostra n .
S
erro padrão = S X  X
n
O desvio padrão das médias é pelo menos igual ao desvio padrão dos dados individuais,
quer dizer, quando o tamanho n da amostra é maior que um, o desvio padrão das médias é
menor. No final, é para esperar menor variação nas médias que efetivamente eliminam
valores muito altos acima da média com os valores muito abaixo da média. Por exemplo, o
desvio padrão do peso de uma turma de alunos pode ser 30 quilogramas, mas se for
analisado o conjunto de médias de várias turmas o desvio padrão das médias seria bem
menor refletindo o fato que médias variam menos que os valores individuais. E mais, a
variação das médias diminui quando o tamanho da amostra aumentar. Esta relação é
ilustrada na figura 2.1 para o caso da distribuição normal, assunto prioritário do próximo
capítulo. Veja como a distribuição fica cada vez mais apertada nos valores centrais, e
caudas mais finas, demonstrando precisão maior. Portanto, amostras maiores fornecem um
erro padrão menor e conseqüentemente mais segurança na representação da população,
diminuindo o risco de obter estimativas de estatísticas como a média longe dos parâmetros
da população.
Distribuição normal com tamanhos da amostra diferentes
n = 16
n=9
n=4
n=1
Figura 2.1 – A distribuição normal para médias para vários tamanhos amostrais
Capítulo 2. Medidas descritivas e gráficos básicos
8
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
No final, voltando para os dados de tabela 2.2, considerando o tamanho da média (182,89),
a diferença entre o desvio absoluto médio (75,83) e o desvio padrão (94,99) é relativamente
grande. Isso sugere que a escolha entre as duas medidas levanta uma dúvida para medir a
variabilidade dos dados, mas como já foi colocado acima, o desvio padrão é preferível, se
não pela lógica então sim pela tradição. Consistência é a palavra chave, os dois conceitos
não devem ser misturados no mesmo procedimento. Uma vez utilizado um conceito p0ara
medir variabilidade, não deve ser trocado por outro.
2.6 O desvio padrão de Shewhart em controle estatístico de qualidade
Na área de controle estatístico de qualidade há mais uma maneira de calcular o desvio
padrão, através de uma fórmula desenvolvida pelo próprio Shewhart para facilitar o
cálculo no chão da fábrica. Lembre-se que ele estava trabalhando nesses procedimentos na
década de 1930 sem informática e automação, e precisava de procedimentos fáceis, mas
cuidadosos, para monitorar a qualidade da fabricação. Como será visto na segunda parte
do livro sobre ferramentas de controle e monitoramento do processo, a utilização de
amostras muito pequenas é a regra para um grande conjunto de gráficos de controle. Por
exemplo, o operador pode monitorar o processo com bastante segurança praticando
mensurações de apenas 5 peças por hora (tamanho da amostra n = 5) de lotes muito
maiores de centenas ou milhares de peças. Para simplificar o calculo do desvio padrão, o
operador calcula a amplitude (valor máximo menos o valor mínimo) de cada amostra e
disso calcula a média das amplitudes ( R ). Shewhart desenvolveu uma tabela de
coeficientes d2, mostrados na tabela 2.3, com o poder de transformar R em desvio padrão,
R
. Nota-se que o valor de d2 aumenta com o tamanho da amostra.
d2
Tamanho da amostra = n
n=
d2
B3
B4
D3 (R) D4 (R)
A2 ( X )
2
1,128
0
3,267
0
3,267
1,880
3
1,693
0
2,568
0
2,575
1,023
4
2,059
0
2,266
0
2,282
0,729
5
2,326
0
2,089
0
2,115
0,577
6
2,534 0,03
1,97
0
2,004
0,483
7
2,704 0,118 1,882 0,076
1,924
0,419
8
2,847 0,185 1,815 0,136
1,864
0,373
9
2,970 0,239 1,761 0,184
1,816
0,337
10 3,078 0,284 1,716 0,223
1,777
0,308
11 3,173 0,321 1,679 0,256
1,744
0,285
12 3,258 0,354 1,646 0,284
1,716
0,266
13 3,336 0,382 1,618 0,308
1,692
0,249
14 3,407 0,406 1,594 0,329
1,671
0,235
15 3,472 0,428 1,572 0,348
1,652
0,223
20 3,735 0,51
1,49
0,414
1,586
0,180
25 3,931 0,565 1,435 0,459
1,541
0,153
Capítulo 2. Medidas descritivas e gráficos básicos
9
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Tabela 2.3 - Coeficientes de Shewhart para os gráficos de controle
Os outros coeficientes nas outras colunas da tabela 2.3 são também muito importantes e
serão utilizados na segunda parte do livro na construção de gráficos de controle.
Para ilustrar o cálculo do desvio padrão de Shewhart, os dados da tabela 2.2 foram
arranjados em seis subgrupos de tamanho 5. Veja tabela 2.4. Este tamanho de 5 é comum
nas fabricas para monitoramento de processos. Subgrupos amostrais são levantados em
períodos regulares, hora em hora, ou uma vez por turno, ou uma vez por dia, por exemplo.
Na tabela fica claro que cada subgrupo tem uma média e uma amplitude. A média das
amplitudes R é 187,308. Então uma estimativa do desvio padrão seria,
R
= 187,308/2,326 = 80,528.
d2
Temos que lembrar que os coeficientes e cálculos de Shewhart são aproximações
matemáticas desenvolvidas para facilitar a análise da variabilidade da produção
especialmente nos momentos críticos sofridos no chão da fábrica. As aproximações nunca
representam perfeitamente bem os conceitos mais corretos, mas quando tempo gasto numa
operação é essencial, a aproximação serve muito bem, nesse caso já comprovado por mais
que 70 anos de prática no mundo real.
Observação
Amostral
1
Subgrupo
1
2
3
4
5
6
168,890
161,550
307,560
66,780
186,340
207,950
2
207,950
325,890
255,490
165,340
82,040
217,940
3
217,940
292,620
203,390
95,200
59,000
225,790
4
5
225,790
266,380
148,710
102,950
36,000
227,190
227,190
106,190
17,000
427,430
168,890
182,890
Média
das
médias =
Média
subgrupo
209,552
230,526
186,430
171,540
106,454
212,352
Amplitude
subgrupo
58,300
219,700
290,560
360,650
150,340
44,300
182,89
Amplitude
média =
Desvio
padrão
Shewhart =
187,308
80,528
Tabela 2.4 - Minutos corridos até solucionar a reclamação do cliente, dados arranjados em
6 subgrupos amostrais com 5 observações em cada grupo.
O desvio padrão de Shewhart é menor que o desvio padrão calculado na base de valores
individuais, considerando que no de Shewhart é utilizada a variação dentro de subgrupo e
não entre subgrupos. Ou seja, o desvio padrão de Shewhart elimina a variação de medias
dos subgrupos e, portanto é menor que o desvio padrão de valores individuais que aceita
toda variação, dentro do subgrupo e entre subgrupos. Na tabela 2.4, nota-se a grande
Capítulo 2. Medidas descritivas e gráficos básicos
10
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
diferença entre medias de cada subgrupo, a média menor é 106,4 e a maior é 230,5. O
desvio padrão de Shewhart não inclui esta diferença entre subgrupos.
2.7 Desvio quartílico
Outra medida de variabilidade é o desvio quartílico, a diferença entre o quartil inferior e o
quartil superior já estudado anteriormente na seção sobre a mediana. Voltando para a tabela
2.1 sobre o comprimento em mm, pode ser visto que o desvio quartílico é igual a
3,238 = 101,810 – 98,572.
Como a mediana, o desvio quartílico tem a vantagem de não ser afetado por valores muito
discrepantes. No entanto, a sua utilização na estatística aplicada não é muito comum,
constando em alguns pacotes de software especializado, mas na prática desprezado a favor
do desvio padrão. No entanto, no famoso gráfico da caixa das medianas (box-plot, em
inglês) a sua presença é essencial. Veja a próxima seção.
Resumindo em termos do exemplo sobre as reclamações, o gerente da empresa possui pelo
menos duas medidas para analisar o desempenho da empresa frente aos clientes com
queixas: a média do tempo gasto para solucionar a reclamação e o desvio padrão desse
tempo. Um procedimento prático pode ser colocado nos manuais da empresa, onde
semanalmente médias e desvios padrões são calculados e tendências analisadas e
providências tomadas se forem necessárias. Por exemplo, a média das reclamações
tendendo a subir ou o desvio padrão aumentando através do tempo são sinais claros de
deterioração do desempenho, e deve causar preocupação na parte da gerência. Os dados
individuais devem sofrer também uma análise detalhada, especialmente dados que se
destacam longe dos outros.
2.8 Gráficos – Caixa das Medianas e Histograma
Sem dúvida, a melhor maneira de analisar uma série de dados é graficamente. A tentativa
de ver padrões e tendências em uma relação de dados escritos em uma tabela certamente
resultará em confusão especialmente quando o número de dados é grande. A figura 2.2
mostra os dados da tabela 2.2, o tempo gasto em resolver problemas dos clientes. Entre
vários outros pontos, pelo menos dois são destacados, o ponto máximo no dia 21 e o ponto
mínimo no dia 16. O que aconteceu nesses dois dias? Será que os eventos que ocorreram no
dia 16 são controláveis e que podem ser repetidas nos outros dias para tirar proveito da
situação? E os eventos do dia 21 que causaram um péssimo desempenho, será que eles
podem ser evitados no futuro?
Capítulo 2. Medidas descritivas e gráficos básicos
11
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
450,00
400,00
350,00
300,00
250,00
200,00
150,00
100,00
50,00
0,00
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
Dias do mes
Figura 2.2 - Tempo gasto em resolver problemas dos clientes
Um gráfico que reúne as informações da mediana e dos quartis em uma maneira fácil para
entender é a caixa das medianas, figura 2.3.
Figura 2. Caixa de medianas dos dados de tempo gasto na tabela 2
450,00
400,00
350,00
300,00
250,00
200,00
150,00
100,00
50,00
0,00
Figura 2.3 - Caixa de medianas para o tempo gasto nas reclamações na tabela 2.2
As duas linhas extremas horizontais representam os valores mínimos e máximos de toda a
série, ou em outras palavras, a distância entre elas é a amplitude geral dos dados. A caixa
no meio da figura representa o quartil inferior e o superior, ficando agrupadas a metade
Capítulo 2. Medidas descritivas e gráficos básicos
12
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
central dos dados, e a distância entre esses valores é o desvio quartílico. Finalmente, a linha
dentro da caixa é a mediana. Pode ver pela localização da caixa que os dados estão
distribuídos com assimetria, tendo mais valores relativamente baixos que altos. Os valores
altos são menos freqüentes, mas merecem uma investigação cuidadosa para apurar suas
causas especiais. Nesse caso, esses valores altos, que representam um péssimo desempenho
da empresa em solucionar problemas dos clientes, são críticos para o relacionamento da
empresa com o seu público, e a gerência deve garantir que insatisfações não acontecem no
futuro.
Muitas empresas montam essa figura para importantes características operacionais em uma
base mensal ou semanal facilitando o monitoramento da característica. É fácil ver se a
característica está no alvo ou evoluindo numa maneira satisfatória, e se a variabilidade dos
dados está aumentando (piorando) ou diminuindo (melhorando). Veja figura 2.3, onde se
apresenta uma série temporal de caixas de medianas mostrando o perfil de uma máquina em
períodos seqüenciais funcionando ou parada durante um intervalo de três meses. Veja todos
esses dados no anexo do capítulo 12. A primeira caixa mostra que a mediana dos tempos da
máquina em funcionamento é em torno de 15 horas. Quer dizer, quando a máquina está
trabalhando fica funcionando direto durante aproximadamente 15 horas. Este valor é menos
que o alvo da fábrica o qual é 16 horas (dois turnos de 8 horas). O quartil inferior em 8
horas e o quartil superior em 16 horas significam assimetria nos números com observações
muito abaixo da mediana de 15, e um desvio quartílico relativamente grande de 8 horas.
Nota-se que o segundo mês tinha o melhor desempenho. A mediana do tempo funcionando
é levemente mais alta e o desvio muito menor. Nesse mesmo mês, tempo parado tem o
menor desvio. Enfim, a empresa deve estudar os números do segundo mês para identificar
os fatores responsáveis para esta estabilidade tão marcante. Na realidade, foi iniciado no
segundo mês um programa de manutenção preventiva para a máquina em questão que
praticamente eliminou paradas inusitadas por causa de quebra de ferramentas.
Finalmente, na caixa de medianas, notam-se as estrelinhas (*) acima e abaixo de algumas
caixas. Esses dados são considerados como suspeitos, e merecem investigação concentrada.
Eles são estranhamente distantes das medianas, muito mais distantes que o esperado, nesse
caso mais que dois desvios quartílicos. Aberrações dessa natureza possuem muita
informação para melhorar os respectivos processos.
Capítulo 2. Medidas descritivas e gráficos básicos
13
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Caixa de medianas - tempo funcionando e tempo parado - 3 meses
20
Horas
15
10
5
0
tempo func 1
tempo parado 1
tempo func 2
tempo parado 2
tempo func 3
tempo parado 3
Figura 2.3 - Caixa de medianas para o tempo de máquina funcionando e parado2
Finalmente apresenta-se o histograma, um gráfico que tem todas as boas características da
caixa de medianas, mas exibe muito mais informação sobre a distribuição dos dados. Foram
amostrados em um laticínio 150 sacos de leite contendo por lei 1 litro do alimento. O
histograma é um retrato dos dados na tabela 2.5, logo em seguida.
2
Figura 2.3 foi desenhada com o apoio do software Mini-tab, versão gratuita. www.minitab.com/downloads
Capítulo 2. Medidas descritivas e gráficos básicos
14
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Histograma
F
r
e
q
u
e
n
ci
a
30
120,00%
25
100,00%
20
80,00%
15
60,00%
10
40,00%
5
20,00%
0
0,00%
856 878 900 922 945 967 989 1011 1033 1055 1078 1100 maior
Figura 2.4 - Histograma de medidas de sacos de leite de um litro.
Classes até
Freqüência
856,44
878,61
900,77
922,94
945,10
967,27
989,43
1011,60
1033,77
1055,93
1078,10
1100,26
maior
1
1
1
3
19
19
25
21
23
19
10
4
4
Cumulativa
%
0,67%
1,33%
2,00%
4,00%
16,67%
29,33%
46,00%
60,00%
75,33%
88,00%
94,67%
97,33%
100,00%
Tabela 2.5 - Freqüências de medidas em ml de sacos de leite de um litro. 3
Na primeira linha da tabela 2.5, entre os 150 sacos investigados um saco entra na classe de
pesos de zero a 856,44 ml. Na próxima linha, a classe de sacos entre 856,44 ml a 878,61 ml
tem de novo somente um saco. A freqüência mais popular onde caíram 25 sacos de leite é a
de 967,27 a 989,43. Cada classe possui o mesmo tamanho de aproximadamente 22 ml.
3
Ishikawa, Kaoru (1990) escreveu que existem 7 importantes ferramentas de qualidade: gráficos de controle
(neste livro capítulo 7), histograma, ficha de verificação, gráfico de causas (espinha de peixe), fluxograma,
diagrama de dispersão (terceira parte neste livro) , e gráfico de Pareto.
Capítulo 2. Medidas descritivas e gráficos básicos
15
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
Pode haver uma pequena diferença comparando tamanhos das classes em função de
pequenos erros de arredondamento. A última coluna da tabela 2.4 mostra a percentagem
cumulativa de freqüências até o limite máximo daquela classe. Por exemplo, de todos os
sacos amostrados, 16,67% tem volume até 945,10 ml, o limite mínimo permitido por lei
(950 ml). Em outras palavras quase 17% da produção do laticínio é exposta a multas. É
claro que isso significa que aproximadamente 83% dos sacos têm tamanho maior que o
limite mínimo.
Toda essa informação também consta na figura 2.4, o histograma, mas numa maneira mais
clara e mais fácil compreender, graficamente. Por sinal, a forma do histograma, com
freqüências altas no meio do gráfico e freqüências mais baixas (mais raras) para números
distantes da tendência central é muito comum. Essa constatação é a base da famosa
distribuição normal, e dizem os Estatísticos que sem a distribuição normal não existiria a
área de estudo chamado Estatística. O histograma apresenta um diagrama simples para ver
a tendência central dos dados e a variabilidade melhor que a caixa das medianas. Essa
ferramenta é utilizada para analisar dados através do tempo. Por exemplo, um engenheiro
trabalhando na linha de produção utilizaria o histograma periodicamente para verificar se a
característica está no alvo e a dispersão dos dados não está escapando de um controle
adequado. Os gráficos de controle na sua essência são construídos supondo que os dados
seguem a distribuição normal. Se ocorrer discrepâncias, quer dizer, se dados aparecem
longe da média nas caudas da distribuição, elas devem ser investigadas e o processo
corrigido.
Muitas vezes o analista não utiliza a freqüência absoluta no eixo vertical como foi mostrado
na figura 2.4, mas sim a freqüência em termos percentuais. Assim, cada coluna do
histograma representa uma percentagem da amostra, e, se a amostragem for bem-feita e
consequentemente for representativa, as classes e suas respectivas percentagens devem
refletir a mesma estrutura na população. É importante enfatizar que a soma das
percentagens de todas as classes é naturalmente 100%. Isso fica claro também na última
coluna da tabela 2.5.
Nos próximos dois capítulos, serão elaboradas as distinções entre varias distribuições de
probabilidade, matéria essencial para todos os capítulos subseqüentes, mas especialmente
para a utilização de gráficos de controle da segunda parte do livro.
2.9 Questões para discussão e exercícios
1. A qualidade de uma mercadoria depende essencialmente das suas características
quantitativas, como peso e comprimento, e não das características qualitativas e intuitivas.
No final, para uma operação ser rentável, o consumidor tem que gostar da mercadoria
oferecida e isso depende totalmente da objetividade e não da subjetividade da soma das
características.
2. Os coeficientes de Shewhart são apenas aproximações às formulas exatas, mas ainda
assim com PCs e laptops em todo lugar, até hoje são utilizados estes coeficientes em
fábricas no mundo inteiro. Teria alguma idéia por quê?
Capítulo 2. Medidas descritivas e gráficos básicos
16
Controle Estatístico de Qualidade (CEQ)
Robert Wayne Samohyl Ph.D.
3. Sabemos que ambos os gráficos, a caixa de medianas e o histograma, são excelentes
para monitorar a tendência central e a dispersão de mensurações de características
importantes do processo e produto. No entanto, o histograma possui mais informações do
que a caixa de medianas. Se for visitar uma fábrica, a probabilidade de ver a caixa de
medianas em utilização é bem maior do que o histograma. É um paradoxo ou existe
alguma razão para usar a ferramenta menos informativa?
4. No seu lugar de trabalho, faça mensurações de alguma característica importante do
processo onde você mesmo se insere. Se fosse linha de produção, poderia ser alguma
característica do produto, ou se estivesse em escritório administrativo, poderia ser alguma
medida de desempenho talvez em termos de horas e minutos para completar determinada
tarefa. Coloque os dados numa ficha de verificação, e tentar coletar pelo menos 8 amostras
por dia de tamanho 9, um total de 72 mensurações por dia e em 5 dias um total de 360
mensurações. Com esses dados, construir um histograma e uma caixa de medianas dia a
dia. Certamente vai ver ciclos e padrões na seqüência dos gráficos durante a semana.
Comentar sobre a variabilidade da média e a dispersão dos dados. Encontrou alguma causa
para explicar esses movimentos?
2.10 Referências
MONTEIRO, M., Coordenação. Gestão da Qualidade, Teoria e Casos, Editora
Elsevier/Campus, 2006.
Ishikawa, K. (tradução: John H. Loftus). Introduction to quality control 3ª. Ed. Tokyo:
3A Corporation, 1990.
Capítulo 2. Medidas descritivas e gráficos básicos
17
Download