descrição de dados

Propaganda
CAPÍTULO 1
DESCRIÇÃO DE DADOS
1.1. Introdução
Em qualquer ciência, engenharia, psicologia, medicina, economia, biologia, etc.,
modelos são usados para descrever fenômenos. Estes modelos são criados com base em um
certo número de dados experimentais. Quando se tenta aplicar estes modelos para descrever
outros pontos, erros podem aparecer que devem ser avaliados e quantificados. A Figura 1.1
apresenta uma comparação entre valores experimentais e preditos por um modelo.
Figura 1.1 – Comparação entre Valores Experimentais e Previstos
Em toda ciência, uma grande quantidade de dados é usada e um tratamento
matemático sempre é requerido, de modo a correlacionar estes dados entre si. Métodos
estatísticos são utilizados para estes fins.
Este curso tem como objetivo usar a estatística para a análise de processos em geral;
saber selecionar uma amostra, saber tratar um conjunto de informações, saber fazer um
planejamento experimental (determinar quantas e como experiências devem ser feitas), propor
um modelo matemático que descreva o fenômeno, estimar os parâmetros deste modelo e fazer
a análise dos erros.
Existem basicamente dois tipos de modelos: modelos mecanicistas, desenvolvidos
diretamente a partir de conhecimentos físicos básicos, e os modelos empíricos, desenvolvidos
a partir de equações matemáticas do tipo exponencial, polinomial, logarítmica, por exemplo,
com base em algum fenômeno físico conhecido. Em capítulos posteriores, a estimação de
parâmetros de modelos físicos será estudada, assim como o planejamento das experiências
necessárias para a geração de dados.
O pacote computacional comercial, chamado Statistica, será utilizado ao longo de
todo o curso.
A estatística é enfocada segundo dois aspectos:
 Probabilidade – é a medida quantitativa da chance. Metodologia que permite a descrição
da variação aleatória em sistemas. Ex.: determinar, através do uso de um modelo analítico,
o número ideal de linhas telefônicas de modo a atender a contento todas as ligações de
consumidores;
1

Inferência Estatística – usa dados de uma amostra para obter conclusões gerais a cerca da
população da qual a amostra foi coletada. Ex.: contar o número de lâmpadas defeituosas
em uma amostra e inferir o número total de lâmpadas defeituosas para todo o lote.
1.2. Amostragem
Como afirmado acima, o estudo da inferência estatística usa o conceito de amostras que
devem ser tiradas de uma população. As conclusões a cerca da população dependem do modo
como a amostra foi selecionada. Esta amostra tem que ser representativa da população. A
maioria das técnicas estatísticas considera que as amostras são aleatórias. Não é fácil obter
uma amostra aleatória. Podem-se usar tabelas de números aleatórios, de modo a gerar
amostras, quando a população é pequena. Associa-se um número a cada elemento da
população e escolhe-se, pela tabela de números aleatórios, um conjunto de números de modo
a gerar uma amostra. Técnicas de amostragem serão analisadas posteriormente.
1.3. Descrição de Dados
Os dados para serem analisados podem ser numéricos ou não; por exemplo: cor dos
olhos, país, datas, idades, número de pessoas com catapora, etc. Estes dados recebem o nome
de variáveis. Estas podem ser discretas ou contínuas. Um exemplo de variável discreta pode
ser o número de irmãos, 0, 1, ...10. Em linguagem mais simples: variável discreta é aquela
que não aceita casa decimal. Um exemplo de variável contínua pode ser o peso de uma
pessoa; pode ser qualquer valor dentro de uma certa faixa. Usando a mesma definição
simplória de antes: variável contínua é aquela que aceita casa decimal.
As variáveis podem ser qualitativas ou quantitativas. As variáveis qualitativas são
aquelas descritas por dados não numéricos, como por exemplo nomes de países, tipos de
catalisador (A, B, C), tipos de máquinas (máquina 1, máquina 2), etc. As variáveis
quantitativas são representadas por um valor numérico, como temperatura, pressão, índice de
inflação, diâmetro de partículas,etc. As variáveis qualitativas podem ser tratadas como
quantitativas caso um número seja conferido à informação; por exemplo, país de nascimento:
Brasil = 1, Bélgica = 2; catalisador A = 1, catalisador B = 2.
Dados coletados através de pesquisas podem ser descritos na forma de tabelas ou de
gráficos. Considere os dados da pressão sangüínea de uma amostra de 10 indivíduos:
Tabela 1.1 – Pressão Sangüínea da Amostra de Indivíduos
1
2
3
4
5
6
7
83
88
90
92
96
103
113
8
114
9
123
10
135
Esses dados podem ser visualizados através de um diagrama de pontos (dot diagram),
conforme Figura 1.2, usado para no máximo cerca de 20 observações, que permite ilustrar o
comportamento de valores individuais em relação ao conjunto desses valores. No caso de se
ter pontos repetidos, estes devem ser colocados um acima do outro, formando uma pilha,
Figura 1.3.
  




Figura 1.2 Diagrama de Pontos




  



Figura 1.3 Diagrama de Pontos com Repetição

2
De modo a interpretar melhor o que esses números exprimem, intervalos devem ser
criados, preferencialmente, igualmente espaçados. O número deles depende do número de
observações e o quão dispersos os dados estão. O número de intervalos deve ser
aproximadamente igual à raiz quadrada do tamanho da amostra (é aconselhável). A
especificação da largura do intervalo é uma consideração importante. Intervalos muito
grandes resultam em menos intervalos de classe. O contrário é verdade.
Tabela 1.2 – Tabela de Distribuição de Freqüência das Pressões Sangüíneas
Intervalo
Ponto
Freqüência
Freqüência Freqüência
Médio
Total=10
Relativa (%) Cumulativa
(%)
87,5
4
40
40
80-95 ou 80  x < 95
102,5
2
20
60
95-110 ou 95  x < 110
117,5
3
30
90
110-125 ou 110  x < 125
132,5
1
10
100
125-140 ou 125  x < 140
A coluna da freqüência representa o número de pessoas que possuem pressão
sangüínea no respectivo intervalo. A freqüência relativa é a informação mais importante, pois
independe do número da amostra. Usando o software Statistica, obtém-se o seguinte
resultado:
Tabela 1.3 - Tabela de Distribuição de Freqüência das Pressões Sangüíneas – Saída do
Statistica
1.
2.
3.
4.
Essa tabela foi obtida através do seguinte procedimento:
Abra o módulo Basic Statistics.
Digite os dados da pressão sangüínea.
Escolha a opção Frequency tables.
A janela a seguir irá aparecer; reproduza-a e depois escolha a opção Frequency tables.
Surgirá uma tabela igual à Tabela 1.2, em que apenas os nomes dos itens foram trocados.
Os dados de freqüência relativa e cumulativa são facilmente visualizados através de
histogramas (Figuras 1.5 e 1.7), principalmente para amostras grandes. A Figura 1.5 foi
obtida no Statistica, escolhendo-se a opção Histograms. A curva vermelha desaparecerá se
você apertar o mouse duas vezes exatamente em cima da curva. Escolha a opção Display off.
O histograma de freqüência cumulativa foi obtido editando-se os dados do gráfico da
freqüência relativa. Pressione o botão direito do mouse que deve estar em cima de algum dos
retângulos do histograma. Escolha a opção Edit this Plot/series Data. Uma janela igual a
Figura 1.6 irá aparecer.
3
Figura 1.4 Janela do Statistica.
5
4
FrequênciaRelativa
3
2
1
0
7
0 7
5 8
0 8
5 9
0 9
51
0
01
0
51
1
01
1
51
2
01
2
51
3
01
3
51
4
0
P
ressão
Figura 1.5 – Histograma para Freqüência Relativa – Caso com 4 Intervalos de Classe.
Figura 1.6 Janela do Statistica
4
FrequênciaCumulativa
Some os dados de Y de modo a ficar com: 4,00; 6,00; 9,00 e 10,00. Escolha a opção
Redraw na barra de ferramentas. A escala do eixo Y deve ser modificada. Clique o mouse
duas vezes em cima de qualquer número da escala Y. Na janela Scaling, coloque o valor 10 no
Max.
1
0
9
8
7
6
5
4
3
2
1
0
6
5
8
0
9
5
1
1
0
P
ressão
1
2
5
1
4
0
Figura 1.7 – Histograma para Freqüência Cumulativa – Caso com 4 Intervalos de Classe
A influência do número de intervalos de classe pode ser verificada através da Figura
1.8, gerada pelo Statistica, que usa 5 intervalos de classe. Devido a esse fato, todos os
resultados apresentados a seguir se baseiam nessa informação. O gráfico a
3
FrequenciaRelativa
2
1
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
P
ressao
Figura 1.8 – Histograma para Freqüência Relativa – Caso com 5 Intervalos de Classe
seguir foi gerado no módulo Basic Statistics, na opção Descriptive Statistics, obtendo-se a
Figura 1.9. Na realidade, a opção Frequency tables, usada anteriormente só precisa ser
considerada se se quiser adotar o número de intervalos de classe escolhido por nós.
Se os pontos médios dos retângulos forem conectados por uma linha reta, ou se forem
conectados por uma curva suave, o polígono de freqüência é encontrado, como mostrado na
Figura 1.10 ou na Figura 1.11. A linha da Figura 1.10 foi obtida pressionando o botão direito
do mouse e escolhendo-se a opção Change Plot Layout(s). Reproduza a janela apresentada na
Figura 1.12. No caso da linha da Figura 1.11, a janela deverá ter a aparência apresentada na
Figura 1.13.
5
Figura 1.9 Janela do Statistica quando a opção Descriptive satatistics for escolhida.
3
FrequenciaRelativa
2
1
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
P
ressao
Figura 1.10 – Polígono de Freqüência
6
3
FrequenciaRelativa
2
1
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
P
ressao
Figura 1.11 – Polígono de Freqüência Suavizado
Figura 1.12 Janela do Statistica para a geração da linha da Figura 1.10.
Histogramas podem ser usados com dados qualitativos, como categorias de uma classe
(homem, mulher ou ensinos fundamental, médio e superior). Um histograma de ocorrências
por categoria (em que as categorias são ordenadas pelo número de ocorrências) é chamado de
gráfico Pareto. Este tipo de gráfico é muito usado em controle de qualidade; por exemplo,
pode-se plotar o número de defeitos produzidos em uma determinada peça. No histograma, os
fatos que ocorrerem com maior freqüência devem ficar sempre mais à esquerda na abscissa,
de modo que se possa identificar facilmente aquele item que causa maior custo ou defeito.
Existe um dogma associado ao princípio de Pareto (V. Pareto, economista italiano): uma
minoria de fatores causa a maioria dos problemas. A Figura 1.14 apresenta um exemplo do
gráfico de Pareto.
7
Figura 1.13 Janela do Statistica para a geração da linha da Figura 1.11.
1
0
0
8
0
6
0
4
0
2
0
0
Percentagem
Sold._Insuficient
Sold._Cold_Joint
Sold._Opens
Comp._Improper_1
Sold._Splater
TST_Mark_White_Mark
Tst._Mark_EC_Mark
Raw_CD_Shroud_Re.
Comp._Extra_Part
Comp._Mising
Comp._Damaged
Stamping_Oper_ID
Stamping_Mising
Sold._Short
Wire_Incorrect
Raw_Cd_Damaged
Valores
1
0
0
9
0
8
0
7
0
6
0
0
5
0 4
4
0
2
0
3
0
2
0
7 6 5 3 3 3 2 2 2 1 1 1 1 1
1
0
0
C
ategorias(variavel:N
enhum
D
efeito)
V
alor
P
ercentagem
C
um
ulativa
Figura 1.14 – Gráfico de Pareto – Defeitos em um Circuito
Há uma outra forma de correlacionar dados. Por exemplo, o peso e a pressão
sangüínea de uma série de pessoas podem ser relacionados através do gráfico de dispersão
(scatter diagram), Figura 1.15. Pode ser visto que não existe uma tendência de
comportamento. Esse gráfico foi construído através da opção Graphs, existente na barra de
ferramentas. Escolheu-se Stats 2D Graphs e Scatterplot, obtendo-se a janela da Figura 1.16.
As variáveis devem ser selecionadas.
8
P
E
S
O
v
s.P
R
E
S
S
Ã
O
P
R
E
S
S
Ã
O
=9
1
,5
6
8+,1
6
8
6
6*P
E
S
O
C
o
rrelação
:r=0
,1
6
6
0
3
1
3
0
1
2
0
PRESSÃO
1
1
0
1
0
0
9
0
8
0
4
0
5
0
6
0
7
0
P
E
S
O
8
0
9
0
1
0
0
Figura 1.15 – Diagrama de Espalhamento ou Dispersão (Scatter Diagram)
Figura 1.16 Janela do Staistica para a construção da Figura 1.15.
A descrição numérica dos dados apresentados anteriormente é feita através do uso de
certos índices, chamados estatísticas, dados a seguir.
1.3.1 Medidas da Tendência Central
i) Média Aritmética (Sample Mean) ou Primeiro Momento da Amostra:
n
Xi
(1)
n
i
onde n é o número total de dados. Para o exemplo dado, a média é 103,7. Se os dados forem
representados em termos de freqüência, fica-se com:
X 
p
X 

i 1
p
fi X i
p
f
i 1

f X
i 1
i
n
i
(2)
i
9
em que p é o número de intervalos de classe, Xi é o valor médio do intervalo de classe que
corresponde à freqüência fi. A Equação (2) é a média ponderada. Para os dados de pressão, a
média ponderada é igual a 104, valor esse muito próximo da média aritmética.
ii) Média Geométrica: usada em economia; é sempre menor que a média aritmética.
X  n X 1 X 2 ... X n
(3)
Ex.: Uma empresa se expande 10% no primeiro ano, 20% no segundo ano e 50% no terceiro
ano. Qual é a taxa anual média de expansão ?
X  3 1,1 *1,20 *1,5  3 1,98  1,256
iii) Média Harmônica:
X 
n
1
1
(4)
Xi
n
i 1
Ex.: Você pega uma amostra a cada tempo de um lote de material até que você encontra um
item com defeito. A primeira vez você consegue uma peça com defeito, após 200 tentativas.
Na segunda vez, você tenta 300 e na terceira, 400 vezes. Qual o número médio itens
defeituosos que você espera encontrar ?
Solução: É importante ter amostras do mesmo tamanho. A primeira amostra tem 0.5% das
peças com defeito. A segunda tem 0,33% e a terceira tem 0,25%. A média de defeitos na
amostra de tamanho 100 é (0,5+0,3333+0,25)/3=0,361. A média harmônica será:
3600 (itens bons)
3
X 

 276,92
1 / 200  1 / 300  1 / 400 13 (itens defeituosos)

iv) Moda: a moda corresponde ao dado que tem maior freqüência; ou seja, que mais ocorre.
Se existirem dois valores com igual número de ocorrência, diz-se que a distribuição é
bimodal; para mais de dois valores, tem-se a distribuição multimodal. Quando não há um
valor que ocorra com mais freqüência, então esta distribuição não tem moda. No exemplo
dado, não existe moda. Porém, quando os dados são expressos no histograma, a moda é igual
a 87,5, correspondendo ao valor médio do maior pico. A moda não é uma boa medida da
tendência central, visto que ela depende do grupo de dados; ou seja, depende de como os
dados são agrupados. Para os dados na forma da Tabela 1.2, tem-se:
 a 
MO  LMO  
(5)

ab
sendo LMO o limite inferior da classe modal (o intervalo com a maior freqüência), a é o valor
absoluto da diferença na freqüência entre a classe modal e a classe precedente, b é o valor
absoluto da diferença na freqüência entre a classe modal e a classe seguinte e  é a largura da
classe modal.
v) Mediana: é o ponto que divide a amostra em duas metades. Por exemplo, tendo-se um
conjunto de observações, tal qual: 10, 50, 25, 60 e 45, a mediana é igual a 45, depois de
rearranjar em ordem crescente os dados. O número 45 divide ao meio a amostra. No exemplo
dado anteriormente, tem-se um número par de dados. Neste caso, deve-se fazer a média
aritmética entre o valor correspondente ao meio do intervalo e o valor imediatamente
posterior. Assim, a mediana é igual a 99.5. A fórmula geral é:
10
 X ( n 1) / 2  n  ímpar

M   X n / 2  X ( n / 21)
 n  par

2

(6)
Em termos de freqüência, fica-se com:
 n 1

T 


(7)
M  LM   2
 fM 




em que LM é o limite inferior do intervalo contendo a mediana (chamado a classe mediana),
fM é a freqüência na classe mediana, T é o total de todas as freqüências nos intervalos
precedendo a classe mediana e  é a largura da classe mediana.
A mediana tem a vantagem de não ser muito influenciada pelos valores extremos. Por
exemplo, considere a seguinte amostra: 1,2,3,4,6,7 e 8. A média é igual a 4,43 e a mediana é
igual a 4. Mas se ao invés de 6 o valor for 2.519, a média será 363,43 e a mediana continuará
a ser 4.
Se os dados são simétricos, então a média, a mediana e a moda coincidem, Figura
1.17; porém, se a distribuição for assimétrica, essas estatísticas não coincidem, ficando-se
com uma distribuição assimétrica para a esquerda (negativamente assimétrica) e uma
distribuição assimétrica para a direita (positivamente assimétrica), conforme Figuras 1.18 e
Figura 1.19, respectivamente.
9
8
7
6
Frequência
5
4
3
2
1
0
5
1
0
1
5
2
0
2
5
3
0
3
5
4
0
4
5
FrequênciaRelativa
Figura 1.17 – Distribuição Simétrica
2
0
1
8
1
6
1
4
1
2
1
0
8
6
4
2
0
1
0
1
5
2
0
2
5
3
0
3
5
4
0
Figura 1.18 – Distribuição Assimétrica para a Esquerda (Negativamente Assimétrica)
11
FrequênciaRelativa
2
0
1
8
1
6
1
4
1
2
1
0
8
6
4
2
0
1
0
1
5
2
0
2
5
3
0
3
5
4
0
Figura 1.19 – Distribuição Assimétrica para a Direita (Positivamente Assimétrica)
vi) Quartis: são os pontos que dividem a amostra (em ordem crescente) em 4 partes iguais;
assim, tem-se o quartil de 25% (quartil inferior), o quartil de 50% (a própria mediana) e o
quartil de 75% (quartil superior). Por exemplo, para o conjunto de observações 30, 54, 78,
102, 165 e 180, os quartis de 25% e de 75% são iguais a 54 e 165, respectivamente. Ou seja,
25% dos dados estão abaixo de 54 e 75% dos dados estão abaixo de 165. Quando o número
de observações não permitir uma divisão em duas e três partes iguais, há diferentes maneiras
de calcular os quartis. O Statistica usa as seguintes maneiras:
a) p%  (1  g )  x j  g  x j 1
onde j é a parte inteira do produto n p (=j+g) e g é a
parte fracionária desse produto; n é o número de dados da amostra e p é o valor do quartil de
interesse (25% ou 75%). Para os dados da Tabela 1.1, tem-se:
n  p  10 * 0,25  2,5  j  g ;
n  p  10 * 0,75  7,5  j  g
logo, j=2 (e j=7)e g=0,5 (e g=0,5). Assim, x2=88 (x7=113) e x3=90 (x8=114), ficando-se com:
25%  (1  0,5)  88  0,5  90  89
75%  (1  0,5)  113  0,5  114  113,5
b) p%  (1  g )  x j  g  x j 1
tem-se:
com
(n  1)  p  j  g . Para os dados da Tabela 1.1,
(n  1)  p  (10  1) * 0,25  2,75  j  g
(n  1)  p  (10  1) * 0,75  8,25  j  g
25%  (1  0,75)  88  0,75  90  89,5
75%  (1  0,25)  113  0,25  114  113,25
c) p %  x j
p %  x j 1
se g=0
com j=2 e g=0,75
com j=8 e g=0,25
sendo n p=j+g
se g>0
Para os dados da Tabela 1.1, tem-se que: 25% = 90 e 75% = 114.
Todas as três maneiras deram valores muito próximos. Existem outras formas de
calcular os quartis; para maiores detalhes, procurar bibliografia complementar.
12
Os valores da média, da mediana e dos quartis são apresentados na Tabela 1.4, obtida
do Statistica quando a opção Detailed descriptive statistics foi escolhida na janela mostrada
na Figura 1. 9, com a caixa Median & quartiles marcada.
Tabela 1.4 – Valores da Média e da Mediana
1.3.2 Medidas de Dispersão
Às vezes a medida da tendência central não fornece informação suficiente. O exemplo
abaixo ilustra a importância de um índice de dispersão.
Amostra 1: 230 250 245 258 265 240
Amostra 2: 190 228 305 240 265 260
Média Aritmética: 248 psi. A amostra 2 é bem mais dispersa.
i) Variância ou Segundo Momento da Amostra:
n
s2 
_
 ( X i  X )2
i 1
(8)
n 1
A razão para o denominador ser igual a n-1 é devido ao grau de liberdade do sistema
ser igual a n-1. Se o denominador fosse igual a n e se n = 1, não haveria dispersão a ser
computada.
Para grupo de dados, fica-se com:
 p

  f i X i 
i 1

f i X i2  
n
n 1
n
s2 

i 1
2
s  s2
ii) Desvio-padrão:
(9)
(10)
iii) Amplitude (Sample Range): fácil de calcular, mas só calcula informação entre os
valores extremos. Para amostras com menos de 10 observações, isto não é problema. Para o
exemplo em questão, a faixa de amostra seria igual a 35, para o primeiro caso, e 115 para o
segundo, mostrando assim que a segunda amostra tem maior variabilidade.
R  max( X i )  min( X i )
(11)
iv) Covariância: é uma média dos produtos dos desvios da média.
n
 XY 
(X
i 1
i
 X )(Yi  Y )
n 1
(12)
13
Covariância negativa significa grandes valores de X associados com pequenos valores
de Y e vice-versa. A covariância depende da unidade das variáveis. Esta dependência é
eliminada quando a covariância é dividida pelo produto dos desvios-padrão das variáveis,
resultando no coeficiente de correlação, definido abaixo.
v) Coeficiente de Correlação: mede o grau de associação entre duas variáveis
n
r
( X
i 1
i
 X )( Yi  Y )
n
2
 ( X i  X ) 
 i 1

1/ 2
n
2
 ( Yi  Y ) 
 i 1

1/ 2
(13)
O coeficiente de correlação nunca pode ser menor que –1 e maior que 1.
Os valores da variância, do erro-padrão, da amplitude, de máximo e mínimo e da
amplitude dos quartis são apresentados na Tabela 1.5. O erro-padrão é definido como o
desvio-padrão dividido pela raiz quadrado do número de observações. Todos esses valores
foram obtidos utilizando a opção More statistics e selecionando-se todas aquelas de interesse.
Tabela 1.5 – Várias informações obtidas do Statistica.
Uma outra forma gráfica de apresentar os dados é o chamado diagrama de caixa (box
plot) ou diagrama de caixa e linhas (box and whiskers), que permite descrever
simultaneamente vários fatores importantes de uma série de dados, tais como a tendência
central (média ou mediana), a dispersão (desvio-padrão), a possibilidade de detectar outliers
(pontos bastante diferentes do conjunto de dados) e o desvio da simetria. A Figura 1.20
apresenta um exemplo deste tipo de gráfico. O Statistica permite 4 diferentes visualizações,
de acordo com a estatística escolhida. No geral, tem-se que as retas verticais podem
representam os valores máximo e mínimo do conjunto de dados (faixa da amostra) ou o
desvio-padrão ou erro-padrão; o ponto central representa a média ou mediana e as retas
horizontais que formam a caixa representam o quartil 25% (reta inferior) e o quartil 75% (reta
superior), respectivamente.
130
120
110
100
90
80
P
R
E
S
S
A
O
M
ax=125
M
in=83
75%
=114
25%
=90
M
edian=99,5
Figura 1.20 - Diagrama de Caixa – Tipo 1
14
120
115
110
105
100
95
90
85
P
R
E
S
S
A
O
±
1.00*S
td.D
ev.
S
td.D
ev.=15,15879
±
1.00*S
td.E
rr.
S
td.E
rr.=4,793633
M
ean=102,7000
Figura 1.21 - Diagrama de Caixa – Tipo 2
140
125
110
95
80
65
P
R
E
S
S
A
O
±
1.96*S
tD
ev
±
1.00*S
td.D
ev.
S
td.D
ev.=15,15879
M
ean=102,7000
Figura 1.22 - Diagrama de Caixa – Tipo 3
114
110
106
102
98
94
90
P
R
E
S
S
A
O
±
1.96*S
td.E
rr.
±
1.00*S
td.E
rr.
S
td.E
rr.=4,793633
M
ean=102,7000
Figura 1.23 - Diagrama de Caixa – Tipo 4
15
2
,5
2
,5
2
,0
2
,0
1
,5
1
,5
1
,0
1
,0
0
,5
0
,5
0
,0
0
,0
-0
,5
-0
,5
Janeiro
Fevereiro
Marco
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
Inflação
Quando uma das variáveis é o tempo, a dispersão é analisada através do gráfico
sequencial ou em linha. A abscissa corresponde ao tempo em que um evento (escala vertical)
ocorre. Dessa forma, tendências podem ser facilmente detectadas, como pode ser visualizado
pela Figura 1.24.
M
eses
Figura 1.24 – Gráfico Sequencial
1.3.3 Medidas de Desvio da Normalidade
a) Simetria: o desvio da simetria de uma distribuição pode ser medido através de uma
estatística chamada skewness (termo proposto por Pearson em 1895). A fórmula de
cálculo é dada a seguir:
n
Skewness 
n  ( xi  x ) 3
i 1
(14)
(n  1)( n  2) 3
em que n = número de pontos experimentais, xi = valor do i-ésimo ponto experimental,
x = média dos pontos experimentais e 2 = variância da população.
b) Kurtosis: mede o achatamento/alongamento da curva de uma distribuição. Se o valor da
kurtosis for igual a zero, então a distribuição será normal. A distribuição será mais
achatada ou mais alongada, dependendo se o valor da kurtosis for negativo ou positivo,
respectivamente. O cálculo dessa estatística é dado a seguir.
2
n


 n
4
2
n(n  1) ( xi  x )  3(n  1)  ( xi  x )  
i 1
 i 1
 

(15)
Kurtosis  
4
(n  1)( n  2)( n  3)


16
1.4 Exercícios
1.1 Os seguintes dados são as temperaturas, em dias consecutivos, do efluente na descarga de
uma unidade de tratamento de esgoto:
43
47
51
48
52
50
46
49
45
52
46
51
44
49
46
51
49
45
44
50
48
50
49
50
(a)
Calcule a média, a mediana, a variância e o desvio-padrão da amostra.
(b)
Construa um diagrama de caixa dos dados e comente sobre a informação obtida aí.
(c)
Você poderia afirmar que a amostra é proveniente de uma população normal?
1.2 Os seguintes dados são os números de ciclos até falhar, de corpos de prova de alumínio,
sujeitos a uma tensão alternada repetida, de 21.000 psi e 18 ciclos por segundo.
a) Construa uma distribuição de freqüências e histograma.
b) Encontre a mediana e os quartis inferior e superior.
1.3 Considere as duas amostras dadas abaixo:
Amostra 1: 10; 9; 8; 7; 8; 6; 10 e 6.
Amostra 2: 10; 6; 10; 6; 8; 10; 8 e 6.
(a)
Calcule a amplitude para ambas amostras. Você concluiria que ambas amostras
exibem a mesma variabilidade? Explique.
(b)
Calcule o desvio-padrão de ambas amostras. Essas quantidades indicam que ambas
amostras têm a mesma variabilidade? Explique.
(c)
Escreva um curto texto contrastando a amplitude da amostra com o desvio-padrão
da amostra, como medida de variabilidade.
1.4 Um artigo em Quality Engineering (Vol. 4, 1992, p. 487-495) apresenta dados de
viscosidade de um processo químico em batelada. Uma amostra desses dados é apresentada a
seguir.
(a)
Considere a noção de que as 40 primeiras observações foram geradas a partir de
um processo específico, enquanto que as 40 últimas observações foram geradas a
partir de um processo diferente. O gráfico indica que os dois processos geram
resultados similares?
(b)
Calcule a média e a variância das 40 primeiras observações; então, calcule esses
valores para as 40 últimas observações. Essas quantidades indicam que ambos os
17
processos resultam no mesmo nível de média? E a mesma variabilidade?
Explique.
1.5 A percentagem de algodão no material usado para fabricar camisas de homens é dada a
seguir. Encontre a mediana, a moda e a média da amostra dos dados no Exercício 2-3.
Explique como essas três medidas de localização descrevem diferentes características dos
dados.
18
Download