ESTATÍSTICA DESCRITIVA Amostras com dados agrupados em

Propaganda
Estatística Descritiva
ESTATÍSTICA DESCRITIVA
Amostras com dados agrupados em classes
Nas próximas secções iremos abordar a análise estatística de uma amostra em que os
dados numéricos estão agrupados em classes, ou seja, em intervalos.
Este agrupamento em classes pode dever-se a diversos motivos:
•
fonte de informação: os dados podem ter sido obtidos em fontes em que os
dados já estão no formato de classes, e não se dispõe dos dados individualizados
para todos os elementos da amostra. É o que acontece frequentemente em dados
recolhidos de publicações de diversas Instituições (por exemplo, Anuários do
Instituto Nacional de Estatística);
•
no processo de recolha de informação, os dados foram recolhidos em classes, e
não individualizados. Imaginemos, por exemplo, a recolha de diâmetros de
árvores num povoamento florestal, em que se registaram o número de árvores
cujos diâmetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em
vez de se registarem os diâmetros individualmente;
•
a dimensão da amostra é demasiado grande, agrupando-se os dados em classes, a
fim de facilitar a análise (esta vantagem actualmente é insignificante, face aos
meios de cálculo disponíveis).
Muitas das variáveis numéricas são de natureza contínua, em que o processo de
quantificação do valor dessa variável pressupõe de algum modo a discretização da
variável. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a
característica “peso” é tipicamente de natureza contínua; porém, ao pesar cada um dos
borregos, o operador faz um registo que corresponde a um valor aproximado do peso
desse borrego, e não do seu peso exacto; os erros de arredondamento, ou aproximação,
que se fazem nestas situações, dependem fundamentalmente dos objectivos do estudo,
do material usado, etc.
Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente
o que se está a fazer é arredondar para este valor toda a gama de pesos que com maior
precisão de pesagem poderão estar no intervalo ]4.45 , 4.55].
Isto é, muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variáveis contínuas mas que são discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obtenção do valor da variável.
Quando o estatístico tem possibilidade de definir o número de classes (relativamente aos
três casos anteriormente referidos, o estatístico só não tem essa possibilidade no
primeiro dos casos; em ambos os outros, cabe ao estatístico definir as classes ou
intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o
número de classes a formar.
Em muitas situações, esta definição é efectuada antes de se realizar a recolha de dados,
de modo que ao efectuar as medições ou o processo de recolha de informação, ao
ESA
2005/2006
1
Estatística Descritiva
estatístico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada
uma das observações.
Numa situação deste género, as classes são de um modo geral estabelecidas de modo a
facilitar a obtenção e o registo das observações.
Se o estatístico dispõe do rol (ou listagem) de todas as observações individualizadas, e
pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar
o histograma, seja para cálculo dos parâmetros estatísticos), a primeira operação é
definir o número de classes.
Existem diversas propostas empíricas para a definição do número de classes k a definir;
uma regra consiste em definir um número de classes próximo à raiz quadrada do
número de observações:
k≈ N
Esta regra parece funcionar bastante bem, se o número de dados não é demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realização de
20 classes de dados). Outra regra, também muito usual, consiste em usar um número de
classes definido por (em que log(.) representa o logaritmo decimal):
k = 1 + 3.3 × log ( N ) , arredondado ao inteiro superior
Em qualquer dos casos, devem definir-se classes com a mesma amplitude.
Estas regras têm um carácter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prática que advêm da definição das classes cujos limites inferior e
superior coincidam com valores fáceis de manusear.
Exemplo:
Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde xmin = 297.47 g e xmax = 305.13 g . As regras anteriores sugerem a
formação de 10 classes e 8 classes, respectivamente.
Combinando estas indicações com o aspecto prático, se fixarmos os limites do intervalo
de variação em ]279.00,306.00] , a amplitude deste intervalo é de 9.00 g, sugerindo a
realização de 9 classes, de amplitude 1.00 g, definidas como:
]297.00, 298.00] , ]298.00, 299.00] , ]299.00,300.00] ,..., ]305.00,306.00]
Repare-se que, de um modo geral se estão a respeitar as indicações teóricas do número
de classes a formar, em conjugação com o aspecto prático dos limites das classes
ficarem bem definidos.
Nota acerca dos limites das classes: subsiste sempre alguma confusão acerca dos limites
das classes, se deverão ser abertos no limite inferior e fechados no limite superior, isto
ESA
2005/2006
2
Estatística Descritiva
é, do tipo  Linf , Lsup  , ou se os limites devem ser ao contrário, isto é,  Linf , Lsup  . Vamos
adoptar a definição  Linf , Lsup  , já que desta maneira estamos a ser coerentes com a
definição da função cumulativa de probabilidades.
Pressupõe-se que em cada uma das classes, todas as observações dessa classe estão
concentradas no centro ou marca da classe.
Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados
para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre xmin = 297.47 g e xmax = 305.13 g ,
conforme anteriormente referido; não se registaram as observações individualizadas,
mas apenas se contaram o número de ocorrências em cada uma das classes); o número
de classes é k = 9 , e amplitude de cada classe é de 1 unidade:
Limites das classes (peso, em g)
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
TOTAL
Nº de garrafas
8
21
28
15
11
10
5
1
1
N = 100
Tabela de frequências e histograma
ni
é a
N
frequência relativa da observação xi , e Fac, fra são as frequências absolutas
acumuladas e as frequências relativas acumuladas:
A tabela de frequências e o histograma têm o seguinte aspecto, onde fi =
Classes de peso (g)
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
TOTAL
ni
8
21
28
15
11
10
5
1
1
Fac
8
29
57
72
83
93
98
99
100
9
9
N = ∑ ni = 100
∑f
i =1
ESA
fi
0.08
0.21
0.28
0.15
0.11
0.10
0.05
0.01
0.01
i =1
2005/2006
i
fra
0.08
0.29
0.57
0.72
0.83
0.93
0.98
0.99
1.00
=1
3
Estatística Descritiva
O histograma das frequências absolutas – que é uma estimativa da função de
distribuição de probabilidades da população de onde a amostra foi recolhida - tem o
seguinte aspecto (o histograma das frequências relativas tem exactamente o mesmo
aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta,
vem em escala relativa):
Histograma de frequências absolutas
30,0
Count
20,0
10,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
então a marca da classe (isto é, o centro de cada uma das classes).
O histograma dá diversas informações acerca da distribuição das frequências,
nomeadamente em termos de valores mais frequentes (classe modal, que no caso é a
classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuição é assimétrica à
esquerda ou assimétrica positiva), regiões do intervalo de variação onde não existem
observações, bem como da representatividade de cada uma das classes.
O histograma das frequências relativas acumuladas (que constitui uma estimativa da
função cumulativa de probabilidades) apresenta-se em seguida.
Quanto maior for um degrau de um valor xi −1 (anterior) para o valor xi (actual), maior é
a frequência de observações do valor xi , e vice-versa. Note-se que nos primeiros
valores de x os degraus entre os diversos patamares são bastante elevados,
correspondendo a maiores frequências para os respectivos valores de x, enquanto que
para os últimos valores de x, os degraus são bastante pequenos, significando que as
respectivas frequências são baixas.
ESA
2005/2006
4
Estatística Descritiva
Histograma de frequências acumuladas
100,0
Percent
75,0
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
Repare-se por exemplo no seguinte histograma de frequências acumuladas,
correspondente a uma distribuição uniforme das frequências pelos diversos valores de x.
Num caso destes, os degraus entre os sucessivos valores de x têm todos a mesma altura:
Histograma de frequências acumuladas
100,0
Percent
75,0
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
x
Diagrama de pontos e diagrama de caule-e-folhas
ESA
2005/2006
5
Estatística Descritiva
Para grandes amostras, estes diagramas ficam muito pesados, e são de interpretação
mais difícil. Aliás, se estes tipos de gráficos ganham vantagem sobre o histograma, no
caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usarse preferencialmente o histograma.
Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, só podem ser elaborados
se dispusermos dos registos de todas as observações; se se dispuser apenas da tabela de
frequências, não se podem elaborar estes gráficos.
Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100
embalagens de manteiga (anexo), e não apenas a tabela de frequências, estes diagramas
apresentam-se de seguida.
Diagrama de pontos:
Veja-se que este diagrama é agora, ao contrário do que acontecia para pequenas
amostras, pouco informativo, já que mostra a localização de uma nuvem enorme de
pontos sobre a escala da variável. Pode, inclusivamente, induzir a diversas análises
menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor
máximo como outlier, quando na realidade não o é, etc.
Diagrama de caule-e-folhas
Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do
“caule” (diagrama no lado esquerdo), obtém-se o histograma deitado, não se ganhando
ESA
2005/2006
6
Estatística Descritiva
mais informação do que a obtida pelo histograma. Fazendo o incremento de 0.5
unidades (diagrama do lado direito), dá uma ideia mais precisa da distribuição, agora
em classes de 0.5 g de amplitude. Mas esta mesma informação se poderia também obter
no histograma, aumentando o número e diminuindo a amplitude das classes.
Para lá da informação que o histograma também fornece, obtém-se a indicação mais
imediata da classe mediana.
Parâmetros estatísticos
Parâmetros de localização
Moda
É o valor mais frequente (com maior frequência absoluta ou relativa) na amostra.
Da tabela de frequências apresentada anteriormente, do histograma, ou do diagrama de
caule-e-folhas, deduz-se a moda ocorre na classe ]299.00, 300] (classe modal).
Pretendendo um valor único, e não uma classe de valores, para a moda, este valor será
um ponto no interior da classe modal, desviado mais para o limite inferior limie
superior, de acordo com as frequências nas classes adjacentes.
O valor da moda é calculado pela seguinte expressão:
Mod = Linf +
d1
.∆
d1 + d 2
onde:
Linf
Limite inferior da classe modal;
d1 = nclasse modal − nclasseanterior
ou
d1 = f classe modal − f classeanterior
d 2 = nclasse modal − nclasseseguinte
∆
d1 = f classe modal − f classeseguinte
ou
Amplitude da classe modal.
No exemplo, temos:
Linf = 299.00
d1 = nclasse modal − nclasseanterior = 28 − 21 = 7
d 2 = nclasse modal − nclasseseguinte = 28 − 15 = 13
∆ =1
d1
7
× 1.00 = 299.35
.∆ = 299.00 +
d1 + d 2
7 + 13
Repare-se que o valor da moda não está rigorosamente no centro da classe modal, mas
está mais deslocado para o lado do limite inferior da classe modal, pois a frequência da
Mod = Linf +
ESA
2005/2006
7
Estatística Descritiva
classe anterior ( nclasseanterior = 28 ) é superior à frequência da classe seguinte à classe
modal ( nclasseseguinte = 15 ).
Mediana
A mediana é o valor xi tal que metade da amostra se localiza abaixo e a outra metade de
amostra se localiza acima desse valor.
Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequências
ou do histograma das frequências acumuladas (valor xi para o qual a frequência
absoluta acumulada é igual ou superior a metade da amostra), ou a partir do diagrama de
caule-e-folhas. O valor da mediana é um valor contido nesta classe, e é estimado pela
seguinte expressão, conforme se utilizem frequências absolutas acumuladas ou
frequências relativas acumuladas:
N
− Facclasse anterior
0.5 − fraclasse anterior
2
.∆ = Linf +
.∆
Med = Linf +
nclasse mediana
f classe mediana
em que Facclasse anterior ,
fraclasse anterior são, respectivamente, a frequência absoluta
acumulada ou a frequência relativa acumulada até à classe anterior à classe mediana,
nclasse mediana , f classe mediana são a frequência absoluta ou a frequência relativa da classe
mediana, Linf é o limite inferior da classe mediana e ∆ é a amplitude da classe mediana.
ESA
2005/2006
8
Estatística Descritiva
Para a amostra em estudo, a classe mediana é a classe ]299.00 , 300.00], Linf = 299.00 ,
Facclasse anterior = 29 , nclasse mediana = 28 e ∆ = 1.00 ; assim, a mediana é:
N
− Facclasse anterior
50 − 29
2
× 1.00 = 299.75
Med = Linf +
.∆ = 299.00 +
nclasse mediana
28
Quartis, decis, percentis
Tal como para o caso das amostras discretas ou de pequena dimensão, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartílicos, definidos
respectivamente por [ xmin , Q1 ] ; [Q1 , Q2 ] ; [Q2 , Q3 ] ; [Q3 , xmax ] .
Para definir cada um dos quartis, localiza-se a classe quartílica respectiva (isto é, a
classe onde ocorrem 25%, 50% e 75% das observações), e de seguida determina-se qual
dos valores de cada uma dessas classes é teoricamente o respectivo quartil, usando a
seguinte expressão:
j. N
j
− Facclasse anterior , j
− fraclasse anterior , j
4
4
.∆ = Linf, j +
.∆
Q j = Linf, j +
nclasseQ j
f classeQ j
j = 1, 2,3
1º quartil (j=1):
1ª classe quartílica:
Facclasse anterior = 8
]298.00 , 299.00]
nclasseQ1 = 21
N
100
− Facclasse anterior ,1
−8
× 1.00 = 298.81
Q1 = Linf,1 + 4
.∆ = 298.00 + 4
nclasseQ1
21
3º quartil (j=3):
3ª classe quartílica:
Facclasse anterior = 72
]301.00 , 302.00]
nclasseQ3 = 11
3.N
3 × 100
− Facclasse anterior ,3
− 72
4
4
× 1.00 = 301.27
Q3 = Linf,3 +
.∆ = 301.00 +
nclasseQ3
11
Naturalmente, o 2º quartil coincide com a mediana: Q2 ≡ Med = 299.75 .
ESA
2005/2006
9
Estatística Descritiva
A expressão anterior generaliza-se de uma maneira lógica para qualquer percentil:
j. N
j
− Facclasse anterior , j
− fraclasse anterior , j
100
100
.∆ = Linf, j +
.∆
Pj = Linf, j +
nclasse Pj
f classe Pj
em que Facclasse anterior ,
j = 1, 2,3,...,100
fraclasse anterior são, respectivamente, a frequência absoluta
acumulada ou a frequência relativa acumulada até à classe anterior à classe do percentil
pretendido, nclasse Pj , f classe Pj são a frequência absoluta ou a frequência relativa da classe
do percentil pretendido, Linf é o limite inferior da classe do percentil e ∆ é a amplitude
da classe do percentil em consideração.
Para os decis, basta fazer j = 10, 20,30,...,90 na expressão anterior.
Vejamos, por exemplo, os percentis P5 , P10 , P90 , P95 :
Percentil 5% (j=5):
Classe do percentil 5%:
Facclasse anterior = 0
]297.00 , 298.00]
nclasse P5 = 8
5.N
5 ×100
− Facclasse anterior ,5
−0
100
100
P5 = Linf,5 +
.∆ = 297.00 +
× 1.00 = 297.625
nclasse P5
8
Percentil 10% (j=10):
Classe do percentil 10%:
Facclasse anterior = 8
]298.00 , 299.00]
nclasse P10 = 21
10.N
10 × 100
− Facclasse anterior ,10
−8
100
100
P10 = Linf,10 +
.∆ = 298.00 +
× 1.00 = 298.095
nclasse P10
21
Percentil 90% (j=90):
Classe do percentil 90%:
Facclasse anterior = 83
]302.00 , 302.00]
nclasse P90 = 10
90.N
90 ×100
− Facclasse anterior ,90
− 83
P90 = Linf,90 + 100
.∆ = 302.00 + 100
× 1.00 = 302.7
nclasse P90
10
ESA
2005/2006
10
Estatística Descritiva
Percentil 95% (j=95):
Classe do percentil 95%:
Facclasse anterior = 93
]303.00 , 304.00]
nclasse P95 = 5
95.N
95 × 100
− Facclasse anterior ,95
− 93
100
100
P95 = Linf,95 +
.∆ = 303.00 +
× 1.00 = 303.4
nclasse P95
5
Nota: de um modo geral há sempre interesse em calcular, para além da mediana e dos
quartis, os percentis P10 e P90 , pois entram no cálculo de coeficientes de assimetria e de
achatamento.
Média
Tal como no caso de amostras de pequena dimensão, mas onde existem dados repetidos,
sendo ni a frequência absoluta da i.ésima classe i = 1, 2,3,..., k , tal que
k
∑n
i =1
i
=N, a
média de uma amostra agrupada em classes é calculada por:
k
x=
∑ n .x
i =1
i
i
N
Nesta situação, o valor xi é a marca (ou valor central) da i.ésima classe i = 1, 2,3,..., k .
Para calcular a média, elabora-se a seguinte tabela como ferramenta de cálculo:
Classe
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
xi
297,5
298,5
299,5
300,5
301,5
302,5
303,5
304,5
305,5
ni
8
21
28
15
11
10
5
1
1
ni .xi
2380,0
6268,5
8386,0
4507,5
3316,5
3025,0
1517,5
304,5
305,5
9
∑ n .x
i =1
ESA
2005/2006
i
i
= 30011.0
11
Estatística Descritiva
k
Logo, a média é x =
∑ n .x
i
i =1
N
i
=
30011
= 300.11
100
k
∑ n .x
i
i
k
n
ni .xi k ni
=∑ .xi =∑ f i .xi , em que fi = i é a frequência relativa
N
N
i =1 N
i =1 N
i =1
da observação xi . Isto é:
Nota: x =
i =1
k
=∑
Classe
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
xi
297,5
298,5
299,5
300,5
301,5
302,5
303,5
304,5
305,5
fi
0,08
0,21
0,28
0,15
0,11
0,1
0,05
0,01
0,01
fi .xi
23,800
62,685
83,860
45,075
33,165
30,250
15,175
3,045
3,055
9
x = ∑ fi .xi = 300.11
i =1
No exemplo nota-se que Mod = 299.35 < Med = 299.75 < x = 300.11 , o que é um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto é, a amostra
denota uma tendência de assimetria à direita, ou assimetria positiva.
Parâmetros de dispersão
Para além de caracterizar a distribuição de uma amostra pela sua tendência de
localização ou tendência central, temos de descrever igualmente a sua tendência de
dispersão ou variabilidade, que é um indicador da variabilidade das observações em
torno dos valores centrais.
Intervalo e amplitude de variação
O intervalo de variação da amostra é o intervalo definido por:
[ x1 , xN ]
isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d
variação (“Range”) é a amplitude deste intervalo:
R = xN − x1
ESA
2005/2006
12
Estatística Descritiva
O intervalo de variação da amostra em análise é [297.47 , 305.13] e a amplitude de
variação é R = 305.13 − 297.47 = 7.66 .
Amplitude inter-quartílica
A amplitude inter-quartílica é definida como:
Q3 − Q1
Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de
concentração dos valores em torno da média, ainda não leva em conta todas as
observações presentes na amostra.
Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na
comparação da variabilidade de diversas amostras retiradas da mesma população do que
na descrição da dispersão de uma única amostra.
Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartílica é de
Q3 − Q1 = 301.27 − 298.81 = 2.46 .
Diagrama de extremos-e-quartis
Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua
designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da
variabilidade de uma amostra, bem como analisar a distribuição da concentração nas
quatro sub-amostras definidas pelos quartis (intervalos quartílicos).
Esta representação gráfica consiste em desenhar um rectângulo, com a base na escala
das observações, e em que os dois lados laterais são respectivamente o 1º e 3º quartis;
ligam-se estes lados com um segmento de recta à escala, respectivamente ao valor
mínimo e ao valor máximo da amostra. O rectângulo, que representa a amplitude interquartílica, é dividido pela mediana.
Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma
ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão
ou concentração de valores, bem como deduzir acerca da sua simetria.
Na amostra em estudo, este diagrama tem o seguinte aspecto:
ESA
2005/2006
13
Estatística Descritiva
Repare-se que a amostra é mais concentrada no 2º intervalo quartílico. A zona de maior
dispersão de valores ocorre no 4º intervalo quartílico.
Nota-se a ocorrência de um valor (valor máximo) que deve ser considerado como
outlier moderado, já que:
xmax = 305.13 > Q3 + 1.5 × ( Q3 − Q1 ) = 301.27 + 1.5 × 2.46 = 304.96
Contudo, não é outlier extremo porque:
xmax = 305.13 < Q3 + 3 × ( Q3 − Q1 ) = 301.27 + 3 × 2.46 = 308.65
Desvio médio
Uma medida da dispersão em torno da média resulta da soma dos desvios de cada
observação para a média:
N
∑ x −x
dm =
i =1
i
N
Para dados agrupados em classes, o desvio médio calcula-se pela expressão seguinte,
em que xi é a marca de cada uma das k classes:
k
dm =
ESA
∑n . x − x
i =1
i
i
N
k
=∑
i =1
k
ni
. xi − x = ∑ fi . xi − x
N
i =1
2005/2006
14
Estatística Descritiva
Este parâmetro mede o afastamento médio de cada observação para a média: quanto
maior for (comparativamente com a média ou com os dados originais), mais dispersa
será a amostra, e consequentemente menos representativa é a média.
Na tabela de cálculo seguinte apresentam-se os cálculos do desvio médio da amostra em
análise:
Classe
xi
ni
xi − x
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
297,5
298,5
299,5
300,5
301,5
302,5
303,5
304,5
305,5
8
21
28
15
11
10
5
1
1
-2,61
-1,61
-0,61
0,39
1,39
2,39
3,39
4,39
5,39
ni . xi − x
20,88
33,81
17,08
5,85
15,29
23,9
16,95
4,39
5,39
9
∑n . x − x
i =1
i
i
= 143.54
k
O desvio médio é dm =
∑n . x − x
i =1
i
i
N
=
143.54
= 1.4354 .
100
O desvio médio também podia ser calculado usando as frequências relativas:
xi
fi
xi − x
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
297,5
298,5
299,5
300,5
301,5
302,5
303,5
304,5
305,5
8
21
28
15
11
10
5
1
1
fi . xi − x
0,2088
0,3381
0,1708
0,0585
0,1529
0,2390
0,1695
0,0439
0,0539
9
dm = ∑ fi . xi − x = 1.4354
i =1
O desvio médio, quando comparado com os valores originais ou com o valor da média,
revela-se bastante pequeno o que traduz uma pequena tendência de dispersão, ou
equivalentemente, uma forte tendência de concentração em torno da média; uma
dm 1.4354
comparação mais objectiva poderá ser obtida pela proporção
=
= 0.0048 ,
x
300.11
isto é, o desvio médio é da ordem de 0.48% do valor da média.
ESA
2005/2006
15
Estatística Descritiva
Variância
A variância é o parâmetro de dispersão mais usual, e aquele que apresenta melhores
propriedades estatísticas.
A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma
das observações em torno da média. No caso do desvio médio, o módulo da diferença
para a média é, por definição, o afastamento de cada observação para a média. No caso
da variância, usa-se o quadrado da distância das observações para a média.
Para a população, a variância é, por definição:
N
σ2 =
∑(x − µ)
i =1
2
i
N
Contudo, na Estatística não se tem a população, mas sim uma amostra de observações,
geralmente de muito menor dimensão que a população. Demonstra-se que a expressão
anterior, quando aplicada a amostras relativamente diminutas em comparação com a
população (e usando a média amostral x como estimativa da média da população µ )
sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o
valor da variância da população de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada
com o símbolo s 2 :
N
s2 =
∑(x − x )
i =1
2
i
N −1
Isto é, para evitar a sub-valorização, o divisor é N − 1 .
Esta expressão, para cálculo manual, é de difícil manuseamento. Desenvolvendo
aritmeticamente a expressão anterior, e considerando existem k classe, cujas marcas são
genericamente xi , e as frequências absolutas são ni , obtém-se a seguinte expressão,
mais fácil de implementar numa tabela de cálculo:
2

 k
 

 ∑ ni .xi  
k
1  k
 i =1
  = 1  n .x 2 − N .x 2 
2
2
−
s =
n
.
x
∑i i
i i

 N − 1  ∑
N − 1  i =1
N
i =1







Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e
de seguida reduz-se para a escala em que estão as observações:
ESA
2005/2006
16
Estatística Descritiva
s = ss
Este indicador estatístico (s) designa-se por desvio padrão.
Para comparar o desvio padrão com os valores originais, calcula-se o seguinte
indicador, designado por coeficiente de variação:
cv =
s
x
Como regra de geral, alguns autores consideram a distribuição concentrada se cv ≤ 0.1 ,
e dispersa caso cv > 0.1 .
Para a amostra das embalagens de manteiga em análise, elabore-se a seguinte tabela de
cálculo:
Classe
xi
ni
ni .xi2
]297.00 , 298.00]
]298.00 , 299.00]
]299.00 , 300.00]
]300.00 , 301.00]
]301.00 , 302.00]
]302.00 , 303.00]
]303.00 , 304.00]
]304.00 , 305.00]
]305.00 , 306.00]
297,5
298,5
299,5
300,5
301,5
302,5
303,5
304,5
305,5
8
21
28
15
11
10
5
1
1
708050,00
1871147,25
2511607,00
1354503,75
999924,75
915062,50
460561,25
92720,25
93330,25
9
∑ n .x
i =1
i
2
i
= 9006907.0
Para calcular a variância, basta fazer:
s2 =
1  k
 1
ni .xi2 − N .x 2  = ( 9006907 − 100 × 300.112 ) = 3.0888
∑

N − 1  i =1
 99
O desvio padrão é s = s 2 = 3.0888 = 1.7575 . O coeficiente de variação é
s 1.7575
cv = =
= 0.0059 , isto é, o desvio padrão é da ordem de 0.59% do valor da
x 300.11
média, o que traduz, tal como o desvio médio, uma variabilidade bastante pequena das
observações em torno da média.
Parâmetros de assimetria
A assimetria (em inglês, skewness) é o grau de desvio ou afastamento da simetria de
uma distribuição. Se a curva de frequências de uma distribuição tem uma cauda mais
ESA
2005/2006
17
Estatística Descritiva
longa à direita, relativamente à ordenada máxima (moda), diz-se que a distribuição é
assimétrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa é a
esquerda, a distribuição é assimétrica para a esquerda, ou assimétrica negativa.
Assimetria positiva
Assimetria negativa
S imétrica
Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a
cauda mais longa:
Assimetria positiva
M oda
Assimetria negativa
x
x
M oda
Assim, uma medida da assimetria é proporcionada pela diferença entre a média e a
moda, ponderada por uma medida de dispersão (desvio padrão):
Assimetria =
x − moda
s
(primeiro coeficiente se assimetria de Pearson)
Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a
mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por:
Assimetria =
3 ( x − mediana )
s
(segundo coeficiente se assimetria de Pearson)
Outros coeficientes de assimetria são definidos em termos dos quartis e decis; o
coeficiente quartílico de assimetria é definido como:
( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 )
( Q3 − Q1 )
( Q3 − Q1 )
e o coeficiente percentílico de assimetria é:
( P90 − P50 ) − ( P50 − P10 ) = ( P90 − 2 P50 + P10 )
( P90 − P10 )
( P90 − P10 )
ESA
2005/2006
18
Estatística Descritiva
Um outro coeficiente de assimetria é o coeficiente se assimetria de Fisher, que utiliza o
terceiro momento centrado na média ( m3 =
N
1
N
∑(x − x )
i =1
3
i
):
N
g1 =
N ( N − 1)
N −2
×
N ( N − 1)
m3
=
s3
N −2
×
1
N
∑(x − x )
3
i
i =1
s3
Este coeficiente é calculado em diversos programas estatísticos (SPSS, MINITAB,
STATGRAPHICS, etc), muito embora o seu cálculo manual seja algo moroso.
Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média
zero e variância N6 ; o coeficiente de assimetria estandardizado é:
gs =
g1
6
N
Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são
positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos
para amostras assimétricas negativas.
Para a amostra de pesos das embalagens de manteiga, estes coeficientes são:
1º coeficiente de assimetria de Pearson:
Assimetria =
x − moda 300.11 − 299.35
=
= 0.4324
s
1.7575
2º coeficiente de assimetria de Pearson:
Assimetria =
3 ( x − mediana ) 3 × ( 300.11 − 299.75 )
=
= 0.2048
s
1.7575
Coeficiente quartílico de assimetria:
( Q3 − 2Q2 + Q1 ) = 301.27 − 2 × 299.75 + 298.81 = 0.2358
301.27 − 298.81
( Q3 − Q1 )
Coeficiente percentílico de assimetria:
( P90 − 2 P50 + P10 ) = 302.7 − 2 × 299.75 + 298.095 = 0.2812
302.7 − 298.095
( P90 − P10 )
O coeficiente de assimetria de Fisher é:
ESA
2005/2006
19
Estatística Descritiva
N
g1 =
N ( N − 1)
N −2
×
m3
=
s3
N ( N − 1)
N −2
×
1
N
∑(x − x )
i =1
3
i
s3
366.7062
100 × 99
=
× 100 3 = 0.6858
98
1.7575
Todos estes coeficientes indicam que a distribuição da amostra é ligeiramente enviezada
à direita, ou assimétrica positiva.
Parâmetros de forma
Além da simetria, as distribuições também se costumam caracterizar quanto à altura do
ponto máximo da curva de distribuição. Esta característica é designada por achatamento
ou curtose (em inglês, kurtosis).
Leptocúrtica
Platicúrtica
Mesocúrtica
A distribuição chamada mesocúrtica tem no centro uma altura correspondente à curva
da função de densidade da distribuição normal.
A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que
o facto de a distribuição ter altura menor no centro, significa maior proporção de
observações nas caudas, isto é, é sintoma de uma forte dispersão.
A distribuição diz-se leptocúrtica se tem altura superior à da curva normal. O facto de a
distribuição ter altura maior no centro, significa maior proporção de observações nas
proximidades dos valores centrais, isto é, é sintoma de uma forte concentração em torno
da média.
Um coeficiente numérico para caracterizar o achatamento é o coeficiente percentílico de
achatamento:
( Q3 − Q1 )
k=
2
P90 − P10
Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é
sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva
demasiado alta.
ESA
2005/2006
20
Estatística Descritiva
Os programas estatísticos usam outro coeficiente de achatamento, designado por
coeficiente de achatamento de Fisher, que é baseado no 4º momento centrado na média
( m4 =
N
1
N
∑(x − x )
i =1
i
4
):
g2 =
( N + 1)( N − 1) ×  m4 − 3 ( N − 1) 

N +1 
( N − 2 )( N − 3)  s 4
Para uma curva normal, o valor deste coeficiente é k = 0 . Um valor negativo é sintoma
de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado
alta.
Para a amostra de borregos, o coeficiente percentílico de achatamento é:
( Q3 − Q1 )
k=
2
P90 − P10
301.27 − 298.81
2
=
= 0.2671
302.7 − 298.095
indicando que a distribuição tem uma altura na classe modal muito semelhante à altura
de uma distribuição normal. O coeficiente baseado no 4º momento é g 2 = −0.0505 que,
tal como o coeficiente percentílico de achatamento, dá a informação de que a altura da
curva da distribuição é praticamente normal.
Considerações finais
1 . O facto de se agruparem os dados em classes, e estimar os parâmetros com base nas
marcas das classes, e não com todos os dados individualizados, conduz necessariamente
a umas estimativas dos parâmetros ligeiramente diferentes das que se obteriam
trabalhando com os N dados individualizados. Estas diferenças serão tanto mais graves
quanto mais distintos, em cada uma das classes, os valores nelas incluídos forem
diferentes da marca da classe.
Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parâmetros
estatísticos, as classes devem ser definidas de tal modo que as respectivas marcas
fiquem sensivelmente no centro das observações incluídas em cada uma das classes. Por
exemplo, se o processo de obtenção das observações conduz sistematicamente a valores
do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca
seja do tipo xx.0. Repare-se que a definição de classes de modo que as marcas fossem
do tipo xx.5, os valores teriam tendência a estar mais afastados da marca, send maior o
enviezamento provocado pela organização da amostra em classes.
2 . Com os meios computacionais actualmente disponíveis, não há grande vantagem na
realização de classes. Um dos principais motivos para a organização da amostra em
classes, era a vantagem de cálculo resultante dessa organização, quando os cálculos
tinham de ser efectuados manualmente.
ESA
2005/2006
21
Estatística Descritiva
Com o incremento e divulgação dos programas estatísticos informáticos, essa vantagem
é desprezível, de modo que as estimativas são mais rigorosas se forem efectuadas com
todos os dados, e não com as marcas das classes.
A justificação para as metodologias de cálculo com os dados organizados em classes
prende-se com o facto de muita da informação disponível para tratamento e análise
estatística está por natureza agrupado em classes. Como exemplo, refiram-se as
informações socio-económicas que a cada dia se obtêm de anuários do Instituto
Nacional de Estatística, ou outras publicações do género, em que a quantidade de
informação a divulgar é de tal modo extensa que se tem de apresentar resumida em
classes.
3 . Para melhor nos apercebermos do enviezamento resultante da organização da
amostra em classes, consideremos a situação em que se tem acesso aos 100 valores
individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado
neste texto). Esses valores são apresentados em anexo.
Estes valores foram introduzidos em dois programas estatísticos (MINITAB e
STATGRAPHICS). Os resultados obtidos apresentam-se de seguida.
- MINITAB:
- STATGRAPHICS
ESA
2005/2006
22
Estatística Descritiva
Como se pode constatar, alguns parâmetros diferem ligeiramente entre as estimativas
levadas a cabo com a amostra organizada em classes (cálculos no texto) e as estimativas
efectuadas pelos programas (sobre todos os valores). Por exemplo, a média calculada
com classes é x = 300.11 e a calculada sobre os valores individualizados é x = 300.125
e a variância é s 2 = 3.0888 e s 2 = 2.9885 , consoante foi estimada com classes ou com
os valores individualizados.
ESA
2005/2006
23
Download