Estatísticas Descritivas - UNESP : Campus de Jaboticabal

Propaganda
ESTATÍSTICA APLICADA À ZOOTECNIA
Euclides Braga MALHEIROS*
ESTATÍSTICAS DESCRITIVAS
Estatísticas descritivas são medidas que trazem informações resumidas sobre um conjunto
de valores numéricos.
As medidas descritivas podem ser classificadas como: medidas posição (tendência central e
separatrizes), medidas de dispersão, medidas de assimetria e de curtose.
• Medidas de posição
São medidas que indicam um ponto em torno do qual se concentram os dados (a posição
dos dados). Sejam x1, x2, x3, ..., xn, n valores numéricos.
As medidas de posição mais usuais são:
Média aritmética
A média aritmética, indicada por m ou x , é definida por:
n
x=
i =1
xi
n
Se os valores xi, i=1, 2, ..., k (k<n) ocorrem com freqüências fi, i=1, 2, ..., k,
respectivamente, então a média aritmética pode ser obtida por:
k
x=
i =1
k
f i xi
i =1
fi
Mediana
A mediana é o valor central do conjunto de valores, organizados em ordem crescente ou
decrescente, se n for ímpar, ou a média dos dois centrais, se n for par.
A mediana é tal que 50% dos valores a precedem e 50% a sucedem.
Moda
A moda é o valor que ocorre com maior freqüência. A moda pode não existir ou não ser
única.
Média aritmética ponderada
Se aos n valores associam-se fatores de ponderação ou pesos w1, w2, w3, ..., wn,
respectivamente, a média aritmética ponderada é dados por:
*
Departamento de Ciências Exatas – FCAV/UNESP, Campus de Jaboticabal. 14884-900 Jaboticabal SP
2
n
x=
i =1
n
wi xi
i =1
wi
A escolha da medida de posição a ser usada depende das características dos dados e do
objetivo do uso. Pode-se estar interessado no tamanho máximo, no tamanho mínimo ou no
tamanho médio de uma espécie animal. Situações que apresentam valores discrepantes
fazem com que a média seja prejudicada, então a mediana pode ser mais apropriada.
Algumas propriedades das medidas de posição:
a) A média é calculada a partir de todas as observações.
b) A mediana não é prejudicada pela presença valores extremos, como é a média.
c) Somando-se, subtraindo-se ou multiplicando-se os valores a uma constante, a média
ficará somada, subtraída ou multiplicada pela constante.
d) A soma dos desvios em relação à média é nula, ou seja, ( xi − x ) = 0
A propriedade (c) é de extrema importância quando trabalhamos com unidades diferentes
dos dados (kg, g, Km, m etc.).
• Medidas de dispersão
Como o próprio nome diz, são medidas que indicam quão dispersos encontram-se os
valores.
As medidas de dispersão mais usuais são:
Amplitude total
É a diferença entre o maior e o menor valor (Amplitude total = xmáx. – xmín.).
Soma de quadrados
É a soma dos quadrados dos desvios em relação à média aritmética.
SQ =
( xi − x) 2
Variância
É a média das somas dos quadrados dos desvios em relação à média aritmética, geralmente
denotada por S2.
S2 =
( xi − x) 2
n
Desvio Padrão
É a raiz quadrada da variância, geralmente denotada por s ( s = S 2 ).
3
Coeficiente de variação
É uma medida de dispersão relativa. É representado por CV e definido como:
CV =
100 s
x
Representa a porcentagem de variação por unidade de média.
Algumas propriedades das medidas de dispersão:
a) A variância não tem a mesma unidade dos valores, o que ocorre com o desvio padrão.
b) A SQ é a menor soma de desvios ao quadrado, ou seja:
( xi − x) 2
≤ ( xi − M ) 2 , ∀ M.
c) Somando-se ou subtraindo-se os valores a uma constante, a variância e a soma de
quadrados na se alteram.
d) Multiplicando-se os valores a uma constante, a variância e a soma de quadrados
ficarão multiplicadas pela constante ao quadrado.
• Medidas separatrizes
São medidas que representam as posições dos valores do conjunto, dividindo-o em partes
iguais e podem ser: quartis, decis etc.
Os quartis dividem o conjunto de valores em quatro partes iguais, como mostra a Tabela a
seguir:
Tabela 1 - Descrição dos quartis.
Estatística
Notação
1º quartil
Q1
2º quartil
Q2 = Mediana
3º quartil
Q3
Interpretação
25% dos dados são valores o precedem
50% dos dados são valores o precedem
75% dos dados são valores o precedem
A diferença (Q3-Q1) é denominada intervalo interquartílico.
Outras separatrizes usuais são:
Decis: Dividem o conjunto de dados em dez partes iguais.
Percentis: Dividem o conjunto de dados em cem partes iguais.
• Gráfico Box Plot
O gráfico Box Plot (ou gráfico de cinco números) é uma representação gráfica que mostra
conjuntamente cinco medidas, ou sejam: mínimo, máximo, Q1, Q2 e Q3. Este gráfico
oferece uma idéia da posição, dispersão, simetria, caudas e dados discrepantes. A posição
central é dada pela mediana e a dispersão pelo intervalo interquartílico (Q3 – Q1). As
posições relativas de Q1, Q2 e Q3 dão uma noção da simetria da distribuição. Os
comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores
extremos. Um outlier – valor discrepante – é um valor fora do padrão do conjunto de dados
No geral, o valor a partir do qual se considera um dado como discrepante é a que supera
1,5(Q3-Q1), ou seja, valores inferiores a Q1-1,5(Q3-Q1) ou superiores a =Q3+1,5(Q3-Q1).
Download