ESTATÍSTICA APLICADA À ZOOTECNIA Euclides Braga MALHEIROS* ESTATÍSTICAS DESCRITIVAS Estatísticas descritivas são medidas que trazem informações resumidas sobre um conjunto de valores numéricos. As medidas descritivas podem ser classificadas como: medidas posição (tendência central e separatrizes), medidas de dispersão, medidas de assimetria e de curtose. • Medidas de posição São medidas que indicam um ponto em torno do qual se concentram os dados (a posição dos dados). Sejam x1, x2, x3, ..., xn, n valores numéricos. As medidas de posição mais usuais são: Média aritmética A média aritmética, indicada por m ou x , é definida por: n x= i =1 xi n Se os valores xi, i=1, 2, ..., k (k<n) ocorrem com freqüências fi, i=1, 2, ..., k, respectivamente, então a média aritmética pode ser obtida por: k x= i =1 k f i xi i =1 fi Mediana A mediana é o valor central do conjunto de valores, organizados em ordem crescente ou decrescente, se n for ímpar, ou a média dos dois centrais, se n for par. A mediana é tal que 50% dos valores a precedem e 50% a sucedem. Moda A moda é o valor que ocorre com maior freqüência. A moda pode não existir ou não ser única. Média aritmética ponderada Se aos n valores associam-se fatores de ponderação ou pesos w1, w2, w3, ..., wn, respectivamente, a média aritmética ponderada é dados por: * Departamento de Ciências Exatas – FCAV/UNESP, Campus de Jaboticabal. 14884-900 Jaboticabal SP 2 n x= i =1 n wi xi i =1 wi A escolha da medida de posição a ser usada depende das características dos dados e do objetivo do uso. Pode-se estar interessado no tamanho máximo, no tamanho mínimo ou no tamanho médio de uma espécie animal. Situações que apresentam valores discrepantes fazem com que a média seja prejudicada, então a mediana pode ser mais apropriada. Algumas propriedades das medidas de posição: a) A média é calculada a partir de todas as observações. b) A mediana não é prejudicada pela presença valores extremos, como é a média. c) Somando-se, subtraindo-se ou multiplicando-se os valores a uma constante, a média ficará somada, subtraída ou multiplicada pela constante. d) A soma dos desvios em relação à média é nula, ou seja, ( xi − x ) = 0 A propriedade (c) é de extrema importância quando trabalhamos com unidades diferentes dos dados (kg, g, Km, m etc.). • Medidas de dispersão Como o próprio nome diz, são medidas que indicam quão dispersos encontram-se os valores. As medidas de dispersão mais usuais são: Amplitude total É a diferença entre o maior e o menor valor (Amplitude total = xmáx. – xmín.). Soma de quadrados É a soma dos quadrados dos desvios em relação à média aritmética. SQ = ( xi − x) 2 Variância É a média das somas dos quadrados dos desvios em relação à média aritmética, geralmente denotada por S2. S2 = ( xi − x) 2 n Desvio Padrão É a raiz quadrada da variância, geralmente denotada por s ( s = S 2 ). 3 Coeficiente de variação É uma medida de dispersão relativa. É representado por CV e definido como: CV = 100 s x Representa a porcentagem de variação por unidade de média. Algumas propriedades das medidas de dispersão: a) A variância não tem a mesma unidade dos valores, o que ocorre com o desvio padrão. b) A SQ é a menor soma de desvios ao quadrado, ou seja: ( xi − x) 2 ≤ ( xi − M ) 2 , ∀ M. c) Somando-se ou subtraindo-se os valores a uma constante, a variância e a soma de quadrados na se alteram. d) Multiplicando-se os valores a uma constante, a variância e a soma de quadrados ficarão multiplicadas pela constante ao quadrado. • Medidas separatrizes São medidas que representam as posições dos valores do conjunto, dividindo-o em partes iguais e podem ser: quartis, decis etc. Os quartis dividem o conjunto de valores em quatro partes iguais, como mostra a Tabela a seguir: Tabela 1 - Descrição dos quartis. Estatística Notação 1º quartil Q1 2º quartil Q2 = Mediana 3º quartil Q3 Interpretação 25% dos dados são valores o precedem 50% dos dados são valores o precedem 75% dos dados são valores o precedem A diferença (Q3-Q1) é denominada intervalo interquartílico. Outras separatrizes usuais são: Decis: Dividem o conjunto de dados em dez partes iguais. Percentis: Dividem o conjunto de dados em cem partes iguais. • Gráfico Box Plot O gráfico Box Plot (ou gráfico de cinco números) é uma representação gráfica que mostra conjuntamente cinco medidas, ou sejam: mínimo, máximo, Q1, Q2 e Q3. Este gráfico oferece uma idéia da posição, dispersão, simetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão pelo intervalo interquartílico (Q3 – Q1). As posições relativas de Q1, Q2 e Q3 dão uma noção da simetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores extremos. Um outlier – valor discrepante – é um valor fora do padrão do conjunto de dados No geral, o valor a partir do qual se considera um dado como discrepante é a que supera 1,5(Q3-Q1), ou seja, valores inferiores a Q1-1,5(Q3-Q1) ou superiores a =Q3+1,5(Q3-Q1).