Redução dos Dados Júlio Osório Medidas Características da Distribuição Tendência Central (Localização) Variação (Dispersão) Forma 1 Medidas Características da Distribuição Medidas Estatísticas Tendência Central Dispersão Forma Média Amplitude Mediana Desvio Interquartil Moda Variância Assimetria Curtose Desvio Padrão Coeficiente de Variação Notação Convencionada para as Medidas Medida Amostra População X µ Desvio padrão S σ Variância S 2 σ Tamanho n Média 2 N 2 Medidas de Tendência Central A média, or média aritmética, é a mais vulgarmente utilizada medida de tendência central, e o seu valor é dado por: i =n ___ X = ∑X i =1 i n Sendo: Xi n = valores observados da variável X = número de observações (tamanho da amostra) A moda é o valor a que corresponde a maior frequência, representando o pico mais elevado da distribuição. A moda é uma boa medida de localização para variáveis intrinsecamente categóricas, ou para aquelas que o não sendo (intervalo/razão), tenham sido agrupadas em categorias. Medidas de Tendência Central A mediana é o valor central da série quando os dados estão ordenados por ordem crescente ou decrescente. A mediana é o Percentil 50 (P50): 50% dos dados são inferiores à mediana e 50% são superiores Se n é ímpar, a série tem um único valor central, que é precisamente a mediana. Se n é par, a mediana é assumida como sendo a média dos 2 valores centrais da série. A posição da mediana vem dada por: posição = n +1 2 3 Medidas de Tendência Central Propriedades da média aritmética: Única, simples de calcular e de interpretar. Entra em linha de conta com todos os valores da série. Acentuadamente influenciada pelos valores extremos: bastam alguns valores acentuadamente baixos/elevados para dar uma medida errónea da tendência central dos dados. Presta-se ao cálculo algébrico: por exemplo, a partir das médias de duas variáveis é possível calcular a média de uma variável que seja a soma, a diferença, etc. dessas variáveis. Exprime-se nas mesmas unidades físicas de medida que os dados originais. O somatório dos desvios das observações relativamente á media é nulo: _ ∑ y − y = 0 i Medidas de Tendência Central Propriedades da média aritmética: Se A for um número real arbitrário, ∑ (y i − A) = mínimo 2 quando: _ A=y Se: y' = y i i +k então: _ _ y' = y + k Se: y' = y i i *k A média amostral é um bom estimador pontual da média populacional, e nela se baseia a maior parte dos métodos de estatística inferencial respeitantes à tendência central: _ y→µ então: _ _ y' = y * k _ ∧ y=µ 4 Medidas de Tendência Central Propriedades da mediana: Única, simples de calcular e de interpretar. Entra em linha de conta com todos as obervações da série, mas pela sua ordem e não pelo seu valor. Não é tão acentuadamente influenciada pelos valores extremos como a média, sendo a melhor medida de posição no caso de distribuições muito assimétricas. Não se presta ao cálculo algébrico: não é possível calcular a mediana da soma de duas variáveis a partir das medianas de cada uma delas. Exprime-se nas mesmas unidades físicas de medida que os dados originais. Medidas de Tendência Central Propriedades da moda: O seu valor é menos afectado pela assimetria da distribuição que a média e a mediana, mas é em contrapartida mais sujeito às flutuações da amostragem. Muito utilizada como medida de tendência central em dados de natureza qualitativa (escalas de medida nominais). Tem relativamente pouca importância na investigação biológica, embora seja relevante assinalar o número de modas detectadas, quando haja mais do que uma (Distribuições unimodais, multimodais e amodais). Não se presta ao cálculo algébrico. 5 ROL SIMPLES PROCEDIMENTO: Ordenação dos dados originais X= peso i= número de ordem i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Xi i 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 963 966 967 968 969 970 971 971 972 972 973 974 975 976 977 980 980 980 981 981 981 981 981 981 Xi i 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 982 982 984 985 987 988 988 989 989 990 990 990 991 991 991 992 993 993 994 994 994 994 995 995 995 Xi 995 996 996 998 998 998 998 999 1000 1000 1000 1000 1000 1000 1001 1001 1001 1001 1001 1002 1002 1003 1003 1003 1003 i 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 Xi 1005 1005 1007 1007 1009 1009 1010 1012 1012 1012 1012 1013 1013 1013 1015 1016 1016 1017 1017 1019 1019 1021 1022 1023 1023 1026 Cálculo da Média e da Mediana (exemplo) Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida. − x= 963 + 966 + ... + 1023 + 1026 98502 = = 995 .0 mg 99 99 Med = x 99 + 1 = x 50 = 995 mg 2 Suponha-se que a série de dados só tinha 58 observações, isto é que n=58 (par): Med = x 58 + 1 = x " 29 .5 " = 2 x 29 + x 30 2 = 987 + 988 = 987 .5 mg 2 6 Cálculo da Moda (exemplo) Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida. Histograma com 7 classes (I=10 mg) 28 26 A Moda é o centro da classe de maior frequência: Moda=(990+1000)/2 = 995 mg 24 22 20 Frequência 18 16 14 12 10 8 6 4 2 0 <= 960 (970;980] (960;970] (990;1000] (980;990] (1010;1020] (1000;1010] > 1030 (1020;1030] Peso da água recolhida (mg) Medidas de Tendência Central (Sumário) Medida Média Mediana Moda Equação Σ Xi / n (n+1) (posição) 2 nenhuma Descrição Ponto de equilíbrio Valor central dos dados ordenados Valor mais frequente 7 Medidas Características da Distribuição Medidas Estatísticas Tendência Central Dispersão Forma Média Amplitude Mediana Desvio Interquartil Moda Variância Assimetria Curtose Desvio Padrão Coeficiente de Variação Medidas de Dispersão A amplitude (total) é a diferença entre a maior e a menor observação da série: amplitude = X −X máximo mínimo O desvio interquartil (DI) é a diferença entre o Percentil 75 (P75) e o Percentil 25 (P25). DI = P − P Numa série de dados ordenada, o p-ésimo percentil (Pp) é o valor de tal modo situado que p% dos dados lhe são inferiores e (100 - p)% superiores. O desvio interquartil (DI) também pode ser definido como a diferença entre o 3º Quartil (Q3) e o 1º Quartil (Q1): DI = Q − Q Se houver valores atípicos ou aberrantes (“outliers”) na série de dados, a amplitude total é mais afectada que a amplitude inter-quartis. 75 3 25 1 8 Medidas de Dispersão A variância é o valor médio dos quadrados dos desvios das observações em relação à média: 2 _ ∑ X i− X = SQD s = n −1 gl i=n i =1 2 O numerador de s2 denomina-se Somatório dos Quadrados dos Desvios (SQD), e o valor n-1 (denominador de s2) representa o número de graus de liberdade da amostra (gl). O desvio padrão (s) é a raiz quadrada da variância. A variância e o desvio padrão nunca assumem valores negativos. O coeficiente de variação (CV) representa razão entre o desvio padrão e a média, expressa em percentagem. CV é uma medida relativa e adimensional de dispersão: CV (%) = s ___ * 100 X Medidas de Dispersão Fórmulas de trabalho para o cálculo da SQD e da variância da amostra: 2 n ∑ y ( i) n 2 SQD = ∑ y − 1 i n 1 2 n ∑ y − (∑ yi) / n 1 SQD 2 1 = s = GL n −1 n 2 i 9 Medidas de Dispersão Propriedades da variância: Entra em linha de conta com todos os valores da série. Exprime-se no quadrado das unidades de medida dos dados originais. É influenciada por valores extremos (ainda que poucos). Se: y ´= y i y i i + k → Var ( y ´) = Var ( y ) i ´ = k * y → Var ( y ´) = i i i k 2 * Var ( y ) i Se X e Y forem duas variáveis estatisticamente independentes, isto é, se a variação de uma não estiver condicionada pela variação que ocorre na outra: Var ( X + Y ) = Var ( X ) + Var ( Y ) A variâcia amostral é um bom estimador pontual da variância populacional, e nela se baseia a maior parte dos métodos de estatística inferencial respeitantes à dispersão: Como se presta ao cálculo algébrico ulterior, é a medida de dispersão mais utilizada na inferência estatística. s 2 →σ ∧ s =σ 2 2 2 Medidas de Dispersão Propriedades do desvio-padrão: Entra em linha de conta com todos os valores da série. Exprime-se nas mesmas unidades de medida dos dados originais. É influenciada por valores extremos (ainda que poucos). 10 ROL SIMPLES PROCEDIMENTO: Ordenação dos dados originais X= peso i= número de ordem i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Xi i 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 963 966 967 968 969 970 971 971 972 972 973 974 975 976 977 980 980 980 981 981 981 981 981 981 Xi i 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 982 982 984 985 987 988 988 989 989 990 990 990 991 991 991 992 993 993 994 994 994 994 995 995 995 Xi 995 996 996 998 998 998 998 999 1000 1000 1000 1000 1000 1000 1001 1001 1001 1001 1001 1002 1002 1003 1003 1003 1003 i 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 Xi 1005 1005 1007 1007 1009 1009 1010 1012 1012 1012 1012 1013 1013 1013 1015 1016 1016 1017 1017 1019 1019 1021 1022 1023 1023 1026 Cálculo da Amplitude e do Desvio Interquartil (exemplo) Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida. Amplitude = Q Q 3 x 99 = x = x 1 − x 1 = 1026 − 963 = 63 mg 99 + 1 4 = 3 .( 99 + 1 ) 4 x = 25 x = 982 mg 75 = 1005 mg DI = Q 3 − Q 1 = 1005 − 982 = 23 mg 11 Cálculo da Variância, Desvio-Padrão e Coeficiente de Variação (exemplo) Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida. ∑ x i = 963 + 966 + ... + 1023 + 1026 = 98502 mg ∑ x i2 = 963 2 + 966 2 + ... + 1023 2 + 1026 2 = 98029058 mg 2 SQD = 98029058 − s2 = 98502 2 = 22552 .9091 mg 2 99 22552 .9091 = 227 ,8072 mg 2 99 Sendo n>30, utilizou-se como denominador, no cálculo de s2, n=99 e não GL=99-1. s = + 227 . 8072 = 15 . 09 mg CV = 15 .09 mg * 100 = 1 .5 % 995 mg Medidas de Dispersão (Sumário) Medida Amplitude Desvio Interquartil Equação Descrição Xmáximo - Xmínimo Intervalo dos 50% centrais Q3 - Q1 Desvio Padrão (Amostra) ∑ (X Variância (Amostra) 2 Σ (Xi -X ) i − X) n −1 n-1 Intervalo total 2 Dispersão em torno da média Quadrado da dispersão em torno da Média 12 Medidas de Forma Assimetria da Distribuição: exprime a tendência para os dados se acumularem mais para uma das extremidades da distribuição do que para a outra (maior ou menor enviesamento relativamente à distribuição normal) . Curtose da Distribuição: exprime em que medida a distribuição é mais ou menos achatada que uma distriduição normal. Medidas Características da Distribuição Medidas Estatísticas Tendência Central Dispersão Forma Média Amplitude Mediana Desvio Interquartil Moda Variância Assimetria Curtose Desvio Padrão Coeficiente de Variação 13 Medidas de Forma A assimetria mede-se pelo coeficiente de assimetria de Fisher (g1; γ1). Assimétrica Negativa Simétrica Assimétrica Positiva Média Mediana Moda Média= Mediana = Moda Moda Mediana Média g1<0 g1=0 g1>0 (Normal) Medidas de Forma A assimetria reflecte-se no diagrama de caixa-e-bigodes Assimétrica Negativa Q1 Mediana Q3 Simétrica Assimétrica Positiva Q1 Mediana Q3 Q1 Mediana Q3 14 Medidas de Forma A curtose mede-se pelo coeficiente de curtose de Fisher (g2; γ2). Mesocúrtica Leptocúrtica Platicúrtica g2=0 g2>0 g2<0 Medidas de Forma PLATICÚRTICA! LEPTOCÚRTICA! 15 Diagrama de Caule-e-Folhas Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida. peso da água (mg) Stem-and-Leaf Plot Frequency Caule (multiplicar por 10!) 5.00 10.00 18.00 24.00 23.00 14.00 5.00 Stem & Leaf 96 . 97 . 98 . 99 . 100 . 101 . 102 . 36789 0112234567 000111111224578899 000111233444455556688889 00000011111223333557799 02222333567799 12336 Folhas Stem width: 10 Each leaf: 1 case(s) Diagrama de Caule-e-Folhas Vantagens: Tal como o Histograma, o Diagrama Caule-eFolha dá-nos informação sobre: A localização da concentração mais forte de dados; O grau de assimetria da distribuição. Mas, ao contrário do Histograma, o Diagrama Caule-e-Folha conserva a informação contida nos dados originais, na medida em que estes não são agrupados em classes. 16 Diagrama de Caixa-e-Bigodes Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 Barreira superior=Q3+1,5.DI Caixa Máximo Q3 Mínimo Q1 Mediana(Q2) Barreira inferior=Q1-1,5.DI cm3, em 99 operações de medida. Bigodes Não há “outliers” na distribuição! Diagrama de Caixa-e-Bigodes Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1 cm3, em 99 operações de medida (dados modificados). Valor Extremo O bigode esquerdo não termina no mínimo, mas no último dado que não está fora da barreira Outlier Há um “outlier” e um valor extremo! 17