Estatística Descritiva ESTATÍSTICA DESCRITIVA Amostras com dados agrupados em classes Nas próximas secções iremos abordar a análise estatística de uma amostra em que os dados numéricos estão agrupados em classes, ou seja, em intervalos. Este agrupamento em classes pode dever-se a diversos motivos: • fonte de informação: os dados podem ter sido obtidos em fontes em que os dados já estão no formato de classes, e não se dispõe dos dados individualizados para todos os elementos da amostra. É o que acontece frequentemente em dados recolhidos de publicações de diversas Instituições (por exemplo, Anuários do Instituto Nacional de Estatística); • no processo de recolha de informação, os dados foram recolhidos em classes, e não individualizados. Imaginemos, por exemplo, a recolha de diâmetros de árvores num povoamento florestal, em que se registaram o número de árvores cujos diâmetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em vez de se registarem os diâmetros individualmente; • a dimensão da amostra é demasiado grande, agrupando-se os dados em classes, a fim de facilitar a análise (esta vantagem actualmente é insignificante, face aos meios de cálculo disponíveis). Muitas das variáveis numéricas são de natureza contínua, em que o processo de quantificação do valor dessa variável pressupõe de algum modo a discretização da variável. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a característica “peso” é tipicamente de natureza contínua; porém, ao pesar cada um dos borregos, o operador faz um registo que corresponde a um valor aproximado do peso desse borrego, e não do seu peso exacto; os erros de arredondamento, ou aproximação, que se fazem nestas situações, dependem fundamentalmente dos objectivos do estudo, do material usado, etc. Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente o que se está a fazer é arredondar para este valor toda a gama de pesos que com maior precisão de pesagem poderão estar no intervalo ]4.45 , 4.55]. Isto é, muitas das amostras tratadas como amostras de valores discretos correspondem na realidade a variáveis contínuas mas que são discretizadas (ou arredondadas) para o valor da marca ou centro do intervalo, no acto de obtenção do valor da variável. Quando o estatístico tem possibilidade de definir o número de classes (relativamente aos três casos anteriormente referidos, o estatístico só não tem essa possibilidade no primeiro dos casos; em ambos os outros, cabe ao estatístico definir as classes ou intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o número de classes a formar. Em muitas situações, esta definição é efectuada antes de se realizar a recolha de dados, de modo que ao efectuar as medições ou o processo de recolha de informação, ao ESA 2005/2006 1 Estatística Descritiva estatístico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada uma das observações. Numa situação deste género, as classes são de um modo geral estabelecidas de modo a facilitar a obtenção e o registo das observações. Se o estatístico dispõe do rol (ou listagem) de todas as observações individualizadas, e pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar o histograma, seja para cálculo dos parâmetros estatísticos), a primeira operação é definir o número de classes. Existem diversas propostas empíricas para a definição do número de classes k a definir; uma regra consiste em definir um número de classes próximo à raiz quadrada do número de observações: k≈ N Esta regra parece funcionar bastante bem, se o número de dados não é demasiado grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realização de 20 classes de dados). Outra regra, também muito usual, consiste em usar um número de classes definido por (em que log(.) representa o logaritmo decimal): k = 1 + 3.3 × log ( N ) , arredondado ao inteiro superior Em qualquer dos casos, devem definir-se classes com a mesma amplitude. Estas regras têm um carácter meramente indicativo, devendo ser tomadas em conta as vantagens de ordem prática que advêm da definição das classes cujos limites inferior e superior coincidam com valores fáceis de manusear. Exemplo: Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam valores desde xmin = 297.47 g e xmax = 305.13 g . As regras anteriores sugerem a formação de 10 classes e 8 classes, respectivamente. Combinando estas indicações com o aspecto prático, se fixarmos os limites do intervalo de variação em ]279.00,306.00] , a amplitude deste intervalo é de 9.00 g, sugerindo a realização de 9 classes, de amplitude 1.00 g, definidas como: ]297.00, 298.00] , ]298.00, 299.00] , ]299.00,300.00] ,..., ]305.00,306.00] Repare-se que, de um modo geral se estão a respeitar as indicações teóricas do número de classes a formar, em conjugação com o aspecto prático dos limites das classes ficarem bem definidos. Nota acerca dos limites das classes: subsiste sempre alguma confusão acerca dos limites das classes, se deverão ser abertos no limite inferior e fechados no limite superior, isto ESA 2005/2006 2 Estatística Descritiva é, do tipo Linf , Lsup , ou se os limites devem ser ao contrário, isto é, Linf , Lsup . Vamos adoptar a definição Linf , Lsup , já que desta maneira estamos a ser coerentes com a definição da função cumulativa de probabilidades. Pressupõe-se que em cada uma das classes, todas as observações dessa classe estão concentradas no centro ou marca da classe. Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em g) de 100 embalagens de manteiga (os pesos variam entre xmin = 297.47 g e xmax = 305.13 g , conforme anteriormente referido; não se registaram as observações individualizadas, mas apenas se contaram o número de ocorrências em cada uma das classes); o número de classes é k = 9 , e amplitude de cada classe é de 1 unidade: Limites das classes (peso, em g) ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] TOTAL Nº de garrafas 8 21 28 15 11 10 5 1 1 N = 100 Tabela de frequências e histograma ni é a N frequência relativa da observação xi , e Fac, fra são as frequências absolutas acumuladas e as frequências relativas acumuladas: A tabela de frequências e o histograma têm o seguinte aspecto, onde fi = Classes de peso (g) ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] TOTAL ni 8 21 28 15 11 10 5 1 1 Fac 8 29 57 72 83 93 98 99 100 9 9 N = ∑ ni = 100 ∑f i =1 ESA fi 0.08 0.21 0.28 0.15 0.11 0.10 0.05 0.01 0.01 i =1 2005/2006 i fra 0.08 0.29 0.57 0.72 0.83 0.93 0.98 0.99 1.00 =1 3 Estatística Descritiva O histograma das frequências absolutas – que é uma estimativa da função de distribuição de probabilidades da população de onde a amostra foi recolhida - tem o seguinte aspecto (o histograma das frequências relativas tem exactamente o mesmo aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta, vem em escala relativa): Histograma de frequências absolutas 30,0 Count 20,0 10,0 0,0 297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0 Peso (g) A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou então a marca da classe (isto é, o centro de cada uma das classes). O histograma dá diversas informações acerca da distribuição das frequências, nomeadamente em termos de valores mais frequentes (classe modal, que no caso é a classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuição é assimétrica à esquerda ou assimétrica positiva), regiões do intervalo de variação onde não existem observações, bem como da representatividade de cada uma das classes. O histograma das frequências relativas acumuladas (que constitui uma estimativa da função cumulativa de probabilidades) apresenta-se em seguida. Quanto maior for um degrau de um valor xi −1 (anterior) para o valor xi (actual), maior é a frequência de observações do valor xi , e vice-versa. Note-se que nos primeiros valores de x os degraus entre os diversos patamares são bastante elevados, correspondendo a maiores frequências para os respectivos valores de x, enquanto que para os últimos valores de x, os degraus são bastante pequenos, significando que as respectivas frequências são baixas. ESA 2005/2006 4 Estatística Descritiva Histograma de frequências acumuladas 100,0 Percent 75,0 50,0 25,0 0,0 297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0 Peso (g) Repare-se por exemplo no seguinte histograma de frequências acumuladas, correspondente a uma distribuição uniforme das frequências pelos diversos valores de x. Num caso destes, os degraus entre os sucessivos valores de x têm todos a mesma altura: Histograma de frequências acumuladas 100,0 Percent 75,0 50,0 25,0 0,0 297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0 x Diagrama de pontos e diagrama de caule-e-folhas ESA 2005/2006 5 Estatística Descritiva Para grandes amostras, estes diagramas ficam muito pesados, e são de interpretação mais difícil. Aliás, se estes tipos de gráficos ganham vantagem sobre o histograma, no caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usarse preferencialmente o histograma. Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, só podem ser elaborados se dispusermos dos registos de todas as observações; se se dispuser apenas da tabela de frequências, não se podem elaborar estes gráficos. Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100 embalagens de manteiga (anexo), e não apenas a tabela de frequências, estes diagramas apresentam-se de seguida. Diagrama de pontos: Veja-se que este diagrama é agora, ao contrário do que acontecia para pequenas amostras, pouco informativo, já que mostra a localização de uma nuvem enorme de pontos sobre a escala da variável. Pode, inclusivamente, induzir a diversas análises menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor máximo como outlier, quando na realidade não o é, etc. Diagrama de caule-e-folhas Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do “caule” (diagrama no lado esquerdo), obtém-se o histograma deitado, não se ganhando ESA 2005/2006 6 Estatística Descritiva mais informação do que a obtida pelo histograma. Fazendo o incremento de 0.5 unidades (diagrama do lado direito), dá uma ideia mais precisa da distribuição, agora em classes de 0.5 g de amplitude. Mas esta mesma informação se poderia também obter no histograma, aumentando o número e diminuindo a amplitude das classes. Para lá da informação que o histograma também fornece, obtém-se a indicação mais imediata da classe mediana. Parâmetros estatísticos Parâmetros de localização Moda É o valor mais frequente (com maior frequência absoluta ou relativa) na amostra. Da tabela de frequências apresentada anteriormente, do histograma, ou do diagrama de caule-e-folhas, deduz-se a moda ocorre na classe ]299.00, 300] (classe modal). Pretendendo um valor único, e não uma classe de valores, para a moda, este valor será um ponto no interior da classe modal, desviado mais para o limite inferior limie superior, de acordo com as frequências nas classes adjacentes. O valor da moda é calculado pela seguinte expressão: Mod = Linf + d1 .∆ d1 + d 2 onde: Linf Limite inferior da classe modal; d1 = nclasse modal − nclasseanterior ou d1 = f classe modal − f classeanterior d 2 = nclasse modal − nclasseseguinte ∆ d1 = f classe modal − f classeseguinte ou Amplitude da classe modal. No exemplo, temos: Linf = 299.00 d1 = nclasse modal − nclasseanterior = 28 − 21 = 7 d 2 = nclasse modal − nclasseseguinte = 28 − 15 = 13 ∆ =1 d1 7 × 1.00 = 299.35 .∆ = 299.00 + d1 + d 2 7 + 13 Repare-se que o valor da moda não está rigorosamente no centro da classe modal, mas está mais deslocado para o lado do limite inferior da classe modal, pois a frequência da Mod = Linf + ESA 2005/2006 7 Estatística Descritiva classe anterior ( nclasseanterior = 28 ) é superior à frequência da classe seguinte à classe modal ( nclasseseguinte = 15 ). Mediana A mediana é o valor xi tal que metade da amostra se localiza abaixo e a outra metade de amostra se localiza acima desse valor. Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequências ou do histograma das frequências acumuladas (valor xi para o qual a frequência absoluta acumulada é igual ou superior a metade da amostra), ou a partir do diagrama de caule-e-folhas. O valor da mediana é um valor contido nesta classe, e é estimado pela seguinte expressão, conforme se utilizem frequências absolutas acumuladas ou frequências relativas acumuladas: N − Facclasse anterior 0.5 − fraclasse anterior 2 .∆ = Linf + .∆ Med = Linf + nclasse mediana f classe mediana em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta acumulada ou a frequência relativa acumulada até à classe anterior à classe mediana, nclasse mediana , f classe mediana são a frequência absoluta ou a frequência relativa da classe mediana, Linf é o limite inferior da classe mediana e ∆ é a amplitude da classe mediana. ESA 2005/2006 8 Estatística Descritiva Para a amostra em estudo, a classe mediana é a classe ]299.00 , 300.00], Linf = 299.00 , Facclasse anterior = 29 , nclasse mediana = 28 e ∆ = 1.00 ; assim, a mediana é: N − Facclasse anterior 50 − 29 2 × 1.00 = 299.75 Med = Linf + .∆ = 299.00 + nclasse mediana 28 Quartis, decis, percentis Tal como para o caso das amostras discretas ou de pequena dimensão, os quartis dividem a amostra em quatro sub-amostras ou quatro intervalos quartílicos, definidos respectivamente por [ xmin , Q1 ] ; [Q1 , Q2 ] ; [Q2 , Q3 ] ; [Q3 , xmax ] . Para definir cada um dos quartis, localiza-se a classe quartílica respectiva (isto é, a classe onde ocorrem 25%, 50% e 75% das observações), e de seguida determina-se qual dos valores de cada uma dessas classes é teoricamente o respectivo quartil, usando a seguinte expressão: j. N j − Facclasse anterior , j − fraclasse anterior , j 4 4 .∆ = Linf, j + .∆ Q j = Linf, j + nclasseQ j f classeQ j j = 1, 2,3 1º quartil (j=1): 1ª classe quartílica: Facclasse anterior = 8 ]298.00 , 299.00] nclasseQ1 = 21 N 100 − Facclasse anterior ,1 −8 × 1.00 = 298.81 Q1 = Linf,1 + 4 .∆ = 298.00 + 4 nclasseQ1 21 3º quartil (j=3): 3ª classe quartílica: Facclasse anterior = 72 ]301.00 , 302.00] nclasseQ3 = 11 3.N 3 × 100 − Facclasse anterior ,3 − 72 4 4 × 1.00 = 301.27 Q3 = Linf,3 + .∆ = 301.00 + nclasseQ3 11 Naturalmente, o 2º quartil coincide com a mediana: Q2 ≡ Med = 299.75 . ESA 2005/2006 9 Estatística Descritiva A expressão anterior generaliza-se de uma maneira lógica para qualquer percentil: j. N j − Facclasse anterior , j − fraclasse anterior , j 100 100 .∆ = Linf, j + .∆ Pj = Linf, j + nclasse Pj f classe Pj em que Facclasse anterior , j = 1, 2,3,...,100 fraclasse anterior são, respectivamente, a frequência absoluta acumulada ou a frequência relativa acumulada até à classe anterior à classe do percentil pretendido, nclasse Pj , f classe Pj são a frequência absoluta ou a frequência relativa da classe do percentil pretendido, Linf é o limite inferior da classe do percentil e ∆ é a amplitude da classe do percentil em consideração. Para os decis, basta fazer j = 10, 20,30,...,90 na expressão anterior. Vejamos, por exemplo, os percentis P5 , P10 , P90 , P95 : Percentil 5% (j=5): Classe do percentil 5%: Facclasse anterior = 0 ]297.00 , 298.00] nclasse P5 = 8 5.N 5 ×100 − Facclasse anterior ,5 −0 100 100 P5 = Linf,5 + .∆ = 297.00 + × 1.00 = 297.625 nclasse P5 8 Percentil 10% (j=10): Classe do percentil 10%: Facclasse anterior = 8 ]298.00 , 299.00] nclasse P10 = 21 10.N 10 × 100 − Facclasse anterior ,10 −8 100 100 P10 = Linf,10 + .∆ = 298.00 + × 1.00 = 298.095 nclasse P10 21 Percentil 90% (j=90): Classe do percentil 90%: Facclasse anterior = 83 ]302.00 , 302.00] nclasse P90 = 10 90.N 90 ×100 − Facclasse anterior ,90 − 83 P90 = Linf,90 + 100 .∆ = 302.00 + 100 × 1.00 = 302.7 nclasse P90 10 ESA 2005/2006 10 Estatística Descritiva Percentil 95% (j=95): Classe do percentil 95%: Facclasse anterior = 93 ]303.00 , 304.00] nclasse P95 = 5 95.N 95 × 100 − Facclasse anterior ,95 − 93 100 100 P95 = Linf,95 + .∆ = 303.00 + × 1.00 = 303.4 nclasse P95 5 Nota: de um modo geral há sempre interesse em calcular, para além da mediana e dos quartis, os percentis P10 e P90 , pois entram no cálculo de coeficientes de assimetria e de achatamento. Média Tal como no caso de amostras de pequena dimensão, mas onde existem dados repetidos, sendo ni a frequência absoluta da i.ésima classe i = 1, 2,3,..., k , tal que k ∑n i =1 i =N, a média de uma amostra agrupada em classes é calculada por: k x= ∑ n .x i =1 i i N Nesta situação, o valor xi é a marca (ou valor central) da i.ésima classe i = 1, 2,3,..., k . Para calcular a média, elabora-se a seguinte tabela como ferramenta de cálculo: Classe ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] xi 297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5 ni 8 21 28 15 11 10 5 1 1 ni .xi 2380,0 6268,5 8386,0 4507,5 3316,5 3025,0 1517,5 304,5 305,5 9 ∑ n .x i =1 ESA 2005/2006 i i = 30011.0 11 Estatística Descritiva k Logo, a média é x = ∑ n .x i i =1 N i = 30011 = 300.11 100 k ∑ n .x i i k n ni .xi k ni =∑ .xi =∑ f i .xi , em que fi = i é a frequência relativa N N i =1 N i =1 N i =1 da observação xi . Isto é: Nota: x = i =1 k =∑ Classe ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] xi 297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5 fi 0,08 0,21 0,28 0,15 0,11 0,1 0,05 0,01 0,01 fi .xi 23,800 62,685 83,860 45,075 33,165 30,250 15,175 3,045 3,055 9 x = ∑ fi .xi = 300.11 i =1 No exemplo nota-se que Mod = 299.35 < Med = 299.75 < x = 300.11 , o que é um sintoma de que a amostra tem uma cauda superior mais prolongada, isto é, a amostra denota uma tendência de assimetria à direita, ou assimetria positiva. Parâmetros de dispersão Para além de caracterizar a distribuição de uma amostra pela sua tendência de localização ou tendência central, temos de descrever igualmente a sua tendência de dispersão ou variabilidade, que é um indicador da variabilidade das observações em torno dos valores centrais. Intervalo e amplitude de variação O intervalo de variação da amostra é o intervalo definido por: [ x1 , xN ] isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d variação (“Range”) é a amplitude deste intervalo: R = xN − x1 ESA 2005/2006 12 Estatística Descritiva O intervalo de variação da amostra em análise é [297.47 , 305.13] e a amplitude de variação é R = 305.13 − 297.47 = 7.66 . Amplitude inter-quartílica A amplitude inter-quartílica é definida como: Q3 − Q1 Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de concentração dos valores em torno da média, ainda não leva em conta todas as observações presentes na amostra. Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na comparação da variabilidade de diversas amostras retiradas da mesma população do que na descrição da dispersão de uma única amostra. Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartílica é de Q3 − Q1 = 301.27 − 298.81 = 2.46 . Diagrama de extremos-e-quartis Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da variabilidade de uma amostra, bem como analisar a distribuição da concentração nas quatro sub-amostras definidas pelos quartis (intervalos quartílicos). Esta representação gráfica consiste em desenhar um rectângulo, com a base na escala das observações, e em que os dois lados laterais são respectivamente o 1º e 3º quartis; ligam-se estes lados com um segmento de recta à escala, respectivamente ao valor mínimo e ao valor máximo da amostra. O rectângulo, que representa a amplitude interquartílica, é dividido pela mediana. Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão ou concentração de valores, bem como deduzir acerca da sua simetria. Na amostra em estudo, este diagrama tem o seguinte aspecto: ESA 2005/2006 13 Estatística Descritiva Repare-se que a amostra é mais concentrada no 2º intervalo quartílico. A zona de maior dispersão de valores ocorre no 4º intervalo quartílico. Nota-se a ocorrência de um valor (valor máximo) que deve ser considerado como outlier moderado, já que: xmax = 305.13 > Q3 + 1.5 × ( Q3 − Q1 ) = 301.27 + 1.5 × 2.46 = 304.96 Contudo, não é outlier extremo porque: xmax = 305.13 < Q3 + 3 × ( Q3 − Q1 ) = 301.27 + 3 × 2.46 = 308.65 Desvio médio Uma medida da dispersão em torno da média resulta da soma dos desvios de cada observação para a média: N ∑ x −x dm = i =1 i N Para dados agrupados em classes, o desvio médio calcula-se pela expressão seguinte, em que xi é a marca de cada uma das k classes: k dm = ESA ∑n . x − x i =1 i i N k =∑ i =1 k ni . xi − x = ∑ fi . xi − x N i =1 2005/2006 14 Estatística Descritiva Este parâmetro mede o afastamento médio de cada observação para a média: quanto maior for (comparativamente com a média ou com os dados originais), mais dispersa será a amostra, e consequentemente menos representativa é a média. Na tabela de cálculo seguinte apresentam-se os cálculos do desvio médio da amostra em análise: Classe xi ni xi − x ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] 297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5 8 21 28 15 11 10 5 1 1 -2,61 -1,61 -0,61 0,39 1,39 2,39 3,39 4,39 5,39 ni . xi − x 20,88 33,81 17,08 5,85 15,29 23,9 16,95 4,39 5,39 9 ∑n . x − x i =1 i i = 143.54 k O desvio médio é dm = ∑n . x − x i =1 i i N = 143.54 = 1.4354 . 100 O desvio médio também podia ser calculado usando as frequências relativas: xi fi xi − x ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] 297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5 8 21 28 15 11 10 5 1 1 fi . xi − x 0,2088 0,3381 0,1708 0,0585 0,1529 0,2390 0,1695 0,0439 0,0539 9 dm = ∑ fi . xi − x = 1.4354 i =1 O desvio médio, quando comparado com os valores originais ou com o valor da média, revela-se bastante pequeno o que traduz uma pequena tendência de dispersão, ou equivalentemente, uma forte tendência de concentração em torno da média; uma dm 1.4354 comparação mais objectiva poderá ser obtida pela proporção = = 0.0048 , x 300.11 isto é, o desvio médio é da ordem de 0.48% do valor da média. ESA 2005/2006 15 Estatística Descritiva Variância A variância é o parâmetro de dispersão mais usual, e aquele que apresenta melhores propriedades estatísticas. A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma das observações em torno da média. No caso do desvio médio, o módulo da diferença para a média é, por definição, o afastamento de cada observação para a média. No caso da variância, usa-se o quadrado da distância das observações para a média. Para a população, a variância é, por definição: N σ2 = ∑(x − µ) i =1 2 i N Contudo, na Estatística não se tem a população, mas sim uma amostra de observações, geralmente de muito menor dimensão que a população. Demonstra-se que a expressão anterior, quando aplicada a amostras relativamente diminutas em comparação com a população (e usando a média amostral x como estimativa da média da população µ ) sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o valor da variância da população de onde a amostra foi retirada). Para evitar este enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada com o símbolo s 2 : N s2 = ∑(x − x ) i =1 2 i N −1 Isto é, para evitar a sub-valorização, o divisor é N − 1 . Esta expressão, para cálculo manual, é de difícil manuseamento. Desenvolvendo aritmeticamente a expressão anterior, e considerando existem k classe, cujas marcas são genericamente xi , e as frequências absolutas são ni , obtém-se a seguinte expressão, mais fácil de implementar numa tabela de cálculo: 2 k ∑ ni .xi k 1 k i =1 = 1 n .x 2 − N .x 2 2 2 − s = n . x ∑i i i i N − 1 ∑ N − 1 i =1 N i =1 Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo portanto comparar-se com os valores originais. Para podermos comparar duas quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e de seguida reduz-se para a escala em que estão as observações: ESA 2005/2006 16 Estatística Descritiva s = ss Este indicador estatístico (s) designa-se por desvio padrão. Para comparar o desvio padrão com os valores originais, calcula-se o seguinte indicador, designado por coeficiente de variação: cv = s x Como regra de geral, alguns autores consideram a distribuição concentrada se cv ≤ 0.1 , e dispersa caso cv > 0.1 . Para a amostra das embalagens de manteiga em análise, elabore-se a seguinte tabela de cálculo: Classe xi ni ni .xi2 ]297.00 , 298.00] ]298.00 , 299.00] ]299.00 , 300.00] ]300.00 , 301.00] ]301.00 , 302.00] ]302.00 , 303.00] ]303.00 , 304.00] ]304.00 , 305.00] ]305.00 , 306.00] 297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5 8 21 28 15 11 10 5 1 1 708050,00 1871147,25 2511607,00 1354503,75 999924,75 915062,50 460561,25 92720,25 93330,25 9 ∑ n .x i =1 i 2 i = 9006907.0 Para calcular a variância, basta fazer: s2 = 1 k 1 ni .xi2 − N .x 2 = ( 9006907 − 100 × 300.112 ) = 3.0888 ∑ N − 1 i =1 99 O desvio padrão é s = s 2 = 3.0888 = 1.7575 . O coeficiente de variação é s 1.7575 cv = = = 0.0059 , isto é, o desvio padrão é da ordem de 0.59% do valor da x 300.11 média, o que traduz, tal como o desvio médio, uma variabilidade bastante pequena das observações em torno da média. Parâmetros de assimetria A assimetria (em inglês, skewness) é o grau de desvio ou afastamento da simetria de uma distribuição. Se a curva de frequências de uma distribuição tem uma cauda mais ESA 2005/2006 17 Estatística Descritiva longa à direita, relativamente à ordenada máxima (moda), diz-se que a distribuição é assimétrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa é a esquerda, a distribuição é assimétrica para a esquerda, ou assimétrica negativa. Assimetria positiva Assimetria negativa S imétrica Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a cauda mais longa: Assimetria positiva M oda Assimetria negativa x x M oda Assim, uma medida da assimetria é proporcionada pela diferença entre a média e a moda, ponderada por uma medida de dispersão (desvio padrão): Assimetria = x − moda s (primeiro coeficiente se assimetria de Pearson) Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por: Assimetria = 3 ( x − mediana ) s (segundo coeficiente se assimetria de Pearson) Outros coeficientes de assimetria são definidos em termos dos quartis e decis; o coeficiente quartílico de assimetria é definido como: ( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 ) ( Q3 − Q1 ) ( Q3 − Q1 ) e o coeficiente percentílico de assimetria é: ( P90 − P50 ) − ( P50 − P10 ) = ( P90 − 2 P50 + P10 ) ( P90 − P10 ) ( P90 − P10 ) ESA 2005/2006 18 Estatística Descritiva Um outro coeficiente de assimetria é o coeficiente se assimetria de Fisher, que utiliza o terceiro momento centrado na média ( m3 = N 1 N ∑(x − x ) i =1 3 i ): N g1 = N ( N − 1) N −2 × N ( N − 1) m3 = s3 N −2 × 1 N ∑(x − x ) 3 i i =1 s3 Este coeficiente é calculado em diversos programas estatísticos (SPSS, MINITAB, STATGRAPHICS, etc), muito embora o seu cálculo manual seja algo moroso. Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média zero e variância N6 ; o coeficiente de assimetria estandardizado é: gs = g1 6 N Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos para amostras assimétricas negativas. Para a amostra de pesos das embalagens de manteiga, estes coeficientes são: 1º coeficiente de assimetria de Pearson: Assimetria = x − moda 300.11 − 299.35 = = 0.4324 s 1.7575 2º coeficiente de assimetria de Pearson: Assimetria = 3 ( x − mediana ) 3 × ( 300.11 − 299.75 ) = = 0.2048 s 1.7575 Coeficiente quartílico de assimetria: ( Q3 − 2Q2 + Q1 ) = 301.27 − 2 × 299.75 + 298.81 = 0.2358 301.27 − 298.81 ( Q3 − Q1 ) Coeficiente percentílico de assimetria: ( P90 − 2 P50 + P10 ) = 302.7 − 2 × 299.75 + 298.095 = 0.2812 302.7 − 298.095 ( P90 − P10 ) O coeficiente de assimetria de Fisher é: ESA 2005/2006 19 Estatística Descritiva N g1 = N ( N − 1) N −2 × m3 = s3 N ( N − 1) N −2 × 1 N ∑(x − x ) i =1 3 i s3 366.7062 100 × 99 = × 100 3 = 0.6858 98 1.7575 Todos estes coeficientes indicam que a distribuição da amostra é ligeiramente enviezada à direita, ou assimétrica positiva. Parâmetros de forma Além da simetria, as distribuições também se costumam caracterizar quanto à altura do ponto máximo da curva de distribuição. Esta característica é designada por achatamento ou curtose (em inglês, kurtosis). Leptocúrtica Platicúrtica Mesocúrtica A distribuição chamada mesocúrtica tem no centro uma altura correspondente à curva da função de densidade da distribuição normal. A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que o facto de a distribuição ter altura menor no centro, significa maior proporção de observações nas caudas, isto é, é sintoma de uma forte dispersão. A distribuição diz-se leptocúrtica se tem altura superior à da curva normal. O facto de a distribuição ter altura maior no centro, significa maior proporção de observações nas proximidades dos valores centrais, isto é, é sintoma de uma forte concentração em torno da média. Um coeficiente numérico para caracterizar o achatamento é o coeficiente percentílico de achatamento: ( Q3 − Q1 ) k= 2 P90 − P10 Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva demasiado alta. ESA 2005/2006 20 Estatística Descritiva Os programas estatísticos usam outro coeficiente de achatamento, designado por coeficiente de achatamento de Fisher, que é baseado no 4º momento centrado na média ( m4 = N 1 N ∑(x − x ) i =1 i 4 ): g2 = ( N + 1)( N − 1) × m4 − 3 ( N − 1) N +1 ( N − 2 )( N − 3) s 4 Para uma curva normal, o valor deste coeficiente é k = 0 . Um valor negativo é sintoma de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado alta. Para a amostra de borregos, o coeficiente percentílico de achatamento é: ( Q3 − Q1 ) k= 2 P90 − P10 301.27 − 298.81 2 = = 0.2671 302.7 − 298.095 indicando que a distribuição tem uma altura na classe modal muito semelhante à altura de uma distribuição normal. O coeficiente baseado no 4º momento é g 2 = −0.0505 que, tal como o coeficiente percentílico de achatamento, dá a informação de que a altura da curva da distribuição é praticamente normal. Considerações finais 1 . O facto de se agruparem os dados em classes, e estimar os parâmetros com base nas marcas das classes, e não com todos os dados individualizados, conduz necessariamente a umas estimativas dos parâmetros ligeiramente diferentes das que se obteriam trabalhando com os N dados individualizados. Estas diferenças serão tanto mais graves quanto mais distintos, em cada uma das classes, os valores nelas incluídos forem diferentes da marca da classe. Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parâmetros estatísticos, as classes devem ser definidas de tal modo que as respectivas marcas fiquem sensivelmente no centro das observações incluídas em cada uma das classes. Por exemplo, se o processo de obtenção das observações conduz sistematicamente a valores do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca seja do tipo xx.0. Repare-se que a definição de classes de modo que as marcas fossem do tipo xx.5, os valores teriam tendência a estar mais afastados da marca, send maior o enviezamento provocado pela organização da amostra em classes. 2 . Com os meios computacionais actualmente disponíveis, não há grande vantagem na realização de classes. Um dos principais motivos para a organização da amostra em classes, era a vantagem de cálculo resultante dessa organização, quando os cálculos tinham de ser efectuados manualmente. ESA 2005/2006 21 Estatística Descritiva Com o incremento e divulgação dos programas estatísticos informáticos, essa vantagem é desprezível, de modo que as estimativas são mais rigorosas se forem efectuadas com todos os dados, e não com as marcas das classes. A justificação para as metodologias de cálculo com os dados organizados em classes prende-se com o facto de muita da informação disponível para tratamento e análise estatística está por natureza agrupado em classes. Como exemplo, refiram-se as informações socio-económicas que a cada dia se obtêm de anuários do Instituto Nacional de Estatística, ou outras publicações do género, em que a quantidade de informação a divulgar é de tal modo extensa que se tem de apresentar resumida em classes. 3 . Para melhor nos apercebermos do enviezamento resultante da organização da amostra em classes, consideremos a situação em que se tem acesso aos 100 valores individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado neste texto). Esses valores são apresentados em anexo. Estes valores foram introduzidos em dois programas estatísticos (MINITAB e STATGRAPHICS). Os resultados obtidos apresentam-se de seguida. - MINITAB: - STATGRAPHICS ESA 2005/2006 22 Estatística Descritiva Como se pode constatar, alguns parâmetros diferem ligeiramente entre as estimativas levadas a cabo com a amostra organizada em classes (cálculos no texto) e as estimativas efectuadas pelos programas (sobre todos os valores). Por exemplo, a média calculada com classes é x = 300.11 e a calculada sobre os valores individualizados é x = 300.125 e a variância é s 2 = 3.0888 e s 2 = 2.9885 , consoante foi estimada com classes ou com os valores individualizados. ESA 2005/2006 23