ESTATÍSTICA June 4, 2013 UFOP June 4, 2013 1 / 87 NOME 1 2 Medidas de Tendência Central Média aritmética Mediana Moda Separatrizes Medidas de Dispersão Amplitude Total Variância e Desvio-padrão Coeficiente de Variação de Pearson Erro padrão da média 3 Momentos, assimetria e curtose Momentos Assimetria Curtose 4 Representação Gráfica UFOP June 4, 2013 2 / 87 Medidas de Tendência Central Uma medida de tendência central procura sintetizar as informações da amostra em um único e informativo valor. As principais medidas de posição estão apresentadas a seguir. UFOP June 4, 2013 3 / 87 Média aritmética A média é a principal medida de posição, sendo utilizada principalmente quando os dados apresentam distribuição simétrica ou aproximadamente simétrica, como acontece com a maioria das situações práticas. Simbologia: µ para a média populacional. X para a média amostral. UFOP June 4, 2013 4 / 87 A média populacional é calculada pela expressão a seguir: Para dados brutos X1 + X2 + · · · + Xn µ= ⇒µ= N em que, N é o tamanho da amostra. UFOP PN i Xi N June 4, 2013 5 / 87 O estimador da média populacional é: Para dados brutos X1 + X2 + · · · + Xn X= ⇒X= n em que, n é o tamanho da amostra. Pn i Xi n Para dados agrupados em Tabela de Frequências Pk i X= Xi fi n em que, k é o número de classes. UFOP June 4, 2013 6 / 87 Exemplo Dados Brutos Vamos voltar ao exemplo das alturas,expressas em centímetros, de 30 atletas do sexo masculino de uma universidade: 168 176 175 172 173 164 170 170 181 181 186 179 169 183 172 173 170 169 164 168 174 175 166 171 182 169 178 177 180 166 A média aritmética será dada por: X= X1 + X2 + · · · + Xn 168 + 172 + · · · + 166 ⇒X= n 30 X = 173, 37 UFOP June 4, 2013 7 / 87 Exemplo Para dados agrupados em Tabela de Frequências A tabela de distribuição de frequências foi apresentada na aula anterior: UFOP June 4, 2013 8 / 87 Assim, a média aritmética será dada por: P5 Xi fi X = i=1 n X= 166, 2 · 6 + 170, 6 · 9 + · · · + 183, 8 · 3 = 173, 53 30 UFOP June 4, 2013 9 / 87 Hipótese Tabular Básica Alguém pode questionar a razão da diferença observada no uso dos dois estimadores. A resposta é dada pela hipótese tabular básica, a qual considera que todos os elementos de uma classe são representados pelo seu ponto médio, fato este, que não é verdadeiro em praticamente todas as situações. Desta forma, este último resultado é apenas aproximado. No entanto, o erro cometido é mínimo e, portanto, pode ser desprezado. UFOP June 4, 2013 10 / 87 Propriedades da média A soma algébrica dos desvios em relação à média aritmética é nula. n X (Xi − X) = 0 i A soma dos quadrados dos desvios de um conjunto de dados em relação a sua média e um valor mínimo. D= n X (Xi − X)2 i UFOP June 4, 2013 11 / 87 Propriedades da média A média de um conjunto de dados acrescido em cada elemento por uma constante e igual à média original mais essa constante. ∗ X =X +k ∗ em que X é a média do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova média será igual ao produto da média anterior pela constante. ∗ X =X ·k A média é influenciada por valores extremos. UFOP June 4, 2013 12 / 87 Mediana A mediana divide as observações ordenadas em partes iguais. Para sua determinação é necessário o conhecimento da posição central. Para dados ordenados, temos basicamente têm-se duas situações distintas: Se n for par: md = Xn/2 + X(n+2)/2 2 Se n for ímpar: md = UFOP X(n+1) 2 June 4, 2013 13 / 87 Exemplo Dados ordenados No caso dos atletas a posição central está entre o 15o e o 16o elemento. Portanto, a mediana é a média aritmética destas duas observações. Logo, md = X(15) + X(16) X(30/2) + X(30+2)/2 ⇒ md = 2 2 md = 172, 5cm UFOP June 4, 2013 14 / 87 Dados agrupados em Tabela de Frequências No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte expressão: n/2 − Fant md = LImd + · cmd fmd em que fmd é a freqüência da classe mediana; cmd é a amplitude da classe mediana; Fant é a frequência acumulada das classes anteriores à classe mediana; LImd é o limite inferior da classe mediana. A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de freqüência. UFOP June 4, 2013 15 / 87 Exemplo No caso dos atletas temos: Posição mediana = 30/2 = 15 (contida na 2a classe), Fant = 6; LImd = 168, 4, fmd = 9 e cmd = 4, 40. Logo, 15 − 6 · 4, 40 md = 168, 4 + 9 md = 172, 8cm UFOP June 4, 2013 16 / 87 Propriedades da mediana A mediana de um conjunto de dados acrescido em cada elemento por uma constante e igual à mediana original mais essa constante. md∗ = md + k em que md∗ é a mediana do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova mediana será igual ao produto da mediana anterior pela constante. md∗ = md · k UFOP June 4, 2013 17 / 87 Observação Muitas vezes existem dúvidas de qual medida utilizar para sintetizar os dados amostrais. Como uma regra geral, pode-se definir qual medida é mais conveniente para uma dada situação com base na análise do histograma ou do polígono de freqüências. Se a distribuição dos dados for assimétrica, isto é quando valores extremos predominam em uma das caudas da distribuição, deve se preferir a mediana como medida sintetizadora. Isto se deve ao fato da mediana ser pouco sensível a presença de valores extremos, sendo considerada mais robusta que a média. O termo robusto é o termo técnico usado para indicar esta propriedade da mediana em relação à média aritmética, que quando a situação de simetria é violada a mediana é uma medida que sofre menos “interferências” nas suas estimativas. UFOP June 4, 2013 18 / 87 Moda A moda é definida para dados qualitativos ou para quantitativos discretos como sendo o valor de maior freqüência na amostra. Para dados quantitativos contínuos a moda é o valor de maior densidade. Portanto para dados quantitativos contínuos o estimador da moda é baseado na distribuição de freqüências. Esse estimador busca encontrar o ponto de máximo do polígono de freqüências. Um conjunto pode ter mais de uma moda ou até mesmo não ter moda. UFOP June 4, 2013 19 / 87 O estimador da moda para dados quantitativos contínuos é definido a partir da distribuição de freqüência por meio de um método geométrico, o qual conduz a seguinte expressão: mo = LImo + ∆1 · cmo ∆1 + ∆ 2 em que: LImo : limite inferior da classe modal; ∆1 : diferença entre as freqüências da classe modal e a classe anterior; ∆2 : diferença entre as freqüências da classe modal e a classe posterior; cmo : amplitude da classe modal. A classe modal é a classe com maior freqüência. UFOP June 4, 2013 20 / 87 Propriedades da moda A moda de um conjunto de dados acrescido em cada elemento por uma constante e igual à moda original mais essa constante. mo∗ = mo + k em que mo∗ é a mediana do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova moda será igual ao produto da moda anterior pela constante. mo∗ = mo · k UFOP June 4, 2013 21 / 87 Relações empíricas entre média, mediana e moda X = md = mo (distribuição simétrica) X > md > mo (distribuição assimétrica à direita) X < md < mo (distribuição assimétrica à esquerda) UFOP June 4, 2013 22 / 87 Separatrizes São as medidas que separam a distribuição de freqüências em partes iguais. Vimos que a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. Lembrem-se: os dados deves etar ordenados em ordem crescente!!! UFOP June 4, 2013 23 / 87 Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1 : 1o quartil. Deixa 25% dos elementos antes do seu valor Q2 : 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana. Q3 : 3o quartil. Deixa 75% dos elementos antes do seu valor. UFOP June 4, 2013 24 / 87 Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão: EQi = in/4 em que: i é o número do quartil a ser calculado. n é o número de observações. UFOP June 4, 2013 25 / 87 Para dados não agrupados, vejamos um exemplo simples: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Neste caso temos n = 10 Se eu estiver interessado em encontrar o terceiro quartil, temos: EQ3 = 3 · 10/4 = 7, 5 Se o número resultante for decimal, a regra é arredondar sempre para cima. Logo, Q3 = 8. Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão acima de 8 na distribuição de dados apresentada no exemplo. UFOP June 4, 2013 26 / 87 Para dados agrupados em classes temos: EQi − Fant Qi = LI + c fQi em que LI = limite inferior da classe que contém o quartil desejado c = amplitude do intervalo de classe EQi = elemento quartílico Fant = frequência acumulada até a classe anterior à classe que contém EQi fQi = frequência absoluta simples da classe quartílica. UFOP June 4, 2013 27 / 87 Decis Os decis dividem um conjunto de dados em dez partes iguais. De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil se encontra: EDi = in/10 em que: i é o número do decil a ser calculado. n é o número de observações. UFOP June 4, 2013 28 / 87 Para dados não agrupados, vejamos o exemplo anterior: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} em que n = 10 Se eu estiver interessado em encontrar o D6 , temos: ED6 = 6 · 10/10 = 6 Se o número resultante for inteiro, a regra é fazer a média dele com o númeor imediatamente posterior a ele na ordem dos dados. Logo, D6 = 6+7 2 = 6, 5. Assim, 60% dos valores estão abaixo de 6, 5 e 40% dos valores estão acima de 6, 5 na distribuição de dados apresentada no exemplo. UFOP June 4, 2013 29 / 87 Para dados agrupados em classes temos: EDi − Fant Di = LI + c fDi em que LI = limite inferior da classe que contém o decil desejado c = amplitude do intervalo de classe Fant = frequência acumulada até a classe anterior à classe que contém EDi fDi = frequência absoluta simples da classe que contém EDi . UFOP June 4, 2013 30 / 87 Percentis ou Centis Os percentis dividem um conjunto de dados em cem partes iguais. O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão: ECi = in/100 em que: i é o número do percentil a ser calculado. n é o número de observações. UFOP June 4, 2013 31 / 87 Para dados não agrupados, consideremos novamente: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Se estivermos interessados em encontrar o P75 , temos: EP75 = 75 · 10/100 = 7, 5 Como o número resultante é decimal, temos, P75 = 8. Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão acima de 8 na distribuição de dados apresentada no exemplo. Note que P75 coincide com Q3 UFOP June 4, 2013 32 / 87 Para dados agrupados em classes temos: ECi − Fant Ci = LI + c fCi em que LI = limite inferior da classe que contém o percentil desejado c = amplitude do intervalo de classe Fant = frequência acumulada até a classe anterior à classe que contém ECi fCi = frequência absoluta simples da classe que contém ECi . UFOP June 4, 2013 33 / 87 Exemplo Com base na tabela de distribuição de frequências abaixo encontre: Primeiro quartil Septuagésimo quinto centil Nono decil UFOP June 4, 2013 34 / 87 Exemplo Tabela 1 - consumo médio de eletricidade (kWh) entre 80 consumidores - RJ - 1980 Consumo (Kwh) 5 ` 25 25 ` 45 45 ` 65 65 ` 85 85 ` 105 105 ` 125 125 ` 145 145 ` 165 UFOP fi 4 6 14 26 14 8 6 2 FA 4 10 24 50 64 72 78 80 June 4, 2013 35 / 87 Resolução: Encontrar a posição do primeiro quartil: EQi = in/4 = 1 · 80 = 20 4 O Q1 está localizado na 20a posição, logo encontra-se na 3a classe. Então, EQi − Fant 20 − 10 Qi = LI + c = 45 + 20 = 59, 29 fQi 14 Interpretação: 25% dos usuários consomem até 59,59 kwh. De maneira análoga, 75% dos usuários consomem mais de 59,59 kwh. UFOP June 4, 2013 36 / 87 Resolução: Encontrar a posição do septuagésimo quinto percentil: ECi = in/100 = 75 · 80 = 60 100 O C75 está localizado na 60a posição, logo encontra-se na 5a classe. Então, ECi − Fant 60 − 50 Ci = LI + c = 85 + 20 = 99, 29 fCi 14 Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários consomem mais de 99,29 kwh. UFOP June 4, 2013 37 / 87 Resolução: Encontrar a posição do nono decil: EDi = in/10 = 9 · 80 = 72 10 O d9 está localizado na 72a posição, logo encontra-se na 6a classe. Então, 72 − 64 EDi − Fant = 105 + 20 Di = LI + c = 125 fDi 8 Interpretação: : 90% dos usuários consomem até 125 kwh. De maneira análoga, 10% dos usuários consomem mais de 125 kwh. UFOP June 4, 2013 38 / 87 Medidas de dispersão ou de variabilidade As medidas de posição não informam sobre a variabilidade dos dados e são insuficientes para sintetizar as informações amostrais. Para exemplificar este fato, tem-se a seguir três amostras com a mesma média: A = {8, 8, 9, 10, 11, 12, 12} X A = 10 B = {5, 6, 8, 10, 12, 14, 15} X B = 10 C = {1, 2, 5, 10, 15, 18, 19} X C = 10 UFOP June 4, 2013 39 / 87 Pode-se observar que as amostras diferem grandemente em variabilidade. Por esta razão torna-se necessário estabelecer medidas que indiquem o grau de dispersão, ou variabilidade em relação ao valor central. Desta forma pode-se afirmar que uma amostra deve ser representada por uma medida de posição e dispersão. As principais medidas de dispersão que são: Amplitude total Variância e Desvio-padrão Coeficiente de Variação de Pearson Erro padrão da média UFOP June 4, 2013 40 / 87 Amplitude total A amplitude total é definida como a diferença entre o maior e o menor valor de uma amostra. A = X(n) − X(1) Note que para os conjuntos de dados A, B, C, temos: AA = 12 − 8 = 4 AB = 15 − 5 = 10 AC = 19 − 1 = 18 UFOP June 4, 2013 41 / 87 Desvantagens A amplitude tem as seguintes desvantagens: só considerar os valores extremos para o seu cálculo, e principalmente se houver outlier ela será grandemente afetada; ser influenciada pelo tamanho da amostra, pois à medida que a amostra aumenta a amplitude tende a ser maior. UFOP June 4, 2013 42 / 87 Variância e Desvio-padrão A variância é uma medida da variabilidade que considera todas as observações e, devido às propriedades que possui, é a mais utilizada na maioria das situações na estatística. A variância relaciona os desvios em torno da média e sua raiz quadrada é conhecida como desvio-padrão. Simbologia σ 2 para a variância populacional e σ para o desvio-padrão populacional s2 para a variância amostral e s para o desvio-padrão amostral UFOP June 4, 2013 43 / 87 A variância populacional é dada por: 2 σ = PN i=1 (Xi − µ)2 N em que N é o tamanho da População. UFOP June 4, 2013 44 / 87 A variância amostral é dada por: Pn (Xi − X)2 2 s = i=1 n−1 em que n é o tamanho da amostra e (n − 1) é denominado graus de liberdade.. UFOP June 4, 2013 45 / 87 Numa amostra de tamanho n deveria ser utilizado este valor (n) como divisor desta soma de quadrados de desvios. No entanto, devido a motivos associados a propriedades dos estimadores, o divisor da variância amostral é dado por n-1 em lugar de n na expressão do estimador da variância. A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido pela extração da raiz quadrada da variância. UFOP June 4, 2013 46 / 87 Para o cálculo da variância ou desvio padrão amostral a partir dos dados elaborados é preferível utilizar as seguintes expressões: " n # P X ( ni=1 Xi )2 1 2 2 Xi − s = n−1 n i=1 e √ s= UFOP s2 June 4, 2013 47 / 87 Para dados agrupados temos: " k # P X ( ki=1 fi X i )2 1 2 2 fi X i − s = n−1 n i=1 em que k é o número de classes. Exemplo Assim, para os conjuntos de dados A, B, C, temos: s2A = 3 s2B = 15 sA ∼ = 1, 77 s2C = 56, 57 sB ∼ = 3, 87 sC ∼ = 7, 53 UFOP June 4, 2013 48 / 87 O Desvio-padrão A variância é expressa pelo quadrado da unidade de medidad da variável que está sendo estudada. Assim, e a variável sob análise for medida em metro, então a variância será expressa em m2 . Para melhr interpretar a dispersão de uma variável, usaremos o desvio padrão, que será expresso na unidade de medida original dos dados. Trata-se da mais importante das medidas de dispersão, pois indica a dispersão média absoluta dos dados em torno da própria média aritmética. UFOP June 4, 2013 49 / 87 Interpretação do Desvio-padrão Numa linguagem mais simplista, devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim: Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e conseqüentemente os dados serão homogêneos. Ou seja, haverá uma grande concentração de dados em torno da média. Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e conseqüentemente os dados serão heterogêneos. Ou seja, os valores não se concentrarão com tanta intensidade em torno da média. UFOP June 4, 2013 50 / 87 Terorema de Tchebycheff Essa idéia de concentração em torno da média pode ser expressa mais formalmente pelo seguinte Teorema: Teorema: Para qualquer conjunto de dados (população ou amostra)e qualquer constante k > 1, a proporção dos dados que podem estar a menos de k desvios-padrões da média (para qualquer dos dois lados) é pelo menos 1 − k12 , isto é: P (µ − kσ < Xi < µ − kσ) ≥ 1 − 1 k2 P (µ − ks < Xi < µ − ks) ≥ 1 − 1 k2 ou UFOP June 4, 2013 51 / 87 Para ilustrar o Teorema de Tchebychev, por exemplo, é possível afirmar que ao menos 1 − 212 = 34 = 75% dos valores de qualquer conjunto de dados, devem estar a menos de dois desvios-padrões da média, de qualquer lado dela. Para qualquer distribuição com média e desvio-padrão: O intervalo (X ± 2s) ou (X ± 2σ) contém, no mínimo, 75% de todas as observações. O intervalo (X ± 3s) ou (X ± 3σ) contém, no mínimo, 89% de todas as observações. UFOP June 4, 2013 52 / 87 Propriedades Variância Somando ou subtraindo uma constante aos dados a variância não se altera; Multiplicando todos os dados por uma constante K a nova variância ficara multiplicada por K 2 . Desvio-padrão Somando ou subtraindo uma constante K aos dados o desvio padrão não se altera; Multiplicando todos os dados por uma constante K o novo desvio padrão fica multiplicado por K. UFOP June 4, 2013 53 / 87 Coeficiente de Variação de Pearson A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a variabilidade de amostras de grandezas diferentes ou de médias diferentes não pode ser comparada diretamente pelas estimativas da variância ou do desvio padrão obtidas. O desvio padrão ou variância permitem a comparação da variabilidade entre conjuntos numéricos que possuem a mesma média e a mesma unidade de medida ou grandeza. Nos casos em que os conjuntos possuem diferentes unidades ou possuem médias diferentes, uma medida de dispersão relativa, como o coeficiente de variação (CV), é indispensável para se comparar à variabilidade. UFOP June 4, 2013 54 / 87 O coeficiente de variação refere-se à variabilidade dos dados mensurada em relação a sua média, sendo obtido pela expressão seguinte: σ CVp = x100 µ O estimador do Coediciente de Variação populacional CVp é dado por CV = s x100 X O coeficiente de variação é a expressão do desvio-padrão como porcentagem da média do conjunto de dados. É uma medida adimensional de variabilidade, ou seja, não possui unidade de medida. UFOP June 4, 2013 55 / 87 Algumas regras empíricas para a interpretação do coeficiente de variação Se CV < 15% há baixa dispersão → boa representatividade da média aritmética como medida de posição. Se 15% ≤ CV < 30% há média dispersão → a representatividade da média aritmética como medida de posição é apenas regular. Se CV ≥ 30% há elevada dispersão → a representatividade da média aritmética como medida de posição é ruim. UFOP June 4, 2013 56 / 87 Exemplo A média e o desvio-padrão da produtividade de duas cultivares de milho são: X = 4, 0t/ha e sA = 0, 8t/ha para a variedade de polinização aberta A e X = 8, 0t/ha e sA = 1, 2t/ha para o híbrido simples B. Qual das cultivares possui maior uniformidade de produção? UFOP June 4, 2013 57 / 87 Se ao inspecionar as estatísticas apresentadas, você respondesse que variedade de polinização aberta A seia a demaior uniformidade e que a razão seria o menordesvio padrao apresentado, você teria cometido um engano. Embora as unidades não sejam diferentes, as médias das amostras o são. Assim, não é correto utilizar uma medida de varabilidade absoluta, como o desvio-padrão, para compará-las. O procedimento adequado é calcular o CV para as cultivares e aí sim, proceder a comparação. UFOP June 4, 2013 58 / 87 CVA = 0, 8 x100 = 20% 4, 0 1, 2 x100 = 15% 8 Assim, é fácil observar que o milho híbrido simples (B) é o mais uniforme, pois possui menor CV do que a variedade de polinização aberta A. CVp = UFOP June 4, 2013 59 / 87 Erro padrão da média Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são retiradas de uma população e que em cada amostra seja calculada a média. Se for computado o desvio padrão da população formada por todas as estimativas de médias obtidas, o valor encontrado é cohecido como erro padrão da média. O erro padrão da média σX é dado pela razão entre o desvio-padrão populacional e a raiz quadrada de n (número de elementos na amostra): σ σX = √ n UFOP June 4, 2013 60 / 87 O estimador amostral desse parâmetro é dado por s sX = √ n Tal estimador é necessário pois: em geral, nao se conhece o desvio-padrão populacional na maioria das situações reais não é possível retirar todas as amostras de uma população em geral, apenas uma amostra é extraída da população UFOP June 4, 2013 61 / 87 O erro padrão da média é uma medida de dispersão das médias amostrais em torno da média da população. Quanto menor for seu valor, mais porvável será a chance de obter a média da amostra nas proximidades da média da população, e quanto maior for esse valor, menos provável se torna esse evento. Assim, o erro-padrão da média é estimador da precisão da estimativa de uma média popualcional. UFOP June 4, 2013 62 / 87 Os momentos populacionais centrados na média populacional (µr ) são definidos pela equação PN µr = i=1 (Xi − µ)r N O coeficiente r na expressão é a ordem do momento. para r = 1 tem-se o momento de primeira ordem, o qual é sempre igual a zero para r = 2 tem-se o momento de ordem 2, que é a variância da população para r = 3 tem-se o momento de asimetria ordem 3 para r = 4 tem-se o momento de curtose de ordem 4 UFOP June 4, 2013 63 / 87 Os estimadores amostrais para o momento centrado de ordem r, (mr ) são dados por: Pn (Xi − X)r mr = i=1 n em que n é o número de elementos na amostra. UFOP June 4, 2013 64 / 87 Assimetria Assimetria é o grau de desvio ou afastamento da simetria de uma distribuição. Se a curva de frequência (polígono de frequencia suavizado) de uma distribuição tem uma "cauda" mais longa à direita da ordenada máxima do que à esquerda, diz-se que a distribuição é assimétrica à direita ou que ela tem assimetria positiva. Se o inverso ocorre, diz-se que a distribuição é assimétrica à esquerda ou que ela tem assimetria negativa. UFOP June 4, 2013 65 / 87 Distribuição simétrica UFOP June 4, 2013 66 / 87 Distribuição assimétrica à direita UFOP June 4, 2013 67 / 87 Distribuição assimétrica à esquerda UFOP June 4, 2013 68 / 87 √ O coeficiente de assimetria populacional β1 é uam forma padronizada do estimador do momento de assimetria (r = 3). √ Seu estimador b1 é dado pela razão do momento amostral de ordem 3 pelo de ordem 2, na potência de 32 p b1 = m3 3 (m2 ) 2 As √ populações cuja distribuição é simétrica apresentam valor de β1 = 0 √ As distribuições assimétricas à direita apresentam β1 > 0 √ As distribuições assimétricas à esquerda apresentam β1 < 0 UFOP June 4, 2013 69 / 87 Curtose Curtose é o grau de achatamento de uma distribuição considerado, usualmente, em relação à distribuição normal. Para medir a curtose, define-se o estimador (b2 ) do coeficiente de curtose β2 m4 b2 = (m2 )2 As distribuições que possuem valores mesocúrticas As distribuições que possuem valores leptocúrticas As distribuições que possuem valores platicúrticas UFOP √ √ √ β2 = 3 são denominadas β2 > 3 são denominadas β2 < 3 são denominadas June 4, 2013 70 / 87 As distribuiões leptocúrticas são aquelas que possuem uma concentração de valores próxima ao valor central maior que a da distribuição normal (mesocúrticas). Nas distribuições platicúrticas ocorre o contrário, ou seja, uma menor concentração de valores em torno do valor central da distribuição. UFOP June 4, 2013 71 / 87 UFOP June 4, 2013 72 / 87 Box-plot Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo um eficiente método para mostrar cinco número que sumarizam qualquer conjunto de dados. O gráfico proposto é chamado de boxplot (também conhecido como gráfico de caixa) e resume as seguintes medidas estatísticas: mediana quantis superior e inferior os valores mínimos e máximos UFOP June 4, 2013 73 / 87 Interpretando o Boxplot A caixa (box) propriamente contém a metade 50% dos data. O limite superior da caixa indica o percentil de 75% dos dados e o limite inferior da caixa indica o percentil de 25%. A distancia entre esses dois quantis é conhecida como interquartil. UFOP June 4, 2013 74 / 87 Interpretando o Boxplot A linha na caixa indica o valor de mediana dos dados. Se a linha mediana dentro da caixa não é eqüidistante dos extremos, diz-se então que os dados são assimétricos. UFOP June 4, 2013 75 / 87 Interpretando o Boxplot Os extremos do gráfico indicam os valores mínimo e máximo, a menos que valores outliers estejam presentes. Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. UFOP June 4, 2013 76 / 87 Vantagens do Boxplot Mostra graficamente a posição central dos dados (mediana) e a tendência. Fornece algum indicativo de simetria ou assimetria dos dados. Ao contrário de muitas outras formas de representar os dados, o boxplots mostra os outliers. Utilizando o boxplot para cada variável categórica lado-a-lado no mesmo gráfico, pode-se facilmente comparar os dados. UFOP June 4, 2013 77 / 87 Observações sobre o Boxplot Um detalhe do box-plot é que ele tende a enfatizar as caudas da distribuição, que são os pontos ao extremo nos dados. Também fornece detalhes da distribuição dos dados. Mostrar o histograma em conjunto com o box-plot ajuda a entender a distribuição dos dados, constituindo estes dos gráficos ferramentas importantes na análise exploratória. UFOP June 4, 2013 78 / 87 O Boxplot UFOP June 4, 2013 79 / 87 Exemplo Os dados a seguir referem-se aos dados de amostras de terra de um Latossolo em determinações analíticas realizadas pelo Laboratório de Análise de Solos da UFLA. 4.4 4.9 5.5 4.4 5.1 5.5 4.5 5.1 5.7 4.5 5.3 6.2 4.6 5.3 6.4 4.6 5.3 6.4 4.6 5.3 4.7 5.4 4.7 5.5 4.8 5.5 4.8 5.5 4.8 5.5 Construir um boxplot e interpretar os resultados. UFOP June 4, 2013 80 / 87 UFOP June 4, 2013 81 / 87 Interpretação Avaliando o box plot para os dados de solo, visualizamos que os 25% menores valores referentes aos solos oscilam menos do que os 25% maiores valores referentes aos solos. Além disso percebemos uma assimetria na distribuição desta amostra. Avaliando os 50% dos dados centrais. Os 25% iniciais oscilam mais do que os 25% finais. O que pode ser confirmado com a constução do histograma. UFOP June 4, 2013 82 / 87 UFOP June 4, 2013 83 / 87 Aqui, podemos ver alguns resultados de medidas descritivas (feitas no Excell)e confirmar as suspeitas de assimetria da distruibuição dos dados UFOP June 4, 2013 84 / 87 No Excel, para calcular os coeficientes de Assimetria e Curtose são utilizadas espressões diferentes daquelas apresentadas neste material. Assim, quando as medidas forem obtidas por meio do excell, há que se interpretar da seguinte maneira: UFOP June 4, 2013 85 / 87 Assimetria As populações cuja distribuição é simétrica apresentam valor de coeficiente de assimetria = 0 As distribuições assimétricas à direita apresentam coeficiente de assimetria > 0 As distribuições assimétricas à esquerda apresentam coeficiente de assimetria < 0 UFOP June 4, 2013 86 / 87 Curtose As distribuições que possuem coeficiente de curtose = 0 são denominadas mesocúrticas As distribuições que possuem coeficiente de assimetria < 0 denominadas leptocúrticas As distribuições que possuem coeficiente de assimetria > 0 são denominadas platicúrticas UFOP June 4, 2013 87 / 87