Estatística descritiva básica: Medidas de tendência central ACH2021 – Tratamento e Análise de Dados e Informações Marcelo de Souza Lauretto [email protected] www.each.usp.br/lauretto *Parte do conteúdo desta apresentação é baseada nos slides da Profa. Patrícia Rufino Oliveira Introdução • Tabelas e gráficos são formas convenientes de sumarizar a forma geral de uma distribuição de valores de uma forma facilmente compreensível. • Contudo, frequentemente se necessita sumarizar a distribuição de forma mais condensada. • Duas estatística adicionais extremamente úteis: 1. Medidas de tendência central: fornecem uma ideia do caso médio típico na distribuição. • 2. Ex: "O salário inicial médio para programadores em São Paulo é de R$ 3.800,00 mensais." Medidas de dispersão: fornecem uma ideia da variabilidade ou heterogeneidade na distribuição. • • Ex: "O salário inicial para programadores em São Paulo varia de R$ 3.000,00 a R$ 4.500,00." (próximas aulas) Moda • A moda de uma distribuição de escores é o valor que ocorre mais frequentemente. – Ex: no conjunto de escores 58, 82, 82, 90, 98, a moda é 82 porque ocorre duas vezes, enquanto os demais escores ocorrem apenas uma vez. • Útil para sumarizar variáveis qualitativas. – Ex: preferências de religiões (dados fictícios) Moda da distribuição: Protestante • Limitações da moda: – Algumas distribuições não possuem moda; • Ex: • Limitações da moda: – Algumas distribuições possuem tantas modas que a estatística deixa de ter significado. – Ex: distribuição de escores de testes. • Modas: 55,66,78,82,90,97. Qual dessas representa um valor "típico"? • Limitações da moda: – Em variáveis quantitativas ou qualitativas ordinais, a moda pode não ser central na distribuição como um todo. – Ex: distribuição de escores de testes. • Moda: 93; esse valor é um bom representante da distribuição? Mediana • A mediana é o valor situado exatamente no centro de uma distribuição de escores. • Mais precisamente, a mediana é o escore do caso que está exatamente no meio da distribuição: – Metade dos casos têm escores maiores do que a mediana e metade dos casos têm escores mais baixos do que a mediana. – Exemplo: Se a mediana da renda familiar anual de uma comunidade é $ 45.000, então metade das famílias ganha mais do que R$ 45.000 e metade ganha menos. • Cálculo da mediana: – Ordene os escores em ordem crescente (ou decrescente) – Se o número de elementos (n) for ímpar: • A mediana será o elemento localizado exatamente no centro. • O índice do elemento central é dado por (n+1) / 2. – Se o número de elementos (n) for par: • A mediana será exatamente o valor central dos dois casos do meio da distribuição. • Os índices do primeiro e do segundo casos centrais são dados por n/2 e n/2 + 1. • Por exemplo, se n=14, a mediana é o escore situado no centro dos escores do sétimo e oitavo casos. • Cálculo da mediana - exemplos: Cálculo da mediana com sete casos (n ímpar) Cálculo da mediana com oito casos (n par) • Cálculo da mediana para dados organizados em tabelas de frequências: a) Calcula-se inicialmente a posição do elemento original dos dados correspondente à mediana; b) Determinada a posição da mediana, localiza-se na tabela de frequências a linha que contém essa posição. • Ex: em um grupo de 36 turmas, as frequências de turmas por número de alunos reprovados foi a observada abaixo. Qual a mediana das reprovações? Número de alunos Frequência Frequência reprovados por turma acumulada 0 1 2 3 4 5 6 1 5 8 13 7 0 2 1 6 14 27 34 34 36 • Como n=36 é par, a mediana é a média dos elementos de ordem (36/2)=18 e (36/2)+1=19. • Analisando as frequências acumuladas na tabela ao lado, conclui-se que a mediana tem valor 3. Contém o 18º e o 19º elementos • Cálculo da mediana para dados agrupados em classes: – Determina-se a linha da tabela que contém a mediana na tabela de forma similar àquela mostrada no slide anterior (cálculo da mediana para dados organizados em tabelas de frequências); – Uma vez determinada a classe, deve-se calcular o valor da mediana por método de interpolação. • Ex: distribuição das notas obtidas por candidatos em um vestibular. • Após calcular a posição da mediana, localiza-se, a partir das frequências acumuladas na tabela, a classe na qual a mesma se encontra. • O valor da mediana é obtido aplicando-se a fórmula: 𝑎 𝑛 𝑀𝑑 = 𝐿ℎ + − 𝐹ℎ−1 𝑓ℎ 2 onde: – – – – – – ℎ = linha da tabela que contém a mediana; 𝐿ℎ = limite inferior da classe que contém a mediana; a = amplitude do intervalo de classe; 𝑓ℎ = frequência da classe que contém a mediana; 𝑛 = quantidade total de elementos; 𝐹ℎ−1 = Frequência acumulada até a classe anterior à classe que contém a mediana. Outras medidas de posição: percentis, decis, quartis • A mediana pertence a uma classe de estatísticas que medem posição ou locação. • Frequentemente, é útil localizar outros pontos também: – Podemos querer, por exemplo, encontrar os escores que dividem a distribuição em quatro partes, ou o ponto abaixo do qual um certo percentual dos casos se encontram. – Uma aplicação típica dessas medidas são os escores em testes padronizados. • "Um escore de 476 é maior do que 46% dos escores." Percentis • Uma estatística comumente utilizada para reportar posições é o percentil, que identifica o ponto abaixo do qual uma porcentagem específica dos casos se encontram. – Ex: Se um escore de 476 é reportado como o 46º percentil, isso significa que 46% dos casos têm escores abaixo desse valor. – Percentis comuns: 5%, 10%, 25%, 50% (mediana), 75%, 90%, 95%. • Cálculo do k-ésimo percentil: 1. 2. Ordene os escores em ordem. Em seguida, multiplique k por cento pelo número total de casos mais um (n+1): k R (n 1) 100 3. Se o valor resultante for um número inteiro: • Então o k-ésimo percentil será o R-ésimo elemento do rol de escores. Se o valor resultante não for um número inteiro o k-ésimo percentil é obtido por interpolação: • • • Denote por IR a porção inteira de R, e por FR a porção fracionária de R. Por exemplo, se R=2.25, então IR=2 e FR=0.25. Denote por XIR e XIR+1 os escores das posições IR e IR+1, respectivamente. O k-ésimo percentil será computado como: k ésimo percentil X IR FR ( X IR 1 X IR ) OBS: O 100º percentil corresponderá ao maior escore. • Exemplo 1: Calcular o 37º percentil de uma amostra de 78 elementos: – Ordenamos a amostra em ordem crescente; – Calculamos R: k 37 R (n 1) (78 1) 29.23 100 100 – IR = 29, FR=0.23 – O 37º percentil corresponderá a 23/100 da distância entre o 29º e o 30º casos: P37 X 29 0.23 ( X 30 X 29 ) • Exemplo 2: Calcular o 25º percentil da amostra representada na tabela ao lado (já em ordem crescente): – Calculamos R: R k 25 (n 1) (8 1) 2.25 100 100 – IR = 2, FR=0.25 – O 25º percentil corresponderá a 25/100 da distância entre o 2º e o 3º casos: P25 = X2 + 0.25 (X3 - X2 ) = 5 + 0.25(7 - 5) = 5.5 • OBS: Pela definição acima, o cálculo da mediana é um caso particular. Por exemplo, a mediana da tabela ao lado é dada por: P50 = X4 + 0.5 (X5 - X4 ) 50 R= (8 +1) = 4.5 100 = 8 + 0.5(9 - 8) = 8.5 Percentis especiais: decis, quartis, quintis • Pela definição, percentis dividem a distribuição de escores em centésimos. Alguns tipos especiais de percentis são descritos abaixo. • Os quartis são bastante populares, e dividem a distribuição de escores em 4 partes (ver figura abaixo). – O 1º, 2º e 3º quartis correspondem ao 25º, 50º e 75º percentis, respectivamente. São denotados usualmente por Q1, Q2 e Q3. • Os Decis dividem a distribuição de escores em décimos. – Assim, o 1º decil é o ponto abaixo do qual 10% dos casos se situam, e é equivalente ao 1º percentil, ou seja, P10. – Raciocínio análogo serve para o 2º, 3º, ..., 10º decil. • Os Quintis dividem a população em cinco partes: – O 1º, 2º, 3º e 4º quintis correspondem ao 20º, 40º, 60º e 80º percentis, respectivamente. • OBS: Os percentis (incluindo seus casos particulares: mediana, quartis, etc) podem ser aplicados sobre variáveis quantitativas ou qualitativas ordinais. • Alguns exemplos de aplicação de percentis, quintis e decis são encontrados nos relatórios – Estatísticas de renda no repositório do IPEA: www.ipeadata.gov.br social Temas Renda: – Exemplos: • Renda - razão entre a renda dos 20% mais ricos e a renda dos 20% mais pobres • Renda domiciliar - participação dos 40% mais pobres • Renda domiciliar - participação por décimo da população - 1º • Renda domiciliar - participação por quintil - 1º – Discuta como os indicadores exemplificados acima são calculados. Média • A média é a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de frequência. • Esta estatística representa o escore médio de uma distribuição observada. • É usualmente denotada por 𝑋. Média aritmética simples • É dada pela divisão entre a soma dos escores observados (x1, x2, ... , xn) e o número total de observações (n): 𝑛 𝑖=1 𝑥𝑖 𝑋= 𝑛 • Este tipo de média é calculado quando os valores não estão tabulados, ou seja, quando os escores são conhecidos individualmente. • Ex: Suponha uma mostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em Kg): – 23.0, 20.0, 22.0, 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0. – 𝑋= 𝑛 𝑖=1 𝑥𝑖 𝑛 = 23+20+22+19+25+28.2+24+21+27+21 10 ≅ 23.0 Média aritmética ponderada • É a média aritmética calculada quando os dados estão agrupados em distribuições de frequência. • Os valores x1, x2, ... , xn são ponderados pelas respectivas frequências absolutas f1, f2, ... , fn: 𝑋= 𝑛 𝑖=1 𝑓𝑖 𝑥𝑖 𝑛 onde n é a soma das frequências: 𝑛 = 𝑛 𝑗=1 𝑓𝑗 . • Exemplo 1 (dados não agrupados em classes): Número de cáries em crianças de 7 anos de idade. Candeias, 1990. No de dentes careados (xi) No de crianças (fi) fi xi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 Total 13 25 Fonte: (dados hipotéticos) • 𝑋= 𝑛 𝑖=1 𝑓𝑖 𝑛 𝑥𝑖 = 0×3+2×1+4×2+2×3+1×4+1×5 13 = 25 13 = 1.92 ≅ 2.0 • Cada criança de 7 anos de idade da amostra observada tem, em média, 2 cáries. • Exemplo 2 (tabela de distribuição de dados agrupados em classes): Casos de Aids segundo faixa etária. Bahia, 1993. Fonte: (dados hipotéticos) • Qual era a idade média dos pacientes de Aids na Bahia em 1993? 𝑋= 𝑛 𝑖=1 𝑓𝑖 𝑛 𝑥𝑖 = 2500 80 ≅ 31.2 anos. • Sensibilidade da média a valores extremos: – Quando uma distribuição possui alguns escores extremamente altos (isso é denominado de assimetria positiva), o valor numérico da média aritmética será maior do que o da mediana; – Quando uma distribuição possui alguns escores extremamente baixos (assimetria negativa), o valor numérico da média será menor do que o da mediana. • Sensibilidade da média a valores extremos: – A média e a mediana somente terão os mesmos valores numéricos quando a distribuição da população é simétrica. • Sensibilidade da média a valores extremos: – Exemplo: considere a tabela abaixo, em que os escores nas colunas 1 e 3 são quase iguais, exceto o último. – Para os escores da coluna 1, a média e a mediana são iguais (25); – Para os escores da coluna 3, a mediana é 25, enquanto a média é 718. Resumo: medidas de tendência central e aplicações • As três medidas de tendência central apresentadas têm um objetivo comum. Cada uma retrata alguma informação sobre o valor mais típico ou representativo em uma distribuição. • A moda reporta o escore mais comum e é adotada mais apropriadamente com variáveis qualitativas nominais. • A mediana (Md) reporta o escore que está exatamente no centro da distribuição. É mais apropriado com: – variáveis qualitativas ordinais; – variáveis quantitativas com distribuição assimétrica. • A média (𝑋), a medida mais frequentemente usada, reporta o escore mais típico. É adotada mais apropriadamente com variáveis quantitativas (exceto quando sua distribuição é altamente assimétrica). • Obs: – É usual adotar a média para variáveis qualitativas ordinais nas situações as classes são representadas por números (p.ex. variáveis representando escalas de avaliação ou escalas de gravidade de doenças). – A motivação é que a média é considerada mais flexível do que a mediana, e também porque muitos métodos estatísticos são baseados em médias. – Todavia, a rigor, em uma variável ordinal nem sempre se pode considerar que as distâncias de escore para escore são iguais (p.ex. a distância do escore “1” para o escore “2” não é necessariamente igual à distância do escore “2” para “3”) e portanto as operações de soma e divisão utilizadas no cálculo da média não são conceitualmente indicadas.