Aula 5

Propaganda
Estatística descritiva básica:
Medidas de tendência central
ACH2021 – Tratamento e
Análise de Dados e Informações
Marcelo de Souza Lauretto
[email protected]
www.each.usp.br/lauretto
*Parte do conteúdo desta apresentação é baseada
nos slides da Profa. Patrícia Rufino Oliveira
Introdução
• Tabelas e gráficos são formas convenientes de sumarizar a
forma geral de uma distribuição de valores de uma forma
facilmente compreensível.
• Contudo, frequentemente se necessita sumarizar a
distribuição de forma mais condensada.
• Duas estatística adicionais extremamente úteis:
1.
Medidas de tendência central: fornecem uma ideia do caso médio
típico na distribuição.
•
2.
Ex: "O salário inicial médio para programadores em São Paulo é de R$
3.800,00 mensais."
Medidas de dispersão: fornecem uma ideia da variabilidade ou
heterogeneidade na distribuição.
•
•
Ex: "O salário inicial para programadores em São Paulo varia de R$
3.000,00 a R$ 4.500,00."
(próximas aulas)
Moda
• A moda de uma distribuição de escores é o valor que ocorre
mais frequentemente.
– Ex: no conjunto de escores 58, 82, 82, 90, 98, a moda é 82 porque
ocorre duas vezes, enquanto os demais escores ocorrem apenas uma
vez.
• Útil para sumarizar variáveis qualitativas.
– Ex: preferências de religiões (dados fictícios)
Moda da distribuição: Protestante
• Limitações da moda:
– Algumas distribuições não possuem moda;
• Ex:
• Limitações da moda:
– Algumas distribuições possuem tantas modas que a estatística deixa
de ter significado.
– Ex: distribuição de escores de testes.
• Modas: 55,66,78,82,90,97. Qual dessas representa um valor "típico"?
• Limitações da moda:
– Em variáveis quantitativas ou qualitativas ordinais, a moda pode não
ser central na distribuição como um todo.
– Ex: distribuição de escores de testes.
• Moda: 93; esse valor é um bom representante da distribuição?
Mediana
• A mediana é o valor situado exatamente no centro de uma
distribuição de escores.
• Mais precisamente, a mediana é o escore do caso que está
exatamente no meio da distribuição:
– Metade dos casos têm escores maiores do que a mediana e metade
dos casos têm escores mais baixos do que a mediana.
– Exemplo: Se a mediana da renda familiar anual de uma comunidade é
$ 45.000, então metade das famílias ganha mais do que R$ 45.000 e
metade ganha menos.
• Cálculo da mediana:
– Ordene os escores em ordem crescente (ou decrescente)
– Se o número de elementos (n) for ímpar:
• A mediana será o elemento localizado exatamente no centro.
• O índice do elemento central é dado por (n+1) / 2.
– Se o número de elementos (n) for par:
• A mediana será exatamente o valor central dos dois casos do meio da
distribuição.
• Os índices do primeiro e do segundo casos centrais são dados por
n/2 e n/2 + 1.
• Por exemplo, se n=14, a mediana é o escore situado no centro dos escores
do sétimo e oitavo casos.
• Cálculo da mediana - exemplos:
Cálculo da mediana com sete casos
(n ímpar)
Cálculo da mediana com oito casos
(n par)
• Cálculo da mediana para dados organizados em tabelas de
frequências:
a)
Calcula-se inicialmente a posição do elemento original dos dados
correspondente à mediana;
b) Determinada a posição da mediana, localiza-se na tabela de
frequências a linha que contém essa posição.
• Ex: em um grupo de 36 turmas, as frequências de turmas por
número de alunos reprovados foi a observada abaixo. Qual a
mediana das reprovações?
Número de alunos
Frequência
Frequência
reprovados por turma
acumulada
0
1
2
3
4
5
6
1
5
8
13
7
0
2
1
6
14
27
34
34
36
• Como n=36 é par, a mediana é a
média dos elementos de ordem
(36/2)=18 e (36/2)+1=19.
• Analisando as frequências acumuladas na tabela ao lado,
conclui-se que a mediana tem
valor 3.
Contém o 18º e o 19º
elementos
• Cálculo da mediana para dados agrupados em classes:
– Determina-se a linha da tabela que contém a mediana na tabela de
forma similar àquela mostrada no slide anterior (cálculo da mediana
para dados organizados em tabelas de frequências);
– Uma vez determinada a classe, deve-se calcular o valor da mediana
por método de interpolação.
• Ex: distribuição das
notas obtidas por
candidatos em um
vestibular.
• Após calcular a posição da mediana, localiza-se, a partir das
frequências acumuladas na tabela, a classe na qual a mesma
se encontra.
• O valor da mediana é obtido aplicando-se a fórmula:
𝑎 𝑛
𝑀𝑑 = 𝐿ℎ +
− 𝐹ℎ−1
𝑓ℎ 2
onde:
–
–
–
–
–
–
ℎ = linha da tabela que contém a mediana;
𝐿ℎ = limite inferior da classe que contém a mediana;
a = amplitude do intervalo de classe;
𝑓ℎ = frequência da classe que contém a mediana;
𝑛 = quantidade total de elementos;
𝐹ℎ−1 = Frequência acumulada até a classe anterior à classe que
contém a mediana.
Outras medidas de posição: percentis, decis, quartis
• A mediana pertence a uma classe de estatísticas que medem
posição ou locação.
• Frequentemente, é útil localizar outros pontos também:
– Podemos querer, por exemplo, encontrar os escores que dividem a
distribuição em quatro partes, ou o ponto abaixo do qual um certo
percentual dos casos se encontram.
– Uma aplicação típica dessas medidas são os escores em testes
padronizados.
• "Um escore de 476 é maior do que 46% dos escores."
Percentis
• Uma estatística comumente utilizada para reportar posições é
o percentil, que identifica o ponto abaixo do qual uma
porcentagem específica dos casos se encontram.
– Ex: Se um escore de 476 é reportado como o 46º percentil, isso
significa que 46% dos casos têm escores abaixo desse valor.
– Percentis comuns: 5%, 10%, 25%, 50% (mediana), 75%, 90%, 95%.
• Cálculo do k-ésimo percentil:
1.
2.
Ordene os escores em ordem.
Em seguida, multiplique k por cento pelo número total de casos mais
um (n+1):
k
R
(n  1)
100
3.
Se o valor resultante for um número inteiro:
•
Então o k-ésimo percentil será o R-ésimo elemento do rol de escores.
Se o valor resultante não for um número inteiro o k-ésimo percentil é
obtido por interpolação:
•
•
•
Denote por IR a porção inteira de R, e por FR a porção fracionária de R.
Por exemplo, se R=2.25, então IR=2 e FR=0.25.
Denote por XIR e XIR+1 os escores das posições IR e IR+1,
respectivamente.
O k-ésimo percentil será computado como:
k  ésimo percentil  X IR  FR ( X IR 1  X IR )
OBS: O 100º percentil corresponderá ao maior escore.
• Exemplo 1: Calcular o 37º percentil de uma amostra de 78
elementos:
– Ordenamos a amostra em ordem crescente;
– Calculamos R:
k
37
R
(n  1) 
(78  1)  29.23
100
100
– IR = 29, FR=0.23
– O 37º percentil corresponderá a 23/100 da distância entre o 29º e o
30º casos:
P37  X 29  0.23 ( X 30  X 29 )
• Exemplo 2: Calcular o 25º percentil da
amostra representada na tabela ao lado
(já em ordem crescente):
– Calculamos R:
R
k
25
(n  1) 
(8  1)  2.25
100
100
– IR = 2, FR=0.25
– O 25º percentil corresponderá a 25/100 da
distância entre o 2º e o 3º casos:
P25 = X2 + 0.25 (X3 - X2 )
= 5 + 0.25(7 - 5) = 5.5
• OBS: Pela definição acima, o cálculo da mediana é um caso
particular. Por exemplo, a mediana da tabela ao lado é dada
por:
P50 = X4 + 0.5 (X5 - X4 )
50
R=
(8 +1) = 4.5
100
= 8 + 0.5(9 - 8) = 8.5
Percentis especiais: decis, quartis, quintis
• Pela definição, percentis dividem a distribuição de escores em
centésimos. Alguns tipos especiais de percentis são descritos
abaixo.
• Os quartis são bastante populares, e dividem a distribuição de
escores em 4 partes (ver figura abaixo).
– O 1º, 2º e 3º quartis correspondem ao 25º, 50º e 75º percentis,
respectivamente. São denotados usualmente por Q1, Q2 e Q3.
• Os Decis dividem a distribuição de escores em décimos.
– Assim, o 1º decil é o ponto abaixo do qual 10% dos casos se situam, e
é equivalente ao 1º percentil, ou seja, P10.
– Raciocínio análogo serve para o 2º, 3º, ..., 10º decil.
• Os Quintis dividem a população em cinco partes:
– O 1º, 2º, 3º e 4º quintis correspondem ao 20º, 40º, 60º e 80º percentis,
respectivamente.
• OBS: Os percentis (incluindo seus casos particulares: mediana,
quartis, etc) podem ser aplicados sobre variáveis quantitativas
ou qualitativas ordinais.
• Alguns exemplos de aplicação de percentis, quintis e decis são
encontrados nos relatórios
– Estatísticas de renda no repositório do IPEA:
www.ipeadata.gov.br  social  Temas  Renda:
– Exemplos:
• Renda - razão entre a renda dos 20% mais ricos e a renda dos 20% mais
pobres
• Renda domiciliar - participação dos 40% mais pobres
• Renda domiciliar - participação por décimo da população - 1º
• Renda domiciliar - participação por quintil - 1º
– Discuta como os indicadores exemplificados acima são calculados.
Média
• A média é a medida de tendência central mais comumente
utilizada para descrever resumidamente uma distribuição de
frequência.
• Esta estatística representa o escore médio de uma
distribuição observada.
• É usualmente denotada por 𝑋.
Média aritmética simples
• É dada pela divisão entre a soma dos escores observados (x1,
x2, ... , xn) e o número total de observações (n):
𝑛
𝑖=1 𝑥𝑖
𝑋=
𝑛
• Este tipo de média é calculado quando os valores não estão
tabulados, ou seja, quando os escores são conhecidos
individualmente.
• Ex: Suponha uma mostra de 10 crianças de 5 anos de idade,
com dados referentes a seus pesos (em Kg):
– 23.0, 20.0, 22.0, 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0.
– 𝑋=
𝑛
𝑖=1 𝑥𝑖
𝑛
=
23+20+22+19+25+28.2+24+21+27+21
10
≅ 23.0
Média aritmética ponderada
• É a média aritmética calculada quando os dados estão
agrupados em distribuições de frequência.
• Os valores x1, x2, ... , xn são ponderados pelas respectivas
frequências absolutas f1, f2, ... , fn:
𝑋=
𝑛
𝑖=1 𝑓𝑖
𝑥𝑖
𝑛
onde n é a soma das frequências: 𝑛 =
𝑛
𝑗=1 𝑓𝑗 .
• Exemplo 1 (dados não agrupados em classes):
Número de cáries em crianças de 7 anos de idade. Candeias, 1990.
No de dentes careados (xi)
No de crianças (fi)
fi xi
0
3
0
1
2
2
2
4
8
3
2
6
4
1
4
5
1
5
Total
13
25
Fonte: (dados hipotéticos)
• 𝑋=
𝑛
𝑖=1 𝑓𝑖
𝑛
𝑥𝑖
=
0×3+2×1+4×2+2×3+1×4+1×5
13
=
25
13
= 1.92 ≅ 2.0
• Cada criança de 7 anos de idade da amostra observada tem, em
média, 2 cáries.
• Exemplo 2 (tabela de distribuição de dados agrupados em
classes):
Casos de Aids segundo faixa etária. Bahia, 1993.
Fonte: (dados hipotéticos)
• Qual era a idade média dos pacientes de Aids na Bahia em
1993?
𝑋=
𝑛
𝑖=1 𝑓𝑖
𝑛
𝑥𝑖
=
2500
80
≅ 31.2 anos.
• Sensibilidade da média a valores extremos:
– Quando uma distribuição possui alguns escores extremamente altos
(isso é denominado de assimetria positiva), o valor numérico da média
aritmética será maior do que o da mediana;
– Quando uma distribuição possui alguns escores extremamente baixos
(assimetria negativa), o valor numérico da média será menor do que o
da mediana.
• Sensibilidade da média a valores extremos:
– A média e a mediana somente terão os mesmos valores numéricos
quando a distribuição da população é simétrica.
• Sensibilidade da média a valores extremos:
– Exemplo: considere a tabela abaixo, em que os escores nas colunas 1 e
3 são quase iguais, exceto o último.
– Para os escores da coluna 1, a média e a mediana são iguais (25);
– Para os escores da coluna 3, a mediana é 25, enquanto a média é 718.
Resumo: medidas de tendência central e aplicações
• As três medidas de tendência central apresentadas têm um
objetivo comum. Cada uma retrata alguma informação sobre
o valor mais típico ou representativo em uma distribuição.
• A moda reporta o escore mais comum e é adotada mais
apropriadamente com variáveis qualitativas nominais.
• A mediana (Md) reporta o escore que está exatamente no
centro da distribuição. É mais apropriado com:
– variáveis qualitativas ordinais;
– variáveis quantitativas com distribuição assimétrica.
• A média (𝑋), a medida mais frequentemente usada, reporta o
escore mais típico. É adotada mais apropriadamente com
variáveis quantitativas (exceto quando sua distribuição é
altamente assimétrica).
• Obs:
– É usual adotar a média para variáveis qualitativas ordinais nas
situações as classes são representadas por números (p.ex. variáveis
representando escalas de avaliação ou escalas de gravidade de
doenças).
– A motivação é que a média é considerada mais flexível do que a
mediana, e também porque muitos métodos estatísticos são baseados
em médias.
– Todavia, a rigor, em uma variável ordinal nem sempre se pode
considerar que as distâncias de escore para escore são iguais (p.ex. a
distância do escore “1” para o escore “2” não é necessariamente igual
à distância do escore “2” para “3”) e portanto as operações de soma e
divisão utilizadas no cálculo da média não são conceitualmente
indicadas.
Download