∑ ∑ ∑ - UFSJ

Propaganda
18
Capítulo III – Medidas Estatísticas
III.1 – Medidas de Tendência Central
A apresentação de dados em tabelas e gráficos mostra a forma da distribuição.
As medidas de tendência central indicam o valor do ponto em torno do qual os dados se
distribuem. Neste curso, serão abordadas 4 medidas de tendência central:
•
•
•
•
Média;
Mediana;
Moda;
Ponto Médio.
III.1.1 – Média
A média aritmética, ou simplesmente média, é o somatório dos valores de todos
os dados, dividido pelo número de dados somados. Representa o valor provável de uma
variável sendo, por isso, chamada de Valor Esperado.
A média pode ser aplicada em 3 situações distintas:
•
•
•
diretamente em um conjunto de dados;
em um conjunto de dados organizados em grupamento simples;
em um conjunto de dados agrupados em intervalo de classes.
III.1.1.1 – Média aplicada diretamente em um conjunto de dados
Dada uma sequência X de dados coletados, definida por:
X = {x1, x2, x3, ..., xn},
onde x é o valor do dado, n o número de dados e xn o n-ésimo termo. A média de X é
definida por:
n
x=
∑x
i =1
n
i
=
x1 + x2 + x3 + L + xn
n
Observação:
n
•
A média de uma amostra (média amostral) é indicada por x , ou seja, x =
∑x
i =1
i
n
N
•
A média de uma população (média populacional) é indicada por µ, ou seja, µ =
∑x
i =1
N
i
19
Exemplo:
Dada a tabela abaixo, calcule a média dos dados:
Tabela 3.1 – Peso em gramas, em ratos machos da raça Wistar com 30 dias de idade.
50 62 70
86 60 64
66 77 58
55 82 74
III.1.1.2 – Média para dados organizados em grupamento simples
Considere uma tabela distribuição de frequências com a variável x assumindo os
valores x1, x2, ..., xk. Sejam f1, f2, ..., fk, as respectivas frequências de cada um dos
valores assumidos pela variável x, como na tabela 3.2
Tabela 3.2 – Distribuição de frequências por grupamento simples
( x)
(f)
x1
f1
x2
f2
M
M
xk
fk
A média dos dados da tabela 3.2 é dada por:
k
x=
∑x ⋅ f
i
i =1
k
∑f
i =1
i
=
x1 ⋅ f1 + x2 ⋅ f 2 + x3 ⋅ f 3 + ... + xk ⋅ f k
n
i
Para ilustrar o calculo da média, observe os dados apresentados na tabela 3.3,
organizados em agrupamentos simples:
Tabela 3.3 – Número de dentes danificados em pacientes de uma determinada clínica
odontológica
Nº de dentes danificados Nº de clientes
(x)
(f)
0
9
1
5
2
6
3
7
4
9
5
5
6
4
7
3
8
2
20
A média é obtida multiplicando-se o número de dentes danificados pela
respectiva frequência. Somam-se os produtos e divide-se o resultado por n. Então, a
média é dada por:
x=
0 ⋅ 9 + 1 ⋅ 5 + ... + 7 ⋅ 3 + 8 ⋅ 2 160
=
= 3,2 dentes
9 + 5 + ... + 3 + 2
50
III.1.1.3 – Média para dados agrupados em intervalos de classes
Considere uma tabela distribuição de frequências com k classes. Sejam x1, x2, ...,
xk, os valores dos pontos médios de cada classe, e sejam f1, f2, ..., fk, as respectivas
frequências, como na tabela 3.4.
Tabela 3.4 – Distribuição de frequências por grupamento em intervalo de classes
Ponto médio Frequência
(x)
(f)
x1
f1
x2
f2
M
M
fk
xk
A média dos dados da tabela 3.4 é dada por:
k
x=
∑x ⋅ f
i
i =1
k
∑f
i =1
i
=
x1 ⋅ f1 + x2 ⋅ f 2 + x3 ⋅ f 3 + ... + xk ⋅ f k
n
i
Observe que a expressão acima é exatamente a mesma para o cálculo da média
de dados organizados em grupamentos simples.
Considere, por exemplo, os dados apresentados na tabela 3.5, organizados em
classes:
Tabela 3.5 – Nascidos vivos segundo peso ao nascer
Classe Ponto médio Frequência
(x)
(f)
1,75
3
1,5 |⎯ 2,0
2,25
16
2,0 |⎯ 2,5
2,75
31
2,5 |⎯ 3,0
3,25
34
3,0 |⎯ 3,5
3,75
11
3,5 |⎯ 4,0
4,25
4
4,0 |⎯ 4,5
4,75
1
4,5 |⎯ 5,0
A média é obtida multiplicando-se o ponto médio de cada classe pela respectiva
frequência. Somam-se os produtos e divide-se o resultado por n. Então, a média é:
21
x=
1,75 ⋅ 3 + 2,25 ⋅ 16 + ... + 4,25 ⋅ 4 + 4,75 ⋅ 1 300
=
= 3,00
3 + 16 + ... + 4 + 1
100
III.1.2 – Mediana
A mediana de um conjunto de valores é o valor central desse conjunto quando os
valores estão dispostos em ordem crescente ou decrescente. Alguns autores representam
a mediana por M, Md ou Mx. Outros utilizam a notação ~
x para a mediana amostral e µ~
para mediana populacional. Entretanto, não há uma notação definida, de modo que o
uso desta ou daquela notação dever ser explicitada no momento de sua utilização.
Da mesma forma que a média, a mediana pode ser aplicada em 3 situações
distintas:
•
•
•
diretamente em um conjunto de dados;
em um conjunto de dados organizados em grupamento simples;
em um conjunto de dados agrupados em intervalo de classes.
III.1.2.1 – Mediana aplicada diretamente em um conjunto de dados
Para calcular a mediana diretamente a um conjunto de dados é necessário,
primeiramente, dispor os valores em ordem (crescente ou decrescente) e, em seguida,
aplicar um dos dois procedimentos a seguir:
1. se o número de dados é impar, a mediana é o valor localizado exatamente no
meio da lista;
2. se o número de dados é par, a mediana é a média dos dois valores centrais.
Após a colocação dos dados em ordem, a posição da mediana é dada por:
PosiçãoMediana =
n +1
2
Exemplo:
x = {1, 2, 3, 4, 9}
y = {50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82, 86}
III.1.2.2 – Mediana para dados organizados em um grupamento simples
Suponhamos que desejássemos, por exemplo, calcular a mediana do conjunto de
dados apresentados na tabela 3.3. Os dados encontram-se devidamente organizados
nessa tabela. Neste caso,
22
PosiçãoMediana =
n + 1 50 + 1 51
=
=
= 25,5
2
2
2
Portanto, a mediana encontra-se entre o 25º e 26º elemento. Para identificar a
mediana, precisaremos expandir a tabela 3.3 adicionando-se uma coluna para a
Frequência Acumulada (F):
Tabela 3.6 – Número de dentes danificados em pacientes de uma determinada clínica
odontológica
Nº de dentes Nº de Frequência
danificados clientes acumulada
(x)
(f)
(F)
0
9
9
1
5
14
2
6
20
3
7
27
4
9
36
5
5
41
6
4
45
7
3
48
8
2
50
Observando-se a frequência acumulada, os primeiros 20 valores assumidos por x são
0, 1 e 2. Os sete seguintes são 3, justamente no intervalo que contém o 25º e o 26º
valores, como mostrado abaixo:
Posição 1 a 9
0
0
0
0
0
0
Posição 10 a 14
0
0
0
1
1
1
1
1
Posição 15 a 20
2
2
2
2
2
Posição 21 a 27
2
3
3
3
3
3
3
3
Mediana
Portanto, a mediana dessa amostra é dada por:
Md =
3+3
=3
2
Outra maneira de se obter a mediana de dados organizados em grupamentos
simples é por meio da Frequência cumulativa relativa (Fr). Fazendo-se nova expansão
da tabela 3.3, tem-se:
23
Tabela 3.7 – Número de dentes danificados em pacientes de uma determinada clínica
odontológica
Nº de dentes Nº de Frequência Frequência acumulada
danificados clientes acumulada
relativa em %
(x)
(f)
(F)
(Fr)
0
9
9
18
1
5
14
28
2
6
20
40
3
7
27
54
4
9
36
72
5
5
41
82
6
4
45
90
7
3
48
96
8
2
50
100
Por esta tabela, observa-se que 40% dos valores assumidos pela variável x são 0,
1 ou 2. 54% dos valores assumidos pela variável x são iguais ou menores que 3.
Portanto, a mediana é 3.
III.1.2.3 – Mediana para dados agrupados em intervalos de classes
Neste caso, a mediana pode ser estimada por meio da seguinte expressão:
Md
Md = LimiteInferior
Onde:
Md
Md
LimiteInferior
Amplitude
n
Md
FIntervalo
_ anterior
fMd
=
=
=
=
=
=
⎛n
Md
⎜ − FIntervalo _ anterior
2
+ Amplitude × ⎜
f Md
⎜
⎜
⎝
⎞
⎟
⎟
⎟
⎟
⎠
Mediana
Limite inferior do intervalo que contem a mediana
amplitude da classe
número de amostras
Frequência cumulativa no intervalo anterior ao que contém a mediana
Frequência absoluta no intervalo que contém a mediana
Como exemplo, considere os dados da tabela 3.8:
Tabela 3.8 – Idade em uma amostra de crianças da 1ª série de uma escola rural
Idade
Ponto médio
f i × xi
F
f
(anos)
(x)
1
6
6
1
5,5 |⎯ 6,5
20
7
140
21
6,5 |⎯ 7,5
7
8
56
28
7,5 |⎯ 8,5
2
9
18
30
8,5 |⎯ 9,5
TOTAL
30
220
Neste caso, a mediana está entre o 15º e o 16º valores, pois (n + 1)/2 = (30 + 1)/2
= 31/2 = 15,5. Esse valor se encontra no intervalo 6,5 |⎯ 7,5. Portanto,
24
Md
Md = LimiteInferior
⎛n
Md
⎜ − FIntervalo _ anterior
+ Amplitude × ⎜ 2
f Md
⎜
⎜
⎝
⎛ 30 ⎞
⎞
⎜ −1⎟
⎟
⎟ = 7,2 anos
⎟ = 6,5 + 1× ⎜ 2
⎜ 20 ⎟
⎟
⎜
⎟
⎟
⎝
⎠
⎠
III.1.4 – Moda, Norma ou Modo
A moda de um conjunto de dados identifica o(s) valor(es) que ocorre(m) com
maior frequência. Se um único valor ocorre com maior frequência, o conjunto é dito
unimodal. Quando 2 valores ocorrem com a mesma frequência máxima, cada um deles
é uma moda e o conjunto é dito bimodal. Se mais de 2 valores ocorrem com a mesma
frequência máxima, cada um deles é uma moda e o conjunto é dito multimodal. Quando
nenhum valor é repetido, o conjunto não tem moda. Costuma-se denotar moda por Mo.
Exemplos:
x = {3, 4, 5, 7, 7, 7, 9, 9}
y = {1, 2, 3, 4, 5}
z = {1, 2, 2, 3, 4, 4, 5}
Tabela 3.9 – Indivíduos segundo o tipo de sangue
Tipo de sangue Frequência
O
547
A
441
B
123
AB
55
III.1.5 – Ponto médio
O ponto médio é o valor que está a meio caminho entre o valor máximo e o valor
mínimo de um conjunto de dados. Costuma-se denotar o ponto médio por PM e sua
expressão é dada por:
PM ( x ) =
max( x ) + min( x )
2
Exemplo:
Calcule o ponto médio do conjunto de dados apresentado na tabela 3.1
25
Resumindo:
26
III.2 – Medidas de dispersão
As medidas de dispersão mostram variações ou concentrações de dados em torno
de um valor central.
Exemplo:
Tabela 3.10 – Notas de quatro alunos em 5 provas
Aluno
Notas
Média
Antônio 5
5 5 5 5
5
João
6
4 5 4 6
5
José
10 5 5 5 0
5
Pedro
10 10 5 0 0
5
Todos os alunos obtiveram média igual a 5, mas a dispersão das notas em torno
da média não é a mesma para todos os alunos.
III.2.1 – Amplitude
Por definição, amplitude é a diferença entre o maior e o menor valor:
aAntonio =
aJoão =
aJosé =
aPedro =
A amplitude nem sempre capta as diferenças. No caso de Antônio, certamente
suas notas não variaram (a = 0). As notas de João variaram menos do que as notas de
José. Entretanto, a amplitude não mostra que as notas de Pedro variaram mais do que as
de José.
A amplitude não mede bem a dispersão dos dados porque em seus cálculos
utilizam-se apenas valores extremos e não todos os dados.
III.2.2 – Variância e desvio-padrão
Antes de se definir a variância e o desvio padrão, é necessário introduzir o
conceito de desvio em relação à média, cuja equação é dada por:
DM = x − x
Se a média de idade em uma família for 30 ( x = 30 ) e uma pessoa tiver 50 anos,
o desvio médio será dado por:
27
DM = x − x = 50 – 30 = 20 anos
Uma propriedade do desvio médio é que o somatório de todos os desvios de uma
amostra é sempre zero. Exemplo:
x = {0, 4, 6, 8, 7}
Isso ocorre porque o somatório dos valores positivos e negativos se anulam.
Então, não se pode estabelecer o grau de dispersão de uma amostra através da média dos
desvios. Para resolver este problema, o que se faz é utilizar a soma dos quadrados dos
desvios. Com isso, todo número negativo fica positivo.
Dispondo-se os dados da série anterior em uma tabela, tem-se:
Dados (xi)
x=
Tabela 3.11 – Cálculo da soma dos quadrados dos desvios
Desvios ( xi − x )
Quadrados dos desvios ( xi − x ) 2
0
4
6
8
7
5
∑ ( xi − x ) =
i =1
5
∑(x
i
− x )2 =
i =1
A soma dos quadrados, no entanto, não pode ser usada como uma medida de
dispersão, porque seu valor aumenta com o aumento no número de dados. Para isso,
utiliza-se a variância cuja expressão é dada por:
2
⎛ n ⎞
⎜ ∑ xi ⎟
n
n
2
2
( xi − x )
xi − ⎝ i =1 ⎠
∑
∑
n
ou s 2 = i =1
, para amostras
s 2 = i =1
n
−
1
n −1
2
⎛ N ⎞
⎜ ∑ xi ⎟
N
N
2
2
xi − ⎝ i=1 ⎠
( xi − µ )
∑
∑
N
σ 2 = i =1
ou σ 2 = i=1
, para população
N
N
A segunda fórmula pode parecer mais difícil, porém, facilita o trabalho de
cálculo. Exemplo:
x = {0, 4, 6, 8, 7}
28
Tabela 3.12 – Cálculos intermediários para obtenção de s2.
x
x2
0
4
6
8
7
5
∑ xi = xxxxxxxx
i =1
5
∑x
2
i
= xxxxxxxxxx
i =1
No exemplo mostrado na tabela 3.10, tem-se:
Tabela 3.13 – Média e variância das notas de quatro alunos em 5 provas
Aluno
Notas
Média Variância
Antônio 5
5 5 5 5
5
João
6
4 5 4 6
5
José
10 5 5 5 0
5
Pedro
10 10 5 0 0
5
Uma desvantagem da variância é apresentar unidade de medida igual ao
quadrado da medida dos dados. Se os dados estão em metros (unidade de comprimento)
a variância fica em m2 (unidade de área). Para contornar esse problema, calcula-se a raiz
quadrada da variância, obtendo-se assim, o desvio-padrão, cujas equações são dadas
por:
2
n
s=
∑(x
i =1
− x )2
i
n −1
⎛ n ⎞
⎜ ∑ xi ⎟
n
2
xi − ⎝ i =1 ⎠
∑
n
ou s = i =1
, para amostras
n −1
2
N
σ=
∑ (x − µ)
i
i =1
N
2
ou σ 2 =
⎛ N ⎞
⎜ ∑ xi ⎟
N
2
xi − ⎝ i=1 ⎠
∑
N
i =1
, para população
N
Observação:
Quando os dados se apresentam organizados em grupamentos simples ou em
intervalo de classes, o cálculo do desvio padrão é dado por:
2
n
s=
∑f
i
⋅ ( xi − x ) 2
i =1
n −1
n
ou s =
∑
i =1
⎛ n
⎞
⎜ ∑ f i ⋅ xi ⎟
⎠
f i ⋅ xi2 − ⎝ i=1
n
para amostras
n −1
29
2
N
σ=
∑
f i ⋅ ( xi − µ ) 2
i =1
N
N
ou σ 2 =
∑
i =1
⎛ N
⎞
⎜ ∑ f i ⋅ xi ⎟
⎠
f i ⋅ xi2 − ⎝ i=1
N
para população
N
Lembrando que, no caso de intervalo de classes, xi corresponde ao ponto médio
da classe.
Por exemplo, considere os dados apresentados na tabela 3.5. Já sabemos que o
valor da média é de 3,0 anos. Para calcular o desvio-padrão, podemos fazer a expansão
dessa tabela como se segue abaixo:
Tabela 3.14 – Nascidos vivos segundo peso ao nascer
Ponto médio Frequência
xi2
f i × xi2
f i × xi
Classe
(x)
(f)
1,75
3
5,25 3,0625
1,5 |⎯ 2,0
9,1875
2,25
16 36,00 5,0625 81,0000
2,0 |⎯ 2,5
2,75
31 85,25 7,5625 234,4375
2,5 |⎯ 3,0
3,25
34 110,50 10,5625 359,1250
3,0 |⎯ 3,5
3,75
11 41,25 14,0625 154,6875
3,5 |⎯ 4,0
4,25
4 17,00 18,0625 72,2500
4,0 |⎯ 4,5
4,75
1
4,75 22,5625 22,5625
4,5 |⎯ 5,0
TOTAL
100
300 80,9375 933,2500
O desvio-padrão é dado por:
2
n
s=
∑
i =1
⎛ n
⎞
⎜ ∑ f i ⋅ xi ⎟
(300) 2
⎠
f i ⋅ xi2 − ⎝ i =1
933,2500 −
n
100 = 32,25 = 0,34 = 0,58
=
100 − 1
99
n −1
III.2.3 – Coeficiente de variação
O coeficiente de variação é a razão ente o desvio padrão e a média multiplicada
por 100, ou seja,
CV =
s
× 100
x
Exemplo:
Suponha 2 grupos de pessoas com as seguintes idades:
G1 = {3, 1, 5}
G2 = {55, 57, 53}
30
Dos dois grupos, temos:
x1 = 3
x 2 = 55
s1 = 2
s2 = 2
Apesar dos 2 grupos terem o mesmo desvio, a diferença de dois anos é muito
mais significativa para o primeiro grupo. Isso pode ser melhor constatado pelo
coeficiente de variação, onde:
CV1 = 66,66%
CV2 = 3,63%
Exemplo: a media e o desvio padrão para a espessura do endosperma de
sementes de milho e para seu pesos são dados por:
xespessura = 3,5 mm e sespessura = 1,29 mm
x peso = 0,020 g e speso = 0,009 g
O coeficiente de variação para cada variável é dado por:
CVespessura =
CV peso =
sespessura
xespessura
s peso
x peso
× 100 =
× 100 =
1,29
= 37%
3,5
0,009
= 45%
0,020
Por esses resultados, verifica-se que o peso das sementes é uma característica
mais variável do que a espessura do endosperma.
31
III.3 – Medidas de Posição
Os fractis são números que dividem um conjunto ordenado de dados em partes
iguais. Dentre os fractis destacam-se os quartis (que dividem um conjunto de dados em
quatro partes iguais), os decis (que dividem um conjunto de dados em dez partes iguais)
e os percentis (que dividem um conjunto de dados em cem partes iguais)
III.3.1 – Quartis
Os três quartis Q1, Q2 e Q3 dividem um conjunto de dados em quatro partes
iguais ou aproximadamente iguais da seguinte maneira:
Q1
Q2
Q3
número que delimita o primeiro ¼ dos dados.
25% dos valores estão abaixo de Q1
número que delimita a primeira ½ dos dados (é a mediana do conjunto
2º Quartil
de dados). 50% dos valores estão abaixo de Q2
número que delimita o primeiro ¾ dos dados.
3º Quartil
75% dos valores estão abaixo de Q3
1º Quartil
Exemplo:
A pontuação nos testes de 15 empregados envolvidos em um curso de treinamento está
disposta a seguir. Obtenha os primeiro, segundo e terceiro quartis da pontuação dos
testes.
13 9 18 15 14 21 7 10 11 20 5 18 37 16 17
Solução:
Em primeiro lugar, deve-se ordenar o conjunto de dados e obter a mediana Q2. Uma vez
obtida Q2, pode-se dividir o conjunto de dados em duas metades. Os primeiro e terceiros
quartis são as medianas da metade inferior e superior do conjunto de dados
Metade Inferior
64444744448
5 7 9 10 11 13 14
Q1
15
Q2
Metade Superior
644444
7444448
16 17 18 18 20 21 27
Q3
Assim,
Q1 = 1º quartil = 10
Q2 = 2º quartil = 15 = mediana
Q3 = 3º quartil = 18
III.3.2 – Amplitude Interquartil
A amplitude interquartil (AIQ) de um conjunto de dados é a diferença entre o
primeiro e o terceiro quartis.
AIQ = Q3 – Q1
32
Da mesma forma que Q2, AIQ concentra 50% dos valores. Entretanto, tratam-se
dos valores centrais.
Quando se descreve um conjunto de dados com distribuição assimétrica, a
amplitude interquartil descreve melhor a variação do que a amplitude ou o desvio
padrão. Isso ocorre porque a amplitude interquartil não é afetada por valores extremos.
Exemplo:
Obtenha a amplitude interquartil da pontuação nos 15 testes dados no exemplo anterior.
O que você pode concluir a partir do resultado?
Solução:
Q1 = 10
Q3 = 18
AIQ = Q3 – Q1 = 18 – 10 = 8
Isso significa que as pontuações no teste na metade do conjunto de dados variam
no máximo em oito pontos.
Quando se descreve um conjunto de dados com distribuição assimétrica, a
amplitude interquartil descreve melhor a variação do que a amplitude ou o desvio
padrão. Isso ocorre porque a amplitude interquartil não é afetada por valores extremos.
Observe a tabela abaixo:
Tabela 3.15 – Valores de TGP (U/mL) observados em 95 recém-nascidos pré-maturos.
TGP
f
42
0 |⎯ 10
n = 95
31
10 |⎯ 20
10
20 |⎯ 30
média = 20
4
30 |⎯ 40
mediana = 10
1
40 |⎯ 50
1
Desvio-padrão = 30,6
50 |⎯ 60
Q1 = 7; Q2 = 10; Q3 = 18
1
60 |⎯ 70
Amplitude interquartil = 11
100 ou mais 5
Total
95
A diferença entre a média e a mediana já é um indicador que os dados da tabela
3.15 são de uma distribuição assimétrica. O valor do desvio-padrão também é um
indicador de assimetria, pois é proporcionalmente muito alto em relação à média. Para
esse tipo de dado, mediana é a melhor medida de tendência central e a amplitude
interquartil a melhor medida da variabilidade.
De forma resumida, temos:
Fractil
Resumo
Símbolos
Q1, Q2, Q3
Divide o conjunto de dados em 4 partes iquais
Quartis
Divide o conjunto de dados em 10 partes iquais D1, D2, D3, ..., D9
Decis
Percentis Divide o conjunto de dados em 100 partes iquais P1, P2, P3, ..., P99
33
III.3.3 – Escore padrão
O escore padrão, ou escore z, representa o número de desvios-padrão no qual
está um valor dado x a partir da média µ. O escore padrão pode ser obtido a partir de:
z=
valor − média
x−µ
=
desvio padrão
σ
•
•
•
Se z < 0, então x está abaixo da média
Se z = 0, então x é igual à média
Se z > 0, então x está acima da média
Exemplo:
Em uma estrada verificou-se que a velocidade média dos veículos é de 56 km/h com um
desvio-padrão de 4 km/h. Foram medidas as velocidades de 3 carros obtendo-se
respectivamente 62, 47 e 56 km/h. Obtenha o escore padrão de cada velocidade e tire
suas conclusões.
•
•
•
x−µ
62 − 56
= 1,5
4
σ
x − µ 47 − 56
Para x = 47 km/h, z =
=
= −2,25
4
σ
x − µ 56 − 56
Para x = 56 km/h, z =
=
= 0,0
4
σ
Para x = 62 km/h, z =
=
A partir do escore padrão pode-se chegar às seguintes conclusões:
• A velocidade de 62 km/h está 1,5 desvios-padrão acima da média
• A velodicade de 47 km/h está 2,25 desvios-padrão abaixo da média
• A velocidade de 56 km/h é igual à média
Download