notas de aula - ICEB-UFOP

Propaganda
Bioestatística
October 28, 2013
UFOP
October 28, 2013
1 / 57
NOME
1
2
Medidas de Tendência Central
Média aritmética
Mediana
Moda
Separatrizes
Medidas de Dispersão
Amplitude Total
Variância e Desvio-padrão
Coeficiente de Variação de Pearson
UFOP
October 28, 2013
2 / 57
Medidas de Tendência Central
Uma medida de tendência central procura sintetizar as informações da
amostra em um único e informativo valor.
As principais medidas de posição estão apresentadas a seguir.
UFOP
October 28, 2013
3 / 57
Média aritmética
A média é a principal medida de posição, sendo utilizada
principalmente quando os dados apresentam distribuição simétrica ou
aproximadamente simétrica, como acontece com a maioria das
situações práticas.
Simbologia:
µ para a média populacional.
X para a média amostral.
UFOP
October 28, 2013
4 / 57
A média populacional é calculada pela expressão a seguir:
Para dados brutos
X1 + X2 + · · · + XN
µ=
⇒µ=
N
em que, N é o tamanho da população.
UFOP
PN
i
Xi
N
October 28, 2013
5 / 57
O estimador da média populacional é:
Para dados brutos
X1 + X2 + · · · + Xn
X=
⇒X=
n
em que, n é o tamanho da amostra.
Pn
i
Xi
n
Para dados agrupados em Tabela de Frequências
Pk
i
X=
Xi fi
n
em que, k é o número de classes.
UFOP
October 28, 2013
6 / 57
Exemplo
Dados Brutos
Vamos voltar ao exemplo das alturas,expressas em centímetros, de 30
atletas do sexo masculino de uma universidade:
168
176
175
172
173
164
170
170
181
181
186
179
169
183
172
173
170
169
164
168
174
175
166
171
182
169
178
177
180
166
A média aritmética será dada por:
X=
X1 + X2 + · · · + Xn
168 + 172 + · · · + 166
⇒X=
n
30
X = 173, 37
UFOP
October 28, 2013
7 / 57
Exemplo
Para dados agrupados em Tabela de Frequências
A tabela de distribuição de frequências foi apresentada na aula
anterior:
UFOP
October 28, 2013
8 / 57
Assim, a média aritmética será dada por:
P5
Xi fi
X = i=1
n
X=
166, 2 · 6 + 170, 6 · 9 + · · · + 183, 8 · 3
= 173, 53
30
UFOP
October 28, 2013
9 / 57
Hipótese Tabular Básica
Alguém pode questionar a razão da diferença observada no uso dos
dois estimadores.
A resposta é dada pela hipótese tabular básica, a qual considera que
todos os elementos de uma classe são representados pelo seu ponto
médio, fato este, que não é verdadeiro em praticamente todas as
situações.
Desta forma, este último resultado é apenas aproximado. No entanto,
o erro cometido é mínimo e, portanto, pode ser desprezado.
UFOP
October 28, 2013
10 / 57
Propriedades da média
A soma algébrica dos desvios em relação à média aritmética é
nula.
n
X
(Xi − X) = 0
i
A soma dos quadrados dos desvios de um conjunto de dados em
relação a sua média e um valor mínimo.
D=
n
X
(Xi − X)2
i
UFOP
October 28, 2013
11 / 57
Propriedades da média
A média de um conjunto de dados acrescido em cada elemento
por uma constante e igual à média original mais essa constante.
∗
X =X +k
∗
em que X é a média do novo conjunto de dados e k é a
constante.
Multiplicando todos os dados por uma constante a nova média
será igual ao produto da média anterior pela constante.
∗
X =X ·k
A média é influenciada por valores extremos.
UFOP
October 28, 2013
12 / 57
Mediana
A mediana divide as observações ordenadas em partes iguais.
Para sua determinação é necessário o conhecimento da posição
central.
Para dados ordenados, temos basicamente têm-se duas situações
distintas:
Se n for par:
md =
X(n/2) + X((n+2)/2)
2
Se n for ímpar:
md =
UFOP
X(n+1)
2
October 28, 2013
13 / 57
Exemplo
Dados ordenados
No caso dos atletas a posição central está entre o 15o e o 16o
elemento.
Portanto, a mediana é a média aritmética destas duas observações.
Logo,
md =
X(15) + X(16)
X(30/2) + X(30+2)/2
⇒ md =
2
2
md = 172, 5cm
UFOP
October 28, 2013
14 / 57
Dados agrupados em Tabela de Frequências
No caso de dados agrupados a mediana pode ser calculada de
acordo com a seguinte expressão:
n/2 − Fant
md = LImd +
· cmd
fmd
em que
fmd é a freqüência da classe mediana;
cmd é a amplitude da classe mediana;
Fant é a frequência acumulada das classes anteriores à classe
mediana;
LImd é o limite inferior da classe mediana.
A classe mediana é a classe que contém a posição n/2 (posição
mediana) da distribuição de freqüência.
UFOP
October 28, 2013
15 / 57
Exemplo
No caso dos atletas temos:
Posição mediana = 30/2 = 15 (contida na 2a classe), Fant = 6;
LImd = 168, 4, fmd = 9 e cmd = 4, 40.
Logo,
15 − 6
· 4, 40
md = 168, 4 +
9
md = 172, 8cm
UFOP
October 28, 2013
16 / 57
Propriedades da mediana
A mediana de um conjunto de dados acrescido em cada elemento
por uma constante e igual à mediana original mais essa
constante.
md∗ = md + k
em que md∗ é a mediana do novo conjunto de dados e k é a
constante.
Multiplicando todos os dados por uma constante a nova mediana
será igual ao produto da mediana anterior pela constante.
md∗ = md · k
UFOP
October 28, 2013
17 / 57
Observação
Muitas vezes existem dúvidas de qual medida utilizar para sintetizar os
dados amostrais.
Como uma regra geral, pode-se definir qual medida é mais
conveniente para uma dada situação com base na análise do
histograma ou do polígono de freqüências.
Se a distribuição dos dados for assimétrica, isto é quando valores
extremos predominam em uma das caudas da distribuição, deve se
preferir a mediana como medida sintetizadora.
Isto se deve ao fato da mediana ser pouco sensível a presença de
valores extremos, sendo considerada mais robusta que a média.
O termo robusto é o termo técnico usado para indicar esta
propriedade da mediana em relação à média aritmética, que quando a
situação de simetria é violada a mediana é uma medida que sofre
menos “interferências” nas suas estimativas.
UFOP
October 28, 2013
18 / 57
Moda
A moda é definida para dados qualitativos ou para quantitativos
discretos como sendo o valor de maior freqüência na amostra.
Para dados quantitativos contínuos a moda é o valor de maior
densidade. Portanto para dados quantitativos contínuos o estimador
da moda é baseado na distribuição de freqüências.
Esse estimador busca encontrar o ponto de máximo do polígono de
freqüências.
Um conjunto pode ter mais de uma moda ou até mesmo não ter moda.
UFOP
October 28, 2013
19 / 57
O estimador da moda para dados quantitativos contínuos é definido a
partir da distribuição de freqüência por meio de um método
geométrico, o qual conduz a seguinte expressão:
mo = LImo +
∆1
· cmo
∆1 + ∆ 2
em que:
LImo : limite inferior da classe modal;
∆1 : diferença entre as freqüências da classe modal e a classe
anterior;
∆2 : diferença entre as freqüências da classe modal e a classe
posterior;
cmo : amplitude da classe modal.
A classe modal é a classe com maior freqüência.
UFOP
October 28, 2013
20 / 57
Propriedades da moda
A moda de um conjunto de dados acrescido em cada elemento
por uma constante e igual à moda original mais essa constante.
mo∗ = mo + k
em que mo∗ é a mediana do novo conjunto de dados e k é a
constante.
Multiplicando todos os dados por uma constante a nova moda
será igual ao produto da moda anterior pela constante.
mo∗ = mo · k
UFOP
October 28, 2013
21 / 57
Relações empíricas entre média, mediana e moda
X = md = mo (distribuição simétrica)
X > md > mo (distribuição assimétrica à direita)
X < md < mo (distribuição assimétrica à esquerda)
UFOP
October 28, 2013
22 / 57
Separatrizes
São as medidas que separam a distribuição de freqüências em partes
iguais.
Vimos que a mediana divide a distribuição em duas partes iguais
quanto ao número de elementos de cada parte.
Agora vamos estudar outras medidas que dividem a distribuição em
partes iguais, que serão as chamadas separatrizes.
Lembrem-se: os dados deves etar ordenados em ordem crescente!!!
UFOP
October 28, 2013
23 / 57
Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais.
Assim:
Q1 : 1o quartil. Deixa 25% dos elementos antes do seu valor
Q2 : 2o quartil. Deixa 50% dos elementos antes do seu valor.
Coincide com a mediana.
Q3 : 3o quartil. Deixa 75% dos elementos antes do seu valor.
UFOP
October 28, 2013
24 / 57
Genericamente, para determinar a ordem ou posição do quartil a ser
calculado, usaremos a seguinte expressão:
EQi = in/4
em que:
i é o número do quartil a ser calculado.
n é o número de observações.
UFOP
October 28, 2013
25 / 57
Para dados não agrupados, vejamos um exemplo simples:
Considere os dados ordenados:
{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Neste caso temos n = 10
Se eu estiver interessado em encontrar o terceiro quartil, temos:
EQ3 = 3 · 10/4 = 7, 5
Se o número resultante for decimal, a regra é arredondar sempre para
cima. Logo, Q3 = 8.
Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão
acima de 8 na distribuição de dados apresentada no exemplo.
UFOP
October 28, 2013
26 / 57
Para dados agrupados em classes temos:
EQi − Fant
Qi = LI + c
fQi
em que
LI = limite inferior da classe que contém o quartil desejado
c = amplitude do intervalo de classe
EQi = elemento quartílico
Fant = frequência acumulada até a classe anterior à classe que
contém EQi
fQi = frequência absoluta simples da classe quartílica.
UFOP
October 28, 2013
27 / 57
Decis
Os decis dividem um conjunto de dados em dez partes iguais.
De maneira geral, para calcular os decis, recorreremos à expressão
que define a ordem em que o decil se encontra:
EDi = in/10
em que:
i é o número do decil a ser calculado.
n é o número de observações.
UFOP
October 28, 2013
28 / 57
Para dados não agrupados, vejamos o exemplo anterior:
Considere os dados ordenados:
{1, 2, 3, 4, 5, 6, 7, 8, 9, 10} em que n = 10
Se eu estiver interessado em encontrar o D6 , temos:
ED6 = 6 · 10/10 = 6
Se o número resultante for inteiro, a regra é fazer a média dele com o
númeor imediatamente posterior a ele na ordem dos dados. Logo,
D6 = 6+7
2 = 6, 5.
Assim, 60% dos valores estão abaixo de 6, 5 e 40% dos valores estão
acima de 6, 5 na distribuição de dados apresentada no exemplo.
UFOP
October 28, 2013
29 / 57
Para dados agrupados em classes temos:
EDi − Fant
Di = LI + c
fDi
em que
LI = limite inferior da classe que contém o decil desejado
c = amplitude do intervalo de classe
Fant = frequência acumulada até a classe anterior à classe que
contém EDi
fDi = frequência absoluta simples da classe que contém EDi .
UFOP
October 28, 2013
30 / 57
Percentis ou Centis
Os percentis dividem um conjunto de dados em cem partes iguais.
O elemento que definirá a ordem do centil será encontrado pelo
emprego da expressão:
ECi = in/100
em que:
i é o número do percentil a ser calculado.
n é o número de observações.
UFOP
October 28, 2013
31 / 57
Para dados não agrupados, consideremos novamente:
Considere os dados ordenados:
{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Se estivermos interessados em encontrar o P75 , temos:
EP75 = 75 · 10/100 = 7, 5
Como o número resultante é decimal, temos, P75 = 8.
Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão
acima de 8 na distribuição de dados apresentada no exemplo.
Note que P75 coincide com Q3
UFOP
October 28, 2013
32 / 57
Para dados agrupados em classes temos:
ECi − Fant
Ci = LI + c
fCi
em que
LI = limite inferior da classe que contém o percentil desejado
c = amplitude do intervalo de classe
Fant = frequência acumulada até a classe anterior à classe que
contém ECi
fCi = frequência absoluta simples da classe que contém ECi .
UFOP
October 28, 2013
33 / 57
Exemplo
Com base na tabela de distribuição de frequências abaixo encontre:
Primeiro quartil
Septuagésimo quinto centil
Nono decil
UFOP
October 28, 2013
34 / 57
Exemplo
Tabela 1 - consumo médio de eletricidade (kWh) entre 80
consumidores - RJ - 1980
Consumo (Kwh)
5 ` 25
25 ` 45
45 ` 65
65 ` 85
85 ` 105
105 ` 125
125 ` 145
145 ` 165
UFOP
fi
4
6
14
26
14
8
6
2
FA
4
10
24
50
64
72
78
80
October 28, 2013
35 / 57
Resolução:
Encontrar a posição do primeiro quartil:
EQi = in/4 =
1 · 80
= 20
4
O Q1 está localizado na 20a posição, logo encontra-se na 3a classe.
Então,
EQi − Fant
20 − 10
Qi = LI + c
= 45 + 20
= 59, 29
fQi
14
Interpretação: 25% dos usuários consomem até 59,59 kwh.
De maneira análoga, 75% dos usuários consomem mais de 59,59
kwh.
UFOP
October 28, 2013
36 / 57
Resolução:
Encontrar a posição do septuagésimo quinto percentil:
ECi = in/100 =
75 · 80
= 60
100
O C75 está localizado na 60a posição, logo encontra-se na 5a classe.
Então,
ECi − Fant
60 − 50
Ci = LI + c
= 85 + 20
= 99, 29
fCi
14
Interpretação: 75% dos usuários consomem até 99,29 kwh.
De maneira análoga, 25% dos usuários consomem mais de 99,29
kwh.
UFOP
October 28, 2013
37 / 57
Resolução:
Encontrar a posição do nono decil:
EDi = in/10 =
9 · 80
= 72
10
O d9 está localizado na 72a posição, logo encontra-se na 6a classe.
Então,
72 − 64
EDi − Fant
= 105 + 20
Di = LI + c
= 125
fDi
8
Interpretação: : 90% dos usuários consomem até 125 kwh.
De maneira análoga, 10% dos usuários consomem mais de 125 kwh.
UFOP
October 28, 2013
38 / 57
Medidas de dispersão ou de variabilidade
As medidas de posição não informam sobre a variabilidade dos dados
e são insuficientes para sintetizar as informações amostrais.
Para exemplificar este fato, tem-se a seguir três amostras com a
mesma média:
A = {8, 8, 9, 10, 11, 12, 12}
X A = 10
B = {5, 6, 8, 10, 12, 14, 15}
X B = 10
C = {1, 2, 5, 10, 15, 18, 19}
X C = 10
UFOP
October 28, 2013
39 / 57
Pode-se observar que as amostras diferem grandemente em
variabilidade.
Por esta razão torna-se necessário estabelecer medidas que indiquem
o grau de dispersão, ou variabilidade em relação ao valor central.
Desta forma pode-se afirmar que uma amostra deve ser representada
por uma medida de posição e dispersão.
As principais medidas de dispersão que são:
Amplitude total
Variância e Desvio-padrão
Coeficiente de Variação de Pearson
UFOP
October 28, 2013
40 / 57
Amplitude total
A amplitude total é definida como a diferença entre o maior e o menor
valor de uma amostra.
A = X(n) − X(1)
Note que para os conjuntos de dados A, B, C, temos:
AA = 12 − 8 = 4
AB = 15 − 5 = 10
AC = 19 − 1 = 18
UFOP
October 28, 2013
41 / 57
Desvantagens
A amplitude tem as seguintes desvantagens:
só considerar os valores extremos para o seu cálculo, e
principalmente se houver outlier ela será grandemente afetada;
ser influenciada pelo tamanho da amostra, pois à medida que a
amostra aumenta a amplitude tende a ser maior.
UFOP
October 28, 2013
42 / 57
Variância e Desvio-padrão
A variância é uma medida da variabilidade que considera todas as
observações e, devido às propriedades que possui, é a mais utilizada
na maioria das situações na estatística.
A variância relaciona os desvios em torno da média e sua raiz
quadrada é conhecida como desvio-padrão.
Simbologia
σ 2 para a variância populacional e σ para o desvio-padrão
populacional
s2 para a variância amostral e s para o desvio-padrão amostral
UFOP
October 28, 2013
43 / 57
A variância populacional é dada por:
2
σ =
PN
i=1 (Xi
− µ)2
N
em que N é o tamanho da População.
UFOP
October 28, 2013
44 / 57
A variância amostral é dada por:
Pn
(Xi − X)2
2
s = i=1
n−1
em que n é o tamanho da amostra e (n − 1) é denominado graus de
liberdade..
UFOP
October 28, 2013
45 / 57
Numa amostra de tamanho n deveria ser utilizado este valor (n) como
divisor desta soma de quadrados de desvios.
No entanto, devido a motivos associados a propriedades dos
estimadores, o divisor da variância amostral é dado por n-1 em lugar
de n na expressão do estimador da variância.
A unidade da variância é igual ao quadrado da unidade dos dados
originais. O desvio padrão, por sua vez, é expresso na mesma
unidade do conjunto de dados, sendo obtido pela extração da raiz
quadrada da variância.
UFOP
October 28, 2013
46 / 57
Para o cálculo da variância ou desvio padrão amostral a partir dos
dados elaborados é preferível utilizar as seguintes expressões:
" n
#
P
X
( ni=1 Xi )2
1
2
2
Xi −
s =
n−1
n
i=1
e
√
s=
UFOP
s2
October 28, 2013
47 / 57
Para dados agrupados temos:
" k
#
P
X
( ki=1 fi X i )2
1
2
2
fi X i −
s =
n−1
n
i=1
em que k é o número de classes.
Exemplo
Assim, para os conjuntos de dados A, B, C, temos:
s2A = 3
s2B = 15
sA ∼
= 1, 77
s2C = 56, 57
sB ∼
= 3, 87
sC ∼
= 7, 53
UFOP
October 28, 2013
48 / 57
O Desvio-padrão
A variância é expressa pelo quadrado da unidade de medidad da
variável que está sendo estudada.
Assim, e a variável sob análise for medida em metro, então a variância
será expressa em m2 .
Para melhr interpretar a dispersão de uma variável, usaremos o desvio
padrão, que será expresso na unidade de medida original dos dados.
Trata-se da mais importante das medidas de dispersão, pois indica a
dispersão média absoluta dos dados em torno da própria média
aritmética.
UFOP
October 28, 2013
49 / 57
Interpretação do Desvio-padrão
Numa linguagem mais simplista, devemos ter em mente que o
desvio-padrão mede a variação entre valores. Assim:
Se os valores estiverem próximos uns dos outros, então o
desvio-padrão será pequeno, e conseqüentemente os dados
serão homogêneos. Ou seja, haverá uma grande concentração
de dados em torno da média.
Se os valores estiverem distantes uns dos outros, então o
desvio-padrão será grande, e conseqüentemente os dados serão
heterogêneos. Ou seja, os valores não se concentrarão com tanta
intensidade em torno da média.
UFOP
October 28, 2013
50 / 57
Propriedades
Variância
Somando ou subtraindo uma constante aos dados a variância
não se altera;
Multiplicando todos os dados por uma constante K a nova
variância ficara multiplicada por K 2 .
Desvio-padrão
Somando ou subtraindo uma constante K aos dados o desvio
padrão não se altera;
Multiplicando todos os dados por uma constante K o novo desvio
padrão fica multiplicado por K.
UFOP
October 28, 2013
51 / 57
Coeficiente de Variação de Pearson
A variância e o desvio padrão medem a variabilidade absoluta de uma
amostra.
Portanto, a variabilidade de amostras de grandezas diferentes ou de
médias diferentes não pode ser comparada diretamente pelas
estimativas da variância ou do desvio padrão obtidas.
O desvio padrão ou variância permitem a comparação da variabilidade
entre conjuntos numéricos que possuem a mesma média e a mesma
unidade de medida ou grandeza.
Nos casos em que os conjuntos possuem diferentes unidades ou
possuem médias diferentes, uma medida de dispersão relativa, como
o coeficiente de variação (CV), é indispensável para se comparar à
variabilidade.
UFOP
October 28, 2013
52 / 57
O coeficiente de variação refere-se à variabilidade dos dados
mensurada em relação a sua média, sendo obtido pela expressão
seguinte:
σ
CVp = x100
µ
O estimador do Coediciente de Variação populacional CVp é dado por
CV =
s
x100
X
O coeficiente de variação é a expressão do desvio-padrão como
porcentagem da média do conjunto de dados.
É uma medida adimensional de variabilidade, ou seja, não possui
unidade de medida.
UFOP
October 28, 2013
53 / 57
Algumas regras empíricas para a interpretação do coeficiente
de variação
Se CV < 15% há baixa dispersão → boa representatividade da
média aritmética como medida de posição.
Se 15% ≤ CV < 30% há média dispersão → a representatividade
da média aritmética como medida de posição é apenas regular.
Se CV ≥ 30% há elevada dispersão → a representatividade da
média aritmética como medida de posição é ruim.
UFOP
October 28, 2013
54 / 57
Exemplo
A média e o desvio-padrão da produtividade de duas cultivares de
milho são: X = 4, 0t/ha e sA = 0, 8t/ha para a variedade de
polinização aberta A e X = 8, 0t/ha e sA = 1, 2t/ha para o híbrido
simples B. Qual das cultivares possui maior uniformidade de
produção?
UFOP
October 28, 2013
55 / 57
Se ao inspecionar as estatísticas apresentadas, você respondesse
que variedade de polinização aberta A seia a demaior uniformidade e
que a razão seria o menordesvio padrao apresentado, você teria
cometido um engano.
Embora as unidades não sejam diferentes, as médias das amostras o
são.
Assim, não é correto utilizar uma medida de varabilidade absoluta,
como o desvio-padrão, para compará-las.
O procedimento adequado é calcular o CV para as cultivares e aí sim,
proceder a comparação.
UFOP
October 28, 2013
56 / 57
CVA =
0, 8
x100 = 20%
4, 0
1, 2
x100 = 15%
8
Assim, é fácil observar que o milho híbrido simples (B) é o mais
uniforme, pois possui menor CV do que a variedade de polinização
aberta A.
CVp =
UFOP
October 28, 2013
57 / 57
Download