Estatística I

Propaganda
ISCTE 2009-10
1/68
Estatística I
Finanças e Contabilidade
Margarida Cardoso
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
2/68
Introdução
Objectivos principais da Estatística
A teoria estatística procura responder a 3 questões
básicas:
− Como recolher dados para analisar
− Como analisar e sumarizar os dados recolhidos
− Qual a precisão dos resultados da análise
Nota sobre o SPSS
O SPSS será utilizado para apoiar o estudo de
Estatística I e viabilizar a realização de trabalhos
aplicados.
Em cada opção de Análise no SPSS, a entrada Help
permite esclarecer conteúdos genéricos dos
procedimentos de Análise, assim como ilustrar “passo
a passo”, cada entrada específica da opção.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
3/68
1 Estatística Descritiva
É no século XVII que a Estatística se torna uma
disciplina autónoma, tendo como objecto os assuntos
do estado (sentido etimológico da palavra). Nesta
época surgem as primeiras análises de dados
numéricos (nomeadamente demográficos).
A Estatística Descritiva implanta-se antes do cálculo
das probabilidades.
1.1 Conceitos Básicos
População e Amostra
População alvo: a totalidade dos elementos de
interesse acerca dos quais desejamos obter informação
A recolha de informação pode incidir sobre:
− a População alvo → Recenseamento
− uma parte da população ou Amostra →
Amostragem
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
4/68
A decisão Recenseamento ou Amostragem envolve
múltiplos factores:
Dimensão da população, capacidade de controlo
da qualidade das medições, natureza destrutiva das
medições, custos (tempo e dinheiro), …
Amostra observada
Amostra de n observações:
x1…xn (designando o 1º,2º,..., n-ésimo elementos
observados de uma amostra, respectivamente)
Amostra ordenada de n observações:
x1:n, x2:n….xn:n (designando o 1º,2º,...n-ésimo
elementos observados de uma amostra ordenada de
modo crescente, respectivamente)
Amostra com observações repetidas (dados
agrupados):
x1
x2
…
…
xk
Tópicos de Estatística I
n1
n2
nk
Margarida Cardoso
ISCTE 2009-10
5/68
Amostra com observações classificadas:
Classes de xi
(L1,L2]
(L2,L3]
…
(LC,LC+1]
Frequência
n1
n2
…
nC
Níveis de mensuração
Os dados podem resultar de medidas:
− nominais
− ordinais
− intervalares
− de razão
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
6/68
1.2 Medidas de Localização
Dados nominais
Moda: xi com frequência máxima
Dados ordinais
Moda: xi com frequência máxima
Mínimo: x1:n
Máximo: xn:n
Percentis: Pk, 0<k<1
− se nk inteiro, Pk= xnk:n
− se nk não inteiro, Pk= x[nk+1]:n
em que [x] indica o maior inteiro menor que x
Nota: P0,5 é a denominado mediana; P0,25 e P0,75 são
quartis
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
7/68
Dados intervalares e de razão
n
∑x
Média:
x=
i
i =1
n
Percentis: Pk, 0<k<1
− se nk inteiro, Pk= (xnk:n + xnk+1:n) / 2
− se nk não inteiro, Pk= X[nk+1]:n
1.3 Medidas de dispersão
Dados ordinais
Amplitude amostral: xn:n – x1:n
Amplitude inter-quartis : P0,75 – P0,25
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
8/68
Extremos (Outliers):
− Extremo severo:
xi < P0,25 – 3 (P0,75-P0,25)
ou
xi > P0,75 + 3 (P0,75-P0,25)
− Extremo moderado
P0,25 – 3 (P0,75-P0,25) < xi < P0,25 – 1,5 (P0,75-P0,25)
P0,75 + 3 (P0,75-P0,25) > xi > P0,75 + 1,5 (P0,75-P0,25)
Dados intervalares e de razão
n
Variância:
2
x
s =
∑ (x i − x)
i =1
n
n
∑ xi
2
=
i =1
n
2
−x
2
n 2
s =
s (no SPSS)
Variância corrigida:
n −1
'2
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
9/68
Desvio padrão: s =√s2
Coeficiente de variação: s / x
n
∑x
Desvio médio:
i
−x
i =1
n
1.4 Algumas representações tabulares e
gráficas
Dados nominais e ordinais
Tabela de frequências
Gráfico de barras
Gráfico circular
...
Exemplo:
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
Tópicos de Estatística I
10/68
Margarida Cardoso
ISCTE 2009-10
11/68
Dados intervalares e de razão
Gráfico de caixa e bigodes
Histograma e polígono de frequências
...
Exemplo:
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
12/68
P0,75+1,5*H
P0,75
H
P0,5
P0,25
P0,25-1,5*H
Nota: Neste tipo de representação também é comum o
uso dos valores mínimo e máximo como extremos.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
13/68
1.5 Mais sobre Medidas descritivas
Amostra com observações repetidas
k
∑n x
i
x=
i
i =1
n
k
s 2X =
2
n
(
x
−
x
)
∑ i i
i =1
n
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
14/68
Amostra com observações classificadas
K
nk c
x ≈ ∑ xk
k =1 n
K
2
n
s 2X ≈ ∑ k (x ck − x )
k =1 n
c
x
em que k representa o ponto médio da classe k de
observações.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
15/68
Transformações de origem e escala
Transformação
X → Y=X+c
X → Y=cX
Média
y = x+c
y = cx
Variância e
D. Padrão
s2Y = s2X
sY = c sX
Uma transformação particular (observações
padronizadas):
yi =
(x i − x)
sX
(x i − x)
yi ∑
∑
sX
i =1
i =1
y=
=
=0
n
n
n
n
n
2
sY =
∑ ( y i − y)
i =1
n
n
∑ yi
2
=
i =1
n
2
=1
Exercício: Demonstrar os resultados apresentados
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
16/68
1.6 Associação entre duas variáveis
Representações gráficas e tabulares
Dados qualitativos
Uma forma simples de apresentar a associação entre
dados de medidas qualitativas é através de uma
representação tabular cruzada. Exemplo:
Onde pratica desporto? * Com que frequência pratica desporto? Crosstabulation
Onde
pratica
desporto?
Clube desportivo
Ginásio particular
Org. cariz social
Em casa
Outro local
Total
Tópicos de Estatística I
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
Count
% within Onde
pratica desporto?
% within Com
que frequência
pratica desporto?
De vez em
quando
6
Com que frequência pratica desporto?
2
3
vezes/se
vezes/se
1 vez/semana
mana
mana
3
20
9
Todos os
dias
1
Total
39
15,4%
7,7%
51,3%
23,1%
2,6%
100,0%
35,3%
10,7%
39,2%
33,3%
10,0%
29,3%
0
3
19
9
2
33
,0%
9,1%
57,6%
27,3%
6,1%
100,0%
,0%
10,7%
37,3%
33,3%
20,0%
24,8%
3
3
2
3
2
13
23,1%
23,1%
15,4%
23,1%
15,4%
100,0%
17,6%
10,7%
3,9%
11,1%
20,0%
9,8%
1
0
1
3
2
7
14,3%
,0%
14,3%
42,9%
28,6%
100,0%
5,9%
,0%
2,0%
11,1%
20,0%
5,3%
7
19
9
3
3
41
17,1%
46,3%
22,0%
7,3%
7,3%
100,0%
41,2%
67,9%
17,6%
11,1%
30,0%
30,8%
17
28
51
27
10
133
12,8%
21,1%
38,3%
20,3%
7,5%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
Margarida Cardoso
ISCTE 2009-10
Tópicos de Estatística I
17/68
Margarida Cardoso
ISCTE 2009-10
18/68
Dados qualitativos vs quantitativos
Exemplo:
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
19/68
Dados quantitativos
Exemplo: (vendas de lojas em 2 anos seguidos)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
20/68
Medidas de associação
Dados nominais binários
Sobre os dados de uma tabela cruzada de duas
variáveis binárias (x=0,1; y=0,1) podem calcular-se as
medidas Odd e Odd ratio:
x
y
1
0
1
a
b
0
c
d
a
c
As medidas Odd – ODD = b e ODD = d - ilustram a
relação entre a frequência de ocorrência de y=1 vs y=0
observada nos grupos x=1 e x=0, respectivamente.
a/b
c/d
A medida Odd ratio –
- ilustra a relação entre
os odds (de y=1 vs y=0) nos dois grupos.
OR =
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
21/68
Dados intervalares ou de razão
Medida de Covariância:
∑ (x
n
s XY =
i
)(
− x yi − y
i =1
n
) ∑x y
n
i
=
i =1
n
i
− xy
Coeficiente de correlação linear ou de BravaisPearson: rXY
rXY
s XY
=
s Xs Y
Exercício: Demonstre que rXY é a covariância entre x e
y padronizadas
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
22/68
1.7 Regressão Linear Simples
A existência de associação linear entre x e y permite
adoptar um modelo linear de regressão:
ŷ = a + bx
em que a e b resultam de minimizar os erros
quadráticos
n
2
(
)
ŷ
−
y
∑ i i
i =1
pelo que se obtém
a = y − bx
( x − x )( y − y)
∑
b=r
∑ (x − x)
n∑ x y − ∑ x ∑ y
=
n ∑ x − (∑ x )
XY
sY
=
sX
i
i
2
i
Tópicos de Estatística I
i
i
2
i
i
i
2
i
Margarida Cardoso
ISCTE 2009-10
23/68
Atendendo a que a variação total (a priori)
∑ (y
n
i
−y
)
2
i =1
pode ser decomposta em variação explicada pelo
modelo ŷ e em variação residual,
n
2
(
)
ŷ
−
y
∑ i i
i =1
o coeficiente de determinação
n
R 2 = 1−
2
(
)
ŷ
−
y
∑ i i
i =1
n
∑ (y
i
−y
)
2
i =1
pode ser visto como uma medida de precisão do
modelo, indicando a proporção de variação de y
explicada pelo mesmo. (Note-se que neste caso se tem
R2 = r2).
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
24/68
2 Teoria das Probabilidades
2.1 Experiência aleatória e acontecimentos
Um processo capaz de produzir resultados observáveis
diz-se aleatório quando está sujeito a factores
aleatórios (ou casuais), produzindo resultados sobre os
quais há incerteza.
Um processo aleatório diz-se uma experiência
aleatória nas condições seguintes:
- Replicabilidade.
- Existência de um conjunto Ω de resultados possíveis
(acontecimentos) que se designa por espaço de
resultados.
- Regularidade na ocorrência dos resultados associada
à repetição da experiência.
Sejam A⊂ Ω e B⊂ Ω.
- A ⊂ B: é subacontecimento de B se a realização de
A implica a de B.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
25/68
- Ac ou A : diz-se acontecimento complementar de A
se contém todos os elemntos de Ω que não estão em
A.
- A ∪ B: é a união de dois acontecimentos A e B
(corresponde à realização de A ou B)
- A ∩ B: a é intersecção de dois acontecimentos A e
B (corresponde à realização de A e B)
- A-B: define a diferença de A e B i.e. A ∩ Bc
- A e B são incompatíveis se A ∩ B=φ
2.2 Conceito de Probabilidade
O conceito de probabilidade permite analisar a
incerteza associada aos acontecimentos. Há, no
entanto, diferentes conceitos de probabilidade. Por
exemplo:
− Conceito clássico:
NA
P( A ) =
N
N - número de resultados possíveis (mutuamente
exclusivos e equiprováveis)
NA – número de resultados favoráveis à ocorrência
do acontecimento A
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
26/68
− Conceito frequencista:
lim P(A) =
N→+∞
NA
N
− Conceito axiomático:
0 ≤ P(A) ≤ 1
Se A fôr acontecimento certo: P ( A ) = 1
Se A e B forem acontecimentos incompatíveis:
P( A ∪ B) = P( A ) + P ( B)
2.3 Teoremas fundamentais
Probabilidades de acontecimentos
− Acontecimento Impossível: P(A)=0
− Acontecimento Complementar: P(Ac)=1-P(A)
− Diferença de Acontecimentos:
P(B-A)=P(B ∩ Ac)=P(B) – P(A ∩ B)
− União de Acontecimentos:
P(A U B) = P(A) + P(B) – P (A ∩ B)
P (A1 U A2 U A3) =
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
27/68
P(A1) + P(A2) + P(A3) – P(A1 ∩ A2) – P(A1∩
A3) - P(A2 ∩ A3) + P(A1 ∩ A2 ∩ A3)
(…)
− Subacontecimento: Se A ⊆ B então P(A) ≤ P(B)
Probabilidade condicionada
P(B | A ) =
P( A ∩ B)
P( A )
em que P(A) > 0
Probabilidades compostas
n
P(I A i ) = P(A 1 ) P( A 2 | A 1 )...P( A n | A1 ∩ ... ∩ A n −1 )
i =1
n
com
P(
I Ai ) > 0
i =1
Independência de acontecimentos
P(A ∩ B)=P(A)P(B)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
28/68
n
P(I A i ) = P( A1 ) P( A 2 )...P( A n )
i =1
Obs.:A independência também se define para
acontecimentos condicionados
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
29/68
Probabilidade total
Considere que A1… AR definem uma partição de Ω e
B ⊆ Ω (v. exemplo na figura seguinte)
R
P(B) = ∑ P(A r ∩ B)
r =1
pelo que
R
P(B) = ∑ P(B | A r )P(A r )
r =1
Teorema de Bayes
Considere que A1… AR definem uma partição de Ω e
P(Ar)>0 (r=1…R) e B ⊆ Ω
P( A i | B) =
P( A i )P(B | A i )
R
∑ P( A r )P(B | A r )
r =1
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
30/68
3 Variáveis Aleatórias
3.1 Conceito de variável aleatória (v.a.)
Uma v.a. X - X(A)- é uma função que faz
corresponder a cada acontecimento A, um valor real.
A v.a. utiliza-se para expressar o resultado de uma
experiência aleatória.
Este conceito permite efectuar o cálculo de
probabilidades a partir dos valores reais que são
imagens dos acontecimentos.
O conceito de v.a. unidimensional pode ser alargado: o
resultado de uma experiência pode ser traduzido por
pares de valores reais (v.a. bidimensional) ou, mais
geralmente, n-uplos de valores reais (v.a.
multidimensionais).
3.2 Função de distribuição de v.a. X (f.d.)
FX(x)=P(X ≤ x)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
31/68
Para qualquer f.d. FX (x):
− 0 ≤ FX(x) ≤ 1
− FX é monótona não decrescente
lim FX ( x ) = 1
− FX ( +∞ ) = x →
+∞
lim FX ( x ) = 0
− FX ( −∞ ) = x →
−∞
− P(x1 < X ≤ x2)= FX (x2)-FX(x1), x2>x1
Nota: O conhecimento da f.d. de X permite calcular
probabilidades associadas a vários acontecimentos
específicos.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
32/68
3.3 Função de distribuição de vector aleatório
bidimensional ou par aleatório (X,Y)
FX,Y(x,y)=P(X ≤ x, Y ≤ y )
Para qualquer f.d. FXY (x,y):
− 0 ≤ FX,Y(x,y) ≤ 1
− FX ,Y ( x 1 , y1 ) ≤ FX ,Y ( x 2 , y 2 ) , x2>x1, y2>y1
−
−
FX ,Y ( +∞,+∞ ) = lim FX ,Y ( x , y) = 1
x → +∞
x → +∞
FX ,Y ( +∞,+∞ ) = lim FX ,Y ( x , y) = 0
x → −∞
x → −∞
FX ,Y ( x , y) = 0
− FX ,Y ( −∞, y) = xlim
→ −∞
FX ,Y ( x , y) = 0
− FX ,Y ( x ,−∞ ) = ylim
→ −∞
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
33/68
3.4 Variáveis aleatórias discretas
Uma v.a. X diz-se discreta quando X tem
contradomínio –D- finito ou infinito numerável
Função (massa) de probabilidade (f.p.) de v.a. X
P(X=x) > 0 se x ∈ D
fX(x)=
0 caso contrário
Qualquer f.p. verifica:
fX ( x) ≥ 0
∑ fX ( xi ) = 1
xi ∈D
P( x ∈ E) =
∑ fX ( xi )
xi ∈E ∩D
A f.d. de uma v.a. discreta pode exprimir-se em
função da correspondente f.p.:
FX ( x ) =
∑f
X
(x i )
xi ≤x
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
34/68
Média ou Valor esperado da v.a. X
E(X) = µ X =
∑ x .f
i
X
(x i )
x i ∈D
Considerando uma v.a.Y, função da v.a. X – Y=ν(X) –
tem-se que E(Y)=E(ν(X)), pelo que,
E(Y) =
∑ ν(x ).f
i
X
(x i )
x i ∈D
Casos particulares: E(K); E(kX)
Variância da v.a. X
[
]
V(X) = σ 2X = E (X − E(X )) = E(X 2 ) - E 2 (X)
2
Casos particulares: V(K); V(kX)
Desvio padrão da v.a. X
σX
Percentil de ordem k (0 < k < 1) da v.a. X
τk é o menor valor de X que verifica F(τk ) ≥ k
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
35/68
3.5 Par aleatório discreto
Um par aleatório (X,Y) diz-se discreto quando tem
contradomínio –D- finito ou infinito numerável
Função (massa) de probabilidade conjunta de (X,Y)
fX,Y(x,y)= P(X=x, Y=y) > 0 se (x,y) ∈ D
0 caso contrário
verificando:
f X , Y ( x , y) ≥ 0
∑f
XY
( x i , y i )∈D
(x i , y j ) = 1
A f.d. do par a. discreto pode exprimir-se em função
da correspondente f.p.:
FX ,Y ( x, y) =
Tópicos de Estatística I
∑f
X ,Y
x i ≤ x , yi ≤ y
(x i , y i )
Margarida Cardoso
ISCTE 2009-10
36/68
Funções de probabilidade marginal
f X ( x ) = ∑ f X ,Y ( x, y i )
yi
f Y ( y ) = ∑ f X , Y ( x i , y)
xi
Independência de duas v.a. X e Y
∀x, y fX,Y (x,y)= fX,(x)fY(y)
Entre duas variáveis independentes não há qualquer
tipo de associação.
Covariância de duas v.a. X e Y
A medida de covariância – Cov(X,Y) - mede a
existência de associação linear entre X e Y (v.a. de
natureza quantitativa). Se a covariância for nula não há
associação linear.
Cov(X,Y)=E(XY)-E(X)E(Y), em que
∑ x .y f
E(X, Y) =
i
j XY
(x i , y j )
(x i , y j )∈D
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
37/68
3.6 Algumas distribuições de v.a. discretas
Distribuição Uniforme (Discreta): X ∼ U(1/N)
X pode modelar, por exemplo, número inscrito na face
superior de um dado que foi lançado ao ar
f ( x ) = 1 / N, x = 1,2,....N
=0, caso contrário
E(X)=(N+1)/2 e V(X)=(N2-1)/12
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
38/68
Distribuição Bernoulli: X ∼ B(1,p)
X pode modelar ocorrência de sucesso ou insucesso
numa prova binária (com probabilidade de sucesso p)
f ( x ) = P(X = x ) = p x (1 − p)1− x se x=0,1
=0, caso contrário
E(X) = p e V(X) = p (1-p)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
39/68
Distribuição Binomial: X ∼ B(n,p)
X pode modelar número de sucessos em n provas
binárias independentes (probabilidade de sucesso - p mantém-se constante nas n provas)…
f ( x ) = P(X = x ) = C nx p x (1 − p) n − x
x=0,1…n
E(X) = np e V(X) = np(1-p)
Distribuição de n-X
Sendo X ∼ B(n,p) tem-se
n-X∼ B(n,1-p)
Aditividade da distribuição Binomial
Sejam Xk (k=1...K) variáveis independentes e
Xk ∼ B(nk,p)
Então,
ΣXk ∼ B(Σnk,p)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
40/68
Distribuição de Poisson: X ∼ P(λ)
X pode modelar número de ocorrências por unidade
de tempo…
e −λ λ x
f (x) = P[X = x] =
, x = 0,1,2,L
x!
λ >0
E[X ] = λ e Var[X] = λ
Notas: 1.
− Considerando unidades de tempo não sobrepostas os
números de ocorrências são independentes
− Considerando unidades de tempo iguais, observa-se
idêntica probabilidade associada a um certo número de
ocorrências
− Considerando unidades de tempo muito pequenas a
probabilidade de 2 ou mais ocorrências é desprezável
2. A distribuição de Poisson pode ser vista como uma
“forma limite” da distribuição Binomial quando n→+∞,
p→0 e np se mantém constante (np=λ)1
1
Um regra empírica proporcionando uma aproximação aceitável da
binomial à Poisson considera n >20 e p<0,05
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
41/68
Aditividade da distribuição Poisson
Sejam Xk (k=1...K) variáveis independentes e
Xk ∼ P(λk)
Então,
ΣXk ∼ P(Σλk)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
42/68
3.7 Variáveis aleatórias contínuas
Uma v.a. X diz-se contínua quando tem contradomínio
–D- infinito, não numerável.
Função densidade de probabilidade (f.d.p.) de v.a. X
A fX(x) apresentada acima é a função densidade de
probabilidade da v.a. X (f.d.p.). Esta função verifica:
f X (x) ≥ 0
+∞
∫f
X
( x ).dx = 1
−∞
A f.d. da v.a. contínua pode exprimir-se em função da
correspondente f.d.p.:
x
FX ( x ) =
∫ f X (u)du
−∞
Média ou Valor esperado da v.a. X
+∞
E(X) = µ X = ∫ x.f X ( x )dx
-∞
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
43/68
Considerando uma v.a.Y, função da v.a. X – Y=ν(X) –
tem-se que E(Y)=E(ν(X)), pelo que,
+∞
E(Y) = ∫ ν( x ).f X ( x )dx
−∞
A variância e o desvio padrão definem-se, tal como
para as v.a. discretas, em função de E(X).
Percentil de ordem k (0 < k < 1) da v.a. X
τk é o valor de X que verifica F(τk )=k
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
44/68
3.8 Par aleatório contínuo
Um par aleatório (X,Y) diz-se contínuo quando tem
contradomínio –D- infinito, não numerável.
Função densidade de probabilidade conjunta de (X,Y)
P(X∈[x, x+dx[, Y∈[y, y+dy[)=fX,Y(x,y)dxdy
A fX,Y(x,y) verifica:
f X , Y ( x , y) ≥ 0
+ ∞+ ∞
∫ ∫f
X ,Y
( x , y)dxdy = 1
− ∞− ∞
A f.d. do par contínuo pode exprimir-se em função da
correspondente f.d.p.:
x y
FX ,Y ( x , y) =
∫ ∫f
X ,Y
( u , v)dudv
− ∞− ∞
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
45/68
Funções densidade de probabilidade marginais
+∞
f X ( x ) = ∫ f X ,Y ( x , v)dv
−∞
+∞
f Y ( y) = ∫ f X ,Y ( u , y)du
−∞
Independência de duas v.a. X e Y
∀x, y fX,Y (x,y)= fX,(x)fY(y)
Entre duas variáveis independentes não há qualquer
tipo de associação.
Covariância de duas v.a. X e Y
A medida de covariância – Cov(X,Y) - mede a
existência de associação linear entre X e Y. Se a
covariância for nula não há associação linear.
Cov(X,Y)=E(XY)-E(X)E(Y), em que
+∞+∞
E ( X, Y ) =
∫ ∫ xyf
X ,Y
( x , y)dxdy
− ∞−∞
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
46/68
3.9 Algumas distribuições de v.a. contínuas
Distribuição Uniforme: X ∼ U[a,b]
1 (b − a ), x ∈(a , b )
f (x) = 
0, contrário
E(X) = (a+b)/2 e V(X) = (b-a)2/12
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
47/68
Distribuição Normal: X ∼ N(µ,σ)
f (x) =
1
2πσ 2
e
1  x −µ 
− 

2 σ 
2
em que
x ∈ (-∞, +∞), µ ∈ (-∞, +∞) e σ > 0
E(X) = µ e V(X) = σ2
Transformação de v.a. X ∼ N(µ,σ)
Se V = a + b X e X ∼ N(µ,σ) então
V ∼ N (a+ bµ, √(b2σ2))
Em particular: Z=(X - µ)/σ ⇒ Z ∼ N(0,1)
Nota: É habitual, no caso da distribuição normal
padronizada - N(0,1) - designar a fdp f(x) por φ e a fd
F(x) por Φ.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
48/68
Aditividade da distribuição Normal
Sejam Xk (k=1...K) variáveis independentes e
Xk ∼ N(µk,σk)
Então,
ΣXk ∼ N(Σµk,√ Σσ2k)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
49/68
Distribuição Qui-quadrado: X ~ χ2(n)
f ( x) =
e
−
x n
−1
2x2
n
n
2 2 Γ( )
2
em que n > 0, x > 0 e
+∞
Γ(n ) = ∫ e − x x n −1dx
0
(n designa-se por número de graus de liberdade)
E(X)= n e V(X)=2n
Aditividade da distribuição Qui-Quadrado
Sejam Xk (k=1...K) variáveis independentes e
2
χ
Xk ∼ ( n k )
2
χ
Então, ΣXk ∼ (Σn k )
Transformação de v.a. X ∼ N(µ,σ)
Se a v.a. X ~ N(0,1) então X2 ~ χ2(1)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
50/68
Distribuição t-student: X ~ t(n)
n +1
)
2 − n+1
2 (1 + x ) 2
n
n
nπΓ( )
2
Γ(
f (x) =
x∈R
(n designa-se por número de graus de liberdade)
E(X) = 0 (para n > 1) e V(X) = n/(n-2) (para n > 2)
Nota: Quando n→ ∞ a f.d.p. da t-student tende para a
f.d.p. da N(0,1)
Transformação de v.a. X ~ N(0,1) e Y ∼ χ2(n)
Se a v.a. X ~ N(0,1) e Y ∼ χ2(n) então
X
Y ~ t(n)
n
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
51/68
Distribuição F-Snedcor: X ~ F(m,n)
n+m
m/2
)
( m−2) / 2
m
x


2
f (x) =
 
m
n  n   m  ( m+ n ) / 2
Γ ( )Γ ( )
1 + x 
2
2
n 

Γ(
em que n,m > 0, x > 0 e
2 n 2 ( m + n − 2)
E(X)= n/(n-2) e V(X)= m(n − 2) 2 (n − 4) se n>4
Transformação de v.a. X ∼ F(m,n)
Se X ~ F(m,n) então 1/X ~ F(n,m)
Nota: Em consequência, o percentil de ordem k de
uma variável com distribuição F(m,n) é igual ao
percentil de ordem 1-k de uma variável com
distribuição F(n,m).
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
52/68
Transformação de v.a. X ∼ χ2(m) e Y ∼ χ2(n)
X
Se X ∼ χ
2
(m)
eY∼χ
2
(n)
então Y
m
n
~ F(m,n)
Transformação de v.a. X ∼ t(n)
Se X ~ t(n) então X2 ~ F(1,n)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
53/68
4 Amostragem e Distribuições
Amostrais
4.1 Qualidades de uma Amostra
Uma Amostra deve ser
− Adequada
− Representativa
A dimensão da Amostra (n) está, em geral, directamente
relacionado com as qualidades da amostra.
Erros na Amostra:
− Erros de amostragem
− Outros erros na recolha de dados (ex: na
condução de inquérito ou no processamento dos
dados)
4.2 Tipos de Amostragem
Amostragem Aleatória (ou Probabilística ou Casual)
permite determinar a probabilidade de inclusão de
cada elemento na amostra
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
54/68
Simples
Sistemática
Estratificada
Por grupos
Por áreas
Multi-fásica
…
Amostragem Não Aleatória
Por conveniência
Segundo juízo
Por quotas
....
4.3 Amostra aleatória
Xk (k=1...n) v.a. independentes e idênticamente
distribuídas (i.i.d.), todas com a mesma distribuição da
população X a que se referem, constituem uma amostra
aleatória, ou casual, dessa população.
Nota: A amostragem aleatória corresponde a extracções
com reposição, a menos que se considere a população muito
grande quando comparada com a dimensão da amostra; caso
contrário não se verificaria Xk i.i.d. i.e.
f X1X 2 ...X n ( x x , x 2 ..., x n ) = f X 1 ( x 1 )f X 2 ( x 2 )...f X n ( x n ) e
f X 1 ( x ) = f X 2 ( x ) = ... = f X n ( x )
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
55/68
4.4 Estatísticas e Parâmetros das
Distribuições Teóricas
Uma Estatística é uma v.a. que é função de uma
amostra aleatória (X1,...,Xn) e que não envolve
qualquer parâmetro desconhecido.
As Estatísticas têm um particular interesse para o
estudo da Estatística Indutiva que se dedica a procurar
transpôr resultados para a população X (inferir),
partindo de características amostrais. Em particular,
estas características deverão permitir fazer inferência
sobre parâmetros desconhecidos, associados à
distribuição da população X.
Note-se que algumas Estatísticas são especialmente
usadas para estimar ou para validar valores de certos
parâmetros, como se apresenta no quadro seguinte. No
entanto, só a partir do conhecimento da distribuição
das Estatísticas amostrais (distribuições ditas
amostrais ou por amostragem), se pode concluir sobre
o bom comportamento de uma estatística na população
das amostras que justifica a sua escolha para a
estimação de um certo parâmetro.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
Média
56/68
Na Amostra/
Na
População/ Estatísticas
Parâmetros
n
E[X]
∑ Xi
X=
Variância
i =1
V[X]
n
S2 =
Desvio Padrão
√V[X]
n
2
(
X
−
X
)
∑ i
i =1
n
S
Analisar o bom comportamento de uma estatística na
população das amostras é precisamente o que se
pretende ao apresentar os resultados seguintes.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
57/68
4.5 Lei dos grandes números
Considerando uma sucessão de v.a. i.i.d. { Xk}, com
média E[Xk]=µ e variância V[Xk]= σ2 (e
correspondente sucessão de f.d. {FXk(x)}, e
n
Sn = ∑ X k
k =1
tem-se que Sn/n converge em probabilidade para µ, i.e.
 Sn

lim P
− µ < ε = 1
n → +∞  n


Esta lei deriva-se facilmente a partir da desigualdade
de Chebyshev, referida a uma v.a. X com E[X]=µ e
variância finita V[X]= σ2:
σ2
P[ X − µ ≥ ε ] ≤ 2
ε
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
58/68
4.6 Teorema do limite central
Considerando uma sucessão de v.a. i.i.d. { Xk}, com média
E[Xk]=µ e variância (finita) V[Xk]= σ2, tem-se
S n − nµ .
σ n ~ N(0, 1) em que
n
Sn = ∑ X k
k =1
ou
X −µ
.
σ / n ~ N(0, 1)
.
Nota 1: ~ assinala a convergência para a distribuição
normal i.e.
 S n − nµ

lim P
≤ x  = Φ (x )
n →∞  σ n


Nota 2: Note-se que (X1,…Xn) assim definidos constituem
uma amostra aleatória
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
59/68
4.7 Distribuições amostrais
Os resultados seguintes referem-se à amostragem
aleatória de populações infinitas. A este propósito
convém notar que se a população, apesar de finita, fôr
comparada com a amostra, o erro cometido ao
considerá-la infinita pode ser desprezível.
Amostragem de Populações Normais
X ∼ N(µX,σX)
X1…Xn, resultantes de amostragem aleatória simples
(Xi iid). Se Xi ∼ N(µ,σ) então
X −µ
σ / n ~ N(0,1)
atendendo à propriedade da aditividade da Normal.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
60/68
Amostragem de populações não normais
A determinação da distribuição da soma (ou da média)
referida a populações não normais faz-se mediante
recurso ao Teorema do Limite Central.
Nos casos de aproximação de distribuições discretas à
distribuição (contínua) Normal é conveniente proceder a
uma “correcção de continuidade” representando um inteiro
k pelo intervalo (k-0,5;k+0,5). Sendo assim considera-se:
P(X=k) ≈ P(k-0,5 ≤ X ≤ k+0,5)
P(a ≤ X ≤ b) ≈ P(a-0,5 ≤ X ≤ b+0,5)
P(a < X < b) ≈ P(a+0,5 ≤ X ≤ b-0,5)
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
61/68
População Bernoulli
X ~ B(1,p)
X1…Xn, amostra aleatória (i. e i.d. com X)
S n − np
.
np(1 − p) ~ N(0,1)
atendendo à propriedade da aditividade da Bernoulli
(Binomial B(1,p)).
Notas:
− Neste caso Sn é uma variável aleatória B(n,p)
− n >20, np > 5 e n(1-p) > 5 é uma regra empírica para
considerar aceitável uma aproximação de Sn à Normal2
Pode ser aplicada para uma aproximação da Binomial à Normal,
eventualmente facilitando cálculos.
2
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
62/68
População Poisson
X ~ P(λ)
X1…Xn, amostra aleatória (i. e i.d. com X)
S n − nλ
nλ
.
~ N(0,1)
atendendo à propriedade da aditividade da Poisson.
Notas:
− Neste caso Sn é uma variável aleatória P(nλ)
− Uma regra empírica para considerar aceitável uma
aproximação de Sn à Normal3 é ter nλ > 20
3
Pode ser aplicada para uma aproximação à Normal de uma Poisson com
parâmetro >20, eventualmente facilitando cálculos.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
63/68
População Qui-Quadrado
Se X ~ χ2(1)
e X1…Xn, amostra aleatória (i. e i.d. com X)
então
Sn − n .
2n ~ N(0,1)
atendendo à propriedade da aditividade do QuiQuadrado.
Notas:
− Neste caso Sn é uma variável aleatória χ2(n)
− n >20 é uma regra empírica para considerar aceitável uma
aproximação à Normal4
Pode ser aplicada para uma aproximação à Normal de uma Qui-Quadrado
com parâmetro >20, eventualmente facilitando cálculos.
4
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
64/68
Nota Final
Na disciplina de Estatística I foi possível abordar:
− A Estatística Descritiva que se detém sobre os
valores observados de uma amostra
− A Teoria das Probabilidades, em particular o
conceito de Variável Aleatória e algumas das suas
possíveis Distribuições teóricas.
− As Distribuições (de Estatísticas) amostrais.
Na sequência do estudo realizado acerca da
amostragem e distribuições amostrais será possível,
futuramente, apresentar o processo de Inferência
Estatística ou Estatística Indutiva, matéria de
Estatística II.
Pressupondo, então, a constituição de uma amostra
aleatória, a Inferência Estatística permitirá, a partir de
resultados observados na amostra e da consideração de
modelos distribucionais, quantificar a incerteza que se
associa à transposição de resultados para a população
em geral.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
65/68
Por fim note-se que nem sempre é possível derivar
teoricamente certas distribuições amostrais (por
exemplo, no caso de amostras pequenas e/ou de
estatísticas que sejam funções complexas das v.a.
consideradas). Neste caso, a geração de amostras
recorrendo à técnica de Monte Carlo permite derivar
distribuições amostrais empíricas que podem adicionar
algum conhecimento àquele que se deriva,
simplesmente, de uma amostra observada.
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
66/68
Índice
INTRODUÇÃO .......................................................................................................................................... 2
OBJECTIVOS PRINCIPAIS DA ESTATÍSTICA...................................................................................................... 2
NOTA SOBRE O SPSS..................................................................................................................................... 2
1
ESTATÍSTICA DESCRITIVA ............................................................................................................ 3
1.1 CONCEITOS BÁSICOS .......................................................................................................................... 3
AMOSTRA OBSERVADA ................................................................................................................................. 4
1.2 MEDIDAS DE LOCALIZAÇÃO............................................................................................................... 6
DADOS NOMINAIS ......................................................................................................................................... 6
DADOS ORDINAIS .......................................................................................................................................... 6
DADOS INTERVALARES E DE RAZÃO .............................................................................................................. 7
1.3 MEDIDAS DE DISPERSÃO ..................................................................................................................... 7
DADOS ORDINAIS .......................................................................................................................................... 7
DADOS INTERVALARES E DE RAZÃO .............................................................................................................. 8
1.4 ALGUMAS REPRESENTAÇÕES TABULARES E GRÁFICAS ..................................................................... 9
DADOS NOMINAIS E ORDINAIS ....................................................................................................................... 9
DADOS INTERVALARES E DE RAZÃO ............................................................................................................ 11
1.5 MAIS SOBRE MEDIDAS DESCRITIVAS ............................................................................................... 13
AMOSTRA COM OBSERVAÇÕES REPETIDAS .................................................................................................. 13
AMOSTRA COM OBSERVAÇÕES CLASSIFICADAS ........................................................................................... 14
TRANSFORMAÇÕES DE ORIGEM E ESCALA ................................................................................................... 15
1.6 ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS ............................................................................................. 16
REPRESENTAÇÕES GRÁFICAS E TABULARES................................................................................................. 16
MEDIDAS DE ASSOCIAÇÃO .......................................................................................................................... 20
1.7 REGRESSÃO LINEAR SIMPLES .......................................................................................................... 22
2
TEORIA DAS PROBABILIDADES.................................................................................................. 24
2.1 EXPERIÊNCIA ALEATÓRIA E ACONTECIMENTOS .............................................................................. 24
2.2 CONCEITO DE PROBABILIDADE ........................................................................................................ 25
2.3 TEOREMAS FUNDAMENTAIS ............................................................................................................. 26
PROBABILIDADES DE ACONTECIMENTOS ..................................................................................................... 26
PROBABILIDADE CONDICIONADA ................................................................................................................ 27
PROBABILIDADES COMPOSTAS .................................................................................................................... 27
INDEPENDÊNCIA DE ACONTECIMENTOS ....................................................................................................... 27
PROBABILIDADE TOTAL .............................................................................................................................. 29
TEOREMA DE BAYES ................................................................................................................................... 29
3
3.1
3.2
VARIÁVEIS ALEATÓRIAS ............................................................................................................. 30
CONCEITO DE VARIÁVEL ALEATÓRIA (V.A.) .................................................................................... 30
FUNÇÃO DE DISTRIBUIÇÃO DE V.A. X (F.D.)...................................................................................... 30
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
67/68
3.3 FUNÇÃO DE DISTRIBUIÇÃO DE VECTOR ALEATÓRIO BIDIMENSIONAL OU PAR ALEATÓRIO (X,Y)... 32
3.4 VARIÁVEIS ALEATÓRIAS DISCRETAS ................................................................................................ 33
FUNÇÃO (MASSA) DE PROBABILIDADE (F.P.) DE V.A. X ................................................................................ 33
MÉDIA OU VALOR ESPERADO DA V.A. X...................................................................................................... 34
VARIÂNCIA DA V.A. X................................................................................................................................. 34
DESVIO PADRÃO DA V.A. X ......................................................................................................................... 34
PERCENTIL DE ORDEM K (0 < K < 1) DA V.A. X............................................................................................. 34
3.5 PAR ALEATÓRIO DISCRETO .............................................................................................................. 35
FUNÇÃO (MASSA) DE PROBABILIDADE CONJUNTA DE (X,Y)......................................................................... 35
FUNÇÕES DE PROBABILIDADE MARGINAL .................................................................................................... 36
INDEPENDÊNCIA DE DUAS V.A. X E Y .......................................................................................................... 36
COVARIÂNCIA DE DUAS V.A. X E Y ............................................................................................................. 36
3.6 ALGUMAS DISTRIBUIÇÕES DE V.A. DISCRETAS ................................................................................. 37
DISTRIBUIÇÃO UNIFORME (DISCRETA): X ∼ U(1/N) .................................................................................... 37
DISTRIBUIÇÃO BERNOULLI: X ∼ B(1,P) ....................................................................................................... 38
DISTRIBUIÇÃO BINOMIAL: X ∼ B(N,P) ......................................................................................................... 39
DISTRIBUIÇÃO DE POISSON: X ∼ P(λ) .......................................................................................................... 40
3.7 VARIÁVEIS ALEATÓRIAS CONTÍNUAS ............................................................................................... 42
FUNÇÃO DENSIDADE DE PROBABILIDADE (F.D.P.) DE V.A. X ........................................................................ 42
MÉDIA OU VALOR ESPERADO DA V.A. X...................................................................................................... 42
PERCENTIL DE ORDEM K (0 < K < 1) DA V.A. X............................................................................................. 43
3.8 PAR ALEATÓRIO CONTÍNUO ............................................................................................................. 44
FUNÇÃO DENSIDADE DE PROBABILIDADE CONJUNTA DE (X,Y) .................................................................... 44
FUNÇÕES DENSIDADE DE PROBABILIDADE MARGINAIS ................................................................................ 45
INDEPENDÊNCIA DE DUAS V.A. X E Y .......................................................................................................... 45
COVARIÂNCIA DE DUAS V.A. X E Y ............................................................................................................. 45
3.9 ALGUMAS DISTRIBUIÇÕES DE V.A. CONTÍNUAS ................................................................................ 46
DISTRIBUIÇÃO UNIFORME: X ∼ U[A,B]........................................................................................................ 46
DISTRIBUIÇÃO NORMAL: X ∼ N(µ,σ) .......................................................................................................... 47
DISTRIBUIÇÃO QUI-QUADRADO: X ~ χ2(N) .................................................................................................... 49
DISTRIBUIÇÃO T-STUDENT: X ~ T(N) ............................................................................................................. 50
DISTRIBUIÇÃO F-SNEDCOR: X ~ F(M,N).......................................................................................................... 51
4
AMOSTRAGEM E DISTRIBUIÇÕES AMOSTRAIS ..................................................................... 53
4.1 QUALIDADES DE UMA AMOSTRA ...................................................................................................... 53
4.2 TIPOS DE AMOSTRAGEM .................................................................................................................. 53
AMOSTRAGEM ALEATÓRIA (OU PROBABILÍSTICA OU CASUAL) ................................................................... 53
AMOSTRAGEM NÃO ALEATÓRIA ................................................................................................................. 54
4.3 AMOSTRA ALEATÓRIA ...................................................................................................................... 54
4.4 ESTATÍSTICAS E PARÂMETROS DAS DISTRIBUIÇÕES TEÓRICAS ...................................................... 55
4.5 LEI DOS GRANDES NÚMEROS ............................................................................................................ 57
4.6 TEOREMA DO LIMITE CENTRAL ....................................................................................................... 58
4.7 DISTRIBUIÇÕES AMOSTRAIS ............................................................................................................. 59
AMOSTRAGEM DE POPULAÇÕES NORMAIS .................................................................................................. 59
AMOSTRAGEM DE POPULAÇÕES NÃO NORMAIS ........................................................................................... 60
NOTA FINAL .......................................................................................................................................... 64
Tópicos de Estatística I
Margarida Cardoso
ISCTE 2009-10
Tópicos de Estatística I
68/68
Margarida Cardoso
Download