CADERNO 6 Análise Discriminante

Propaganda
ESTATÍSTICA MULTIVARIADA
2º SEMESTRE 2010 / 11
EXERCÍCIOS PRÁTICOS - CADERNO 6
Análise Discriminante
6. ANÁLISE DISCRIMINANTE
6.1.
Considere uma variável X com distribuição normal univariada com variância 4. Se X for da população A a
sua média é 10. Se X for da população B a sua média é 14. Assuma que são iguais as probabilidades a
priori para os acontecimentos A = "X pertence a A" e B = "X pertence a B".
Vai construir uma regra de classificação para X por forma que se X  m o considera pertencente à
população A e pertencente à população B se for X > m. Designando por RA e RB estes dois resultados da
sua regra de classificação, construa uma tabela em que para diferentes valores de m calcula as
probabilidades de uma má classificação, P(R A|B), P(RB|A), P(RA  B), P(RB  A), P(Erro) e ECM (Custo
esperado de má classificação). Será uma tabela do tipo:
m
P(RA|B)
P(RB|A)
P(RA  B)
P(RB  A)
P(Erro)
ECM
10
…
14
a) Na hipótese de serem iguais os custos de má classificação de X, c (A|B) e c(B|A), por exemplo iguais a 10.
Esperava este resultado?
b) Na hipótese de serem iguais as probabilidades a priori de pertença a uma das populações, mas de ser
superior o custo de classificar um elemento de B como sendo deA , por exemplo assumindo c(A|B) = 15
e c(B|A) = 5. Esperava este resultado ?
c) E se forem iguais os custos dos dois tipos de erro mas for P(A) = 0.25 e P(B) = 0.75 ?
16-05-11
6.2
6.2
Admita 2 grupos de objectos para os quais se recolheram observações para as variáveis X 1 e X2 :
3 7 
6 9 
Grupo A: 2 4


Grupo B: 2 7


4 7 
4 8
a) Represente graficamente estes objectos e procure estabelecer, também graficamente, uma função
discriminante linear.
b) Calcule a função discriminante linear que minimiza o valor esperado do erro de uma má classificação no
pressuposto de que os custos de erros de uma má classificação são iguais e de as probabilidades a
priori de um objecto de pertencer a um dos grupos são iguais.
c) E se o custo de classificar um objecto como sendo do grupo B quando ele é do grupo A for o dobro do
de classificar um objecto como sendo do grupo A quando ele é do grupo B?
d) E se a probabilidade de um objecto ser do grupo A for o triplo da probabilidade de um objecto ser do
grupo B?
e) Classifique o objecto [ 2 7 ] na hipótese de b).
6.3.
Considere que numa recolha de 23 observações das variáveis X 1 e X2 para outros tantos indivíduos que
manifestam (o que aconteceu em 12 casos), ou não o atributo A. Numa tentativa de usar estas duas
variáveis como discriminantes, calcularam-se as médias amostrais para cada um dos grupos e a
variabilidade (para o conjunto dos dois grupos), obtendo-se:
2 
XA   
1
 1
XA   
 1
 4.8  1.1
S

 1.1 7.3 
2
a) Teste a possibilidade dos dois grupos terem diferentes vectores de médias usando o T de Hotteling
(com =0.05).
b) Construa a função discriminante linear de Fisher e repita o teste com os valores médios (para cada
grupo) desta função.
c) Qual a sua previsão quanto à possibilidade do indivíduo [ 0 1 ] ter ou não o atributo A?
16-05-11
6.3
6.4.
Recolheram-se 3 observações para as variáveis X 1 e X2 de indivíduos que se considerou pertencerem ao
grupo A e outras tantas e das mesmas variáveis de indivíduos do grupo B:
2 12
Indivíduos que mostraram ser do grupo A: 4 10


3 8 
3
XA   
10
5 7 
Indivíduos que mostraram ser do grupo B: 3 9


4 5
4
XB   
7 
 1  1
ˆ A  

 1 4 
 1  1
ˆ B  

 1 4 
a) Calcule a função discriminante linear de Fisher para a informação disponível, teste a hipótese de
igualdade de médias dos dois grupos e calcule a taxa aparente de erro (APER).
b) Qual a sua estimativa para a taxa efectiva de erro (AER) com base no método de "holdout" de
Lachenbruch? Compare com a APER.
6.5.
Suponha as populações A e B caracterizadas por distribuições normais multivariadas com:
10
População A:    
15
A
 
18 12
A  

12 32
10 
População B:  
25
B
 
 20  7
B  

 7 5 
Assuma que as probabilidades a priori para cada uma das populações são iguais e que quer discriminar por
forma a minimizar a probabilidade total de erro (TPM).
a) Calcule a função discriminante e o respectivo valor para os pontos [10 , 15] , [12, 17] , …, [30, 35].
Admita agora que conhece os custos associados aos erros de classificação que são c(A|B) = 73.89 e
c(B|A) = 10 pelo que o seu objectivo passa a ser a minimização do valor esperado do custo de erro.
b) Reveja os cálculos da questão a).
c) Represente, num gráfico para X1 e X2, as médias de cada uma das populações, as regiões R A e RB e os
11 pontos classificados.
16-05-11
6.4
6.6.
O responsável pelas admissões a um programa de MBA de uma Business School americana quer construir
um índice a partir da nota média de graduação (GPA - Graduate grade point average) e da nota obtida pelo
candidato no GMAT (Graduate management aptitude test) com o objectivo de o ajudar decidir da admissão
de cada candidato.
Dos 85 candidatos deste ano, 31 foram admitidos (grupo A), 28 foram rejeitados (grupo B) e os restantes 26
aguardam uma decisão (grupo C).
Designando por X1 a GPA e por X2 a nota do GMAT, obtiveram-se as seguintes estimativas:
 3.40 
XA  

561.23
 2.48 
XB  

447.07
 2.99 
XC  

446.23
e
 2.0188 
 .0361
S

 2.0188 3655.9011
Assuma que as probabilidades a priori e as matrizes de variâncias covariâncias para cada um dos grupos
são iguais e ainda que são iguais os custos dos erros de classificação.
a) Calcule as variáveis discriminantes que lhe permitem classificar um candidato num dos três grupos e
utilize-as para classificar um candidato com as notas X0' = [3.21 497].
b) A partir dos resultados anteriores divida o quadrante X1, X2 em três regiões consoante as decisões de
afectação de um indivíduo a cada grupo e coloque nele X0'.
X2 (GMAT)
700
600
500
GRUPO
400
Aguarda decisão
Não admitido
300
2.0
Admitido
2.5
3.0
3.5
4.0
X1 (GPA)
16-05-11
6.5
Download