ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11 EXERCÍCIOS PRÁTICOS - CADERNO 6 Análise Discriminante 6. ANÁLISE DISCRIMINANTE 6.1. Considere uma variável X com distribuição normal univariada com variância 4. Se X for da população A a sua média é 10. Se X for da população B a sua média é 14. Assuma que são iguais as probabilidades a priori para os acontecimentos A = "X pertence a A" e B = "X pertence a B". Vai construir uma regra de classificação para X por forma que se X m o considera pertencente à população A e pertencente à população B se for X > m. Designando por RA e RB estes dois resultados da sua regra de classificação, construa uma tabela em que para diferentes valores de m calcula as probabilidades de uma má classificação, P(R A|B), P(RB|A), P(RA B), P(RB A), P(Erro) e ECM (Custo esperado de má classificação). Será uma tabela do tipo: m P(RA|B) P(RB|A) P(RA B) P(RB A) P(Erro) ECM 10 … 14 a) Na hipótese de serem iguais os custos de má classificação de X, c (A|B) e c(B|A), por exemplo iguais a 10. Esperava este resultado? b) Na hipótese de serem iguais as probabilidades a priori de pertença a uma das populações, mas de ser superior o custo de classificar um elemento de B como sendo deA , por exemplo assumindo c(A|B) = 15 e c(B|A) = 5. Esperava este resultado ? c) E se forem iguais os custos dos dois tipos de erro mas for P(A) = 0.25 e P(B) = 0.75 ? 16-05-11 6.2 6.2 Admita 2 grupos de objectos para os quais se recolheram observações para as variáveis X 1 e X2 : 3 7 6 9 Grupo A: 2 4 Grupo B: 2 7 4 7 4 8 a) Represente graficamente estes objectos e procure estabelecer, também graficamente, uma função discriminante linear. b) Calcule a função discriminante linear que minimiza o valor esperado do erro de uma má classificação no pressuposto de que os custos de erros de uma má classificação são iguais e de as probabilidades a priori de um objecto de pertencer a um dos grupos são iguais. c) E se o custo de classificar um objecto como sendo do grupo B quando ele é do grupo A for o dobro do de classificar um objecto como sendo do grupo A quando ele é do grupo B? d) E se a probabilidade de um objecto ser do grupo A for o triplo da probabilidade de um objecto ser do grupo B? e) Classifique o objecto [ 2 7 ] na hipótese de b). 6.3. Considere que numa recolha de 23 observações das variáveis X 1 e X2 para outros tantos indivíduos que manifestam (o que aconteceu em 12 casos), ou não o atributo A. Numa tentativa de usar estas duas variáveis como discriminantes, calcularam-se as médias amostrais para cada um dos grupos e a variabilidade (para o conjunto dos dois grupos), obtendo-se: 2 XA 1 1 XA 1 4.8 1.1 S 1.1 7.3 2 a) Teste a possibilidade dos dois grupos terem diferentes vectores de médias usando o T de Hotteling (com =0.05). b) Construa a função discriminante linear de Fisher e repita o teste com os valores médios (para cada grupo) desta função. c) Qual a sua previsão quanto à possibilidade do indivíduo [ 0 1 ] ter ou não o atributo A? 16-05-11 6.3 6.4. Recolheram-se 3 observações para as variáveis X 1 e X2 de indivíduos que se considerou pertencerem ao grupo A e outras tantas e das mesmas variáveis de indivíduos do grupo B: 2 12 Indivíduos que mostraram ser do grupo A: 4 10 3 8 3 XA 10 5 7 Indivíduos que mostraram ser do grupo B: 3 9 4 5 4 XB 7 1 1 ˆ A 1 4 1 1 ˆ B 1 4 a) Calcule a função discriminante linear de Fisher para a informação disponível, teste a hipótese de igualdade de médias dos dois grupos e calcule a taxa aparente de erro (APER). b) Qual a sua estimativa para a taxa efectiva de erro (AER) com base no método de "holdout" de Lachenbruch? Compare com a APER. 6.5. Suponha as populações A e B caracterizadas por distribuições normais multivariadas com: 10 População A: 15 A 18 12 A 12 32 10 População B: 25 B 20 7 B 7 5 Assuma que as probabilidades a priori para cada uma das populações são iguais e que quer discriminar por forma a minimizar a probabilidade total de erro (TPM). a) Calcule a função discriminante e o respectivo valor para os pontos [10 , 15] , [12, 17] , …, [30, 35]. Admita agora que conhece os custos associados aos erros de classificação que são c(A|B) = 73.89 e c(B|A) = 10 pelo que o seu objectivo passa a ser a minimização do valor esperado do custo de erro. b) Reveja os cálculos da questão a). c) Represente, num gráfico para X1 e X2, as médias de cada uma das populações, as regiões R A e RB e os 11 pontos classificados. 16-05-11 6.4 6.6. O responsável pelas admissões a um programa de MBA de uma Business School americana quer construir um índice a partir da nota média de graduação (GPA - Graduate grade point average) e da nota obtida pelo candidato no GMAT (Graduate management aptitude test) com o objectivo de o ajudar decidir da admissão de cada candidato. Dos 85 candidatos deste ano, 31 foram admitidos (grupo A), 28 foram rejeitados (grupo B) e os restantes 26 aguardam uma decisão (grupo C). Designando por X1 a GPA e por X2 a nota do GMAT, obtiveram-se as seguintes estimativas: 3.40 XA 561.23 2.48 XB 447.07 2.99 XC 446.23 e 2.0188 .0361 S 2.0188 3655.9011 Assuma que as probabilidades a priori e as matrizes de variâncias covariâncias para cada um dos grupos são iguais e ainda que são iguais os custos dos erros de classificação. a) Calcule as variáveis discriminantes que lhe permitem classificar um candidato num dos três grupos e utilize-as para classificar um candidato com as notas X0' = [3.21 497]. b) A partir dos resultados anteriores divida o quadrante X1, X2 em três regiões consoante as decisões de afectação de um indivíduo a cada grupo e coloque nele X0'. X2 (GMAT) 700 600 500 GRUPO 400 Aguarda decisão Não admitido 300 2.0 Admitido 2.5 3.0 3.5 4.0 X1 (GPA) 16-05-11 6.5