APLICAÇÕES DE ALGUMAS TÉCNICAS MULTIVARIADAS (Componentes Principais, Variáveis Canônicas e Correlações Canônicas) ÍNDICE Página 1. INTRODUCÃO.......................................................................................................... 2. COMPONENTES PRINCIPAIS................................................................................ 2.1. Introdução............................................................................................................ 2.2. Obtenção dos Componentes Principais ............................................................... 2.3. Importância Relativa de um Componente Principal............................................ 2.4. Correlação Entre o Componente Yk e a Variável Xi ........................................... APLICAÇÃO 1 .......................................................................................................... 2.5. Componentes Principais Obtidos de Variáveis Padronizadas ............................. APLICAÇÃO 2 .......................................................................................................... 2.6. Sumarização da Variação Amostral por Componetes Principais ........................ 2.7. Descarte de Variáveis .......................................................................................... 2.8. Análises de Componentes Principais e Análise de Agrupamento....................... APLICAÇÃO 3 .......................................................................................................... 3. VARIÁVEIS CANÔNICAS ...................................................................................... 3.1. Introdução............................................................................................................ 3.2. Obtenção das Variáveis Canônicas...................................................................... 3.3. Importância Relativa de uma Variável Canônica ................................................ 3.4. Descarte de Variáveis .......................................................................................... 3.5. Análise de Variáveis Canônica e Análise de Agrupamento ................................ APLICAÇÃO 4 .......................................................................................................... 4. CORRELAÇÕES CANÔNICAS ............................................................................... 4.1. Introdução............................................................................................................ 4.2. Obtenção das Correlações Canônicas e dos Pares Canônicos ............................. APLICAÇÃO 5 .......................................................................................................... 4.3. Algumas Aplicações na Área Florestal ............................................................... 5. ANÁLISE DE VARIÂNCIA MULTIVARIADA ..................................................... 5.2. Considerações sobre a MANOVA ...................................................................... 5.2.1. Desenvolvimento Matemático .......................................................................... APLICAÇÃO 1 .......................................................................................................... 5.3. Procedimentos para Comparações Múltiplas ...................................................... 6. REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................... 1 1 1 2 4 5 6 9 11 14 14 15 16 21 21 22 25 25 26 27 31 31 32 35 36 38 39 40 47 51 55 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza 1. INTRODUCÃO A análise estatística multivariada ou simplesmente análise multivariada é o ramo da estatística direcionado ao estudo das amostras e distribuição multidimensionais, ou seja, são métodos estatísticos apropriados para estudos em que várias variáveis são consideradas simultaneamente. No entanto, apesar de as técnicas multivariadas terem eficiência comprovada e proporcionarem enriquecimento das informações extraídas de dados experimentais, é necessária para seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida técnica ficou limitada no seu uso e do repasse entre os pesquisadores das diversas áreas da ciência, no Brasil. Entretanto, com a incrementação dos recursos da informática nos últimos anos, a técnica atraiu a atenção dos pesquisadores das diversas áreas, tornando o seu emprego potencialmente grande e, conseqüentemente, o seu conhecimento indispensável. A análise multivariada compreende várias técnicas que, segundo KENDALL (1980), citado por CRUZ (1987), distinguem-se em: a) Técnicas de Avaliação da Interdependência: estuda as relações de um conjunto de variáveis entre si. - “Cluster Analysis” ou Análise de Agrupamento - Componentes Principais - Correlações Canônicas - Análise Fatorial - Escala b) Técnicas de Avaliação da Dependência: estuda a dependência de uma ou mais variáveis em relação às outras. - Regressão - Relação Funcional - Múltipla Contigência - Análise Discriminante Devido à complexidade e extensão do assunto, o presente trabalho teve como objetivo fazer uma abordagem sobre a utilização de algumas técnicas multivariadas na área florestal, tomando-se como base os seguintes estudos: Componentes Principais, Variáveis Canônicas e Correlações Canônicas. 2. COMPONENTES PRINCIPAIS 2.1. Introdução A análise de componentes principais é uma técnica multivariada, que segundo KENDAL (1950), é uma técnica de avaliação da interdependência, ou seja, estuda as relações de um conjunto de variáveis entre si. A técnica de componentes principais foi originalmente descrita por Karl Pearson, em 1901, em um artigo onde deu ênfase à sua utilização no ajustamento de um subespaço a uma nuvem de pontos. Posteriormente, a técnica foi consolidada por Hotelling em 1933 e 1936, para o propósito particular de analisar estruturas de correlações (MORRISON, 1976, MARDIA et al., 1979; MANLY, 1986; CRUZ, 1990). Entretanto, o uso da análise só foi 1 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza difundida após desenvolvimento de computadores eletrônicos e atualmente, devido a grande disponibilidade de recursos de computadores sofisticados e de software aplicados, a técnica tornou-se amplamente disponível e utilizada nas várias áreas da ciência. A técnica de componentes principais procura explicar a estrutura de variânciascovariâncias através de poucas combinações lineares das variáveis originais, com os objetivos de reduzir os dados, colocá-los numa forma mais adequada para análise, evidenciar as tendências e facilitar sua interpretação. Segundo LIBERATO (1995), a utilização da análise de componentes principais tem por finalidade proporcionar simplificação estrutural dos dados, de modo que a diversidade, influenciada a princípio por um conjunto p-dimensional (p = números de caracter considerados no estudo), possa ser avaliada por um complexo bi ou tridimensional de fácil interpretação geométrica. Ou ainda, a análise por componentes principais, segundo CRUZ (1994), consiste em transformar um conjunto original de variáveis em outro conjunto, de dimensões equivalentes, mas com propriedades importantes de grande interesse em certos estudos. Os princípios básicos desta técnica são descritos por vários autores, tais como MORRISON, 1976; MARDIA et al. (1979); KENDAL (1980); MANLY (1986);JOHNSON e WICHERN (1988); CRUZ e REGAZZI (1994); entre outros. Segundo estes autores, cada componente principal é uma combinação linear das variáveis originais, que são independentes entre si e estimadas com o propósito de reter, em ordem de estimação, o máximo da informação, em termos de variação total, contida nos dados originais. Assim, entre todos os componentes principais, o primeiro tem a maior variância, o segundo tem a segunda maior e assim sucessivamente. A grande importância do conhecimento da técnica dos componentes principais, segundo SOUZA (1988), reside no fato de ela constituir um procedimento básico do qual derivam vários outros métodos de análise de dados multivariados, como por exemplo, análise de agrupamento “cluster analysis”. Assim, segundo CRUZ (1990) o uso da técnica de componentes principais pode atender os seguintes propósitos: i) examinar as correlações entre caracteres estudados; ii) resumir um grande conjunto de caracteres em outro menor e de sentido biológico; iii)avaliar a importância de cada caracter e promover a eliminação daqueles que contribuem pouco , em termos de variação, no grupo de indivíduos avaliados; iv)construir índices que possibilitem o agrupamento de indivíduos; e v) permitir o agrupamento de indivíduos com o mais alto grau de similaridade, mediante exames visuais em dispersões gráficas no espaço bi ou tridimensional. 2.2. Obtenção dos Componentes Principais Algebricamente, componentes principais são combinações lineares particulares das p variáveis aleatórias X1, X2, ... , Xp. Geometricamente, estas combinações lineares representam a seleção de um novo sistema de coordenadas obtidas pela rotação do sistema original como X1, X2, ... , Xp como eixos. Os novos eixos representam as direções com variablidade máxima e fornece uma descrição mais simples e mais parcimoniosa da estrutura de covariâncias. Os componentes principais dependem somente da matriz de covariâncias (S) ou da matriz de correlação (R) de X1, X2, ..., Xp. Assim, a técnica de componentes principais caracteriza-se por trabalhar com a média amostral ou ser usada nas situações em que não há repetições de dados. O seu desenvolvimento não necessita de normalidade. No entanto, a análise de componentes derivada de populações normais multivariadas têm suas interpretações usuais em 2 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza termos de elipsóides de densidade constante (JOHNSON e WICHERN, 1988). Entretanto, embora a análise, formalmente não requeira a distribuição normal multivariada, ela é mais apropriada para variáveis quantitativas contínuas. Quando os dados são constituidos de contagem, razões, proporções ou percentagens, a transformação é recomendada para tornar sua distribuição mais apropriada, previamente à análise de componentes principais. Como exemplo, STAUFFER et al. (1985) recomenda a transformação de arco seno da raiz quadrada para dados provenientes de percentagem e os dados de contagem a transformação de raiz quadrada (PIMENTEL GOMES, 1984). Seja o vetor aleatório X’ = [X1, X2, ... , Xp] que tem a matriz de covariâncias (S) com auto- valores ( λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0) e considerando as seguintes combinações lineares: Y1 = 1’1X = 111 X1 + 121X2 + ... + 1P1XP Y2 = 1’2X = 112X1 + 122X2 + .... + 1P2XP . . . YP = 1’PX = 11PX1 + 12pX2 + ... + 1PPXP Sendo: Var (Yi) = 1’i S 1i i = 1, 2, ... , p Cov (Yi ,Yk) = 1’i S 1k i, k = 1, 2, .... , p Os componentes principais são combinações lineares não correlacionadas, cujas variâncias são tão grandes quanto possível. assim: a) O primeiro componente principal (Y1) é a combinação linear com variância máxima, isto é, é a combinação linear 1’1 X que maximiza Var (1’1X) sujeito a 1’111 = 1; b) O segundo componente principal (Y2) é a combinação linear 1’2X que maximiza Var (1’2X), sujeito a 1’212 e com Cov (1’1X, 1’2X) = 0; c) O i-ésimo componente principal (Yi) é a combinação linear 1’iX que maximiza Var (1’iX), sujeito a 1’i1i = 1 e, em todos os casos, a Cov (1’iX, 1’kX) = 0. Desta forma, verifica-se que entre todos os componentes principais, Y1 apresenta a maior variância, Y2 a segunda maior e, assim sucessivamente, e independente entre si. Assim, segundo CRUZ e REGAZZI (1994), o problema estatístico consiste fundamentalmente em estimar os coeficientes de ponderação dos caracteres em cada componente e a variância a eles associada. Sendo Y1 o primeiro componente principal, sua variância é dada por: Var (Y1) = 1’1 S 11 O que se deseja é obter estimativas para o vetor 11 de tal forma que a variância de Y1 seja a maior de todas. Para atingir este objetivo impõe-se a restrição 1’11= 1, a qual é introduzida na expressão Var (Y1) = 1’1 S 11 pelo multiplicador λ1 de Lagrante. Assim: W1 = 1’1 S 11 + λ1 (1 - 1’1 11) 3 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza A solução que maximiza Var (Y1) é obtida pela derivação de W1 em relação a 11, que é dada por: S - λ1 I a = 0 A solução deste sistema deve ser tal que 1 ≠ φ, assim é necessário que o determinante de (S - λ1I) seja mulo, para que o sistema se torne indeterminado e a solução possa ser escolhida entre aquelas que satisfaçam a condição 1’111 = 1. Sendo λ1 o valor que satisfaz S - λ1I = 0, então, por definição, λ1 é a raiz característica (ou autovalor) de S e 11, o vetor característico (autovetor) associado. Sendo o vetor 1’1 o escolhido para maximizar Var (Y1), tem-se que λ1 é o maior valor entre o conjunto de autovalores de S. A variância do segundo componente principal é dada por: Var (Y2) = 1’2 S 12. Para obtenção das estimativas do vetor 1’2, deve-se considerar as restrições 1’2 12 = 1 e 1’211 = 1’1 12 = 0, as quais são incorporadas na função de maximização por meio dos multiplicadores λ2 e θ de Lagrande. Assim, é estabelecido que: W2 = 1’2 S 12 + λ2 ( 1 - 1’212) + θ 1’2 11 A solução que maximizar Var (Y2), obtida pela derivação de W2 em relação ao 12, é dada por: (S - λ2I) 12 = φ em que λ2 é a segunda maior raiz característica de S e 12 o seu autovetor associado. As restrições consideradas neste segundo componente principal atendem aos seguintes propósitos: a) a primeira restrição é necessária para garantir a unicidade de 12; b) a segunda restrição garante que 11 e 12 sejam ortogonais. Os demais componentes principais são estimados de maneira análoga ao descrito para os dois primeiros. 2.3. Importância Relativa de um Componente Principal Baseando no fato de que: Var (Yi) = λi; Var (Y1) ≥ Var (Y2) ≥ ... ≥ V (Yp) ≥ 0 Cov (Yi, Yk) = 0, para i ≠ k p ∑ Var (Yi) = tr S i=1 4 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza ou seja, p p i=1 i=1 ∑ Var (Yi) = λ1 + λ2 + ... + λp = tr S = ∑ Var (Xi) = σ211 + σ222 + ... σ2pp Assim, a importância relativa de um componente principal (IRk) é avaliada pela percentagem da variância que ela explica, ou seja, a proporção da variação total explicada pela k-ésima componente principal é dada por: λk IRk= _____________________________ k = 1, 2, ... , p λ1 + λ2 + ... + λp Ou ainda, a proporção da variação total explicada pelos primeiros k componentes principais (PVk’s) é dada por: PVk’s = λ1 + λ2 + ... + λk __________________________ k = 1, 2, ..., p λ1 + λ2 + ... + λp Desta forma, verifica-se que a proporção da variação total explicada pelos primeiros componentes principais é uma medida da quantidade de informação retida pela redução de p para k dimensão. Em certos estudos é desejável que a variância acumulada nos dois primeiros componentes principais exceda 70-80%. Nesta condição, a distorção das coordenadas no gráfico de dispersão, cujos eixos são os componentes principais, será considerada aceitável e as inferências no estudo satisfatório (CRUZ e REGAZZI, 1994). 2.4. Correlação Entre o Componente Yk e a Variável Xi Se Y1 = 1’1X; Y2 = 1’2X; .... , Yp = 1’pX são os componentes principais obtidos da matriz de covariância (S), então o coeficiente de correlação entre o componente Y1 e a variável Xk é dado por: Cov (Yi , Xk) λ i 1 ki 1ki [ λi ]½ ________________________________ ____________________ ______________ Yi, Xk = = = ½ ½ ½ ½ [Var (Yi)] [Var (Xk)] [λi ] [σ σkk] [σ σkk]½ em que: i, k = 1, 2, ... , p Cov (Yi, Xk) = λi 1ki Var (Yi) = λi Var (Xk) = σ kk 5 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza APLICAÇÃO 1 Supondo os seguintes dados, organizados na forma de uma matriz X, representando uma amostra de uma vegetação constituída de duas espécies e cinco parcelas, 2 5 2 1 0 0 1 4 3 1 _ 2,0 X= 1,8 X= Em que os vetores linhas representam as espécies e os vetores colunas representam as parcelas: A matriz de covariância amostral para as duas espécies da matriz X é: S11 S12 S21 S22 S= 3,5 -0,5 -0,5 2,7 = * A covariância amostral foi obtida pela fórmula: _ _ Shi = [ ∑ (Xhj - Xh) (Xij - Xi) ] / (n - 1) , n j = 1 , ... n, i=1 em que Xh é a média da espécie h e Xi é a média da espécie i. Assim, obteve-se os seguintes pares de autovalores-autovetores: λ1 = 3,74; 1’1 = [-0.901 0,433] λ2 = 2,46; 1’2 = [ 0,433 0,901] Observa-se que a soma dos autovalores é igual a soma das variâncias das espécies: S11 + S22 = λ1 + λ2 = 3,5 + 2,7 = 3,74 + 2,46 = 6,2 ou ainda: Var (Y1) = Var (0,901 X1 + 0,433 X2) Var (Y1) = (-0,901)2 Var (X1) + (0,433)2 Var (X2) + 2(-0,901) (0,433) Cov (X1, X2) Var (Y1) = (0,812) (3,5) + (0,187) (2,7) + (0,39) (-0,5) Var (Y1) = 3,74 = λ1 6 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Var (Y2) = Var (0,433 X1 + 0,901 X2) Var (Y2) = (0,433)2 Var (X1) + (0,901)2 Var(X2) + 2(0,433) (0,901) Cov (X1, X2) Var (Y2) = (0,187) (3,5) + (0,812) (2,7) + (-0,39) (-0,5) Var (Y2) = 2,46 = λ2 A importância relativa de cada um dos componentes principais é dada por: IRk = λk _______________ k = 1 ,2 λ1 + λ2 p σ11 + σ22 = V (X1) = λ1 + λ2 = ∑ V (Yi) = 6,2 i =1 Assim, IR1 = IR2 = λ1 _____________ 3,74 = _________ λ1 + λ2 6,20 λ2 ____________ __________ λ1 + λ2 = 0,6033 ∴ 60,33% 2,46 = = 0,3967 ∴ 39,67% 6,20 Verifica-se, neste caso, que 60,37% da variação total está concentrada em Y1, ou seja, Y1 explica 60,33% da variação total. O segundo componente principal (Y2) explica 39,67% da variação total. O coeficiente da correlação entre Y1 e as variáveis X1 e X2 são: ρY1,X1 = 111 [λ1]½ ______________ -0,901 [3,74]½ = _____________________ [σ σ11]½ [3,50]½ 121 [λ1]½ 0,433 [3,74]½ = -0,93 ρY1,X2 = ______________ = _____________________ = 0,51 [σ σ22]½ [2,70]½ Estes resultados mostram que existem uma grande correlação entre Y1 e X1, mostrando que X1 é de grande importância para o primeiro componente principal. 7 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza O coeficiente de correlação entre Y2 e as variáveis X1 e X2 são: 112 [λ2]½ 0,433 [2,46]½ 122 [λ2]½ 0,901 [2,46]½ ρY2,X1 = ______________ = ____________________ = 0,36 [σ σ11]½ [3,50]½ ρY2,X2 = ______________ = _____________________ = 0,86 [2,70]½ [σ σ22]½ Neste caso, é verificado que a variável X2 é a de maior importância para o segundo componente principal (Y2). Em resumo, tem-se: Componente Variância CPA (Autovetores) Principal Autovalor (%) X1 X2 Y1 3,74 60,33 -0,901 0,433 Y2 2,46 39,67 0,433 0,901 CPA = Coeficiente de ponderação associado. Os escores dos componentes são obtidos por: Y11 = -0,901 (2) + 0,433 (0) = -1,802 Y12 = -0,901 (5) + 0,433 (1) = -4,072 Y13 = -0,901 (2) + 0,433 (4) = -0,070 . . . Y25 = 0,433 (0) + 0,901 (1) = 0,901 Assim, obtém-se: Parcelas Componentes Y1 -1,802 -4,072 -0,070 0,398 0,433 3,740 1 2 3 4 5 Variância 8 Y2 0,866 3,066 4,470 3,136 0,901 2,460 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Os escores dos componentes são coordenadas retangulares da ordenação e podem ser plotados e produzir o seguinte diagrama (Figura 1), que mostra a distribuição agrupada dos componentes. Figura 1 - Dispersão das Cinco Parcelas em Relação aos Dois Componentes Principais (Y1 e Y2). 2.5. Componentes Principais Obtidos de Variáveis Padronizadas Segundo CRUZ (1987), o método de obtenção dos componentes principais a partir de uma matriz de covariâncias (S), como descrito anteriormente, tem sido aconselhável apenas nos casos em que os caracteres apresentam uma mesma unidade e dimensão não muito discrepante. No entanto, em situações em que este fato não se verifica, ou seja, os caracteres em estudo são bastante diferentes em suas unidades e em sua magnitude, tem sido recomendada a padronização dos mesmos, da seguinte forma: Zi = X1 - µ ___________ σi Neste caso, a matriz de covariâncias das variáveis Zi, i = 1, 2, ..., p, torna-se: 9 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza 1 r12 R=. . . . rp1 r12 ... r1p 1 ... . r2p . . rp2 . . 1 ... em que: Cov (Xi , Xj) rij = Cov (Zi, Zj) = ________________________ [Var (Xi) Var (Xj)]½ De acordo com CRUZ (1987), as estimativas dos componentes principais, quando se usa a matriz S pode ser muito diferente daquelas encontradas quando se utiliza da matriz R. Assim, é recomendado o uso de matriz S, somente naqueles casos em que as unidades originais não são fixadas arbitrariamente, mas sim sugeridas por razões objetivas. Seja o vetor aleatório X’ = [ X1, X2, .... , Xp]. Considerando a padronização destas variáveis, tem-se: X1 - µ1 X2 - µ2 Xp - µp Z1 = ___________ ; Z2 = ___________ ; . . . ; Zp = ___________ [σ σ11]½ [σ σ22]½ [σ σpp]½ A notação matricial é: Z = (V ½ )-1 (X - µ) em que σ 11 σ22 . V= . . σpp É claro que: E (Z) = φ e Var (Z) = (V ½ )-1 Var (X - µ) (V ½ )-1 Var (Z) = (V ½)-1 S (V ½ )-1 = R (matriz de correlação) tem-se que: V ½ . R . V ½ = S. 10 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza em que: S= σ11 σ21 ... σp1 σ12 σ22 ... σp2 ... . . . σpp . . . σ1p σ22 Os componentes principais de Z podem ser obtidos dos autovalores-autovetores da matriz de correlação R de X. Assim, se continuarmos denotando Yi para referir o i-ésimo componente principal e (λi, 1i) para os pares de autovalores-autovetores. O i-ésimo componente principal das variáveis padronizadas Z’= [ Z1, Z2, ... , Zp], com Var (Z) = R, é dado por: Yi = 1’i Z = 1’i (V ½ )-1 (X - µ), i = 1,2,..., p p p com : ∑ Var (Yi) = ∑ Var (Zi) = p i=1 i=1 ρYi , Zk = 1ki [λi]½, i , k = 1, 2, ..., p Neste caso (λ1 , 11), (λ2 , 12), ... , (λp , 1p) são pares de autovalores-autovetores de R. Desta forma, baseando no fato de que ∑ Var (Zi) = p, a proporção da variação total devido ao k-ésimo componente principal é dada por: IRk = λk ________ , k = 1, 2, ..., p p em que os λ k’s são os autovalores da matriz R. APLICAÇÃO 2 Seja a matriz de covariâncias S: 1 4 4 100 S= 11 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza e a matriz de correlação R: 1,0 0,4 0,4 1,0 R= Os pares de autovalores-autovetores de S são: λ1 = 100,16 1’1 = [0,040 0,999] λ2 = 1’2 = [0,999 -0,040] 0,84 Similarmente, os autovalores-autovetores de R são: λ1 = 1 + ρ = 1,4; 1’1 = [0,707 0,707] λ2 = 1 - ρ = 0,6; 1’2 = [0,707 -0,707] Os respectivos componentes principais são: a) A partir de S; Y1 = 0,040 X1 + 0,999 X2 Y2 = 0,999 X1 - 0,040 X2 b) A partir de R: Y1 = 0,707 Z1 + 0,707 Z2 Y1 = 0,707 X1 - µ1 _____________ + 0,707 1 X2 - µ2 _____________ 10 Y1 = 0,707 (X1 - µ1) + 0,0707 (X2 - µ2) Y2 = 0,707 Z1 - 0,707 Z2 Y2 = 0,707 X1 - µ1 _____________ 1 - 0,707 X2 - µ2 _____________ 10 Y2 = 0,707 (X1 - µ1) - 0,0707 (X2 - µ2) 12 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza A proporção da variação total explicada por cada um dos componentes principais são: a) A partir de S: λ1 100,16 IR1 = ___________ = ___________ = 0,992 101,00 λ1 + λ2 λ2 0,84 IR2 = ___________ = ___________ = 0,008 λ1 + λ2 101,00 O primeiro componente principal (Y1) explica 99,2% da variação total. b) A partir de R: λ1 1,40 IR1 = _______ = _______ = 0,70 p 2,00 λ2 0,60 IR2 = _______ = _______ = 030 p 2,00 O primeiro componente principal (Y1), neste caso, explica 70% da variação total. Os coeficientes de correlação entre Yi e as variáveis X1 e X2, são: a) A partir de S: 111 [λ1 ]½ 0,040 [100,16]½ 121 [λ1 ]½ 0,999 [100,16]½ 112 [λ2 ]½ 0,999 [0,840]½ 122 [λ2 ]½ -0,040 [0,840]½ ρY1,X1 = ____________ = _____________________ = 0,400 [σ11 ]½ [1,0]½ ρY1,X2 = ____________ = _____________________ = 0,998 [100]½ [σ22 ]½ ρY2,X1 = ____________ = _____________________ = 0,916 [σ11 ]½ [1,0]½ ρY2,X2 = ____________ = _____________________ = -0,004 [σ22 ]½ [100]½ 13 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza b) A partir de R: ρY1,Z1 = 111 [λ1 ]½ = 0,707 [1,4]½ = 0,837 ρY1,Z2 = 121 [λ1 ]½ = 0,707 [1,4]½ = 0,837 ρY2,Z1 = 112 [λ2 ]½ = 0,707 [0,6]½ = 0,548 ρY2,Z2 = 122 [λ2 ]½ = -0,707 [0,6]½ = -0,548 Da aplicação 2, pode-se concluir que a variável X2 praticamente domina o primeiro componente principal, quando este é determinado a partir de S, em que o primeiro componente principal (Y1) explica 99,2% da variação total. Quando as variáveis X1 e X2 são padronizadas, no entanto, as duas variáveis contribuem igualmente, e o primeiro componente principal explica 70% da variação total. O presente exemplo demonstra que os componentes principais derivados a partir de S são diferentes daqueles derivados a partir de R. Um grupo de componentes principais não é uma simples função do outro. Isto sugere que a padronização não é inconseqüente. Assim, variáveis podem ser padronizadas se elas possuem medidas ou escalas muito diferentes ou as unidades de medida são incomesuráveis. 2.6. Sumarização da Variação Amostral por Componetes Principais Embora p-componentes principais sejam necessários para reproduzir a variabilidade total do sistema, a viabilidade de utilização da técnica de componentes principais reside na possibilidade de resumir o conjunto de variáveis originais em poucos componentes. Nestas condições, esta técnica proporcionará uma simplificação considerável nos cálculos estatísticos e na interpretação dos resultados com relação aos demais métodos altenativos, principalmente quando o número de indivíduos avaliados for relativamente grande. Assim, se os primeiros componentes principais acumularem uma porcentagem relativament alta da variação total, em geral referida como acima de 80%, eles explicarão satisfatoriamente a variabilidade manifestada entre os indivíduos avaliados e, portanto, o fenômeno poderá ser interpretado com considerável satisfação. Segundo CRUZ e REGAZZI (1994), em estudos da divergência genética, em geral, têm optado pela representação gráfica quando os dois primeiros componentes principais envolvem pelo menos 70 a 80% da variação total. Nos casos em que este limite não é alcançado nos dois primeiros componentes, a análise é complementada pela dispersão gráfica em relação ao terceiro e quarto componente. 2.7. Descarte de Variáveis Em certos estudos, quando o número de variáveis é muito grande, procura-se descartar aquelas de poucas relevância na discriminação do material avaliado, reduzindo, assim, mãode-obra, tempo e custo despendido na análise e interpretação dos dados experimentais. Em estudos de divergência genética, caracteres dispensáveis são aqueles relativamente invariantes entre as espécies/clones estudados,e, ou, redundantes, por estarem correlacionados com outros caracteres (CRUZ & REGAZZI , 1994). Segundo ADANS e WIERSMA (1978), citado por CRUZ e REGAZZI (1994), os caracteres a serem preservados na análise de 14 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza divergência genética deverão ser apenas aqueles que representam a estrutura fundamental do sistema biológico que está sendo estudado, devendo ainda serem suficientemente diversos para representarem, no mínimo, as dimensões mais importantes do sistema. Uma das técnicas de descartes de variáveis é aquela citada por MARDIA et al. (1979) e CRUZ e REGAZZI (1994), em que baseia-se no princípio de que a importância relativa dos componentes principais decresce do primeiro para o último; assim, têm-se que os últimos componentes são responsáveis pela explicação de uma fração mínima da variância total disponível. Desta forma, segundo estes autores, a variável que apresentam maior coeficiente de ponderação (elemento do autovetor) no componente de menor autovalor, é considerada de menor importância para explicar a variabilidade do material estudado, sendo, portanto, possível de descarte. Este princípio de descarte de variáveis é consistente com a notação que considera que um componente com um pequeno autovalor é de pouca importância e, consequentemente, a variável que domina este deve ser de pequena importância ou redundante. Segundo recomendações de JOLLIFFE (1972, 1973), MARDIA et al. (1979) e CRUZ e REGAZZI (1994) tem sido comum descartar a variável de maior coeficiente de ponderação (em valor absoluto) a partir do último componente até aquele cujo autovetor não excede a 0,70 (válido para dados padronizados). Quando em um componente de menor variância, o maior coeficiente de ponderação está associado a uma variável já previamente descartada, tem-se optado por não fazer nenhum outro descarte com base nos coeficientes daquele componente, mas prosseguir a identificação da importância relativa das variáveis no outro componente de variância imediatamente superior. Uma variação deste método de descarte de variáveis, segundo MARDIA et al. (1979), consiste a cada estágio de descarte da variável associada com o componente de menor autovalor, refazer a análise de componentes principais com as variáveis remanescentes. Este processo é conduzido até que todos os componentes principais tenham autovalores altos. 2.8. Análises de Componentes Principais e Análise de Agrupamento O uso dos componentes principais na redução do número dedimensões de uma matriz permite a apresentação gráfica. Assim, quando os primeiros componentes explicam a maior parte da variação do sitema em estudo, estes podem ser representados graficamente e apresentar uma importante aplicação em conexão com a análise de agrupamento (MARDIA et al., 1979; MARRIOT, 1974). Segundo CRUZ e REGAZZI (1994), um dos objetivos do uso dos componentes principais em estudo sobre a divergência genética é avaliar a dissimilaridade dos genótipos, clones, etc., em gráficos de dispersão, em que tem os primeiros componentes como eixo de referência. Este procedimento é satisfatório quando os odis primeiros componentes utilizados como eixo do sistema cartsiano envolvem uma fração considerável da variação total, normalmente citada como acima de 70 a 80%. Nos casos em que o limite não é atingido com os dois primeiros componentes, a análise é complementada com a dispersão gráfica em relação ao terceiro e quarto componente. MARRIOT (1974) comenta que uma das dificuldades na análise de agrupamento, utilizando métodos numéricos, é com relação a decisão da divisão de um conjunto de observações em grupos. Em alguns casos, métodos visuais são mais eficientes do que os baseados em valores numéricos. Assim, gráficos de dispersão provenientes dos componentes principais podem auxiliar a análise de agrupamento em vários sentidos. Em primeiro lugar, como forma particular de análise de agrupamento, ou seja, naquelas situações em que os grupos são claramente definidos e bem separados, um método analítico elaborado, neste caso, 15 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza é usualmente desnecessário. Pode mostrar que uma técnica particular de agrupamento não apresenta resultados satisfatórios, sugerindo assim, alternativas. Finalmente, se testes de significância não são possíveis, a representação gráfica por componentes principais confirma os agrupamentos sugeridos pelos métodos numéricos. Segundo CRUZ e REGAZZI (1994), como nesta técnica é feita uma simplificação do espaço n-dimensional para o bi ou tri-dimensional, há certas distorções nas distâncias. Entretanto, há entre as estimativas das distâncias euclideanas baseadas nos escores dos primeiros componentes principais e as distâncias Euclideanas baseadas nos dados originais, uma relação matemática dada por: α = ∑ ∑ dcp2ii’ ____________________ n∑∑ d 2 , para i < i’. ii’ em que: dcp2ii’ = quadrado da distância Euclidiana estimada a partir dos escores de n1 componentes principais; 2 d ii’ = quadrado da distância Euclidiana média estimada a partir das n variáveis originais. Assim, segundo estes autores, o parâmetro (1 - α) mede o grau de distorção proporcionado pela técnica dos componentes principais, ao se passar do espaço n-dimensional para o n1-dimensional (n1 < n). Nos casos em que a dispersão gráfica não provê informações adequadas sobre o grau de similaridade dos indivíduos estudados, CRUZ (1990) comenta que certos autores têm utilizado os escores dos primeiros componentes principais para o cálculo da distância Euclideana, valendo-se, para esse fim, da propriedade de independência entre tais componentes. Tal procedimento é, muitas das vezes, utilizado para complementar as informações da dispersão gráfica, em virtude de permitir o estabelecimento de grupos de maneira menojs subjetiva do que aquela que se verifica em exames visuais. Maiores detalhes sobre a utilização combinada das duas técnicas (componentes principais e conglomeração) em estudos sobre divergência genética são encontrados em ADANS e WIERSMA (1978). APLICAÇÃO 3 Caso base em dados de um teste de progênies de Eucalyptus sp., em que foram avaliadas 10 características (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) em 10 progênies, num delineamento em blocos ao acaso com quatro repetições e seis plantas por parcela, realizou-se a análise por componentes principais. A seguir são apresentados as matrizes de médias, variância, covariância e de correlações. 16 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 1 – Médias dos Dados Originais das 10 Progênies em Relação a 10 características (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Prog. 1 2 3 4 5 6 7 8 9 10 X1 10.7542 10.3417 11.2625 10.3583 9.8083 10.2292 9.6042 9.5208 11.6333 10.4292 X2 0.6708 0.6000 0.6750 0.6083 0.5542 0.6833 0.6500 0.5833 0.7458 0.6792 X3 16.4708 17.0833 17.0250 16.7542 15.9250 16.6208 15.7333 15.8167 16.6833 15.7208 X4 12.8417 13.0708 13.2875 13.1375 11.6000 13.0708 11.5958 11.6208 12.9125 11.7958 Características X5 X6 0.0750 0.0575 0.0731 0.0556 0.0832 0.0649 0.0768 0.0587 0.0616 0.0480 0.0691 0.0525 0.0621 0.0479 0.0579 0.0439 0.0954 0.0736 0.0687 0.0527 X7 0.0175 0.0175 0.0184 0.0181 0.0136 0.0167 0.0142 0.0140 0.0218 0.0161 X8 0.4786 0.4791 0.5509 0.5230 0.4943 0.4953 0.5147 0.4950 0.4924 0.4803 X9 0.3659 0.3647 0.4274 0.3975 0.3846 0.3750 0.3939 0.3758 0.3769 0.3674 X10 0.1559 0.1513 0.1842 0.1475 0.1244 0.1402 0.1201 0.1169 0.1979 0.1422 Quadro 2 – Médias Padronizadas das 10 Progênies em Relação a 10 Características (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Prog. 1 2 3 4 5 6 7 8 9 10 X1 15,78 15,17 16,52 15,19 14,39 15,01 14,09 13,97 17,07 15,30 X2 11,66 10,43 11,73 10,57 9,63 11,87 11,29 10,14 12,96 11,80 * Padronização : Z i = X3 30,73 31,87 31,76 31,26 29,71 31,01 29,35 29,51 31,12 29,33 X4 17,47 17,78 18,08 17,88 15,78 17,78 15,78 15,81 17,57 16,05 Características X5 X6 06,69 06,54 06,52 06,32 07,42 07,38 06,85 06,68 5,50 5,36 06,17 05,97 05,54 05,45 05,17 04,99 08,51 08,37 06,13 05,99 X7 07,04 07,04 07,41 07,28 5,55 06,72 05,71 05,63 08,77 06,48 X8 20,82 20,84 23,97 22,75 21,47 21,55 22,39 21,54 21,42 20,89 X9 19,03 18,97 22,23 20,68 19,23 19,51 20,49 19,55 19,60 19,11 X10 05,90 05,73 06,98 05,59 4,71 05,31 04,55 04,43 07,49 05,38 Xi ______ . ρi Quadro 3 – Matriz de Variâncias e Covariâncias Entre as Variáveis originais 0,4646 0,0291 0,0033 0,2361 0,0730 0,2872 0,3507 0,0171 0,3772 0,5401 0,0074 0,0005 0,0142 0,0061 0,0001 0,0058 0,0004 0,0032 0,0046 0,0001 0,00008 17 0,0016 0,0026 0,0025 0,0178 0,0001 0,00004 0,000009 0,0011 0,0009 0,0034 0,0025 0,0099 0,0014 0,0044 0,0030 0,0141 0,00003 0,00005 0,00005 0,0003 0,00002 0,00005 0,00004 0,00006 0,000006 0,000006 0,000004 0,000006 0.00053 0,0004 0,0001 0,0004 0,0001 0,0007 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 4 – Matriz de Correlação entre Variáveis Originais 1,0 0,7419 0,6462 0,7000 0,9626 0,9663 0,9263 0,1668 0,1932 0,9885 1,0 0,2391 0,4050 0,7043 0,6992 0,7097 0,0295 0,0081 0,7032 1,0 0,9577 0,6977 0,6835 0,7294 0,2726 0,2418 0,7035 1,0 0,7365 0,7176 0,7860 0,2619 0,2112 0,7263 1,0 0,9983 0,9785 0,2060 0,2087 0,9768 1,0 0,9647 0,2352 0,2457 0,9803 1,0 0,1012 0,0768 0,9395 1,0 0,9857 0,2279 1,0 0,2485 1,0 Baseado na teoria descrita anteriormente sobre componentes principais, os autovalores e autovetores associados são apresentados a seguir (Quadro 5). Estes foram obtidos a partir da matriz de correlação entre as características originais (R) (ou matriz de covariâncias entre as características padronizadas). A obtenção destes autovalores e autovetores associados por um processo manual é impraticável. Desta forma, utilizou-se o Software GENES. Quadro 5 – Componentes Principais Obtidos da Análise de 10 Características (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Variância Componente Principal Autovalor Acumul. (%) Y1 6,6879 66,88 Y2 1,9454 86,33 Y3 0,9508 95,79 Y4 0,2950 98,84 Y5 0,0849 99,64 Y6 0,0255 99,87 Y7 0,0099 99,99 Y8 0,0003 99,99 Y9 0,00009 99,99 Y10 0,00002 100,00 Coeficiente de Ponderação Associado (Autovetores) X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 0,3713 -0,0862 -0,1511 -0,1973 -0,5509 -0,4299 0,1078 0,4077 -0,3560 -0,0029 0,2715 -0,2067 -0,5276 0,7308 -0,0580 0,2392 -0,0855 0,0557 -0,0092 -0,0047 0,3041 0,0954 0,6051 0,1132 -0,1532 0,6111 -0,0135 0,2788 -0,2113 0,0002 0,3218 0,0537 0,4980 0,4413 -0,0238 -0,5532 -0,1496 -0,2880 0,1968 0,0008 0,3788 -0,0639 -0,0863 -0,2375 0,3027 0,0263 -0,2984 -01295 -0,1537 -0,7529 0,3778 -0,0406 -0,1151 -0,2799 0,2162 0,0539 -0,5076 -0,1633 -0,1377 0,6411 0,3728 -0,1411 0,0137 -0,0621 0,5664 -0,0943 0,4868 0,4069 0,3015 0,1175 0,1117 0,6752 -0,1405 0,1362 0,2195 -0,0505 0,3609 -0,2360 -0,5032 0,0589 0,1090 0,6744 -0,1838 -0,0554 -0,1465 0,0272 -0,2933 0,3195 0,5305 -00686 0,3778 -0,0398 -0,1012 -0,2432 -0,3746 0,2501 0,3981 -0,5507 0,3488 0,0057 No Quadro 3, pode-se constatar numericamente que: ∑ λi = ∑ Var (Yi) = Traço R = 10 i ∑ a21 = 1 e ∑ aj bj = φ j 18 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Os resultados apresentados no Quadro 5 evidenciam que o primeiro componente principal (Y1) explica 66,88% da variação total disponível. Os dois primeiros componentes principais (Y1 e Y2) explicam 86,33% e os três primeiros (Y1, Y2 e Y3) explicam 95,84% da variância total disponível. Portanto, para o presente exemplo, a técnica de componentes principais sumariza muito bem a variação total disponível dos dados amostrais pelo três primeiros componentes principais. Assim, a utilização destes componentes no estudo de divergência genética por meio da dispersão dos escores em gráficos cujos eixos são os referidos componentes (Y1 e Y2), apresentará resultados satisfatórios. Em estudos que utilizam a técnica dos componentes principais como meio de descartes de variáveis com a finalidade de redução de mão-de-obra, tempo e custo despendido na análise e interpretação dos dados experimentais, a importância relativa das características pode ser avaliada pela magnitude do coeficiente de ponderação destas. Assim, com base em MARDIA et al. (1978) e CRUZ e REGAZZI (1994), para o presente exemplo, identifica-se, em ordem crescente, os caracteres X5, X10, X6, X3, X7 e X2, com maiores pesos em Y10 (-0,7529), Y9 (0,5305), Y8 (-0,5507), Y7 (-0,5076), Y6 (0,6111), Y5 (0,5664) e Y4 (0,7308), respectivamente, como os de menores importância no estudo realizado, são possíveis de descarte. No exemplo em consideração, o descarte de X2, X3, X5, X6, X7 e X10 é minimizado pela presença de X1 e X4, cujas correlações entre estas são altas (ver matriz de correlações entre variáveis originais). O descarte da variável X9 é minimizado pela presença de X8, cuja correlação com X9 é de 0,9857. Os escores relativos a cada progênie, em cada componente, é estimado com base nas informações do Quadro 2 (médias padronizadas das 10 progênies em relação as 10 características X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) e do Quadro 5 (componentes principais obtidos da análise de 10 características X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10). Assim, tem-se: Y11 = 0,3713 (15,78) + 0,2715 (11,66) + 0,3041 (30,73) + 0,3218 (17,47) + 0,3788 (6,69) + 0,3778 ( 6,54) + + 0,3728 (7,04) + 0,1117 (20,82) + 0,1090 (19,03) + + 0,3778 (5,90) Y11 = 38,2770 Os demais escores encontram-se no Quadro 6. A dispersão destes escores em eixos cartesianos é apresentada na Figura 2. Com base na Figura 2, observa-se que, em relação aos caracteres considerados, as progênies 1, 2, 6 e 10 e as progênies 5, 7 e 8 são as mais similares, havendo, entretanto, considerável divergência entre as progênies 3, 4 e 9. As distâncias gráficas podem se estimadas pelas distâncias Euclideanas: dcpii = [(Yi1 - Y’i’1)2 + (Yi2 - Y’i’2)2]½ 19 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 6 – Escores Relativos a 10 Progênies, Obtidos em Relação aos Dois Primeiros Componentes Principais Genótipos 1 2 3 4 5 6 7 8 9 10 Y1’ 38,2570 37,9302 40,8988 38,5141 34,6232 37,5891 35,0461 34,1564 41,9986 36,4273 Y2 25,0736 25,5050 29,2319 27,7958 26,9303 26,9303 27,4731 26,5848 25,0295 25,1353 Figura 2 – Dispersão de 10 Progênies em Relação aos Dois Primeiros Componentes Principais (Y1 e Y2). 20 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Por esta expressão são obtidas as medidas de dissimilaridade, que são apresentadas no Quadro 7. Como ilustração é obtida a estimativa de dcp1,2: dcp1,2 = [ (38,2570 - 37,9302)2 + (25,0736 - 25,5050)2]½ dcp1,2 = 0,5412 Quadro 7 – Dissimilaridade entre Genótipos, com Base na Distância Euclideana, Obtida de Escores dos Dois Primeiros Componentes Principais - 0,5412 4,9265 2,7343 4,0807 1,2030 4,0083 4,3702 3,7419 1,8307 - 4,7647 - 2,3640 2,7837 3,6011 6,6843 0,6635 4,5745 3,4915 6,1111 3,9252 7,2434 4,0961 4,3439 1,5477 6,0644 - 3,9860 1,9544 3,4828 4,5228 4,4491 3,3813 - 3,0870 0,6882 0,5808 7,6164 2,5450 - 2,9022 3,4705 4,5315 1,4937 - 1,2574 7,3692 2,7152 - 7,9949 2,6941 - 5,5723 - 3. VARIÁVEIS CANÔNICAS 3.1. Introdução A análise de variáveis canônicas é uma técnica multivariada cujo procedimento foi relatada por Fischer (1936). Posteiormente, desenvolvida por vários outros autores nas diversas áreas da ciência, tais como M.S. Batlet, P. C. Mahalanobis e C. R. Rao, citadas por CAMPBELL e ATCHLEY (1981), para examinar alguns problemas significantes relativos à sistemática biológica. Mais recentemente, CRUZ e REGAZZI (1994), descreveram a referida técnica na utilização em estudos de divergência genética, com propósito de identificação de grupos similares no espaço bi ou tridimensional. Segundo CRUZ e REGAZZI (1994), a análise multivariada com base em variáveis canônicas, trata-se de um processo alternativo para a avaliação do grau de similaridade entre acessos que leva em consideração tanto a matriz de covariância residual quanto a covariância entre médias fenotípicas dos caracteres avaliados. As variáveis canônicas são combinações lineares das variáveis originais, sendo determinadas de tal modo que a variação entre grupos é maximizada em relação à variação dentro de grupos. A semelhança da análise de componentes principais, espera-se que a configuração do grupo possa ser adequadamente representada em um sub-espaço bi ou tridimensional pelos primeiros dois ou três vetores canônicos (Campbell e Atechley, 1981, citados por LIBERATO, 1995). 21 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Assim, a viabilidade do uso das variáveis canônicas em estudo nas diversas áreas da ciência, em gráficos de dispersão, também está restrita à concentração da variabilidade disponível entre as primeiras variáveis. A semelhança da análise de componentes principais, a técnica de análise canônica pode atender a vários propósitos, tais como: a) Examinar as correlações entre caracteres estudados; b) Resumir um conjunto de caracteres em outro de menor dimensão e de sentido interpretável; c) Avaliar a importância de cada caracter e promover a eliminação daqueles que comtribuem pouco, em termos de variação, no grupo de amostras em estudo; d) Construir índices que possibilitem o agrupamento de amostras ou populações; e) entre outros. CAMUSSI et al. (1985) relata que as transformações para variáveis canônicas permitem a visualização ótima de diferenças entre populações, pela redução de dimensões que preserve a maioria das informações biológicas. É um método de ordenação cujo objetivo é avaliar o grau de similaridade entre materiais experimentais, considerando tanto a matriz de variâncias e covariâncias residuais quanto a matriz de variâncias e covariâncias entre médias fenotípicas dos caracteres avaliados, ou seja, a análise só é empregada nas situações em que existem dados provenientes de delineamentos experimentais. Esta técnica, diferentemente da análise de componentes principais, considera as possíveis diferenças na dispersão sobre as médias. Desta forma, esta técnica apresenta vantagem de manter o princípio da Análise de Agrupamento, utilizando a distância de Mahalanobis, qual seja a de considerar as correlações residuais existentes entre a média dos tratamentos. Também, esta técnica, possui estreita relação com a análise de função discriminante linear e com a distância de Mahalanobis. Em resumo, a utilização de análise canônica tem por finalidade básica, a de proporcionar uma simplificação estrutural de dados, de modo que a diversidade influenciada a princípio por um conjunto p-dimensional ( p = no de caracteres considerados no estudo), possa ser avaliada por um complexo bi ou tridimensional de fácil interpretação geométrica. Os princípios básicos dessa técnica são descritos por vários autores, tais como MARDIA et al. (1979); CHATFIELD e COLLINS (1986); JOHNSON e WICHERN (1988); CRUZ e REGAZZI (1994), entre outros. Segundo esses autores, devido normalmente as variáveis em estudo possuirem diferentes escalas, na utilização desse procedimento é comum a transformação das variáveis originais em variáveis padronizadas e não-correlacionadas, de modo que a matriz de dispersão residual se iguala a identidade. A transformação comumente utilizada tem sido o processo de condensação pivotal descrito por RAO (1952) e exemplificado por SINGH e CHAUDHARG (1979), bem como por CRUZ e REGAZZI (1994). Após a transformação, o processo de estimação das variáveis canônicas equivale ao descrito para as componentes principais. Semelhante à técnica de componentes principais, a análise canônica está se difundindo nas diversas áreas da ciência devido a disponibilidade de recursos computacionais e de “software” aplicados atualmente existentes. Entretanto, uma das grandes dificuldades ainda encontrada é a exigência de alguma experiência sobre análise multivariada. 3.2. Obtenção das Variáveis Canônicas A técnica de variáveis canônicas , à semelhança dos componentes principais, consiste em transformar o conjunto de “n” variáveis originais em um novo conjunto, as variáveis canônicas. 22 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Seja Xij a média da j-ésima característica (j = 1,2,....,p) avaliada na i-ésima população ou amostra (i = 1,2,...,n), tal que as seguintes propriedades são verificadas: a) Se Yj é uma variável canônica, então, Yj é uma combinação linear de X’s. Yj = a1X1 + a2X2 + ... + apXp b) Se Yj’ é uma outra variável canônica, então: Yj’ = b1X1 + b2X2 + ... + bpXp p e ainda: p p ΣΣ ajaj’ σ jj’ = j=1 j’=1 p p ΣΣ bjbj’ σ jj’ = 1 j=1 j’=1 p ΣΣ ajbj σ jj’ = 0 j=1 j’=1 em que σjj’ é a covariância residual entre as características j e j’. c) Dentre todas as variáveis canônicas, Y1 apresenta a maior variância, Y2 a segunda maior e assim sucessivamente, ou seja: σ2 (Y1) > σ2 (Y2) > . . . > σ2 (Yp) A propriedade (b) garante a ponderação da influência das variâncias e covariâncias residuais sobre as estimativas dos coeficientes de cada característica, bem como a independência entre estas variáveis. Desta forma, fundamentalmente a técnica de variáveis canônicas à semelhança da técnica de componentes principais, consiste em transformar um conjunto de p variáveis X1, X2, . . . , Xp, pertencentes a n amostras ou populações em um novo conjunto de variáveis Y1, Y2, . . . , Yp, as quais sejam função linear das X’s e independentes entre si. Vale salientar que o número de variáveis canônicas obtidas (Y1, Y2, . . . , Yp) é igual ao número de variáveis originais. Assim, segundo RAO (1952) e CRUZ e REGAZZI (1994), o problema estatístico consiste fundamentalmente em estimar os coeficientes de ponderação das características em cada variável canônica e as suas respectivas variâncias. Assim, segundo estes autores, estas estimativas podem ser obtidas pela solução do sistema: (T - λjE) αj = φ em que a j-ésima variância é dada pelo autovalor de ordem correspondente, obtido pela solução de: det [T - λjE] = 0 em que: αj = autovetor associado a cada estimativa dos autovalores de E-1 T, cujos elementos são os coeficientes de ponderação dos caracteres para estabelecimento das variáveis canônicas; 23 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza λj = autovalores da matriz E-1 T; T = matriz de covariâncias entre as médias das amostras ou populações avaliadas; e E = matriz de covariâncias residuais. As matrizes T e E são simétricas. Entretanto, o produto de ambas (E-1T) não é uma matriz simétrica. Assim, dada a complexidade de cálculo das raízes características de uma matriz assimétrica, tem sido recomendado a utilização de dados transformados através da condensação pivotal, conforme descrito por RAO (1952) e mais recentemente por CRUZ e REGAZZI (1994). Esta técnica consiste em justapor, à direita da matriz de dispersão que se está operando, a matriz-identidade. Posteriormente, transforma-se por operações nas linhas, os elementos de cada coluna, de tal forma que ela tenha 1 na linha diagonal e zeros abaixo da diagonal, ou seja, é obtida uma matriz triangular superior em um processo sistemática. Este processo tem a vantagem de proporcionar novas variáveis que apresentam covariâncias residuais nula e variâncias residuais igual a unidade. Assim, as variâncias originais Xj são transformadas pelo processo de condensação pivotal, em variáveis padronizadas Zj, com matriz de variâncias e covariâncias em amostras ou populações igual a T* e a matriz de variâncias e covariâncias residuais igual à matriz identidade I . Desta forma, a determinação dos autovalores de T* é dada pela equação: det (T* - λI) = 0 Obtendo-se, assim, as variâncias das j-ésimas variáveis canônicas. Os autovetores da matriz T* correspondem aos da matriz E-1T, são obtidos pela solução da seguinte equação: (T* - λjI) αj = 0 onde: λj = a raiz característica que corresponde à variância da j-ésima variável canônica; αj = vetor de coeficientes da j-ésima variável canônica, estabelecido com as variáveis transformadas por condensação pivotal. Desta forma, observa-se que o processo de estimação torna-se idêntico ao descrito para os componentes principais. Uma vez estimados os coeficientes αj, os coeficientes aj, associados às variáveis originais, podem ser calculados por meio de: [ a1 a2 . . . an ] = [ α1 α2 . . . αn ] V onde: V = matriz n x n de transformação, obtida pelo processo de condensação pivotal. Além disso, segundo CRUZ e REGAZZI (1994) , dada as inferências serem feitas em relação às variáveis originais padronizadas, é necessário ainda eliminar os efeitos de escala de mensuração. Assim, os coeficientes aj’s são multiplicados pelo desvio padrão do erro experimental, de modo que: ∂j xj = aj σj [Xj /σj-] Logo: ∂j = aj σj (σj = desvio padrão residual) 24 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza 3.3. Importância Relativa de uma Variável Canônica A importância relativa de cada variável canônica (IRk), à semelhança de componentes principais, é também dada pela razão entre a variância por ela explicada e o total da variância disponível, ou seja, a proporção da variação total explicada pela k-ésima variável canônica é dada pela expressão: λk IRk = _______________________ λ1 + λ2 + . . . + λp k = 1, 2, ..... , p ou ainda, a proporção da variação total explicada pelas primeiras k variáveis canônicas (PVk’s) é dada por: PVk’s = λ1 + λ2 + . . . + λk _______________________ k = 1, 2, ..... , p λ1 + λ2 + . . . + λp Assim, verifica-se que a proporção da variação total explicada pelas primeiras variáveis canônicas é uma medida da quantidade de informação retida pela redução de p para k dimensão. Na maioria dos estudos, é desejável que a variância acumulada nas duas primeiras variáveis canônicas exceda 70-80%. Nesta condição, nos casos de estudo por meio das distâncias geométricas entre amostras ou populações em gráficos de dispersão, cujas coordenadas são escores relativos às primeiras variáveis canônicas, as interferências são tidas satisfatórias. Assim, embora p-variáveis canônicas sejam necessárias para reproduzir a variabilidade total do sistema, a viabilidade de utilização da referida técnica reside na possibilidade de resumir o conjunto de variáveis originais em poucas variáveis canônicas. Nestas condições, esta técnica proporcionará uma simplificação considerável nos cálculos estatísticos e na interpretação dos resultados com relação aos demais métodos alternativos, principalmente quando o número de variáveis avaliadas foram relativamente grande. 3.4. Descarte de Variáveis Nos casos em que o número de variáveis é muito grande, procura-se descartar aquelas de pouca relevância na discriminação do material avaliado, reduzindo, assim, mão-de-obra, tempo e custo despendido na análise e interpretação dos dados experimentais. A semelhança do procedimento descrito em componentes principais sobre descarte de variáveis, a identificação de características de menor importância em certos estudos tem sido aquelas cujos coeficientes de ponderação, obtidos com a padronização das variáveis, são de maior magnitude, em valor absoluto, nas últimas variáveis canônicas. Assim, segundo recomendações de diversos autores (JOLLIFE, 1972/1973; MARDIA et al., 1979; CRUZ e REGAZZI, 1994), tem sido comum descartar a variável de maior coeficiente de ponderação (em valor absoluto) a partir da última variável canônica. Quando em uma variável canônica de menor variância o maior coeficiente de ponderação está associado a uma característica já previamente descartada, tem-se optado por não fazer nenhum outro descarte com base nos coeficientes daquela variável canônica, mas prosseguir a identificação da importância relativa das características na outra variável de variância imediatamente superior. 25 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Uma das questões básicas nas diversas áreas da ciência diz respeito ao número e tipo de características a serem avaliadas. Não existem bases teóricas para determinar o número de características a serem medidas. Assim, tem sido relatado, no melhoramento vegetal, que os caracteres importantes para adaptação e seleção natural são mais apropriados e devem ser escolhidos para os estudos de divergências e agrupamento (ARUNACHALAM, 1981 e CRUZ e REGAZZI, 1994). ADAMS e WIERSMA (1978) acrescenta ainda que as características a serem preservadas nesta análise deverão ser aquelas que representam a estrutura fundamental do sistema biológico que está sendo estudado, devendo ainda serem suficientemente diversos para representar, no mínimo, as dimensões mais importantes do sistema. Assim, quando o número de características utilizadas num estudo torna-se elevado, é possível que muitas delas pouco contribuam para a discriminação das amostras ou populações avaliadas, por serem relativamente invariantes entre estas ou por serem redundantes em virtude de serem altamente correlacionadas com outras características. Esta situação apresenta como conseqüência aumento no trabalho de caracterização, sem melhoria na precisão, além de tornar mais complexa a análise e interpretação dos dados. Portanto, a eliminação das características redundantes e de difícil mensuração torna-se desejável, afim de facilitar o estudo, reduzindo tempo e custo da experiência (Pereira, 1989, citado por Liberato, 1995). Desta forma, a redução do número de características, com eliminação daqueles que menos contribuem para o estudo, deve facilitar as interpretações sem causar perda considerável de informações. CRUZ e REGAZZI (1994) comentam que os caracteres dispensáveis em estudo de divergência genética são aqueles relativamente invariantes entre os indivíduos estudados, são fortemente afetados pelo ambiente, apresentam instabilidade com a mudanças ambiental ou são redundantes por estarem correlacionados com outros caracteres. Portanto, as variáveis selecionadas e descartadas devem apresentar correlações significativas entre si, ou seja, as variáveis descartadas devem ser redundantes (ser responsáveis pelo mesmo tipo de informações já contidas nas variáveis selecionadas).Por outro lado, as variáveis selecionadas devem ter baixas correlações entre si. De forma tal que cada variável preservada na análise será responsável por um tipo de informação biológica exclusiva e a ação conjunta das mesmas será complementar para a descrição geral dos indivíduos ou populações estudadas. Em resumo ao se realizar o descarte de variáveis através da variável canônicas, conforme procedimento descrito, os comentários feitos anteriormente deverão ser considerados, de forma tal que as características descartadas não proporcione perdas significativas nas interpretações e conclusões no estudo em questão. 3.5. Análise de Variáveis Canônica e Análise de Agrupamento Quando as primeiras variáveis canônicas explicam a maior parte da variação do sistema em estudo, estas podem ser representadas graficamente e apresentar uma importante aplicação em conexão com a análise de agrupamento. Este procedimento é satisfatório quando as duas primeiras varáveis canônicas utilizadas como eixo do sistema cartesiano envolvem uma fração considerável da variação total, normalmente citada como acima de 70 a 80%. Nos casos em que este limite não é atingido, a análise é completada com a dispersão gráfica em relação a terceira e quarta variável canônicas. Com base nos escores das primeiras variáveis canônicas, estima-se a Distância Euclidiana Média que expressa uma medida alternativa entre aquela população ou amostras. Assim, nos casos em que a dispersão gráfica não provê informações adequadas no estudo, CRUZ (1990) comenta que certos autores têm utilizado os escores dos primeiras variáveis canônicas para o cálculo da Distância Euclidiana Média, valendo-se, para esse fim, da propriedade de independência entre tais variáveis canônicas. Tal procedimento é utilizado como complementar as informações da dispersão gráfica. 26 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza CRUZ e REGAZZI (1994) comentam que a eficácia de tal procedimento depende do grau de distorção provoca nas distâncias entre amostras ou populações quando se passa do espaço n-dimensional para o n1-dimensional (n1 < n). Como as distâncias gráficas, em relação a eixos que representam as primeiras variáveis canônicas, são influenciadas pelas variações entre (variâncias e covariâncias entre as médias das amostras ou populações estudadas) e dentro (variâncias e covariâncias residuais), pode-se quantificar o grau de distorção destas distâncias comparando o seu total com o total das distâncias generalizadas de Mahalanobis, ou seja: Grua de distorção = 1 - α ∑ ∑ d2vcii’ onde: i < i’ α= . ________________ ∑ ∑ D2ii’ i < i’ em que: d2vcii’ = quadrado da distância Euclidiana estimada a partir dos escores de n variáveis canônicas; 2 D ii’ = distância generalizada de Mahalanobis estimada a partir de n variáveis originais. APLICAÇÃO 4 Utilizando os mesmos dados da aplicação 3, ou seja, com base em dados de um teste de progênies de Eucalytus sp., em que foram avaliadas 10 características (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) em 10 progênies, num delineamento em bloco ao acaso com quatro repetições, e seis plantas por parcela, realizou-se a análise por variáveis canônicas. Dado o volume de cálculos, utilizou-se do programa GENES (DBG/UFV) para realizações das operações envolvidas, sendo apresentado, portanto, só as tabelas com os resultados finais de cada etapa envolvida. Assim, baseado na teoria descrita sobre variáveis canônicas, os autovalores (variâncias) e autovetores associados (coeficientes de ponderação) são apresentados no Quadro 9. Estes foram obtidos a partir de dados transformados através de condensação pivotal. Os resultados apresentam no Quadro 8 evidenciam que a primeira variável canônica (VC1) explica 68,7% da variação total disponível. As duas primeiras variáveis canônicas (VC1 e VC2) explicam 83,3% e as três primeiras (VC1, VC2, VC3) explicam 92,6% da variância total disponível. Portanto, como as duas primeiras variáveis canônicas explicam mais de 80% da variação total disponível das variáveis Z’s, sua utilização na sumarização dos dados, em vários estudos, é considerada satisfatória. Considerando as média do Quadro 8, estimam os escores associados às duas primeiras variáveis canônicas por meio da expressão. VC1 = 0,0487(5,69) - 0,0865(-0,59) + 0,0988(7,43) + 0,0591(-7,13) + … + 0,3888(6,95) = 23,6365 VC2 = 0,4954(5,69) - 0,1757(-0,59) + … + 0,6877(6,95) = 1,2960 27 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 8 – Médias das Variáveis, Transformadas por Condensação Pivotal, para 10 Progênies Progênie 1 2 3 4 5 6 7 8 9 10 Z1 5,69 5,47 5,96 5,48 5,19 5,41 5,08 5,04 6,15 5,52 Z2 -0,59 -0,93 -0,84 -0,87 -1,00 -0,19 -0,11 -0,61 -0,47 -0,34 Z3 7,43 8,05 7,62 7,81 7,44 7,76 7,37 7,47 7,22 7,02 Variáveis Z5 Z6 -17,13 1,16 -17,12 1,09 -17,12 1,59 -16,66 1,02 -16,66 1,52 -17,45 1,07 -16,09 1,58 -16,69 1,09 -15,40 1,53 -16,50 1,32 Z4 -7,13 -7,55 -7,40 -7,09 -7,72 -6,93 -7,39 -7,49 -7,42 -7,33 Z7 -10,40 -18,66 -18,60 -18,06 -18,25 -18,31 -17,44 -18,08 -17,32 -17,83 Z8 2,87 2,68 3,99 3,10 2,75 2,94 3,01 2,84 3,21 3,00 Z9 10,29 8,99 10,04 8,66 8,66 9,90 7,35 8,84 7,40 9,51 Z10 6,35 7,05 8,27 6,74 6,41 6,79 5,71 6,33 6,51 6,26 Quadro 9 – Variáveis Canônicas Obtidas da Análise de Dez Variáveis (Z1, Z2, Z3, Z4, Z5, Z6, Z7, Z8, Z9 ,Z10) - Originadas da Transformação por Condensação Pivotal, das Variáveis Originais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Variância Variáveis AcuCanônicas auto- mulada valor (%) VC1 1,7477 68,7 VC2 0,3697 83,3 VC3 0,2382 92,6 VC4 0,1061 96,8 VC5 0,0523 98,4 VC6 0,0196 99,6 VC7 0,0089 99,9 VC8 0,0008 99,9 VC9 0,0001 99,9 VC10 0,00003 100,0 Coeficiente de Ponderação Associado Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 0,0487 0,4954 0,2634 0,1449 -0,4761 0,4639 0,1916 0,1161 -0,1883 -0,3665 -0,0865 -0,1757 0,3811 0,5081 0,3747 0,5095 -0,2412 0,0578 -0,0569 0,3056 0,0988 0,0033 -0,4890 0,3413 -0,1082 0,1028 0,4762 0,4613 0,2067 0,3605 0,0591 -0,0790 0,1732 0,5572 -0,2151 -0,3860 0,3337 -0,5689 -01091 0,0869 -0,4088 0,3139 0,2574 -0,2964 -0,2695 -0,0788 0,0141 -0,0198 -0,0343 0,7068 -0,0676 0,1874 0,1726 -0,2550 0,6049 0,1113 0,6793 -0,1457 -0,0031 -0,0668 -0,3099 0,0272 0,3660 0,1570 -0,0264 -0,2357 0,0168 0,2251 0,5773 -0,2225 0,0065 0,2631 0,1677 0,2101 0,2489 -0,5337 0,0660 0,5295 -0,4718 -0,0648 0,7069 -0,2024 0,4776 -0,2301 -0,1220 -0,0644 1,1021 0,1846 0,1172 0,2066 0,3888 0,6877 -0,1727 0,1383 0,2425 -0,0487 -0,3003 -0,2449 0,3091 0,1414 Os demais escores são apresentados no Quadro 10. A dispersão dos escores em relação às duas primeiras variáveis canônicas é apresentada na Figura 3. 28 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 10 – Escores de 10 Progênies, Obtidos a Partir das Duas Primeiras Variáveis Canônicas Progênies 1 2 3 4 5 6 7 8 9 10 VC1 23,6365 22,8450 24,0288 22,0968 22,1686 23,3911 20,1167 21,7708 20,2064 22,2647 VC2 1,2960 1,5319 2,6736 1,6199 1,2667 0,9518 1,1482 1,0663 2,5528 1,1476 Figura 3 – Dispersão de 10 Progênies em relação às Duas Primeiras Variações Canônicas (VC1 e VC2). A distância gráfica entre cada par de progênies na Figura 3 é dada pela distância Euclidiana: dvci i’ = [(vci1-vci’1)2 + (vci2 - vci’2)2]½ cujas estimativas são encontradas no Quadro 11. Como ilustração, obtêm-se dvc1,2 por meio de: dvc1,2 = [(23,6365 - 22,8450)2 + (1,2960 - 1,5319)2]½ 29 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 11 – Dissimilaridade entre Progênies, Baseada nas Distâncias Euclidianas obtidas a Partir dos Escores das Duas Primeiras Variáveis Canônicas Progênies 1 2 3 4 5 6 7 8 9 2 0,8259 3 1,4323 1,6446 4 1,5734 0,7533 2,2006 5 1,4682 0,7266 2,3323 0,3604 6 0,4227 0,7967 1,8361 1,4566 1,2624 7 3,5229 2,7551 4,1989 2,0355 2,0552 3,2802 8 1,8798 1,1707 2,7715 0,6424 0,4454 1,6242 1,6561 9 3,6531 2,8292 3,8243 2,1081 2,3461 3,5645 1,4074 2,1580 10 1,3798 0,6960 2,3325 0,5012 0,1530 1,1433 2,1479 0,5005 2,4922 Em estudos que utilizam a técnica de variável canônicas como meio de descartes de variáveis com a finalidade de redução de mão-de-obra, tempo e custo despendido na análise e interpretação dos dados experimentais, a importância relativa das características pode ser avaliada pela magnitude dos coeficientes de ponderação destas. Entretanto, como não existe relação direta entre variáveis transformadas Zj’s e as variáveis originais (Xj’s), é necessário, para a avaliação da importância relativa dos caracteres, a obtenção do vetor a (vetor de coeficiente de ponderação das variáveis transformadas), comforme descrito na teoria apresentada. Assim, no Quadro 12 são apresentadas as variáveis canônicas e os respectivos coeficientes de ponderação das variáveis originais. Quadro 12 – Variáveis Canônicas Estabelecidas pela Combinação Linear de 10 Variáveis Originais (X1, X2 , X3, X4, X5, X6, X7, X8, X9, e X10) Variáveis Canônicas VC1 VC2 VC3 VC4 VC5 VC6 VC7 VC8 VC9 VC10 X1 3,63 -0,47 0,57 -0,83 -0,33 0,13 -0,08 0,25 -0,78 -0,47 X2 -6,79 -2,90 4,55 4,09 3,66 3,54 1,30 1,17 -0,04 0,86 X3 -2,11 0,27 -1,97 -0,06 0,56 1,01 0,08 0,33 -0,58 -0,35 Coeficiente de Ponderação (aj) associado X4 X5 X6 X7 X8 3,20 1025,55 -1720,55 -71,60 -200,31 -0,45 -22,75 778,67 -186,68 41,29 1,06 138,56 334,52 532,50 -118,74 0,38 -293,88 336,65 61,25 58,46 -0,30 -316,05 361,43 -31,80 28,87 -0,54 191,88 -155,46 -398,68 13,55 0,14 -212,60 279,69 126,83 -21,19 -0,29 -199,08 123,79 524,99 -38,83 0,39 53,84 -111,18 159,82 -39,88 0,21 540,54 -641,57 -162,72 -56,55 X9 268,43 -44,44 156,64 -73,49 -32,93 -23,72 24,09 54,18 50,99 74,46 X10 23,99 42,45 -10,66 8,53 14,97 -3,01 -18,54 -15,40 19,08 8,73 No entanto, como os coeficientes (elementares de autovetores) são influenciados pela escala de avaliação das progênies, tem sido recomendado a avaliação da importância relativa dos caracteres, a partir de coeficientes associados às variáveis padronizadas, ou seja: ∂j = ajσj (σj= desvio-padrão residual) Esses coeficientes são apresentados no Quadro 13. 30 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 13 – Variáveis Canônicas Estabelecidas pela Combinação Linear de 10 Variáveis Padronizadas (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Variáveis Canônicas VC1 VC2 VC3 VC4 VC5 VC6 VC7 VC8 VC9 VC10 X1 6,87 -0,89 1,08 -1,58 -0,63 0,25 -0,15 0,48 -1,49 -0,9 X2 -1,22 -0,52 0,82 0,74 0,66 0,64 0,23 0,21 -0,01 0,16 X3 -3,73 0,49 -3,47 -0,12 0,99 1,78 0,15 0,59 -1,03 -0,62 Coeficiente de Ponderação (∂j) Associado X4 X5 X6 X7 X8 7,29 32,07 -41,76 -0,55 -28,15 -1,04 -0,71 1,91 -1,43 5,80 2,42 4,33 -8,12 4,07 -16,69 0,88 -9,19 8,90 0,47 8,22 -0,70 -9,88 8,77 -8,24 4,06 -1,25 6,00 -3,77 -3,05 1,88 0,34 -6,65 6,79 0,97 -2,98 -0,66 -6,22 3,00 4,15 -5,46 0,89 1,68 -2,69 1,22 -5,60 0,48 16,90 -15,57 -1,25 -7,95 X9 30,66 -5,08 17,89 -8,39 -3,76 -2,71 2,75 6,19 5,82 8,62 X10 1,57 2,77 -0,70 0,56 0,98 -0,19 -1,21 -0,99 1,25 0,57 Pelos resultados apresentados, os caracteres de menor importância foram, em ordem de descarte, o X5, com o maior coeficiente de ponderação em VC10 (16,90); o X9, com o maior coeficientes de ponderação em VC9 (5,82); o X6, com o maior coeficiente de ponderação em VC7 (6,79). A evidência de que estes caracteres são de menor importância, pode ser dada com base na matriz de correlação entre variáveis (quadro 4). Assim, o descarte de X5 é compensada pela presença de X1, X7 e X10, as quais mantêm alta correlação. Quanto ao descarte de X6, este também é compensado pela presença de X1, X7 e X10. O caracter X9 é compensado, pelo mesmo motivo (alta correlação), pela presença de X8. Vale salientar que na VC8 não houve descarte de variável. Este fato deve-se aos argumentos citados anteriormente de que se em uma variável canônica de menor variância o maior coeficiente de ponderação está associado a um caracter já previamente descartado, tem-se optado por não fazer nenhum outro descarte com base nos coeficientes daquela variável canônica, mas prosseguir a identificação da importância relativa dos caracteres na outra variável canônica imediatamente superior. 4. CORRELAÇÕES CANÔNICAS 4.1. Introdução É comum na pesquisa das várias áreas da ciência ocorrer a necessidade de investigar a relação existente entre dois (ou mais) conjuntos de várias distintas, mas associadas. Assim, por exemplo, nas situações em que o interesse é em estudar as interelações existentes entre a ocorrência de certas comunidades de plantas com relação a composição florística e, por outro lado, as características do solo ou outras características ambientais. Ou então, nos casos em que se interessa avaliar as relações, entre, por exemplo, caracteres de parte a aérea versus sistemas radicular, caracteres agronômicos versus fisiológicos, componentes primários versus componentes secundários da produção, caracteres silviculturas versus caracteres tecnológicos da madeira etc. Esta técnica foi inicialmente descrita por HOTELLING (1935) . Posteriormente consolidada por RAO (1952); MARDIA et al. (1979), ARNOLD (1981), DUNTEMAN (1984), MANLY (1986), JOHNSON e WICHERN (1988), CRUZ e REGAZZI (1994), dentre 31 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza outros. Segundo estes autores a aplicação geral e usual da análise de correlação canônicas consiste em identificar e quantificar as associações entre dois grupos de variáveis. Segundo James e McCulloch (1990), citado por LIBERATO (1995), esta técnica é uma generalização da correlação e regressão que é aplicável quando os tributos de um único grupo de objetivos podem ser divididos naturalmente em dois conjuntos. Do ponto de vista geral, a análise de correlação canônica é uma extensão da regressão múltipla. A análise de correlações canônicas possui cestas propriedades similares às de análise de componentes principais, porém esta última considera as interelações dentro de um grupo de variáveis, enquanto aquela considera a relação entre dois grupos de variáveis (LIBERATO, 1995). O método consiste basicamente em encontrar um vetor de coeficiente para cada um dos grupos de variáveis, tal que a correlação entre as duas combinação lineares seja máxima. Determina-se o primeiro par de combinação lineares que possuam a maior correlação entre todos os pares não-correlacionados com o par selecionado inicialmente, e assim sucessivamente. As combinações lineares são denominadas variáveis canônicas e suas correlações, correlações canônicas. O número de correlações canônicas é igual à dimensão do menor grupo de variáveis. Esta metodologia é usualmente utilizada com variáveis do tipo quantitativa contínua, sendo necessário assumir a existência de normalidade multi-variada quando testes de significância estatísticos são requeridos. Entretanto, segundo MARDIA et al. (1979), a análise também pode ser empregada quando há uma mistura de variáveis quantitativa contínuas e qualitativas, ou se todas as variáveis são qualitativas, conforme citado por DUNTEMAN (1984). Porém, o procedimento tem sido mais utilizado e recomendado quando os dados são originados de variáveis quantitativas. 4.2. Obtenção das Correlações Canônicas e dos Pares Canônicos Seja o primeiro conjunto de variáveis estabelecidos por p caracteres (X1, X2, …, Xp) e as inerentes ao segundo por q caracteres (Y1,Y2, … ,Yq). Vale salientar que a análise de correlações canônicas caracteriza-se por avaliar relações entre dois complexos influenciados, no mínimo, por dois caracteres. O número de correlações canônicas a serem obtidas é igual ao menor número de caracteres que constitui um dos complexos (p ou q), e sua magnitude sempre decresce com a ordem em que são estimados, Seja: X’ = [X1, X2 … Xp] = vetor das medidas de p caracteres que constituem o grupo I Y’ = [Y1, Y2 … Yp] = vetor das medidas de q caracteres que constituem o grupo II Assim, segundo CRUZ e RAGAZZI (1994), o problema estatístico consiste em estimar a máxima correlação entre as combinações lineares de caracteres do grupo I e do grupo II, bem como estimar os respectivos coeficientes de ponderação dos caracteres em cada combinação linear. Sendo X1 e Y1 uma das combinações lineares dos caracteres dos grupos I e II, respectivamente, tem-se; X1 = a1X1 + a2X2 + … + apXp e Y1 = b1Y1 + b2Y2+ … + bpYp 32 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza onde: a’ = [a1 a2 … ap] = vetor 1 x p de pesos dos caracteres do grupo I e b’= [b1 b2 … bp] = vetor 1 x q de pesos dos caracteres do grupo II Por definição, a primeira correlação canônica é aquela que maximiza a relação entre X1 e Y1. As funções X1 e Y1 constituem o primeiro par canônico associado àquela correlação canônica, que é expressa por: Côv (X1,Y1) r1 = _______________________ ∧ ∧ [V(X1).V(Y1)]½ sendo: Côv (X1,Y1) = a’S12 b ∧ V(X1) = a’S11 a ∧ V(Y1) = b’S22 b em que: S11 = matriz p X q de covariâncias entre os caracteres do grupo I S22 = matriz p X q de covariâncias entre os caracteres do grupo II S12 = matriz p X q de covariâncias entre os caracteres dos grupos I e II Nos casos em que se utilizam variáveis padronizadas, têm-se S11 = R11, S22= R22 e S12 = R12, em que R representa uma matriz de correlações. Segundo Morrisom (1976), citado por CRUZ e REGAZZI (1994), a estimação dos vetores a e b é obtida pela maximização da função r2, sujeita à restrição de que a’S11 a = b’S22 b = 1. Estas restrições são necessárias para prover estimadores únicos de a e b, e indicam que cada combinação linear tem variância igual a 1. Assim, o problema estatístico passa a ser estimar a e b tal que utilizando-se dos multiplicadores de Lagrange (λ e δ) e das restrições descritas, estes são obtidos pela solução das seguintes equações: (R-122 R’12 R-111R12 - λI) b = Φ e (R-111 R12 R-122 R’12 - λI) a = Φ Assim:, têm-se a) Primeira correção canônica (r1 ) entre a combinação linear dos caracteres dos grupos I e II é dada por: r1 = [λ1]½ 33 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza em que λ1 é o maior autovalor da matriz (R-111 R12 R-122 R’12) b) O primeiro par canônico é dado por X1= a’X e Y1=b’Y, em que: a = autovetor associado ao primeiro autovalor de (R-111 R12 R-122 R’12), ou de maneira equivalente: b = (R-122 R’12 a), omitindo-se nesta expressão o escalar (a’R12 b)/δ. c) As demais correlações canônicas e os pares canônicos são estimados utilizando-se os autovalores e os autovetores das expressões descritas, de ordem correspondente à p ou q-ésima correlação estimada. CRUZ e REGAZZI (1994) comentam que muitas vezes a obtenção destes autovalores requerem o uso de certas artifícios, pois alguns aplicativos computacionais são específicos para o cálculo de autovalores de matrizes simétricas. Assim, neste caso, usam-se os seguintes fatos: a) Se G é uma matriz real e simétrica, então existe F, tal que G = FF’, em que F é obtida por meio do produto: (C’)-1D½. As matrizes C’e D são, por sua vez, obtidas por operações de congruência em G e elementares em I justaposta a G. Esquematicamente, tem-se: [G : I] ~ … ~ [D : C’] em que: ~ : significa operações de congruência em G e elementares em I; I : matriz identidade; D : matriz diagonal; C : matriz tal que C’G C = D b) Se λ é autovalor de matriz não-simétrica GH , resultante do produto de matriz simétricas G e H, então λ é também autovalor de F’HF , real e simétrica.. Se α é autovetor associado à F’HF , então Fα = a é autovetor associado à GH. c) Para o caso de estimação das correlações, considera-se G = R-111 e H = R12 R-122 R’12 Outra questão é a relacionada com testes estatísticos que consiste, de forma geral, testar a significância do relacionamento entre os dois grupos de variáveis e subsequentes teste para determinar quantas correlações canônicas são significativas, a um determinado nível de probalidade. Segundo CRUZ e REGAZZI (1994), para obtenção deste informação inicia-se um teste de significância da hipótese de que todas as possíveis correlações canônicas são nulas (HO : ρ1 = ρ2 = … = ρs = 0 , s = min {p,q}). Esta hipótese é avaliada pelo teste aproximado de χ2, que segundo Duterman (1948), é dado por: χ 2 S = -t loge [∏ (1 - r2i)] i =1 34 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza em que: t = n - 0,5 (p + q + 3) e n = número de observação experimentais. Segundo estes autores, a estatística está associada a pq graus de liberdade. Se a hipótese é rejeitada, testa-se a hipótese H0 : ρk > 0 e ρk+1 = ρk+2 = … = ρS = 0, por meio de: χ 2 S = -t loge [ ∏ (1 - r2i)], que está associada a i = k +1 χ2 com (p-k)(q-k) graus de liberdade APLICAÇÃO 5 Utilizando o mesmos dados da aplicação 3, ou seja, com base em dados de um teste de progênies de Eucalyptus sp, em que foram avaliadas 10 características (X1, X2, X3, X4, X5, X6, X7, X8, X9, e X10) em 10 progênies, num delineamento em blocos ao acaso com quatro repetições e seis plantas por parcela, realizou-se a análise de correções canônicas. Considerou-se para o presente caso como características do grupo I (X1, X2, X3, X4 e X5 ) e as do grupo II (X6, X7, X8, X9, e X10). Como nos outros procedimentos descritos, utilizou-se do programa GENES (DBG/UFV) para realizações das operações envolvidas. A seguir são apresentadas as matrizes de correlações necessárias para obtenção das correlações canônicas, obtidas a partir do Quadro 4 (matriz de correlações entre as variáveis originais). Quadro 14 – Matriz de Correlações Entre Variáveis do Grupo I 1,0 0,7390 1,0 R11 = 0,6462 0,2407 1,0 0,6999 0,4056 0,9573 1,0 0,9488 0,7043 0,6810 0,7299 1,0 Quadro 15 – Matriz de Correlações Entre Variáveis do Grupo II 1,0 R22 = 0,9645 1,0 0,2355 0,0936 1,0 35 0,2467 0,0728 0,9858 1,0 0,9799 0,9382 0,2280 0,2488 1,0 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 16 – Matriz de Correlações entre Variáveis do Grupo I com Variáveis do Grupo II R12 = 0,9456 0,6978 0,6889 0,7057 0,9983 0,8926 0,7043 0,6600 0,7842 0,9781 0,1573 0,0295 0,2715 0,2551 0,2072 0,1833 0,0081 0,2365 0,2092 0,2096 0,9818 0,7031 0,7017 0,7267 0,9766 Assim, de acordo com o exposto anteriormente, as correlações canônicas e os pares canônicos são apresentados no Quadro 17. Com base nos resultados obtidos, conclui-se que os grupos considerados na análise não são independentes e que as associações intergrupos são estabelecidas, principalmente, pelas influências de: a) Variáveis X3 e X4 são determinantes nas variáveis X8 e X9; b) Variáveis X1 e X5 apresentam existência de relações com as variáveis X6 e X10; c) Com base no 3o par canônico fica evidenciado também a existência de relações entre as variáveis X1 e X5 com as variáveis X6 e X10. Quadro 17 – Correlações Canônicaas e Pares Canônicos Estimados entre as Características do Grupo I e do Grupo II de dez Progênies Caracteres X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 r χ2 1o -0,2991 1,4120 4,6410 -4,4615 -0,6071 45,4341 -49,8536 54,2892 -62,4822 5,5401 4,7350 539,15 ** (GL = 25) 2o -1,3537 0,1947 0,1764 -0,1372 2,0436 2,1719 0,3954 0,5778 -0,5231 -1,6732 1,0078 297,61 ** (GL = 16) Pares Canônicos 3o 3,0768 -0,4106 -0,4455 0,4555 -2,2595 -3,4303 -0,0960 -1,1470 1,0680 3,9911 0,9572 56,06 ** (GL = 9) 4o -0,5881 1,0815 0,4899 0,9232 -1,2376 -1,7715 -0,1389 4,3739 -4,4000 1,9527 0,7036 12,67 * (GL = 4) 5o 0,0853 -0,9816 0,6385 0,0091 0,1646 -0,0602 -0,0193 0,0894 0,1139 0,0374 0,2000 0,71 ns (GL = 1) GL = Graus de Liberdade ** = significância: P < 0,01 * = significância: P < 0,05 ns = não significativo: P > 0,05 4.3. Algumas Aplicações na Área Florestal É crescente o número de exemplos de aplicações de análises multivariadas nas diversas áreas da ciência. Porém, no Brasil, devido à escassez de recursos computacionais, os quais são fundamentais para a utilização destas técnicas, limitou o uso e inibiu o repasse desse 36 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza conhecimento entre os pesquisadores. Entretanto, atualmente com a maior disponibilidade de recursos computacionais, o emprego de tais técnicas tornou-se potencialmente grande e o seu conhecimento indispensável aos pesquisadores da área florestal. Trabalhos visando descrever, discutir e recomendar o uso de técnicas estatísticas multivariadas na análise de dados florestais, são encontrados em literatura. Assim, temos QUEIROZ (1984), o qual focalizou o uso destas técnicas (Componentes Principais, Correlações Canônicas, entre outras) na análise de inventário florestal. Esse mesmo autor comenta que no relativo ao manejo de florestas naturais com base no rendimento auto-sustentado depreende-se ser imprescindível o uso da análise multivariada para detectar e delimitar as unidades básicas de manejo florestal, face ao número elevado de variáveis envolvidas. Semelhantemente, SOUZA (1989) empregou a análise multivariada com o objetivo de explorar a sua potencialidade para manejo de floresta natural na reserva florestal de Linhares ES. Também VAN LAAR (1987) revisou sobre as aplicações da análise multivariada nas mais diversas áreas do campo florestal. Inicialmente, apresenta alguns conceitos básicos de algumas técnicas multivariadas e, em seguida, apresenta uma lista de aplicações, conforme citado no Quadro 18. SOUZA (1993) em revisão, enfocou a utilização de algumas técnicas de análise multivariada (componentes principais, correlações canônicas, entre outras) no estudo de hibridações naturais com o Eucalyptus e também no estudo de híbridos produzidos pelas técnicas de polinização controlada e aberta. Este autor relacionou trabalhos de Potts e Reid (1983, 1985, 1985b), Drake (1980), Ashton e Sandiford (1988), Burgess e Bell (1983) e Ladiges et al. (1981). Quadro 18 – Uso da Análise Multivariada na Área Florestal Autor Bradfield et al. (1984) Burley et al. (1972) Clark et al. (1983) Davidson et al. (1975) Falkenhagen et al. (1978) Fourt (1971) Guiot et al. (1982) Hamabata et al. (1980) Hunter et al. (1984) Johnson et al. (1981) Keenan et al. (1983) Kennel (1966) Kercher (1977) Kuivinen et al. (1982) Lemoine (1981) Liu (1978) Mackenzie et al. (1982) Madgwik (1983) Maze (1981) McClure (1984) Método Comp. Princ., Correl. Can. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Corr. Can. Comp. Princ. Comp. Princ. Corr. Can. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Comp. Princ. Área de aplicação Botânica Florestal Genética Florestal Estudo de Habitats Anatomia da Madeira Genética Florestal Site - Crescimento Estudos Climáticos Botânica Florestal Estudo Site-Crescimento Botânica Florestal Estudo Site-Crescimento Estudo de Crescimento Botânica Florestal Estudos Climáticos Estudo de Crescimento Mensuração Florestal Estudo de Habitats Mensuração Florestal Genética Florestal Botânica Florestal Continua... 37 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 18, Cont. Autor Método Área de aplicação Nef (1985) Corr. Can. Entomologia Florestal Newbery (1984) Comp. Princ. Ecologia Florestal Newcomer (1984) Comp. Princ. Mensuração Florestal Osborne (1984) Comp. Princ. Estudo de Habitats Potts (1983) Comp. Princ. Genética Florestal Radloff (1978) Corr. Can. Classificação de Site Richens (1978) Comp. Princ. Genética Florestal Ross (1971) Comp. Princ. Botânica Florestal Roshton (1978) Comp. Princ. Genética Florestal Stead (1983) Comp. Princ. Botânica Florestal Sterba (1973) Var. Can. Estudo de Site Van Groenewoud (1984) Comp. Princ. Classificação de Site Van Laar (1985) Comp. Princ. Características de Fertiliz. Xu (1984) Comp. Princ. Genética Florestal Comp. Princ. = Componentes Principais Corr. Can. = Correlações Canônicas Var. Can. = Variáveis Canônicas Fonte : VAN LAAR (1987). OBS.: No presente quadro foram apresentadas apenas as citações que envolviam componentes principais, variáveis canônicas e correlações canônicas. 5. ANÁLISE DE VARIÂNCIA MULTIVARIADA 5.1. Introdução A análise estatística multivariada ou simplesmente análise multivariada é o ramo da estatística direcionada ao estudo das amostras e distribuição multidimensionais, ou seja, são métodos estatísticos apropriados para estudos em que várias variáveis são consideradas simultaneamente. Entretanto, apesar de as técnicas multivariadas terem eficiência comprovada e proporcionarem enriquecimento das informações extraídas de dados experimentais, é necessário para seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida técnica ficou limitada no seu uso e do repasse entre os pesquisadores das diversas áreas da ciência no Brasil. Porém, com a incrementação dos recursos da informática nos últimos anos, a técnica atraiu a atenção dos pesquisadores das diversas áreas, tornando o seu emprego potencialmente grande e, consequentemente, o seu conhecimento indispensável. Trabalhos visando descrever, discutir e recomendar o uso de técnicas estatísticas multivariadas na análise de dados florestais são encontrados em literatura (teses, artigos de periódicos, livros, anais de congressos, etc.). Princípios básicos da referida técnica podem ser encontrados em MORRISON (1976); MARDIA et al. (1979); KENDAL (1980); GODOI (1985); CHATFIELD E COLLINS (1986); MANLY (1986); JOHNSON E WICHERN (1988) entre outros. 38 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza É comum em levantamentos e experimentos florestais, mensurações para várias características em uma mesma unidade experimental. Tal procedimento é baseado no fato de que dificilmente uma única variável isoladamente discriminarar ou caracterizarar de maneira adequada a unidade amostral. Normalmente, tais informações são analisadas de maneira parcelada, ou seja, as variáveis são estudadas separadamente, e as comparações entre tratamentos procedidos através das médias e variâncias da variável em estudo, onde conclusões para cada variável são realizadas a um nível α de erro. Entretanto, tal procedimento, possui os incovenientes de não considerar a existência de uma possível estrutura de dependência entre as variáveis e, de não possibilitar ao pesquisador tirar uma conclusão global, concernente às possíveis diferenças entre os tratamentos considerando o conjunto total de variáveis, mantido ao nível α de erro fixado a “priori ”. Assim segundo JAMES e McCULLOCH (1990), quando em um experimento cada unidade experimental é avaliada sob diferentes aspectos, a utilização de análise multivariada é recomendada, pois em virtude dessas variáveis serem consideradas simutaneamente, são obtidas interpretações que muitas das vezes não são possíveis com o uso da estatística univariada. Desta forma, o objetivo do presente trabalho foi o de descrever suscintamente sobre a análise de variância multivariada e exemplificando-a na área florestal. 5.2. Considerações sobre a MANOVA Segundo RAO (1952), tentativas iniciais de generalização das análises univariadas de variância para o caso de variáveis múltiplas foi dado por Wishart (1928), o qual estudou a distribuição amostral simultânea de variâncias e covariâncias em amostras de uma população normal multivariada. Posteriormente, Hotelling (1931) verificou a distribuição T, que é uma extensão natural da distribuição de student para uma população normal multivariada. Wilks (1932), seguindo o método da razão de verossimilhança (Neyman e Pearson, 1908 e 1931; Pearson e Neyman 1930), obteve generalizações apropriadas na análise de variância aplicáveis a diversas variáveis. A estatística proposta por este autores tem sido útil em uma variedade de problemas. Segundo DEMÉTRIO (1985), a análise de variância multivariada (MANOVA), além de fornecer resultados com base na análise conjunta de todos as variáveis utilizadas, levandose em consideração um nível de significância conhecido, permite estimar a melhor combinação de variáveis que leva a um valor de F máximo. Segundo vários autores (SMITH et al., 1962; MORRISON 1967; MARDIA et al., 1979, dentre outros), nas análises multivariadas, são apresentados o teste de Wilks (razão de verossimilhança), o teste de Roy, o traço de Hotelling-Lawley e o teste de Pillai, como as principais alternativas para o teste da hipótese de nulidade de tratamentos e o princípio da união-interseção de Roy, para as comparações múltiplas. Winer (1971), citadas por STUKER (1986), comenta que ao se analisarem os efeitos de tratamentos para variáveis X1, X2, ... , Xp, observadas na mesma unidade experimental, através de análises univariadas, não são levadas em consideração as correlações existentes entre elas. Cita ainda que as respostas simultâneas das unidades experimentais para todas as variáveis, consideradas como uma única resposta, geralmente contém mais informações sobre o efeito total de tratamento do que uma série de respostas consideradas separadamente. Segundo Dagnelie (1982), citado por STUKER (1986), a análise multivariada, em sentido amplo, pode ser considerada como formada por um conjunto de métodos estatísticos, que têm por objetivo o estudo das relações existentes entre várias variáveis dependentes ou independentes, e que a análise da variância multivariada tem por objetivo comparar as médias de mais de duas populações. 39 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Este mesmo autor apresenta a seguinte hipótese multivariada: H0: m1 = m2 = ... = mk onde mg é o vetor de médias das p variáveis, associado ao tratamento g (g = 1, 2, ... , K), e como critérios de teste de H0 cita o de Wilks, o de Roy e o de Hotelling-Lawley. Para comparações múltiplas, cita o princípio da união-interseção de Roy. Quanto às pressuposições do modelo, MARDIA et al. (1979) comenta sobre o efeito de não-normalidade e Ito e Shull (1971) e Korin(1972) mostram que os resultados dos testes não são grandemente afetados por heterogeneridade das matrizes de variâncias e covariâncias, quando o número de repetições é grande e o mesmo para todos os tratamentos. Segundo JAMES e McCULLOCH (1990), MANOVA é um procedimento para testar diferenças entre grupos de acordo com as médias de todas as variáveis, sendo o procedimento aplicado a dados com distribuição normal multidimensional. É possível obter resultados nãosignificativos em testes univaridos e resultados significativos em teste multivariado e viceversa (MANLY, 1986). Como exemplo, DEMÉTRIO (1985) em estudo comparativo entre métodos de análise univariada e multivariada, em experimentos conduzido em blocos casualizados, verificou que no caso do modelo multivariado o número de diferenças significativas entre médias de tratamento é menor que no caso univariado; isso porque no caso do modelo multivariado o critério de rejeição é mais rigoroso por levar em consideração um nível de significância conjunto, enquanto que no modelo univariado o nível de significância é tomado isoladamente por análise. 5.2.1. Desenvolvimento Matemático A análise de variância multivariada é um método alternativo mais geral, uma vez que não faz qualquer restrição quanto a estrutura de variância e covariâncias, de medidas tomadas sobre a mesma unidade experimental. Pode-se efetuar a análise multivariada da variância para qualquer tipo de delineamento experimental. Entretanto, para o presente estudo será considerado para efeito demonstrativo o modelo de delineamento experimental em blocos casualizados multivariado com J blocos e I tratamento, em que são medidas K características. O modelo estatístico admitido para análise e suas pressuposições de restrições são: Yijk = µk + tik + bjk + eijk em que: i = 1, 2, ... , I j = 1, 2, ... , J k = 1, 2, ... , K onde: Yijk = é o valor observado da k-ésima característica, sob o i-ésimo tratamento, no j=ésimo bloco; µk = é a média geral da k-ésima característica; tik = é o efeito do i-ésimo tratamento na k-ésima característica; bjk = é o efeito do j-ésimo bloco na k-ésima característica; 40 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza eijk = é o erro aleatório específico da ijk-ésima combinação de tratamento, bloco e característica. Sendo: k a) ∑ ti = Φ , ti’= [ ti1, ti2., ... ,tik], sendo ti ~ Np (Φ , Σt) i=1 b) bj ~ Np(Φ, Σb), independentes, bj’= [bj1, bj2 , ... ,bjk] e Σb = matriz de variânicas e covariâncias, comum a todos os blocos ( j = 1, 2, ... ,J); c) O vetor de efeitos residuais eij’ = [eij1, eij2, .... ,eijk] tem distribuição multinormal K-dimensional com vetor de médias nulo e matriz de variância e covariância ∑e, comum a todas as combinações i e j , sendo os eij correspondentes às diferentes unidades experimentais em cada bloco, independentemente distribuídos; ou seja, eij ~ Np(Φ, Σe), d) bj e eij são independentes. Na forma matricial tem-se: Y = Xβ + ε onde, ⇒ é a matriz das observações; YK IJX(1+I+ J) ⇒ é a matriz de incidência; (1+I+J)βK ⇒ é a matriz dos parâmetros; e IJ IJεK ⇒ é a matriz dos erros aleatórios. Mais detalhadamente tem-se: Y= Y111 Y121 … Y1J1 Y112 Y122 … Y1J2 … … … … Y11K Y12K … Y1JK Y221 Y221 … Y2J1 Y212 Y222 … Y2J2 … … … … Y21K Y22K … Y2JK … … … … YI11 YI21 … YIJ1 YI12 YI22 … YIJ2 … … … … YI1K YI1K … YIJK = [Y1 Y2 … YK] IJ x K 41 MANEJO FLORESTAL – DEF/UFV X= β= Prof. Agostinho Lopes de Souza 1 1 … 1 1 1 … 1 0 0 … 0 … … … … 0 0 … 0 1 0 … 0 0 1 … 0 … … … … 0 0 … 1 1 1 … 1 0 0 … 0 1 1 … 1 … … … … 0 0 … 0 1 0 … 0 0 1 … 0 … … … … 0 0 … 1 ... … … … ... … … … … 1 1 … 1 0 0 … 0 0 0 … 0 … … … … 1 1 … 1 1 0 … 0 0 1 … 0 … … … … 0 0 … 1 µ1 µ2 … µK t11 t21 … tI1 t12 t22 … tI2 … … … … t1K t2K … tIK b11 b21 … bJ1 b12 b22 … bJ2 … … … … b1K b2K … bJK IJ x (1 + I + J) = [B1 B2 … BK] (1+I+J) x K ε= e111 e121 … e112 e122 … … … … e11K e12K … e’11 e’12 … e1J1 e1J2 … e1JK e’1J e211 e221 … e2J1 e212 e222 … e2J2 … … … … e21K e22K … e2JK e’21 e’22 … e’2J … … ... … … eI11 eI21 … eIJ1 eI12 eI22 … eIJ2 … … … … eI1k eI2K … eIJK e’I1 e’I2 … e’IJ = 42 = [ e1 e2 … e K] MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Logo, Y= [Y1 Y2 … YK] = [XB1 XB2 … XBK] + [e1 e2 … eK] e, portanto, para cada variável k = 1,2, … , K), tem-se: Yk = Xβ + ek As equações normais e os estimadores dos parâmetros são obtidos tomando-se o modelo linear multivariado na forma matricial Y = Xβ + e , e usando o método de mínimos quadrados, obtém-se o sistema de equação normais: X’XBo = X’Y. Assim, da mesma forma que no modelo univariado, as somas de quadrados e as somas de produtos são obtidos. De Y = Xβ + e , obtém-se, pelo método de mínimos quadrados, que ε’ ε = Y’Y - Bo’X’Y onde: ε ‘ ε = é a matriz de somas de quadrados e de produtos do resíduos; Y’Y = é a matriz de somas de quadrados e de produtos do total; BoX’Y= é a matriz de somas de quadrados e de produtos de parâmetros. Desta forma, obtém-se então que: SQTratamentos k = (1/J) ∑ T2ik - (1/IJ) G2k i SPTratamentos k,k’ = (1/J) ∑Tik Tik’ - (1/IJ) GkGk’ i SQBlocos k = (1/I) ∑ B2jk - (1/IJ) G2k j SPBlocos k,k’ = (1/I) ∑ Bjk Bjk’ - (1/IJ) GkGk’ j SQTotal k = ∑∑ Y2ijk - (1/IJ) G2k i j SPTotal k,k’ = ∑∑ Yijk Yijk’ - (1/IJ) GkGk’ i j SQResíduo k = SQTotal k - SQTratamentos k - SQBlocos k SPResíduo k,k’ = SPTotal k,k’ - SPTratamentos k,k’ - SPBlocos k,k’ em que: I J Gk = ∑ ∑ Yijk i=1 j=1 J Tik = ∑ Yijk j=1 I Bjk = ∑ Yijk i=1 43 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza para k,k’= 1, 2, … , K e k ≠ k’ Logo, T = H + B + R onde: KTK = matriz de soma de quadrados e produtos referentes a totais; KHK = matriz de soma de quadrados e produtos referentes a tratamentos; KBK = matriz de soma de quadrados e produtos referentes a blocos; KRK = matriz de soma de quadrados e produtos referentes ao resíduo. O esquema da análise de variância multivariada é apresentado no Quadro 1. Quadro 18 – Esquema Análise da Variância Multivariada para o Delineamento em Blocos ao Acaso Causas de Variação Blocos Tratamentos Resíduo Total Matrizes de Somas de Quadrados e de Produtos B H R T Graus de Liberdade (*) J-1 I-1 (I-1) (J-1) IJ-1 ( ) * - Os graus de liberdade são obtidos de maneira análoga ao caso univariado. A hipótese de interesse a ser testada, em geral, é a de que não existem efeitos de tratamentos, ou seja, a hipótese de nulidade dos vetores efeitos de tratamento, ou seja: H0 : t1 = t2 = … tI = Φ Matricialmente, tem - se: t11 t12 … t1K H0 : t21 t22 … t2K = = … = tI1 tI2 … tIK = 0 0 … 0 Ou ainda: H0 : C’B W = Φ onde: C’= 0 0 … 0 1 0 … 0 -1 1 … 0 0 -1 … 0 … … … … 0 0 … 1 0 0 … -1 0 0 … 0 44 … … … … 0 0 … 0 (I-1) (1+I+J) MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza com posto (I-1); e, W é uma matriz de dimensão K x W, de posto W ≤ K, que identifica as variáveis que estão sendo testadas por H0. GODOI (1985) apresenta e discute quatro critérios para teste de hipótese linear geral da forma: H0: C’BW = Φ todos baseados em c’is, que são os auto-valores de (W’RW)-1 W’HW, onde, H = (C’B0)’[C’(X’X)-C]-1 (C’B0) R = Y’Y - B0’X’Y Se W = I(k), isto é, posto W = K, obtemos o caso particular, H0 : C’B = Φ , neste caso todas variáveis estão contidas no teste da hipótese H0. A matriz H é usualmente designada como a matriz de soma de quadrados e de produtos da hipótese H0 testada e R, como a matriz de somas de quadrados e de produtos de resíduo. Os quatros critérios estatísticos referidos anteriormente são: s T20 = tr (R-1H) = ∑ ci i=1 s s i=1 i=1 V = tn [H (H+R) ] = ∑ θi = ∑ [ci / (1 + ci)] -1 s s i=1 i=1 Λ = | R | / | H+R| = Π [1 / (1+ci)]= Π (1-θi) θ1 = c1 / (1 + c1) ou c1 = θ1 / ( 1 - θ1) onde: c1 = maior auto-valor de R-1H θ1 = maior auto-valor de H(H+R)-1 s = número de raízes características não nulas de R-1H O critério T20 foi proposta por Hotelling-Lawley e é conhecido como o critério do traço ou da soma dos auto-valores. Sob H0, 2(sn’ + 1) ____________________ 2 T20 s (2m’+ s + 1) é aproximadamente distribuído como: Fs (2m’ + s + 1) , 2(sn’ + 1) 45 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza O segundo critério , V, é o critério do traço de Pillai, que sob H0 , (2n’ + s + 1) V ________________ _________ (2m’ + s + 1) (s-V) é aproximadamente distribuído como: Fs (2m’ + s + 1 ) , s (2n’ + s + 1) O terceiro critério, Λ, é o critério da razão de verossimilhança, devido a Wilks, onde: X2 = - [ne - ½(p - q +1)] loge Λ p, q, ne, tem distribuição exata de χ2pq, ∝ rejeita-se H0 se: X2 > Cχ2pq,∝, onde C é encontrado na tabela de Schazoff (1966) Casos particulares em que tem-se distribuição exata de F, q = 1, ∀p ⇒ q = 2, ∀p ⇒ 1 - Λ (ne - p - 1) _________ _______________ Λ p 1 - [Λ]1/2 ne- p + 1 ____________ _____________ [Λ] p = 1, ∀q ⇒ p = 2, ∀q ⇒ 1/2 Λ ~ F2p,2(ne-p+1) q 1-Λ ne __________ ______ ~ Fq,ne (unidimensional) q 1-[Λ]1/2 ne-1 ___________ _______ [ Λ] ~ Fp,ne-p+1 1/2 ~ F2q,2(ne-1) q Tem-se ainda que para p ≥ 3 e q ≥ 3, m’s-2λ 1 - Λ1/s ___________ ___________ pq Λ , é aproximadamente distribuído como: Fpq , (m’s-2λ) 1/s onde (m’s-2λ) indica o maior inteiro que não supera (m’s - 2λ), e m’ = ne - ❽(p+q+1) λ = (pq - 2) / 4 s = [(p2q2 - 4) / (p2 + q2 - 5) ]½ 46 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza O último critério, θ1, foi desenvolvido por Roy e é conhecido como o critério do maior auto-valor de Roy. Baseado neste critério, não se rejeita a hipótese H0 a um nível ∝ de significância, se: θ1 ≤ X∝, s, m’,n’ ou c1 ≤ X ∝, s, m’,n’ _________________ 1 - X ∝, s,m’,n’ X ∝, s,m’,n’ pode ser encontrado em ábaco (MORRISON 1981). Para o primeiro, segundo e último critério tem-se que, S = min (q, p) m’= ½ ( | p - q | - 1) n’= ½ (ne - p - 1) e para ambos os critérios, q = posto (c’) = I -1 p = número de variáveis = K ne = n - posto (X) = (I-1) (J-1) APLICAÇÃO 1 Como exemplo será utilizado dados de um experimento cujo objetivo foi o de verificar a exitência de variação entre 28 progenitores de Eucaliptus sp.s em relação a 10 característica silviculturais (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10). O delineamento estatístico utilizado foi o de blocos casualizados com 4 repetições. As análises de variâncias foram realizadas considerando-se cada característica separadamente (ANOVA - Análise de Variância Univariada) (Quadro 19) e o conjunto das 10 carcterísticas simultaneamente (MANOVA - Análise de Variância Multivariada) (Quadro 20). No caso da ANOVA utilizou-se o método de mínimos quadrados visando obtenção do sistema de equações normais, estimadores dos parâmetros, a partição da soma de quadrado total e o númerro de graus de liberdade associado a cada fonte de variação, de acordo com o modelo estatístico adotado. O procedimento adotado foi o mesmo usualmente encontrado na literatura cujas demostrações serão omitidas por não ser o objetivo principal desse estudo. Quanto ao procedimento MANOVA, será conforme descrito nos itens anteriores desse estudo. Dado o volume de operações envolvidas, utilizou-se do programa SAEG (UFVViçosa/MG) para realizações das análises. A seguir são apresentados os resultados finais apresentados pela listagem obtidas pelo programa. 47 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Quadro 19 – Resumo da Análise de Variância Univariada das 10 Características Silviculturais (X1, X2, X3, X5, X6, X7, X8, X9 e X10) Referente a 28 Progenitores de Eucalyptus sp. Fontes de GL Variação X1 X2 X3 X4 14,3855 0,0021 Resíduo 81 0,7836 0,5878 1,0404 10,19 0,66 15,96 11,88 0,07 0,05 8,68 9,67 4,81 8,58 18,47 19,01 0,0029 0,00009 0,000008 0,002 0,016 17,95 0,0023 X10 27 1,9810** 0,0117** 1,8766** 3,5489** 0,0005** 0,0004** 0,00002** 0,0018n.s. 0,0015n.s. 0,0024** 0,0040 0,0001 X9 Progênie 0,0002 0,0013 X8 Bloco CV (%) 6,8242 X7 3 6,6683 Média Xk 0,0337 Quadrados Médios X5 X6 0,0013 0,0067 0,0008 0,487 0,368 0,14 9,55 9,94 19,83 ** - significativo pelo teste F (P ≤ 0,01) * - significativo pelo teste F (P ≤ 0,05) n.s - não significativo pelo teste F ( P ≥ 0,05) X1 - Diâmetro Altura do Peito (DAP) X6 - Volume sem Casca X2 - Densidade Básica X7 - Volume de Casca X3 - Altura Total X8 - Fator de Forma sem Casca X4 - Altura Comercial X9 - Fator de Forma com Casca X5 - Volume com Casca X10 - Volume Cilíndrico Quadro 20 – Resumo da Análise de Variância Multivariada Considerando as 10 Características Simultâneamente (X1, X2, X3, X4, X5, X6, X7, X8, X9 e X10) Referente aos 28 Progenitores de Eucalyptus sp. Fontes deVariação GL Matrizes de Soma de Quadrados e de Produtos Blocos 3 B Progenitores 27 H Resíduo 81 R 111 T TOTAL Os resultados obtidos pela ANOVA (Quadro19) mostram diferença significativa entre progenitores, pelo teste F (P < 0,01), para as características X1, X2, X3, X4, X5, X6, X7, e X10). Entretanto, para as características X8 e X9, o teste F apresentou resposta não - significativa (P > 0,05) entre progenitores. Quanto aos resultados obtidos pela Análise de Variância Multivariada, estes são apresentados no Quadro 20 e, em seguida são apresentados os testes de significância. 48 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Matriz B (Matriz de Soma de Quadrados e Produtos Referentes a Bloco) X1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 20.0050 X2 X3 X4 X5 X6 X7 X8 X9 X10 0.7556 19.6253 28.5747 0.3226 0.2653 0.0772 0.2956 .02695 0.6333 0.1010 0.6684 0.0071 0.0054 0.0017 0.0019 0.0023 0.0021 19.6253 0.4449 20.4728 29.7222 0.3601 0.2795 0.0806 0.3334 0.3016 0.6326 28.5747 0.6684 29.7222 43.1565 0.5226 0.4056 0.1170 0.4814 0.4357 0.9203 0.3426 0.0071 0.3601 0.5226 0.0063 0.0049 0.0014 0.0059 0.0054 0.0111 0.26254 0.0054 0.2795 0.4056 0.0049 0.0038 0.0011 0.0046 0.0042 0.0086 0.0772 0.0017 0.0806 0.1171 0.0014 0.0011 0.0003 0.0013 0.0012 0.0025 0.2956 0.0019 0.3334 0.4814 0.0059 0.0046 0.0013 0.0087 0.0078 0.0097 0.2696 0.0023 0.3016 0.4357 0.0054 0.0042 0.0012 0.0078 0.0070 0.0083 0.6332 0.0211 0.6326 0.9203 0.0110 0.0085 0.0025 0.0097 0.0088 0.0201 0.7555 0.4449 Matriz H (Matriz de Soma de Quadrados e Produtos Referentes a Tratamentos (progenitores)) X1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 53.4879 2.3392 X2 X3 X4 X5 X6 X7 X8 X9 X10 2.3392 38.3555 54.8376 0.8173 0.6499 0.1673 0.1060 0.2597 1.8343 0.3170 0.0325 0.02241 0.0101 -0.0056 -0.0261 0.0753 0.3111 0.7701 38.3555 0.3111 50.6679 68.3037 0.6947 0.5726 0.1221 0.5545 0.7656 1.4055 54.8376 0.7701 68.3037 95.8201 0.9786 0.8040 0.1745 0.7893 1.0600 1.9644 0.8173 0.0325 0.6947 0.9786 0.0139 0.0111 0.0028 0.0067 0.0087 0.0292 0.6499 0.0224 0.5725 0.8040 0.0111 0.0091 0.0021 0.0057 0.0079 0.0233 0.1673 0.0101 0.1221 0.1745 0.0028 0.0021 0.0006 0.0011 0.0008 0.0058 0.1061 -0.5684 0.5545 0.7893 0.0067 0.0056 0.0011 0.0491 0.0413 0.0070 0.2598 -0.0261 0.7656 1.0610 0.0088 0.0079 0.0008 0.0413 0.0409 0.0126 1.8344 0.0753 1.4054 1.9644 0.2915 0.0233 0.0058 0.0070 0.0126 0.0647 49 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Mariz E (Matriz de Soma de Quadrados e Produtos Referentes ao Resíduo) X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X1 X2 X3 63.4790 2.5568 35.7705 50.3686 0.7339 0.5699 0.1640 -1.4247 -0.9747 1.9399 2.5567 0.3254 1.9244 2.4774 0.0348 0.0255 0.0093 -0.0461 -0.0405 0.0827 X4 X5 35.7705 50.3686 0.7339 1.9244 2.4774 0.00348 47.6119 59.9386 0.6334 59.9386 84.2742 0.8936 0.6334 0.8935 0.1257 0.4938 0.7001 0.0098 0.1380 0.1934 0.0028 -0.0924 0.2014 -0.0007 -0.0562 0.3392 0.0012 1.2535 1.6773 0.0248 X6 X7 X8 X9 X10 0.5699 0.0255 0.4954 0.7001 0.0098 0.0077 0.0021 -0.0001 0.0017 0.0194 0.1640 0.0093 0.1380 0.1935 0.0028 0.0021 0.0007 -0.0007 -0.0005 0.0055 -1.4248 -0.0461 -0.0924 0.2014 -0.0007 -0.0001 -0.0007 0.1751 0.1258 -0.0404 -0.9747 0.0405 0.0562 0.3392 0.0012 0.0017 -0.0005 0.1358 0.1085 -0.0275 1.9399 0.0827 1.2535 1.6774 0.0249 0.0194 0.0055 -0.0405 -0.0275 0.0629 Os testes para a hipótese H0: C’BW = φ, ou seja, a não existência de variação entre progenitores referentes às 10 características consideradas simultaneamente, são apresentados na sequência. a) Teste de Hotelling-Lawley Os parâmetros da distribuição são: S = mín (27,10) = 10 m’ = ( |10 - 27| - 1) / 2 = 8 n’ = (81 - 10 -1) / 2 = 35 T20 = 8,488 (resultado SAEG) 2( Sn’ + 1) _____________________ S2(2m’+ S + 1) T20 = 2,21 Admitindo ∝ = 0,05 têm-se F0.05, 270, 702 ≅ 1,0 , ou para ∝ = 0,01 tem-se F0.01,270, 702 ≅ 1,0, então a hipótese H0 foi rejeitada ao nível de 1% de probabilidade pelo teste de HotellingLawley (T20) b) Teste de Pillai Tem-se, também, os parâmetros: S = 10 m’ = 8 n’ = 35 V = 3,8024 (resultado SAEG) 2n’+ S + 1 V _______________ _______ 2m’+ S+ 1 S-V = 1,84 50 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Admitindo ∝ = 0,05 têm-se F0.05, 270, 810 ≅ 1,0, ou para ∝ = 0,01 têm-se F0.01, 270, 810 ≅ 1,0, rejeita-se a hipótese H0 ao nível de 1% de probabilidade pelo teste de Pillai. c) Teste de Wilks Os parâmetros da distribuição são: m’= 81 - (10+27+1) / 2 = 62 λ = (270 -2) / 4 = 67 S = {(102 272 - 4) / (102 + 272 - 5)}½ = 9,41 Λ = 0,00473 (resultado SAEG) m’S - 2λ 1-Λ1/S _____________ _________ pq Λ = 1,27 1/S Admitindo ∝ = 0,05 têm-se F0.05, 270, 628 ≅ 1,0 , ou para ∝ = 0,01 têm-se F0,01, 270, 628 ≅ 1,0 , rejeita-se H0 ao nível de 1% de probabilidade pelo teste de Wilks. d) Teste de Roy Os parâmetros, para este teste, são: S = 10 m’= 8 n’ = 35 θ1 = 2,6332 (resultado SAEG) Admitindo ∝ = 0,05 pelo Ábaco…, encontrado em MORRISON (1981), têm-se χ 0.05, 10, 8, 35 = , ou para ∝ = 0,01 e pelo Ábaco χ 0.01, 10, 8, 35 = , rejeita-se, também, H0 ao nível do 1% de probabilidade pelo teste de Roy. Verifica-se, então, que a hipótese H0 foi rejeitada ao nível de 1% de probabilidade, para todos os 4 testes aplicados, ou seja, os progenitores diferem entre si com relação às 10 características avaliadas simultaneamente, ou ainda, com base nesta análise, pode-se afirmar que existe variação entre os progenitores estudados. Desta forma, se o pesquisador deseja informações por cada classe separadamente, uma análise univariada é suficiente. Entretanto, se o interesse é uma conclusão conjunta de todas as classes, a análise multivariada deve ser preferida, pois além de todas as conclusões serem realizadas ao nível de significância pré-estabelecido, toda a informação de variação (correlação) é considerada. 5.3. Procedimentos para Comparações Múltiplas Quando a hipótese de nulidade H0: C’BW = Φ é rejeitada, não se sabe quais tratamentos ou combinações de tratamentos diferem entre si. Assim, torna-se necessário 51 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza utilizar-se de procedimentos de comparação múltiplas entre os tratamentos ou combinações destes a fim de definir quais os efeitos de tratamentos que diferem ente si. Os procedimentos para testar a hipótese H0: m1 = m2 = ... = mI são usados numa análise preliminar pois eles deixam sem respostas algumas inportantes questões relativas a comparações efetivas entre tratamentos, conforme já comentado. Entretanto, através de contrastes pode-se obter respostas mais específicas a respeito de hipóteses de interesse. Isto é, os contrastes lineares ajudam a detalhar mais sobre a questão de comparações entre tratamentos. Um contrastes linear é uma combinação linear entre os vetores médias dos tratamentos e constantes (c) orbitrárias tais que ∑ ci ni = 0. Ou um contraste é o vetor linha. W= c1w1 + c2w2 + … +cIwI Assim, a hipótese agora pode ser considerada da seguinte forma: H0: W = 0 versus Ha: W ≠ 0 Desta forma pode-se efetuar comparações entre os vetores médios dos tratamentos assim como é realizado no caso univariado. Vale salientar que para cada contraste é calculado um resíduo adequado. Quando se trabalha com contraste ortogonais, sabe-se que (I-1) graus de liberdade decompõe se em (I -1) contraste com um grau de liberdade cada. Cada hipótese montada é testada usando a estatística “Λ” (critério da razão de verossimilhança devido a Wilks) ou “T02”de Hottling”da seguinte forma: H0: W = 0 vs H0: w ≠ 0 Ws = c1m1 + c2m2 + … + cImI onde: mI = Yi. / ni e S = 1,2,…,I Usando a estatística Λ (critério da razão de verossimilhança, devido a Wilks), tem-se: |R| ΛS = _____________ S = 1, 2,…, (I-1) | HS + R | e as matrizes HS passam a ser: HS = (hKK’)S , S = 1,2,…, (I -1) hKK’ = W’KWK’ ____________ K,K’= 1, 2, … , K para K≠K’ K ∑ nici2 i=1 52 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza Rejeita-se H0 para valores menores que Λ(K,1,ne) Usando a estatísca T02 de Hotteling, têm-se: T02 = WS ___________ ∑nici2 R S-1WS onde S-1 = ____ ne Rejeita-se H0 para valores maiores que T02 (K,ne,∝) Mais detalhes sobre estes procedimentos descritos acima podem ser encontrado em NEGRILLO e PERRE (1987) Entretanto, segundo STUKER (1986), o princípio de união interseção de Roy é o mais adequado, pois permite calcular os limites de confiança simultâneos para todas conbinações lineares dos elementos da matriz C’BW, com uma probabilidade conjunta (1-∝). Além disso, este é tido como uma continuação lógica do teste de significância do maior autovalor (Teste de Roy). Conforme citado por MARDIA (1979) tem-se os intervalos de confiança simultâneos: P { [(c’Bºl - c’Bl)2] / [l’Rlc’(X’X)-c] } ≤ [χ χ∝ / (1 - χ∝)] ∀l , ∀c/c = Cd = 1 - ∝ então, c’Bºl ± { [χ χ∝ / (1 - χ∝)] [l’Rlc’(X’X)-c] }❽ são os intervalos de confiança para c’Bºl. onde, c’ ⇒- é um vetor de dimensões [1 x (I+J+1)] arbitrário, que possui os coeficientes das conbinações de tratamentos; l⇒ é um vetor de dimenções (K x 1), arbitrário, que seleciona uma variável ou uma combinação de variáveis, e χ∝ ⇒ é valor crítico de Roy ao nível ∝ de probabilidade, podendo ser encontrado em ábacos (MORRISON 1981) com parâmeros: S = mín (I-1, K) |I-K-1| -1 m’= _____________ 2 I (J-1) - (J-K) n’= _________________ 2 53 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza No caso de c e l serem fixados a “priori” os limites de confiança podem ser obtidos trocando-se: χ∝ 1 ________ _______________ por F1, (I-1)(J-1), ∝ 1-χ χ∝ (I-1)(J-1) Para c fixado a priori e todo l fixado a “posteriori”, troca-se: χ∝ ________ 1-χ χ∝ K por _______________________ FK, (I-1)(J-1) - K + 1, ∝ (I-1)(J-1) - K + 1 Para o caso de K = 1, tem-se: S = mín (I - 1, K) = 1, troca-se: χ∝ ________ 1-χ χ∝ I-1 por _______________ F(I-1), (I-1)(J-1), ∝ (I-1)(J-1) l’Rl = SQRes , pois l’= [1] Assim, se c não for estabelecido a “priori”, o intervalo adequado será: P {| c’Bº - c’B | ≤ [ c’(X’X)-c SQRes {(I-1) / I-1)(J-1)} F(I-1),(I-1)(J-1), ∝ ]1/2} = 1-∝ ( logo, os limites de confiança ficam: c’Bº ± {c’(X’X)c QMRes (I-1) F(I-1), (I-1)(J-1) ; ∝}1/2 que é a expressão obtida por SCHEFFE(1953). Para ambos os casos discutidos anteriormente, rejeita se H0: c’Bl = 0, ao nível ∝ de significância se o intervalo de confiança ao nível (1-∝) não contiver a origem. Mais detalhes sobre estes e outros procedimentos para comparações múltiplas podem ser encontrados em MARDIA et al.(1979), MORRISON (1981), GODOI (1985), MANLY(1986), NEGRILLO e PERRE(1987) JOHNSON E WICHERN(1988), entre outros. Estes autores discutem procedimentos para estimação e testes de hipóteses. 54 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza 6. REFERÊNCIAS BIBLIOGRÁFICAS ADAMS, M.W. & WIERSMA, J.V. An adaptation of principal components analysis to an assessment of genetic distance. Research Refort, 347: 2-7, 1978. ARNOLD, S.F. The theory of linear models and multivariate analysis. New York, John Wiley & Sons, 1981. 475p. ARUNACHALAM, V. 226-36, 1981. Genetic distance in plant breeding. Indian Jour. of Genetics, 41: CAMPBELL, N.A. & ATCHLEY, W.R. The geometry of canonical variate analysis. Systematic Zoology, 30: 268-80, 1981. CAMUSSI, A.; OTTAVIANO, E.; CALINSKI, T.; KACZMAREK, Z. Genetic distances based on quantitative traits. Genetics, 11: 945-62, 1985. CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. Ney York, London: Chapman and Hall, 1986. 246p. CHATFIELD, C. & COLLINS, A.J. Introduction to multivariate analysis. New York, London: Chapman and Hall, 1986. 242 p. CRUZ, C.D. & REGAZZI, A.J. Modelos biométricos aplicados ao melhoramento genético. Viçosa, UFV, 1994. 394 p. CRUZ, C.D. Algumas técnicas de análise multivariada no melhoramento de plantas. Piracicaba, ESALQ/USP, 1987. 75 p. (Monografia) CRUZ, C.D. Aplicação de algumas técnicas multivariadas no melhoramento de plantas. Piracicaba, ESALQ/USP, 1990. 188 p. (Tese D.S.) DEMÉTRIO, C.G.B. Análise multidimensional para dados de cana-de-açúcar. Piracicaba, ESALQ, 1985. 144 p. DUNTEMAN, G.H. Introduction to multivariate analysis. Beverly Hills: Sage Publications, 1984, 237p. GODOI, C.R. de M. Análise estatística multidimensional. Piracicaba-SP, USP/ESALQ, Depto. de Matemática e Estatística, 1985. 187 p. HOTELLING, H. Analysis of a complex of statistical variables into principal components. J. Educ. Psichol., Washington D.C., v.24, p.417-41, 1933. HOTELLING, H. Simplified calculation of principal components. Psychometrika, Baltimore, v.1, p. 27-35, 1936. JAMES, F.C. & McCULLOCH, C.E. Multivariate analysis in ecology and systematics: Panacea or pandora’s box? Annual Review Ecology Systematic, 21:129-66. 1990. JOHNSON, R.A. & WICHERN, D.W. Cliffs, Prentice Hall, 1988, 607 p. Applied multivariate analysis. 2.ed. Englewood 55 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza JOHNSON, R.A. & WICHERN, D.W. Applied multivariate statistical analysis (2a ed.). Englewood Cliffs, Prentice Hall, 1988. 607 p. JOLLIFFE, I.T. Discarding variables in a principal component analysis; I. Artificial data. Appl. Stat, Série C, London, v.21, p.160-73, 1972. JOLLIFFE, I.T. Discarding variables in a principal component analysis; II . Real data. Appl. Stat, Série C, London, v.22, p.21-31, 1973. KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209 p. KENDALL, M. Multivariate analysis. High Wycombe, Charles Griffin, 1980. 209p. KENDALL, M.G. Factor analysis as a statistical techiniques. J. R. Statist. Soc., B, 22: 60-73, 1950. LIBERATO, J.R. Aplicações de técnicas de análise multivariada em fitopatologia. Viçosa, UFV, 1995. 144 p. (Tese M.S.) MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall, 1986. 159 p. MANLY, B.F.J. Multivariate statistical methods: A primer. London, Chapman and Hall, 1986. 159 p. MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. Academic Press, 1979. 521 p. MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London, Acad. Press, 1979. 521 p. MORRISON, D.F. Multivariate statistical method. McGraw - Hill Book Co., 1976. 415 p. MORRISON, D.F. Multivariate statistical methods (2a ed.). New York, Mc Graw-Hill, 1976. 415 p. NEGRILLO, B.G. & PERRE, M.A. Métodos multivariados e aplicações. Londrina-PR, Depto. de Matemática Aplicada - VEL, 1987. 91 p. QUEIROZ, W.T. de. O uso da análise multivariada nos levantamentos florestais. Simpósio sobre Inventário Florestal, 2, Piracicaba, 1984, pág. 103-6. In: RAO, C.R. Advanced statistical methods in biometric research. New York, John Wiley & Sons, 1952. 389 p. RAO, R.C. Advanced statistical method in biometric research. John Wiley and Son, 1952. 390 p. SAKAGUTI, E.S. Utilização de técnicas de análise multivariada na avaliação de cruzamentos dialélicos em coelhos. Viçosa, UFV, 1994. 181 p. (Tese M.S.). SINGH, R.K. & CHAUDHARY, B.D. Biometrical methods in quantitative genetic analysis. New Delhi, Kalyani Publishes. 1979. 304 p. 56 MANEJO FLORESTAL – DEF/UFV Prof. Agostinho Lopes de Souza SMITH, H.; GNANA DESIKAN, R.; HUGHES, J.B. Multivariate analysis variance (MANOVA). Biometrics, 18:22-41. 1962. SOUZA, A.L. de. Análise multivariada para manejo de florestas naturais: alternativas de produção sustentada de madeiras para serraria. Curitiba, UFPR, 1989. 255 p. (Tese D.S.) SOUZA, A.L. de.; HOSOKAWA, R.T.; KIRCHNER, F.F.; MACHADO, S.A. Análise multivariada para manejo de floresta natural na reserva florestal de Linhares, Espírito Santo: análises de agrupamento e discriminante. Rev. Árvore, v.14, n.2, p.85-101, 1990. SOUZA, I.C.G. Aplicação de algumas técnicas de análise multivariada no estudo de híbridos de Eucalyptus spp. Piracicaba, ESALQ/USP, 1993 (Monografia) STUKER, H. Análise multivariada para dados onde a característica observada é subdividida em K classes. Piracicaba, ESALQ/USP, 1986. 92 p. (Tese M.S.). VAN LAAR, A.V. Multivariate Analysis - A way to better understanding of complexity. South African For. Journal, n.141, junho, 1987. WILKS, S.S. Certain generalizations in the analysis of variance. Biometrika, 24:471-494, 1932. 57