Predictive habitat distribution models in ecology Guisan, A. ; Thuiller, W. 2005, Predicting species distribution: offering more than simple habitat. Ecology Letters, 8:993-1009. Guisan, A. ; Zimmermann. 2000, Predictive habitat distribution models in ecology. Ecological Modelling, 135:147-186. III Referata, Agosto de 2006 Proposta – Guisan & Thuiller SDMs- amplamente utilizados para prever impactos antropogênicos nos padrões de biodiversidade Limitações nas aplicações teóricas e práticas Visão geral dos avanços, discutindo princípios ecológicos e pressupostos dos SDMs Sugerindo incorporar migração de spp, dinâmica de população interações bióticas e ecologia de comunidade nos SDMs em múltiplas escalas Contexto Tudo começou com a quantificação das relações entre espécies e o ambiente, e evoluiu: Quantificação não espacial baseada em dados empíricos Johnston (1924) – invasão de cactus na Austrália x clima Hittinka (1963) – determinantes climáticas de spp européias Modelagem espacial de distribuição de espécies (não estatítico nem empírico) Nix et al. (1977) - predições espaciais de crops baseadas em nicho Modelagem estatística, espacialmente explícita e empírica da distribuição das spp Ferrier (1984) – simulações de distribuições de espécies (phD – aves) + Verner et al. (1986) – vertebrados terrestres; e Margules & Austin (1991) – conservação - survey e análise de dados Muitas contribuições a partir de 1990... Contexto Recentemente – SDMs como ferramenta para várias questões ecológicas: Quantificação do nicho ambiental das spp Testar hipóteses biogeográficas, ecológicas e evolutivas Avaliar invasão e proliferação de espécies Impacto de mudanças climáticas e de LUCC na distribuição de spp Indicação de áreas para coleta de spp raras Recuperação e re-introdução de spp Planejamento de conservação e áreas prioritárias Modelagem de comunidade (biod,composição) a partir de distribuição de spp individuais Construção de regiões bio ou ecogeográficas Cálculo da distância ecológica entre fragmentos na dinâmica de meta-populações na paisagem e modelos de fluxo genético Objetivo Específico do trabalho – Guisan e Thuiller, 2005 Apresentar os avanços na construção de modelos de distribuição de espécies e indicar algumas limitações Foca na projeção do impacto de mudanças climáticas na distribuição da biodiversidade SDMs- O que são e como funcionam? SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente. Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções – Preditores ambientais – efeitos diretos ou indiretos: Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo) Distúrbios: perturbações (naturais ou antropogênicas) no ambiente Recursos: todos componentes assimiláveis (energia, nutrientes, água) Padrões espaciais diferenciados conforme a escala, hierarquicamente: Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat) SDMs- O que são e como funcionam? SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente. Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções – Preditores ambientais – efeitos diretos ou indiretos: Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo) Distúrbios: perturbações (naturais ou antropogênicas) no ambiente Recursos: todos componentes assimiláveis (energia, nutrientes, água) Padrões espaciais diferenciados conforme a escala, hierarquicamente: Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat) SDMs- O que são e como funcionam? – Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat) SDMs - Teoria Ecológica e pressupostos SDMs – saída Mapas de Adequação de Habitats – teoria ecológica nem sempre integrada aos modelos. Teoria tem sido negligenciada. Deveria estar em todas as fases da modelagem: Seleção dos preditores ambientais mais “causais” Escolha das curvas de respostas dos preditores mais ecologicamente realistas Determinação de conjunto restrito de modelos competitivos numa inferência multi-modelo Discussão das causas prováveis e dos erros dos custos de predição Avaliação da validade dos pressupostos dos modelos nas projeções climáticas futuras SDMs – Idealmente 6 Etapas 1. 2. 3. 4. 5. 6. Formulação Preparação dos dados Ajuste do modelo Avaliação do modelo Predições espaciais Avaliação da aplicabilidade do modelo (Guisan & Zimmermann, 2000) SDMs – Idealmente 6 Etapas 1. Formulação Teoria e dados – modelo conceitual atualizado, objetivos claros, hipóteses de trabalho, estratégia para coleta de novos dados ou para complementar, escolha da resolução espaçotemporal e extensão geográfica Métodos de modelagem – identificar método mais adequado e o framework (reamostragem x observações independentes) e a estatística necessária para avaliar a precisão preditiva do modelo Decisões dependentes do grupo e diferentes aspectos estudados Formulação do Modelo conceitual Padrões gerais de distr de espécies Gradientes ecológicos, spp têm direções de stress físico e biológico Analíticos – Lotka-Volterra, Realidade Empíricos fenômenos (ecológico) estatístico Mecanicistas (fisiológico) Baseado em processos Precisão Generalidade Analíticos teóricos matemático Crescimento logístico Mecanicistas – baseados em relações de causa-efeito Empírico – condensar fatos empíricos Modelos preditivos de vegetação – empíricos por natureza, mas pode incorporar fisiologia Estão no eixo de “trade-off” entre precisão e generalidade Formulação do Modelo conceitual Preditores Mecanicista – parâmetros ecológicos causais=>dig maps Precisão das variáveis de entrada x generalidade Fatores topográficos – dados precisos, modelam com alta resolução espacial Fatores biofísicos – escalas mais gerais, topografia tem pouco poder preditivo Gradientes ecológicos: recurso (consumo matéria e energia – nut, água, luz), direto (temp, pH) e indireto (elevação, declividade, aspecto, geologia, etc.) Indiretos – sem relevância fisiológica, fácil medir, boa correlação com padrões das spp extensão geográfica limitada. Em outro lugar a mesma posição topográfica pode revelar diferente combinações de gradientes diretos e recursos (Lei da constância relativa dos lugares) Diretos e recursos - modelo mais geral e aplicável em outras áreas Formulação do Modelo conceitual Nicho Nicho Fundamental x Realizado – Distr simulada decorre de restrições fisiológicas teóricas ou de observações de campo Modelos mecanicistas – parametriza nicho fundamental + regras de competição para predizer nicho realizado Modelos preditivos estáticos - baseados em observações (campo) empíricas – predição de nicho (ecológico) realizado Podem acrescentar princípios fisiológicos e teóricos para predizer nicho fundamental Conceito de Nicho Conceitos de Nicho Direcionado pelas demandas ambientais das spp como definido por Grinell ou Hutchinson Abordagem auto-ecológica e fisiológica para nicho (nicho ambiental) Nicho Fundamental – sp ocupa toda área favorável Nicho Realizado – as relações bióticas limitam o nicho fundamental, é o observado na natureza Direcionado pelo impacto que as spp podem ter em seu ambiente (Elton, MacArthur ou Levins) Abordagem quanto aos níveis tróficos e cadeia alimentar (nicho trófico) SDMs - baseam-se no conceito de nicho. - conceito das demandas e o nicho ambiental são considerados. Simplificação - SDMs quantificam o nicho realizado de Hutchinson baseia-se na distribuição observada Nicho fundamental - somente modelos mecanicistas (planta no lab) fisiologia e comportamento Porém – nicho realizado dos SDMs são assumidos sem evidências ecológicas Conceito de Nicho Outra Simplificação – substituir nicho realizado por nicho potencial Nicho potencial - definido como parte do fundamental disponível para as spp, restrito pelo ambiente realizado (Ackerly, 2003). Não existem todas as possibilidades de combinação das variáveis ambientais na área de estudo. Pulliam (2000) propôs visões teóricas das relações nicho x distr.: a) Nicho Grinelliano – spp ocorre onde a condição ambiental é favorável b) Nicho realizado de Hutchinson – competição ou predação reduz o fundamental c) Dinâmica fonte-sumidouro – ocorrência depende da taxa de crescimento e migração nos habitats fontes e sumidouros d) Situação limite por dispersão Definir teoria a priori (a menos evidência campo/lab). Para algumas spp o nicho fundamental completo jamais será capturado Observações a partir de indivíduos com sucesso reprodutivo Conceito de Nicho Considerações teóricas – incluir dispersão e dinâmica populacional como parâmetros dos modelos Caso contrário – SDMs baseiam-se no nicho Grinelliano fundamental ou no nicho realizado de Hucthinson Rhododendron (Vetaas, 2002) Spp competitivamente dominantes sofrem menos restrições bióticas Pressupostos do nicho Grinelliano Spp subordinadas sofrem limitações por competição – Pressupostos do nicho realizado de Hutchinson Pressupostos – Postulado do Equilíbrio Dados ambientais e das espécies referem-se a um tempo/espaço da amostragem => modelos são snapshot das relações spp x ambiente Postulado: Spp modeladas estão em um pseudo-equilíbrio com seu ambiente. Porém, poucas considerações sobre: Quão perto um ambiente modelado está do equilíbrio? Quanto tempo levaria para alcançar novo equilíbrio (depois de alguma mudança no ambiente)? Spp arbóreas européias (36/50)– Razão (Realizado/Potencial)<50% - controladas por dispersão, não devem estar em equilíbrio Spp invasoras não estão em equilíbrio com o ambiente, devem ser modeladas a partir de sua distribuição nativa Formulação do Modelo conceitual Equilíbrio Modelos de Distr. Estáticos – assumem o equilíbrio ou o pseudo-equilíbrio entre o ambiente e os padrões das spp observados. Não-equilíbrio seria mais realista. Mas para modelar: Pressuposto de Equilíbrio Modelo deve ser dinâmico e estocástico necessário para modelos de distr de escala mais geral Menos restritivo para spp persistentes, resposta lenta; Vantagem: menos conhecimento da fisiologia e comportamento Influência humana, distúrbios, dinâmica sucessional – modelados com dificuldade Alternativa – modelagem de simulação dinâmica Precisa conhecer muito bem a sp e relação com habitat – literatura -poucos modelos espaciais com simulação para escalas mais genérica Formulação do Modelo conceitual Espécie x Comunidade Gleasoniano (indivíduo) x Clementsiano (comunidade) – debate.... Evidências paleoecológicas – comunidades de plantas não têm sido estáveis, com a variação climática, comunidades modernas de spp não têm longas histórias, as comunidades não se movem como uma entidade seguindo mudanças climáticas Modelar sp ao invés de comunidade – mais realístico Alternativa para comunidade: simular seleção de spp dominantes para classificar a distr superposta, gerando mapas de comunidade simulados Modelos de distr preditivos futuros (modelos estáticos, com mudanças climáticas) – sp ou comunidade – problema do equilíbrio -> ignora possibilidade de simular comportamento individual ou da spp – dispersão, migração, plasticidade, adaptação, etc. Formulação do Modelo conceitual Critérios para seleção de modelos - plantas CC climatic Change Precisão e escala global, ambiente atual =>modelo estático Escala local, topografia complexa -> melhor com variáveis indiretas 2. Preparação dos Dados Amostragem e Dados Escolha da escala espacial Escolha de variáveis explicativas significantes (fisio) para o modelo preditivo Desenho amostral – baseado nos gradientes Gradsect – (Gradient-Oriented Transect (Gradsect) Sampling) Estratificado-aleatório – sortear/sistematizar amostras em polígonos de condições ambientais homogêneas Gradsect semelhante a amostragem estratificadaaleatória para padrões de riqueza de spp e ambos superiores a sistemática ou aleatória. Se dado foi coletado sem estratégia definida (observações) => amostrar sub-set fixo/ estrato ambiental Análise de auto-correlação para definir distância mínima entre amostras Preparação dos Dados Informação Ambiental Dados de campo, mapeamentos sistemáticos, sensoriamento remoto, e resultantes de modelagem em GIS DEM- importante pela correlação com outras variáveis, maior precisão, porém pode não ser de alto poder preditivo Gradiente topográfico pode ser usado para verificar correspondência entre atributos digitais e aqueles observados no campo Tarefa: Selecionar conjunto apropriado de dados para parametrizar o modelo ??? Como selecionar variáveis preditoras??? 3. Ajuste do Modelo Formulação do Modelo estatístico: Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modelo Escolha de uma abordagem estatística ótima para o contexto do modelo A maioria dos modelos estatísticos é específica para um tipo de variável-resposta e está associada a uma distribuição de probabilidade específica. Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística Guisan & Zimmermann (2000) Formulação do Modelo estatístico: Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modelo Escolha de uma abordagem estatística ótima para o contexto do modelo A maioria dos modelos estatísticos é específica para um tipo de variável-resposta e está associada a uma distribuição de probabilidade específica. Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística Ajuste do Modelo Regressões Generalizadas Relacionam uma variável-resposta a uma única (simples) ou uma combinação (múltipla) de variáveis ambientais (preditoras) Preditoras – as var ambientais ou componentes ortogonais derivados (evitar multicolinearidade) de análise multivariada (PCs). Regressão clássica (RL) – válida qdo variável resposta tem distr normal e variância não muda com a média (homocedasticidade) Ajuste do Modelo Regressões Generalizadas GLMs – modelos de regressão mais flexíveis – var.resposta com outras distribuições e funções de variância não-constantes. Combinação de preditores está relacionadada var.resposta através de uma função link, que possibilita: Transformar para linearidade Manter as predições (var.resposta) dentro de um intervalo de valores coerentes Lida com distribuições Gaussiana, Poisson, Binomial ou Gamma com as funções identidade, logaritmica, logistica e inversa Se a resposta não tem uma relação linear com o preditor, pode-se incluir um termo transformador para o preditor Quando o modelo inclui termos de ordem maiores, é chamada de regressão polinomial Regressão polinomial de segunda ordem – simula resposta unimodal simétrica De terceira ordem - simula respostas bimodais e com desvios, ou ambos Outras funções de transformação... Ajuste do Modelo Regressões Generalizadas GAMs - Regressão Alternativa – baseadas em funções nãoparamétricas de suavização do preditor Médias-móveis, regressão ponderada pela localidade ou funções de densidade ponderadas localmente Modelo aditivo generalizado – suaviza independentemente cada preditor e aditivamente calcula a var. resposta Smoothers Multidimensional - possíveis Modelos de regressão podem incorporar processos ecológicos – dispersão ou conectividade Ajuste do Modelo Técnicas de Classificação Árvores de classificação (qualitativa) e regressão (quantitativa), classificação baseada em regras, e class. Máxima Verossimilhança. Técnicas que associam uma classe da variável resposta (binomial ou multinomial) para cada combinação de preditores ambientais (nominais ou contínuos). Não tem exemplos diretos com distr de plantas ou animais (?) Construídos a partir da inter-relação de regras simples deduzidas do conhecimento prévio sobre o fenômeno a ser modelado – literatura, laboratório, etc. Ajuste do Modelo Envelopes ambientais BIOCLIM – cálculo de envelope mínimo retangular num espaço climático multi-dimensional HABITAT – espaço mais restrito com envelopes polytope convexo (convex hull). Resultados similares, classificação difere – árvore de decisão dicotômica ou com muitos nós terminais DOMAIN – baseado em métrica de similaridade ponto a ponto (medidas de distância multivariadas). Mais adequado quando dados disponíveis são limitados Ajuste do Modelo Técnicas de Ordenação – spp ou comunidades Maioria baseia-se em Análise de Correspondência Canônica Análise direta de gradiente onde os eixos de ordenação principais são combinações lineares dos descritores ambientais Baseia-se na média recíproca dos scores dos locais e das espécies Assume distr gaussina das spp, com limiar inf e sup de ocorrência e um ótimo ao longo do gradiente. Apropriado para conjunto de dados com muitas ausências. Método robusto. Análise de Redundância menos usada para simular distr de comunidades ou taxa ambientalmente dependente Limita-se a gradientes ambientais curtos(truncados) Ajuste do Modelo Abordagem Bayesiana Combina uma probabilidade a priori de observar a sp ou comunidade com suas probabilidades condicionadas ao valor de cada preditor ambiental. Probabilidade condicional pode ser freq relativa da ocorrência de uma sp dentro de uma classe discreta de um preditor nominal. A P a priori pode ser baseada na literatura No mapeamento da vegetação a P a posteriori é calculada para cada unidade de vegetação, e a unidade com maior probabilidade é prevista para cada localidade candidata. Ajuste do Modelo Redes Neurais Recurso promissor – muitas referências para (ANN),poucas para predizer distr espacial de spp ou comunidades usando descritores biofísicos Mais poderoso que regressão múltipla para modelar relações não-lineares Problema – classificação processo não-paramétrico (“black art”) Outras abordagens Modelos em SIG – sobreposição de variáveis ambientais, medidas de variação, similaridade e regras regras para combinar probabilidades Análise de função discriminante Ajuste do Modelo Outras abordagens ENFA – Ecological Niche-factor analysis – implementado no Biomapper, difere de CCA ou RDA por considerar uma sp a cada vez. Somente dados de presença (animais). Índice de marginalidade e tolerância situa o envelope ambiental da sp dentro de um envelope ambiental multidimensional definido pelo mapeamento de todas as unidades de estudo da área MONOMAX – conjunto de algoritmos ajusta uma função monotônica de máxima verossimilhança através de processo iterativo Problema: probabilidade da var. resposta é obtida de no máx 2 preditores por vez Vantagem: nenhum pressuposto sobre a distr do dado, resíduo ou variância é necessário -> bom para análise exploratória 4. Calibração do Modelo Ajuste do modelo matemático que foi selecionado para um conjunto de dados específico Melhorar a concordância entre a saída do modelo e o conj dados Seleção de variável explicativa – quais usar, estimar seus coeficientes Seleção de preditores: Arbitrária (não recomendada) Automática – stepwise para LS, GLMs e CCA Seguindo princípios fisiológicos ou seguindo regras de “shrinkage” (encolhimento??) N preditores < m/10 (m= total de observações ou, para resposta binárias, observações para a categoria de menor representatividade) Calibração do Modelo Preditores – considerar também as transformações (termos polinomiais, função beta, eixos ordenados – difícil de explicar por não ter valor biológico associado) Melhor selecionar os gradientes diretos e de recursos para calibrar o modelo, para otimizar significado ecológico e interpretabilidade Transformação de variáveis – curvas resposta da sp aos gradientes ambientais. Tendo uma forma – modelo estatístico deverá reproduzir e formalizar esta forma. Estimativa de parâmetros – disponível na maioria dos softs (SAS, S-Plus, SPSS, SYSTAT, etc) Ajuste => medida da redução da variância (ou do desvio no caso da estimativa por Máx. Ver.) Calibração do Modelo GLMs – redução do desvio D2 (equivalente ao R2 do LS) D2= (desvio nulo – desvio residual)/ Desvio nulo desvio nulo= desvio do modelo em relação ao intercepto desvio residual = desvio inexplicado após a inclusão de todas vars Modelo perfeito não tem desvio residual e D2= 1 D2 ajustado (equivalente ao R2 ajustado) D2adj= 1 – [(n-1)/(n-p)] x [1 - D2] (n de observações, p de parâmetros) D2 ajustado permite comparar modelos com diferentes combinações de variáveis. Deve ser testado para um nível de significância, de acordo com o método escolhido para estimar os coeficientes. Para GLMs – usa-se X2 para testar a diferença das variâncias e teste t para testar se o coeficiente difere significativamente de zero. Calibração do Modelo Métodos de classificação por árvores de decisão Modelo tenta prever o dado exatamente, e assim não precisa ajuste, pode fazer a avaliação do modelo após a calibração Árvores de regressão e classificação – número de nós quase igual ao de obs. Modelo não é tem redução de complexidade. Pode ser feita redução de terminais, combinada com validação cruzada. Replicações seriam aconselhadas para evitar a aleatoriedade dos resultados Envelopes ambientais Ao invés de usar o mesmo conj de var ambientais para todas as spp (BIOCLIM), selecionar um sub-conjunto para usar no algoritmo CART Este sub-conj define o envelope multidimensional que melhor engloba a ocorrência das spp O modelo de HABITAT divide o envelope global em sub-envelopes de tamanhos variados A proporção de ocorrência da sp / total observações em cada sub-envelope dá uma medida do grau de pertinência de cada novo site para cada sub-envelope da sp. Para o DOMAIN – há uma estimativa do grau de confiança para a classificação – não é probabilístico tb. Calibração do Modelo Métodos de ordenação – ou análise de gradiente ou ordenação direta Como CCA – semelhante à calibração da regressão linear critério de ajuste é minimizar a razão: Média da soma dos quad. da var entre spp / var da soma dos quad. total Variáveis selecionadas passo-a-passo Após a ordenação – cada eixo pode ser testado para significância através de permutações de Monte-Carlo. (e segue...) Modelo Bayesiano Equivale a calcular a probabilidade condicional de estado multivariado de cada entidade considerada, dando os valores dos preditores ambientais Significância de cada variável é medida por análise de frequência X2 decidirá quais variáveis farão parte do modelo Calibração do Modelo Funções discriminantes – ou análise de gradiente ou ordenação direta Calibradas usando estatística Wilk´s 8 de ajuste – medida equivalente ao R2 para a regressão Durante a calibração do modelo a influência individual de cada observação pode ser avaliada graficamente LS e GLMs – outliers, análise dos resíduos Método Jack-knife – deixando sempre uma observação de fora a cada vez e observando o resultado do ajuste do modelo => valores de influência empírica g para cada observação. Plotados em função do número de observações para detectar outliers 5.Predições dos modelos Uma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade) Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de: Probabilidade de ocorrência ( GLMs logísticos) Predições dos modelos Uma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade) Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de: Probabilidade de ocorrência ( GLMs logísticos) Distribuição de abundância mais provável (GLM ordinal) Predições dos modelos Uma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade) Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de: Probabilidade de ocorrência ( GLMs logísticos) Abundância mais provável (GLM ordinal) Ocorrência predita – métricas não probabilísticas (CCA) – Distribuição potencial Predições dos modelos Uma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade) Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de: Probabilidade de ocorrência ( GLMs logísticos) Abundância mais provável (GLM ordinal) Ocorrência prevista – métricas não probabilísticas (CCA) Entidade mais provável (das análises hierárquicas) Predições dos modelos Dificuldades de fazer modelagem diretamente em ambientes GIS Ausência dos procedimentos estatísticos para a modelagem e calibração Algumas opções são mais facilmente implementáveis (GLMs) As classificações baseadas em regras são as mais facilmente realizadas - de sobreposição de mapas com regras condicionais Alguns algoritmos de envelopes climáticos foram implementados com funcionalidades para visualização dos mapas Maioria são implementados através de macros TerraLib+OpenModeller 6. Avaliação dos modelos Validação – medir a adequação entre o modelo predito e as observações de campo (~accuracy para RS) Mas Validação = análise lógica dos modelos, o que chamou de formulação do modelo teórico. Propõe termo avaliação – não avalia se é V ou F, mas testa hipóteses e predição de padrões biológicos Avaliação – medida de adequação, depende do objetivo do projeto e do domínio de aplicação do modelo Duas abordagens gerais: Usar um conj de dados para calibrar o modelo e depois avaliá-lo por validação cruzada (CV) Técnicas de bootstrap - dois data set independentes, um para calibrar e outro para avaliar Primeiro passo - bootstrap e CV avaliam a estabilidade do modelo Segundo passo – se tiver dados independentes – a qualidade das predições do modelo pode ser avaliada Avaliação dos modelos Jack-knife, validação cruzada e Bootstrap Jack Knife - Swiss penknife fácil de carregar (1958) – abordagem genérica para testar hipóteses e calcular intervalos de confiança Computado deixando de fora uma observação por vez Cross-validation – verificar a replicabilidade dos resultados. Hipótese - se o resultado é replicável ou simplesmente aleatório. Conhecido por usar parte das obs para ajustar o modelo e parte para testar o erro Simples – computa $ para conj treinamento e computa o erro de predição com o de teste Dupla – modelos para os dois conjuntos e ambas equações usadas para gerar a CV Multi CV- repete a dupla muitas vezes, selecionando sub-amostras aleatórias Avaliação dos modelos Jack-knife, validação cruzada e Bootstrap Um conjunto de dados único para calibrar e avaliar Poucos dados (melhor usar JK ou bootstrap), ou quer usar todas as obs para calibrar – neste caso não pode avaliar o modelo fora do intervalo de calibração. Bootstrap – aborda o desvio da estimativa realizando reamostragens múltiplas com reposição, dentro do conj dados de calibração. Remove os desvios para obter uma estimativa unbiased. Bias – diferença entre a estimativa do parâmetro e o valor real da população. Se a diferença entre o valor obtido e o corrigido para desvios é muito alta, a adequação do modelo deve ser questionada Avaliação dos modelos Avaliação por conjunto de dados independente Dois conjuntos de dados independentes - calibrar e avaliar Abordagem split-sample – um grande conjunto de dados é dividido para cada etapa Inapropriado para pequenos conj de dados Atraente quando se tem muitos dados – CV ou bootstrap Se há dois conjuntos originais (amostragem e observacional) – não misturar em uma mesma análise estatística: calibração e avaliação 1. 2. Interfere no desenho amostral, impedindo o ajuste adequado do modelo Avaliar a predição com a mesma métrica de ajuste usada na calibração – medir ajuste entre predito e do conj dados de avaliação. (LS – calcular R2 para valores preditos e valores de campo) Usar qualquer medida discreta de associação entre o predito e o observado. Avaliação dos modelos 2. Usar qualquer medida discreta de associação entre o predito e o observado. Se o resultado é probabilístico, deve-se transformar para a escala de obs real. Para dados binários – pode-se truncar as probabilidades em um certo limiar: Ajustando limite ótimo – melhor concordância entre predito e obs do conj de validação Predições probabilísticas em presença/ausência ou escala ordenada Aplicando uma medida independente de limiar como ROC plot (Receiver Operating Characteristic) Comparação final – tabela de contingência – Matriz de confusão A escolha da melhor medida de associação depende Tipo de var resposta está modelando (quantitativa e qualitativa, semiquantitativa) Objetivos do estudo Avaliação dos modelos Var resposta quantitativa – caso mais simples São dependentes de um limiar e difíceis de se ponderar Se var tem distr normal -> Coef Correlação do momento-produto de Pearson. Caso contrário -> Coef Correlação *rank* não-paramétrico (J de Kendall ou D de Spearman) Erro quadrático médio da predição (PMSE) e valor-G – (usa média amostral do conj de calibração como predição do modelo. 100% é um ajuste perfeito, 0% -melhor usar a média amostral apenas, valores negativos – erros sistemáticos na predição) Var resposta qualitativa – Comparar as predições com as obs numa tabela de contingência e aplicar uma medida de associação adequada para escala nominal Proporção de área corretamente classificada, % erro omissão/comissão, 6 , J ou 6 de Foody Se erros variam entre as unidades – ponderação de erros como 6 ponderado, ou matrizes de custos Var resposta semi-quantitativa Escalas de abundância semi-logaritmica - tabela de contingência e medida de associação para escala ordinal : (, Dxy _Sommer, Kim, Wilson ou 6 ponderado Avaliação dos modelos Propagação de erros Tendências espaciais das incertezas Combinação de vários layers heterogêneos em GIS ou rasterização de dados vetoriais ->ruídos para a interpretação dos resultados Não avaliam a qualidade do modelo mas podem identificar fontes de erros caso as predições sejam insatisfatórias Um exemplo – modelo Bayesiano Representação espacial das os erros e incertezas podem ajudar identificar locais para amostragem e melhorar o modelo onde algum processo ecológico não considerado no modelo pode ocorrer Credibilidade e aplicação do modelo Interpretação de acurácia é subjetiva Há uma escala proposta (Monserud e Leemans 1992), baseada na avaliação das estatíticas: Fair (justo, medíocre?): 6 = 0.5 Excelente: 0.85 < 6 < 0.99 Deve-se incluir escala espacial e resolução (extent) do modelo Modelo satisfatório quando as predições concordam total ou parcialmente com os padrões observados Não se pode dizer que é bom ou ruim, mas deve-se discutir em função de seu contexto pré-definido Importante para o caso de manejo e para determinar aplicabilidade Credibilidade e qualificação (Ryckiel, 1996) Credibilidade e aplicação do modelo Credibilidade – nível de confiança subjetivo – qualificação relacionada a aplicabilidade do modelo: descobrir o domínio no qual um modelo validado pode ser usado Modelos estáticos, de acordo com o potencial para aplicação: Cenários Pesquisa Planejamento, monitoramento e avaliação (menos) Exemplos: manejo de spp raras, hot spots de biodiversidade, avaliação preliminar de impacto de mudanças climáticas sobre sp plantas, distr de comunidades ou riqueza, combinação destes. Mudanças climáticas- inapropriado – já discutido. Porém a comparação de Modelos estáticos – alternativa para avaliar preliminarmente impactos sobre extensas áreas. Perspectivas de pesquisa Limitações - Acurácia e resolução dos mapas de entrada Problema para dados como geologia, solo ou uso do solo – filtros para predições quantitativas primárias Acurácia – problema para regiões montanhosas, veg em mosaicos e transições rígidas Sensoriamento remoto poderia auxiliar com informações mais precisas de umidade, índice de vegetação, classes de uso do solo, etc. Perspectivas de pesquisa Limitações - Interações bióticas Competição – grande desafio para modelagem de distr de spp Modelos de spp -> modelos de comunidades Uma Possibilidade para incluir competição/interação nos modelos estáticos – uso de sistemas integrados de equações de regressão simultâneas, ou GLMs Sistema de regressões simultâneas (SSR) – cada presença ou abundância de uma sp ajustada é incluída como um preditor em todas as outras equações, até que o equilíbrio seja alcançado num processo iterativo. Sistema modelado tem que estar no ou muito próximo do equilíbrio Perspectivas de pesquisa Limitações - Causalidade Como desenvolver modelos estáticos mais mecanicistas Importante principalmente se o modelo estático será considerado para a construção de de modelos de processos espaço-temporal Parâmetros fisiológicos (e.g. temp do mês mais quente) devem ser preferidos aos preditores fisiográficos Integração entre ecofisiologistas e modeladores de sucessão dinâmica é necessário Limitações - Avaliação dos dados Problema – usar mesmo conj dados para calibrar e avaliar (CV). Melhor usar dados independentes para avaliar Separar dado para calibração ou gerar novos dados para avaliar (mapeamento da vegetação – mas introduz novas incertezas por erros de mapeamento e resolução Perspectivas de pesquisa Limitações – Curvas de resposta A forma das respostas individuais de cada variável explicativa deveria ser analisada sistematicamente antes de incluí-la no modelo multivariado Porém pode não ser de muita ajuda, uma vez que a interação entre os preditores pode modificar a forma da curva resposta Alternativa- plot diagnóstico de resíduos- explorar a forma provável de cada preditor ou ainda avaliar se o parâmetro deve ser ajustado parametricamente ou não. Perspectivas de pesquisa Limitações - Fatores históricos (biogeográficos e evolutivos) – tentar incluir nos modelos estáticos de distr. História do lugar História do organismo Indivíduo não ocorre em lugares prováveis (adequados) eventos geológicos ou climáticos passados; barreiras físicas Integrar com estudos de evolução (filogenia), genética de população – integridade genética das spp Limitações - Desenho amostral Estratégias de amostragem para modelar (gradsect, estrataleatório) Reamostrar para incluir gradiente ambiental Perspectivas de pesquisa Limitações – Avaliação de incertezas explícitas no espaço Qualidade do modelo (regressão e avaliação do modelo) – mas não tem avaliação das incertezas no espaço Seria útil para novas campanhas de campo ou para atribuir credibilidade e aplicabilidade do modelo Mapear as incertezas também Limitações - Auto-correlação espacial Preocupação com com auto-correlação e variância espacial Agrupamentos acontecem independentemente das var biofísicas – dispersão, e devem ser incluídos nos modelos através de modelos auto-correlativos (?) Perspectivas de pesquisa Autômatos celulares – proposto para lidar com relações de vizinhança (correlação espacial) e ambientes dinâmicos Células, seus estados e transições – usado para modelar distr de spp plantas em mudanças climáticas, simulação de migração de plantas ao longo de corredores de paisagens segmentadas SDMs – Idealmente 6 Etapas 1. 2. 3. 4. 5. 6. Formulação Preparação dos dados Ajuste do modelo Avaliação do modelo Predições espaciais Avaliação da aplicabilidade do modelo IMPORTANTE: ter em mente os pressupostos assumidos e as limitações que as escolhas em cada etapa incorporam ao modelo. Comparação entre as técnicas Discutir diferenças entre as técnicas de modelagem estática – Vamos compartilhar a tarefa ?? All models are wrong but some are useful ! (Box, 1979). Obrigada!