Predictive habitat distribution models in ecology

Propaganda
Predictive habitat distribution
models in ecology
Guisan, A. ; Thuiller, W. 2005, Predicting species
distribution: offering more than simple habitat. Ecology
Letters, 8:993-1009.
Guisan, A. ; Zimmermann. 2000, Predictive habitat
distribution models in ecology. Ecological Modelling,
135:147-186.
III Referata, Agosto de 2006
Proposta – Guisan & Thuiller
„
SDMs- amplamente utilizados para prever impactos
antropogênicos nos padrões de biodiversidade
„
Limitações nas aplicações teóricas e práticas
„
Visão geral dos avanços, discutindo princípios
ecológicos e pressupostos dos SDMs
„
Sugerindo incorporar migração de spp, dinâmica de
população interações bióticas e ecologia de
comunidade nos SDMs em múltiplas escalas
Contexto
„
Tudo começou com a quantificação das relações entre
espécies e o ambiente, e evoluiu:
„
„
Quantificação não espacial baseada em dados empíricos
…
Johnston (1924) – invasão de cactus na Austrália x clima
…
Hittinka (1963) – determinantes climáticas de spp européias
Modelagem espacial de distribuição de espécies (não estatítico
nem empírico)
…
„
…
Nix et al. (1977) - predições espaciais de crops baseadas em nicho
Modelagem estatística, espacialmente explícita e empírica da
distribuição das spp
…
Ferrier (1984) – simulações de distribuições de espécies (phD – aves)
…
+ Verner et al. (1986) – vertebrados terrestres; e Margules & Austin (1991) –
conservação - survey e análise de dados
Muitas contribuições a partir de 1990...
Contexto
„
„
Recentemente – SDMs como ferramenta para várias questões
ecológicas:
…
Quantificação do nicho ambiental das spp
…
Testar hipóteses biogeográficas, ecológicas e evolutivas
…
Avaliar invasão e proliferação de espécies
…
Impacto de mudanças climáticas e de LUCC na distribuição de spp
…
Indicação de áreas para coleta de spp raras
…
Recuperação e re-introdução de spp
…
Planejamento de conservação e áreas prioritárias
…
Modelagem de comunidade (biod,composição) a partir de distribuição de spp individuais
…
Construção de regiões bio ou ecogeográficas
…
Cálculo da distância ecológica entre fragmentos na dinâmica de meta-populações na
paisagem e modelos de fluxo genético
Objetivo Específico do trabalho – Guisan e Thuiller, 2005
…
…
Apresentar os avanços na construção de modelos de distribuição de espécies e indicar
algumas limitações
Foca na projeção do impacto de mudanças climáticas na distribuição da biodiversidade
SDMs- O que são e como funcionam?
„
SDMs – modelos empíricos que relacionam observações de campo
a variáveis ambientais preditoras, baseados em superfícies de
respostas derivadas estatística ou teoricamente.
„
Dados das espécies:
…
„
presença, presença-ausência, observações de abundância a partir de
amostragem de campo aleatória ou estratificada, ou oportunistas – coleções
–
Preditores ambientais – efeitos
diretos ou indiretos:
…
Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)
Distúrbios: perturbações (naturais ou antropogênicas) no ambiente
Recursos: todos componentes assimiláveis (energia, nutrientes, água)
…
Padrões espaciais diferenciados conforme a escala, hierarquicamente:
…
…
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de
recursos (variação micro-topográfica ou fragmentação de habitat)
SDMs- O que são e como funcionam?
„
SDMs – modelos empíricos que relacionam observações de campo
a variáveis ambientais preditoras, baseados em superfícies de
respostas derivadas estatística ou teoricamente.
„
Dados das espécies:
…
„
presença, presença-ausência, observações de abundância a partir de
amostragem de campo aleatória ou estratificada, ou oportunistas – coleções
–
Preditores ambientais – efeitos
diretos ou indiretos:
…
Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)
Distúrbios: perturbações (naturais ou antropogênicas) no ambiente
Recursos: todos componentes assimiláveis (energia, nutrientes, água)
…
Padrões espaciais diferenciados conforme a escala, hierarquicamente:
…
…
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de
recursos (variação micro-topográfica ou fragmentação de habitat)
SDMs- O que são e como funcionam?
–
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de
recursos (variação micro-topográfica ou fragmentação de habitat)
SDMs - Teoria Ecológica e pressupostos
„
SDMs – saída Mapas de Adequação de Habitats – teoria
ecológica nem sempre integrada aos modelos.
„
Teoria tem sido negligenciada.
„
Deveria estar em todas as fases da modelagem:
…
…
…
…
…
Seleção dos preditores ambientais mais “causais”
Escolha das curvas de respostas dos preditores mais
ecologicamente realistas
Determinação de conjunto restrito de modelos competitivos
numa inferência multi-modelo
Discussão das causas prováveis e dos erros dos custos de
predição
Avaliação da validade dos pressupostos dos modelos nas
projeções climáticas futuras
SDMs – Idealmente 6 Etapas
1.
2.
3.
4.
5.
6.
Formulação
Preparação dos dados
Ajuste do modelo
Avaliação do modelo
Predições espaciais
Avaliação da aplicabilidade do modelo
(Guisan & Zimmermann, 2000)
SDMs – Idealmente 6 Etapas
1. Formulação
…
Teoria e dados – modelo conceitual atualizado, objetivos
claros, hipóteses de trabalho, estratégia para coleta de novos
dados ou para complementar, escolha da resolução espaçotemporal e extensão geográfica
…
Métodos de modelagem – identificar método mais adequado
e o framework (reamostragem x observações independentes)
e a estatística necessária para avaliar a precisão preditiva do
modelo
„
Decisões dependentes do grupo e diferentes aspectos estudados
Formulação do Modelo conceitual
„
Padrões gerais de distr de espécies
„
Gradientes ecológicos, spp têm direções de stress físico e
biológico
„ Analíticos – Lotka-Volterra,
Realidade
Empíricos
fenômenos
(ecológico)
estatístico
Mecanicistas
(fisiológico)
Baseado em processos
Precisão
Generalidade
Analíticos
teóricos
matemático
Crescimento logístico
„ Mecanicistas – baseados em relações
de causa-efeito
„ Empírico – condensar fatos empíricos
„ Modelos preditivos de vegetação –
empíricos por natureza, mas pode
incorporar fisiologia
„ Estão no eixo de “trade-off” entre
precisão e generalidade
Formulação do Modelo conceitual
„
Preditores
…
…
Mecanicista – parâmetros ecológicos causais=>dig maps
Precisão das variáveis de entrada x generalidade
„
„
…
Fatores topográficos – dados precisos, modelam com alta
resolução espacial
Fatores biofísicos – escalas mais gerais, topografia tem pouco
poder preditivo
Gradientes ecológicos: recurso (consumo matéria e energia –
nut, água, luz), direto (temp, pH) e indireto (elevação,
declividade, aspecto, geologia, etc.)
„
Indiretos – sem relevância fisiológica, fácil medir, boa correlação
com padrões das spp
…
„
extensão geográfica limitada. Em outro lugar a mesma posição topográfica
pode revelar diferente combinações de gradientes diretos e recursos (Lei da
constância relativa dos lugares)
Diretos e recursos - modelo mais geral e aplicável em outras
áreas
Formulação do Modelo conceitual
„
Nicho
…
Nicho Fundamental x Realizado – Distr simulada decorre de
restrições fisiológicas teóricas ou de observações de campo
…
Modelos mecanicistas – parametriza nicho fundamental +
regras de competição para predizer nicho realizado
…
Modelos preditivos estáticos - baseados em observações
(campo) empíricas – predição de nicho (ecológico) realizado
„
Podem acrescentar princípios fisiológicos e teóricos para predizer
nicho fundamental
Conceito de Nicho
„
Conceitos de Nicho
„
Direcionado pelas demandas ambientais das spp como definido
por Grinell ou Hutchinson
…
„
Abordagem auto-ecológica e fisiológica para nicho (nicho ambiental)
ƒ Nicho Fundamental – sp ocupa toda área favorável
ƒ Nicho Realizado – as relações bióticas limitam o nicho fundamental, é o
observado na natureza
Direcionado pelo impacto que as spp podem ter em seu ambiente
(Elton, MacArthur ou Levins)
…
Abordagem quanto aos níveis tróficos e cadeia alimentar (nicho trófico)
…
SDMs - baseam-se no conceito de nicho.
- conceito das demandas e o nicho ambiental são considerados.
…
Simplificação - SDMs quantificam o nicho realizado de Hutchinson
baseia-se na distribuição observada
…
Nicho fundamental - somente modelos mecanicistas (planta no lab)
fisiologia e comportamento
…
Porém – nicho realizado dos SDMs são assumidos sem evidências ecológicas
Conceito de Nicho
„
Outra Simplificação – substituir nicho realizado por nicho potencial
…
„
Nicho potencial - definido como parte do fundamental disponível para as
spp, restrito pelo ambiente realizado (Ackerly, 2003). Não existem todas as
possibilidades de combinação das variáveis ambientais na área de estudo.
Pulliam (2000) propôs visões teóricas das relações nicho x distr.:
a) Nicho Grinelliano – spp ocorre onde a condição ambiental é favorável
b) Nicho realizado de Hutchinson – competição ou predação reduz o fundamental
c) Dinâmica fonte-sumidouro – ocorrência depende da taxa de crescimento e migração nos
habitats fontes e sumidouros
d) Situação limite por dispersão
„
Definir teoria a priori (a menos evidência campo/lab).
„
Para algumas spp o nicho fundamental completo jamais será capturado
„
Observações a partir de indivíduos com sucesso reprodutivo
Conceito de Nicho
„
Considerações teóricas – incluir dispersão e dinâmica
populacional como parâmetros dos modelos
„
Caso contrário – SDMs baseiam-se no nicho Grinelliano
fundamental ou no nicho realizado de Hucthinson
„
Rhododendron (Vetaas, 2002)
…
Spp competitivamente dominantes
sofrem menos restrições bióticas Pressupostos do nicho Grinelliano
…
Spp subordinadas sofrem
limitações por competição –
Pressupostos do nicho realizado
de Hutchinson
Pressupostos – Postulado do Equilíbrio
„
Dados ambientais e das espécies referem-se a um tempo/espaço da
amostragem => modelos são snapshot das relações spp x
ambiente
„
Postulado: Spp modeladas estão em um pseudo-equilíbrio com seu
ambiente.
„
Porém, poucas considerações sobre:
…
…
…
…
Quão perto um ambiente modelado está do equilíbrio?
Quanto tempo levaria para alcançar novo equilíbrio (depois de alguma
mudança no ambiente)?
Spp arbóreas européias (36/50)– Razão (Realizado/Potencial)<50% - controladas
por dispersão, não devem estar em equilíbrio
Spp invasoras não estão em equilíbrio com o ambiente, devem ser modeladas a
partir de sua distribuição nativa
Formulação do Modelo conceitual
„
Equilíbrio
…
Modelos de Distr. Estáticos – assumem o equilíbrio ou o
pseudo-equilíbrio entre o ambiente e os padrões das spp
observados.
…
Não-equilíbrio seria mais realista. Mas para modelar:
…
…
Pressuposto de Equilíbrio
…
…
…
…
…
Modelo deve ser dinâmico e estocástico
necessário para modelos de distr de escala mais geral
Menos restritivo para spp persistentes, resposta lenta;
Vantagem: menos conhecimento da fisiologia e comportamento
Influência humana, distúrbios, dinâmica sucessional – modelados com
dificuldade
Alternativa – modelagem de simulação dinâmica
…
Precisa conhecer muito bem a sp e relação com habitat – literatura -poucos
modelos espaciais com simulação para escalas mais genérica
Formulação do Modelo conceitual
„
Espécie x Comunidade
„
„
„
„
„
Gleasoniano (indivíduo) x Clementsiano (comunidade) –
debate....
Evidências paleoecológicas – comunidades de plantas não têm
sido estáveis, com a variação climática, comunidades modernas
de spp não têm longas histórias, as comunidades não se movem
como uma entidade seguindo mudanças climáticas
Modelar sp ao invés de comunidade – mais realístico
Alternativa para comunidade: simular seleção de spp dominantes
para classificar a distr superposta, gerando mapas de comunidade
simulados
Modelos de distr preditivos futuros (modelos estáticos, com
mudanças climáticas) – sp ou comunidade – problema do
equilíbrio -> ignora possibilidade de simular comportamento
individual ou da spp – dispersão, migração, plasticidade,
adaptação, etc.
Formulação do Modelo conceitual
„
Critérios para seleção de modelos - plantas
CC climatic Change
Precisão e escala global, ambiente atual =>modelo estático
Escala local, topografia complexa -> melhor com variáveis indiretas
2. Preparação dos Dados
Amostragem e Dados
„
…
…
…
Escolha da escala espacial
Escolha de variáveis explicativas significantes (fisio) para o modelo
preditivo
Desenho amostral – baseado nos gradientes
„
„
…
…
…
Gradsect – (Gradient-Oriented Transect (Gradsect) Sampling)
Estratificado-aleatório – sortear/sistematizar amostras em polígonos de
condições ambientais homogêneas
Gradsect semelhante a amostragem estratificadaaleatória para padrões de riqueza de spp e ambos
superiores a sistemática ou aleatória.
Se dado foi coletado sem estratégia definida
(observações) => amostrar sub-set fixo/ estrato
ambiental
Análise de auto-correlação para definir distância
mínima entre amostras
Preparação dos Dados
„
Informação Ambiental
…
Dados de campo, mapeamentos sistemáticos, sensoriamento remoto,
e resultantes de modelagem em GIS
…
DEM- importante pela correlação com outras variáveis, maior
precisão, porém pode não ser de alto poder preditivo
…
Gradiente topográfico pode ser usado para verificar correspondência
entre atributos digitais e aqueles observados no campo
…
Tarefa: Selecionar conjunto apropriado de dados para parametrizar o
modelo
…
??? Como selecionar variáveis preditoras???
3. Ajuste do Modelo
„
Formulação do Modelo estatístico:
…
Escolha de um algoritmo adequado para predizer um tipo de
variável-resposta e estimar os coeficientes do modelo
…
Escolha de uma abordagem estatística ótima para o contexto
do modelo
…
A maioria dos modelos estatísticos é específica para um tipo
de variável-resposta e está associada a uma distribuição de
probabilidade específica.
„
Tem que testar se a variável (distr empírica) se comporta
conforme a distribuição estatística
Guisan & Zimmermann (2000)
„
Formulação do Modelo estatístico:
…
…
…
Escolha de um algoritmo adequado para predizer um tipo de
variável-resposta e estimar os coeficientes do modelo
Escolha de uma abordagem estatística ótima para o contexto
do modelo
A maioria dos modelos estatísticos é específica para um tipo
de variável-resposta e está associada a uma distribuição de
probabilidade específica.
„
Tem que testar se a variável (distr empírica) se comporta
conforme a distribuição estatística
Ajuste do Modelo
„
Regressões Generalizadas
…
Relacionam uma variável-resposta a uma única (simples) ou
uma combinação (múltipla) de variáveis ambientais (preditoras)
…
Preditoras – as var ambientais ou componentes ortogonais
derivados (evitar multicolinearidade) de análise multivariada
(PCs).
…
Regressão clássica (RL) – válida qdo variável resposta tem distr
normal e variância não muda com a média
(homocedasticidade)
Ajuste do Modelo
„
Regressões Generalizadas
…
GLMs – modelos de regressão mais flexíveis – var.resposta com
outras distribuições e funções de variância não-constantes.
„
Combinação de preditores está relacionadada var.resposta através
de uma função link, que possibilita:
…
…
…
„
Transformar para linearidade
Manter as predições (var.resposta) dentro de um intervalo de valores coerentes
Lida com distribuições Gaussiana, Poisson, Binomial ou Gamma com as funções
identidade, logaritmica, logistica e inversa
Se a resposta não tem uma relação linear com o preditor, pode-se
incluir um termo transformador para o preditor
…
…
…
…
Quando o modelo inclui termos de ordem maiores, é chamada de regressão
polinomial
Regressão polinomial de segunda ordem – simula resposta unimodal simétrica
De terceira ordem - simula respostas bimodais e com desvios, ou ambos
Outras funções de transformação...
Ajuste do Modelo
„
Regressões Generalizadas
…
GAMs - Regressão Alternativa – baseadas em funções nãoparamétricas de suavização do preditor
„
Médias-móveis, regressão ponderada pela localidade ou funções
de densidade ponderadas localmente
Modelo aditivo generalizado – suaviza independentemente
cada preditor e aditivamente calcula a var. resposta
… Smoothers Multidimensional - possíveis
…
…
Modelos de regressão podem incorporar
processos ecológicos – dispersão ou
conectividade
Ajuste do Modelo
„
Técnicas de Classificação
Árvores de classificação (qualitativa) e regressão (quantitativa),
classificação baseada em regras, e class. Máxima
Verossimilhança.
… Técnicas que associam uma classe da variável resposta
(binomial ou multinomial) para cada combinação de preditores
ambientais (nominais ou contínuos).
…
„
…
Não tem exemplos diretos com distr de plantas ou animais (?)
Construídos a partir da inter-relação de regras
simples deduzidas do conhecimento prévio sobre
o fenômeno a ser modelado – literatura,
laboratório, etc.
Ajuste do Modelo
„
Envelopes ambientais
…
BIOCLIM – cálculo de envelope mínimo retangular num espaço
climático multi-dimensional
…
HABITAT – espaço mais restrito com envelopes polytope
convexo (convex hull).
„
…
Resultados similares, classificação difere – árvore de decisão
dicotômica ou com muitos nós terminais
DOMAIN – baseado em métrica de similaridade
ponto a ponto (medidas de distância
multivariadas). Mais adequado quando dados
disponíveis são limitados
Ajuste do Modelo
„
Técnicas de Ordenação – spp ou comunidades
…
Maioria baseia-se em Análise de Correspondência Canônica
„
„
„
„
…
Análise direta de gradiente onde os eixos de ordenação principais
são combinações lineares dos descritores ambientais
Baseia-se na média recíproca dos scores dos locais e das espécies
Assume distr gaussina das spp, com limiar inf e sup de ocorrência
e um ótimo ao longo do gradiente.
Apropriado para conjunto de dados com muitas ausências.
Método robusto.
Análise de Redundância
„
„
menos usada para simular distr de comunidades ou taxa
ambientalmente dependente
Limita-se a gradientes ambientais curtos(truncados)
Ajuste do Modelo
„
Abordagem Bayesiana
…
Combina uma probabilidade a priori de observar a sp ou
comunidade com suas probabilidades condicionadas ao valor
de cada preditor ambiental.
…
Probabilidade condicional pode ser freq relativa da ocorrência
de uma sp dentro de uma classe discreta de um preditor
nominal.
„
„
„
A P a priori pode ser baseada na literatura
No mapeamento da vegetação a P a posteriori é calculada para cada
unidade de vegetação,
e a unidade com maior probabilidade é prevista para
cada localidade candidata.
Ajuste do Modelo
„
Redes Neurais
Recurso promissor – muitas referências para (ANN),poucas para
predizer distr espacial de spp ou comunidades usando
descritores biofísicos
… Mais poderoso que regressão múltipla para modelar relações
não-lineares
… Problema – classificação processo não-paramétrico (“black art”)
…
„
Outras abordagens
Modelos em SIG – sobreposição de variáveis ambientais,
medidas de variação, similaridade e regras regras para
combinar probabilidades
… Análise de função discriminante
…
Ajuste do Modelo
„
Outras abordagens
…
ENFA – Ecological Niche-factor analysis – implementado no
Biomapper, difere de CCA ou RDA por considerar uma sp a
cada vez. Somente dados de presença (animais).
„
…
Índice de marginalidade e tolerância situa o envelope ambiental
da sp dentro de um envelope ambiental multidimensional
definido pelo mapeamento de todas as unidades de estudo da
área
MONOMAX – conjunto de algoritmos ajusta uma função
monotônica de máxima verossimilhança através de processo iterativo
„ Problema: probabilidade da var. resposta é obtida de no máx 2
preditores por vez
„ Vantagem: nenhum pressuposto sobre a distr do dado, resíduo ou
variância é necessário -> bom para análise exploratória
4. Calibração do Modelo
„
Ajuste do modelo matemático que foi selecionado para um
conjunto de dados específico
…
…
„
Melhorar a concordância entre a saída do modelo e o conj dados
Seleção de variável explicativa – quais usar, estimar seus coeficientes
Seleção de preditores:
…
…
…
Arbitrária (não recomendada)
Automática – stepwise para LS, GLMs e CCA
Seguindo princípios fisiológicos ou seguindo regras de “shrinkage”
(encolhimento??)
„
N preditores < m/10 (m= total de observações ou, para resposta
binárias, observações para a categoria de menor
representatividade)
Calibração do Modelo
„
Preditores – considerar também as transformações (termos
polinomiais, função beta, eixos ordenados – difícil de explicar por
não ter valor biológico associado)
„
Melhor selecionar os gradientes diretos e de recursos para calibrar
o modelo, para otimizar significado ecológico e interpretabilidade
„
Transformação de variáveis – curvas resposta da sp aos gradientes
ambientais. Tendo uma forma – modelo estatístico deverá
reproduzir e formalizar esta forma.
„
Estimativa de parâmetros – disponível na maioria dos softs (SAS,
S-Plus, SPSS, SYSTAT, etc)
…
Ajuste => medida da redução da variância (ou do desvio no caso da
estimativa por Máx. Ver.)
Calibração do Modelo
…
GLMs – redução do desvio D2 (equivalente ao R2 do LS)
D2= (desvio nulo – desvio residual)/ Desvio nulo
ƒ desvio nulo= desvio do modelo em relação ao intercepto
ƒ desvio residual = desvio inexplicado após a inclusão de todas vars
„
„
Modelo perfeito não tem desvio residual e D2= 1
D2 ajustado (equivalente ao R2 ajustado)
D2adj= 1 – [(n-1)/(n-p)] x [1 - D2]
(n de observações, p de parâmetros)
…
D2 ajustado permite comparar modelos com diferentes
combinações de variáveis.
…
Deve ser testado para um nível de significância, de acordo com
o método escolhido para estimar os coeficientes. Para GLMs –
usa-se X2 para testar a diferença das variâncias e teste t para
testar se o coeficiente difere significativamente de zero.
Calibração do Modelo
…
Métodos de classificação por árvores de decisão
„
„
„
„
…
Modelo tenta prever o dado exatamente, e assim não precisa ajuste, pode
fazer a avaliação do modelo após a calibração
Árvores de regressão e classificação – número de nós quase igual ao de obs.
Modelo não é tem redução de complexidade. Pode ser feita redução de
terminais, combinada com validação cruzada.
Replicações seriam aconselhadas para evitar a aleatoriedade dos resultados
Envelopes ambientais
„
Ao invés de usar o mesmo conj de var ambientais para todas as spp
(BIOCLIM), selecionar um sub-conjunto para usar no algoritmo CART
…
…
…
„
Este sub-conj define o envelope multidimensional que melhor engloba a ocorrência das spp
O modelo de HABITAT divide o envelope global em sub-envelopes de tamanhos variados
A proporção de ocorrência da sp / total observações em cada sub-envelope dá uma medida do
grau de pertinência de cada novo site para cada sub-envelope da sp.
Para o DOMAIN – há uma estimativa do grau de confiança para a
classificação – não é probabilístico tb.
Calibração do Modelo
…
Métodos de ordenação – ou análise de gradiente ou ordenação direta
„
„
Como CCA – semelhante à calibração da regressão linear
critério de ajuste é minimizar a razão:
Média da soma dos quad. da var entre spp / var da soma dos quad. total
„
„
„
…
Variáveis selecionadas passo-a-passo
Após a ordenação – cada eixo pode ser testado para significância através
de permutações de Monte-Carlo.
(e segue...)
Modelo Bayesiano
„
„
Equivale a calcular a probabilidade condicional de estado multivariado de
cada entidade considerada, dando os valores dos preditores ambientais
Significância de cada variável é medida por análise de frequência X2 decidirá quais variáveis farão parte do modelo
Calibração do Modelo
…
Funções discriminantes – ou análise de gradiente ou ordenação
direta
„
…
Calibradas usando estatística Wilk´s 8 de ajuste – medida
equivalente ao R2 para a regressão
Durante a calibração do modelo a influência individual de cada
observação pode ser avaliada graficamente
„
„
LS e GLMs – outliers, análise dos resíduos
Método Jack-knife – deixando sempre uma observação de fora a
cada vez e observando o resultado do ajuste do modelo =>
valores de influência empírica g para cada observação.
…
Plotados em função do número de observações para detectar outliers
5.Predições dos modelos
„
„
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de
habitat potencial, ou representação
cartográfica de:
…
Probabilidade de ocorrência ( GLMs
logísticos)
Predições dos modelos
„
„
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de
habitat potencial, ou representação
cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
… Distribuição de abundância mais
provável (GLM ordinal)
…
Predições dos modelos
„
„
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de
habitat potencial, ou representação
cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
… Abundância mais provável (GLM
ordinal)
… Ocorrência predita – métricas não
probabilísticas (CCA) – Distribuição
potencial
…
Predições dos modelos
„
„
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de
habitat potencial, ou representação
cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
… Abundância mais provável (GLM
ordinal)
… Ocorrência prevista – métricas não
probabilísticas (CCA)
… Entidade mais provável (das análises
hierárquicas)
…
Predições dos modelos
„
Dificuldades de fazer modelagem diretamente
em ambientes GIS
…
Ausência dos procedimentos estatísticos para a modelagem e
calibração
…
Algumas opções são mais facilmente implementáveis (GLMs)
…
As classificações baseadas em regras são as mais facilmente
realizadas - de sobreposição de mapas com regras
condicionais
…
Alguns algoritmos de envelopes climáticos foram
implementados com funcionalidades para visualização dos
mapas
…
Maioria são implementados através de macros
„
TerraLib+OpenModeller
6. Avaliação dos modelos
„
Validação – medir a adequação entre o modelo predito e as observações
de campo (~accuracy para RS)
…
Mas Validação = análise lógica dos modelos, o que chamou de formulação do
modelo teórico.
…
Propõe termo avaliação – não avalia se é V ou F, mas testa hipóteses e predição
de padrões biológicos
„
Avaliação – medida de adequação, depende do objetivo do projeto e do
domínio de aplicação do modelo
„
Duas abordagens gerais:
Usar um conj de dados para calibrar o modelo e depois avaliá-lo por validação
cruzada (CV)
… Técnicas de bootstrap - dois data set independentes, um para calibrar e outro
para avaliar
…
„
„
Primeiro passo - bootstrap e CV avaliam a estabilidade do modelo
Segundo passo – se tiver dados independentes – a qualidade das predições do
modelo pode ser avaliada
Avaliação dos modelos
„
Jack-knife, validação cruzada e Bootstrap
…
Jack Knife - Swiss penknife fácil de carregar (1958) –
abordagem genérica para testar hipóteses e calcular intervalos
de confiança
…
…
Computado deixando de fora uma observação por vez
Cross-validation – verificar a replicabilidade dos resultados.
Hipótese - se o resultado é replicável ou simplesmente
aleatório.
…
…
…
…
Conhecido por usar parte das obs para ajustar o modelo e parte para testar o
erro
Simples – computa $ para conj treinamento e computa o erro de predição com
o de teste
Dupla – modelos para os dois conjuntos e ambas equações usadas para gerar a
CV
Multi CV- repete a dupla muitas vezes, selecionando sub-amostras aleatórias
Avaliação dos modelos
„
Jack-knife, validação cruzada e Bootstrap
…
Um conjunto de dados único para calibrar e avaliar
…
Poucos dados (melhor usar JK ou bootstrap), ou quer usar
todas as obs para calibrar – neste caso não pode avaliar o
modelo fora do intervalo de calibração.
…
Bootstrap – aborda o desvio da estimativa realizando reamostragens múltiplas com reposição, dentro do conj dados de
calibração. Remove os desvios para obter uma estimativa
unbiased.
„
„
Bias – diferença entre a estimativa do parâmetro e o valor real da
população.
Se a diferença entre o valor obtido e o corrigido para desvios é
muito alta, a adequação do modelo deve ser questionada
Avaliação dos modelos
„
Avaliação por conjunto de dados independente
…
Dois conjuntos de dados independentes - calibrar e avaliar
…
Abordagem split-sample – um grande conjunto de dados é dividido
para cada etapa
…
„
Inapropriado para pequenos conj de dados
„
Atraente quando se tem muitos dados – CV ou bootstrap
Se há dois conjuntos originais (amostragem e observacional) – não
misturar em uma mesma análise estatística: calibração e avaliação
„
1.
2.
Interfere no desenho amostral, impedindo o ajuste adequado do modelo
Avaliar a predição com a mesma métrica de ajuste usada na calibração –
medir ajuste entre predito e do conj dados de avaliação. (LS – calcular R2
para valores preditos e valores de campo)
Usar qualquer medida discreta de associação entre o predito e o
observado.
Avaliação dos modelos
2.
Usar qualquer medida discreta de associação entre o predito e o
observado.
„
Se o resultado é probabilístico, deve-se transformar para a escala de obs
real. Para dados binários – pode-se truncar as probabilidades em um
certo limiar:
„
Ajustando limite ótimo – melhor concordância entre predito e obs do conj de
validação
„
„
Predições probabilísticas em presença/ausência ou escala ordenada
Aplicando uma medida independente de limiar como ROC plot (Receiver
Operating Characteristic)
„
Comparação final – tabela de contingência – Matriz de confusão
„
A escolha da melhor medida de associação depende
„
„
Tipo de var resposta está modelando (quantitativa e qualitativa, semiquantitativa)
Objetivos do estudo
Avaliação dos modelos
„
„
Var resposta quantitativa – caso mais simples
„
São dependentes de um limiar e difíceis de se ponderar
„
Se var tem distr normal -> Coef Correlação do momento-produto de Pearson.
Caso contrário -> Coef Correlação *rank* não-paramétrico (J de Kendall ou
D de Spearman)
„
Erro quadrático médio da predição (PMSE) e valor-G – (usa média amostral do
conj de calibração como predição do modelo. 100% é um ajuste perfeito, 0% -melhor
usar a média amostral apenas, valores negativos – erros sistemáticos na predição)
Var resposta qualitativa –
„
Comparar as predições com as obs numa tabela de contingência e aplicar
uma medida de associação adequada para escala nominal
„
„
„
Proporção de área corretamente classificada, % erro omissão/comissão, 6 , J ou 6
de Foody
Se erros variam entre as unidades – ponderação de erros como 6 ponderado, ou
matrizes de custos
Var resposta semi-quantitativa
„
Escalas de abundância semi-logaritmica - tabela de contingência e medida de
associação para escala ordinal : (, Dxy _Sommer, Kim, Wilson ou 6 ponderado
Avaliação dos modelos
„
Propagação de erros
„
„
„
Tendências espaciais das incertezas
„
„
Combinação de vários layers heterogêneos em GIS ou rasterização
de dados vetoriais ->ruídos para a interpretação dos resultados
Não avaliam a qualidade do modelo mas podem identificar fontes
de erros caso as predições sejam insatisfatórias
Um exemplo – modelo Bayesiano
Representação espacial das os erros e incertezas podem
ajudar
„
„
identificar locais para amostragem e melhorar o modelo
onde algum processo ecológico não considerado no modelo pode
ocorrer
Credibilidade e aplicação do modelo
„
„
Interpretação de acurácia é subjetiva
Há uma escala proposta (Monserud e Leemans 1992), baseada na
avaliação das estatíticas:
„
Fair (justo, medíocre?): 6 = 0.5
„
Excelente: 0.85 < 6 < 0.99
„
Deve-se incluir escala espacial e resolução (extent) do modelo
„
Modelo satisfatório quando as predições concordam total ou
parcialmente com os padrões observados
„
Não se pode dizer que é bom ou ruim, mas deve-se discutir em
função de seu contexto pré-definido
„
Importante para o caso de manejo e para determinar
aplicabilidade
„
Credibilidade e qualificação (Ryckiel, 1996)
Credibilidade e aplicação do modelo
„
Credibilidade – nível de confiança subjetivo –
qualificação relacionada a aplicabilidade do modelo:
descobrir o domínio no qual um modelo validado pode
ser usado
„
Modelos estáticos, de acordo com o potencial para aplicação:
…
…
…
…
…
Cenários
Pesquisa
Planejamento, monitoramento e avaliação (menos)
Exemplos: manejo de spp raras, hot spots de biodiversidade, avaliação
preliminar de impacto de mudanças climáticas sobre sp plantas, distr
de comunidades ou riqueza, combinação destes.
Mudanças climáticas- inapropriado – já discutido.
„
Porém a comparação de Modelos estáticos – alternativa para avaliar
preliminarmente impactos sobre extensas áreas.
Perspectivas de pesquisa
„
Limitações - Acurácia e resolução dos mapas de
entrada
„
„
„
Problema para dados como geologia, solo ou uso do solo –
filtros para predições quantitativas primárias
Acurácia – problema para regiões montanhosas, veg em
mosaicos e transições rígidas
Sensoriamento remoto poderia auxiliar com informações
mais precisas de umidade, índice de vegetação, classes de
uso do solo, etc.
Perspectivas de pesquisa
„
Limitações - Interações bióticas
„
Competição – grande desafio para modelagem de distr de spp
„
Modelos de spp -> modelos de comunidades
„
„
Uma Possibilidade para incluir competição/interação nos modelos
estáticos – uso de sistemas integrados de equações de regressão
simultâneas, ou GLMs
Sistema de regressões simultâneas (SSR) – cada presença ou
abundância de uma sp ajustada é incluída como um preditor em
todas as outras equações, até que o equilíbrio seja alcançado num
processo iterativo.
…
Sistema modelado tem que estar no ou muito próximo do equilíbrio
Perspectivas de pesquisa
„
Limitações - Causalidade
„
„
„
„
„
Como desenvolver modelos estáticos mais mecanicistas
Importante principalmente se o modelo estático será considerado
para a construção de de modelos de processos espaço-temporal
Parâmetros fisiológicos (e.g. temp do mês mais quente) devem ser
preferidos aos preditores fisiográficos
Integração entre ecofisiologistas e modeladores de sucessão
dinâmica é necessário
Limitações - Avaliação dos dados
„
Problema – usar mesmo conj dados para calibrar e avaliar
(CV). Melhor usar dados independentes para avaliar
…
Separar dado para calibração ou gerar novos dados para avaliar
(mapeamento da vegetação – mas introduz novas incertezas por erros
de mapeamento e resolução
Perspectivas de pesquisa
„
Limitações – Curvas de resposta
„
A forma das respostas individuais de cada variável
explicativa deveria ser analisada sistematicamente antes de
incluí-la no modelo multivariado
…
„
Porém pode não ser de muita ajuda, uma vez que a interação entre os
preditores pode modificar a forma da curva resposta
Alternativa- plot diagnóstico de resíduos- explorar a forma
provável de cada preditor ou ainda avaliar se o parâmetro
deve ser ajustado parametricamente ou não.
Perspectivas de pesquisa
„
Limitações - Fatores históricos
… (biogeográficos
e evolutivos) – tentar incluir nos
modelos estáticos de distr.
„
História do lugar
…
„
História do organismo
…
„
Indivíduo não ocorre em lugares prováveis (adequados) eventos
geológicos ou climáticos passados; barreiras físicas
Integrar com estudos de evolução (filogenia), genética de população
– integridade genética das spp
Limitações - Desenho amostral
„
„
Estratégias de amostragem para modelar (gradsect, estrataleatório)
Reamostrar para incluir gradiente ambiental
Perspectivas de pesquisa
„
Limitações – Avaliação de incertezas explícitas
no espaço
„
Qualidade do modelo (regressão e avaliação do modelo) –
mas não tem avaliação das incertezas no espaço
…
„
„
Seria útil para novas campanhas de campo ou para atribuir
credibilidade e aplicabilidade do modelo
Mapear as incertezas também
Limitações - Auto-correlação espacial
„
„
Preocupação com com auto-correlação e variância espacial
Agrupamentos acontecem independentemente das var
biofísicas – dispersão, e devem ser incluídos nos modelos
através de modelos auto-correlativos (?)
Perspectivas de pesquisa
… Autômatos
celulares – proposto para lidar com
relações de vizinhança (correlação espacial) e
ambientes dinâmicos
„
Células, seus estados e transições – usado para modelar
distr de spp plantas em mudanças climáticas, simulação de
migração de plantas ao longo de corredores de paisagens
segmentadas
SDMs – Idealmente 6 Etapas
1.
2.
3.
4.
5.
6.
Formulação
Preparação dos dados
Ajuste do modelo
Avaliação do modelo
Predições espaciais
Avaliação da aplicabilidade do modelo
IMPORTANTE: ter em mente os pressupostos assumidos e as
limitações que as escolhas em cada etapa incorporam ao modelo.
…
Comparação entre as técnicas
„
Discutir diferenças entre as técnicas de modelagem estática –
Vamos compartilhar a tarefa ??
All models are wrong
but some are useful !
(Box, 1979).
Obrigada!
Download