UD 3 ANÁLISE ESPACIAL Conteúdo • Introdução à análise espacial; • Análises espaciais sobre dados matriciais; • Análises espaciais sobre dados vetoriais. Introdução à análise espacial Tem por objetivo mensurar propriedades e relacionamentos, levando em conta, de forma explícita, a localização espacial do fenômeno em estudo. A finalidade é a identificação de um modelo inferencial que considere explicitamente os relacionamentos espaciais presentes no fenômeno. Introdução à análise espacial A estratégia de análise depende dos tipos de dados envolvidos na formulação do problema: • Eventos ou padrões pontuais: fenômenos expressos como ocorrências de pontos localizados no espaço. Procede-se a análise da distribuição espacial dos pontos, testando hipóteses sobre o padrão observado (aleatório, em aglomerados ou regularmente distribuído). • Superfícies contínuas: estimadas a partir de um conjunto de amostras medidas in loco, em intervalos regulares ou irregulares. O objetivo é reconstruir a superfície da qual se retirou e mediu as amostras a partir da estimação do modelo de dependência espacial que servirá de base para interpolar os demais valores que compõem a superfície. • Áreas com contagens e taxas agregadas: dados originalmente pontuais, agregados em unidades de análise. Introdução à análise espacial Dependência Espacial: Baseia-se na Primeira lei da Geografia: as distâncias observadas entre as ocorrências de objetos (ou fenômenos) interferem diretamente na relação entre eles. Autocorrelação espacial: Expressão computacional da Dependência Espacial, mensura o relacionamento entre duas variáveis aleatórias. A preposição auto indica a medição da mesma variável aleatória em locais diferentes. Inferência Estatística para Dados Espaciais: Dados independentes permitem inferências de melhor qualidade. Havendo dependência espacial, os dados devem ser tratados em um mesmo processo estocástico, onde todos os dados são avaliados em conjunto. Introdução à análise espacial Efeito de 1ª ordem: valor esperado (média) do processo no espaço; Efeito de 2ª ordem: covariância entre áreas si e sj; Estacionariedade: em um processo estacionário, os efeitos de 1ª e 2ª ordem são constantes em toda a região estudada; Isotropia: um processo isotrópico é um caso particular de processo estacionário em que a covariância depende somente da distância (e não da direção) entre os pontos. Introdução à análise espacial Modelos Inferenciais Espaciais Processo Pontual • Conjunto de pontos distribuídos irregularmente no espaço; • O objetivo é compreender o mecanismo gerador da distribuição; • Divisão da região de estudos, A, em sub-regiões, S, de acordo com a probabilidade de ocorrência de um fenômeno. • O processo é modelado considerando as sub-regiões Si com os valores de esperança E[N(S)] – onde N(S) é o número de ocorrências em S – e a covariância C[N(Si), N(Sj)]. Introdução à análise espacial Modelos Inferenciais Espaciais Variação Contínua • Consideram um processo estocástico, de modo que os valores podem ser conhecidos em todos os pontos da região de estudo; • Para estimar a superfície pode-se usar o procedimento de krigagem ou a simulação estocástica. – A krigagem tem como objetivo compor a superfície empregando estimativas pontuais ótimas (minimizando funções dos erros inferenciais); – A simulação estocástica visa reproduzir a variabilidade espacial da superfície empregando possíveis representações globais do modelo de função aleatória. Introdução à análise espacial Modelos Inferenciais Espaciais Variação Discreta • Dizem respeito à distribuição de eventos cuja localização está associada a áreas delimitadas por polígonos; • O objetivo é modelar o padrão de ocorrência espacial do fenômeno em estudo; • Se o processo é estacionário, o valor esperado para a variável aleatória é a média dos valores que ocorrem na região e a estrutura de covariância depende unicamente da distância entre as áreas. Introdução à análise espacial Classes de Operações Sobre atributos alfanuméricos: novos atributos como resultados de operações • Lógicas: união, interseção, negação e exclusão; • Aritiméticas: soma, subtração, multiplicação, divisão exponenciação, radiciação, logaritmos; • Trigonométricas: sen, cos, tan, suas inversas, e transformações grausradianos; • Estatísticas: média, desvio padrão, variância, moda, etc; • Multivariadas: modelos de regressão multivariada, modelos físicos, probabilidade de pertinência a um conjunto, função de pertinência fuzzy, etc. Introdução à análise espacial Classes de Operações Sobre atributos espaciais • Inclusão: contém ou está contido em; • Sobreposição: sobrepõe, cruza ou toca; • Vizinhança: à distância de ‘n’ metros, está ligado a (fisicamente ou funcionalmente); • Derivações de superfície: inclinação, é visível a partir de, direções preferenciais no terreno, etc.; Análises espaciais sobre dados matriciais • Fenômenos representados em grades regulares; • Aquisição por sensores remotos ou pela interpolação de pontos distribuídos de forma irregular; • Algumas informações podem ter sido perdidas de acordo com o espaçamento da grade; • Krigagem: conjunto de técnicas de estimação e predição de superfícies baseada na modelagem da estrutura de correlação espacial. Parte-se da hipótese de que o processo estudado é estacionário; • Modelagem dinâmica: autômatos celulares; Operações • Álgebra de Mapas: operações algébricas envolvendo um ou mais atributos é aplicada a todas as células; • Operações pontuais: operações algébricas envolvendo um ou mais atributos é aplicada a apenas uma célula; • Operações espaciais – Interpolação: reamostragem em diferentes resoluções; – Filtragem espacial: suavização e realce de bordas; – Derivações de superfície: primeira (inclinação e aspecto), segunda (convexidades plana e de perfil) e terceira (filtros direcionais) ordens; – Extração de topologia na superfície: rede de drenagem; – Avaliação de contiguidade (clumping): amostras com características semelhantes são agrupadas; – Propagação não-linear: presença de resistência (friction) na propagação dos fenômeno em função de distâncias ou direções; – Visibilidade (viewsheds); – Sombreamento (shading): técnicas de ray-tracing, reflexão difusa, aspect-based; http://www.ceremade.dauphine.fr/~peyre/numericaltour/tours/introduction_3_image/index_07.png http://www.sciencedirect.com/science/article/pii/S0341816 299000089 http://www.fmwconcepts.com/ima gemagick/fourier_transforms/imag es/lena_circle24n_edge.png Shaded Relief http://cartography.oregonstate.edu/pdf/2001_Jenny_Reliefshading.pdf Análises espaciais sobre dados vetoriais Processos Pontuais • O tipo de dado nestes estudos consiste em uma série de coordenadas de pontos (p1, p2, ...) dos eventos de interesse dentro da área de estudo. • A área dos eventos não é uma medida válida apesar de em muitos casos ocuparem espaço. Mesmo na análise do padrão de distribuição de cidades estas são consideradas como um ponto no espaço do estudo. • O objetivo da análise é determinar se os eventos observados exibem algum padrão sistemático, em oposição à uma distribuição aleatória. Estimador de Intensidade (Kernel Estimation) Definição de uma função bi-dimensional sobre os eventos considerados, compondo uma superfície cujo valor será proporcional à intensidade de amostras por unidade de área. Esta função realiza uma contagem de todos os pontos dentro de uma região de influência, ponderando-os pela distância de cada um à localização de interesse. No caso univariado o estimador kernel para uma amostra aleatória X1, . . . , Xn retirada de uma distribuição com densidade comum f, pode ser definido como 1 n x Xi f ( x; h) K nh i 1 h Os parâmetros básicos para o kernel estimator são: • um raio de influência (τ ≥ 0) que define a vizinhança do ponto a ser interpolado e controla o alisamento da superfície gerada: O raio de influência define a área centrada no ponto de estimação u que indica quantos eventos ui contribuem para a estimativa da função intensidade λ; • uma função de estimação com propriedades de suavização do fenômeno. A função kernel K pode ser qualquer função de densidade de probabilidade (Gaussiana, Triangular, Retangular, etc.) desde que K (h)dh 1 • É comum usar funções de terceira ou quarta ordem, como Nestes estimadores, h representa a distância entre a localização em que desejamos calcular a função e o evento observado. A distribuição normal pondera os pontos dentro do círculo de forma que os pontos mais próximos tenham maior peso comparados com os mais afastados. A função quártica pondera com maior peso os pontos mais próximos do que pontos distantes, mas o decrescimento é gradual. A função triangular dá maior peso aos pontos próximos do que os pontos distantes dentro do círculo, mas o decréscimo é mais rápido. A função exponencial negativa pondera os pontos próximos com peso muito mais intenso do que os pontos distantes. A função uniforme pondera todos os pontos dentro do círculo igualmente. Estimadores de Dependência Espacial Método do Vizinho Mais Próximo O método do vizinho mais próximo estima a função de distribuição cumulativa Ĝ(h) baseado nas distâncias h entre eventos em uma região de análise. Esta função pode ser estimada empiricamente: # (d (ui , u j ) h) G ( h) n onde o valor normalizado acumulado para uma distância h corresponde à soma dos vizinhos mais próximos de cada evento cuja distância é menor ou igual a h, dividido pelo número de eventos na região. Teste de Significância A distribuição de eventos observados é comparada com distribuições teóricas ou simulações que representem a Completa Aleatoriedade Espacial (Complete Spatial Randomness – CSR): processo de Poisson homogêneo sobre a região estudada. G ( h) 1 e h 2 w0 A estimação simulada para a distribuição G’(h) assumindo-se CSR é calculada como a média das simulações. Para calcular a condição de aleatoriedade, calculam-se os envelopes de simulação superior e inferior, respectivamente, valores máximos e mínimos de Gi(h). Observando o gráfico Ĝ(h) X G’(h), conclui-se que distribuições são aleatórias quando se aproximam de uma linha a 45º. Curvaturas acima dessa linha indicam agrupamentos enquanto curvaturas abaixo dessa linha indicam regularidade na distribuição espacial. Função K Embora o método do vizinho mais próximo forneça uma indicação inicial da distribuição espacial, ele considera apenas escalas pequenas. O método da função K é o mais indicado para se ter informação mais efetiva para o padrão espacial em escalas maiores. Também denominada medida de momento de segunda ordem reduzido, a função K é definida, para o processo univariado, como λK(h) = E(# eventos contidos a uma distância h de um evento arbitrário) onde # está associado ao número de eventos, E() é o operador de estimativa, e λ é a intensidade ou número médio de eventos por unidade de área, assumida constante na região. n n R Kˆ ( h ) 2 I h (d ij ) n i 1 j 1 R é a área da região, n é o número de eventos observados, Ih(dij) é uma função indicatriz cujo valor é 1 se (dij) <= h e 0, em caso contrário. ˆ (h) K Lˆ (h ) h A função auxiliar L permite fácil interpretação da distribuição espacial dos pontos: a) atração espacial entre eventos ou agrupamentos para valores positivos, sendo o agrupamento mais forte em picos positivos; b) repulsão espacial ou regularidade em pontos de valores negativos. Análises espaciais sobre dados vetoriais Processos Agrupados por Áreas • São analisados eventos agregados por municípios, bairros ou setores censitários, onde não se dispõe da localização exata dos eventos, mas de um valor por área; • São indicadores úteis: contagens, proporções, médias e medianas; • Limita-se o uso de dados agrupados em SIG a operações de visualização, tirando conclusões intuitivas a partir das colorações atribuídas a cada polígono (mapas temáticos); • A hipótese mais comum é supor que área apresente uma distribuição de probabilidade distinta das demais, o chamado modelo espacial discreto. • O objetivo principal da análise é construir uma aproximação para a distribuição conjunta de variáveis aleatórias, estimando sua distribuição. Análises espaciais sobre dados vetoriais Análise exploratória: Visualização de Dados O uso de diferentes pontos de corte da variável induz a visualização de diferentes aspectos. Os SIGs dispõem usualmente de três métodos de corte de variável: intervalos iguais, percentis e desvios padrões. • Adotando intervalos iguais, os valores máximo e mínimo são divididos pelo número de classes; • O uso de percentis para definição de classes obriga a alocação dos polígonos em quantidades iguais pelas cores; isto pode mascarar diferenças significativas em valores extremos e dificultar a identificação de áreas críticas. • O uso de desvios padrões supõe que a distribuição da variável é apresentada em gradações de cores diferentes para valores acima e abaixo da média, faz a suposição da normalidade da distribuição da variável; Análises espaciais sobre dados vetoriais Análise exploratória: Matrizes de Proximidade Espacial • também chamada matriz de vizinhança •Esta medida de proximidade pode ser calculada a partir de um dos seguintes critérios: – wij = 1, se o centróide de Ai está a uma determinada distância de Aj; caso contrário wij = 0; – wij = 1, se Ai compartilha um lado comum com Aj, caso contrário wij = 0; – wij = lij/li, onde lij é o comprimento da fronteira entre Ai e Aj e li é o perímetro de Ai. • Recomenda-se normalizar suas linhas, para que a soma dos pesos de cada linha seja igual a 1. Análises espaciais sobre dados vetoriais Análise exploratória: Média Móvel Espacial • A fim de explorar a variação da tendência espacial dos dados, calcula-se a média dos valores dos vizinhos. Isto reduz a variabilidade espacial, pois a operação tende a produzir uma superfície com menor flutuação que os dados originais (explicita as tendências). •A média móvel associada ao atributo zi, relativo à i-ésima área, pode ser calculada a partir dos elementos wij da matriz normalizada de proximidade espacial W(1), tomando-se simplesmente a média dos vizinhos: Análises espaciais sobre dados vetoriais Análise exploratória: Indicadores Globais de Autocorrelação Espacial • A Auto-correlação espacial é a correlação de uma certa variável (atributo) z numa área i com os valores dessa mesma variável em áreas vizinhas. • Dada uma matriz de vizinhança normalizada, o índice global de Moran I é a expressão da autocorrelação considerando apenas o primeiro vizinho: O índice de Moran nulo indica independência espacial, enquanto valores positivos indicam correlação direta e negativos, correlação inversa. Análises espaciais sobre dados vetoriais Análise exploratória: Indicadores Globais de Autocorrelação Espacial • A hipótese implícita do cálculo do índice de Moran é a estacionariedade de primeira e segunda ordem, e o índice perde sua validade ao ser calculado para dados não estacionários (pois cada valor é comparado à média global); • O teste C de Geary difere do teste I de Moran por utilizar a diferença entre os pares, enquanto que Moran utiliza a diferença entre cada ponto e a média global. Análises espaciais sobre dados vetoriais Análise exploratória: Variograma • Consiste na demonstração gráfica da relação entre as distâncias entre as áreas em estudo, no eixo X, e a média dos desvios do atributo Z entre as áreas (dz), no eixo Y; • A dependência espacial se evidencia quando maiores desvios são obtidos entre áreas mais afastadas; • Semelhança com teste de Geary; Análises espaciais sobre dados vetoriais Análise exploratória: Correlograma • Consiste na demonstração gráfica da relação entre as distâncias utilizadas para a vizinhança e o respectivo coeficiente de auto-correlação espacial para cada distância; • A dependência espacial se evidencia quando maiores correlações são obtidos entre áreas mais próximas e diminuem com a distância; • Semelhança com teste de Moran; Análises espaciais sobre dados vetoriais Análise exploratória: Diagrama de Espalhamento de Moran • Construído com base nos valores normalizados (valores de atributos subtraídos de sua média e divididos pelo desvio padrão); • É construindo um gráfico bidimensional de z (valores normalizados do atributo em uma área) por wz (média dos vizinhos, também normalizada); • Os quadrantes podem ser interpretados como: – Q1 (valores positivos, médias positivas) e Q2 (valores negativos, médias negativas): indicam pontos de associação espacial positiva, no sentido que uma localização possui vizinhos com valores semelhantes. – Q3 (valores positivos, médias negativas) e Q4 (valores negativos, médias positivas): indicam pontos de associação espacial negativa, no sentido que uma localização possui vizinhos com valores distintos. O diagrama de espalhamento de Moran também pode ser apresentado na forma de um mapa temático bidimensional, no qual cada polígono é apresentado indicando-se seu quadrante no diagrama de espalhamento: “Alto-Alto”, “Baixo-Baixo”, “Alto-Baixo” e “Baixo-Alto” indicando, respectivamente, os quadrantes Q1, Q2, Q3 e Q4.