Unidade 04 e 5

Propaganda
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Objetivos:
- QUANTIFICAR OS ERROS COMETIDOS NA CLASSIFICAÇÃO
- MEDIR A QUALIDADE DO TRABALHO FINAL
- AVALIAR A APLICABILIDADE OPERACIONAL DA CLASSIFICAÇÃO
Fontes de erro das classificações temáticas
Os erros se devem a alguma das seguintes características:
Erro de omissão: se produz quando ainda pertencendo a uma determinada classe o
pixel não é designado a esta classe (erro do tipo I).
Erro de comissão: se produz quando os pixels são classificados em determinada classe
não pertencendo realmente a ela (erro do tipo II).
Observação: se existissem apenas duas classes as definições acima as definições acima
seriam iguais com redação diferente, mas isso não acontece na realidade e por isso são
diferentes.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Fontes de erro das classificações temáticas
Entre os fatores que influem a incorreta classificação dos pixels ocupa uma posição
relevante a estrutura territorial da imagem estudada.
Se a fragmentação é grande (áreas homogêneas pequenas) teremos um aumento
considerável de bordas e em consequência uma grande quantidade de mistura espectral
(pixels “mistos”).
Outros fatores são: a forma das parcelas, as declividades, a orientação e o contraste
espectral de áreas contínuas.
A confecção da legenda afeta o nível de erro das classificações:
- Legenda muito genérica: erro de classificação muito pequeno mas teremos um mapa
temático pobre.
- Legenda com muitas classes: aumento do erro da classificação porque as distâncias
espectrais entre as classes será menor e consequentemente poderemos ter maiores erros de
omissão e comissão.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Medidas de confiança
Depois da classificação deveremos avaliar a qualidade da classificação de maneira que o
usuário possa conhecer a proporção das designações às classes incorretas e o nível de
confiança que proporciona o trabalho realizado.
Excluindo-se a visita a campo a todos os pixels classificados da imagem existem duas
maneiras de estimar o erro cometido na classificação:
- Comparando os resultados com outras fontes analógicas (por exemplo, mapas de uso
do solo) ou tabelados (por exemplo, estatísticas agrárias)
Procedimento não muito interessante já que os documentos utilizados geralmente
já são produto de uma amostragem ou generalização de outros dados.
Além disso geralmente a data de obtenção dos documentos utilizados é mais
antiga que a imagem a ser analisada.
- Realizando uma campanha de campo sobre uma amostra de pixels da imagem.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Amostragem para a verificação
A composição da amostra deve ser suficientemente representativa da população
para permitir que se estimem os parâmetros necessários a verificação da classificação.
Além dos fatores espaciais (abaixo) o custo econômico relacionado as rotas que
serão necessárias para levantar a verdade terreno deverá ser levado em conta.
Tipos de amostragem:
Aleatório Simples: consiste em estabelecer “ao azar” os pixels que vão ser visitados a
campo, sem nenhum outro aspecto.
A seleção de um elemento não condiciona a seleção dos
seguintes.
Todos os pixels tem a mesma probabilidade de serem
selecionados o qual é uma vantagem do ponto de vista estatístico.
Método difícil ou muito caro de ser executado, já que os
pixels selecionados não levam em conta a estrutura espacial da área
em estudo (ex., estradas).
A variabilidade espacial de certas classes pode não ser
contemplado por este método de seleção da amostra.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Aleatório estratificado: se divide o espaço amostral em diversas subpopulações, cada
uma das quais se aplica a amostragem aleatória simples.
Cada divisão do espaço amostral se chama estrato e para sua
obtenção utilizamos algum critério que tenha relação com o
processo de classificação, quer dizer, os estratos devem ter
homogeneidade interna.
Exemplo: na classificação de cultivos agrícolas poderíamos
utilizar os seguintes tipos de estratos – orientação norte e
orientação sul, diferentes altitudes, tipos de solos diferentes, etc.
Este método minimiza os inconvenientes do método anterior
adaptando-se de forma mais eficiente as particularidades da
população.
Sistemático: a partir de um ponto qualquer, se selecionam os pontos amostrais
equidistantes nas coordenadas x e y da imagem.
Possui a vantagem de explorar espacialmente toda a extensão
da imagem.
No entanto desconhece a priori a distribuição das classes
podendo infravalorizar a presença de alguma(s) das classes.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Sistemático não alinhado: o ponto de partida desta amostragem é uma quadrícula
sistemática sobre a imagem e a obtenção aleatória do ponto amostral dentro de cada
quadrícula.
Este método mantém as vantagens do método sistemático e
introduz a aleatoriedade das amostras.
Por conglomerados: se trata de uma amostragem aleatória em que ao invés de utilizar
apenas um pixel no ponto “sorteado” selecionam-se um grupo deles para formar a
amostra, seguindo sempre o mesmo padrão de forma.
Tamanho da Amostra
O tamanho da amostra depende de dois fatores fundamentais:
Devemos levar em consideração o nível de confiança que queremos outorgar a
estimativa. Se quisermos 100% de confiança devermos fazer com que n tenda ao infinito
(n→∞), ou seja, o tamanho da amostra tende a ser do tamanho da população.
O tamanho da amostra dependerá do grau de informação prévia já temos sobre a
população, porque isso permitirá reduzir o tamanho da amostra sem reduzir o nível de
confiança da estimativa.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Matriz de confusão
O próximo passo da verificação dos resultados obtidos na classificação consiste em obter
de cada pixel da amostra a sua verdadeira ocupação (verdade terreno) e compará-la
com a proposta do classificador.
Esta comparação entre os resultados da classificação e os da amostragem (verdade
terreno) realiza-se a confecção de uma matriz quadrada em que nas colunas temos as
classes propostas pelo algoritmo de classificação e as linhas a ocupação real Æ Matriz de
confusão.
Cada elemento da matriz estará ocupado com um número que representará a
quantidade de pixels da amostra analisada, que pertencendo na imagem classificada a
classe que marca a sua coluna realmente a amostragem demonstrou que pertence a
classe que indica a sua linha.
A diagonal principal da matriz de confusão estará ocupada pelo número de pixels
corretamente classificada para cada classe da legenda.
Por outro lado, os elementos fora da diagonal principal correspondem a erros de
classificação.
Os elementos dentro da mesma linha pertenciam a uma determinada classe mas não
foram classificados corretamente. Este erro é do tipo I e se denomina erro de omissão.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Matriz de confusão
Os elementos fora da diagonal principal pertencentes a uma mesma coluna representam
os pixels da amostra que, foram classificados dentro de uma determinada classe mas
realmente pertencem a outra. Se trata de um erro tipo II ou seja erro de comissão.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Análise da Matriz de confusão
Medidas Globais de Confiança: a matriz de confusão é um modelo de uma tabela de
contingência a partir da qual podemos extrair informação quantitativa a respeito da
verificação da classificação.
A confiança global da imagem classificada se estima pela razão existente entre o número
de pixels corretamente classificados e o total de pixels amostrados.
Ou seja a confiança global é o quociente entre a soma dos pixels existentes na diagonal
principal da matriz de confusão e a soma de todos os elementos da matriz.
A este valor deveremos atribuir um intervalo de erro (±ε), calculado segundo a expressão
abaixo, para um determinado intervalo de confiança (1-α), obtendo-se:
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Análise da Matriz de confusão
Risco do usuário e do produtor: a soma dos resíduos por linhas constitui o
denominado erro de omissão, cujo cálculo para a classe i em termos relativos fica
definido como:
Da mesma maneira a soma dos resíduos por
colunas constitui o erro de comissão:
A expressão de ambos erros em termos percentuais se denominam risco do produtor e
risco do usuário, respectivamente.
Risco do produtor é a probabilidade de erro que o analista está cometendo em
consequência da não inclusão de alguns pixels em suas classes correspondentes
(omissão).
Risco do usuário é a probabilidade de um pixel classificado pelo usuário como sendo de
uma classe mas na realidade ele pertence a uma classe diferente (comissão).
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Análise da Matriz de confusão
Risco do usuário e do produtor:
Os complementares a 100 de ambos riscos serão as respectivas confianças, ou seja,
confiança do produtor:
confiança do usuário:
Análise categórico multivariante:
A classificação, supervisionada ou automática, estabelecerá uma designação de pixels a
cada classe da legenda de forma lógica e deverá produzir uma matriz de confusão com
maior confiança que aquela obtida por uma classificação aleatória ou ao azar.
Um dos índices mais utilizados na avaliação da qualidade da classificação é o kappa ()
que quantifica o nível de acerto explicado pelo método de classificação seguido, em
relação àquele obtido meramente pelo “azar” ou aleatório.
Colégio Politécnico da UFSM – DPADP0033 : Classificação Digital de Imagens (Prof. Dr. Elódio Sebem)
FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO
Análise da Matriz de confusão
Análise categórico multivariante:
Sendo:
O índice kappa se define como:
Este estimador adotará valores tanto mais próximos da unidade quanto maior seja o
ajuste seja significativamente melhor que aquele obtido por uma classificação aleatória.
Download