Aplicação do Filtro de Gabor Associado ao Classificador de Máxima Verossimilhança Gaussiana na Segmentação de Imagens Baseadas em Características Texturais Marcelo S. Santos1, Neide Pizzolato Angelo2 1 Curso de Ciências da Computação – Centro Universitário La Salle (UNILASALLE) Av. Victor Barreto, 2288, Centro, Canoas – RS - Brasil 2 Centro Universitário La Salle (UNILASALLE) Av. Victor Barreto, 2288, Centro, Canoas – RS - Brasil [email protected], [email protected] Abstract. In the process of segmentation of digital images, the use of the texture attributes can be an important source of information. The objective of this work consists of developing a study on the segmentation of digital images having as base the texture attributes. The proposed method implements a process of set filtering on the Gabor filters’ concept Initially, a group of Gabor filters’ is already generated with base in parameters (space extension, frequency) known by the literature. Each filter generates a filtered image that quantifies the space frequency defined in the filter, resulting in certain number of filtered images, which are denominated of "textural bands". This image composed by several of these bands then is classified using it Gaussian Maximum Likelihood. The proposed methodology is tested using synthetic images of real scenes. Results are presented and analyzed. Resumo. No processo de segmentação de imagens digitais, o uso dos atributos de textura pode ser uma fonte importante de informações. O objetivo deste trabalho consiste em desenvolver um estudo sobre a segmentação de imagens digitais tendo como base os atributos de textura. O método proposto implementa um processo de filtragem baseado nos filtros de Gabor. Inicialmente, é gerado um conjunto destes filtros com base em parâmetros (extensão espacial, freqüência) já conhecidos pela literatura. Cada filtro gera, então, uma imagem filtrada que quantifica a freqüência espacial definida, resultando em certo número de imagens filtradas, as quais são denominadas de “bandas texturais”. Esta imagem composta por várias destas bandas é então classificada utilizando-se a Máxima Verossimilhança Gaussiana. A metodologia proposta é então testada, utilizando-se imagens sintéticas de cenas reais. Os resultados obtidos são apresentados e analisados. 1. Introdução O processamento de imagens é certamente uma área em crescimento no meio científico, sendo o tema comumente abordado na literatura. Uma das definições para processamento de imagens é a de Gonzalez (2002) que diz que “processar uma imagem consiste em transformá-la sucessivamente com o objetivo de extrair mais facilmente a informação nela presente”. Em estudos de fotos aéreas de plantações realizadas por satélite verificou-se um problema freqüente de ruído na classificação final sempre que utilizados atributos espectrais na análise. Isto se deve a áreas onde se verificava plantações (milho ao lado de outra de feijão, por Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 207 exemplo) onde a cor predominante da área é o verde, a variação de freqüência na região é baixa diminuindo assim a exatidão do resultado obtido. Embora seja freqüente trabalhos nesta área se dedicarem a atributos espectrais, visto que apresentam facilidade no momento de quantificar os resultados, há grande interesse pelo estudo das características texturais, as quais atualmente estão presentes em uma extensa gama de pesquisas. Isto decorre do fato de que certas imagens naturais, ou classes apresentam atributos ou características muito semelhantes, que ao se utilizar técnicas espectrais resultam num processo de classificação com baixa exatidão. Também é conhecido que, em vários casos, estas mesmas classes, que são similares espectralmente, têm características texturais bem diferenciadas. Logo, uma forma de segmentação e classificação baseada em atributos de textura teria um grande potencial na separação de classes espectralmente similares obtendo uma boa exatidão [Angelo 2000]. Motivado nesta potencialidade, este estudo tem por objetivo verificar a atuação dos filtros de Gabor na segmentação de classes texturais de cenas reais para posterior utilização em imagens aéreas de satélite. Neste trabalho serão utilizadas imagens controladas, constituídas de texturas de cenas reais, estas por possuírem uma estrutura conhecida pelo analista permite uma melhor compreensão da metodologia proposta. Este trabalho é organizado da seguinte forma: após esta breve introdução ao Processamento de Imagens, na Seção 2 é feita uma breve introdução sobre textura, na Seção 3 é abordado o filtro de Gabor, a metodologia utilizada é relatada na Seção 4, na Seção 5 é descrito o desenvolvimento dos experimentos e na Seção 6 são explanadas algumas conclusões. 2. Textura Características texturais oferecem um grande potencial de uso em áreas como sensoriamento remoto, identificação de impressões digitais e de face, medicina e controle de qualidade, entre outras. As informações presentes em uma imagem digital são comumente subdivididas em quatro categorias, denominadas atributos da imagem. Estes atributos possuem natureza distinta e classificam-se como: espectrais, espaciais, de contexto e temporais. A textura se enquadra nos atributos espaciais. Entretanto, apesar da importância da textura no processamento de imagens, ainda não existe uma definição geral para sua quantificação. Em [Angelo 2000] é empregada à definição proposta por Sklansky (1979), que embora seja antiga, persiste atual e sendo bastante abrangente. Esta diz que “uma região em uma imagem tem textura constante, se um conjunto de estatísticas locais ou outras propriedades locais da imagem são constantes, de variação suave ou aproximadamente periódica”. Esta definição aplica-se bem às imagens naturais e aos propósitos deste estudo. 3. Filtro de Gabor Estudos verificam que as análises por técnicas de Fourier não revelam distribuições locais que caracterizam texturas, pois apenas apresentam as freqüências espaciais presentes na imagem original, não identificando a sua posição na mesma. O filtro de Gabor por sua vez permite selecionar feições cujas características ficam determinadas por freqüências espaciais diretamente no domínio espacial, sem a necessidade de ter que se trabalhar no domínio das freqüências. Desenvolvido por Dennis Gabor (1946), tem sido aplicado com sucesso na segmentação de imagens, reconhecimento de faces, reconhecimento de assinaturas e identificação de impressões digitais. A forma geral do filtro de Gabor é apresentada na Fórmula 1 [Raghu 1995]. Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 208 g ( x, y,σ x , σ y , k x , k y ( ) ( ) ) = exp- 21 x σx 2 y + σy 2 +( 2π i ( k x x + k yy ) ) Fórmula 1. Filtro de Gabor em sua forma geral onde, (σx, σy) definem a extensão espacial da função de Gabor. A orientação da grade senoidal é fornecida por tg-1(ky/kx). A freqüência da onda senoidal é dada por k=(kx,ky), onde kx, ky são suas componentes ao longo dos eixos x e y, respectivamente. O módulo de k é dado por k = k 2x + k 2y . 4. Metodologia Este trabalho desenvolve um estudo de caso sobre a atuação dos filtros de Gabor na segmentação de classes texturais. O processo de classificação proposto neste estudo é do tipo supervisionado, utilizando classificador de Máxima Verossimilhança Gaussiana. A metodologia proposta foi testada utilizando-se uma imagem mosaico de texturas regulares, isto é, uma imagem montada composta por classes distintas de texturas, obtidas do Álbum de Brodatz (1966). Esta imagem, por possuir uma estrutura conhecida pelo analista permite uma melhor avaliação dos resultados. Um exemplo das imagens montadas esta ilustrado na Figura 1. Figura 1. Imagem sintética formada por texturas distintas Para o processo de filtragem, foram utilizados valores de freqüência pré-definidos para os filtros de Gabor. Uma textura exige um número muito elevado de freqüências e orientações espaciais para uma caracterização rigorosa, acarretando em um aumento também excessivo do custo computacional desse processo. Assim, optou-se por representar cada textura por um número reduzido de freqüências espaciais que melhor preservassem as características da textura original, mantendo o nível de informação necessário à caracterização das diferentes regiões da imagem. Com base em estudos anteriores [Raghu 1995] foram eleitas três diferentes extensões espaciais (σx = σy = 6.25, 12.5 e 25), três freqüências (2.5π, 5 π e 10 π pixels/ciclo) e quatro orientações (0, 45, 90 e 135 graus), resultando num conjunto de 36 filtros de Gabor sendo que cada um destes realça uma característica presente na imagem. Após a montagem da imagem mosaico e do banco de filtros de Gabor, procede-se ao processo de convolução da imagem com cada um dos filtros montados anteriormente, tendo por resultado uma imagem filtrada para cada filtro. Estas imagens filtradas também são denominadas de “bandas texturais”. Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 209 Filtros por convolução são muito utilizados em processamento de imagens. Matematicamente, a convolução é uma operação entre duas matrizes, geralmente bidimensionais, uma das quais é a imagem e a outra é uma matriz chamada de matriz de convolução ou elemento estruturante. A matriz de convolução representa uma função matemática qualquer, e é aplicada sobre cada pixel A(x,y) da imagem original e sua vizinhança imediata, resultando em uma nova imagem I(x,y), que reflete a relação da imagem original com a função matemática g(x,y) dada pela matriz [Gonzalez 2002], ou seja, I(x,y) = A(x,y) * g(x,y). Cada uma destas bandas texturais é então agrupada em um vetor de imagens cuja dimensionalidade é igual ao número de filtros utilizados, tornando-se um problema multidimensional. Logo após iniciam-se os procedimentos de classificação. O desenvolvimento dos testes seguiu os seguintes passos: a) construção dos filtros de Gabor correspondentes a cada conjunto de freqüências, dimensões e orientações definidas; b) montagem da imagem-mosaica formada por texturas reais obtidas do Álbum de Brodatz; c) convolução da imagem formada com cada um dos filtros de Gabor, gerando um número de imagens filtradas igual ao número de filtros de Gabor construídos; d) conversão do formato de saída do MATLAB para o formato de entrada do MULTISPEC; Este processo envolve a reorganização matricial das imagens filtradas e conversão para o formato de entrada LAN utilizado pelo MULTISPEC; e) treinamento do classificador utilizando amostras da imagem que possuam características marcantes da textura analisada; f) classificação da imagem. O processo da criação da imagem até a classificação final pode ser visto na Figura 2. Figura 2. Estrutura do processo de classificação: (a) imagem mosaico original (b) imagens filtradas após a aplicação da filtragem de Gabor (c) preparação do vetor de imagens filtradas e conversão de formatos para entrada no classificador (d) imagem classificada 5. Resultados experimentais No processamento das imagens foi utilizado um software destinado a fazer cálculos com matrizes o MATLAB (MATrix LABoratory) e para classificação o software MULTISPEC. Os testes foram realizados em uma máquina PC AMD Athlon XP, 2.07 GHz, 512 Mb de RAM executando sobre o sistema operacional Windows XP Professional. Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 210 Os testes realizados tiveram variações referentes ao tipo de montagem da imagem, número de classes (sendo estas texturas reais extraídas do álbum de Brodatz) envolvidas e sua dimensão. Quanto ao tipo da imagem, elas foram divididas em: imagens Regulares, que são formadas por um número par de classes, com mesmo formato e mesma quantidade de pixels para cada uma destas e imagens Irregulares, que são formadas por figuras com formato e quantidade de pixels diversas para cada classe, dentro do tamanho total proposto. O comportamento quando o número de classes também é verificado com o objetivo de simular uma situação mais próxima de uma imagem real, onde estão presentes uma extensa diversidade de texturas. A dimensão de 256 x 256 pixels foi eleita a base dos testes por ter se mostrado eficaz no processamento em trabalhos anteriores, visto que se utilizada uma dimensão menor causaria deteriorização na qualidade dos resultados na classificação ou um tamanho muito maior aumentaria consideravelmente o custo computacional tornando o processamento um pouco mais lento. Este tamanho foi considerado ideal para fins de experimentação, pois minimiza o tempo de processamento e o espaço de memória exigido pela máquina sem perder o refinamento de detalhes exigido para uma melhor caracterização da textura. Também foi construído um conjunto de experimentos aumentando esta dimensão para 512 x 512 pixels, para fins de estudo deste desempenho. Sendo a Máxima Verossimilhança Gaussiana um processo supervisionado, este exige a extração de amostras de treinamento em cada classe. Foram então identificadas um total de duas amostras seguindo escolha visual de áreas mais representativas para cada textura. Como exemplo, na Figura 3 está demonstrado a localização destas amostras na imagem original para o experimento 1. Figura 3. Amostras na imagem mosaico de texturas extraídas do Álbum de Brodatz para o treinamento do classificador A partir das amostras definidas passa-se a etapa seguinte, que consiste no treinamento do classificador e posterior classificação. O resultado da classificação está representado na Figura 4. F i g ur a 4. Cl as s i fi c aç ão r ef er en t e a o ex per i m e n to 1 s o br e a i m ag e m m o s ai c o de t ex tu r as r e ai s Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 211 Utilizando-se uma Matriz de Erro foram apuradas a quantidade de pixels classificados corretamente por classe e sua exatidão geral [Santos 2006], ou seja, a porcentagem global de pixels corretamente classificados. T a bel a 1 - Ma tr i z d e Er r o o u d e C on f us ã o Exatidão * (%) Erro de omissão (%) Número de Pixels Referência Imagem referência Imagem Classificada Classe 1 Classe 2 Classe 1 92,59 7,41 32768 30339 2429 Classe 2 94,56 4,66 32768 1539 31229 65536 31878 33658 4,70 7,36 Número de Pixels da Imagem Classificada Erro de Comissão (%) EXATIDÃO GERAL (%)* 93,90 93,90 * exatidão com relação à imagem de Referência A matriz também informa as porcentagens referentes aos erros de omissão, quando são atribuídos pixels pertencentes à determinada classe a outras classes diferentes e erros de comissão, quando são atribuídos a certa classe pixels pertencentes a outras classes. A Tabela 1 demonstra os resultados obtidos para o experimento 1. Os demais experimentos seguiram o mesmo padrão para obtenção de imagem, filtros e amostras de treinamento, visando-se assim uma melhor comparação dos resultados. O resultado para cada um dos experimentos e suas características determinantes está descrito na Tabela 2. T a bel a 2 - Res ul t ad os d os ex p er i me n tos Tipo Nº de classes Nº de Pixels Exatidão Geral Experimento 1 Regular 02 65536 93,90% Experimento 2 Regular 04 65536 84,53% Experimento 3 Regular 08 65536 74,67% Experimento 4 Irregular 05 65536 87,19% Experimento 5 Irregular 05 65536 85,72% Experimento 6 Regular 04 65536 95,38% Experimento 7 Regular 04 262144 87,36% Experimento 8 Regular 08 262144 75,87% 6. Considerações finais Esta metodologia baseia-se na utilização dos filtros de Gabor com parâmetros pré-definidos consagrados em trabalhos anteriores [Raghu et al. 1995] em conjunto com o classificador de Máxima Verossimilhança Gaussiana, apresentou resultados satisfatórios em todos os experimentos realizados. Testes aplicando o classificador diretamente a imagem original, com o intuito de verificar a atuação deste sem a utilização do filtro, apresentaram um déficit de 60% na exatidão geral comparando-se com a mesma imagem depois de aplicada à metodologia. Outros Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007 212 classificadores foram testados verificando-se baixo aproveitamento em relação aos obtidos com o classificador proposto. Comparando-se com o valor mínimo 75% de exatidão aceito pela literatura especializada, o resultado da aplicação do filtro de Gabor em texturas se mostrou bastante eficiente estando em praticamente todos os testes com valor superior ao esperado. Incluem-se nestes experimentos alguns utilizando texturas com freqüências similares, mostrando a capacidade de êxito na segmentação de imagens de satélite com áreas urbanas e rurais. Quanto ao aumento das dimensões da imagem, este foi verificado com as comparações entre os experimentos 2 e 7 e os experimentos 3 e 8 que utilizam os mesmos mosaicos apenas com resoluções diferentes. Nota-se um aumento de aproximadamente quatro vezes no tempo de processamento da imagem com 512 x 512 pixels para a com 256 x 256 pixels, bem como melhores resultados na classificação final com aumento de tempo aparentemente linear, para estes experimentos. Um dos problemas freqüentes durante a classificação é a ocorrência de ruído, o qual é possivelmente devido às freqüências espaciais semelhantes ou mesmo idênticas em classes texturais distintas, sendo que ambas tem representatividade de suas texturas, mas que, por possuírem amplitudes distintas, podem gerar erros de classificação. Isto ocorreu em vários momentos, principalmente nas imagens que possuem visivelmente características bem próximas entre si. Outrossim, existe o erro inerente ao processo. Em trabalhos futuros, para aumentar a exatidão da classificação e reduzir o custo computacional pelo aumento do número de filtros necessários, poder-se-ia empregar um classificador de redes neurais para definir automaticamente as freqüências espaciais mais energéticas. 7. Referências Angelo, Neide P. (2000) “Aplicação de Filtros de Gabor no processo de classificação de imagens digitais com base em atributos de textura”, 137 f. Dissertação (Mestrado) - Pós-Graduação em Sensoriamento Remoto, Departamento de Centro Estadual de Pesquisa em Sensoriamento Remoto e Meteorologia, Universidade Federal do Rio Grande do Sul, Porto Alegre. Brodatz, P. (1966) “Textures: A photogrametric album for artistics and designers”, Dover, New York. Daugman, Jonh G. (1985) “Uncertainty relation for resolution in space, spatioal frequency, and orientation optimized by two-dimensional visual cortical filters”, Journal of optics Society American, v. 2, n. 7, p. 1160-1169. Gabor, Dennis (1946) “Theory of communication”, Journal of IEEE, v. 93, p. 429459. Gonzalez, Rafael C.; Woods, Richard E. (2002) “Digital Image Processing”, Estados Unidos: Prentice Hall. Raghu, P.P.; Poongodi, R.; Yegnanarayana, B. (1995) “A combined neural nerwork approach for texture classification”, Neural Networks, v 8, n. 6, p. 975-987. Santos, M. S. 2006 “Segmentação de imagem baseada em textura utilizando filtros de Gabor”, 89 f. Monografia (Graduação), Curso de Ciências da Computação, Centro Universitário La Salle, Canoas. Sklansky, J. (1978) “Image segmentation and feature extraction”, IEEE Transactions on System, Man and Cybernetics, v. 13, n. 5, p. 907-916. Hífen, Uruguaiana, V. 31, nº 59/60, I/II semestre - Ano 2007