Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Análise de imagem baseada em objeto e mineração de dados aplicadas à classificação do uso do solo urbano por quadra em imagens WorldView-2 Marcus Vinícius Alves de Carvalho* Hermann Johann Heinrich Kux* Teresa Gallotti Florenzano* *Instituto Nacional de Pesquisas Espaciais - INPE Divisão de Sensoriamento Remoto - DSR Avenida dos Astronautas, n° 1.758 - Jardim da Granja São José dos Campos, SP, Brasil - CEP 12.227-010 [email protected] [email protected] [email protected] Abstract. The objective of this study is to develop an evaluate a methodology for the analysis of WorldView-2 images based on Object-Based Image Analysis (OBIA) and Data Mining, to classify urban land use per block. The area under study is a section at western part of São Paulo Metropolitan Region. Mapping of land use per block is an important source of information to managers and decision makers on the urban space. Among the land cover classes considered in this work, seven are used by the Administration of São Paulo Municipality in the official maps. Objects located within the blocks are helpful to characterize these areas. So, in order to analyze the context and the relationship among classes for the elaboration of land use mapping per block a classification procedure was adopted – done previously and with good accuracy – considering a lower hierarchical level (subobjects) at the level of blocks (super-objects). The following steps were: selection and sample collection at the blocks to train the classifier, choice of attributes to be analyzed by the data mining algorithm, generation and implementation of a decision tree within the DEFINIENS Developer software, for the classification of the WorldView-2 image. It is concluded that the use of the OBIA paradigm and the Data Mining techniques were helpful for mapping urban land use. The Kappa index was 0.7050 and the global precision 0.7556. Palavras-chave: remote sensing, object-based image analysis, data mining, urban land use per block, sensoriamento remoto, análise de imagem baseada em objeto, mineração de dados, uso do solo urbano por quadra. 1. Introdução A partir de imagens obtidas por sensores de alta e altíssima resolução espacial, o interesse pela utilização de dados de sensoriamento remoto em aplicações urbanas apresentou considerável aumentado (EHLERS, 2007). Isto porque além da alta resolução temporal, este tipo de dado possibilita revelar uma quantidade significativa de informações relacionadas à estrutura dos objetos, o que por sua vez pode auxiliar na descrição das propriedades das classes, além de sua reflectância espectral. (SCHÖPFER et al., 2010). Nesta perspectiva, para satisfazer aos novos desafios da interpretação de imagens de sensores remotos de alta resolução espacial, são necessárias concepções inovadoras orientadas não somente para os níveis de cinza, pois a forma dos objetos e as relações de vizinhança são características igualmente importantes para a classificação de determinados usos (SCHIEWE; TUFTE, 2007). Nesta perspectiva foram criados os algoritmos de classificação, como os que utilizam a Análise de Imagem Baseada em Objeto (OBIA). Entretanto, com essa nova abordagem surgiram novos e relevantes desafios, como a busca pela melhor forma de estruturar o conhecimento do intérprete, seja pela hierarquia das classes de uso e cobertura do solo ou pela seleção dos “melhores” atributos (espectrais, forma, textura, relacionais, entre outros), disponíveis em grande quantidade nos softwares, e respectivos limiares. Neste contexto, a Mineração de Dados (Data Mining) é um importante instrumento na elaboração de mapas. Na Mineração de Dados são aplicados algoritmos específicos que atendem ao desenvolvimento de métodos e técnicas para “compreender” e 1022 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE extrair padrões em grandes quantidades de dados. Os recursos disponíveis nesses algoritmos envolvem técnicas de estatística, recuperação de informação, inteligência artificial e reconhecimento de padrões. Para responder de forma eficaz aos desafios do planejamento e da gestão urbana e regional, no que diz respeito a informações sobre o ambiente urbano, contamos com os avanços tecnológicos nas áreas de sensoriamento remoto e Sistemas de Informação Geográfica (SIG). Estas tecnologias possibilitam, de forma sistemática e em diferentes escalas, monitorar mudanças e fazer análises sobre o território, auxiliando o desenvolvimento de estratégias para gerenciá-lo (SOUZA, 2012). Nesse sentido, o objetivo desta pesquisa é desenvolver e avaliar metodologia de mapeamento do uso do solo urbano por quadras, utilizando Mineração de Dados e Análise de Imagem Baseada em Objeto em imagens do sensor orbital de alta resolução espacial do satélite WorldView-2. 2. Fundamentação teórica 2.1 Análise de Imagem Baseada em Objeto (OBIA) Os classificadores que fazem uso da abordagem chamada Análise de Imagem Baseada em Objeto (OBIA) ou Análise de Imagem Baseada em Objeto Geográfico (GEOBIA) buscam aprimorar o desempenho dos processos automatizados de classificação de imagens, utilizando modelagem matemática Fuzzy (Lógica Nebulosa). Eles possuem recursos que permitem sistematizar e reproduzir o conhecimento do intérprete humano. Em GEOBIA, é possível que a semântica seja desenvolvida apoiada em parâmetros físicos e de conhecimento sobre relacionamentos espaciais dos objetos (BLASCHKE et al., 2000). A inserção do conhecimento do intérprete humano no processo de classificação automática consiste em uma alternativa promissora para a distinção de alvos urbanos (BAUER; STEINNOCHER, 2001). Segundo Hay e Castilla (2008), GEOBIA é uma subdisciplina da Ciência da Informação Geográfica (GIScience) dedicada ao desenvolvimento de métodos automatizados para a significativa divisão de imagens de sensoriamento remoto em objetos-imagem, e para avaliar suas características por meio de escalas espaciais, espectrais e temporais, com o intuito de gerar novas informações geográficas em SIG. DEFINIENS (2007) destaca que a utilização do conceito de objeto é peça-chave neste tipo de análise de imagens, pois se parte do princípio de que a informação semântica necessária para a interpretação de uma imagem não está presente apenas no pixel, e sim em objetos da imagem e nas relações existentes entre eles. 2.2 Mineração de dados Mineração de dados é o nome dado ao conjunto de técnicas que permite a extração de conhecimentos a partir de grandes volumes de dados. O processo de transformação de dados em informações e conhecimento é conhecido como descoberta de conhecimento em base de dados (KDD - Knowledge Discovery in Databases). A mineração de dados trata da conversão de dados ou informações (que podem ter sido pré-processadas) em padrões (SANTOS, 2012). Segundo Goldschmidt e Passos (2005), existem diferentes métodos de Mineração de Dados (Data Mining), entre eles destacam-se: métodos baseados em redes neurais, métodos baseados em algoritmos genéticos, métodos baseados em instâncias, métodos estatísticos, métodos específicos, métodos baseados em indução de árvores de decisão e métodos baseados em lógica nebulosa. A mineração de dados geográficos envolve a aplicação de ferramentas computacionais para revelar padrões interessantes em objetos e eventos distribuídos no espaço geográfico e ao longo do tempo. Estes padrões podem envolver as propriedades espaciais de objetos 1023 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE individuais e eventos (como, por exemplo, a forma, extensão) e as relações espaço-temporais entre os objetos e eventos, além dos atributos não-espaciais de interesse na mineração de dados tradicional (MILLER; HAN, 2009). Existem disponíveis vários softwares e algoritmos voltados para a mineração de dados. Todavia, nesta pesquisa, optou-se pelo software livre WEKA (HALL et al., 2009) e pelo algoritmo C4.5 (QUINLAN, 1993) que faz uso da técnica de mineração de dados pela indução de árvores de decisão. 3. Área de estudo A área de estudo localiza-se na zona oeste do município de São Paulo, Estado de São Paulo (Figura 01). Deste município, ela abrange os distritos municipais de Rio Pequeno, Raposo Tavares, Butantã e Vila Sônia. Figura 01 - Localização geográfica da área de estudo. 4. Materiais e Métodos 4.1 Dados e softwares utilizados Foram utilizadas as imagens WorldView-2 do tipo ORStandard2A; bandas pancromática e multiespectrais (Figura 02) com 0,5 m e 2,0 m de resolução espacial, respectivamente, e resolução radiométrica de 11 bits. As imagens foram obtidas em 24 de junho de 2010, com ângulo de incidência de 8,99° e 0% de cobertura de nuvens. A partir destas imagens foram geradas ortoimagens compatíveis com o PEC (Padrão de Exatidão Cartográfica) na escala 1:2.500 - Classe A. Figura 02 - Faixas de cobertura das bandas espectrais (pancromática e as multiespectrais) do satélite WorldView-2. Fonte: Adaptado de DigitalGlobe (2010). 1024 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Foram utilizados como dados auxiliares os limites das quadras fiscais do município de São Paulo-SP (dividido por regiões), no formato ESRI Shapefile (.shp), cedidos pelo Centro de Estudos da Metrópole (CEM), as cartas topográficas da Zona Oeste do município de São Paulo (escala 1:1.000), no formato DXF, cedidas pela Prefeitura Municipal de São Paulo. Para realizar a fusão das imagens WorldView-2 e sua ortorretificação utilizaram-se, respectivamente, os softwares ENVI 4.7.1 e PCI Geomatics 10.3. O software WEKA 3.6.5 e o DEFINIENS Developer 7.0 foram aplicados, respectivamente, na mineração de dados (seleção dos atributos e geração das árvores de decisão pelo algoritmo J48) e na Análise Baseada em Objeto (seleção de atributos, segmentação multi-resolução, geração da hierarquia de classes e classificação final). 4.2 Metodologia Adotaram-se neste trabalho as definições propostas por Novo (2008) para uso e cobertura do solo. Segundo a autora, a cobertura do solo refere-se ao tipo de revestimento da terra, enquanto que o uso remete à sua utilização cultural. A Prefeitura Municipal de São Paulo trabalha com o conceito de uso do solo por quadras para realizar o mapeamento da cidade. Este tipo de informação constitui elemento essencial para o conhecimento dos condicionantes antrópicos da qualidade ambiental do município (Secretaria Municipal do Verde e Meio Ambiente, 2000). A metodologia adotada no município de São Paulo para a classificação do uso do solo é referente à predominância de área construída em cada quadra fiscal. Esta predominância é estabelecida quando a área construída da classe de maior incidência ultrapassar ou alcançar 60% da área construída total da quadra. No caso das quadras não ocupadas ou minimamente ocupadas, a predominância é de terrenos vagos. Em GEOBIA, a classificação do uso do solo por quadras tem como base atributos relacionados à composição e estrutura geométrica dos objetos de cobertura do solo (subobjetos) presentes no interior das quadras (super-objetos), as classes. Assim, como verificado nos trabalhos de Zhan et al. (2000; 2001), Herold et al. (2003), Wu et al. (2006) e Stow et al. (2007). O experimento realizado nesta pesquisa consistiu na elaboração do uso do solo por quadras a partir da técnica de indução de árvores de decisão (mineração de dados). Para isso, selecionou-se dentre três experimentos de classificação da cobertura do solo aquele que havia apresentado melhor exatidão no mapeamento (exatidão global: 0,8529 e índice Kappa: 0,8383). Tais experimentos são descritos mais detalhadamente em Carvalho (2011). No mapeamento do uso do solo por quadra, a informação contida no nível inferior ao de quadras é relevante, uma vez que o sistema DEFINIENS Developer utiliza operadores topológicos. Desse modo, foram selecionadas nove classes de uso do solo. As sete primeiras classes são as mesmas utilizadas pela Prefeitura Municipal de São Paulo, e as duas últimas, baseadas em Novack (2009). São elas: Uso Residencial Horizontal - Baixo Padrão; Uso Residencial Horizontal - Médio e Alto Padrão; Uso Residencial Vertical - Baixo Padrão; Uso Residencial Vertical - Médio e Alto Padrão; Uso Industrial e Armazéns; Uso Residencial e Comercial / Serviços; Uso Terrenos Vagos; Uso Favela; Uso Clube Esportivo. 1025 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Definidas as classes, foram realizadas as seguintes etapas: 1) seleção e exportação das amostras das classes da cobertura do solo com os respectivos atributos; 2) elaboração do banco de dados; 3) mineração de dados; e 4) transposição da estrutura da árvore de decisão para a forma de rede hierárquica. Na Figura 03 estão representados os procedimentos metodológicos adotados no desenvolvimento do trabalho. Figura 03 - Fluxograma demonstrando a metodologia. Durante a etapa de mineração de dados, o algoritmo J48 elegeu como os melhores atributos para a separação das classes de uso do solo aqueles destacados a seguir: Ratio Red; Ratio Yellow; Rel. border to brighter objects Red Edge; Existence of sub objects Cobertura Metálica; Rel. area of sub objects Asfalto; Rel. area of sub objects Telhado Cerâmico; Existence of sub objects Asfalto; Existence of sub objects Piscina; Rel. area of sub objects Piscina; 1026 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Area of sub objects Cobertura Metálica; Mean Diff. to neighbors Red Edge. Observa-se nessa relação, que a maioria dos atributos selecionados refere-se aos objetos da cobertura do solo (nível inferior). Isto, por sua vez, monstra a importância de se fazer uso de uma classificação da cobertura com a melhor exatidão possível, para não influenciar negativamente no resultado do mapeamento do uso do solo por quadra. A Figura 04 apresenta o recorte da imagem WorldView-2 e a classificação do uso do solo por quadra. (a) (b) Figura 04 - (a) Cena WorldView-2 (composição colorida RGB532) e (b) mapa temático do uso do solo por quadra. Além de avaliar a exatidão da classificação pelo cálculo do índice Kappa e exatidão global, optou-se ainda pelo índice Kappa Condicional para avaliar cada classe (Figura 05). Figura 05 - Índice Kappa Condicional para as classes de uso do solo. 1027 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Verifica-se que, de modo geral, foram bons os resultados obtidos com esse experimento. A classe uso esportivo apresentou um alto valor por ter uma característica única, que é a presença de uma extensa piscina. Assim, o minerador utilizou como atributo a área relativa do sub-objeto “Piscina”. Na classe “Uso Terrenos Vagos” obteve-se bons resultados com a aplicação do minerador, devido à considerável presença de área verde no interior dessas quadras. Deste modo, foi selecionado o atributo espectral da Razão do Vermelho para distingui-las. Os menores índices obtidos referem-se às classes “Uso Favelas” e “Uso Residencial e Comercial/Serviços”. Em relação às demais classes, estas duas apresentam uma maior subjetividade em sua descrição, o que pode ter influenciado nesse resultado. 5. Considerações finais De modo geral, foram bons os resultados obtidos na pesquisa realizada. Alcançou-se para a classificação do uso do solo urbano por quadra o valor de índice Kappa de 0,7050 – “muito bom”, segundo Landis e Koch (1977) – e a exatidão global de 0,7556. Verificou-se que o algoritmo de mineração de dados selecionou, principalmente, atributos relativos à presença de sub-objetos, usando uma estratégia similar a de um intérprete humano na caracterização das quadras. Observou-se também que a seleção de atributos, relativos às novas bandas do WorldView-2 como Red Edge e Yellow, contribuem consideravelmente na separação de objetos urbanos. Isto confirma resultados obtidos por pesquisas recentes. Conclui-se assim, que os dados e o método utilizados são viáveis no mapeamento, não só da cobertura do solo, mas também do uso do solo urbano por quadra. 6. Agradecimentos Os autores expressam seus agradecimentos à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pela concessão de bolsa de estudos ao primeiro autor e à empresa DigitalGlobe por gentilmente ter cedido as imagens WorldView-2 utilizadas neste trabalho. 7. Referências bibliográficas BAUER, T.; STEINNOCHER, K. Per-parcel land use classification in urban areas applying a rule-based technique. GeoBIT, Jg. 6, Vol. 6, S. 24-27, 2001. BLASCHKE, T.; LANG, L.; LORUP, E.; STROBL, J.; ZEIL, P. Object-oriented image processing in an integrated GIS/Remote sensing environment and perspectives for environmental applications. In: CREMERS, A.; GERVE, K. (eds.). Environmental information for planning, politics and the public. Metropolis: Verlag, Marburg, 2000. v. 2, p. 555-570. CARVALHO, M. V. A. Classificação da cobertura e uso do solo com imagens Worldview-2 utilizando mineração de dados e análise baseada em objetos. 2011. 201 p. (sid.inpe.br/mtc-m19/2011/09.05.20.27-TDI). Dissertação (Mestrado em Sensoriamento Remoto) - Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 2011. Disponível em: <http://urlib.net/8JMKD3MGP7W/3ACT3BL>. Acesso em: 18 nov. 2012. DEFINIENS. DEFINIENS Professional 7: Reference Book. Munich: DEFINIENS (The Imaging Intelligence Company), 2007. 122 p. EHLERS, M. Sensoriamento remoto para usuários de SIG – sistemas sensores e métodos: entre as exigências do usuário e a realidade. In: BLASCHKE, T; KUX, H. J. H. (Ed.) Sensoriamento remoto e SIG avançados. 2. São Paulo: Oficina de Textos, 2007. cap. 2, p. 18 – 29. GOLDSCHMIDT, R.; PASSOS, E. Data mining - um guia prático. Rio de Janeiro: Elsevier, 2005. 257 p. ISBN (85-352-1877-7). 1028 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE HALL, M.; FRANK, E.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P.; WITTEN, I. H. The WEKA Data mining Software: An Update; SIGKDD Explorations, v. 11, n. 1, 2009. HAY, G.J.; CASTILLA, G. Geographic Object-based Image Analysis (GEOBIA): a new name for a new discipline. In: BLASCHKE, T.; LANG, S.; HAY, G.J. (Eds) Object-based image analysis- spatial concepts for knowledge-driven remote sensing applications. Berlin: Springer-Verlag, 2008. HEROLD, M.; GOLDSTEIN, N. C.; CLARKE, K. C. The spatiotemporal form of urban growth: measurement, analysis and modeling. Remote Sensing of Environment, v. 86, n. 3, p. 286-302, 2003. LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data. Biometrics, v. 33, n. 1, p. 159-174. 1977. MILLER, J. H.; HAN, J. Geographic data mining and knowledge discovery. 2. ed. EUA: Taylor & Francis Group, 2009. NOVACK, T. Classificação da cobertura da terra e do uso do solo urbano utilizando o sistema InterIMAGE e imagens do sensor QuickBird. 2009. 214 p. (INPE-16594-TDI/1580). Dissertação (Mestrado em Sensoriamento Remoto) – Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 2009. Disponível em: <http://urlib.net/sid.inpe.br/mtc-m18@80/2009/08.31.21.23>. NOVO, E. M. L. M. Sensoriamento remoto: princípios e aplicações. São Paulo, Edgard Blücher, 3. ed, 2008. 358p. QUINLAN, R. C4.5: programs for machine learning. San Francisco: Morgan Kaufmann, 1993. 316p. SCHIEWE, J.; TUFTE, L. O potencial de procedimentos baseados em regiões para a avaliação integrada de dados de SIG e sensoriamento remoto. In: BLASCHKE, T.; KUX, H. (Orgs.). Sensoriamento remoto e SIG avançados. São Paulo: Editora Oficina de Textos, 2007. Cap. 05, p.56-65. SANTOS, R. Introdução à mineração de dados com aplicações em ciências ambientais e espaciais, 2012. Disponível em: < http://www.lac.inpe.br/ELAC/arquivos/MiniCurso_03ELAC2012.pdf>. SCHÖPFER, E.; LANG, S.; STROBL, J. Segmentation and object-based image analysis. In: RASHED, T.; JÜRGENS, C. Remote sensing of urban and suburban areas. Berlin: Springer, 2010. Cap.10 181 – 192. SECRETARIA MUNICIPAL DO VERDE E MEIO AMBIENTE (SVMA). Atlas ambiental do município de São Paulo, 2000 - Disponível em: <http://atlasambiental.prefeitura.sp.gov.br/>. Acesso em: 02 ago. 2011. SOUZA, I. M. Sensoriamento remoto orbital aplicado a estudos urbanos. São José dos Campos: INPE, 2012. 32 p. (sid.inpe.br/mtc-m19/2012/02.28.13.46-PUD). Disponível em: Disponível em: <http://urlib.net/8JMKD3MGP7W/3BEFCJH>. Acesso em: 18 nov. 2012. STOW, D.; LOPEZ, A.; LIPPITT, C.; HINTON, S.; WEEKS, J. Object-based classification of residential land use within Accra, Ghana based on QuickBird satellite data. International Journal of Remote Sensing, v. 22, p. 5167–5173, 2007. WU, Q.; LI, H.; WANG, R.; PAULUSSEN, J.; HE, Y.; WANG, M.;WANG, Z. Monitoring and predicting land use change in Beigjing using remote sensing and GIS. Landscape and Urban Planning, v. 78, p. 322-333, 2006. ZHAN, Q.; MOLENAAR, M.; XIAO, Y. Hierarchical object-based image analysis of highresolution imagery for urban land use classification. In: IEEE - ISPRS JOINT WORKSHOP ON REMOTE SENSING AND DATA FUSION OVER URBAN AREAS, 2001, Rome. Proceedings… Rome: IEEE. ZHAN, Q.; MOLENAAR, M.;GORTE, B. Urban land use classes with fuzzy membership and classification based on integration of remote sensing and GIS. International Archives of Photogrammetry and Remote Sensing, v.33, Part B7, p. 1751-1758, 2000. 1029