UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA INE 5644 – DATA MINING ALUNOS: EDUARDA ZANETTE, GREICI BARETTA FRANZEN, MATEUS MELLO RELATÓRIO DA APRESENTAÇÃO DO SEMINÁRIO SOBRE DATA MINING EM TRAJETÓRIAS DE OBJETOS MÓVEIS 1. INTRODUÇÃO O constante avanço da tecnologia e a queda de preços de satélites e dispositivos móveis, possibilitaram o aumento do uso destes aparelhos, os quais deixam traços digitais que podem ser coletados como trajetórias, descrevendo a mobilidade de seus usuários. Isso gerou um novo tipo de dado, chamado de trajetória do objeto móvel, definido como uma sequência de pontos registrados para cada indivíduo, que permite a rastreabilidade desse, bem como a análise e interpretação de sua trajetória. Dados de trajetórias precisam ser analisados através de técnicas, métodos e algoritmos, para que seja possível extrair conhecimento útil e interessante em diversas áreas de aplicação. Neste seminário serão apresentadas as técnicas e abordagens de data mining em trajetórias de objetos móveis. 2. PRINCIPAIS ABORDAGENS SOBRE DATA MINING EM TRAJETÓRIAS Existem duas abordagens fundamentais sobre aplicação de técnicas de data mining em trajetórias de objetos móveis. A primeira visa explorar a trajetória do objeto do ponto de vista geométrico, isto é, apenas é considerado o espaço e o tempo da ocorrência da trajetória. Podemos chamar esta abordagem de data mining espaço-temporal baseado na geometria da trajetória. Já a segunda faz a análise baseada nas informações semânticas da trajetória. O objetivo aqui é trabalhar com dados esparsos fazendo um pré-processamento dos dados para que as trajetórias possam ser enriquecidas com informações reais, como por exemplo, ao analisar uma ocorrência de convergência de trajetórias, saber para onde estas trajetórias estão convergindo é muito esclarecedor e interessante, pois se neste local da convergência é um centro de convenções e que ocorreu um evento é possível saber quantas pessoas, com seus dispositivos móveis, entraram por um determinado portão de acesso ao centro de convenções. Para esta abordagem dá-se o nome de data mining baseado em trajetórias semânticas 2.1. DATA MINING ESPAÇO-TEMPORAL BASEADO NA GEOMETRIA DA TRAGETÓRIA Nesta abordagem de aplicação de técnicas de data mining terá toda a sua análise feita apenas em cima da forma física da trajetória do objeto móvel. O objetivo aqui é encontrar padrões de movimentos sendo considerados dois atributos muito importantes em uma trajetória: espaço e tempo, onde espaço é o caminho de interesse percorrido pelo objeto e o tempo é o momento em que ocorreu o registro do caminho (coordenadas da trajetória). Normalmente neste tipo de abordagem são utilizados algoritmos que são baseados em densidade, pois eles são os que melhor se adequam para fazer este tipo de análise, já que estão sendo procurados padrões de movimentos entre diversas trajetórias e determinados padrões podem ser facilmente detectados por algoritmos de densidade. 2.1.1. PADRÕES DE MOVIMENTOS Proposto por [LAUBE, 2004] os padrões de movimentos em trajetórias de objetos móveis são baseados em três atributos: movimento, direção e localização. Com estes três atributos, LAUBE propôs cinco padrões: convergência, encontro, flock, liderança e recorrência. 2.1.1.1. CONVERGÊNCIA Este padrão pode ser encontrado quando temos um determinado número de trajetórias que passaram por uma mesma região circular. O número de trajetórias e o raio do círculo são atributos que devem impostos pelo analista. Outro ponto importante deste padrão é que ele não considera o momento em que a trajetória ocorreu. Apenas o que é importante que as trajetórias tenham convergido para uma mesma região, isto já caracteriza o padrão de convergência. 2.1.1.2. ENCONTRO Para que seja possível afirmar que foi constatado este padrão de movimento é necessário que um certo número de trajetórias tenha se movimentado, na mesma velocidade e direção, pela mesma região circular no mesmo tempo (concorrentemente). Como na convergência, o número de trajetórias e o raio do círculo são atributos que devem impostos pelo analista. Um exemplo de encontro são os carros se movimentando na ponte Colombo Salles as 19 horas. 2.1.1.3. FLOCK Flock é um padrão de movimento que pode ser constatado quando um certo número de trajetórias se move na mesma direção durante um determinado intervalo de tempo em uma região circular. Como é possível perceber, são parâmetros a ser definidos pelo analista: número de trajetórias, intervalo de tempo e o raio da região circular. 2.1.1.4. LIDERANÇA É um padrão de movimento que para um determinado conjunto de trajetórias temos uma das trajetórias que lidera as outras por um determinado intervalo de tempo. Também para este padrão deve-se considerar uma região circular de raio a ser definido. 2.1.1.5. RECORRÊNCIA Certo número de trajetórias que passaram por uma determinada região em um determinado intervalo de tempo. O intervalo de tempo e o número de trajetórias são definidos pelo analista. 2.1.2. PADRÕES DE FREQUÊNCIAS 2.1.2.1. GRUPOS MÓVEIS Para podemos considerar que exista um grupo móvel é necessário que para um determinado intervalo de tempo certa quantidade de trajetórias estava a uma distância mínima uma da outra, não importando a direção da trajetória. 2.1.2.2. PADRÕES DE CO-LOCALIZAÇÃO São trajetórias espacialmente próximas em uma determinada janela de tempo que encontram-se movendo juntas. 2.1.2.3. TRACLUS (TRAjectory CLUStering) É um padrão definido por HAN em 2007 que se baseia em algoritmos de densidade, onde são divididas as trajetórias em subgrupos com um tamanho definido pelo analista, sem levar em consideração o tempo. O agrupamento da trajetória ocorre pela proximidade destes segmentos e uma das aplicações que este padrão pode ser encontrado é no estudo das trajetórias dos furacões . 2.1.3. DETECÇÃO DE OUTLIERS Outlier é definido como sendo uma trajetória muito diferente das demais do conjunto, por exemplo, carros ou pessoas com comportamento suspeito ou fraudes do cartão de crédito. Vários métodos analisam a trajetória como um todo. Método descrito por Lee (2008) divide as trajetórias em subtrajetórias e as analisa comparativamente umas com as outras. É o framework Partition—andDetect ou Algoritmo TraOD . 2.1.4. CLASSIFICAÇÃO Classificar objetos de acordo com suas trajetórias e outras características. Reconhecimento de padrões. Muito útil para classificação de navios, no controle de fronteiras, da pesca, poluição. Alguns métodos também analisam a trajetória como um todo. Método de Lee (2008) verifica que algumas características tendem a aparecer somente em determinados segmentos. Possui duas Fases: uma baseada na região (forma clusters) e outra baseada na trajetória (forma clusters por trajetória). 2.1.5. PADRÕES SEQUENCIAIS Descreve movimentos frequentes, considerando regiões visitadas e a duração do movimento. Útil para gerenciamento de tráfego em áreas urbanas. Padrões de trajetórias = conjunto de trajetórias individuais que partilham a propriedade de visitar a mesma sequencia de lugares, com tempo de viagem semelhante. Padrão a Ticen -5min- praça XV -30min- Igreja Matriz Padrão b Ticen -5min- Beiramar -10min- UFSC Primeiro as trajetórias são transformadas de pontos para regiões e com as regiões de interesse formadas, as trajetórias são novamente inseridas. Após, é averiguado o tempo de percurso entre as regiões. 2.2. DATA MINING BASEADO EM TRAJETÓRIAS SEMÂNTICAS A mineração de trajetórias brutas descobre padrões geométricos, os quais podem não ser úteis em determinados domínios de aplicação. Agregando semântica às trajetórias, a análise e mineração de dados são facilitadas, sendo possível a descoberta de padrões úteis e interessantes. 2.2.1. O MODELO STOP E MOVES Foi o primeiro modelo proposto que agregou semântica aos dados de trajetórias, introduzido por Sccapietra. Os stops são as partes importantes da trajetória do ponto de vista da aplicação, onde o objeto móvel é considerado parado por um intervalo de tempo. Um move são as partes da trajetória que não são stops. A partir desse modelo, pesquisadores elaboraram métodos para extração de stops and moves, considerando características de velocidade, tempo e direção da trajetória para encontrar paradas e movimentos. 2.2.2. IB-SMOT (DIRECTION-based Stops and Moves of Trajectories) Algoritmo proposto por Alvares (2007), nesse algoritmo, stops são as partes de uma trajetória que interceptam um objeto geográfico de interesse por um tempo mínimo e moves são as demais partes dessa trajetória. Os objetos geográficos de interesse são denominados candidatos a stops e dependem de cada aplicação. O usuário deve determinar os objetos de interesse e o tempo mínimo de permanência da trajetória em cada objeto. Esse algoritmo é útil em aplicações de turismo e planejamento urbano. 2.2.3. CB-SMOT (Clustering-Based Stops and Moves of Trajectories) O algoritmo CB-SMOT, proposto inicialmente por Palma al. (2008), é baseado em clusterização e identifica partes da trajetória em que a velocidade do objeto móvel é menor do que no restante da trajetória, sendo considerada a média da velocidade no trecho. Esse algoritmo é interessante onde a velocidade é importante. Um exemplo de utilização é em trajetórias de tráfego urbano, onde é possível identificar regiões com congestionamentos. 2.2.4. DB-SMOT (DIRECTION-based Stops and Moves of Trajectories) No DB-SMOT (Manso, 2010), também um método de clusterização, onde os clusters são formados por partes das trajetórias onde há variação de direção maior que um valor determinado pelo usuário. Esse método foi desenvolvido para aplicação de pesca, mas também é útil em domínios onde a variação da direção é importante. 3. CONCLUSÃO Muitas aplicações podem ser beneficiadas pela ciência desenvolvida para análise de dados de trajetórias, como por exemplo problema do aquecimento global, onde dados espacçotemporais são analisados para o estudo da evolução climática; desastres naturais, para predizer fenômenos futuros; análise de dados censitários; agrupamentos de regiões com determinados tipos de doenças, entre outros. Algoritmos de mineração de dados que considerem informações semânticas e de contexto da aplicação é uma área de pesquisa recente. Trabalhos futuros devem ser elaborados no projeto europeu SEEK envolvendo Brasil, Itália e Grécia entre 2012 e 2015. 4. REFERÊNCIAS BIBLIOGRÁFICAS Introdução a Trajetórias de Objetos Móveis, 2012. Vania Bogorny, Fernando José Braz; Conjunto de slides para curso de pós-graduação em análise de trajetórias de objetos móveis. Vania Bogorny; Artigo “A model for enriching trajectories with semantic geographical information”, Alvares (2007); Artigo “Trajectory Outlier Detection: A Partition-and-Detect Framework” , Jae-Gil Lee, Jiawei Han, Xiaolei Li (2008); Artigo “TraClass: Trajectory Classification Using Hierarchical Region-Based and Trajectory-Based Clustering”, Jae-Gil Lee, Jiawei Han, Xiaolei Li, Hector Gonzalez (2008) Artigo “Trajectory Pattern Mining”, Fosca Giannotti, Mirco Nanni, Dino Pedreschi, Fabio Pinelli