Universidade FUMEC Faculdade de Ciências Empresariais Programa de Pós-Graduação em Sistemas de Informação e Gestão do Conhecimento Aplicação de técnicas de descoberta do conhecimento em investigações de lavagem de dinheiro Luis Fernando Carvalho Dias Belo Horizonte 2016 Luis Fernando Carvalho Dias Aplicação de técnicas de descoberta do conhecimento em investigações de lavagem de dinheiro Projeto de dissertação de mestrado apresentado ao Programa de Pós-Graduação em Sistemas de Informação e Gestão do Conhecimento como parte dos requisitos para a obtenção do título de Mestre em Sistemas de Informação e Gestão do Conhecimento. Área de concentração: Gestão de Sistemas de Informação e do Conhecimento. Linha de pesquisa: Tecnologia e Sistemas de Informação. Supervisor: Prof. Dr. Fernando Silva Parreiras Belo Horizonte 2016 Resumo Lavagem de dinheiro é um método utilizado por criminosos para dar aparência lícita a recursos obtidos de maneira ilícita. Estimativas de entidades mundialmente reconhecidas apontam que tal atividade é responsável por algo entre 2 e 5% do PIB mundial e está se tornando cada vez mais sofisticada. Pela dificuldade de identificação utilizando métodos tradicionais de investigação, a tecnologia tem desempenhado um papel importante nesse processo. Busca-se com este trabalho identificar as técnicas de descoberta do conhecimento aplicadas nas investigações da lavagem de dinheiro, o que foi conseguido através de uma revisão sistemática de literatura. As técnicas encontradas serão utilizadas em uma pesquisa experimental que visa compará-las quanto à eficácia na identificação de relacionamentos em uma rede de transações bancárias provenientes de uma investigação real de lavagem de dinheiro. Palavras-chave: Lavagem de Dinheiro. Descoberta do Conhecimento. Mineração de Dados. Abstract Money laundering is a method used by criminals to give lawful appearance to funds obtained illegally. Recognized worldwide entities estimates that such activity is responsible for between 2 to 5% of world GDP and is becoming increasingly sophisticated. Due to the difficulty of identification using traditional methods of research, technology has played an important role in this process. This work aims to identify the techniques of knowledge discovery applied in money laundering investigations, which was achieved through a systematic review of the literature. The techniques found will be used in an experimental research aimed to compare them as to the effectiveness in identifying relationships in a banking transactions network from a real money laundering investigation. Key-words: Money Laundering. Knowledge Discovery. Data Mining. Lista de ilustrações Figura Figura Figura Figura Figura 1 2 3 4 5 – – – – – Figura 6 – Figura 7 – Figura 8 – Figura 9 – Figura 10 – Figura 11 – Fases da lavagem de dinheiro. . . . . . . . . . . . . . . . . . . . . . . Etapas da descoberta do conhecimento. . . . . . . . . . . . . . . . . . Fases do processo CRISP-DM. . . . . . . . . . . . . . . . . . . . . . . Quantidade de artigos da RSL em cada etapa da triagem. . . . . . . Relacionamento entre as categorias referentes a descoberta do conhecimento e mineração de dados. . . . . . . . . . . . . . . . . . . . . . . Tarefas e aplicações de mineração de dados por ano. . . . . . . . . . Relação entre as tarefas de mineração de dados, mineração de dados distribuídos e de alta performance e mineração de dados complexos. . Formas de lavagem de dinheiro. . . . . . . . . . . . . . . . . . . . . . Relação das formas de lavagem de dinheiro com as aplicações e com os níveis da mineração de dados. . . . . . . . . . . . . . . . . . . . . . . Relação das formas de lavagem de dinheiro com as tarefas mineração de dados e com os métodos e ferramentas de aprendizagem. . . . . . Cronograma de execução da proposta de pesquisa. . . . . . . . . . . . . . . . 21 28 29 37 . 38 . 41 . 43 . 44 . 45 . 46 . 57 Lista de tabelas Tabela Tabela Tabela Tabela Tabela Tabela 1 2 3 4 5 6 – – – – – – Tabela 7 – Tabela Tabela Tabela Tabela 8 – 9 – 10 – 11 – Formas de lavagem de dinheiro de acordo com Unger et al.(1) . . . . Tarefas de mineração de dados conforme Peng et al.(2) . . . . . . . . Mineração de dados complexos segundo Peng et al.(2). . . . . . . . . Questões de pesquisa utilizadas na revisão sistemática de literatura . Quantidade de artigos encontrados na RSL. . . . . . . . . . . . . . . Aplicações da mineração de dados na identificação da lavagem de dinheiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Níveis da mineração de dados quando aplicada na identificação da lavagem de dinheiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemplo de aplicação do método de comparação aleatória completa. Custos estimados do projeto. . . . . . . . . . . . . . . . . . . . . . . Riscos identificados para o projeto. . . . . . . . . . . . . . . . . . . . Lista final de artigos analisados na revisão sistemática de literatura. . . . . . . 21 31 32 34 36 . 39 . . . . . 40 57 58 58 69 Lista de abreviaturas e siglas COAF CRISP-DM Conselho de Controle de Atividades Financeiras Cross-Industry Standard Process of Data Mining DM Data Mining, Mineração de Dados FAFT Financial Action Task Force GDP Gross Domestic Product HMM Hidden Markov Model, Modelos Ocultos de Markov ILP Inductive Logic Programming KDD Knowledge Discovery in Databases, Descoberta do Conhecimento MCMC Markov Chain Monte Carlo OLAP Online Analytical Processing PIB Produto Interno Bruto PCA Principle Component Analysis, Análise de Componentes Principais RSL Revisão Sistemática da Literatura SVM Support Vector Machine Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2 Objetivos 1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4 Aderência ao Programa . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.5 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 REVISÃO SISTEMÁTICA DE LITERATURA . . . . . . . . . . . . . 19 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 Lavagem de Dinheiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1.2 Histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.1.3 Fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.1.4 Formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1.5 Lavagem de Dinheiro no Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.2 Descoberta do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.2.2 Processos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.2.3 Tarefas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.2.4 Métodos e Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.2.5 Mineração de Estruturas Complexas . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2.2.6 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3 Revisões de Literatura Relacionadas . . . . . . . . . . . . . . . . . . . 33 2.4 Planejamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.1 Questões de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.2 Estratégia de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.2.1 Termos de Pesquisa 2.4.2.2 Recuperação de Dados 2.4.2.3 Critérios de Seleção 2.4.3 Seleção dos Artigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4.4 Extração dos Dados 2.4.5 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . QP1 - Quais são as técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro? . . . . . . . . . . . . . . . . . . . QP2 - Quais são as formas de lavagem de dinheiro passíveis de serem resolvidos pelas técnicas de descoberta do conhecimento? . . . . . . . . . . QP3 - Quais técnicas de descoberta do conhecimento são aplicadas em cada forma de lavagem de dinheiro? . . . . . . . . . . . . . . . . . . . . . . . Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3.1 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 49 Contribuição deste trabalho . . . . . . . . . . . . . . . . . . . . . . . . 50 4 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.1.7 4.1.8 4.1.9 METODOLOGIA . . Proposta de Pesquisa Problema . . . . . . . . Hipóteses . . . . . . . . Variáveis . . . . . . . . Sujeitos . . . . . . . . . Ambiente . . . . . . . . Plano Experimental . . . Cronograma . . . . . . . Custos . . . . . . . . . . Riscos . . . . . . . . . . 2.5 2.5.1 2.5.2 2.5.3 REFERÊNCIAS Appendices A – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 . 41 . 43 . 44 . 46 . . . . . . . . . . . 53 54 54 55 55 56 56 57 57 58 58 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 67 LISTA DE ARTIGOS ANALISADOS NA REVISÃO SISTEMÁTICA DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 15 1 Introdução Lavagem de dinheiro é um método usado por criminosos para inserir rendimentos obtidos de maneira ilícita na economia, dando-lhes aparência legítima (3). Tem por objetivo esconder a real origem do dinheiro, tornando-o difícil de ser rastreado (3). De acordo com o Escritório das Nações Unidas de combate ao Crime e as Drogas, o valor de dinheiro ‘lavado’ no mundo em um ano fica entre 500 bilhões e 1 trilhão de dólares (4). Já o Fundo Monetário Internacional estima que a lavagem de dinheiro seja responsável por algo entre 2% e 5% do PIB mundial (5). Porém estes dados são estimativas feitas por modelos estatísticos baseados nas fraudes reveladas, já que ninguém sabe exatamente qual a quantidade real de dinheiro ‘lavado’ no sistema financeiro (4). Este tipo de atividade criminal está se tornando cada vez mais sofisticada e parece se mover do clichê de tráfico de drogas para o financiamento do terrorismo, certamente abrangendo também interesses pessoais(4). Constitui-se, assim, em um importante mecanismo para que traficantes de drogas, comerciantes de armas e outros criminosos possam operar e expandir seus negócios criminosos(4). As preocupações dos países inerentes à sua estabilidade política e econômica os levam a se preocuparem também com o combate à lavagem de dinheiro (4). A lavagem de dinheiro pode ser concretizada tanto através de uma série de transações reais realizadas através do sistema financeiro quanto através da circulação ilegal ou não oficial de recursos (6, 7). Estas transações procuram simular uma rotatividade normal e legal de bens, normalmente estão escondidas no vasto volume de transações legais presentes no sistema financeiro e podem envolver até centenas de indivíduos, o que dificulta sua identificação utilizando métodos tradicionais (6, 7). Didimo, Liotta e Montecchiani(8) e West e Bhattacharya(9) mencionam o problema da grande quantidade de dados a serem analisados para se identificar a lavagem de dinheiro e Kingdon(10) afirma que a utilização da tecnologia pode ser a única forma de resolvê-lo. O combate à lavagem de dinheiro é um processo de descoberta do conhecimento (11), que se refere identificação de padrões úteis e válidos em meio a grande quantidade de dados (12). 1.1 Problema Os registros das transações bancárias são as principais fontes para se identificar a lavagem de dinheiro (13, 11). A identificação em larga escala deste crime envolve a reconstrução dos padrões de transações através da ligação dos indícios disponíveis e da distinção das atividades legais e ilegais (7). Um grande desafio deste processo é que as 16 Capítulo 1. Introdução transações fraudulentas normalmente têm parâmetros (valores, frequências, etc.) muito próximos do comportamento regular dos envolvidos (14). Diante do exposto, pretende-se abordar, nesta pesquisa, o seguinte problema: quais as técnicas de descoberta do conhecimento podem ser utilizadas para comprovar indícios de lavagem de dinheiro em transações bancárias? 1.2 Objetivos 1.2.1 Objetivo Geral Avaliar técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro. 1.2.2 Objetivos Específicos ∙ Objetivo OBJ1: Identificar as técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro. ∙ Objetivo OBJ2: Identificar as formas de lavagem de dinheiro passíveis de resolução pelas técnicas de descoberta do conhecimento. ∙ Objetivo OBJ3: Comparar técnicas de descoberta do conhecimento utilizadas para identificar relacionamentos em transações bancárias provenientes de investigações de lavagem de dinheiro. 1.3 Motivação A lavagem de dinheiro envolve a circulação de grande quantia de dinheiro ilegal na economia mundial (4, 5) e está se tornando cada vez mais sofisticada, favorecendo a expansão de outras atividades criminosas. (4). Como envolve a circulação de transações ilegais no sistema financeiro escondidas em meio a vastas transações legais e pode abranger grande número de pessoas, o grande volume de dados dificulta sua identificação utilizando métodos tradicionais (6, 7, 8). Assim, a utilização da tecnologia pode ser o único meio de resolver este problema (10) e as técnicas de descoberta do conhecimento desempenham um papel importante neste processo (11). Desta forma, busca-se comparar as técnicas de descoberta do conhecimento que podem ser aplicadas nas investigações de lavagem de dinheiro para facilitar sua identificação. 1.4. Aderência ao Programa 17 1.4 Aderência ao Programa O programa de pós-graduação em sistemas de informação e gestão do conhecimento da FUMEC possui caráter profissional, ou seja, tem foco na realização de pesquisas aplicadas e práticas em áreas gerenciais e tecnológicas. O programa possui formação interdisciplinar nas linhas de pesquisa em tecnologia e sistemas de informação e em gestão da informação e do conhecimento. A multidisciplinaridade é um conceito chave do programa. Este trabalho tem como objetivo comparar técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro de forma a auxiliar na identificação de tal crime. A descoberta do conhecimento é uma área multidisciplinar (15) que envolve disciplinas dentro da ciência da computação e da estatística (16). Assim, este trabalho está aderente ao programa da FUMEC por ter um caráter multidisciplinar e seguir a linha de pesquisa de tecnologia e sistemas de informação. 1.5 Estrutura do Documento Este documento está estruturado em 4 capítulos. O capítulo 1 apresenta a introdução do trabalho. O capítulo 2 apresenta a revisão sistemática de literatura desenvolvida durante a definição do projeto da pesquisa sobre a aplicação das técnicas de descoberta do conhecimento na identificação da lavagem de dinheiro. Já o capítulo 3 apresenta os trabalhos relacionados e o capítulo 4 descreve os procedimento metodológicos a serem seguidos durante a implementação da pesquisa. 19 2 Revisão Sistemática de Literatura Uma revisão sistemática da literatura (RSL) é um estudo secundário imparcial e passível de repetição para identificar, avaliar e interpretar todas as evidências disponíveis na literatura sobre uma determinada questão de pesquisa, área temática, assunto ou fenômeno de interesse (17, 18). Requer um planejamento bem definido (17) e para tal será aplicado neste trabalho os pressupostos seguidos por Kitchenham(18) e Keele(17). 2.1 Introdução Esta RSL busca entender a aplicação da descoberta do conhecimento na investigação da lavagem de dinheiro, identificando as técnicas e métodos mais utilizados, as formas de lavagem de dinheiro passíveis de serem identificadas e a relação entre eles. 2.2 Fundamentação Teórica Esta seção revisa os dois conceitos chaves envolvidos nesta pesquisa: lavagem de dinheiro e descoberta do conhecimento. 2.2.1 Lavagem de Dinheiro 2.2.1.1 Definição A despeito das inúmeras definições encontradas para lavagem de dinheiro (19, 20, 21, 22, 23, 6), e das pequenas variações que a expressão possa ter, todas referem-se à intenção de dar aparência lícita a recursos obtidos de maneira ilícita, inserindo-os na economia para posterior utilização buscando esconder sua real origem e propriedade. A lavagem de dinheiro constitui um conjunto de operações comerciais ou financeiras que buscam a incorporação na economia de cada país dos recursos, bens e serviços que se originam ou estão ligados a atos ilícitos (24). Lavagem de dinheiro é um crime econômico. Crimes econômicos são aqueles que envolvem instrumentos e instituições do mercado financeiro visando a obtenção de ganhos às expensas de outros participantes do mercado. Tais atividades são ilegais pois violam as regras da economia de livre concorrência, já que os criminosos fazem uma série de transações sem nenhum senso econômico onde a maximização do lucro não é seu objetivo. Esta imprevisibilidade aumenta o risco dos investimentos e do mercado financeiro como um todo (6). 20 Capítulo 2. Revisão Sistemática de Literatura 2.2.1.2 Histórico A expressão “lavagem de dinheiro” (money laundering) teve sua origem nos Estados Unidos (25). Acredita-se que ela tenha sido criada para caracterizar o surgimento, por volta dos anos 20, de uma rede de lavanderias que tinham por objetivo facilitar a colocação em circulação do dinheiro oriundo de atividades ilícitas, conferindo-lhe a aparência de lícito (25). Dada a imediata compreensão do seu significado, esta expressão foi rapidamente incorporada por diversos países como riciclaggio del denaro (Itália), blanchiment de l’argent (França e Bélgica), geldwache (Alemanha), blanqueo de capitales (Espanha), lavado de dinero (Colômbia) e branqueamento de capitais (Portugal) (26). O tema lavagem de dinheiro se disseminou principalmente a partir da década de 1980 com a realização de diversas conferências internacionais sendo que a Convenção de Viena, em 1988, tem posição de destaque por tratar-se do primeiro instrumento jurídico internacional a definir como crime tal operação (24). Em 1989, o G7 (grupo das sete economias mais desenvolvidas do mundo) criou uma organização global chamada FAFT (Financial Action Task Force) que um ano depois publicou seu primeiro relatório anual contendo 40 recomendações acerca do combate à lavagem de dinheiro. Estas enfatizavam a importância de aumentar o nível de vigilância sobre o processo de lavagem de dinheiro e continham elementos importantes como o princípio ’conheça seu cliente’ (preconizava o conhecimento das partes envolvidas e dos reais beneficiários das transações bem como o armazenamento destes registros) e a implementação de relatórios de atividades suspeitas (22). 2.2.1.3 Fases A lavagem de dinheiro não é um ato isolado mas sim um processo que envolve uma sequência de atos concatenados no tempo e no espaço: a ocultação, a dissimulação e a integração dos recursos (23, 27, 26). Seguindo os preceitos de tais autores, cada uma das fases está descrita a seguir: - Colocação: é o primeiro estágio do ciclo de lavagem de dinheiro, onde os suspeitos buscam evitar a identificação dos recursos ilegais transformando-os em outros bens. Por exemplo, grandes quantidades de dinheiro (meio físico) advindas de atividades ilegais são transferidas para oo sistema financeiro utilizando vários depósitos bancários de pequenas quantias de maneira a evitar a detecção de sua origem por instituições financeiras e autoridades governamentais. - Ocultação: neste estágio, uma série de transações financeiras complexas e intermediárias é realizada para distanciar o dinheiro de sua origem ilegal e dificultar a realização de auditórias. Geralmente envolve depósitos/transferências/transações frequentes entre 2.2. Fundamentação Teórica 21 Figura 1 – Fases da lavagem de dinheiro. Fonte: Umadevi e Divya(23) bancos, transações internacionais ou revendas de bens/valores. - Integração: estágio final da lavagem de dinheiro onde os recursos ilícitos são formalmente inseridos no sistema econômico através de atividades comerciais legítimas como a venda de bens e propriedades de valor. 2.2.1.4 Formas A lavagem de dinheiro não é um fenômeno uniforme: possui múltiplas formas e variações, dependendo de fatores econômicos, políticos, geográficos e sociais (6). A presença de um grande número de transações entre várias pessoas ou instituições e suas contas bancárias em um curto período de tempo é um característica comum dos métodos utilizados (6). Como os criminosos buscam continuamente novos métodos, estes estão ficando cada vez mais sofisticados (23), movendo-se das atividades relacionadas ao tráfico de drogas para o financiamento do terrorismo e mesmo ganhos pessoais (19). Segundo a literatura, existem várias formas de lavagem de dinheiro e essas tomam por base principalmente as informações advindas de casos concretos e de análises conduzidas por agências de inteligência financeira (6). Este trabalho adotará a proposta de Unger et al.(1), que as classificam em três grandes áreas - setor financeiro, a economia real e outras - e se encontram detalhadas na tabela 1. Tabela 1 – Formas de lavagem de dinheiro de acordo com Unger et al.(1) Tipo Descrição Setor financeiro Continua na próxima página 22 Capítulo 2. Revisão Sistemática de Literatura Tabela 1 – continuação da página anterior Tipo Descrição Mercado de capitais Investimento em ativos financeiros altamente líquidos, que podem ser convertidos em dinheiro facilmente. Transações bancárias Normalmente se refere ao depósito de pequenas quantias de dinheiro em contas bancárias para evitar a detecção pelas entidades de controle - técnica conhecida como smurfing - geralmente associados com transferências sequencias para outras contas em diferentes bancos e até países - técnica conhecida como layering. Correspondentes bancários É a prestação de serviços bancários entre dois bancos. Ao estabelecer uma rede de relacionamentos global, bancos podem expandir seus serviços aos seus clientes mesmo onde não tem presença física. Este tipo de serviço é mais vulnerável à lavagem de dinheiro pois o correspondente bancário normalmente não possui acesso à todo histórico e risco do cliente. Empréstimos fraudulentos Permite a transferência de grandes quantidades de dinheiro para outra pessoa, que irá pagá-lo em parcelas pequenas para evitar a fiscalização. Mercado de seguros Pode ser utilizado para realizar apólices de seguro sobre os ativos, reais ou fantasmas, através de um corretor desonesto ou ignorante, onde sinistros regulares podem ser feitos para recuperação do dinheiro. Para reduzir o risco de detecção, o pode-se garantir que a apólice seja inferir ao prêmio pago de modo que a seguradora obtenha lucro. Cheques de viagem Podem ser utilizados para transferência de dinheiro especialmente para outros países visto que não havia necessidade de reportar às autoridades sua movimentação, o que já está mudando em alguns países. Cheques bancários De acordo com a FAFT, o uso de cheques bancários para lavagem de dinheiro não é frequente, pois a identificação do destinatário deve estar preenchida apesar de não ser requerida a não ser que a transação seja superior a valores pre-estabelecidos ou envolva saques em dinheiro. Contas coletivas Forma avançada de smurfing, onde instituições com boa reputação frente às instituições financeiras depositam grandes quantias de dinheiro que são divididas em partes menores e repassadas para várias outras. Continua na próxima página 2.2. Fundamentação Teórica 23 Tabela 1 – continuação da página anterior Tipo Descrição Contas de pagamento Configuradas no contexto das relações de correspondência bancária, permitem a condução de negócios e investimentos em outro país sem seguir suas regras de notificação financeira através da utilização de contas em um banco local que seja correspondente bancário de outro daquele país. Moeda virtual É mais complicada de rastrear que a moeda real pois todos pagamentos e recebimentos são realizados eletronicamente, e os fraudadores não precisam se preocupar em depositar grandes quantias pois o movimento do dinheiro ao redor do mundo dificulta o rastreamento por parte das autoridades. Bancos on-line Bancos virtuais facilitam a condução de transações bancárias por fraudadores pois evitam a ida a uma agência física e os impedem de ser vistos e ter que preencher formulários com dados adicionais, o que dificulta o rastreamento. Mercado negro de moeda estrangeira Utilizado para remover o risco de transportar grandes quantias de dinheiro através de fronteiras e evitar depositar tal quantia em bancos locais. Casas de câmbio Maneira legal de se trocar dinheiro por outra moeda e normalmente requer uma casa de câmbio corrupta e níveis de dinheiro abaixo de suspeitas. Transferências internacionais Podem ser facilitadas pela escolha dos bancos que normalmente não analisam a legitimidade de seus correspondentes bancários no exterior e por ser um mercado de regulação própria. Por exemplo, a Al Qaeda utilizou a rede de correspondentes do banco Sudanese para fazer negócios como bancos na França, Alemanha e Arábia Saudita. Derivativos Investimento líquido em empresas de reputação através de um intermediário corrupto, apesar de possuir maior risco que os instrumentos financeiros tradicionais. Economia real Jogos de azar e casinos São negócios com alta rotatividade de moeda física que, apesar de requerer o pagamento de impostos e taxas, permitem a conversão em fichas e depois da venda destas fichas o depósito bancário com as credenciais do casino para mostrar a legitimidade da transação. Continua na próxima página 24 Capítulo 2. Revisão Sistemática de Literatura Tabela 1 – continuação da página anterior Tipo Aquisição imóveis Descrição de Normalmente requer um agente imobiliário que não importa de receber pagamento em dinheiro por um bem de alto valor, que pode ser facilmente revendido para mostrar a legitimidade do dinheiro. Setor alimentício e eventos Podem ser utilizados como negócios com alta rotatividade de moeda física, já que normalmente recebem em dinheiro dos clientes e podem utilizar práticas contábeis fraudulentas como justificativa. Em outros negócios com essas características, como hotéis e cinemas, esta prática pode ser observada. Falsa terceirização Forma de evitar o pagamento de impostos das receitas auferidas por uma empresa. Esta subcontrata outras empresas, normalmente do mesmo dono, para reduzir o montante recebido, sendo que estas últimas normalmente ficam em um percentual de pagamento reduzido ou isento. Compras e vendas fictícias Este método implica a utilização de ordens falsas de compra e venda. As ordens de compra podem ser de organizações legítimas que não terão nenhum conhecimento de sua existência e ordens de venda fictícias são criadas para justificar a renda extra provenientes das atividades ilegais. Mercado de ouro Ouro pode ser comprado ou trocado por dinheiro com pouca dificuldade em grande parte do mundo, independente da forma que assumir (em barra, joias, etc.), o que, associado ao anonimato das transações, se uma forma torna altamente atrativa para lavagem de dinheiro. Mercado de diamantes Apesar de possuir um pouco mais de dificuldade para ser comercializado se comparado ao ouro, os diamantes possuem as mesmas características destes no que se refere à atratividade para lavagem de dinheiro. Aquisição de bens de consumo para exportação Investimento em bens de consumo como eletrodomésticos ou utensílios de cozinha que podem ser transportados e vendidos no exterior sem maiores suspeitas. Aquisição de bens de luxo Seguem a lógica dos bens de consumo, podem ser vendidos para exportação ou para uso pessoal. Normalmente os vendedores aceitam fazer negócios envolvendo grandes quantias em dinheiro e não perguntam a origem para não aborrecer os compradores com questões de cunho pessoal. Continua na próxima página 2.2. Fundamentação Teórica 25 Tabela 1 – continuação da página anterior Tipo Descrição Aumento de receitas injustificado em negócios legítimos Método que utiliza negócios legítimos de alta rotatividade de moeda física como suporte para adição de receitas extras provenientes de negócios fraudulentos em uma mesma conta bancária. Uso de moeda para complementar uma transação aparentemente legítima Por exemplo, um produto pode ser comprado por $50 com $30 pagos por transação eletrônica internacional e $20 em moeda, sendo este pagamento não declarado e utilizando para tal um negócio com alta operação de dinheiro como restaurante. Falsificação de preços de comércio exterior Pode haver um aumento no preço pago por produtos importados, com a diferença sendo depositada em um banco no país do fornecedor, ou pode haver uma diminuição no preço do produto exportado sendo a diferença depositada em um banco no país do comprador. Outras formas Contrabando de moeda Refere-se ao movimento de se levar dinheiro físico para outros países, normalmente com leis mais brandas ou inexistentes de lavagem de dinheiro, de forma a evitar a identificação de sua origem e propriedade. Posteriormente podem ser enviados via transações bancárias internacionais para o país de origem. Aquisição de armas É um meio comum de lavagem de dinheiro entre terroristas. Sistema bancário informal Por causa da combinação de informalidade, confidencialidade, controle informal e requisições mínimas de informação, estas redes de transações ilegais são meios extremamente atrativos para lavagem de dinheiro. Empresas de fachada São empresas sem finalidade comercial e com objetivo de dissimular a verdadeira propriedade dos negócios e ativos detidos. Uma série de empresas de fachada normalmente são criadas em países subsidiados por leis fortes de sigilo bancário ou por fraco controle da lavagem de dinheiro. Fonte: Adaptado de Unger et al.(1) 26 Capítulo 2. Revisão Sistemática de Literatura 2.2.1.5 Lavagem de Dinheiro no Brasil O Brasil assinou e ratificou as tratativas da Convenção de Viena em junho de 1991 e editou, em março de 1998, a Lei 9.613 que dispõe sobre o crime de “lavagem ou ocultação de bens, direitos e valores e cria [...] o Conselho de Controle de Atividades Financeiras – COAF” (24). Legislação Brasileira Em julho de 2012, foi aprovada a Lei 12.683 que atualizou em alguns aspectos a Lei 9613/98. Por exemplo, alterou o artigo 1o que trata dos crimes antecedentes necessários para que haja condenação por lavagem de dinheiro e, em seu caput, passou a ter a seguinte redação: “Art. 1o: Ocultar ou dissimular a natureza, origem, localização, disposição, movimentação ou propriedade de bens, direitos ou valores provenientes, direta ou indiretamente, de infração penal” (28). Assim, a partir dessa data, todos os crimes previstos no Código Penal Brasileiro são considerados crimes antecedentes à lavagem de dinheiro. Mesmo com a alteração, seu detalhamento explicitado por Barros et al.(29) ainda permanece atual: “Ocultar significa encobrir, esconder, sonegar, não revelar, enquanto dissimular é ocultar com astúcia, fingir, disfarçar. A natureza representa a própria especificidade ou as características estruturais dos bens, direitos ou valores, enquanto a origem liga-se a procedência ou forma de obtenção desses bens, direitos ou valores. Por localização entende-se onde possam esses bens, direitos ou valores ser encontrados, e disposição o local em que estariam, metodicamente colocados, utilizados ou a situação em que se encontram. No tocante à movimentação, servem os atos de deslocamento, aplicação, circulação ou mudança de posição de tais bens, direitos ou valores. Como última observação anota-se que a propriedade corresponde à titularidade e domínio de bens, direitos ou valores que integrem o patrimônio proveniente de crime antecedente. (...) Bens são definidos juridicamente como toda coisa, todo direito, toda obrigação, enfim, qualquer elemento material ou imaterial, representando uma utilidade ou uma riqueza, integrado no patrimônio de alguém e passível de apreciação monetária. Direitos, de seu turno, podem ser definidos sob vários aspectos, porém, o sentido que melhor se aplica como instrumento da ‘lavagem’ é aquele oriundo do jus romano, compreendido na fruição e gozo de tudo o que nos pertence, ou que nos é dado. Valores, em sentido econômico, exprimem o grau de utilidade das coisas, ou bens, ou a importância que lhes concedemos para a satisfação de nossas necessidades.” Unidade de Inteligência Financeira O COAF foi criado, segundo a Lei 12.683/12 em seu art. 14, caput, “com a finalidade de disciplinar, aplicar penas administrativas, receber, examinar e identificar as ocorrências suspeitas de atividades ilícitas previstas nesta Lei, sem prejuízo da competência de outros órgãos e entidades”. Segundo a mesma Lei, em seu artigo 15, também 2.2. Fundamentação Teórica 27 é função do COAF comunicar “às autoridades competentes para a instauração dos procedimentos cabíveis, quando concluir pela existência de crimes previstos nesta Lei, de fundados indícios de sua prática, ou de qualquer outro ilícito” (28). Assim, o COAF é um órgão que presta auxílio às autoridades, mas não atua diretamente na investigação dos crimes de lavagem de dinheiro. Obrigações Definidas em Lei A Lei 12.683/12 define as obrigações a que se submetem diversos entes do sistema econômico perante aos órgãos fiscalizadores. As obrigações, conforme orientações do FAFT, se dividem em dois tipos: identificação dos clientes e manutenção de registros e documentos das transações efetuadas (artigos 10 e 10a da referida lei) e comunicação de operações financeiras suspeitas às autoridades competentes para investigação (artigo 11) (28). Os entes submetidos a estas obrigações estão descritos no artigo 9o desta Lei: pessoas físicas ou jurídicas que tenham como atividade a captação ou aplicação de recursos financeiros de terceiros, a compra e venda de moeda estrangeira e a custódia, emissão ou negociação de títulos e valores mobiliários; bolsas de valores; administradoras de cartões de crédito; empresas de leasing, factoring, compra e venda de imóveis, transporte e guarda de valores, dentre outras (28). 2.2.2 Descoberta do Conhecimento 2.2.2.1 Definição A descoberta do conhecimento em bases de dados (KDD - Knowledge Discovery in Databases) é definida como um processo não trivial de identificação de novos padrões válidos, úteis e compreensíveis, sendo uma tentativa de solucionar o problema da sobrecarga de dados (12). Han(30) considera os termos descoberta do conhecimento e mineração de dados como sinônimos. Porém ainda não há consenso nesta definição (15). Para Fayyad et al.(12), a descoberta do conhecimento refere-se ao processo como um todo e a mineração de dados é uma das atividades desse processo, abordagem essa utilizada nesse trabalho. No entanto, parece haver concordância na literatura que o processo deve ser iterativo, interativo e divido em fases (15). Na figura 2 podemos ver a representação do processo de descoberta do conhecimento segundo Fayyad et al.(12). A mineração de dados contribui de forma significativa no processo de descoberta de conhecimento, permitindo aos especialistas concentrarem esforços apenas nas partes mais significativas dos dados (15). Por ser considerada multidisciplinar, suas definições variam de acordo com o campo de atuação dos autores(15). Em Zhou e Zhou(16), é feita uma 28 Capítulo 2. Revisão Sistemática de Literatura Figura 2 – Etapas da descoberta do conhecimento. Fonte: Fayyad et al.(12) análise comparativa considerando três perspectivas: estatística, aprendizado de máquina e banco de dados. ∙ Aprendizado de máquina: mineração de dados é um passo no processo de descoberta de conhecimento que consiste na realização da análise dos dados e na aplicação de algoritmos de descoberta que, sob certas limitações computacionais, produzem um conjunto de padrões de certos dados (12) (15). ∙ Estatística: mineração de dados é a análise de grandes conjuntos de dados a fim de encontrar relacionamentos inesperados e de resumir os dados de uma forma que eles sejam tanto úteis quanto compreensíveis ao dono dos dados (31) (15). ∙ Banco de dados: mineração de dados é um campo interdisciplinar que junta técnicas de máquinas de conhecimentos, reconhecimento de padrões, estatísticas, banco de dados e visualização, para conseguir extrair informações de grandes bases de dados (32) (15). 2.2.2.2 Processos Atualmente diversos processos definem e padronizam as fases e atividades da mineração de dados (15). Apesar das particularidades, todos em geral contém a mesma estrutura (15). O CRISP-DM (Cross-Industry Standard Process of Data Mining) consiste de seis fases organizadas de maneira cíclica (33), conforme mostra a figura 3 . Porém o fluxo não é unidirecional, podendo ir e voltar entre as fases (15). 2.2. Fundamentação Teórica 29 Figura 3 – Fases do processo CRISP-DM. Fonte: Olson e Delen(33), Camilo e Silva(15) As fases do processo CRISP-DM são (33) (15): 1. Entendimento dos Negócios: nessa etapa, o foco é entender qual o objetivo que se deseja atingir com a mineração de dados. 2. Entendimento dos Dados: como os dados podem vir de diversos locais e possuírem diversos formatos, é necessário conhecê-los visando: ∙ Descrever de forma clara o problema; ∙ Identificar os dados relevantes para o problema em questão; ∙ Certificar-se de que as variáveis relevantes para o projeto não são interdependentes. 3. Preparação dos Dados: Devido às diversas origens possíveis, é comum que os dados não estejam preparados para que os métodos de Mineração de Dados sejam aplicados diretamente. Dependendo da qualidade desses dados, algumas ações podem ser necessárias. Este processo de limpeza dos dados geralmente envolve filtrar, combinar e preencher valores vazios. 30 Capítulo 2. Revisão Sistemática de Literatura 4. Modelagem: É nesta fase que as técnicas (algoritmos) de mineração serão aplicadas. A escolha da(s) técnica(s) depende dos objetivos desejados (34). 5. Avaliação: fase crítica do processo onde é necessária a participação de especialistas nos dados, conhecedores do negócio e tomadores de decisão. Ferramentas gráficas devem ser utilizadas para a visualização e análise dos resultados. 6. Distribuição: após executado o modelo com os dados reais e completos é necessário que os envolvidos conheçam os resultados. 2.2.2.3 Tarefas A mineração de dados pode ser classificada pela sua capacidade de realizar determinadas tarefas (35). As tarefas mais comuns, para Peng et al.(2), estão descritas na tabela 2. 2.2.2.4 Métodos e Técnicas Durante o processo de mineração de dados, diversas técnicas devem ser testadas e combinadas a fim de que comparações possam ser feitas para que a melhor (ou combinação das melhores) seja utilizada (34). Há diversas classificações diferentes para os métodos e técnicas de mineração de dados (15). A classificação adotada por Peng et al.(2) propõe as seguintes categorias: algoritmos e modelos, otimização, estatística, inteligência artificial e tecnologias de banco de dados. Os algoritmos e modelos, campo de atuação da ciência da computação, são um dos principais componentes do processo de descoberta do conhecimento e mineração de dados (2). Tem por foco a formulação e implementação de algoritmos ou modelos matemáticos para as várias tarefas de mineração de dados e dados complexos (2). A otimização desses algoritmos ou modelos, para melhorar seu desempenho ou resultado, faz parte de outra categoria segundo Peng et al.(2). A estatística oferece vários métodos e técnicas que podem ser utilizados em cada etapa do processo de descoberta do conhecimento, sendo os conceitos principais: regressão, análise bayesiana, análise de componentes principais (PCA - Principle Component Analysis), modelos probabilísticos, Markov Chain Monte Carlo (MCMC), modelos ocultos de Markov (HMM - Hidden Markov Model) e análise de discriminantes (2). A inteligência artificial possui duas subcategorias: aprendizagem de máquina e soft computing (2). Os métodos e técnicas de aprendizagem de máquina incluem árvores de decisão, redes neurais, métodos supervisionados, não supervisionados, support vector machine (SVM) e métodos kernel, programação lógica indutiva (inductive logic program- 2.2. Fundamentação Teórica 31 Tabela 2 – Tarefas de mineração de dados conforme Peng et al.(2) Tipo Mineração de regras de associação Classificação predição e Agrupamento Classificação semisupervisionada Mineração de padrões frequentes Mineração de padrões sequenciais Análise de séries temporais Descrição de conceitos Identificação de exceções Análise de ligações Inovações mineração dados em de Descrição A maioria dos conceitos se refere a encontrar regras de associação em bancos de dados transacionais e regras de associação adicionais, como as regras informativas, otimizadas, representativas, substitutivas, dentre outros. Refere-se a construção de classificadores ou modelos utilizando dados de treinamento e de verificação, podendo estes serem utilizados para predição do futuro. A diferença entre eles é que a classificação utiliza variáveis categóricas enquanto que os modelos de predição utilizam variáveis contínuas. Inclui o agrupamento de dados transacionais, multi dimensionais, espaciais, séries temporais, imagens, documentos, dentre outros. Utiliza dados rotulados e sem rótulos para a realização de predições, sendo útil quando se tem poucos registros rotulados e muitos sem rótulo, contribuindo para melhorar o desempenho da classificação. Busca encontrar padrões que aparecem frequentemente nos conjuntos de dados, servindo como base para outras tarefas como a associação. Busca encontrar sequencias importantes nos conjuntos de dados, se diferenciando da mineração de padrões frequentes por levar em consideração a ordem dos padrões encontrados. Envolve a análise de sequencia de dados que estão disponíveis em intervalos de tempos regulares. Inclui a caracterização, que resume coleções de dados, e comparação, que provê descrições através da comparação entre dois ou mais conjuntos de dados. Busca identificar exceções ou pontos fora da curva no conjunto de dados. Pode ser aplicada como uma tarefa isolada ou como tarefa de pre-processamento, para remover as imperfeições antes de se trabalhar os dados. abrange vários domínios de aplicações, envolvendo desde a mineração da web, redes sociais, até citações bibliográficas e registros epidemiológicos. Também conhecida como mineração de ligações. Contém tarefas de mineração de dados novas e não usuais, como rotulagem de espectro de massa, aprendizagem multitarefa e mineração de percepções. Fonte: Adaptado de Peng et al.(2) 32 Capítulo 2. Revisão Sistemática de Literatura Tabela 3 – Mineração de dados complexos segundo Peng et al.(2). Tipo Mineração textos de Mineração de dados espaciais Mineração de grafos Mineração de dados temporais Mineração de fluxo de dados Mineração da web Bioinformática Mineração de dados multimídia Descrição Inclui a classificação de textos, extração da informação, recuperação da informação, categorização de textos, identificação de tópicos e processamento de linguagem natural. Refere-se à extração de conhecimento de dados espaciais, como os geométricos ou geográficos. Seus conceitos principais incluem a conexão entre grafos, mineração de padrões frequentes, particionamento, modelagem e predição de grafos. Busca trabalhar com a estrutura de dados temporais e inclui qualquer algoritmo que descreve padrões ou modelos nos mesmos. Refere-se a extração de conhecimento ou estruturas de grandes registros de dados contínuos e ordenados. Utiliza técnicas de mineração de dados para extrair conhecimentos ou informações úteis dos dados da web, que combinam documentos de texto, de hipertexto, estruturas de ligações e logs (do servidor e do navegador). Envolve a análise e gestão computacional de dados relacionados a biologia, tendo como conceitos principais a análise de sequência de DNA e a mineração de sequências de proteínas. Trabalha com imagens, animações, sons, vídeos ou qualquer outro tipo de informação digital. Fonte: adaptado de Peng et al.(2) e Han(30). ming - ILP) e reinforcement learning (2). Soft computing se refere a conceitos como lógica nebulosa (fuzzy logic), algoritmos genéticos e conjuntos aproximados (rough sets) (2). As técnicas de banco de dados são um campo fundamental para o processo de descoberta do conhecimento e mineração de dados (2). As principais tecnologias envolvidas são: armazém de dados (data warehouse) e consultas analíticas (OLAP), consultas (query languages), mineração de dados multi-relacional, bancos de dados indutivos e dedutivos, índices, integração de bancos de dados e mineração de dados ativa (2). 2.2.2.5 Mineração de Estruturas Complexas A mineração de dados foi inicialmente concebida para utilizar-se de repositórios estruturados de dados (banco de dados, armazém de dados, arquivos, etc) (15). Porém, atualmente os dados são representados por diversos formatos (não estruturado, espacial e temporal, multimídia, web, entre outros) e existe a necessidade da mineração nestes tipos de dados (15). Com isto, uma área que vem sendo bastante pesquisada é a mineração de dados em estruturas complexas (15, 2). A tabela 3 mostra as áreas segundo Peng et al.(2). 2.3. Revisões de Literatura Relacionadas 33 2.2.2.6 Limitações Apesar das potencialidades oferecidas pela descoberta do conhecimento e mineração de dados, alguns desafios precisam ser superados (12, 15): ∙ Técnicas para lidar com base de dados cada vez maiores; ∙ Aumento do espaço de busca (alta dimensionalidade); ∙ Os modelos são construídos usando um conjunto limitado de dados, que podem não conter todos os padrões e, com isto, ao serem submetidos a novos dados, se comportam de maneira errônea; ∙ A velocidade com que os dados mudam faz com que os modelos gerem resultados inválidos; ∙ O problema da baixa qualidade dos dados; ∙ Complexidade dos relacionamentos entre os atributos; ∙ Tornar os padrões descobertos mais legíveis, facilitando o entendimento e a interpretação pelo usuário; ∙ A baixa interação e a dificuldade de inserção de conhecimento prévio nos modelos; ∙ A dependência de outros sistemas, gerando problemas de integração. ∙ A análise dos resultados, em muitas das vezes, ainda precisa ser feitas por humanos. 2.3 Revisões de Literatura Relacionadas Não foi encontrada nenhuma revisão sistemática da literatura diretamente relacionada à aplicação de técnicas de descoberta do conhecimento e mineração de dados nas investigações de lavagem de dinheiro. Ngai et al.(3) desenvolveu uma revisão de literatura mais abrangente ao pesquisar a aplicação das técnicas de mineração de dados em fraudes financeiras. Lavagem de dinheiro é um tipo de fraude financeira (6). Nesta área, Gao e Ye(36) foi o único trabalho encontrado sobre lavagem de dinheiro e utilizou as tarefas de mineração de dados de classificação e análise de ligações. Ngai et al.(3) menciona que esta pequena quantidade de artigos pode ser explicada pela dificuldade na obtenção de dados suficientes para se realizar a pesquisa visto que os dados sobre lavagem de dinheiro normalmente são protegidos por sigilo. Khac et al.(19) não realizou uma revisão sistemática mas sim uma pesquisa sobre o tema, procurando identificar quais os mecanismos anti lavagem de dinheiro baseados em 34 Capítulo 2. Revisão Sistemática de Literatura Tabela 4 – Questões de pesquisa utilizadas na revisão sistemática de literatura ID QP1 QP2 QP3 Pergunta Quais são as técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro? Quais são as formas de lavagem de dinheiro passíveis de serem resolvidas pelas técnicas de descoberta do conhecimento? Quais técnicas de descoberta do conhecimento são aplicadas em cada forma de lavagem de dinheiro? Fonte: próprio autor. mineração de dados tinham sido propostos até então. Apesar de ter citado explicitamente somente três resultados da aplicação da mineração de dados na identificação da lavagem de dinheiro (Zhang, Salerno e Yu(37) com a utilização da técnica de agrupamento, Kingdon(10) e Tang e Yin(38) com a utilização da técnica de SVM), foi importante pois realizou uma proposta de um framework de mineração de dados para identificação da lavagem de dinheiro. Este trabalho serviu de base para algumas classificações nesta RSL, como as aplicações da mineração de dados (tabela 6) e níveis da mineração de dados (tabela 7). 2.4 Planejamento O planejamento desta RSL foi baseado nos pressupostos de Kitchenham(18) e Keele(17) e está dividido nos seguintes passos: definição das questões e da estratégia de pesquisa, seleção dos estudos, extração dos dados e classificação. 2.4.1 Questões de Pesquisa Questões de pesquisa foram identificadas para atender o propósito deste estudo e estão listadas na tabela 4. O principal objetivo das perguntas é propiciar, por meio da literatura, uma maior compreensão do contexto da aplicação das técnicas de descoberta de conhecimento no âmbito das investigações de lavagem de dinheiro. A questão de pesquisa 1 (QP1) tem por objetivo entender como a descoberta do conhecimento é aplicada na identificação da lavagem de dinheiro. Para isso, a análise levará em conta os seguintes aspectos: tarefas da mineração de dados, métodos e técnicas de aprendizagem, mineração de dados complexos, mineração de dados distribuídos e de alta performance, aplicações e níveis da mineração de dados. A questão de pesquisa 2 (QP2) objetiva entender em quais formas de lavagem de dinheiro a descoberta do conhecimento busca trabalhar. Para isso, a análise levará em 2.4. Planejamento 35 conta as seguintes formas: transações financeiras, economia real e outras formas. A questão de pesquisa 3 (QP3) busca estabelecer a relação entre as formas de lavagem de dinheiro e as técnicas de descoberta do conhecimento, demonstrando quais técnicas foram aplicadas para identificar a lavagem de dinheiro em cada uma de suas formas. 2.4.2 Estratégia de Pesquisa Como estratégia para realizar esta pesquisa, no primeiro momento foram definidos os termos para realização da busca em bases de dados. A segunda etapa consistiu na seleção das bibliotecas digitais. Em sequência, foram definidos os critérios de inclusão e exclusão dos documentos relevantes para a pesquisa. 2.4.2.1 Termos de Pesquisa Esta revisão buscou pelo termo "money laundering" em todo o conteúdo do documento nas bases digitais da ACM Digital, IEEE Xplore, Science Direct e Springer Link. 2.4.2.2 Recuperação de Dados O processo de recuperação de dados consiste na execução de pesquisa usando os termos propostos em cada uma das bibliotecas digitais selecionadas. Foi utilizada a seguinte expressão de pesquisa: “money laundering” por meio da ferramenta de busca avançada e dos campos de códigos que estavam disponíveis. A ferramenta de gerenciamento de referências Zotero foi utilizada para armazenar os artigos encontrados, com suas respectivas informações. 2.4.2.3 Critérios de Seleção ∙ Critérios de Inclusão – Serão incluídos na pesquisa somente artigos científicos completos publicados na língua inglesa, disponíveis nas bases de dados ACM Digital, IEEE Xplore, Science Direct e Springer Link, e que abordem a aplicação da descoberta do conhecimento na identificação da lavagem de dinheiro, o que será verificado através da leitura do título, do resumo, das palavras-chave, das listas de figura e tabelas dos artigos. ∙ Critérios de Exclusão – Livros, teses, editoriais, prefácios, artigos publicados em conferências, resumos de artigos, entrevistas, notícias, comentários, correspondências, debates, 36 Capítulo 2. Revisão Sistemática de Literatura Tabela 5 – Quantidade de artigos encontrados na RSL. Base de Busca ACM Digital IEEE Xplore Science Direct Springer Link Total Quantidade 114 526 1593 1466 3699 Fonte: próprio autor. comentários, cartas do leitor, resumos de tutoriais, workshops, painéis, dissertações e sessão de pôsteres. – Estudos que não abordem descoberta do conhecimento. – Estudos que não abordem lavagem de dinheiro. – Estudos que não relacionem a aplicação da descoberta do conhecimento na identificação da lavagem de dinheiro. – Documentos que exigirem pagamento para acesso. – Documentos corrompidos ou indisponíveis nas bases de dados. – Documentos duplicados e ou redundantes. – Publicações em outros idiomas que não o inglês. – Estudos secundários ou terciários. 2.4.3 Seleção dos Artigos A busca nas bases digitais (etapa 1) identificou um total de 3699 artigos, conforme detalhado na tabela 5. A triagem dos artigos busca identificar os estudos apropriados com base no tema de pesquisa usando os critérios de seleção. Os critérios de seleção foram compostos de 4 filtros conforme demonstrado na figura 4. A etapa 2 consistiu na remoção de 672 artigos de acordo com o tipo de periódico e a etapa 3 removeu 46 estudos duplicados, restando 2981 ao final destas etapas. O filtro pelo título do artigo e pelas palavras chave foi aplicado na etapa 4, eliminando 2810 artigos. Esta grande quantidade de artigos eliminados (95%) pode ser explicada pela utilização do termo de busca focado em lavagem de dinheiro e pela pesquisa abranger todo o conteúdo dos documentos. Na última etapa, o filtro pela análise do resumo dos artigos, das imagens e das tabelas reduziu a quantidade de artigos a 61, que foram selecionados para extração dos dados e classificação. 2.4. Planejamento 37 Figura 4 – Quantidade de artigos da RSL em cada etapa da triagem. Fonte: próprio autor. 2.4.4 Extração dos Dados Os dados foram extraídos e classificados com base nos pressupostos de (18) ajustados para as questões de pesquisa e dados relevantes para este trabalho. Todos os 61 artigos selecionados foram lidos por completo e classificados de acordo com as categorias definidas. 2.4.5 Classificação Tomando por base as etapas do processo de descoberta do conhecimento apresentadas no tópico 2.2.2.2, a classificação das categorias de descoberta do conhecimento envolve a determinação das tarefas e técnicas aplicadas diretamente no processo de mineração de dados e não em outras etapas como o pre-processamento dos dados. As categorias utilizadas para classificação dos papéis foram: tarefas da mineração de dados, métodos e técnicas de aprendizagem, mineração de dados complexos, mineração de dados distribuídos e de alta performance, aplicações da mineração de dados, níveis da mineração de dados e formas de lavagem de dinheiro. A figura 5 mostra o relacionamento entre elas. As tarefas da mineração de dados foram classificadas de acordo com a proposta de Peng et al.(2) em: associação, classificação e predição, agrupamento, classificação semisupervisionada, mineração de padrões frequentes, mineração de padrões sequenciais, aná- 38 Capítulo 2. Revisão Sistemática de Literatura Figura 5 – Relacionamento entre as categorias referentes a descoberta do conhecimento e mineração de dados. Fonte: Adaptado de Peng et al.(2). lise de séries temporais, descrição de conceitos, identificação de exceções, análise de ligações e inovações em mineração de dados. Maiores detalhes estão descritos na tabela 2. Os métodos e técnicas de aprendizagem também foram baseados na proposta de Peng et al.(2) e incluem disciplinas que envolvem e contribuem para a pesquisa de descoberta do conhecimento e mineração de dados: banco de dados, aprendizagem de máquina, inteligência artificial, estatística e otimização. As disciplinas aprendizagem de máquina, inteligência artificial, banco de dados e estatística formam subcategorias e consistem em uma lista de métodos e técnicas aplicadas para a descoberta do conhecimento. A seção 2.2.2.4 detalha esta classificação. A mineração de dados complexos está relacionada com a mineração de diversos tipos de dados (textos, grafos, espaciais, temporais, fluxos de dados, web, bioinformática, 2.4. Planejamento 39 Tabela 6 – Aplicações da mineração de dados na identificação da lavagem de dinheiro. Tipo Identificação de sequências de transações suspeitas Identificação de padrões de risco Classificação do comportamento Identificação de relacionamentos Identificação de padrões frequentes de transações Predição Descrição Engloba a identificação de sequências de transações suspeitas. Identificação de padrões de riscos para contas ou indivíduos Envolve a classificação do comportamento de transações, indivíduos, etc. em normal ou anormal. Busca a identificação de relacionamentos nos dados, mesmo os ocultos. Engloba a identificação de padrões frequentes de transações suspeitas. Predição da possibilidade de uma conta ser utilizada indevidamente para lavagem de dinheiro, baseada em variáveis demográficas e comportamentais. Fonte: Khac et al.(19). multimídia) e sua classificação também foi baseada na proposta de Peng et al.(2). Detalhes sobre os itens desta categoria estão descritos na tabela 3. A mineração de dados distribuídos e de alta performance também foi baseada na proposta de Peng et al.(2) e foca nas técnicas que podem aumentar a eficiência na tratativa de conjuntos de grandes conjuntos de dados, como processamento paralelo e algoritmos de mineração de dados distribuídos. A mineração de dados distribuídos trabalha com bancos de dados distribuídos e com algoritmos de mineração de dados distribuídos. Classificar as aplicações da mineração de dados foi uma proposta feita por Peng et al.(2) porém os mesmos não especificaram as categorias em seu trabalho e afirmaram que estas são específicas para cada domínio onde a mineração de dados for aplicada. No que tange à lavagem de dinheiro, este trabalho adota as categorias encontradas por Khac et al.(19): identificação de padrões de sequências de transações suspeitas, identificação de padrões de riscos para indivíduos ou contas, classificação do comportamento em normal ou anormal, identificação de relacionamentos, identificação de padrões frequentes de transações e predição da possibilidade de uma conta ser utilizada indevidamente para lavagem de dinheiro. Detalhes a respeito destas categorias se encontram na tabela 6. Os níveis da mineração de dados (transação, conta, instituição e multi-instituição) foram baseados na proposta de Khac et al.(19) e estão detalhados na tabela 7. As formas de lavagem de dinheiro foram classificadas segundo proposta de Unger et al.(1) e englobam o setor financeiro, a economia real e outras. Encontram-se detalhadas 40 Capítulo 2. Revisão Sistemática de Literatura Tabela 7 – Níveis da mineração de dados quando aplicada na identificação da lavagem de dinheiro. Tipo Transação Conta Instituição Multiinstituição Descrição Nível mais básico, onde os dados individuais de cada transação são investigados, porém sem ligação com dados das contas ou outros dados. Agregação das transações com dados das contas dos indivíduos, demonstrando o grau de associação entre várias contas baseadas na frequência de suas transações. Consolidação das várias contas que indivíduos (pessoa física ou jurídica) podem possuir na mesma instituição, proporcionando uma visão geral das atividades financeiras dos mesmos. Envolve a consolidação de dados provenientes de várias instituições. Fonte: Khac et al.(19). na tabela 1. Tais categorias não são mutualmente exclusivas, podendo inclusive haver sobreposições. Por exemplo, o conceito agrupamento aparece tanto nas tarefas de mineração de dados quanto nos métodos e técnicas de aprendizagem. Nesses se refere aos métodos não supervisionados que agrupam objetos similares e incluem algoritmos de agrupamento. Naqueles se refere à tarefa de mineração de dados que utiliza métodos de agrupamento em várias aplicações. 2.5 Resultados Foram encontrados 61 (sessenta e um) trabalhos relacionados diretamente à aplicação de técnicas de descoberta do conhecimento para identificação da lavagem de dinheiro. Quando da extração dos dados dos artigos, o ano da publicação foi considerado uma informação útil para entender como as pesquisas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro evoluíram ao longo do tempo. A figura 6 demonstra os artigos publicados nesta temática a cada ano. A lista dos artigos identificados, segmentados por base de dados, está detalhada no apêndice A. 2.5. Resultados 41 Figura 6 – Tarefas e aplicações de mineração de dados por ano. Fonte: próprio autor 2.5.1 QP1 - Quais são as técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro? O objetivo da QP1 é identificar a aplicação das técnicas de descoberta do conhecimento na identificação da lavagem de dinheiro. Tarefas de mineração de dados: dentre as 11 tarefas de mineração de dados, as mais utilizadas foram classificação e predição (22 artigos) e análise de ligações (22 artigos) conforme resultados mostrados na figura 6. Esta mesma figura demonstra a evolução das tarefas de mineração de dados ao longo dos anos, o que permite inferir que as tarefas de classificação e predição foram mais utilizadas no período entre 2007 e 2010, agrupamento entre 2010 e 2012 e análise de ligações em 2013 e 2014. Trabalhos referentes às categorias classificação semi-supervisionada, descrição de conceito e inovações em mineração de dados não foram encontrados. Aplicações da mineração de dados: a classificação do comportamento em normal ou anormal foi a categoria de aplicações da mineração de dados mais utilizada (29 artigos), seguida da identificação de relacionamentos ocultos (17 artigos). Métodos e técnicas de aprendizagem: a inteligência artificial (39 artigos) foi mais utilizada que as tecnologias de banco de dados (11) e estatística (10). A adoção explícita de algoritmos e modelos foi proposta por 16 trabalhos e a otimização das técnicas para obtenção de melhores resultados em nove. A seguir estão listados os resultados específicos de cada uma das técnicas e métodos de aprendizagem: 42 Capítulo 2. Revisão Sistemática de Literatura ∙ Inteligência Artificial: as técnicas e métodos relacionados à aprendizagem de máquina (18) tiveram maior destaque do que as relacionados à soft computing (nove). Aprendizagem de máquina: aprendizagem supervisionada (4, 20, 21, 39, 40, 5, 41, 38, 42, 43, 44) obteve melhor resultado que aprendizagem não supervisionada (10, 45, 41, 5, 46, 47, 38, 48). Em seguida foram as redes neurais (4, 21, 5, 49, 42, 44), árvores de decisão (20, 11, 43) e por último SVM e Kernel (39, 38). Lógica indutiva e reinforcement não foram utilizadas. Soft computing: lógica nebulosa (cinco) (50, 37, 5, 42, 51) foi mais utilizada que os algoritmos genéticos (quatro) (41, 52, 49, 44). Conjuntos aproximados não foram mencionados. ∙ Estatística: modelos probabilísticos (53, 10, 54, 48, 55) (cinco) foram os mais utilizados. Regressão (41, 56) e modelos ocultos de markov (52, 57) também foram citados, assim como a análise bayesiana (51). Análise de componentes principais, análise de discriminantes e markov chain monte carlo não foram citados. ∙ Tecnologias de bancos de dados: a integração de banco de dados (58, 44, 59, 27, 60, 61) foi o tópico mais citado, seguindo do armazém de dados e OLAP (62, 20, 6). Indexação (62) e linguagens de consultas(63) foram mencionados em um artigo cada, ao passo que bancos de dados multi-relacionais, bancos de dados indutivos e dedutivos e mineração de dados ativos não obtiveram retorno. Mineração de dados complexos: dentre as categorias disponíveis, somente a mineração em grafos foi utilizada e se encontra representada em 17 trabalhos (50, 64, 65, 52, 66, 67, 68, 56, 14, 69, 70, 71, 13, 72, 73, 74, 75). A figura 7 mostra sua relação com as tarefas de mineração de dados e permite inferir que a maioria dos trabalhos que implementam a mineração em grafos tem como objetivo a análise de ligações. Mineração de dados distribuídos e de alta performance: Foram encontrados três trabalhos (41, 59, 72) que utilizam mineração em dados distribuídos. Relacionandoos com as tarefas de mineração de dados, conforme figura 7, temos dois resultados para mineração de padrões sequenciais e um resultado para classificação e predição, agrupamento, identificação de exceções e análise de ligações. Já a mineração de dados de alta performance foi encontrada em cinco trabalhos (21, 47, 38, 66, 7), sendo que, dentre estes, as tarefas de classificação e predição e agrupamento, com dois resultados, foram as mais citadas. Também foram mencionadas as tarefas de mineração de padrões frequentes, identificação de exceções e análise de ligações. Nível de mineração de dados: o mais utilizado foi o de transação, em 41 artigos, seguido de instituição, em 24 artigos. A categoria conta foi identificada em 16 artigos e a de múltiplas instituições em 13. Em oito artigos não foi possível identificar o nível 2.5. Resultados 43 Figura 7 – Relação entre as tarefas de mineração de dados, mineração de dados distribuídos e de alta performance e mineração de dados complexos. Fonte: próprio autor. utilizado, principalmente por falta de detalhamento dos artigos nesta questão. A figura 9 demonstra tal resultado. 2.5.2 QP2 - Quais são as formas de lavagem de dinheiro passíveis de serem resolvidos pelas técnicas de descoberta do conhecimento? O objetivo da QP2 é identificar as formas através das quais a lavagem de dinheiro se manifestou em cada caso. As transações financeiras foram a forma mais utilizada para a lavagem de dinheiro representando 47 dos casos identificados. Desses, 36 foram referentes a transações bancárias (50, 4, 76, 20, 21, 53, 39, 60, 40, 54, 61, 37, 5, 77, 45, 46, 78, 38, 48, 27, 67, 42, 23, 79, 7, 8, 80, 59, 69, 51, 57, 6, 13, 58, 73, 63), cinco a moedas virtuais (14, 44, 58, 81, 82), quatro a transferências internacionais (5, 42, 62, 23) e três ao mercado de capitais (54, 52, 58). Casas de câmbio foram citadas em um artigo (55). A lavagem de dinheiro através da economia real foi mencionada em três artigos, sendo investigada em jogos de azar ou casinos em dois deles (47, 57) e no mercado de seguros no outro (57). Outras formas de lavagem de dinheiro foram mencionadas em 4 artigos (71, 27, 57, 83). A figura 8 demostra tal classificação. 44 Capítulo 2. Revisão Sistemática de Literatura Figura 8 – Formas de lavagem de dinheiro. Fonte: próprio autor. 2.5.3 QP3 - Quais técnicas de descoberta do conhecimento são aplicadas em cada forma de lavagem de dinheiro? O objetivo da QP3 é relacionar as técnicas de descoberta do conhecimento com as formas de lavagem de dinheiro. Para isso, será feita uma comparação entre as diversas classificações da descoberta do conhecimento e as formas de lavagem de dinheiro. A figura 9 demostra a relação entre as formas de lavagem de dinheiro e as aplicações da mineração de dados. A mineração de dados foi aplicada nas transações financeiras (47 casos) prioritariamente para classificar o comportamento em normal ou normal (27 casos) e também para identificar relacionamentos ocultos (oito ocasiões). Com relação à economia real (três casos), a mineração de dados foi utilizada para classificar o comportamento em normal ou anormal em duas ocasiões e para identificar relacionamentos ocultos em outra. No que tange às outras formas de lavagem de dinheiro (quatro casos), a mineração de dados foi aplicada para identificar relacionamentos ocultos em três casos e classificar o comportamento em normal ou normal em outro casos. O nível mais utilizado da mineração de dados aplicada à lavagem de dinheiro foi o de transação, em 41 trabalhos, seguido de instituição, em 24, e conta, em 16. O nível menos citado foi de múltiplas instituições, com 13 trabalhos. Todos estes níveis foram citados quando a forma de lavagem de dinheiro são as transações financeiras: transações (38 trabalhos), instituição (21 trabalhos), conta (15 trabalhos) e múltiplas instituições, em cinco trabalhos. Tomando por base a lavagem de dinheiro na economia real, houve 2.5. Resultados 45 Figura 9 – Relação das formas de lavagem de dinheiro com as aplicações e com os níveis da mineração de dados. Fonte: próprio autor. uma menção a transação, instituição e múltiplas instituições. Já nas outras formas de lavagem de dinheiro somente houve menção à múltiplas instituições (dois trabalhos). Tais relações podem ser visualizadas na figura 9. As tarefas de mineração de dados de classificação e predição e análise de ligações foram identificadas em todas formas de lavagem de dinheiro. No que tange à lavagem de dinheiro através de transações financeiras, as tarefas de mineração de dados de classificação e predição (18 citações), agrupamento (13 citações) e análise de ligações (12 citações) foram as mais utilizadas. Levando-se em conta a economia real, foram aplicada também o agrupamento e a identificação de exceções e nas outras formas de lavagem de dinheiro a análise de séries temporais também foi utilizada. A figura 10 demonstra tais relações. Em geral, quanto à utilização dos métodos e técnicas de aprendizagem, não houve nenhum resultado destacado dos demais. Porém o modelo oculto de markov foi encontrado em todas as formas de lavagem de dinheiro e a integração de bancos de dados só não foi encontrada na lavagem de dinheiro na economia real. Os métodos supervisionados foram utilizados somente nas transações financeiras. Se tomarmos esta forma de lavagem de dinheiro como base, a adoção explícita de algoritmos e modelos foi abordada em 16 trabalhos e os métodos supervisionados (11 citações) tiveram maior resultado que os métodos não supervisionados (oito citações) . A integração de bancos de dados e as redes neurais, citadas em seis trabalhos, e a lógica nebulosa e os modelos probabilísticos, em cinco, foram os mais citados. Levando em consideração a lavagem de dinheiro na economia 46 Capítulo 2. Revisão Sistemática de Literatura Figura 10 – Relação das formas de lavagem de dinheiro com as tarefas mineração de dados e com os métodos e ferramentas de aprendizagem. Fonte: próprio autor. real, foram identificados somente métodos não supervisionados (dois trabalhos) e modelo oculto de markov em outro. Este modelo também foi encontrado em outra formas de lavagem de dinheiro, assim como a integração de banco dados. Tais relações são demonstradas na figura 10. 2.6 Discussão O objetivo desta revisão sistemática foi entender a aplicação da descoberta do conhecimento na identificação da lavagem de dinheiro, identificando as técnicas e métodos mais utilizados, as formas de lavagem de dinheiro passíveis de serem identificadas e a relação entre eles. Para isso, verificou artigos publicados sobre o tema lavagem de dinheiro até maio de 2016. A metodologia e as questões de pesquisa foram descritas na seção 2.4. Transações financeiras, especificamente as transações bancárias, foram a forma de lavagem de dinheiro mais identificada nos trabalhos analisados. A soma de todas as outras formas identificadas representa em torno de 60% das transações bancárias. Este resultado corrobora a afirmação de que os registros das transações bancárias são as principais fontes para se identificar a lavagem de dinheiro (13, 11). A mineração de dados foi mais aplicada para classificar em normal ou anormal o comportamento de transações ou indivíduos (29 artigos), sendo que a identificação de relacionamentos ocultos (17 artigos) também obteve resultado representativo. Verificou-se, 2.6. Discussão 47 também, que a análise de ligações e classificação e predição foram as tarefas de mineração de dados mais abordadas (22 artigos), seguidas pelo agrupamento (15 artigos). Quanto aos métodos e técnicas de aprendizagem, a inteligência artificial (18 artigos) foi o mais encontrado, especificamente a aprendizagem de máquina, sendo que as técnicas supervisionadas foram mais abordadas que as não supervisionadas. A mineração em grafos foi a única abordagem encontrada no que tange à mineração de dados complexos e se mostrou bastante representativa: 17 artigos. No que tange ao nível de aplicação da mineração de dados, o nível de transação foi o que obteve maior resultado, seguido do nível de instituição. Múltiplas instituições foi o que teve menor abordagem. Verificou-se, com tais resultados, que a descoberta do conhecimento é mais aplicada na identificação da lavagem de dinheiro dentro das instituições financeiras, o que pode ser explicado pelas regulações legais a que estão submetidas. Tais instituições utilizam a mineração de dados, na maioria dos casos, para classificar as transações de seus clientes em normal ou anormal, levando mais em consideração a própria transação em si do que o comportamento do cliente como um todo dentro da instituição. Para tal, utilizam técnicas e métodos supervisionados (maioria) ou não supervisionados de aprendizagem de máquina, uma das áreas da inteligência artificial. O nível de mineração de dados referente às múltiplas instituições está ligado diretamente aos órgãos reguladores e instituições judiciais que investigam a lavagem de dinheiro, visto que somente estes têm o poder e a responsabilidade legal de solicitar e ter acesso às informações de todas instituições onde os investigados mantém relacionamento. Este nível teve baixa representação no resultado geral (13 trabalhos) e a maioria dos seus trabalhos (oito) está focada na identificação de relacionamentos ocultos, utilizando para tal mineração em grafos (em sete deles). 49 3 Trabalhos Relacionados O problema de identificação da lavagem de dinheiro é conhecido e algumas pesquisas tem sido propostas sobre o tema, apesar de não haver uma resposta definitiva para o mesmo. Os trabalhos de Dreżewski, Sepielak e Filipkowski(6), Dreżewski, Sepielak e Filipkowski(13) e Dreżewski et al.(77) descrevem um sistema de lavagem de identificação de lavagem de dinheiro utilizado pela polícia polonesa. O objetivo principal é analisar grande quantidade de transações bancárias e encontrar padrões que indiquem a ocorrência de atividade criminosa. Tal sistema é composto de quatro módulos principais: importação dos dados (permite a importação das transações bancárias), agrupamento, mineração de itens frequentes e visualização dos dados. O agrupamento determina os conjuntos de transações que preenchem certos critérios de tamanho mínimo e condições de fluxo, como reunir quantidades de dinheiro para uma única conta. A mineração de itens e sequencias frequentes nos agrupamentos auxilia na identificação potencial da lavagem de dinheiro e nas descoberta das funções das entidades envolvidas no processo. Em Dreżewski et al.(77) os algoritmos utilizados para descoberta de padrões foram comparados (FP-Growth, FPClose e FPMax, para mineração de padrões frequentes; e Sequence Miner, BIDE e BIDEMax para mineração de sequencias frequentes) e em Dreżewski, Sepielak e Filipkowski(13) foi demonstrada a utilização da análise de redes sociais para determinar o papel de cada indivíduo na rede e permitir a análise da conexão entre eles. Já o módulo de visualização dos dados permite ao analista visualizar os agrupamentos e os padrões frequentes em diagramas e linhas do tempo, o que facilita seu trabalho de exploração dos dados para encontrar relacionamentos ocultos entre suspeitos e o caminho do dinheiro. Zhang, Salerno e Yu(37) propõe uma metodologia de descoberta de ligações baseada na análise de correlação (LDCA - Link Discovery based on Correlation Analysis) para identificar ligações entre os dados que não são diretas ou explícitas. Em um teste envolvendo mais de 7000 documentos de uma investigação real de pirâmide Ponzi nos Estados Unidos, foi feita a extração das entidades envolvidas e aplicada a metodologia de análise de correlação para identificar as ligações entre as entidades, gerando assim um grafo, onde foi aplicado o algoritmo de busca em largura (breadth-first search). Segundo os autores, apesar de não possuir uma lista dos condenados no caso para comparação, os resultados foram promissores. Outros trabalhos, que utilizam correspondência entre grafos (graph matching ou graph isomorphism), podem servir de base para identificar ligações ocultas entre dados. (71) foca seu trabalho no caminho do dinheiro em uma rede de empréstimos nó a nó, 50 Capítulo 3. Trabalhos Relacionados onde o aumento temporário das transações em determinado período, diferente do padrão, pode estar associado à lavagem de dinheiro. Dado um padrão de transações, foram feitas buscas no grafo em busca de um subgrafo com a topologia levando em conta o aspecto temporal. Foi utilizada uma versão modificada do algoritmo VF2 para tal. Tong et al.(66) estendeu este conceito de correspondência entre grafos para retornar também padrões parecidos com o procurado, caso o padrão exato não exista no grafo. Citou ser o primeiro trabalho a adotar esta abordagem e apresentou o algoritmo G-Ray (Graph X-Ray) para tal, demonstrando que o mesmo executa em tempo linear mesmo quando aplicado em uma rede com 356 mil nós e quase dois milhões de arestas. Chau et al.(68) apresentou o Graphite (Graph Investigation by Topological Example), um sistema de busca em grafos que implementa o algoritmo G-Ray. Algoritmos de busca em grafo, especificamente os de busca de menor caminho (shortest-path algoritms), também foram identificados em outros trabalhos (84, 56, 73, 69). Xu e Chen(84) utilizou os algoritmos priority-first search (PFS) e two-tree PFS, comparando sua efetividade com o breadth-first search (BFS), para identificar os caminhos de associação mais fortes entre entidades numa rede criminosa, sendo que o two-tree PFS teve melhores resultados em redes pequenas e densas e o PFS em redes grandes e esparsas. Magalingam, Rao e Davis(56) propôs um novo algoritmo de busca do menor caminho combinado com medidas de centralidade da rede que pode isolar e identificar conexão criminosas dentro de uma rede. Tal algoritmo pode mostrar a conexão entre nós em dois cenários: quando o investigador conhece todos os criminosos e quando está em um estágio inicial, não possuindo informações sobre eles. Sua utilização foi demonstrada utilizando uma rede formada pela troca de e-mails com destinatários ocultos referentes ao caso da Enron. Yunkai, Quanwen e Zhengding(73) utilizou uma versão modificada do algoritmo PFS para identificar fortes associações entre duas ou mais entidades numa rede de investigação de lavagem de dinheiro, sendo que o peso da ligação foi determinado a partir da probabilidade dela ocorrer. O algoritmo two-tree Dijkstra foi mencionado como alternativa caso a associação seja somente entre duas entidades. Guo e Xue(69) citou a construção de uma rede de transações bancárias cujas contas representam os nós e as arestas são representadas pelas transferências entre as contas. A rede é ponderada pela frequência de transferências e utiliza algoritmos de menor caminho para encontrar a relação entre quaisquer contas, porém o algoritmo utilizado não foi mencionado. 3.1 Contribuição deste trabalho Este trabalho busca ser complementar aos artigos discutidos neste capítulo, comparando as técnicas utilizadas para identificar relacionamentos em uma rede de transações bancárias. Utiliza como base o trabalho de Zhang, Salerno e Yu(37), que identifica relacionamentos ocultos entre indivíduos e adiciona este novo conhecimento na rede, antes da 3.1. Contribuição deste trabalho 51 aplicação de algoritmo de busca em rede para verificar a conexão entre eles. As técnicas a serem comparadas foram identificadas através de uma revisão sistemática de literatura da aplicação das técnicas de descobertas do conhecimento nas investigações de lavagem de dinheiro, outra contribuição deste trabalho, principalmente por não ter sido encontrada outra com tais características na literatura. 53 4 Metodologia Para alcançar os objetivos propostos neste projeto, propõe-se a seguinte abordagem de pesquisa segundo a classificação proposta por Gil(85): ∙ Do ponto de vista da natureza da pesquisa: pesquisa aplicada, pois objetiva explorar métodos e técnicas de descoberta do conhecimento que possam ser aplicados para solução de problemas práticos nas investigações de lavagem de dinheiro. ∙ Do ponto de vista da abordagem ao problema: pesquisa quantitativa, pois pretende-se aplicar métodos matemáticos e estatísticos para testar e estabelecer de forma quantitativa relacionamentos entre variáveis respostas e explicativas, buscandose avaliar quais modelos apresentam a melhor acurácia do ponto de vista estatístico. ∙ Do ponto de vista dos objetivos: pesquisa explicativa, pois objetiva identificar quais métodos de descoberta do conhecimento melhor explicam o comportamento de uma variável futura. ∙ Do ponto de vista das técnicas de pesquisas: - pesquisa bibliográfica, que analisa múltiplas maneiras de se resolver um problema e ajuda também na definição de novos métodos. - pesquisa experimental, pois pretende-se testar diferentes técnicas de descoberta do conhecimento em dados reais de transações bancárias verificando quais apresentam o melhor desempenho de acordo com critérios objetivos. O objetivo OBJ1 (identificar as técnicas de descoberta do conhecimento aplicadas na identificação da lavagem de dinheiro) foi atingido através da revisão sistemática de literatura (seção 2). Verificou-se que a descoberta do conhecimento é mais aplicada na identificação da lavagem de dinheiro dentro das instituições financeiras, que na maioria dos casos a utiliza para classificar as transações de seus clientes em normal ou anormal, fazendo uso de técnicas e métodos supervisionados de aprendizagem de máquina, uma das áreas da inteligência artificial. A aplicação da descoberta do conhecimento pelos órgãos reguladores e instituições judiciais que investigam a lavagem de dinheiro teve baixa representação no resultado geral quando comparado com as instituições financeiras. A maioria dos trabalhos nesta área está focada na identificação de relacionamentos utilizando para tal a mineração em grafos. O objetivo OBJ2 (identificar as formas de lavagem de dinheiro passíveis de resolução pelas técnicas de descoberta do conhecimento) também foi atingido através da revisão 54 Capítulo 4. Metodologia sistemática da literatura. As transações financeiras, especificamente as transações bancárias, foram a forma de lavagem de dinheiro mais identificada nos trabalhos analisados. Para atingir o OBJ3 (comparar técnicas de descoberta do conhecimento utilizadas para identificar relacionamentos em transações bancárias provenientes de investigações de lavagem de dinheiro) será feita uma pesquisa experimental segundo os pressupostos de Gil(85) e Wohlin et al.(86). A verificação do relacionamento entre indivíduos em uma rede de transações bancárias contribui para a comprovação dos indícios de lavagem de dinheiro. 4.1 Proposta de Pesquisa A pesquisa experimental consiste em determinar um objeto de estudo, selecionar as variáveis que seriam capazes de influenciá-lo, definir as formas de controle e de observação dos efeitos que a variável produz no objeto (85). Estas constituem o mais valioso procedimento disponível aos cientistas para testar hipóteses que estabelecem relações de causa e efeito entre as variáveis. Em virtude de suas possibilidades de controle, os experimentos oferecem garantia muito maior do que qualquer outro delineamento de que a variável independente causa efeitos na variável dependente (85). O planejamento da pesquisa experimental foi desenvolvido seguindo os passos indicados por Gil(85): definição do problema, construção das hipóteses, escolha das variáveis, determinação dos sujeitos, determinação do ambiente e definição do plano experimental. 4.1.1 Problema Como toda pesquisa, a experimental inicia-se com algum tipo de problema ou indagação. Mais que qualquer outra, a pesquisa experimental exige que o problema seja colocado de maneira clara, precisa e objetiva (85). Assume-se que podem ocorrer relacionamentos implícitos em uma rede formada por transações bancárias. Por exemplo, quando ocorre um saque em uma conta bancária de uma pessoa e depósito em outra, a identificação desta última operação pode não ter sido efetivada pelo sistema bancário, interrompendo o fluxo de dinheiro no grafo. Assim, esta ligação oculta deve ser explicitada no grafo antes da verificação da conexão entre dois investigados. Sendo assim, esta pesquisa experimental se propõe a responder a seguinte pergunta: qual(is) técnica(s) de descoberta do conhecimento é(são) mais eficaz(es) para identificar relacionamentos em uma rede de transações bancárias advindas de investigações de lavagem de dinheiro? 4.1. Proposta de Pesquisa 55 4.1.2 Hipóteses Durante a fase de planejamento, a definição do experimento é formalizada através de hipóteses. Dois tipos de hipóteses devem ser formulados: a nula (H0), que afirma que as únicas razões para as diferenças em nossas observações são coincidência e não há tendências ou padrões reais subjacentes no experimento; e a alternativa (H1, H2, etc.), que é a hipótese beneficiada caso a hipótese nula seja rejeitada (86). Como a pesquisa experimental se caracteriza pela clareza, precisão e parcimônia, frequentemente envolve uma única hipótese (85). As hipóteses utilizadas neste experimento são: ∙ Hipótese nula: não há diferença na eficácia quando da aplicação das técnicas de descoberta do conhecimento t para descobrir a existência de relacionamento entre investigados. - H0: t1 = t2 = ... = tj ∙ Hipótese alternativa: há diferença na eficácia das técnicas de descoberta do conhecimento aplicadas para descobrir a existência de relacionamento entre dois investigados. - H1: i ̸= j para pelo menos um par de técnicas (i, j). 4.1.3 Variáveis As variáveis contidas nas hipóteses de uma pesquisa experimental devem possibilitar o esclarecimento do que se pretende investigar, bem como sua comunicação de forma não ambígua(85). As variáveis independentes são aquelas passíveis de serem controladas e modificadas durante o experimento (86). A escolha das variáveis independentes inclui também a escolha do tipo de medição para compará-las (86). O efeito da aplicação destas variáveis é mensurado na(s) variável(is) dependente(s), que geralmente é somente uma e não é diretamente mensurável, devendo para tal utilizar métricas indiretas (86). A variável dependente é uma rede de transações bancárias realizadas por investigados de cometer lavagem de dinheiro. As variáveis independentes são as técnicas de descoberta do conhecimento identificadas a partir do resultado da revisão sistemática de literatura. Porém, como estão suceptivéis aos riscos RK1 e RK2 indicados na tabela 10, a determinação daquelas efetivamente utilizadas virá após a realização da atividade análise dos algoritmos de mineração em grafos proposta no cronograma 11. As técnicas de descoberta do conhecimento identificadas na RSL foram: ∙ Técnicas para identificação de relacionamentos ocultos 56 Capítulo 4. Metodologia graph match (graph g-ray, VF2 ) frequent mining (FP-Growth, FPClose e FPMax) sequence mining (Sequence Miner, BIDE e BIDEMax) análise de correlação ∙ Técnicas para verificação de relacionamentos no grafo graph search - breadth-first search, priority-first-search (PFS), two-tree PFS, two-tree Dijkstra, algoritmo proposto por Magalingam, Rao e Davis(56). A métrica a ser utilizada para comparação, no que tange às técnicas de identificação de relacionamentos ocultos no grafo, será sua eficácia, qual seja o número correto de caminhos encontrados quando aplicada na rede de transações bancárias para se descobrir a existência de relacionamentos ocultos entre investigados. Com relação às técnicas para verificação de relacionamentos no grafo, a métrica a ser utilizada para comparação será sua eficiência, medida pelo tempo gasto para identificar o caminho entre investigados no grafo. 4.1.4 Sujeitos Os sujeitos são os investigados cujo relacionamento será identificado. Estes estão presentes no conjunto de transações bancárias referentes à casos de investigação de lavagem de dinheiro realizados por um órgão judicial brasileiro que atua no combate a este tipo de crime. Foram fornecidos dados reais, porém de forma mascarada, para não permitir a real identificação dos envolvidos tendo a vista a necessidade de sigilo envolvida. A escolha dos três casos a serem utilizados foi feita com base no histórico de investigações de tal órgão, abrangendo um caso com um número de transações considerado pequeno (em torno de 15000 transações), um contendo um número de transações considerado na média (em torno de 50000) e outro com um número muito grande de transações, que foge ao padrão (em torno de 500000). Já a escolha dos relacionamentos a serem comprovados foi baseada em indícios reais que subsidiaram a investigação judicial do caso. 4.1.5 Ambiente Os sujeitos de um experimento desenvolvem suas ações em determinado ambiente. Esse ambiente deverá, portanto, proporcionar as condições para que se possa manipular a variável independente e verificar seus efeitos nos sujeitos (85). O experimento será realizado em laboratório, onde a possibilidade de controle das variáveis é bem maior, já que o ambiente pode ser preparado de forma que permita a maximização do efeito das variáveis independentes sobre a dependente (85). 4.1. Proposta de Pesquisa 57 4.1.6 Plano Experimental Caso a variabilidade entre os sujeitos seja grande, pode-se minimizar este efeito no resultado realizando uma comparação aleatória completa (86). Com este método, cada sujeito utiliza todas as técnicas a serem comparadas formando uma unidade de experimento mais homogênea(86). A tabela 8 apresenta um exemplo de aplicação de tal método. Tabela 8 – Exemplo de aplicação do método de comparação aleatória completa. Sujeito 1 2 2 Ordem da Técnica 1 2 1 3 Ordem da Técnica 2 3 3 1 Ordem da Técnica 3 1 2 2 Fonte: Adaptado de Wohlin et al.(86). Sendo assim, este experimento buscará comparar entre si as técnicas de descoberta do conhecimento quando aplicadas na identificação de todos os relacionamentos entre os investigados de uma investigação de lavagem de dinheiro. 4.1.7 Cronograma A figura 11 demonstra o cronograma das atividades realizadas e por realizar na proposta de pesquisa. Figura 11 – Cronograma de execução da proposta de pesquisa. Fonte: próprio autor. 58 Capítulo 4. Metodologia 4.1.8 Custos A tabela 9 demostra os custos estimados do projeto. Tabela 9 – Custos estimados do projeto. Item Impressão e cópias Revisão profissional Aluguel de processamento na nuvem Total Custo (R$) 500,00 1000,00 3000,00 4500,00 Fonte: próprio autor. 4.1.9 Riscos A tabela 10 descreve os principais riscos identificados para a execução do projeto, apresentando alternativas caso os mesmos venham a ocorrer. Tabela 10 – Riscos identificados para o projeto. Código RK1 RK2 RK3 RK4 Risco Impossibilidade de implementação dos algoritmos selecionados para o experimento por indisponibilidade do código fonte Impossibilidade de implementação dos algoritmos selecionados para o experimento por dificuldades técnicas Falta de recurso computacional para execução dos algoritmos Indisponibilidade de dados reais de investigações de lavagem de dinheiro Alternativa Identificar outros algoritmos, da mesma categoria, que possam substituí-los Buscar apoio especializado na área Aluguel de poder de processamento na nuvem Autorização prévia do órgão judicial minimiza este risco. Em último caso, pode-se gerar dados artificialmente. Fonte: próprio autor. 59 Referências 1 UNGER, B. et al. The amounts and effects of money laundering. Report for the Ministry of Finance, 2006. Disponível em: <http://www.maurizioturco.it/_Media/ 2006_02_16_report_for_the_m.pdf>. Citado 4 vezes nas páginas 9, 21, 25 e 39. 2 PENG, Y. et al. A descriptive framework for the field of Data Mining and Knowledge Discovery. International Journal of Information Technology & Decision Making, v. 7, p. 639–682, 2008. Citado 7 vezes nas páginas 9, 30, 31, 32, 37, 38 e 39. 3 NGAI, E. et al. The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature. Decision Support Systems, v. 50, n. 3, p. 559–569, fev. 2011. ISSN 01679236. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S0167923610001302>. Citado 2 vezes nas páginas 15 e 33. 4 KHAC, N. A. L.; MARKOS, S.; KECHADI, M. T. A Data Mining-Based Solution for Detecting Suspicious Money Laundering Cases in an Investment Bank. In: 2010 Second International Conference on Advances in Databases Knowledge and Data Applications (DBKDA). [S.l.: s.n.], 2010. p. 235–240. Citado 5 vezes nas páginas 15, 16, 42, 43 e 69. 5 GAO, S.; XU, D. Conceptual modeling and development of an intelligent agentassisted decision support system for anti-money laundering. Expert Systems with Applications, v. 36, n. 2, p. 1493–1504, mar. 2009. ISSN 09574174. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S0957417407005891>. Citado 5 vezes nas páginas 15, 16, 42, 43 e 69. 6 DREżEWSKI, R.; SEPIELAK, J.; FILIPKOWSKI, W. System supporting money laundering detection. Digital Investigation, v. 9, n. 1, p. 8–21, jun. 2012. ISSN 17422876. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S1742287612000230>. Citado 9 vezes nas páginas 15, 16, 19, 21, 33, 42, 43, 49 e 69. 7 HEDBERG, S. R. Parallelism speeds data mining. IEEE Parallel Distributed Technology: Systems Applications, v. 3, n. 4, p. 3–6, 1995. ISSN 1063-6552. Citado 5 vezes nas páginas 15, 16, 42, 43 e 69. 8 DIDIMO, W.; LIOTTA, G.; MONTECCHIANI, F. Network visualization for financial crime detection. Journal of Visual Languages & Computing, v. 25, n. 4, p. 433–451, ago. 2014. ISSN 1045926X. Disponível em: <http://linkinghub.elsevier.com/retrieve/ pii/S1045926X1400010X>. Citado 4 vezes nas páginas 15, 16, 43 e 69. 9 WEST, J.; BHATTACHARYA, M. Intelligent financial fraud detection: a comprehensive review. Computers & Security, Elsevier, v. 57, p. 47–66, 2016. Citado na página 15. 10 KINGDON, J. AI fights money laundering. IEEE Intelligent Systems, v. 19, n. 3, p. 87–89, maio 2004. ISSN 1541-1672. Citado 5 vezes nas páginas 15, 16, 34, 42 e 69. 60 Referências 11 LIU, R. et al. Research on anti-money laundering based on core decision tree algorithm. In: 2011 Chinese Control and Decision Conference (CCDC). [S.l.: s.n.], 2011. p. 4322–4325. Citado 5 vezes nas páginas 15, 16, 42, 46 e 69. 12 FAYYAD, U. M. et al. Knowledge Discovery and Data Mining: Towards a Unifying Framework. In: KDD. [s.n.], 1996. v. 96, p. 82–88. Disponível em: <http://www.aaai.org/Papers/KDD/1996/KDD96-014>. Citado 4 vezes nas páginas 15, 27, 28 e 33. 13 DREżEWSKI, R.; SEPIELAK, J.; FILIPKOWSKI, W. The application of social network analysis algorithms in a system supporting money laundering detection. Information Sciences, v. 295, p. 18–32, fev. 2015. ISSN 00200255. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S0020025514009979>. Citado 6 vezes nas páginas 15, 42, 43, 46, 49 e 69. 14 ZHDANOVA, M. et al. No Smurfs: Revealing Fraud Chains in Mobile Money Transfers. In: 2014 Ninth International Conference on Availability, Reliability and Security (ARES). [S.l.: s.n.], 2014. p. 11–20. Citado 4 vezes nas páginas 16, 42, 43 e 69. 15 CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009. Disponível em: <http: //www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf>. Citado 7 vezes nas páginas 17, 27, 28, 29, 30, 32 e 33. 16 ZHOU, Z.-H.; ZHOU, Z. hua. Three Perspectives of Data Mining. 2003. Citado 2 vezes nas páginas 17 e 27. 17 KEELE, S. Guidelines for performing systematic literature reviews in software engineering. In: Technical report, Ver. 2.3 EBSE Technical Report. EBSE. [s.n.], 2007. Disponível em: <http://www.academia.edu/download/35830450/2_143465389588742151.pdf>. Citado 2 vezes nas páginas 19 e 34. 18 KITCHENHAM, B. Procedures for performing systematic reviews. Keele, UK, Keele University, v. 33, n. 2004, p. 1–26, 2004. Disponível em: <http://csnotes.upm.edu.my/ kelasmaya/pgkm20910.nsf/0/715071a8011d4c2f482577a700386d3a/$FILE/10.1.1.122. 3308[1].pdf>. Citado 3 vezes nas páginas 19, 34 e 37. 19 KHAC, N. A. L. et al. An investigation into Data Mining approaches for Anti Money Laundering. In: Proceedings of International Conference on Computer Engineering and Applications (ICCEA 2009). [s.n.], 2009. Disponível em: <https://www.researchgate.net/profile/Tahar_Kechadi/publication/266486777_An_ investigation_into_Data_Mining_approaches_for_Anti_Money_Laundering/links/ 54b567ab0cf26833efd18cf9.pdf>. Citado 5 vezes nas páginas 19, 21, 33, 39 e 40. 20 WANG, S. N.; YANG, J. G. A Money Laundering Risk Evaluation Method Based on Decision Tree. In: 2007 International Conference on Machine Learning and Cybernetics. [S.l.: s.n.], 2007. v. 1, p. 283–286. Citado 4 vezes nas páginas 19, 42, 43 e 69. 21 LV, L.-T.; JI, N.; ZHANG, J.-L. A RBF neural network model for anti-money laundering. In: 2008 International Conference on Wavelet Analysis and Pattern Recognition. [S.l.: s.n.], 2008. v. 1, p. 209–215. Citado 4 vezes nas páginas 19, 42, 43 e 69. Referências 61 22 WANG, Y. et al. Agent-oriented ontology for monitoring and detecting money laundering process. In: Proceedings of the 2nd international conference on Scalable information systems. ICST (Institute for Computer Sciences, SocialInformatics and Telecommunications Engineering), 2007. p. 81. Disponível em: <http://dl.acm.org/citation.cfm?id=1366908>. Citado 3 vezes nas páginas 19, 20 e 69. 23 UMADEVI, P.; DIVYA, E. Money laundering detection using TFA system. In: International Conference on Software Engineering and Mobile Application Modelling and Development (ICSEMA 2012). [S.l.: s.n.], 2012. p. 1–8. Citado 5 vezes nas páginas 19, 20, 21, 43 e 69. 24 COAF, C. d. C. d. A. F. Coaf. lavagem de dinheiro: um problema mundial. Brasília/DF, 1999. Citado 3 vezes nas páginas 19, 20 e 26. 25 CASTELLAR, J. Lavagem de dinheiro: a questão do bem jurídico. [S.l.]: Editora Revan, 2004. ISBN 9788571063129. Citado na página 20. 26 PITOMBO, A. S. A. d. M. Lavagem de dinheiro: a tipicidade do crime antecedente. [S.l.]: Ed. Revista dos Tribunais, 2003. Citado na página 20. 27 CHEONG, T.-M.; SI, Y.-W. Event-based approach to money laundering data analysis and visualization. In: Proceedings of the 3rd International Symposium on Visual Information Communication. ACM, 2010. p. 21. Disponível em: <http://dl.acm.org/citation.cfm?id=1865869>. Citado 4 vezes nas páginas 20, 42, 43 e 69. 28 BRASIL. Lei 12683/2012 de 18 de Agosto. 2012. Citado 2 vezes nas páginas 26 e 27. 29 BARROS, M. A. d. et al. Lavagem de capitais e obrigações civis correlatas. 2007. Citado na página 26. 30 HAN, J. Data mining: Concepts and techniques. 2006. Citado 2 vezes nas páginas 27 e 32. 31 HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press, 2001. Citado na página 28. 32 CABENA, P. et al. Discovering data mining: from concept to implementation. [S.l.]: Prentice-Hall, Inc., 1998. Citado na página 28. 33 OLSON, D. L.; DELEN, D. Advanced Data Mining Techniques. 1st. ed. [S.l.]: Springer Publishing Company, Incorporated, 2008. ISBN 3540769161, 9783540769163. Citado 2 vezes nas páginas 28 e 29. 34 MCCUE, C. Data mining and predictive analysis: Intelligence gathering and crime analysis. Butterworth-Heinemann, 2007. Citado na página 30. 35 LAROSE, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. [S.l.]: John Wiley & Sons, 2005. Citado na página 30. 36 GAO, Z.; YE, M. A framework for data mining based anti money laundering research. Journal of Money Laundering Control, 2007. Citado na página 33. 62 Referências 37 ZHANG, Z. M.; SALERNO, J. J.; YU, P. S. Applying data mining in investigating money laundering crimes. In: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003. p. 747–752. Disponível em: <http://dl.acm.org/citation.cfm?id=956851>. Citado 6 vezes nas páginas 34, 42, 43, 49, 50 e 69. 38 TANG, J.; YIN, J. Developing an intelligent data discriminating system of anti-money laundering based on SVM. In: 2005 International Conference on Machine Learning and Cybernetics. [S.l.: s.n.], 2005. v. 6, p. 3453–3457 Vol. 6. Citado 4 vezes nas páginas 34, 42, 43 e 69. 39 KEYAN, L.; TINGTING, Y. An Improved Support-Vector Network Model for Anti-Money Laundering. In: 2011 Fifth International Conference on Management of e-Commerce and e-Government (ICMeCG). [S.l.: s.n.], 2011. p. 193–196. Citado 3 vezes nas páginas 42, 43 e 69. 40 GAO, Z. Application of Cluster-Based Local Outlier Factor Algorithm in Anti-Money Laundering. In: International Conference on Management and Service Science, 2009. MASS ’09. [S.l.: s.n.], 2009. p. 1–4. Citado 3 vezes nas páginas 42, 43 e 69. 41 YU-HUA, L. et al. Data mining ontology development for high user usability. Wuhan University Journal of Natural Sciences, v. 11, n. 1, p. 51–56, 2006. Disponível em: <http://link.springer.com/article/10.1007/BF02831703>. Citado 2 vezes nas páginas 42 e 69. 42 GAO, S. et al. Intelligent Anti-Money Laundering System. In: 2006 IEEE International Conference on Service Operations and Logistics, and Informatics. [S.l.: s.n.], 2006. p. 851–856. Citado 3 vezes nas páginas 42, 43 e 69. 43 JU, C.; ZHENG, L. Research on Suspicious Financial Transactions Recognition Based on Privacy-Preserving of Classification Algorithm. In: First International Workshop on Education Technology and Computer Science, 2009. ETCS ’09. [S.l.: s.n.], 2009. v. 2, p. 525–528. Citado 2 vezes nas páginas 42 e 69. 44 YANG, Q.; FENG, B.; SONG, P. Study on Anti-Money Laundering Service System of Online Payment Based on Union-Bank Mode. In: 2007 International Conference on Wireless Communications, Networking and Mobile Computing. [S.l.: s.n.], 2007. p. 4991–4994. Citado 3 vezes nas páginas 42, 43 e 69. 45 LARIK, A. S.; HAIDER, S. Clustering based anomalous transaction reporting. Procedia Computer Science, v. 3, p. 606–610, 2011. ISSN 18770509. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S187705091000476X>. Citado 3 vezes nas páginas 42, 43 e 69. 46 YANG, Y. et al. DBSCAN Clustering Algorithm Applied to Identify Suspicious Financial Transactions. In: 2014 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC). [S.l.: s.n.], 2014. p. 60–65. Citado 3 vezes nas páginas 42, 43 e 69. 47 CHRISTOU, I. et al. Detecting fraud in online games of chance and lotteries. Expert Systems with Applications, v. 38, n. 10, p. 13158–13169, set. 2011. ISSN 09574174. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S0957417411006518>. Citado 3 vezes nas páginas 42, 43 e 69. Referências 63 48 CHEN, Z. et al. Exploration of the effectiveness of expectation maximization algorithm for suspicious transaction detection in anti-money laundering. In: 2014 IEEE Conference on Open Systems (ICOS). [S.l.: s.n.], 2014. p. 145–149. Citado 3 vezes nas páginas 42, 43 e 69. 49 TANG, J.; HE, L. Genetic Optimization of BP Neural Network in the Application of Suspicious Financial Transactions Pattern Recognition. In: 2012 International Conference on Management of e-Commerce and e-Government (ICMeCG). [S.l.: s.n.], 2012. p. 280–284. Citado 2 vezes nas páginas 42 e 69. 50 BERSHTEIN, L. S.; TSELYKH, A. A. A clique-based method for mining fuzzy graph patterns in anti-money laundering systems. In: . ACM Press, 2013. p. 384–387. ISBN 978-1-4503-2498-4. Disponível em: <http://dl.acm.org/citation.cfm?doid=2523514. 2523568>. Citado 3 vezes nas páginas 42, 43 e 69. 51 RAZA, S.; HAIDER, S. Suspicious activity reporting using dynamic bayesian networks. Procedia Computer Science, v. 3, p. 987–991, 2011. ISSN 18770509. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S1877050910005375>. Citado 3 vezes nas páginas 42, 43 e 69. 52 LI, Y. et al. Discovering Hidden Group in Financial Transaction Network Using Hidden Markov Model and Genetic Algorithm. In: Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009. FSKD ’09. [S.l.: s.n.], 2009. v. 5, p. 253–258. Citado 3 vezes nas páginas 42, 43 e 69. 53 LIU, X.; ZHANG, P. A Scan Statistics Based Suspicious Transactions Detection Model for Anti-money Laundering (AML) in Financial Institutions. In: 2010 International Conference on Multimedia Communications (Mediacom). [S.l.: s.n.], 2010. p. 210–213. Citado 3 vezes nas páginas 42, 43 e 69. 54 ZHU, T. An Outlier Detection Model Based on Cross Datasets Comparison for Financial Surveillance. In: 2006 IEEE Asia-Pacific Conference on Services Computing (APSCC’06). [S.l.: s.n.], 2006. p. 601–604. Citado 3 vezes nas páginas 42, 43 e 69. 55 ZHU, T. Suspicious Financial Transaction Detection Based on Empirical Mode Decomposition Method. In: 2006 IEEE Asia-Pacific Conference on Services Computing (APSCC’06). [S.l.: s.n.], 2006. p. 300–304. Citado 3 vezes nas páginas 42, 43 e 69. 56 MAGALINGAM, P.; RAO, A.; DAVIS, S. Identifying a Criminal’s Network of Trust. In: 2014 Tenth International Conference on Signal-Image Technology and Internet-Based Systems (SITIS). [S.l.: s.n.], 2014. p. 309–316. Citado 4 vezes nas páginas 42, 50, 56 e 69. 57 SONU, E.; DOSHI, P. Scalable solutions of interactive POMDPs using generalized and bounded policy iteration. Autonomous Agents and Multi-Agent Systems, v. 29, n. 3, p. 455–494, maio 2015. ISSN 1387-2532, 1573-7454. Disponível em: <http://link.springer.com/10.1007/s10458-014-9261-5>. Citado 3 vezes nas páginas 42, 43 e 69. 58 MEHMET, M.; WIJESEKERA, D. Using dynamic risk estimation amp; social network analysis to detect money laundering evolution. In: 2013 IEEE International Conference on Technologies for Homeland Security (HST). [S.l.: s.n.], 2013. p. 310–315. Citado 3 vezes nas páginas 42, 43 e 69. 64 Referências 59 ZHANG, C.-w.; WANG, Y.-b. Research on application of distributed data mining in anti-money laundering monitoring system. In: 2010 2nd International Conference on Advanced Computer Control (ICACC). [S.l.: s.n.], 2010. v. 5, p. 133–135. Citado 3 vezes nas páginas 42, 43 e 69. 60 LIU, X.; ZHANG, P. An Agent Based Anti-Money Laundering System Architecture for Financial Supervision. In: 2007 International Conference on Wireless Communications, Networking and Mobile Computing. [S.l.: s.n.], 2007. p. 5472–5475. Citado 3 vezes nas páginas 42, 43 e 69. 61 KHAC, N. A. L.; KECHADI, M. T. Application of Data Mining for Anti-money Laundering Detection: A Case Study. In: 2010 IEEE International Conference on Data Mining Workshops. [S.l.: s.n.], 2010. p. 577–584. Citado 3 vezes nas páginas 42, 43 e 69. 62 CHANG, R. et al. Scalable and interactive visual analysis of financial wire transactions for fraud detection. Information visualization, v. 7, n. 1, p. 63–76, 2008. Disponível em: <http://ivi.sagepub.com/content/7/1/63.short>. Citado 3 vezes nas páginas 42, 43 e 69. 63 KORCZAK, J.; ŁUSZCZYK, W. Visual exploration of cash flow chains. In: 2011 Federated Conference on Computer Science and Information Systems (FedCSIS). [S.l.: s.n.], 2011. p. 41–46. Citado 3 vezes nas páginas 42, 43 e 69. 64 LI, Y. et al. A Directed Labeled Graph Frequent Pattern Mining Algorithm Based on Minimum Code. In: Third International Conference on Multimedia and Ubiquitous Engineering, 2009. MUE ’09. [S.l.: s.n.], 2009. p. 353–359. Citado 2 vezes nas páginas 42 e 69. 65 OVELGöNNE, M. et al. Covertness Centrality in Networks. In: 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). [S.l.: s.n.], 2012. p. 863–870. Citado 2 vezes nas páginas 42 e 69. 66 TONG, H. et al. Fast best-effort pattern matching in large attributed graphs. In: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2007. p. 737–746. Disponível em: <http://dl.acm.org/citation.cfm?id=1281271>. Citado 3 vezes nas páginas 42, 50 e 69. 67 MICHALAK, K.; KORCZAK, J. Graph mining approach to suspicious transaction detection. In: 2011 Federated Conference on Computer Science and Information Systems (FedCSIS). [S.l.: s.n.], 2011. p. 69–75. Citado 3 vezes nas páginas 42, 43 e 69. 68 CHAU, D. H. et al. GRAPHITE: A Visual Query System for Large Graphs. In: 2008 IEEE International Conference on Data Mining Workshops. [S.l.: s.n.], 2008. p. 963–966. Citado 3 vezes nas páginas 42, 50 e 69. 69 GUO, Y.; XUE, Y. Research on Cooperative Relations for Identifying Abnormal Vertices in Complex Financial Networks. In: International Conference on Electronic Commerce and Business Intelligence, 2009. ECBI 2009. [S.l.: s.n.], 2009. p. 37–40. Citado 4 vezes nas páginas 42, 43, 50 e 69. 70 TIMOFIEIEV, A.; SNASEL, V.; DVORSKY, J. Social communities detection in Enron corpus using h-Index. In: Applications of Digital Information and Web Referências 65 Technologies, 2008. ICADIWT 2008. First International Conference on the. [S.l.: s.n.], 2008. p. 507–512. Citado 2 vezes nas páginas 42 e 69. 71 REDMOND, U.; CUNNINGHAM, P. Temporal subgraph isomorphism. In: Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. ACM, 2013. p. 1451–1452. Disponível em: <http://dl.acm.org/citation.cfm?id=2492586>. Citado 4 vezes nas páginas 42, 43, 49 e 69. 72 GAO, J.; ZHOU, C.; YU, J. X. Toward continuous pattern detection over evolving large graph with snapshot isolation. The VLDB Journal, v. 25, n. 2, p. 269–290, abr. 2016. ISSN 1066-8888, 0949-877X. Disponível em: <http: //link.springer.com/10.1007/s00778-015-0416-z>. Citado 2 vezes nas páginas 42 e 69. 73 YUNKAI, C.; QUANWEN, M.; ZHENGDING, L. Using link analysis technique with a modified shortest-path algorithm to fight money laundering. Wuhan University Journal of Natural Sciences, v. 11, n. 5, p. 1352–1356, 2006. Disponível em: <http://link.springer.com/article/10.1007/BF02829265>. Citado 4 vezes nas páginas 42, 43, 50 e 69. 74 MAGALINGAM, P.; DAVIS, S.; RAO, A. Using shortest path to discover criminal community. Digital Investigation, v. 15, p. 1–17, dez. 2015. ISSN 17422876. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S1742287615000894>. Citado 2 vezes nas páginas 42 e 69. 75 VEHLOW, C. et al. Visualizing edge-edge relations in graphs. In: 2013 IEEE Pacific Visualization Symposium (PacificVis). [S.l.: s.n.], 2013. p. 201–208. Citado 2 vezes nas páginas 42 e 69. 76 KANHERE, P.; KHANUJA, H. K. A Methodology for Outlier Detection in Audit Logs for Financial Transactions. In: 2015 International Conference on Computing Communication Control and Automation (ICCUBEA). [S.l.: s.n.], 2015. p. 837–840. Citado 2 vezes nas páginas 43 e 69. 77 DREżEWSKI, R. et al. Comparison of data mining techniques for Money Laundering Detection System. In: 2015 International Conference on Science in Information Technology (ICSITech). [S.l.: s.n.], 2015. p. 5–10. Citado 3 vezes nas páginas 43, 49 e 69. 78 XU, J. et al. Design and Implementation of Simulation System for Monitoring Capital Flow Based on Agent. In: International Conference on Computational Intelligence and Security, 2009. CIS ’09. [S.l.: s.n.], 2009. v. 2, p. 6–9. Citado 2 vezes nas páginas 43 e 69. 79 GAO, S.; XU, D. Real-Time Exception Management Decision Model (RTEMDM): Applications in Intelligent Agent-Assisted Decision Support in Logistics and Anti-Money Laundering Domains. In: 2010 43rd Hawaii International Conference on System Sciences (HICSS). [S.l.: s.n.], 2010. p. 1–10. Citado 2 vezes nas páginas 43 e 69. 80 WANG, X.; DONG, G. Research on Money Laundering Detection Based on Improved Minimum Spanning Tree Clustering and Its Application. In: Second International Symposium on Knowledge Acquisition and Modeling, 2009. KAM ’09. [S.l.: s.n.], 2009. v. 2, p. 62–64. Citado 2 vezes nas páginas 43 e 69. 66 Referências 81 RIEKE, R. et al. Fraud Detection in Mobile Payments Utilizing Process Behavior Analysis. In: 2013 Eighth International Conference on Availability, Reliability and Security (ARES). [S.l.: s.n.], 2013. p. 662–669. Citado 2 vezes nas páginas 43 e 69. 82 MöSER, M.; BöHME, R.; BREUKER, D. An inquiry into money laundering tools in the Bitcoin ecosystem. In: eCrime Researchers Summit (eCRS), 2013. [S.l.: s.n.], 2013. p. 1–14. Citado 2 vezes nas páginas 43 e 69. 83 MALM, A.; BICHLER, G. Using friends for money: the positional importance of money-launderers in organized crime. Trends in Organized Crime, v. 16, n. 4, p. 365–381, dez. 2013. ISSN 1084-4791, 1936-4830. Disponível em: <http: //link.springer.com/10.1007/s12117-013-9205-5>. Citado 2 vezes nas páginas 43 e 69. 84 XU, J. J.; CHEN, H. Fighting organized crimes: using shortest-path algorithms to identify associations in criminal networks. Decision Support Systems, v. 38, n. 3, p. 473–487, dez. 2004. ISSN 01679236. Disponível em: <http://linkinghub.elsevier.com/ retrieve/pii/S0167923603001179>. Citado na página 50. 85 GIL, A. C. Como elaborar projetos de pesquisa. São Paulo: Atlas, 2008. OCLC: 298931746. ISBN 978-85-224-3169-4. Citado 4 vezes nas páginas 53, 54, 55 e 56. 86 WOHLIN, C. et al. Experimentation in Software Engineering. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. ISBN 978-3-642-29043-5 978-3-642-29044-2. Disponível em: <http://link.springer.com/10.1007/978-3-642-29044-2>. Citado 3 vezes nas páginas 54, 55 e 57. Appendices 69 A Lista de artigos analisados na revisão sistemática de literatura Tabela 11 – Lista final de artigos analisados na revisão sistemática de literatura. Base de Dados ACM Digital IEEE Xplore Science Direct Springer Artigos Bershtein e Tselykh(50), Khac, Markos e Kechadi(4), Liu e Zhang(53), Wang et al.(22), Kingdon(10), Keyan e Tingting(39), Zhu(54), Khac e Kechadi(61), Zhang, Salerno e Yu(37), Gao e Xu(5), Ovelgönne et al.(65), Yang et al.(46), Christou et al.(47), Li et al.(52), Cheong e Si(27), Tong et al.(66), Rieke et al.(81), Tang e He(49), Zhdanova et al.(14), Gao e Xu(79), Wang e Dong(80), Ju e Zheng(43), Chang et al.(62), Dreżewski, Sepielak e Filipkowski(13), Magalingam, Davis e Rao(74) Li et al.(64), Kanhere e Khanuja(76), Wang e Yang(20), Lv, Ji e Zhang(21), Liu e Zhang(60), Möser, Böhme e Breuker(82), Gao(40), Dreżewski et al.(77), Xu et al.(78), Tang e Yin(38), Chen et al.(48), Michalak e Korczak(67), Chau et al.(68), Magalingam, Rao e Davis(56), Gao et al.(42), Umadevi e Divya(23), Hedberg(7), Liu et al.(11), Zhang e Wang(59), Guo e Xue(69), Timofieiev, Snasel e Dvorsky(70), Yang, Feng e Song(44), Zhu(55), Redmond e Cunningham(71), Mehmet e Wijesekera(58), Korczak e Łuszczyk(63), Vehlow et al.(75) Larik e Haider(45), Didimo, Liotta e Montecchiani(8), Raza e Haider(51), Dreżewski, Sepielak e Filipkowski(6) Yu-hua et al.(41), Sonu e Doshi(57), Gao, Zhou e Yu(72), Malm e Bichler(83), Yunkai, Quanwen e Zhengding(73)