Lupa Digital: Agilização da Busca Decadactilar na Identificação Criminal Através de Mineração de Dados Marcelo Ladeira1, Marcelo Garrido de Oliveira2 e Marcos Elias C. de Araújo3 1 Departamento de Ciência da Computação – Universidade de Brasília Caixa Postal 4466 – 70.919-970 Brasília, DF 2 Banco Central do Brasil SBS Quadra 3, Bloco B, Ed. Sede – 70.074-900 Brasília, DF 3 Departamento de Polícia Federal – Instituto Nacional de Identificação – Brasília, DF [email protected], [email protected], [email protected] Abstract. This article describes cooperation with the Brazilian Federal Police (DPF/INI) and the academia to use data mining techniques to make faster the criminal identification based on the matching of deca-dactylograms. The DPF/INI fingerprint files use the Vucetich’s system that codes all the ten fingers of a person with a unique dactyloscopic formula. Many times, only fragments of fingerprints are found in the scene of the crime. Our goal is to study how to deal with this missing of information to reduce the search space into the fingerprints identification processes. To infer missing codes, we had tested classifier based on naïve Bayes, Bayesian network, decision tree, neural network, and CNM. As a result, “Lupa Digital” was developed in Java. Resumo. Esse artigo descreve uma cooperação real entre a academia e o Departamento de Polícia Federal (DPF/INI) para aplicar mineração de dados em impressões digitais para agilizar a identificação criminal. Os arquivos do DPF/INI utilizam o sistema de codificação proposto por Vucetich. Esse sistema usa uma fórmula dactiloscópica para representar os códigos das impressões dos dez dedos da pessoa embora, em geral, somente fragmentos de impressões sejam encontrados na cena do crime. Essa pesquisa estudou como lidar com essa falta de informação. Para inferir os códigos faltantes, foram testados os classificadores naive Bayes, árvores de decisão, redes neurais e CNM. O “Lupa Digital” foi desenvolvido em função dos resultados obtidos. XXXII SEMISH 1945 1. Introdução A papiloscopia busca a identificação positiva, isto é, poder afirmar que uma identidade, e nenhuma outra, corresponde a determinado indivíduo e vice-versa. Para alcançar esse objetivo a papiloscopia atende aos seguintes princípios fundamentais [Gomes, 1993]: • perenidade (ou permanência): o desenho digital que define o conjunto de características registradas se mantém durante toda a vida do indivíduo. • imutabilidade: os desenhos papilares não mudam sua forma original durante toda a sua existência. • variabilidade (ou singularidade): não há possibilidade de se encontrar duas impressões digitais idênticas. Os desenhos papilares não se repetem: variam de pessoa para pessoa e entre os dedos da própria pessoa. A dactiloscopia é o método mais utilizado nos laboratórios de polícia por atender plenamente aos princípios anteriores e se tratar de característica de identificação que deixa resíduos nos locais de crimes, ao contrário de outras. Fundamentada em informações de impressões digitais e outros atributos físicos a pesquisa de que trata o presente artigo, iniciou-se com a extração, preparação e análise de um banco de dados com 502.052 registros, denominado de MECA-Sinic, extraído do arquivo dactiloscópico criminal do Instituto Nacional de Identificação – DPF/INI. O estudo estatístico e a aplicação de técnicas de mineração de dados a esse domínio contribuíram para a elaboração de novos critérios técnicos de suporte aos procedimentos periciais do DPF/INI, além de fornecer subsídios para estudos nos campos de outras ciências, em especial a Sociologia. Seus desdobramentos são multifacetados, como a Criminalística, e com repercussão em outras áreas do conhecimento humano. 1.1 O Processo de Identificação Dactiloscópica Para que possamos diferenciar uma pessoa da outra é necessário que haja um método destinado a estabelecer sua identidade, ou seja, determinar um conjunto de caracteres próprios que possam individualizar as pessoas entre si. Afinal, mais do que identificar pessoas, precisa-se individualizá-las. A biometria é o ramo da ciência que estuda as medidas físicas dos seres vivos. A identificação biométrica utiliza tecnologias que permitem a identificação das pessoas através dos traços físicos característicos e únicos de cada ser humano: os traços faciais, a íris, a retina, a voz, a grafia e a impressão digital. Historicamente, dentre os vários métodos já utilizados o papiloscópico é o mais eficaz por conseguir individualizar pessoas tanto civil quanto criminalmente [INI 1987]. A papiloscopia é a ciência que trata da identificação humana através das papilas dérmicas e que tem exercido papel de relevância no âmbito da pesquisa criminológica. Como ciência, detém seus princípios: perenidade, imutabilidade e variabilidade dos desenhos papilares. Seu campo de atuação divide-se em dactiloscopia (dedos), quiroscopia (mãos) e podoscopia (pés). Juan Vucetich (1858-1925) foi o criador do primeiro sistema de identificação humana com classificação de impressões digitais. Ele utilizou os tipos fundamentais: arco (1); presilha interna (2); presilha externa (3) e verticilo (4). Atualmente foram acrescentados mais três tipos: anômalo (5), cicatriz (6) e amputação (7). XXXII SEMISH 1946 1.2 Fórmula Dactiloscópica e Minúcias Fórmula Dactiloscópica é representada por uma fração com numerador formado pelos algarismos que representam os desenhos dos tipos fundamentais dos dedos da mão direita (polegar para o mínimo) e o denominador é construído de forma similar, para a mão esquerda. A fórmula dactiloscópica é um valor numérico que permite a classificação de forma bastante simples das impressões digitais. Por exemplo: 1 - 3 3 4 3 mão direita 2 - 2 1 4 2 mão esquerda Vucetich idealizou também uma classificação de subtipos para cada tipo fundamental. Esse detalhamento não será abordado nesta pesquisa pois o arquivo MECA-Sinic possui um alto índice de registros sem este subtipo de classificação ou com preenchimento errado no campo subtipo. O dactilograma, desenho dos dedos, tem como elementos constitutivos [INI 1987]: • cristas papilares: correspondem às linhas impressas do dactilograma; • sulcos interpapilares ou intercristais: correspondem à separação das linhas papilares; • poros: são pequenos orifícios dispostos sobre as linhas impressas do dactilograma; • pontos singulares: são utilizados para a classificação de tipos primários. • pontos característicos (minúcias ou minutiae): são particularidades morfológicas que estabelecem a unicidade das impressões digitais. Do ponto de vista biológico, Francis Galton foi o primeiro a fazer um estudo dos pontos característicos das impressões digitais. Ele lançou as bases científicas da dactiloscopia ao catalogar dez classes, trinta e oito tipos nucleares e as minúcias. Baseado nestas minúcias é possível estabelecer a identidade de uma pessoa [INI 1987]. O processo de classificação baseia-se na identificação dos pontos singulares que caracteriza os tipos primários. Uma vez classificado o tipo primário, o processo de verificação consiste em mapear as minúcias. A Figura 1 ilustra a diferença de uso entre os pontos singulares (esquerda) e característicos (direita). Núcleo e delta são pontos singulares. O núcleo é região central (Figura 1, esquerda) delimitada pela diretriz marginal (linha cheia superior) e diretriz basilar (linha cheia inferior). O delta é a região compreendida entre o núcleo e as diretrizes marginal e basilar. Não existe uma padronização para a classificação das minúcias, embora sejam classificadas segundo o aspecto como: crista (final ou curta), bifurcação, ilha, espora ou cruzamento. Ilustrações dessas minúcias estão apresentadas em [Oliveira, 2004]. Figura 1. Pontos Singulares e Pontos Característicos XXXII SEMISH 1947 2. Metodologia empregada A metodologia base para aplicação de técnicas de mineração de dados (DM) utilizada neste artigo é o modelo de referência CRISP-DM [SPSS 1999]. Este modelo de processo para mineração de dados baseia-se na existência de um ciclo de vida para o projeto de mineração de dados. Suas fases são: entendimento do negócio (objetivos e requerimentos do projeto, análise de riscos e benefícios, etc), entendimento dos dados (coleta e descrição dos dados, análise da qualidade, seleção de variáveis ou amostras para mineração, etc), preparação dos dados (seleção, limpeza, construção de atributos agregados, discretização dos dados numéricos e formatação, se necessário) modelagem (aprendizagem de modelos com a aplicação de técnicas de DM), avaliação dos modelos (seleção do modelo mais adequado face aos objetivos do projeto) e colocação em uso (do modelo ou modelos selecionados). Os registros da base MECA-Sinic possuem as seguintes informações relativas a cada criminoso: Unidade da Federação em que nasceu, data de nascimento, codificação das impressões digitais das mãos direita e esquerda (tipos primários e subtipos), sexo, cútis, incidência criminal (código dos crimes praticados) e registro federal (número do registro no DPF/INI). Todas essas variáveis, exceto a data de nascimento (ou idade) são variáveis categóricas, portanto não ordenáveis. Durante a fase de entendimentos dos dados foram desconsiderados os subtipos dos dedos das duas mãos porque esses campos apresentavam diversas inconsistências relativas ao processo de coleta de dados. Com as demais variáveis foram realizadas análises da estatística descritiva (principalmente tabulações de distribuições de freqüências dos tipos primários em função das demais variáveis). Essas análises serviram para correção de valores espúrios e verificação das distribuições dos tipos primários por sexo, cútis e incidência criminal. Dados categóricos possuem a vantagem de não necessitarem de um processo de discretização complexo. Porém, pelo fato de não serem numericamente ordenáveis, carecem de ferramentas comuns a atributos numéricos como medidas de dispersão (variância e desvio padrão), médias, coeficientes de correlação (Pearson, Spearman, Hoefdinf ou Kendall) e outras. Dentro destas limitações, para análise das fórmulas dactiloscópicas foram utilizados os índices lambda assimétrico, λ(C|L) e coeficiente de incerteza, U(C|L), ambos assumindo valores no intervalo [0,1]. Esses índices são medidas de associação adequadas para variáveis não ordinais. O lambda mede a melhora provável em predizer o valor da variável da coluna C, dado que se conhece o valor da variável na linha L. O coeficiente de incerteza mede a proporção da entropia na variável da coluna C que é explicada pela variável na linha L. Uma decisão importante, na fase de análise dos dados, foi dividir a base em quatro grupos (arquivos A, B, C e D), visando dar maior clareza à análise. De forma resumida, o grupo “A” foi gerado com registros cuja fórmula possui freqüência acima de 1%, o grupo “C” foi gerado por fórmulas com freqüência abaixo de 12 observações e o grupo “B” com o meio destes. O grupo D, foi gerado somente com observações, registros, que possuíam tipos fundamentais de origem acidental, que são as cicatrizes (tipo 6) e amputações (tipo 7). As fórmulas geradas por acidentes ou doenças sobrepuseram outras originais e, desta forma, não podem ser avaliadas para geração de XXXII SEMISH 1948 modelos, além de possuírem baixa freqüência o que também prejudica a geração dos mesmos. A Tabela 1 resume as principais características que motivaram esta divisão. Tabela 1 - Divisão da Base de Dados nos Grupos A, B, C e D Um outro fator causador de um número grande de fórmulas com baixa frequência é a existência de observações com o tipo fundamental anômalo (tipo 5). Existem 2.417 registros deste tipo na base MECA-Sinic, que correspondem a 0,48% desta, estes registros estão dispersos em 1.735 diferentes fórmulas, o que corresponde a 4,55% das fórmulas. Porém, definiu-se não separar tais registros em um quinto arquivo. Por não existir, na literatura consultada, pesquisa sobre a aplicação de mineração de dados no domínio da dactiloscopia, optou-se por utilizar alguns formalismos de DM para comparação na etapa de avaliação dos modelos gerados. Foram escolhidos: árvore de decisão, rede bayesiana [Silva, 2002], Naive Bayes, rede neural artificial - ANN [Haykin, 2001] e CNM [Prado, 1999]. Um obstáculo marcante neste domínio é a não existência de variável alvo (classe) que represente a variável de interesse. Como os algoritmos dos classificadores necessitam explicitar a variável classe para geração do modelo, adotou-se para estes casos executar a tarefa de aprendizagem dez vezes. Em cada execução, nove dedos eram selecionados para inferir o décimo. Esse foi o caso de todos os formalismos usados, exceto as redes bayesianas. A necessidade de discriminar os modelos fez com que o algoritmo “a priori” [Agrawal, 1993], que implementa a descoberta de conhecimento por regras de associação, fosse descartado desta etapa do processo de mineração de dados, pois não se encontrou na literatura consultada nenhuma forma de se avaliar as regras de associação geradas de forma a permitir comparar os resultados obtidos com os dos outros modelos. Este tipo de treinamento gerou os modelos necessários para inferir um dedo a partir dos outros nove dedos, situação de pesquisa trivial e base para uso na hipótese de complementação de tipos primários, para reduzir o espaço de busca decadactilar. 2.1 Método da Avaliação Nos problemas de classificação é natural medir a performance do classificador em termos da taxa de erro. Entende-se por taxa de erro como sendo a proporção dos erros de classificação encontrados em um conjunto de instâncias. Alternativamente pode-se medir a performance através do complemento da taxa de erro que é a taxa de sucesso. A estrutura chamada matriz de confusão pode ser usada para representar e auxiliar o cálculo de diferentes tipos de erros como falso positivo e falso negativo. Problemas de classificação de duas classes são muito comuns, sendo estruturados para predizer a ocorrência ou a não ocorrência de um simples evento ou hipótese. A Tabela 2 ilustra as quatro possibilidades em um problema dicotômico. XXXII SEMISH 1949 Tabela 2. Matriz de Confusão para problema de duas classes Classes Preditas Classes Reais Predição Positiva Predição Negativa Classe Positiva Verdadeiro Positivo (TP) Falso Negativo (FN) Classe Negativa Falso Positivo (FP) Verdadeiro Positivo (TN) Existem problemas que exigem uma representação mais complexa, como problemas multiclasses. A Tabela 3 ilustra um problema com três classes: Tabela 3. Matriz de Confusão para problema de três classes Classes Preditas Classes Reais 1 2 3 1 30 1 0 2 1 43 2 3 0 5 75 As predições corretas localizam-se ao longo da diagonal da matriz de confusão. Todas as demais representam um tipo particular de erro de classificação. Por exemplo, a classe 2 foi classificada corretamente 43 vezes (Tabela 2), entretanto foi erroneamente classificada como classe 3 por duas vezes. Neste artigo, serão trabalhados os índices de classificações corretas da i-ésima classe (TPi) e o índice que denominamos probabilidade de concordância – PrCo (Equação 1), o qual considera não somente as classificações corretas como também o número de falsos positivos (FPi), ponderados pela probabilidade da classe (pi). Esse índice pode ser interpretado como um valor esperado da taxa de verdadeiros positivos líquida. ∑ p i * TPi * (1 − FPi ) c i =1 (1), 2.2 Avaliação dos Algoritmos de Mineração A metodologia da avaliação consistiu nos seguintes passos: (a) Construção de modelos para inferência de um dos dedos a partir dos demais nove dedos, aplicando os formalismos: árvore de decisão, redes bayesianas, Naive Bayes, redes neurais artificiais (ANN) com retropropagação (BP) e modelo neural combinatório (CNM). Foram usados os softwares UnBBayes e UnBMiner, assim como arquivos de treinamento gerados com 65% dos registros; (b) Seleção do melhor modelo por dedo com arquivos de avaliação gerados. O critério de avaliação escolhido foi a probabilidade de concordância (PrCo); (c) Análise de sensibilidade a valores faltantes (MV). Os arquivos originais de avaliação foram utilizados para gerar os arquivos com valores faltantes. A avaliação foi executada com base em dois dedos: o de melhor e o de pior avaliação. Foram XXXII SEMISH 1950 utilizadas as seguintes taxas de MV: 2%, 5%, 10%, 25% e 40%, cujos valores de avaliação geram uma curva ao serem representados em um gráfico; (d) finalizando, foi feita a seleção do modelo mais robusto para o caso característico do DPF/INI; A construção dos modelos iniciou-se com a realização de testes de calibragem de parâmetros, se fosse o caso, para análise de sensibilidade dos mesmos. A avaliação dos modelos foi feita com uso do módulo “Evaluation” do UnBMiner. Informações mais detalhadas sobre esta etapa podem ser encontradas em [Oliveira 2004]. Utilizou-se o algoritmo ID3 para construção da árvore de decisão no UnBMiner. Na etapa de análise de sensibilidade a valores faltantes (MV), constatou-se que o algoritmo ID3 não foi elaborado com este tratamento, o que gerou interrupção na avaliação do ID3 com uso de MV. Para aprendizagem de redes bayesianas optou-se pelo algoritmo B, disponível no UnBBayes, que implementa o paradigma de busca e pontuação. No algoritmo B a ordem das variáveis não é importante para a geração da rede. A construção de uma rede bayesiana (BN) através da aprendizagem gera uma topologia (qualitativa) S e um conjunto de parâmetros numéricos (quantitativa) θ. Nos testes com a métrica MDL constatou-se que a estrutura gerada é mais simples que com a métrica GHS e também mais rápida de se obter. A rede “Naive Bayes” é uma simplificação da BN na forma de uma árvore, que admite hipótese de independência de certos eventos probabilísticos. Ela assume que os valores das variáveis folhas os atributos são condicionalmente independentes dado um valor da variável raiz. Quando utilizada como um classificador, as variáveis folhas representam atributos e a variável raiz representa a classe ou alvo. No caso do MECASinic foram gerados vinte modelos, cada um apontando para um dos dez dedos, procedimento que se repetiu nos grupos A e B. Redes neurais de múltiplas camadas utilizadas nesta pesquisa fizeram uso de um algoritmo de aprendizagem supervisionada chamado de algoritmo de retropropagação de erro que se baseia no método do gradiente descendente para a minimização do erro entre a saída da rede e a saída desejada [Haykin 2001]. Alguns parâmetros livres tiveram que ser ajustados para que o modelo final, com a melhor avaliação possível, fosse gerado. A ordem de ajuste destes parâmetros adotada nesta pesquisa para os grupos A e B foi: a. definição do número de épocas: 100 épocas; b. definição das taxas de aprendizagem η= 0.3 e α = 0.3, para o grupo A, e η= 0.5 e α = 0.1, para o grupo B; c. definição do tamanho da camada oculta, O = 5; d. validação do número de épocas, E = 100; e. geração dos modelos para cada dedo. Uma vez definido o ajuste de parâmetros necessário, foram gerados vinte modelos, ANN, correspondentes aos dez dedos das mãos para os grupos A e B. XXXII SEMISH 1951 Na avaliação do modelo neural combinatório, CNM, fez-se necessário ajuste em uns poucos parâmetros antes de se gerar os modelos finais com melhor percentual de PrCo, são eles: ordem máxima = 3, confiança mínima = 60% e suporte mínimo = 7%. A primeira etapa utilizou o arquivo de avaliação sem valores faltantes. Os valores utilizados na avaliação foram o TP (verdadeiro positivo) e a PrCo (Probabilidade de Concordância). A segunda etapa da avaliação foi feita como uso do arquivo de avaliação com diversas taxas (2%, 5%, 10%, 25% e 40%) de valores faltantes (MV). O cálculo de Probabilidade de Concordância para cada avaliação foi feito com o uso da Tabela 4, a seguir: Tabela 4. Cálculo da Probabilidade de Concordância Nessa tabela, os acumuladores da matriz de confusão geram os valores TPi, FPi e pi que fornecem os elementos do cálculo da PrCo (Equação 1). TPi e FPi foram calculados segundo a estratégia de um-contra-todos. Por exemplo, considere os valores para a classe 1. Na Tabela 4, p1 = 2.424/120.198; TP1 = 910/1.269 e FPi = (0+359+0+0)/(139+99.600+18.035+0) é a razão entre os valores preditos incorretamente para a classe 1 e a soma dos totais reais das demais classes. Em determinados casos, o valor calculado para PrCo pode ficar inferior a respectiva taxa de FP, como é o caso de diversos dedos na Figura 2, a seguir. Figura 2. Gráfico de Avaliação da ANN sem MV Para se avaliar o efeito de se tentar inferir dados com um certo percentual de valores faltantes em uma rede neural artificial com retropropagação - ANN foram escolhidos dois dedos: o melhor avaliado nos modelos (PE – polegar esquerdo) e o pior avaliado (MD – médio direito). Esta escolha visou criar um intervalo de avaliação que XXXII SEMISH 1952 simplificaria a visualização dos resultados. Estes dedos foram reavaliados com uso de cinco arquivos de avaliação com MV. Na avaliação ilustrada pelo gráfico da Figura 3, percebe-se que com a inserção de 40% de MV a avaliação do grupo A sofre um decréscimo de 10%. Na avaliação do grupo B o decréscimo variou entre 7 e 22% no valor de PrCo. Figura 3. Gráfico de Análise de Sensibilidade da ANN (BP) a MV O critério de avaliação de determinado modelo pelo cálculo da probabilidade de concordância (PrCo) mostrou-se ser mais adequado para a base MECA-Sinic. Um comparativo gráfico da avaliação dos modelos pode ser visto na Figura 4. Este gráfico aponta os algoritmos ID3, Naive Bayes e ANN com retropropagação como sendo os melhores. Porém, o ID3 não foi capaz de executar inferência com valor faltante (MV). E dentre o Naive Bayes e a ANN, esta obteve melhor resultado com valores faltantes. Figura 4. Gráfico Comparativo da PrCo para o Grupo B, sem MV Apesar da escolha pelo modelo de ANN com retropropagação (BP) como sendo o que melhor classifica um dedo a partir dos nove demais, tornou-se evidente a perda que existe quando da inserção de MV. Devido a esta característica do domínio, não ser um problema de classificação, optou-se pela utilização de uma estrutura largamente XXXII SEMISH 1953 utilizada na construção de modelos com algoritmos inteligentes, uma tabela de distribuição de freqüências de fórmulas (estrutura de dados denominada FreqForm). Esta estrutura foi utilizada para simplificar o esforço de busca de determinada combinação de dedos, além possuir crescimento com aceleração negativa à medida que novos registros são inseridos na base. Com o uso da estrutura de dados FreqForm a base MECA-Sinic só é acessada uma única vez durante a pesquisa para validar os filtros e extrair as RFs válidas. 3. A Aplicação “Lupa Digital” O termo “Lupa Digital”, representa uma ligação entre uma das principais ferramentas de trabalho no domínio da dactiloscopia, a lupa, e o termo “digital” de duplo sentido neste caso, que associa tanto os dedos quanto o significado digital empregado na computação. A linguagem JAVA foi escolhida devido à sua independência de plataforma (portabilidade), além de seguir o paradigma de orientação a objetos, o que facilita a inserção de novos recursos, a manutenção, reutilização de código e internacionalização. 3.1 Modelagem de Classes A linguagem de representação escolhida foi a UML (“Unified Modeling Language”). O Lupa Digital foi dividido em quatro pacotes, sendo eles: • Pacote default: possui a classe “Main”, responsável pelo início da aplicação Lupa Digital. Sua única atribuição é invocar a classe Controlador do pacote AIM. • Pacote AIM: Pacote ilustrado pelo diagrama de classes da Figura 5. Este pacote possui as principais classes da aplicação Lupa Digital que implementam as telas de consulta e as classes de pesquisa decadactilar. • Pacote AIM.estruturas: Possui as classes que especificam as principais estruturas de dados a serem utilizadas na pesquisa decadactilar. • Pacote AIM.util: Encarregado da impressão da lista de fórmulas para orientar a pesquisa manual no arquivo de individuais datiloscópicas - AID. Figura 5. Diagrama de Classes da aplicação Lupa Digital XXXII SEMISH 1954 3.2 Principais estruturas de dados • FreqForm: composta pelas fórmulas extraídas da base FreqForm.dat, suas respectivas freqüências de classe (contador). • Dedos: composta pelos principais atributos extraídos da base MECA-Sinic.dat; • Provaveis: composta pelas fórmulas extraídas da estrutura FreqForm e suas respectivas freqüências de classe (contador). 3.3 Operação do Lupa Digital O Lupa Digital é iniciado com a execução do arquivo Lupa.jar, apresentando a tela inicial conforme Figura 6. Figura 6. Tela Inicial do Lupa Digital A opção de menu “Arquivo > Pesquisa” gera a tela de pesquisa decadactilar que se divide em quatro painéis, ilustrado na Figura 7: • seleção da pesquisa: primeiro retângulo. Define o tipo de pesquisa; • painel de digitação dos dedos e filtros: segundo retângulo; • painel de botões: primeira elipse. Estes serão representados neste artigo pelo identificador dos mesmos, delimitado por colchetes, ex: [Filtros]; • painel de status: delimitado na Figura 7 pela segunda elipse. Figura 7. Tela de Pesquisa do Lupa Digital XXXII SEMISH 1955 O uso de filtros é acionado pelo botão [Filtros] que habilita a área de opções de filtros no painel de digitação, conforme Figura 7. O uso dos filtros é admitido em qualquer tipo de consulta, aumentando a evidencia informada. Eles são acionados por “Check box”, admitindo qualquer combinação de um ou mais filtros de três atributos válidos: idade, cútis e sexo. A Figura 7 ilustra um exemplo de uso de filtros para o atributo cútis. Pesquisa “Conhece Dedo” Utilizada caso o especialista conheça a exata posição, nos dedos das mãos, das impressões digitais coletadas. Pesquisa “Não Conhece Dedo” Utilizada caso o especialista não conheça a exata posição, nos dedos das mãos, das impressões digitais coletadas. Deve-se escolher a opção de pesquisa que pode ser “Aleatório”, o default, ou “Dedos da mesma mão”. • Aleatório: Deve-se digitar em qualquer ordem os tipos primários coletados nos campos sem identificação de dedos. A pesquisa, neste caso, é feita variando-se todas as possibilidades nas duas mãos. • Dedos da mesma mão: Se a opção escolhida for “Dedos da mesma mão” então deve-se definir os valores de outros dois “Combo box”, são eles: o conhece a ordem dos dedos: tem-se como opção: sim, não ou contínuos; o Selecione a mão: neste campo, deve-se definir a mão alvo da pesquisa, com as opções: mão direita, mão esquerda ou ambas as mãos. Pesquisa “Misto” Utilizada caso o especialista conheça a exata posição, de alguns dedos das mãos, das impressões digitais coletadas, e, ao mesmo tempo, desconheça a posição de outras impressões coletadas. Saídas O Lupa Digital produz três tipos de saídas: telas de visualização, impressão e arquivo de RFs. Os RFs, registros federais, identificam de forma única criminosos no arquivo AID do INI. • Tela de Visualização de Fórmulas Acionada após os algoritmos de pesquisa gerarem a lista de fórmulas que atendem o critério da pesquisa. Suponha que uma pesquisa cuja posição dos dedos é conhecida foi acionada, conforme ilustra a Figura 7. A primeira linha da área de rolagem do visualizador, Figura 8, define o percentual da base MECA-Sinic que atende ao critério de pesquisa, as evidências, especificado na Figura 7. A primeira coluna de todas as linhas corresponde a um contador de Fórmulas que servirá para auxiliar na divisão da tarefa de pesquisa no arquivo AID, manual. A segunda e terceira colunas correspondem às fórmulas que atenderam ao critério de pesquisa. A última coluna define a probabilidade condicional de uma determinada fórmula dado o critério de pesquisa. No exemplo da Figura 8 tem-se que a fórmula 4-3333/4-2232 possui a probabilidade 16,456%, que significa: “dado o sub-conjunto de XXXII SEMISH 1956 0,016% do universo de pesquisa, a probabilidade da fórmula 4-3333/2-2232 corresponder aos dedos coletados é de 16,456%”. Figura 8. Tela Visualizador de Fórmulas Os botões na parte inferior acionam o visualizador de impressão, a rotina de impressão e o visualizador de RFs. 4. Avaliação Destacam-se os aspectos quantitativos como a redução de tempo em uma pesquisa na base manual, o tempo de resposta da ferramenta e o “ganho” proporcionado pela mesma. Já os aspectos qualitativos referem-se à facilidade de uso da ferramenta e a obtenção de resultados antes impossíveis devido à complexidade do tipo de consulta [Oliveira, 2004]. Escolheu-se como ponto de partida para avaliação a situação mais simples de pesquisa que é inferir um dedo a partir da evidência dos outros nove. Para se calcular o ganho proporcionado pela ferramenta foi gerada uma planilha que quantificava o tempo gasto para pesquisar um determinado tipo primário (ex: arco) em certo dedo da mão. Esta quantidade é chamada genericamente nesta pesquisa de “unidade de tempo” – UT, pois o tempo gasto por um dactiloscopista para uma determinada pesquisa pode ser diferente do tempo gasto por outro dactiloscopista para a mesma pesquisa. Desta forma, fez-se necessário a normalização destas unidades de tempo em uma única, a UT, para fins comparativos. A tabela gerada relaciona os dez dedos da mão com os sete tipos primários, nas células acumula-se o valor das UTs. As duas últimas linhas dessa tabela referem-se a dois percentuais de ganho de tempo para uma pesquisa realizada para a fórmula em destaque. Foram escolhidas duas fórmulas para se avaliar o ganho. A Tabela 5 refere-se à avaliação da fórmula: 4–4444 4–4444 O procedimento manual de busca no AID sempre começa da hipótese do tipo primário 1 e vai até o tipo 7, pois assim está organizado o AID. Neste caso, o resultado correto será sempre 4, ou seja, a busca pára neste valor. Chamou-se o percentual XXXII SEMISH 1957 acumulado até o ponto de parada de “Ganho”. A média do “Ganho” de tempo é de 44,51% para a fórmula acima. Tabela 5. Cálculo de Unidades de Tempo (UT) para a fórmula 4-4444/4-4444 A Tabela 6 documenta a avaliação de outra fórmula, composta de outros tipos primários, justificando a diferença de “Ganho” de tempo. 3–3333 2–2222 Tabela 6. Cálculo de Unidades de Tempo (UT) para a fórmula 3-3333/2-2222 Pela Tabela 6 percebe-se que com os tipos primários de menor ordem o “Ganho” médio de tempo também diminui (34,24%). Percebeu-se também que o ganho de tempo depende tanto do dedo como do tipo primário. Porém, independente da afirmativa anterior, sempre haverá maior ganho de tempo quanto maior for o número do tipo primário, pois esta é uma premissa da busca manual. Quanto à hipótese de se fazer a mesma simulação supondo a ausência de dois ou mais dedos pode-se afirmar ser de grande dificuldade a impossível. Ela torna-se difícil quando a quantidade de dedos em dúvida é baixa e impossível quando passar de cinco dedos. Manualmente esta tarefa é irrealizável, devido ao grande número de possibilidades. Entretanto, pode-se afirmar que sempre o ganho de tempo será maior quanto maior for a ausência dos dedos. Quanto ao ganho proporcionado pelo Lupa Digital nas pesquisas de dedos não posicionais como: aleatório, contínuos, dedos da mesma mão (com ordem conhecida, sem ordem conhecida), pode-se afirmar que se tratava de uma tarefa antes irrealizável. Além de se tornar realizável o Lupa Digital proporcionou um método de busca manual orientada focando apenas as fórmulas que atendem os critérios de pesquisa definidos na consulta. 5. Conclusão A ferramenta Lupa Digital atendeu às expectativas do DPF/INI otimizando as pesquisas realizadas com a evidência de sete ou mais dedos, viabilizando as pesquisas com XXXII SEMISH 1958 número inferior de dedos como evidência e possibilitando as pesquisas sem conhecimento de posição dos dedos, impraticáveis anteriormente. Seu desenvolvimento requereu o desenvolvimento de algoritmo específico para pesquisa decadactilar, pois não dá para se definir “a priori” a seleção das regras, visto que a inferência é feita de acordo com a consulta definida “on-line”. Adicionalmente, ela provê um meio de otimizar a pesquisa com o uso de uma solução AFIS, adquirida recentemente pela DPF, pois o arquivo com a lista de RFs gerada reduz em muito o universo de busca, ao mesmo tempo em que orienta a ordem de pesquisa neste. A aplicabilidade da ferramenta Lupa Digital extrapola o âmbito do DPF/INI, podendo ser utilizada em outros serviços de segurança pública, bastando para a isso, obviamente, o preparo dos arquivos de entrada para enriquecer a base existente com dados locais. Agradecimentos Essa pesquisa foi realizada com apoio parcial dos programas CAPES/PROCAD e CAPES/GRICES. Referências Agrawal, R., Imielinski, T. and Swami, A. (1993) “Mining Association Rules Between Sets of Itens in Large Databases”. Proc. 1993 Int. Conf. Management of Data (SIGMOD-93), 207-216. Gomes, Hélio. (1993). Medicina Legal (30a Ed.). Rio de Janeiro: Freitas Bastos. Haykin, Simon. (2001) “Redes Neurais: Princípios e Prática”. Bookman, 2.ed., trad. Paulo Martins Engel. INI (1987). Identificação Papiloscópica. Brasília: Instituto Nacional de Identificação – DPF (uso interno). Oliveira, M. G., Ladeira, M., Araújo, M. E. C. (2004). “LUPA DIGITAL: Uma Ferramenta para Otimização de Busca de Impressões Digitais”. In: Anais do I Congresso Internacional de Crimes Cibernéticos - ICCyber 2004. Brasília. Prado, H. A.; Machado, K. F.; Frigeri, S. R.; Engel, P. M. (1999) “Data Mining Using Combinatorial Neural Model”. Revista Tecnologia da Informação, Brasília - DF, v.01, Nro. 1, p. 17-22. Silva, Wagner T., Ladeira, Marcelo, (2002) Mineração de Dados em Redes Bayesianas. In: Congresso da Sociedade Brasileira de Computação, 19.; Jornada de Atualização em Informática, 2002, Rio de Janeiro. Anais. SPSS Inc., NCR Systems Engineering Copenhagen & DaimlerChrysler AG (1999). CRISP-DM 1.0 – Step-by-step Data Mining Guide. SPSS & CRISP-DM Consortium. (Disponível em www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 05/03/2005). XXXII SEMISH 1959