Lupa Digital: Agilização da Busca Decadactilar na Identificação

Propaganda
Lupa Digital: Agilização da Busca Decadactilar na
Identificação Criminal Através de Mineração de Dados
Marcelo Ladeira1, Marcelo Garrido de Oliveira2 e Marcos Elias C. de Araújo3
1
Departamento de Ciência da Computação – Universidade de Brasília
Caixa Postal 4466 – 70.919-970 Brasília, DF
2
Banco Central do Brasil
SBS Quadra 3, Bloco B, Ed. Sede – 70.074-900 Brasília, DF
3
Departamento de Polícia Federal – Instituto Nacional de Identificação – Brasília, DF
[email protected], [email protected], [email protected]
Abstract. This article describes cooperation with the Brazilian Federal Police
(DPF/INI) and the academia to use data mining techniques to make faster the
criminal identification based on the matching of deca-dactylograms. The
DPF/INI fingerprint files use the Vucetich’s system that codes all the ten
fingers of a person with a unique dactyloscopic formula. Many times, only
fragments of fingerprints are found in the scene of the crime. Our goal is to
study how to deal with this missing of information to reduce the search space
into the fingerprints identification processes. To infer missing codes, we had
tested classifier based on naïve Bayes, Bayesian network, decision tree, neural
network, and CNM. As a result, “Lupa Digital” was developed in Java.
Resumo. Esse artigo descreve uma cooperação real entre a academia e o
Departamento de Polícia Federal (DPF/INI) para aplicar mineração de dados
em impressões digitais para agilizar a identificação criminal. Os arquivos do
DPF/INI utilizam o sistema de codificação proposto por Vucetich. Esse
sistema usa uma fórmula dactiloscópica para representar os códigos das
impressões dos dez dedos da pessoa embora, em geral, somente fragmentos de
impressões sejam encontrados na cena do crime. Essa pesquisa estudou como
lidar com essa falta de informação. Para inferir os códigos faltantes, foram
testados os classificadores naive Bayes, árvores de decisão, redes neurais e
CNM. O “Lupa Digital” foi desenvolvido em função dos resultados obtidos.
XXXII SEMISH
1945
1. Introdução
A papiloscopia busca a identificação positiva, isto é, poder afirmar que uma identidade,
e nenhuma outra, corresponde a determinado indivíduo e vice-versa. Para alcançar esse
objetivo a papiloscopia atende aos seguintes princípios fundamentais [Gomes, 1993]:
•
perenidade (ou permanência): o desenho digital que define o conjunto de
características registradas se mantém durante toda a vida do indivíduo.
•
imutabilidade: os desenhos papilares não mudam sua forma original durante toda a
sua existência.
•
variabilidade (ou singularidade): não há possibilidade de se encontrar duas
impressões digitais idênticas. Os desenhos papilares não se repetem: variam de
pessoa para pessoa e entre os dedos da própria pessoa.
A dactiloscopia é o método mais utilizado nos laboratórios de polícia por atender
plenamente aos princípios anteriores e se tratar de característica de identificação que
deixa resíduos nos locais de crimes, ao contrário de outras. Fundamentada em
informações de impressões digitais e outros atributos físicos a pesquisa de que trata o
presente artigo, iniciou-se com a extração, preparação e análise de um banco de dados
com 502.052 registros, denominado de MECA-Sinic, extraído do arquivo dactiloscópico
criminal do Instituto Nacional de Identificação – DPF/INI. O estudo estatístico e a
aplicação de técnicas de mineração de dados a esse domínio contribuíram para a
elaboração de novos critérios técnicos de suporte aos procedimentos periciais do
DPF/INI, além de fornecer subsídios para estudos nos campos de outras ciências, em
especial a Sociologia. Seus desdobramentos são multifacetados, como a Criminalística,
e com repercussão em outras áreas do conhecimento humano.
1.1 O Processo de Identificação Dactiloscópica
Para que possamos diferenciar uma pessoa da outra é necessário que haja um método
destinado a estabelecer sua identidade, ou seja, determinar um conjunto de caracteres
próprios que possam individualizar as pessoas entre si. Afinal, mais do que identificar
pessoas, precisa-se individualizá-las.
A biometria é o ramo da ciência que estuda as medidas físicas dos seres vivos. A
identificação biométrica utiliza tecnologias que permitem a identificação das pessoas
através dos traços físicos característicos e únicos de cada ser humano: os traços faciais, a
íris, a retina, a voz, a grafia e a impressão digital. Historicamente, dentre os vários
métodos já utilizados o papiloscópico é o mais eficaz por conseguir individualizar
pessoas tanto civil quanto criminalmente [INI 1987]. A papiloscopia é a ciência que
trata da identificação humana através das papilas dérmicas e que tem exercido papel de
relevância no âmbito da pesquisa criminológica. Como ciência, detém seus princípios:
perenidade, imutabilidade e variabilidade dos desenhos papilares. Seu campo de atuação
divide-se em dactiloscopia (dedos), quiroscopia (mãos) e podoscopia (pés).
Juan Vucetich (1858-1925) foi o criador do primeiro sistema de identificação
humana com classificação de impressões digitais. Ele utilizou os tipos fundamentais:
arco (1); presilha interna (2); presilha externa (3) e verticilo (4). Atualmente foram
acrescentados mais três tipos: anômalo (5), cicatriz (6) e amputação (7).
XXXII SEMISH
1946
1.2 Fórmula Dactiloscópica e Minúcias
Fórmula Dactiloscópica é representada por uma fração com numerador formado pelos
algarismos que representam os desenhos dos tipos fundamentais dos dedos da mão
direita (polegar para o mínimo) e o denominador é construído de forma similar, para a
mão esquerda. A fórmula dactiloscópica é um valor numérico que permite a
classificação de forma bastante simples das impressões digitais. Por exemplo:
1 - 3 3 4 3 mão direita
2 - 2 1 4 2 mão esquerda
Vucetich idealizou também uma classificação de subtipos para cada tipo
fundamental. Esse detalhamento não será abordado nesta pesquisa pois o arquivo
MECA-Sinic possui um alto índice de registros sem este subtipo de classificação ou com
preenchimento errado no campo subtipo. O dactilograma, desenho dos dedos, tem como
elementos constitutivos [INI 1987]:
• cristas papilares: correspondem às linhas impressas do dactilograma;
• sulcos interpapilares ou intercristais: correspondem à separação das linhas
papilares;
• poros: são pequenos orifícios dispostos sobre as linhas impressas do dactilograma;
• pontos singulares: são utilizados para a classificação de tipos primários.
• pontos característicos (minúcias ou minutiae): são particularidades morfológicas
que estabelecem a unicidade das impressões digitais.
Do ponto de vista biológico, Francis Galton foi o primeiro a fazer um estudo
dos pontos característicos das impressões digitais. Ele lançou as bases científicas da
dactiloscopia ao catalogar dez classes, trinta e oito tipos nucleares e as minúcias.
Baseado nestas minúcias é possível estabelecer a identidade de uma pessoa [INI 1987].
O processo de classificação baseia-se na identificação dos pontos singulares que
caracteriza os tipos primários. Uma vez classificado o tipo primário, o processo de
verificação consiste em mapear as minúcias. A Figura 1 ilustra a diferença de uso entre
os pontos singulares (esquerda) e característicos (direita). Núcleo e delta são pontos
singulares. O núcleo é região central (Figura 1, esquerda) delimitada pela diretriz
marginal (linha cheia superior) e diretriz basilar (linha cheia inferior). O delta é a região
compreendida entre o núcleo e as diretrizes marginal e basilar. Não existe uma
padronização para a classificação das minúcias, embora sejam classificadas segundo o
aspecto como: crista (final ou curta), bifurcação, ilha, espora ou cruzamento. Ilustrações
dessas minúcias estão apresentadas em [Oliveira, 2004].
Figura 1. Pontos Singulares e Pontos Característicos
XXXII SEMISH
1947
2. Metodologia empregada
A metodologia base para aplicação de técnicas de mineração de dados (DM) utilizada
neste artigo é o modelo de referência CRISP-DM [SPSS 1999]. Este modelo de
processo para mineração de dados baseia-se na existência de um ciclo de vida para o
projeto de mineração de dados. Suas fases são: entendimento do negócio (objetivos e
requerimentos do projeto, análise de riscos e benefícios, etc), entendimento dos dados
(coleta e descrição dos dados, análise da qualidade, seleção de variáveis ou amostras
para mineração, etc), preparação dos dados (seleção, limpeza, construção de atributos
agregados, discretização dos dados numéricos e formatação, se necessário) modelagem
(aprendizagem de modelos com a aplicação de técnicas de DM), avaliação dos modelos
(seleção do modelo mais adequado face aos objetivos do projeto) e colocação em uso
(do modelo ou modelos selecionados).
Os registros da base MECA-Sinic possuem as seguintes informações relativas a
cada criminoso: Unidade da Federação em que nasceu, data de nascimento, codificação
das impressões digitais das mãos direita e esquerda (tipos primários e subtipos), sexo,
cútis, incidência criminal (código dos crimes praticados) e registro federal (número do
registro no DPF/INI). Todas essas variáveis, exceto a data de nascimento (ou idade) são
variáveis categóricas, portanto não ordenáveis. Durante a fase de entendimentos dos
dados foram desconsiderados os subtipos dos dedos das duas mãos porque esses campos
apresentavam diversas inconsistências relativas ao processo de coleta de dados. Com as
demais variáveis foram realizadas análises da estatística descritiva (principalmente
tabulações de distribuições de freqüências dos tipos primários em função das demais
variáveis). Essas análises serviram para correção de valores espúrios e verificação das
distribuições dos tipos primários por sexo, cútis e incidência criminal.
Dados categóricos possuem a vantagem de não necessitarem de um processo de
discretização complexo. Porém, pelo fato de não serem numericamente ordenáveis,
carecem de ferramentas comuns a atributos numéricos como medidas de dispersão
(variância e desvio padrão), médias, coeficientes de correlação (Pearson, Spearman,
Hoefdinf ou Kendall) e outras.
Dentro destas limitações, para análise das fórmulas dactiloscópicas foram
utilizados os índices lambda assimétrico, λ(C|L) e coeficiente de incerteza, U(C|L),
ambos assumindo valores no intervalo [0,1]. Esses índices são medidas de associação
adequadas para variáveis não ordinais. O lambda mede a melhora provável em predizer
o valor da variável da coluna C, dado que se conhece o valor da variável na linha L. O
coeficiente de incerteza mede a proporção da entropia na variável da coluna C que é
explicada pela variável na linha L.
Uma decisão importante, na fase de análise dos dados, foi dividir a base em
quatro grupos (arquivos A, B, C e D), visando dar maior clareza à análise. De forma
resumida, o grupo “A” foi gerado com registros cuja fórmula possui freqüência acima de
1%, o grupo “C” foi gerado por fórmulas com freqüência abaixo de 12 observações e o
grupo “B” com o meio destes. O grupo D, foi gerado somente com observações,
registros, que possuíam tipos fundamentais de origem acidental, que são as cicatrizes
(tipo 6) e amputações (tipo 7). As fórmulas geradas por acidentes ou doenças
sobrepuseram outras originais e, desta forma, não podem ser avaliadas para geração de
XXXII SEMISH
1948
modelos, além de possuírem baixa freqüência o que também prejudica a geração dos
mesmos. A Tabela 1 resume as principais características que motivaram esta divisão.
Tabela 1 - Divisão da Base de Dados nos Grupos A, B, C e D
Um outro fator causador de um número grande de fórmulas com baixa
frequência é a existência de observações com o tipo fundamental anômalo (tipo 5).
Existem 2.417 registros deste tipo na base MECA-Sinic, que correspondem a 0,48%
desta, estes registros estão dispersos em 1.735 diferentes fórmulas, o que corresponde a
4,55% das fórmulas. Porém, definiu-se não separar tais registros em um quinto arquivo.
Por não existir, na literatura consultada, pesquisa sobre a aplicação de mineração
de dados no domínio da dactiloscopia, optou-se por utilizar alguns formalismos de DM
para comparação na etapa de avaliação dos modelos gerados. Foram escolhidos: árvore
de decisão, rede bayesiana [Silva, 2002], Naive Bayes, rede neural artificial - ANN
[Haykin, 2001] e CNM [Prado, 1999]. Um obstáculo marcante neste domínio é a não
existência de variável alvo (classe) que represente a variável de interesse. Como os
algoritmos dos classificadores necessitam explicitar a variável classe para geração do
modelo, adotou-se para estes casos executar a tarefa de aprendizagem dez vezes. Em
cada execução, nove dedos eram selecionados para inferir o décimo. Esse foi o caso de
todos os formalismos usados, exceto as redes bayesianas. A necessidade de discriminar
os modelos fez com que o algoritmo “a priori” [Agrawal, 1993], que implementa a
descoberta de conhecimento por regras de associação, fosse descartado desta etapa do
processo de mineração de dados, pois não se encontrou na literatura consultada
nenhuma forma de se avaliar as regras de associação geradas de forma a permitir
comparar os resultados obtidos com os dos outros modelos.
Este tipo de treinamento gerou os modelos necessários para inferir um dedo a
partir dos outros nove dedos, situação de pesquisa trivial e base para uso na hipótese de
complementação de tipos primários, para reduzir o espaço de busca decadactilar.
2.1 Método da Avaliação
Nos problemas de classificação é natural medir a performance do classificador em
termos da taxa de erro. Entende-se por taxa de erro como sendo a proporção dos erros de
classificação encontrados em um conjunto de instâncias. Alternativamente pode-se
medir a performance através do complemento da taxa de erro que é a taxa de sucesso. A
estrutura chamada matriz de confusão pode ser usada para representar e auxiliar o
cálculo de diferentes tipos de erros como falso positivo e falso negativo. Problemas de
classificação de duas classes são muito comuns, sendo estruturados para predizer a
ocorrência ou a não ocorrência de um simples evento ou hipótese. A Tabela 2 ilustra as
quatro possibilidades em um problema dicotômico.
XXXII SEMISH
1949
Tabela 2. Matriz de Confusão para problema de duas classes
Classes Preditas
Classes Reais
Predição Positiva
Predição Negativa
Classe Positiva
Verdadeiro Positivo (TP)
Falso Negativo (FN)
Classe Negativa
Falso Positivo (FP)
Verdadeiro Positivo (TN)
Existem problemas que exigem uma representação mais complexa, como
problemas multiclasses. A Tabela 3 ilustra um problema com três classes:
Tabela 3. Matriz de Confusão para problema de três classes
Classes Preditas
Classes Reais
1
2
3
1
30
1
0
2
1
43
2
3
0
5
75
As predições corretas localizam-se ao longo da diagonal da matriz de confusão.
Todas as demais representam um tipo particular de erro de classificação. Por exemplo, a
classe 2 foi classificada corretamente 43 vezes (Tabela 2), entretanto foi erroneamente
classificada como classe 3 por duas vezes.
Neste artigo, serão trabalhados os índices de classificações corretas da i-ésima
classe (TPi) e o índice que denominamos probabilidade de concordância – PrCo
(Equação 1), o qual considera não somente as classificações corretas como também o
número de falsos positivos (FPi), ponderados pela probabilidade da classe (pi). Esse
índice pode ser interpretado como um valor esperado da taxa de verdadeiros positivos
líquida.
∑ p i * TPi * (1 − FPi )
c
i =1
(1),
2.2 Avaliação dos Algoritmos de Mineração
A metodologia da avaliação consistiu nos seguintes passos:
(a) Construção de modelos para inferência de um dos dedos a partir dos demais nove
dedos, aplicando os formalismos: árvore de decisão, redes bayesianas, Naive Bayes,
redes neurais artificiais (ANN) com retropropagação (BP) e modelo neural
combinatório (CNM). Foram usados os softwares UnBBayes e UnBMiner, assim
como arquivos de treinamento gerados com 65% dos registros;
(b) Seleção do melhor modelo por dedo com arquivos de avaliação gerados. O critério
de avaliação escolhido foi a probabilidade de concordância (PrCo);
(c) Análise de sensibilidade a valores faltantes (MV). Os arquivos originais de
avaliação foram utilizados para gerar os arquivos com valores faltantes. A avaliação
foi executada com base em dois dedos: o de melhor e o de pior avaliação. Foram
XXXII SEMISH
1950
utilizadas as seguintes taxas de MV: 2%, 5%, 10%, 25% e 40%, cujos valores de
avaliação geram uma curva ao serem representados em um gráfico;
(d) finalizando, foi feita a seleção do modelo mais robusto para o caso característico do
DPF/INI;
A construção dos modelos iniciou-se com a realização de testes de calibragem de
parâmetros, se fosse o caso, para análise de sensibilidade dos mesmos. A avaliação dos
modelos foi feita com uso do módulo “Evaluation” do UnBMiner. Informações mais
detalhadas sobre esta etapa podem ser encontradas em [Oliveira 2004].
Utilizou-se o algoritmo ID3 para construção da árvore de decisão no UnBMiner.
Na etapa de análise de sensibilidade a valores faltantes (MV), constatou-se que o
algoritmo ID3 não foi elaborado com este tratamento, o que gerou interrupção na
avaliação do ID3 com uso de MV.
Para aprendizagem de redes bayesianas optou-se pelo algoritmo B, disponível no
UnBBayes, que implementa o paradigma de busca e pontuação. No algoritmo B a ordem
das variáveis não é importante para a geração da rede. A construção de uma rede
bayesiana (BN) através da aprendizagem gera uma topologia (qualitativa) S e um
conjunto de parâmetros numéricos (quantitativa) θ. Nos testes com a métrica MDL
constatou-se que a estrutura gerada é mais simples que com a métrica GHS e também
mais rápida de se obter.
A rede “Naive Bayes” é uma simplificação da BN na forma de uma árvore, que
admite hipótese de independência de certos eventos probabilísticos. Ela assume que os
valores das variáveis folhas os atributos são condicionalmente independentes dado um
valor da variável raiz. Quando utilizada como um classificador, as variáveis folhas
representam atributos e a variável raiz representa a classe ou alvo. No caso do MECASinic foram gerados vinte modelos, cada um apontando para um dos dez dedos,
procedimento que se repetiu nos grupos A e B.
Redes neurais de múltiplas camadas utilizadas nesta pesquisa fizeram uso de um
algoritmo de aprendizagem supervisionada chamado de algoritmo de retropropagação de
erro que se baseia no método do gradiente descendente para a minimização do erro entre
a saída da rede e a saída desejada [Haykin 2001].
Alguns parâmetros livres tiveram que ser ajustados para que o modelo final, com
a melhor avaliação possível, fosse gerado. A ordem de ajuste destes parâmetros adotada
nesta pesquisa para os grupos A e B foi:
a. definição do número de épocas: 100 épocas;
b. definição das taxas de aprendizagem η= 0.3 e α = 0.3, para o grupo A, e η= 0.5 e
α = 0.1, para o grupo B;
c. definição do tamanho da camada oculta, O = 5;
d. validação do número de épocas, E = 100;
e. geração dos modelos para cada dedo. Uma vez definido o ajuste de parâmetros
necessário, foram gerados vinte modelos, ANN, correspondentes aos dez dedos
das mãos para os grupos A e B.
XXXII SEMISH
1951
Na avaliação do modelo neural combinatório, CNM, fez-se necessário ajuste em
uns poucos parâmetros antes de se gerar os modelos finais com melhor percentual de
PrCo, são eles: ordem máxima = 3, confiança mínima = 60% e suporte mínimo = 7%.
A primeira etapa utilizou o arquivo de avaliação sem valores faltantes. Os
valores utilizados na avaliação foram o TP (verdadeiro positivo) e a PrCo
(Probabilidade de Concordância). A segunda etapa da avaliação foi feita como uso do
arquivo de avaliação com diversas taxas (2%, 5%, 10%, 25% e 40%) de valores
faltantes (MV). O cálculo de Probabilidade de Concordância para cada avaliação foi
feito com o uso da Tabela 4, a seguir:
Tabela 4. Cálculo da Probabilidade de Concordância
Nessa tabela, os acumuladores da matriz de confusão geram os valores TPi, FPi e
pi que fornecem os elementos do cálculo da PrCo (Equação 1). TPi e FPi foram
calculados segundo a estratégia de um-contra-todos. Por exemplo, considere os valores
para a classe 1. Na Tabela 4, p1 = 2.424/120.198; TP1 = 910/1.269 e
FPi = (0+359+0+0)/(139+99.600+18.035+0) é a razão entre os valores preditos
incorretamente para a classe 1 e a soma dos totais reais das demais classes.
Em determinados casos, o valor calculado para PrCo pode ficar inferior a
respectiva taxa de FP, como é o caso de diversos dedos na Figura 2, a seguir.
Figura 2. Gráfico de Avaliação da ANN sem MV
Para se avaliar o efeito de se tentar inferir dados com um certo percentual de
valores faltantes em uma rede neural artificial com retropropagação - ANN foram
escolhidos dois dedos: o melhor avaliado nos modelos (PE – polegar esquerdo) e o pior
avaliado (MD – médio direito). Esta escolha visou criar um intervalo de avaliação que
XXXII SEMISH
1952
simplificaria a visualização dos resultados. Estes dedos foram reavaliados com uso de
cinco arquivos de avaliação com MV.
Na avaliação ilustrada pelo gráfico da Figura 3, percebe-se que com a inserção
de 40% de MV a avaliação do grupo A sofre um decréscimo de 10%. Na avaliação do
grupo B o decréscimo variou entre 7 e 22% no valor de PrCo.
Figura 3. Gráfico de Análise de Sensibilidade da ANN (BP) a MV
O critério de avaliação de determinado modelo pelo cálculo da probabilidade de
concordância (PrCo) mostrou-se ser mais adequado para a base MECA-Sinic. Um
comparativo gráfico da avaliação dos modelos pode ser visto na Figura 4. Este gráfico
aponta os algoritmos ID3, Naive Bayes e ANN com retropropagação como sendo os
melhores. Porém, o ID3 não foi capaz de executar inferência com valor faltante (MV). E
dentre o Naive Bayes e a ANN, esta obteve melhor resultado com valores faltantes.
Figura 4. Gráfico Comparativo da PrCo para o Grupo B, sem MV
Apesar da escolha pelo modelo de ANN com retropropagação (BP) como sendo
o que melhor classifica um dedo a partir dos nove demais, tornou-se evidente a perda
que existe quando da inserção de MV. Devido a esta característica do domínio, não ser
um problema de classificação, optou-se pela utilização de uma estrutura largamente
XXXII SEMISH
1953
utilizada na construção de modelos com algoritmos inteligentes, uma tabela de
distribuição de freqüências de fórmulas (estrutura de dados denominada FreqForm).
Esta estrutura foi utilizada para simplificar o esforço de busca de determinada
combinação de dedos, além possuir crescimento com aceleração negativa à medida que
novos registros são inseridos na base. Com o uso da estrutura de dados FreqForm a base
MECA-Sinic só é acessada uma única vez durante a pesquisa para validar os filtros e
extrair as RFs válidas.
3. A Aplicação “Lupa Digital”
O termo “Lupa Digital”, representa uma ligação entre uma das principais ferramentas de
trabalho no domínio da dactiloscopia, a lupa, e o termo “digital” de duplo sentido neste
caso, que associa tanto os dedos quanto o significado digital empregado na computação.
A linguagem JAVA foi escolhida devido à sua independência de plataforma
(portabilidade), além de seguir o paradigma de orientação a objetos, o que facilita a
inserção de novos recursos, a manutenção, reutilização de código e internacionalização.
3.1 Modelagem de Classes
A linguagem de representação escolhida foi a UML (“Unified Modeling Language”). O
Lupa Digital foi dividido em quatro pacotes, sendo eles:
• Pacote default: possui a classe “Main”, responsável pelo início da aplicação Lupa
Digital. Sua única atribuição é invocar a classe Controlador do pacote AIM.
• Pacote AIM: Pacote ilustrado pelo diagrama de classes da Figura 5. Este pacote
possui as principais classes da aplicação Lupa Digital que implementam as telas de
consulta e as classes de pesquisa decadactilar.
• Pacote AIM.estruturas: Possui as classes que especificam as principais estruturas
de dados a serem utilizadas na pesquisa decadactilar.
• Pacote AIM.util: Encarregado da impressão da lista de fórmulas para orientar a
pesquisa manual no arquivo de individuais datiloscópicas - AID.
Figura 5. Diagrama de Classes da aplicação Lupa Digital
XXXII SEMISH
1954
3.2 Principais estruturas de dados
• FreqForm: composta pelas fórmulas extraídas da base FreqForm.dat, suas
respectivas freqüências de classe (contador).
• Dedos: composta pelos principais atributos extraídos da base MECA-Sinic.dat;
• Provaveis: composta pelas fórmulas extraídas da estrutura FreqForm e suas
respectivas freqüências de classe (contador).
3.3 Operação do Lupa Digital
O Lupa Digital é iniciado com a execução do arquivo Lupa.jar, apresentando a tela
inicial conforme Figura 6.
Figura 6. Tela Inicial do Lupa Digital
A opção de menu “Arquivo > Pesquisa” gera a tela de pesquisa decadactilar que
se divide em quatro painéis, ilustrado na Figura 7:
• seleção da pesquisa: primeiro retângulo. Define o tipo de pesquisa;
• painel de digitação dos dedos e filtros: segundo retângulo;
• painel de botões: primeira elipse. Estes serão representados neste artigo pelo
identificador dos mesmos, delimitado por colchetes, ex: [Filtros];
• painel de status: delimitado na Figura 7 pela segunda elipse.
Figura 7. Tela de Pesquisa do Lupa Digital
XXXII SEMISH
1955
O uso de filtros é acionado pelo botão [Filtros] que habilita a área de opções de
filtros no painel de digitação, conforme Figura 7. O uso dos filtros é admitido em
qualquer tipo de consulta, aumentando a evidencia informada. Eles são acionados por
“Check box”, admitindo qualquer combinação de um ou mais filtros de três atributos
válidos: idade, cútis e sexo. A Figura 7 ilustra um exemplo de uso de filtros para o
atributo cútis.
Pesquisa “Conhece Dedo”
Utilizada caso o especialista conheça a exata posição, nos dedos das mãos, das
impressões digitais coletadas.
Pesquisa “Não Conhece Dedo”
Utilizada caso o especialista não conheça a exata posição, nos dedos das mãos,
das impressões digitais coletadas. Deve-se escolher a opção de pesquisa que pode ser
“Aleatório”, o default, ou “Dedos da mesma mão”.
• Aleatório: Deve-se digitar em qualquer ordem os tipos primários coletados nos
campos sem identificação de dedos. A pesquisa, neste caso, é feita variando-se todas
as possibilidades nas duas mãos.
• Dedos da mesma mão: Se a opção escolhida for “Dedos da mesma mão” então
deve-se definir os valores de outros dois “Combo box”, são eles:
o conhece a ordem dos dedos: tem-se como opção: sim, não ou contínuos;
o Selecione a mão: neste campo, deve-se definir a mão alvo da pesquisa, com
as opções: mão direita, mão esquerda ou ambas as mãos.
Pesquisa “Misto”
Utilizada caso o especialista conheça a exata posição, de alguns dedos das mãos,
das impressões digitais coletadas, e, ao mesmo tempo, desconheça a posição de outras
impressões coletadas.
Saídas
O Lupa Digital produz três tipos de saídas: telas de visualização, impressão e
arquivo de RFs. Os RFs, registros federais, identificam de forma única criminosos no
arquivo AID do INI.
• Tela de Visualização de Fórmulas
Acionada após os algoritmos de pesquisa gerarem a lista de fórmulas que
atendem o critério da pesquisa. Suponha que uma pesquisa cuja posição dos dedos é
conhecida foi acionada, conforme ilustra a Figura 7.
A primeira linha da área de rolagem do visualizador, Figura 8, define o
percentual da base MECA-Sinic que atende ao critério de pesquisa, as evidências,
especificado na Figura 7.
A primeira coluna de todas as linhas corresponde a um contador de Fórmulas
que servirá para auxiliar na divisão da tarefa de pesquisa no arquivo AID, manual. A
segunda e terceira colunas correspondem às fórmulas que atenderam ao critério de
pesquisa. A última coluna define a probabilidade condicional de uma determinada
fórmula dado o critério de pesquisa. No exemplo da Figura 8 tem-se que a fórmula
4-3333/4-2232 possui a probabilidade 16,456%, que significa: “dado o sub-conjunto de
XXXII SEMISH
1956
0,016% do universo de pesquisa, a probabilidade da fórmula 4-3333/2-2232
corresponder aos dedos coletados é de 16,456%”.
Figura 8. Tela Visualizador de Fórmulas
Os botões na parte inferior acionam o visualizador de impressão, a rotina de
impressão e o visualizador de RFs.
4. Avaliação
Destacam-se os aspectos quantitativos como a redução de tempo em uma pesquisa na
base manual, o tempo de resposta da ferramenta e o “ganho” proporcionado pela
mesma. Já os aspectos qualitativos referem-se à facilidade de uso da ferramenta e a
obtenção de resultados antes impossíveis devido à complexidade do tipo de consulta
[Oliveira, 2004].
Escolheu-se como ponto de partida para avaliação a situação mais simples de
pesquisa que é inferir um dedo a partir da evidência dos outros nove. Para se calcular o
ganho proporcionado pela ferramenta foi gerada uma planilha que quantificava o tempo
gasto para pesquisar um determinado tipo primário (ex: arco) em certo dedo da mão.
Esta quantidade é chamada genericamente nesta pesquisa de “unidade de tempo” – UT,
pois o tempo gasto por um dactiloscopista para uma determinada pesquisa pode ser
diferente do tempo gasto por outro dactiloscopista para a mesma pesquisa. Desta forma,
fez-se necessário a normalização destas unidades de tempo em uma única, a UT, para
fins comparativos.
A tabela gerada relaciona os dez dedos da mão com os sete tipos primários, nas
células acumula-se o valor das UTs. As duas últimas linhas dessa tabela referem-se a
dois percentuais de ganho de tempo para uma pesquisa realizada para a fórmula em
destaque. Foram escolhidas duas fórmulas para se avaliar o ganho. A Tabela 5 refere-se
à avaliação da fórmula:
4–4444
4–4444
O procedimento manual de busca no AID sempre começa da hipótese do tipo
primário 1 e vai até o tipo 7, pois assim está organizado o AID. Neste caso, o resultado
correto será sempre 4, ou seja, a busca pára neste valor. Chamou-se o percentual
XXXII SEMISH
1957
acumulado até o ponto de parada de “Ganho”. A média do “Ganho” de tempo é de
44,51% para a fórmula acima.
Tabela 5. Cálculo de Unidades de Tempo (UT) para a fórmula 4-4444/4-4444
A Tabela 6 documenta a avaliação de outra fórmula, composta de outros tipos
primários, justificando a diferença de “Ganho” de tempo.
3–3333
2–2222
Tabela 6. Cálculo de Unidades de Tempo (UT) para a fórmula 3-3333/2-2222
Pela Tabela 6 percebe-se que com os tipos primários de menor ordem o “Ganho”
médio de tempo também diminui (34,24%). Percebeu-se também que o ganho de tempo
depende tanto do dedo como do tipo primário. Porém, independente da afirmativa
anterior, sempre haverá maior ganho de tempo quanto maior for o número do tipo
primário, pois esta é uma premissa da busca manual.
Quanto à hipótese de se fazer a mesma simulação supondo a ausência de dois ou
mais dedos pode-se afirmar ser de grande dificuldade a impossível. Ela torna-se difícil
quando a quantidade de dedos em dúvida é baixa e impossível quando passar de cinco
dedos. Manualmente esta tarefa é irrealizável, devido ao grande número de
possibilidades. Entretanto, pode-se afirmar que sempre o ganho de tempo será maior
quanto maior for a ausência dos dedos.
Quanto ao ganho proporcionado pelo Lupa Digital nas pesquisas de dedos não
posicionais como: aleatório, contínuos, dedos da mesma mão (com ordem conhecida,
sem ordem conhecida), pode-se afirmar que se tratava de uma tarefa antes irrealizável.
Além de se tornar realizável o Lupa Digital proporcionou um método de busca manual
orientada focando apenas as fórmulas que atendem os critérios de pesquisa definidos na
consulta.
5. Conclusão
A ferramenta Lupa Digital atendeu às expectativas do DPF/INI otimizando as pesquisas
realizadas com a evidência de sete ou mais dedos, viabilizando as pesquisas com
XXXII SEMISH
1958
número inferior de dedos como evidência e possibilitando as pesquisas sem
conhecimento de posição dos dedos, impraticáveis anteriormente. Seu desenvolvimento
requereu o desenvolvimento de algoritmo específico para pesquisa decadactilar, pois
não dá para se definir “a priori” a seleção das regras, visto que a inferência é feita de
acordo com a consulta definida “on-line”.
Adicionalmente, ela provê um meio de otimizar a pesquisa com o uso de uma
solução AFIS, adquirida recentemente pela DPF, pois o arquivo com a lista de RFs
gerada reduz em muito o universo de busca, ao mesmo tempo em que orienta a ordem
de pesquisa neste. A aplicabilidade da ferramenta Lupa Digital extrapola o âmbito do
DPF/INI, podendo ser utilizada em outros serviços de segurança pública, bastando para
a isso, obviamente, o preparo dos arquivos de entrada para enriquecer a base existente
com dados locais.
Agradecimentos
Essa pesquisa foi realizada com apoio parcial dos programas CAPES/PROCAD e
CAPES/GRICES.
Referências
Agrawal, R., Imielinski, T. and Swami, A. (1993) “Mining Association Rules Between
Sets of Itens in Large Databases”. Proc. 1993 Int. Conf. Management of Data
(SIGMOD-93), 207-216.
Gomes, Hélio. (1993). Medicina Legal (30a Ed.). Rio de Janeiro: Freitas Bastos.
Haykin, Simon. (2001) “Redes Neurais: Princípios e Prática”. Bookman, 2.ed., trad.
Paulo Martins Engel.
INI (1987). Identificação Papiloscópica. Brasília: Instituto Nacional de Identificação –
DPF (uso interno).
Oliveira, M. G., Ladeira, M., Araújo, M. E. C. (2004). “LUPA DIGITAL: Uma
Ferramenta para Otimização de Busca de Impressões Digitais”. In: Anais do I
Congresso Internacional de Crimes Cibernéticos - ICCyber 2004. Brasília.
Prado, H. A.; Machado, K. F.; Frigeri, S. R.; Engel, P. M. (1999) “Data Mining Using
Combinatorial Neural Model”. Revista Tecnologia da Informação, Brasília - DF,
v.01, Nro. 1, p. 17-22.
Silva, Wagner T., Ladeira, Marcelo, (2002) Mineração de Dados em Redes Bayesianas.
In: Congresso da Sociedade Brasileira de Computação, 19.; Jornada de Atualização
em Informática, 2002, Rio de Janeiro. Anais.
SPSS Inc., NCR Systems Engineering Copenhagen & DaimlerChrysler AG (1999).
CRISP-DM 1.0 – Step-by-step Data Mining Guide. SPSS & CRISP-DM Consortium.
(Disponível em www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 05/03/2005).
XXXII SEMISH
1959
Download