Algoritmo da Confiança Inversa para Mineração de Dados Baseado

Propaganda
Algoritmo da Confiança Inversa para Mineração de Dados
Baseado em Técnicas de Regras de Associação e Lógica
Nebulosa
Anderson Araújo Casanova, Sofiane Labidi.
Universidade Federal do Maranhão
Campus do Bacanga, São Luis, MA.
Laboratório de Sistemas Inteligentes - LSI
[email protected], [email protected]
Abstract. This article proposes an algorithm for data mining that presents a
new measure for assistance in the extraction of knowledge. The algorithm uses
association rules to extract rules of the databases and fuzzy logic for the
classification and comparison of the rules.
Keywords: data mining, association rules, fuzzy logic, similarity and
algorithm of the inverse confidence.
Resumo. Este artigo propõe um algoritmo para mineração de dados que
apresenta uma nova medida para auxílio na extração de conhecimento. O
algoritmo utiliza regras de associação para extrair regras das bases de dados
e lógica nebulosa (fuzzy logic) para a classificação e comparação das regras.
Palavras-chave: mineração de dados, regras de associação, lógica nebulosa,
similaridade e algoritmo da confiança inversa.
1 Introdução
Os algoritmos de mineração baseados em regras de associação buscam por padrões que
possuam um mínimo de freqüência na base de dados. Neste artigo propõe-se um
algoritmo, idealizado pelos próprios autores, que faz busca, classificação e comparação
dos dados coletados. Além das duas medidas clássicas o algoritmo traz uma nova
medida que apresenta uma regra, dentre cinco possíveis, que auxilia na coleta do
conhecimento. Auxiliado pela lógica nebulosa o algoritmo apresenta a saída do
conhecimento ao nível da linguagem natural. A seguir é apresentado o referencial
teórico usado para a criação do algoritmo.
2 Regras de Associação e Lógica Nebulosa
Regra de associação é uma expressão da forma x → y, onde x e y são conjuntos de itens
e significa: transações da base de dados que contêm x tendem a conter y. O conjunto de
itens representado por x é chamado de antecedente da regra e o conjunto de itens
representado por y é chamado de conseqüente da regra. Denomina-se um conjunto de
itens de itemsets. Para cada itemset se associam dois fatores: o suporte e a confiança. O
suporte é à medida que corresponde à porcentagem de vezes que ocorre x e y
simultaneamente sobre o total de registros da base de dados. A confiança é à medida
que corresponde a porcentagem de vezes que ocorre x e y simultaneamente sobre o total
de registros que possuem x [Nong, 2003].
A teoria dos conjuntos nebulosos proposta por Lotfi Zadeh em 1965 permite
criar sistemas especialistas utilizando variáveis lingüísticas. A função característica de
V ENIA
1106
um conjunto clássico (booleano) assume somente os valores 0 ou 1. Essa função pode
ser generalizada de forma que ela possa assumir valores em um determinado intervalo, e
o valor assumido indica o grau de pertinência do elemento no conjunto em questão. A
função de pertinência de um conjunto nebuloso A é denotada por µA, desta forma: µA:X
→ [0,1]. A função de pertinência mapeia os elementos de um conjunto clássico X em
números reais no intervalo [0,1]. Assim, um conjunto nebuloso A é caracterizado por
uma função de pertinência µA(x), que associa a cada elemento do conjunto um número
real no intervalo [0,1]. Desta forma, o valor de µA(x) representa o grau de pertinência
do elemento x no conjunto A [Bauchspiess, 2004] e [Hellmann, 2001].
3 Algoritmo da Confiança Inversa
O objetivo do ACI pode ser descrito dessa forma: dados um conjunto de transações e o
itemset para o qual desejamos realizar a pesquisa o algoritmo irá encontrar: a relação de
y para x (Confiança Inversa); a classificação de um itemset em regra (ruim, regular, boa,
ótima e excelente); e a similaridade entre itemsets (não similar, pouco similar, quase
similar e similar). A Confiança Inversa – CI é à medida que corresponde a porcentagem
de vezes que ocorre x e y simultaneamente sobre o total de registros que possuem y. Os
valores que a CI assume e as respectivas regras para um itemset são demonstradas na
Figura1.
Figura 1. Valores e regras da CI.
Utilizando o conceito dos conjuntos nebulosos, para classificar o resultado da CI
de um itemset as funções de pertinência para os respectivos conjuntos (µRuim (CI),
µRegular (CI), µBoa (CI), µÓtima (CI) e µExcelente (CI)) são exibidas na figura 2.
Figura 2. Funções de pertinência.
O conjunto que assume os valores da CI de 0 a 100% é mapeado através da
função de pertinência, em conjuntos nebulosos que assumem os valores entre [0,1]. A
representação gráfica dos conjuntos nebulosos para CI é apresentada na figura 1.
V ENIA
1107
µ(CI)
µRuim (CI)
µRegular (CI)
µBoa (CI)
µÓtima (CI)
µExcelente (CI)
CI %
Figura 3. Representação gráfica do conjunto nebuloso de classificação das regras.
Após um itemset ser classificado o algoritmo procura outros itemsets que
possuam um valor aproximado ao itemset proposto. A função de pertinência que julga
se outros itemsets são similares (µSimilaridade(D)) ao itemset proposto é, somente para os
itemsets que tenham
calculamos
CI i − CI i +1 < VI
(1)
D = CI
(2)
i
− CI
µ Similarida de ( D ) =
onde:
•
•
•
•
i+1
D
−1
VI
(3)
CI i é o valor da confiança inversa para o itemset proposto;
CI i+1 é o valor da confiança inversa para o itemset seguinte;
D é o módulo entre a diferença de CI i e CI i+1;
V.I. – Valor Intervalo é o valor que um itemset pode distanciar de outro
itemset para serem classificados como não similares.
Definimos D ≥ 0 pelo fato de que pode ocorrer de CI i+1 > CI i.
Segundo [Lima, 1976] o conjunto de Cantor K é um subconjunto fechado do
intervalo [0, 1], obtido como complementar de uma reunião de intervalos, ou seja,
podemos redefinir VI como um subconjunto nebuloso [0, 1] dentro do conjunto
nebuloso de classificação para itemsets. A função (µSimilaridade(D)) pode ser ajustável
alterando a variável VI, desta forma o subconjunto nebuloso é redimensionado para que
se possa aumentar ou diminuir o intervalo que torna um itemset similar ou não similar a
outro itemset. Após a definição para o intervalo de similaridade, VI, o algoritmo aplica
(1) para certificar que os itemsets estejam dentro do intervalo de similaridade. Caso a
diferença entre CI i e CI i+1 dos itemstes seja maior ou igual ao valor de VI, então os
itemsets são classificados como não similares. No caso em que (1) é satisfeito, o
algoritmo encontra o valor para D (2) e então calcula a função similaridade (3) que é o
quociente de D por VI menos 1. Desta forma podemos encontrar itemsets similares ao
itemset procurado ou demonstra a não similaridade entre itemsets. A tabela 1 mostra a
classificação para dois itemsets de acordo com a função (µSimilaridade(D)).
Tabela 3. Classificação para o conjunto nebuloso similaridade.
Similar
(µSimilaridade(D)) = 1
Quase
Similar
0,5< = (µSimilaridade(D)) < 1
Pouco Similar
0 < (µSimilaridade(D)) < 0,5
Não Similar
(µSimilaridade(D)) = 0
V ENIA
1108
4 Aplicação do Algoritmo
O ACI foi aplicado no banco de dados do Hospital Universitário da Universidade
Federal do Maranhão. A base de dados continha 29562 registros com data a partir do dia
22/02/1998. A variável VI foi definida arbitrariamente com o valor 20. A seguir o
resultado do teste para alguns itemsets.
Itemset 1: Sexo (Masculino) → Anestesia (Local). Suporte = 4,99%, Confiança
= 8,80% e Confiança Inversa = 63,48%. O uso da anestesia local é mais freqüente no
sexo masculino com uma considerável diferença. Aplicando a função de pertinência
temos o valor 0,8, ou seja, o itemset 1 está mais próximo de ser classificado como uma
regra ótima do que como uma regra boa.
Itemset 2: Clínica (Cirurgia Geral) → Motivo Suspensão (Dois). Suporte =
2,56%, Confiança = 7,77%, Confiança Inversa = 40,15%. A soma das ocorrências dos
outros motivos de suspensão de cirurgia ocorre mais na cirurgia geral do que o motivo
dois, que significa “Paciente não internado”. Aplicando a função de pertinência para o
itemset 2 obtemos o valor 0,52, ou seja, o itemset 2 pode ser classificado como regra
boa, mas está no limiar de também ser classificada como regra regular.
Itemset 3: Sexo (Feminino) → Cirurgia (Tireoidectomia). Suporte = 0,75%,
Confiança = 1,73%, Confiança Inversa = 87,74%. As cirurgias de Tireoidectomia são
mais freqüentes no sexo feminino do que no sexo masculino [Valenti, 1967]. De acordo
com a função de pertinência o itemset 3 é classificado como regra excelente.
Aplicando a função (µSimilaridade(D)) para os resultados obtidos para os itemsets 1,
2 e 3, encontramos a seguinte informação: os itemsets foram classificadas como “não
similares” pois a diferença entre os itemsets é maior do que o intervalo de V.I.
5 Conclusão e Trabalhos Futuros
O ACI tem as seguintes características: (1) a medida da CI não gera um conjunto muito
grande de regras, ao invés disso, o ACI procura agregar o máximo de itemsets para a
mesma regra, pois possui cinco regras fixas e que podem ser empregadas para vários
itemsets, (2) pode gerar regras tanto de X → Y quanto de Y → X, o que é o maior
diferencial do ACI em relação aos outros algoritmos, (3) aplica a lógica nebulosa para
classificação das regras propostas pelo usuário, dessa forma se pode aproveitar regras
com proximidade de valores.
6 Referências Bibliográficas
BAUCHSPIESS, A., (2004) “Introdução aos Sistemas Inteligentes. Aplicações em
Engenharia de Redes Neurais Artificiais, Lógica Fuzzy e Sistemas NeuroFuzzy”, http://www.ene.unb.br/adolfo/ISI Brasília. 2004.
HELLMANN, M. (2001) “Fuzzy Logic Introduction”, Université de Rennes, 2001.
LIMA, E., Lages., (1976) “Curso de Análise”, vol. 1, Instituto de Matemática Pura
e Aplicada. 1976.
NONG, Y., (2003) “The Handbook of Data Mining”, Lawrence Erlbaum Associates,
Inc., Publishers.
VALENTI, P., (1967) “Medicina Interna: Compendio Práctico de Patologia Médica
y Terapéutica Clínica”, Séptima Edición. Editorial Marin. Barcelona.
V ENIA
1109
Download