Mineração de dados temporal: Descoberta de Regras de Causa e

Propaganda
Mineração de dados temporal: Descoberta de Regras de
Causa e Efeito
Heitor Murilo Gomes, Luiz G. Hauth, Deborah R. Carvalho
Faculdade de Ciências Exatas e Tecnologia (FACET) – Universidade Tuiuti do
Paraná – Curitiba – PR – Brasil
[email protected], [email protected], [email protected]
Abstract. We are given the problem of finding cause-effect relations between
events in a transactional database with timing information. A group of events
may be the cause for another event, if the occurrence of the events within the
cause group respect a minimum and maximum time distance to the effect
event. Our method will be applied to a database containing information about
clients of a healthcare company in order to provide a qualitative evaluation of
the obtained rules. The main contributions of our work are: the algorithm to
discover the cause-effect rules and an heuristic to determine the time distances
restrictions, which conduct the cause-effect relations.
Keywords: Temporal Data Mining, Data Mining
Resumo. Nos é dado o problema de descobrir relações de causa e efeito entre
eventos de uma base de dados transacional com informação de tempo. Um
grupo de eventos pode ser a causa para outro evento desde que a ocorrência
dos eventos no grupo de causa respeite uma distância mínima e máxima de
tempo para o evento efeito. Nosso método será aplicado a uma base de dados
contendo informações de clientes de um plano de saúde com o intuito de
prover uma análise qualitativa das regras obtidas. As principais contribuições
de nosso trabalho são: o algoritmo para a descoberta das regras de causa e
efeito e uma heurística para a determinação das restrições de distâncias de
tempo, as quais regem as relações de causa e efeito.
Palavras-chave: Mineração de dados Temporal, Mineração de dados
1. Introdução
O grande volume de dados transacionais, com informação de tempo, armazenados por
empresas motivam o desenvolvimento de algoritmos que possibilitem a descoberta de
padrões considerando o aspecto temporal das transações (eventos). Com esse intuito
foram enunciados os trabalhos de [Agrawal 1996], [Antunes 2007], [Kempe 2008], etc.
Como em [Agrawal 1996], nosso algoritmo de mineração explora a distância entre
eventos, porém nosso método não apenas limita a mineração aos registros que atendem
a determinada distância, ele utiliza a distância entre eventos para construir relações de
causa e efeito baseado na assertiva de que eventos influenciam outros desde que eles
tenham ocorrido a uma distância mínima e máxima de tempo. Este tipo de relação é útil
na área da saúde, por exemplo: os resquícios de uma droga permanecem no organismo
de um individuo por um determinado tempo, logo se ele apresentar uma enfermidade
após este prazo, ela não pode ser considerada como um efeito da droga.
2. Metodologia
Nosso método é dividido em duas fases, pré-processamento e mineração. No préprocessamento é realizada a tradução da base de dados original para um formato de
representação mais simples e a definição das restrições de distâncias de tempo (RDts).
A mineração é composta pela sumarização da base de dados traduzida e pelo cálculo do
suporte de causa e efeito (SupCE) e confiança de causa e efeito (ConfCE) para as regras
de causa e efeito (RCEs). O método é descrito na Figura 1.
Figura 1. Descoberta de RCEs
1. Nesta etapa os eventos, denotados pela tupla (d,t), onde d representa a
descrição e t o timestamp (TS) do evento, presentes na base original são traduzidos para
um formato de representação mais simples com o intuito de melhorar o tempo de
comparação entre eventos e distâncias (diferença entre timestamps).
2. É aplicada uma heurística baseada em agrupamento para a definição das RDts
que melhor representam a base de dados. As distâncias e a quantidade de vezes em que
estas ocorrem na base de dados são utilizadas como entrada para o agrupamento.
3. Nesta etapa é realizada uma transformação do domínio. Sendo esta
transformação regida pelas RDts previamente definidas. A descoberta de RCEs é feita
sob a base sumarizada, a qual é composta de sequências de causa e efeito (SCEs). Uma
SCE é composta por um grupo de causa associado a um efeito.
4. O SupCE representa a quantidade de vezes em que um mesmo efeito
ocorre relativo a todas as SCEs. O ConfCE representa a quantidade de vezes em
que uma causa ocorre para o mesmo efeito relativo a todas SCEs.
3. Conclusão
Atualmente estamos instanciando os algoritmos, e em seguida estaremos realizando
experimentos com os dados da companhia de planos de saúde.
4. Referências
Kempe, Steffen; Hipp, Jochen; Lanquillon, Carsten (2008) Mining Frequente Temporal
Patterns in Interval Sequences. International Journal of Uncertainty, Fuzziness and
Knowledge-Based Systems.
Antunes, Cláudia (2007) Temporal Pattern Mining Using a Time Ontology, New Trends
in Artificial Intelligence, pp. 23-34.
Agrawal, Rakesh; Srikant, Ramakrishnan. (1996) Mining sequential patterns:
Generalizations and performance improvements, In Proc.5th Int. Conf. Extending
Database Technology (EDBT’96), pp. 3–17.
Download