Mineração de dados temporal: Descoberta de Regras de Causa e Efeito Heitor Murilo Gomes, Luiz G. Hauth, Deborah R. Carvalho Faculdade de Ciências Exatas e Tecnologia (FACET) – Universidade Tuiuti do Paraná – Curitiba – PR – Brasil [email protected], [email protected], [email protected] Abstract. We are given the problem of finding cause-effect relations between events in a transactional database with timing information. A group of events may be the cause for another event, if the occurrence of the events within the cause group respect a minimum and maximum time distance to the effect event. Our method will be applied to a database containing information about clients of a healthcare company in order to provide a qualitative evaluation of the obtained rules. The main contributions of our work are: the algorithm to discover the cause-effect rules and an heuristic to determine the time distances restrictions, which conduct the cause-effect relations. Keywords: Temporal Data Mining, Data Mining Resumo. Nos é dado o problema de descobrir relações de causa e efeito entre eventos de uma base de dados transacional com informação de tempo. Um grupo de eventos pode ser a causa para outro evento desde que a ocorrência dos eventos no grupo de causa respeite uma distância mínima e máxima de tempo para o evento efeito. Nosso método será aplicado a uma base de dados contendo informações de clientes de um plano de saúde com o intuito de prover uma análise qualitativa das regras obtidas. As principais contribuições de nosso trabalho são: o algoritmo para a descoberta das regras de causa e efeito e uma heurística para a determinação das restrições de distâncias de tempo, as quais regem as relações de causa e efeito. Palavras-chave: Mineração de dados Temporal, Mineração de dados 1. Introdução O grande volume de dados transacionais, com informação de tempo, armazenados por empresas motivam o desenvolvimento de algoritmos que possibilitem a descoberta de padrões considerando o aspecto temporal das transações (eventos). Com esse intuito foram enunciados os trabalhos de [Agrawal 1996], [Antunes 2007], [Kempe 2008], etc. Como em [Agrawal 1996], nosso algoritmo de mineração explora a distância entre eventos, porém nosso método não apenas limita a mineração aos registros que atendem a determinada distância, ele utiliza a distância entre eventos para construir relações de causa e efeito baseado na assertiva de que eventos influenciam outros desde que eles tenham ocorrido a uma distância mínima e máxima de tempo. Este tipo de relação é útil na área da saúde, por exemplo: os resquícios de uma droga permanecem no organismo de um individuo por um determinado tempo, logo se ele apresentar uma enfermidade após este prazo, ela não pode ser considerada como um efeito da droga. 2. Metodologia Nosso método é dividido em duas fases, pré-processamento e mineração. No préprocessamento é realizada a tradução da base de dados original para um formato de representação mais simples e a definição das restrições de distâncias de tempo (RDts). A mineração é composta pela sumarização da base de dados traduzida e pelo cálculo do suporte de causa e efeito (SupCE) e confiança de causa e efeito (ConfCE) para as regras de causa e efeito (RCEs). O método é descrito na Figura 1. Figura 1. Descoberta de RCEs 1. Nesta etapa os eventos, denotados pela tupla (d,t), onde d representa a descrição e t o timestamp (TS) do evento, presentes na base original são traduzidos para um formato de representação mais simples com o intuito de melhorar o tempo de comparação entre eventos e distâncias (diferença entre timestamps). 2. É aplicada uma heurística baseada em agrupamento para a definição das RDts que melhor representam a base de dados. As distâncias e a quantidade de vezes em que estas ocorrem na base de dados são utilizadas como entrada para o agrupamento. 3. Nesta etapa é realizada uma transformação do domínio. Sendo esta transformação regida pelas RDts previamente definidas. A descoberta de RCEs é feita sob a base sumarizada, a qual é composta de sequências de causa e efeito (SCEs). Uma SCE é composta por um grupo de causa associado a um efeito. 4. O SupCE representa a quantidade de vezes em que um mesmo efeito ocorre relativo a todas as SCEs. O ConfCE representa a quantidade de vezes em que uma causa ocorre para o mesmo efeito relativo a todas SCEs. 3. Conclusão Atualmente estamos instanciando os algoritmos, e em seguida estaremos realizando experimentos com os dados da companhia de planos de saúde. 4. Referências Kempe, Steffen; Hipp, Jochen; Lanquillon, Carsten (2008) Mining Frequente Temporal Patterns in Interval Sequences. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. Antunes, Cláudia (2007) Temporal Pattern Mining Using a Time Ontology, New Trends in Artificial Intelligence, pp. 23-34. Agrawal, Rakesh; Srikant, Ramakrishnan. (1996) Mining sequential patterns: Generalizations and performance improvements, In Proc.5th Int. Conf. Extending Database Technology (EDBT’96), pp. 3–17.