Imputação de dados em análise multivariada - pibic

Propaganda
IMPUTAÇÃO DE DADOS EM ANÁLISE MULTIVARIADA UTILIZANDO CADEIA DE ESTIMADORES
Damares Crystina Oliveira de RESENDE (Bolsista PIBIC/UFPA) - [email protected]
Curso de Engenharia da Computação, Instituto de Tecnologia, Faculdade de Engenharia da Computação
e Telecomunicações.
Prof. Dr. Ádamo Lima de SANTANA (Orientador) – [email protected]
Curso de Engenharia da Computação, Instituto de Tecnologia, Faculdade de Engenharia da Computação
e Telecomunicações.
O processo de Mineração de Dados abrange inúmeras aplicações e dentre elas destacam-se a
classificação multirrótulo e a análise e predição de séries temporais. A primeira vem sendo largamente
utilizada, devido sua grande aplicabilidade, podendo ser usada em classificação de mídias (músicas e
filmes), de documentos textuais, predição de um conjunto de doenças e na recomendação de produtos
para consumidores. A segunda, igualmente difundida, pode ser aplicada em monitoramento do ambiente,
análise de bolsa de valores e pesquisas médicas, por exemplo. Nestas aplicações também é importante
fazer o tratamento de dados faltosos, levando em consideração que estes tipos de dados possuem
características peculiares e devem ser manipulados de forma específica. Neste trabalho, é feito um
estudo aprofundado sobre o processo de pré-processamento no contexto de Mineração de Dados, onde
foram estudadas técnicas para o tratamento de valores ausentes em dois domínios específicos:
classificação multirrótulo e séries temporais. Também são codificados dois sistemas especialistas para
fazer a imputação de dados em bases desses domínios, estes sistemas serão desenvolvidos a partir do
uso de um Algoritmo Genético e de um algoritmo de Programação Genética, ambos algoritmos
evolucionários capazes de otimizar problemas combinatórios.
Palavras-chave: Imputação de dados, Valores Ausentes.
Titulo do projeto do orientador: Sistema de apoio à tomada de decisão para a automatização e
integração de módulos de controle de planta para o gerenciamento otimizado do parque de
equipamentos da alunorte: abordagens baseadas em modelos analíticos e de inteligência computacional.
Classificação do trabalho na Tabela de Áreas do Conhecimento no CNPq.
Grande-área: Engenharia e Tecnologia
Área: Computação
Sub-área: Mineração de Dados
Download