Contribuições ao Problema de Seleção de Atributos

Propaganda
Contribuições ao Problema de Seleção de Atributos
Na área de mineração de dados, a tarefa de classificação, que tem como objetivo estimar a
classe à qual pertence uma nova instância a partir dos valores de seus atributos, é uma das
mais estudadas e aplicadas. Uma das formas de melhorar o desempenho do processo de
classificação é realizar uma seleção dos atributos disponíveis na base de dados, mantendo os
atributos que representam a informação útil e descartando aqueles que não contribuem e que
podem até mesmo prejudicar o desempenho dessa tarefa.
Esta tese propõe duas contribuições para o problema de seleção de atributos. A primeira
delas diz respeito a uma heurística para realizar seleção de atributos em bases de dados com
dimensionalidade muito alta (centenas ou milhares de atributos), já que realizar a seleção com
a maioria dos algoritmos tradicionais torna-se um processo inviável por conta do alto custo
computacional. A segunda contribuição trata de medidas de relevância para atributos
multivalorados, que são atributos caracterizados por poderem assumir mais de um valor para
uma mesma instância da base de dados. As medidas de relevância propostas até hoje não se
adequam a atributos com tal característica, porém, em muitas bases de dados reais
encontradas atualmente, esses atributos estão presentes, reforçando a necessidade de se
quantificar a capacidade dos mesmos em contribuir para a tarefa de classificação.
Palavras-chave: atributos multivalorados, bases de dados com alta dimensionalidade,
classificação, medidas de relevância, seleção de atributos.
Download