PROPOSTA DE PROJETO FINAL Aluna:Clauciane Dias de Lima Professores: Celso Kaestner e Heitor Lopes Data Mining Pós – Graduação em Engenharia Elétrica e Informática Industrial Universidade Tecnológica Federal do Paraná 2016 1. Objetivo O objetivo deste trabalho é aplicar técnicas estudadas na disciplina para tarefas de classificar a qualidade de vinho tinto e branco. Pretende-se aplicar as técnicas de classificação e agrupamento utilizando diferentes tipos de algoritmo para fins de comparação. Os experimentos realizados farão o uso do software Weka, um software livre do tipo open source para mineração de dados, desenvolvido em Java pela Universidade de Waikato, na Nova Zelândia. Este software permite o préprocessamento dos dados, classificação, regressão, agrupamento, regras de associação e visualização. 2. Descrição da Base de Dados Utillizada Para o desenvolvimento deste trabalho será utilizada a base de dados denominada “Wine Quality Data Set ”, que pode ser obtida do Repositório de Aprendizado de Máquina da Universidade da Califórnia - Irvine,( UCI) disponível em https://archive.ics.uci.edu/ml/datasets/Wine+Quality. O objetivo principal é analisar a qualidade do vinho com base em dados físicoquímicos. Neste projeto será utilizado dois conjuntos de dados separados, o qual o vinho tinto contém 1599 casos e o vinho branco 4898 casos com 12 atributos. Informações do conjunto de dados: Os dois conjuntos de dados estão relacionados com variantes vermelhas e brancas do vinho português "Vinho Verde". Para mais detalhes, consulte: a referência [Cortez et al., 2009]. Devido a questões de privacidade e logística, apenas estão disponíveis as variáveis físico-químicas (entradas) e sensoriais (por exemplo, não existem dados sobre os tipos de uva, a marca do vinho, o preço de venda do vinho, Informações do atributo: Variáveis de entrada (com base em testes físico-químicas): 1 - acidez fixa etc.). 2 - acidez volátil 3 - ácido cítrico 4 - açúcar residual 5 - cloretos 6 - dióxido de enxofre livre 7 - dióxido de enxofre total 8 - densidade 9 - pH 10 - sulfatos 11 - álcool variável de saída (com base em dados sensoriais): 12 - qualidade (pontuação entre 0 e 10)