Descoberta de Conhecimentos sobre o Perfil do Candidato ao Vestibular da Unisinos, Utilizando Técnicas de Data Mining Carla Medeiros da Silva Universidade do Vale do Rio dos Sinos Trabalho de Conclusão de Curso - 2001/2 Curso de Informática - Hab. em Análise de Sistemas Apresentação Introdução Objetivo Geral Processo de Descoberta de Conhecimentos em Banco de Dados Tipos de Padrões Medidas de Interesse Regras de Associação Árvores de Decisão Base de Dados Ferramenta Desenvolvida Fases do Processo de KDD - Regras de Associação Fases do Processo de KDD - Árvores de Decisão Resultados - Regras de Associação Resultados - Árvores de Decisão Comparativo entre as Duas Técnicas Conclusão Bibliografia 1 Introdução Atualmente, as organizações têm armazenado uma grande quantidade de dados, onde pode conter muitas informações úteis e importantes, mas que normalmente não estão visíveis e não podem ser descobertas utilizando-se sistemas convencionais de análise de dados. A mineração de dados é um processo de descoberta de conhecimentos que tem por objetivo extrair essas informações implícitas e potencialmente úteis. A mineração de dados está fortemente ligada a técnicas de aprendizado de máquina, tais como Árvores de Decisão, Redes Neurais Artificiais, Regras de Associação e Agrupamento de Dados (Clusterização). Objetivo Geral Aplicar de forma prática, sobre uma base de dados de candidatos ao vestibular da Unisinos de 2000/1, duas técnicas de Data Mining: Regras de Associação (Apriori) Árvores de Decisão (C4.5) Descobrir conhecimentos para ajudar a traçar o perfil dos candidatos e descobrir quais as características mais relevantes que os levam a classificarem-se ou não e matricularem-se ou não. Análise comparativa entre as duas ferramentas (Apriori e C4.5) 2 Processo de Descoberta de Conhecimentos em Banco de Dados O termo Descoberta de Conhecimentos em Banco de Dados (DCBD), ou Knowledge Discovery in Databases(KDD) foi criado para nomear o amplo processo de encontrar conhecimentos a partir de dados brutos. Consiste em várias etapas envolvendo a cooperação da pessoa responsável pela análise dos dados. Este processo, com freqüência não é executado de forma seqüencial. Processo de descoberta de conhecimentos em Banco de Dados Dados Seleção Pré-processamento Seleção: selecionar e coletar o conjunto de dados ou o subconjunto de variáveis necessárias. Pré-processamento: limpeza dos dados, removendo ruídos e tratando dados incompletos. Transformação: converter os dados para um formato apropriado. Transformação Data Mining: aplicação do algoritmo escolhido sobre os dados. Data Mining Pós-processamento: tratamento das regras extraídas na etapa anterior antes que elas sejam apresentadas ao analista. Pós-processamento Interpretação Interpretação: as informações resultantes do processo são interpretadas e avaliadas, constituindo-se em conhecimento. Conhecimento 3 Tipos de Padrões • Os objetivos da Mineração de Dados são a predição e a descrição: – Predição: Predizer o valor futuro ou desconhecido de um atributo com base em valores conhecidos de outros atributos da base de dados. – Descrição: Encontrar padrões interessantes que estão implícitos na base de dados. Tipos de Padrões – Padrões descritivos: • Agrupamento ou Clustering: agrupar objetos em categorias ou grupos baseados em algum critério de similaridade, de forma a identificar aglomerações que descrevem os dados. • Regras de Associação: encontrar relacionamentos ou padrões freqüentes entre um conjunto de dados. • Padrões seqüenciais: descrevem a tendência de que certos eventos aconteçam obedecendo a uma determinada seqüência temporal. 4 Tipos de Padrões – Padrões preditivos • Regressão: procura-se mapear cada entidade para um valor numérico, usando os valores existentes para prever valores futuros. • Classificação: examinar as características de um objeto e atribuí-lo a um conjunto de classes predefinidas. (Árvores de Decisão). Medidas de Interesse em Mineração de Dados Medidas para avaliar o quanto um padrão é bom e/ou interessante: – Objetivas: » estrutura do padrão e dos dados, independente do domínio » diminui consideravelmente a quantidade apresentada » Graus de suporte e confiança – Subjetivas: » necessidades específicas e conhecimento prévio do usuário » utilidade: ajudar a alcançar o objetivo do sistema ou usuário » inesperabilidade: descobrir padrões surpreendentes 5 Regras de Associação • Esta técnica é uma das mais usadas em aplicações clássicas de KDD. • Aprendizado não supervisionado. • É uma padrão descritivo que representa a probabilidade de um conjunto de itens aparecer em uma transação visto que outro conjunto de itens está presente. • Tem por objetivo encontrar relacionamentos ou padrões freqüentes entre conjuntos de dados. • Dado um conjunto de transações, onde cada transação é um conjunto de itens, a regra de associação é uma expressão: X → Y (A transação que contém itens em X tende a conter itens em Y) Regras de Associação X→Y Dentro do conceito de que uma regra é uma afirmação probabilística: – Suporte é a probabilidade de que uma transação satisfaça X. – Confiança é a probabilidade de que uma transação satisfaça Y, se ela satisfaz X. Para que se encontre regras associativas é preciso descobrir todas as regras que têm suporte e confiança maiores que os valores mínimos, especificados pelo usuário. 6 Regras de Associação X→Y Algoritmo utilizado: – Apriori (Agrawal): algoritmo para extração de regras de associação que faz diversas passagens sobre a base de transações para encontrar todos os conjuntos de itens freqüentes, gerando no final da execução uma lista de padrões (regras de associação). – Exemplo Regras de Associação - Exemplo •5 itens de compra •Suporte mínimo: 10% •10 transações •Confiança mínima: 80% 1,2,3 1,4,5 2,3,4 1,2,3,4 2,3 1,2,4 4,5 1,2,3,4 3,4,5 1,2,3 •9 regras de associação Regra 3←2 2←3 2←1 4←5 3←2 2←3 4←3 2←3 1 1 5 4 Suporte 70.0% 70.0% 60.0% 30.0% 50.0% 40.0% 10.0% 1 20.0% Confiança 85.7% 85.7% 83.3% 100.0% 80.0% 100.0% 100.0% 100.0% X→Y O suporte é um percentual que determina a ocorrência de 1 item ou um conjunto de itens no total de transações. O item 2 ocorre 7 vezes em 10 transações, então suporte = 70% A confiança é a ocorrência mútua de 2 ou mais itens em relação ao suporte do antecedente da regra. Os itens 2 e 3 aparecem juntos em 6 das 7 vezes que o item 2 aparece então confiança = 85,7% Voltar 7 Árvores de Decisão Representações simples do conhecimento e são amplamente utilizadas em algoritmos de classificação. Aprendizado supervisionado. Consistem de nodos (atributos), de arcos (provenientes do nodo, recebem valores possíveis para esses atributos) e de nodos folha (classes). Árvores de Decisão - Aplicação Instâncias representadas por pares do tipo atributo-valor; Classes predefinidas; Função objetivo tem uma saída discreta; Descrições disjuntivas; Os dados de treinamento podem conter erros; Os dados de treinamento podem conter atributos com valores desconhecidos; Dados suficientes. 8 Árvores de Decisão - Aprendizado O conjunto de instâncias disponíveis é dividido tipicamente em um conjunto de aprendizado e um conjunto de teste. => Questão central do problema de aprendizado de uma árvore de decisão: Escolher o melhor atributo para ser usado no teste de cada nodo! Conceitos importantes: » Ganho de Informação (Information Gain) » Entropia (Entropy) A escolha de uma boa ordem dos testes associados aos nodos irá gerar uma boa árvore: Simples, compacta e se possível com uma boa generalização [Occam’s Razor]. Ganho de Informação: medida que indica o quanto um dado atributo irá separar os exemplos de aprendizado de acordo com a sua função objetivo (classes). Valor numérico - quantifica o ganho. A = atributo Ganho(S,A) = Entropia (S) - N Σ v=1 | Sv | . Entropia (Sv) |S| N = domínio atributo Sv = subconjunto de S onde o atributo A possui valor V Entropia: medida que indica a homogeneidade dos exemplos contidos em um conjunto de dados. Permite caracterizar a “pureza” e (impureza) de uma coleção arbitrária de exemplos. s Dado o conjunto S, contendo exemplo ‘+’e ‘-’que definem o conceito a ser aprendido, a entropia relativa dos dados deste conjunto S é indicada por: Voltar Entropia (S) = - P+ . Log2 P+ - P . Log2 P - - P+ = Nº casos positivos / Nº total de casos P- = Nº casos negativos / Nº total de casos 9 Árvores de Decisão – Atributos com valores numéricos – Atributos com valores desconhecidos – Decorando os dados – Poda de árvores de decisão – De árvores para regras: também podem ser representadas como conjuntos de regras do tipo IF-THEN facilitando a leitura e compreensão humana. Uma árvore mais simples deverá ser aquela que melhor deve generalizar os conceitos aprendidos. Por isso buscamos simplificar as árvores ao máximo, seja usando a teoria da informação (entropia e ganho), seja usando técnicas de poda das árvores e das regras. Árvores de Decisão Algoritmo utilizado: – C4.5 (Quinlan) • aprimoramento do ID3. • . • Trabalha com valores desconhecidos e valores numéricos. • Information Gain, Entropy, Gain Ratio (busca a distribuição ampla e não uniforme dos +/-). • Poda árvores de decisão e deriva regras. 10 Base de Dados A escolha da base de dados de candidatos ao vestibular deve-se ao fato de ser uma base de dados reais e estar disponível eo domínio do problema é conhecido. – Base bastante completa - 30 tabelas – Tabela principal - 8.644 registros e 40 atributos Ferramenta Desenvolvida 11 Fases do Processo de KDD Regras de Associação X→Y Etapas: – Pré-processamento: • Algoritmo Apriori não aceita valores indefinidos para os atributos; • Valores indefinidos ou inválidos (média = 99,99) foram ignorados. – Transformação: • O algoritmo não trabalha com valores numéricos contínuos, então os atributos Idade, Ano conclusão 2grau, Qtde. vest.ant, Qtde vest. ant., Qtde. vest. periodo, Grau objetivas, Grau redação, Grau total e Media final foram transformados em valores discretos; • Tabela principal com dados espalhados em outras tabelas; • Os dados unificados são gravados na tabela QuadroNorm; • Metodologia: nomes abreviados mais significativos, com identificação do atributo; Fases do Processo de KDD Regras de Associação X→Y • Ainda na etapa de transformação, a ferramenta possibilita definir um subconjunto de atributos a serem processados; • Três arquivos texto, são então gerados, no formato apropriado para serem lidos pelo Apriori: » todos os candidatos e Classificado ou Não classificado - RA-Todos » todos os candidatos e Matriculado e Não matriculado - RA-TodosMatricula » candidatos classificados e Matriculado e Não matriculado - RA-Classificados Amostra de 10 transações de um arquivo do tipo RA-Todos, c/ 5 atributos selecionados Publica Diurno FreqCursinho instMae-1Grau SustentoProprio Classificado Publica Noturno NaoFreqCursinho instMae-Superior SustentoProprio Classificado Particular Noturno NaoFreqCursinho instMae-1Grau SustentoProprio NaoClassificado Publica Diurno NaoFreqCursinho instMae-2Grau NaoTrabalha Classificado Particular Diurno NaoFreqCursinho instMae-1Grau SustentoProprio NaoClassificado Particular Diurno FreqCursinho instMae-Superior NaoTrabalha Classificado Publica Diurno NaoFreqCursinho instMae-1Grau SustentoProprio Classificado Particular Diurno NaoFreqCursinho instMae-2Grau NaoTrabalha Classificado Particular Diurno FreqCursinho instMae-Superior NaoTrabalha Classificado Outros Noturno NaoFreqCursinho instMae-1Grau SustentoProprio NaoClassificado 12 Fases do Processo de KDD Regras de Associação X→Y – Data Mining: • Aplicação do algoritmo Apriori sobre os três arquivos, gerados na etapa anterior; • Configuração dos parâmetros: limite de confiança e suporte, tamanho mínimo e máximo das regras e medida de diferença dos graus de confiança das regras. – Pós-processamento: • Regras são tratadas através de diferentes métodos, permanecendo as interessantes; • Selecionar regras que possuam um determinado conjunto de atributos em seu antecedente ou conseqüente; • Seleção baseada no domínio; • Ordenação das regras: suporte e confiança. Fases do Processo de KDD Árvores de Decisão Etapas: – Pré-processamento: • Registros que possuíam ate 2 valores desconhecidos ou inválidos foram preservados, colocando “?” • 634 registros eliminados. – Transformação: • Tabela principal com dados espalhados em outras tabelas; • Os dados são unificados, gravados na tabela QuadroNorm2; • Metodologia: nomes abreviados mais significativos; 13 Fases do Processo de KDD Árvores de Decisão • Arquivos requeridos pelo algoritmo: – de definições: determinam as classes e o nome e domínio de cada atributo Classificado, NaoClassificado. Idade: Tipo 2Grau: Forma 2Grau: continuous. Supletivo, PPT, AtEnsinoMedio, Tecnico/Profiss, Magisterio, Outro. Publica, Particular, Outros. Turno 2Grau: Nivel Instrucao Mae: Particip Econ Famil: Diurno, Noturno, Outro. Analfabeto, 1Grau, 2Grau, Superior, NaoSei. NaoTrabalha, SustentoProprio, SustentaFamilia,NaoInformou. – de dados: cada linha representa uma instância, com classes predefinidas Amostra de 5 transações de um arquivo do tipo AD-Todos, c/ 6 atributos selecionados 17, ?, Particular, Noturno, 2Grau, NaoTrabalha, Classificado 17, PPT, Publica, Diurno, Superior, NaoTrabalha, Não Classificado 17, Tecnico/Profiss, ?, Diurno, Superior, NaoTrabalha, Classificado 18, AtEnsinoMedio, Particular, Diurno, 2Grau, NaoTrabalha, Classificado 22, Supletivo, ?, Noturno, 1Grau, SustentoProprio, Não Classificado Fases do Processo de KDD Árvores de Decisão • Três tipos de arquivos texto, são então gerados, com os respectivos arquivos de definições, no formato apropriado para serem lidos pelo C4.5: » todos os candidatos e Classificado ou Não classificado - AD-Todos » todos os candidatos e Matriculado e Não matriculado - AD-TodosMatricula » candidatos classificados e Matriculado e Não matriculado - AD-Classificados 14 Fases do Processo de KDD Árvores de Decisão – Data Mining: • Aplicação do algoritmo C4.5 sobre os três arquivos, gerados na etapa anterior; • Nesta mesma etapa, o próprio algoritmo faz a poda da árvore construída. – Pós-processamento: • Substituir a árvore de decisão por regras; • Podar as regras (generalização). Resultados - Regras de Associação X→Y – Problemas: • grande quantidade de regras geradas; • valores dos atributos estão bem distribuídos entre candidatos classificados e não classificados e matriculados e não matriculados; • é possível identificar tendências, mas não foi possível identificar padrões realmente interessantes e novos, com alto grau de suporte e confiança; • muitas regras triviais; • regras redundantes; • com limite de confiança alto (80%), os itens Classificado e Não Classificado e Matriculado e Não Matriculado não aparecem como conseqüente das regras. 15 Resultados - Regras de Associação X→Y Regras Triviais FreqCursinho <- MtPre1 (18.7%, 96.5%) NaoFreqCursinho <- MtPre7 (56.6%, 97.9%) TrabalhoIntegral <- LcInt-Trabalho (13.8%, 82.9%) SustentoProprio <- TrabalhoIntegral LcInt-s/Acesso <- UtInt-Nunca (33.2%, 96.2%) UtInt-Nunca <- UtMic-NaoNaoTenho (10.8%, 85.1%) LcInt-s/Acesso <- UtMic-NaoNaoTenho UtMic-SimTenho <- LcInt-Casa (41.4%, 88.3%) (10.8%, 85.2%) (29.8%, 94.0%) UtInt-DominioParcial <- LcInt-OutrosLocais QtAnt1 <- cc2Gr2 (20.6%, 88.3%) (44.5%, 89.0%) Voltar Resultados - Regras de Associação X→Y Regras Redundantes NaoFreqCursinho <- QtPer1 NaoFreqCursinho <- NaoClassificado (45.3%, 81.0%) QtPer1 (25.9%, 80.4%) Voltar 16 Resultados - Regras de Associação X→Y – Soluções: • selecionar atributos mais importantes; • agrupar valores dos atributos; • medida adicional que calcula a diferença entre os graus de confiança das regras; • para eliminar regras triviais, descartar todas as regras com aquelas combinações de itens como conseqüente e antecedente; • estabelecer limites de confiança mais baixos (50%). Resultados - Regras de Associação X→Y – Resultados - Arquivos do tipo RA-Todos • Arquivo RA-Tod34: – Configuração: » quase todos os atributos, menos notas e município; » 670 itens » 8.644 transações » suporte 10% e confiança 80% – 44.640 regras – Aplicando a medida de diferença dos graus de confiança com limite de 20%, 31.026 regras foram eliminadas, restando 13.614 regras • Como é praticamente impossível selecionar padrões importantes entre uma grande quantidade de regras, optou-se por gerar vários arquivos, com seleções diferentes de atributos. 17 Resultados - Regras de Associação X→Y Regras importantes, ordenadas pelo grau de suporte: NaoFreqCursinho QtPer1 (45.3%, 81.0%) Não Classificado <- Noturno QtPer1 <- Noturno (28.1%, 64.1%) (28.1%, 63.7%) Publica <- Noturno (28.1%, 60.4%) Classificado <- Diurno Particular FreqCursinho (21.7%, 64.8%) Particular <- Diurno Classificado FreqCursinho (20.7%, 67.8%) Não Classificado <- QtPer1 Noturno Particular <- QtPer3 (17.9%, 66.0%) (15.6%, 67.5%) Classificado <- Diurno QtPer3 (13.5%, 64.4%) NaoFreqCursinho <- Não Classificado Publica Noturno Classificado <- Particular QtPer3 (10.8%, 73.1%) (10.6%, 65.3%) Resultados - Regras de Associação X→Y A partir de inúmeros testes, contatou-se que algumas características tendem a aparecer juntas. Dois conjuntos de itens foram destacados: • • • • • Classificado Particular QtPer3 Diurno FreqCursinho • • • • • NaoClassificado Publica QtPer1 Noturno NaoFreqCursinho 18 Resultados - Regras de Associação X→Y – Resultados - Arquivos do tipo RA-Classificados Matriculado Matriculado Matriculado Matriculado <- (100.0%, 81.9%) <- Media2a<4 (67.4%, 85.3%) <- QtPer1 (38.7%, 93.9%) <- QtPer2 (36.4%, 80.5%) Media2a<4 Media4a<6 Media4a<6 Matriculado (81.9%, 70.2%) Matriculado (81.9%, 26.9%) NaoMatriculado (18.1%, 40.4%) Media4a<6 Media4a<6 QtPer1 (38.7%, 16.4%) QtPer3 (36.3%, 43.5%) QtPer1 QtPer3 QtPer1 QtPer3 QtPer1 QtPer1 QtPer1 Não Matriculado (18.1%, Não Matriculado (18.1%, Matriculado Media2a<4 Matriculado Media2a<4 13.0%) 35.1%) (57.5%, 50.3%) (57.5%, 12.6%) Noturno (20%, 60.3%) Publica (40.9%, 48.6%) Particular (56.6%, 30.6%) Resultados - Árvores de Decisão – Problemas: • valores dos atributos estão bem distribuídos entre candidatos classificados e não classificados e matriculados e não matriculados; • árvores muito grandes e largas demais, com informações muito espalhadas; • pequeno número de casos encobertos por cada nodo folha; • mesmo após a poda as árvores continuam grandes. 19 Resultados - Árvores de Decisão – Soluções: • selecionar atributos mais importantes; • agrupar valores dos atributos. Resultados - Árvores de Decisão – Resultados - Arquivos do tipo RA-Todos Arquivo num reg num atrib tam arv. orig. taxa erro tam arv podada taxa erro Tod89 8010 13 4085 16.4% 949 28.5% Tod90 8010 6 1200 30.9% 354 34.2% Tod97 8010 4 58 39.6% 12 39.8% Tod98 8010 5 634 35.3% 130 38.1% Tod99 8010 6 314 37.3% 27 39.4% Tod100 8010 5 154 38.5% 30 39.7% Tod101 8010 4 45 39.8% 13 40.8% Tod102 8010 5 134 39.1% 13 40.2% Seleção de atributos 20 Resultados - Árvores de Decisão Seleção de atributos dos arquivos: Tod Tod Tod Tod Tod Tod Tod Tod 89 90 97 98 99 100 101 102 1- Turno 2grau X X X X X X X X 2- Tipo 2grau X X 3- Forma 2grau X X X X 4- Cursinho X Atributos 5- Qtde vest. periodo 6- Nível instrucao mãe X 7- Nível instrucao pai X 8- Idade X 9- Atividade remun. X 10- Particip. econ. famil. X 11- Motivo pre vest. X 12- Utiliza internet X 13- Local uso internet X 14- Utiliza Micro X X X X X X X X X X X X X X X X X X X X X X X X X Voltar Resultados - Árvores de Decisão – Árvore de decisão podada do arquivo Tod97 Simplified Decision Tree: Turno 2Grau = Noturno: Não Classificado (2230.3/875.5) Turno 2Grau = Diurno: | Qtde Vest Periodo > 1 : Classificado (3553.7/1305.1) | Qtde Vest Periodo <= 1 : | | Forma 2Grau = Publica: Não Classificado (1098.0/542.0) | | Forma 2Grau = Particular: Classificado (1030.9/489.6) | | Forma 2Grau = Outros: Classificado (53.0/19.9) Turno 2Grau = Outro: | Forma 2Grau = Publica: Não Classificado (15.0/6.8) | Forma 2Grau = Particular: Classificado (18.0/9.0) | Forma 2Grau = Outros: Classificado (11.0/5.6) 21 Resultados - Árvores de Decisão Resultados - Arquivos do tipo AD-Todos – Duas classes: • 53.3% classificaram-se • 46.76% não classificaram-se – Taxa de erro: • 39.8% é alta Resultados - Árvores de Decisão Resultados - Arquivos do tipo AD-Classificados – o fato da taxa de erro das árvores podadas ser baixo não indica que a árvore aprendeu o problema; – classe Não Matriculado ocorre poucas vezes (18.1%) entre os candidatos classificados; – taxa de erro das árvores podadas, em torno de 16%. Resultados - Arquivos do tipo AD-TodosMatricula – tendências iguais às geradas pelos arquivos do tipo AD-Todos. Tabela de resultados 22 Resultados - Árvores de Decisão – Resultados - Arquivos do tipo AD-Classificado e AD-TodosMatricula Arquivo nº reg. nº atrib. tam. arv. orig. taxa erro tam. árv. podada taxa erro Class103 4270 5 1012 10.5% 74 16.2% Class104 4270 4 972 10.7% 150 15.6% Class105 4270 5 950 10.3% 99 16.1% Class106 4270 6 1154 9.9% 104 16.1% Class107 4270 3 573 13.7% 49 16.9% Class111 4270 9 1146 7.3% 100 16.1% TdMat115 8010 10 3535 20.9% 822 32.1% TdMat116 TdMat119 TdMat120 TdMat122 8010 8010 8010 8010 4 3 5 7 51 58 224 516 42.2% 42.5 41.2 38.9 18 1 31 56 42.4% 43.60% 42.20% 41.10% Voltar Comparativo entre as Duas Técnicas Regras de Associação • Algoritmo Apriori X→Y Árvores de Decisão • Algoritmo C4.5 • Padrões descritivos – aprendizado não supervisionado • Padrões preditivos – aprendizado supervisionado • Encontrar padrões interessantes relacionados ao fato • Classificar as características dos candidatos do candidato ter se classificado ou não e se matriculado ou não e outros relacionamentos entre os outros itens • Não aceita valores numéricos • Aceita valores numéricos • Os diferentes itens contidos nas transação é que são considerados, independente de atributos • Os atributos, com seus valores, são considerados para construção das árvores • Dificuldade em encontrar regras interessantes com os • Todos os caminhos das árvores levam aos itens itens Classificado e Não Classificado e Matriculado e Classificado ou Não Classificado e Matriculado e Não Matriculado no consequente Não Matriculado • Maior dificuldade para interpretar as regras e configurar os parâmetros de entrada • Fáceis de interpretar 23 Conclusão – A aplicação do Data Mining para o problema proposto foi bastante complexa, além de consumir muito tempo; – Considerando o processo de KDD, o retorno à etapas anteriores é constante; – Os algoritmos de mineração geraram uma grande quantidade de padrões, devido à grande quantidade de atributos e muitos valores possíveis diferentes; – Além de consultas SQL, outros algoritmos e/ou métodos de análise estatística poderiam ser utilizados para auxiliar na seleção e agrupamento de atributos; Conclusão – Apesar de não conseguir resultados muito satisfatórios com as árvores de decisão geradas, esta técnica foi mais adequada para a aplicação proposta, e mais fácil de selecionar os padrões interessantes; – Regras de associação são mais adequadas para problemas onde todos os itens tem a mesma importância; – Características dos candidatos estão muito espalhadas. 24 Conclusão Tendências – candidatos que cursaram 2º grau noturno, tendem a não se classificarem; – 2º grau diurno, que estão prestando vestibular somente na Unisinos, não se classificarem e que estão prestando outros, se classificarem; – quanto maior o nível de instrução da mãe, maior a probabilidade de classificação; – o padrão de vida geral do candidato contribui para sua classificação; – candidatos classificados, com boa média, que cursaram 2º grau em escola particular diurno, e que estão prestando vestibulares em outras Universidades também, tendem a não se matricularem na Unisinos. Conclusão Considerando essas tendências: – definir um segmento de mercado, considerando o perfil do candidato, e trabalhar o planejamento de marketing sobre este segmento; – planejar estratégias para evitar a fuga dos bons alunos para outras Universidades. 25 Conclusão Perspectivas – repetir o processo com os dados do vestibular da Unisinos de outros semestres; – utilizar outros algoritmos e técnicas para selecionar e agrupar padrões; – desenvolver algoritmos para eliminar regras triviais e redundantes. 26