DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS sDESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Claudio Tavares Especialista em Banco de Dados, Unicenp. E-mail: clá[email protected] Daniel Bozza Especialista em Banco de Dados, Unicenp. E-mail: [email protected] Frank Kono Especialista em Banco de Dados, Unicenp. E-mail: [email protected] Resumo: Este artigo tem como objetivo encontrar uma possível tendência a ser observada, no tocante as pessoas que almejem se candidatar e conseqüentemente se eleger Deputado Estadual na cidade de Curitiba. Para alcançar o objetivo, será analisado e preparado um conjunto de dados que envolvem as eleições de 1994 e 1998 e posteriormente serão aplicadas algumas técnicas de Data Minining para que possam ser geradas regras de associações. Tais regras ou resultados serão analisados para então se determinar a existência ou não de tendências no tocante ao perfil dos candidatos ao cargo de suplente de Deputado Estadual na cidade de Curitiba.Por fim serão apresentados os resultados encontrados, quer sejam eles confirmando uma certa tendência ou não. Palavras-chave: Data Mining, Classificação, Algoritmo J48 1 INTRODUÇÃO Inicialmente, será feita uma breve descrição do processo que envolve a descoberta de conhecimento, passando, posteriormente, para o desenvolvimento do trabalho, levando-se em consideração o cronograma, o escopo inicial do projeto, o negócio em questão e a parte lógica. A parte lógica será subdividida na busca da base de dados, que irá dar suporte a todo o processo de descoberta de conhecimento, bem como a geração do modelo de dado para o DW, a extração dos dados irrelevantes para o processo, a conseqüente limpeza e padronização dos dados, para que estes estejam adequados ao objetivo do trabalho. Ainda, na parte lógica será abordado o item referente à geração do arquivo .arff, tomando como base os dados disponíveis, bem como a escolha do método e algoritmo, que serão utilizados sobre os dados para a busca do conhecimento. Mais especificamente, no caso do algoritmo, será feita uma descrição em relação ao seu funcionamento e parâmetros que podem ser alterados e seus efeitos. Tendo sido gerados os arquivos.arff, imprescindíveis para a utilização no weka, será, então, feita uma explanação sobre a ferramenta weka e demonstrado como utilizá-la. Muitos serão os resultados gerados pelo weka, e, por causa disso, Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007: 54 - 94 Tavares, Claudio; Bozza, Daniel e Kono, Frank será dada à devida atenção a uma explanação sobre como interpretar os resultados do weka. Por fim, o(s) arquivo(s) .arff serão aplicados no weka e os resultados serão gerados, dando início, então, a toda uma explanação e interpretação sobre os resultados a fim de encontrar uma possível tendência em relação aos dados, a qual é: “Será que pode-se determinar um padrão, uma semelhança no perfil dos candidatos que conseguem ser eleitos ao cargo de deputado estadual na cidade de Curitiba ? “ 2 O PROCESSO DE DESCOBERTA DE CONHECIMENTO DO DATA MINING (DM) A análise das grandes quantidades de dados armazenadas nos SGBD’s, visando encontrar informações estratégicas não conhecidas, tem exigido técnicas mais adequadas, sendo que o processo de DM permite em suas várias etapas extrair tais informações. De forma macro, pode-se definir o processo de DM como: - definição do problema; - pré-processamento dos dados; - mineração (analise) dos dados; - interpretação. FIGURA 1: ETAPAS NO PROCESSO DE DM FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 55 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS A figura acima demonstra, de forma gráfica, o processo da descoberta de conhecimento, onde cada parte da figura representa: -Dados: conjunto de dados armazenados em uma ou mais base(s) de dados, os quais são a matéria prima de todo o processo de Data Mining. - Dados Selecionados: de todos os dados disponíveis será separado um conjunto que contenha os dados que sejam relevantes para a questão, dúvida, informação estratégica que se pretende obter. - Dados processados: todos os dados selecionados serão previamente préprocessados, ou seja, serão tratados, limpos consistidos, visando à remoção de qualquer ruído nos dados. - Dados Transformados: depois de processados ou tratados, os dados serão formatados de forma a adequá-los à ferramenta de mineração ( weka ). - Padrões: os dados transformados aplicados aos algoritmos previamente escolhidos na ferramenta de mineração ( weka ) irão resultar em padrões, regras, gráficos, dados numéricos, os quais serão analisados gerados pelos algoritmos, exaustivamente. -Conhecimento: analisando os padrões possivelmente serão encontradas as “informações estratégicas não conhecidas “. 3 PLANEJAMENTO E DESCRIÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO 3.1 CRONOGRAMA O cronograma abaixo representa as várias atividades que envolveram o processo de DM neste artigo. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 56 Tavares, Claudio; Bozza, Daniel e Kono, Frank FIGURA 2 – CRONOGRAMA FONTE: Os autores. Onde: - Tarefa: refere-se à atividade executada; - Etapa: refere-se à relação atividade * etapa descrita no item 2 deste artigo; - Semana/Dias: tempo em semanas para a execução da atividade As tarefas executadas foram as seguintes: - entender o funcionamento do weka: inicialmente, a ferramenta do weka era desconhecida pelo grupo; - escrever o artigo: este processo deu-se durante todo o tempo do trabalho; - buscar o problema a ser resolvido: o grupo não tinha bem claro o problema que pretendia resolver; - encontrar a(s) base(s) de dados: após definir o problema, deu-se início a busca pela(s) base(s) de dados que conteriam os dados necessários para o trabalho; - modelar os dados: desenhar o modelo de dados; - limpar os dados: tratar os dados adequadamente; Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 57 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS - trabalhar os dados: alguns dados, como idade e qtd. de votos, tiveram seus valores alterados para uma faixa de números; - gerar arquivo.arff: geração do arquivo .arff; - aplicar o arquivo .arff ao algoritmo: aplicar os algoritmos sobre os arquivos .arff; 3.2 O ESCOPO INICIAL DO PROJETO De posse das bases de dados referentes às eleições de 1994, 1996 e 1998, as quais contemplavam os cargos de Deputado Estadual, Deputado Federal, Senador, Prefeito, Governador e Presidente de todos os municípios do País, entendeu-se que a abrangência era muito grande. A partir deste momento, muitas foram as mudanças no escopo, as quais são melhores identificadas na figura 2 Cronograma, pois as tarefas marcadas no cronograma em azul representam o clico de extração e interpretação dos dados devido às alterações no escopo. Abaixo são listadas as várias alterações: 1ª - a idéia era a de se trabalhar como todos os registros relacionados com o cargo de Deputado Estadual a nível nacional. 2ª - posteriormente, a idéia foi alterada para se trabalhar somente com os registros relacionados com o cargo de Deputado Estadual do Estado do Paraná. 3ª - finalmente, decidiu-se trabalhar somente com os registros relacionados com o cargo de Deputado Estadual da cidade de Curitiba. O motivo para tantas alterações foi que, ao aplicar o arquivo .arff no weka, os resultados eram muito abrangentes, ou seja, muitos eram os cargos ou muitas eram as cidades e a interpretação tornou-se inviável. Analisando que, para cada uma das alterações, era necessário voltar ao item de extração de dados (vide figura 2 - Cronograma ), pode-se afirmar que o trabalho era exaustivo, as mudanças não foram fáceis, pois o retrabalho custou muito tempo e esforço. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 58 Tavares, Claudio; Bozza, Daniel e Kono, Frank 3.3 ANÁLISE DO NEGÓCIO O negócio em questão, neste artigo, é o de se analisar os dados disponibilizados na(s) base(s) de dados, referentes aos candidatos ao cargo de Deputado Estadual na cidade de Curitiba e verificar se existe alguma tendência de perfil para que um candidato possa garantir a sua eleição. 3.4 ANÁLISE LÓGICA Este item será subdividido para contemplar o detalhamento de várias etapas, desde a busca dos dados até a geração dos resultados pelo(s) algoritmo(s) do weka. 3.4.1 Busca da(s) base(s) de dados O(s) banco(s) de dado(s) foram encontrados no seguinte link: http://www.tse.gov.br/utilidades/download/see.html Os dados estavam distribuídos em bases de dados distintas, ou seja, uma base para cada um dos anos (1994, 1996 e 1998), logo foram feitos os downloads dos seguintes arquivos: 1º donwload - 1994C.exe (Banco de Dados – 1994 completo) – tamanho instalado 30,90 mb – qtd. de linhas na tab_candidato era de 11.999; 2º download - 1996C.exe (Banco de Dados – 1996 completo) – tamanho instalado 54,00 mb – qtd. de linhas na tab_candidato era de 322.698; 3º download - 1998C.exe (Banco de Dados – 1998 completo) – tamanho instalado 35,34 mb – qtd. de linhas na tab_candidato era de 14.909. É importante salientar, que os dados acima referem-se à base de dados completa, ou seja, todos os registros a nível nacional, contendo todos os cargos e cidades. Posteriormente, os arquivos foram descompactados e gerado, para cada um dos anos (1994, 1996 e 1998), um arquivo .mdb. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 59 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS A figura abaixo representa o modelo de dados do(s) banco(s), sendo que este modelo é idêntico para os três anos ( 94, 96 e 98 ): FIGURA 3 – MODELO DE DADOS ORIGINAL FONTE: Os autores 3.4.2 Gerando o Modelo de Dados para o DW Analisando o modelo da figura 3 – Modelo de Dados original, foi feita uma análise de todas as tabelas e seus atributos e, de acordo com o escopo do artigo, ou seja, a pergunta que se pretende responder, vide item 3.3, foi identificado que muitos dados das tabelas do modelo original eram desnecessárias para o novo modelo. A partir deste momento, foi gerado um novo modelo de dados, o qual irá suportar os dados necessários para que se possa encontrar a resposta deste artigo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 60 Tavares, Claudio; Bozza, Daniel e Kono, Frank FIGURA 4 – MODELO DE DADOS DO DW ELEIÇÕES FONTE: Os autores. É importante salientar, que nem todos os atributos descritos no modelo de dados do DW irão aparecer no arquivo que será utilizado no weka, mas todos os atributos serão necessários para a geração da tabela TAB_WEKA, conforme descrita no modelo de dados o anexo 1, pois esta tabela irá conter todos os dados que, posteriormente, serão exportados e que darão origem ao arquivo ( .arff ), o qual será utilizado no weka. 3.4.3 Extração de Dados Os dados continuarão sendo trabalhados de forma distinta, ou seja, para cada ano será criado um novo modelo de dados e um arquivo ( .arff). De acordo com o modelo de dados do DW e com as três etapas descritas no item 3.2 Escopo Inicial do Projeto, foram, então, gerados as seguintes bases de dados: - eleicoes_1994.mdb - eleicoes_1996.mdb - eleicoes_1998.mdb Estas bases, inicialmente, continham todos os valores para o atributo cargo (dep. Estadual, prefeito, etc) para a cidade de Curitiba. Após as alterações de Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 61 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS escopo, foram, então, geradas novas bases de dados para a cidade de Curitiba e para o cargo de Deputado Estadual. - eleicoes_1994.mdb (359 registros) - eleicoes_1998.mdb ( 411 registros ) Totalizando 770 registros, os quais irão compor o arquivo (.arff ) final. Abaixo, relacionam-se alguns dos motivos para se trabalhar com os dados em bases diferentes: - por exemplo, na tabela profissão do ano de 1994 tinha-se advogado com o valor 1, para a chave primária; e, no ano de 1996, tinha-se advogado com o valor de 7, como chave primária. Este problema de atributos iguais com valores de chaves primárias diferentes foi identificado em outras tabelas. Realizar um mapeamento “de-para” entre as tabelas seria muito custoso e, por isso, decidiu-se manter os dados em bancos distintos. Na tabela abaixo, pode-se visualizar com mais detalhes a tabela de dados do WEKA TABELA 1 – TABELA DE DADOS DO WEKA Atributo NOMSEXO NOMGRAINS NOMESTCIV NOMPROFIS SGLPAR NOMSITUA ANOELEIC NOMCAR FAIXAIDADE FAIXAVOTOS Tipo dados varchar Varchar Varchar Varchar Varchar Varchar Integer Varchar Integer integer Descrição Armazena a descrição do sexo Armazena a descrição do grau de instrução (escolaridade) Armazena a descrição do est.civil Armazena a descrição da profissão Armazena a sigla do partido Armazena a situação do candidato Armazena o ano de eleição Armazena o nome do cargo Armazena a faixa de idade Armazena a faixa de votos FONTE: Os autores. 3.4.4 Limpeza dos Dados Abaixo, serão descritos os tratamentos ou limpeza as quais os dados foram submetidos. Foram removidos os espaços em branco na descrição dos atributos por exemplo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 62 Tavares, Claudio; Bozza, Daniel e Kono, Frank - Na tabela profissão, o atributo profissão continha o seguinte valor (auxiliar de escritório), sendo que este valor foi substituído por (auxiliardeescritorio) Foram removidos os acentos: - Na tab_profissao, o atributo profissão continha o seguinte valor (médico) e foi substituído por “medico” sem o acento (as “” não acompanham o atributo). Este item “ii” refere-se ao tratamento feito para a remoção de acentos e caracteres especiais dos valores dos atributos. Foram padronizados os valores dos atributos: - No banco eleicao_1994.mdb tab_profissao, o atributo profissão continha o seguinte valor ( funcionário público ) e, no banco eleicao_1996.mdb tab_profissao, o atributo profissão continha o seguinte valor (func. Público), foi feito um tratamento para que, em ambos os bancos, o valor fosse substituído por ( funcpublico). Estes tratamentos foram feitos em todas as tabelas/atributos para que todos os dados estivessem padronizados. 3.4.5 Geração dos dados Conforme descrito no item 3.4.2 foi criada uma tabela chamada TAB_WEKA, a qual irá armazenar todos os dados que, posteriormente, serão exportados para a criação do arquivo (.arff ). Neste momento, foram montados os sql’s que irão gerar a massa de dados para popular a TAB_WEKA.mdb (formato de banco Access). Abaixo, serão descritos os passos para a geração dos dados na TAB_WEKA: - Inicialmente, foi criada uma consulta para visualização dos dados, conforme a figura do anexo nº 1 – Tabela de dados do weka. Feita uma conferência do resultado gerado no anexo nº 1, posteriormente foi utilizado outro recurso do banco .mdb para com base no resultado do select criar uma nova tabela contendo todos os dados gerados pela consulta (TAB_WEKA). Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 63 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Na TAB_WEKA foram feitos os seguintes tratamentos: - foram retirados os seguintes campos: Nomcan, datnas, codcan, nommun; - foi renomeado o campo Expr1 para idade; - todos os valores dos atributos texto foram descritos com letras minúsculas. - os campos da tabela TAB_WEKA foram ordenados na seguinte seqüência: - IDADE, NOMSEXO, NOMGRAINS, NOMEESTCIV, NOMPROFIS, SGLPAR, VOTOS, NOMSITUAC, ANOELEICAO, NOMCAR, sendo que esta seqüência será a mesma que o arquivo ( .arff ) conterá. É importante salientar, que a TAB_WEKA foi criada em cada um dos dois bancos de dados (1994 e 1996), logo todo o procedimento foi aplicado na tabela dos dois bancos. 3.4.6 Padronização dos Dados Na tabela de dados Weka foi necessário padronizar os valores de dois atributos, idade e quantidade de votos, isto porque eles continham uma seqüência de valores muito abrangente, o que dificultava o processamento e entendimento dos resultados. Para resolver este problema foram criadas faixas que enquadravam os valores dos atributos, valores estes representados na tabela abaixo. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 64 Tavares, Claudio; Bozza, Daniel e Kono, Frank TABELA 2 – FAIXA IDADE E VOTOS Atributo Idade Faixa % idade >=20 e idade <= 30 % idade >=31 e idade <= 40 % idade >=41 e idade <= 50 % idade >=51 e idade <= 60 % idade >=61 e idade <= 70 % idade >=71 e idade <= 80 % idade >=81 e idade <= 90 % idade >=91 Valor 1 2 3 4 5 6 7 8 Votos %votos >=0 e votos <= 200 %votos >=201 e votos <= 400 %votos >=401 e votos <= 600 %votos >=601 e votos <= 800 %votos >=801 e votos <= 1000 %votos >=1001 e votos <= 5000 %votos >=5001 e votos <= 10000 %votos >=10001 e votos <= 15000 %votos >=15001 e votos <= 20000 %votos >=20001 e votos <= 25000 %votos >=25001 e votos <= 30000 %votos >=30001 e votos <= 40000 %votos >=40001 e votos <= 50000 %votos >=50001 e votos <= 100000 %votos >=100001 e votos <=1000000 %votos >=1000001 e votos <=2000000 %votos >=2000001 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FONTE: Os autores. 3.4.7 Geração do arquivo .arff Neste momento, as tabelas TAB_WEKA (ano 1994) e TAB_WEKA (ano 1998) já estão criadas e com seus dados tratados. Foram gerados três arquivos .arff para os testes: - eleicoes_1994.arff, contendo 359 registros. - eleicoes_1998.arff, contendo 411 registros. - eleicoes_94_98.arff, o qual contém todos os dados de 1994 e 1998, totalizando 770 registros. O arquivo .arff foi subdividido da seguinte forma: - Declarando o arquivo @relation eleições - Declarando todos os atributos @attribute idade real @attribute sexo {masculino, ...} @attribute grauinstrucao {1graucompleto, ..} Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 65 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS @attribute estcivil {casado, ...} @attribute profissão {administrador, ...} @attribute partido {pan, ...} @attribute votos real @attribute situação {eleito, ...} @attribute anoeleicao real @attribute cargo {deputadoestadual, ...} - Declarando o data @Data 5,masculino,1graucompleto,casado,outros,pdt,10,eleito,1994,deputadoestadual Este é somente um exemplo das várias linhas que o atributo @Data contém. 3.4.8 Escolha do Método e Algoritmo Para a análise dos três arquivos .arff, foi escolhido o Método de Classificação e o algoritmo J48. Isso em decorrência do escopo do trabalho e dos valores que compõem o arquivo .arff. Após análises dos diferentes métodos, que podem ser aplicados, e das formas de se minerar os dados e das características dos dados, constatou-se que os diferentes métodos podem ser aplicados com diferentes algoritmos a diferentes tipos de dados; tudo depende do tipo de problema que se deseja solucionar. O método de classificação foi escolhido por melhor responder à questão alvo deste artigo, ou seja, com o método de classificação pode-se inferir (prever) que determinados candidatos, com um determinado perfil, consigam se eleger. Neste caso, o atributo cargo é denominado como atributo alvo da classificação (poderia ser outro) e, sobre este, regras de classificação em relação ao outros atributos serão geradas. As formas mais comuns de representação de conhecimento dos algoritmos de classificação são regras e árvores. Os algoritmos Id3, C45, J48, ADTree, UserClassifier, PredictionNode, Splitter, ClassifierTree, M5Prime, por exemplo, geram, como resultado, árvores de classificação, enquanto que outros como Prism, Part, OneR geram regras de classificação. Já o algoritmo escolhido para a análise dos dados foi o J48, isso levando-se em consideração o tipo dos dados que serão analisados. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 66 Tavares, Claudio; Bozza, Daniel e Kono, Frank Abaixo, será feita uma breve explanação, um pouco mais detalhada com relação ao algoritmo J48: J48 constrói uma árvore de decisão. A forma de construção é a - abordagem top-down, em que o atributo mais significativo, ou seja, o mais generalizado, quando comparado a outros atributos do conjunto, é considerado raiz da árvore. Na seqüência da construção, o próximo nó da árvore será o segundo atributo mais significativo, e, assim, sucessivamente, até gerar o nó folha, que representa o atributo alvo da instância. O processo de geração de regras, para classificação de sistemas normalmente atua em dois estágios: as regras são induzidas e posteriormente refinadas. Isto é feito através de dois métodos, através da geração das árvores de decisão e o posterior mapeamento da árvore em regras e, então, aplicando processos de refinamento, ou pela utilização do paradigma “separar – pra – conquistar”. ”. Assim como na árvore de decisão, esse processo também possuiu um estágio de otimização das regras geradas Com relação ao algoritmo J48 podem-se alterar os valores padrões dos seus vários atributos, conforme a descrição dos atributos na tabela abaixo: TABELA 3 – PARÂMETROS J48 U C M R N B S L usa a árvore sem poda confidence: escolhe o fator de confiança inicial para a podar -> default:0.25 escolhe o número mínimo de instâncias por folha -> default:2 usa a poda com redução de erro escolhe o número de partições para a poda com redução de erro, onde uma partição é utilizada como conjunto de poda ->default:3 usa árvore binária não utiliza subárvore de poda não apaga a árvore depois de construída FONTE: Os autores. Os parâmetros acima mencionados podem ser configurados na seguinte tela do weka: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 67 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS FIGURA 5 – ESCOLHA DO ALGORITMO NO WEKA FONTE: Os autores. Clicando sobre o botão Choose surgira a tela para configuração dos parâmetros: FIGURA 6 – PARÂMETROS J48 NO WEKA FONTE: Os autores. Onde cada campo representa um parâmetro a ser configurado: 1) binarySplits: 2) confidenceFactor: 3) debug: 4) minNumObj: 5) numFolds: 6) reducedErrorPruning : 7) saveInstanceData: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 68 Tavares, Claudio; Bozza, Daniel e Kono, Frank 8) seed: 9) subtreeRaising: 10)unpruned: 11)useLaplace: 3.4.9 Abrindo o Weka Com o aplicativo do weka aberto em modo Explorer, aparecerá a seguinte janela: FIGURA 7 – WEKA FONTE: Os autores. 3.4.9.1 Buscando o arquivo .arff Seleciona-se a opção OpenFile para encontrar o arquivo eleicoes.arff e, após escolhido o arquivo, a seguinte tela foi apresentada. O arquivo eleicoes.arff estava no seguinte diretório: ..weka-3-4\data\eleicoes.arff FIGURA 8 – TELA WEKA Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 69 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS FONTE: Os autores. Obs:. Neste artigo estão sendo processados três arquivos .arff, conforme item 3.4.7 . Nesta visualização, podem-se analisar os seguintes dados: - as abas Classify, Cluster, Associate, Select Atributes são os métodos que podemos escolher para gerar os dados; - na guia Visualize, podemos visualizar os resultados dos algoritmos através de alguns gráficos, os quais veremos posteriormente; - o botão Chosse nos permite navegar em uma árvore na qual podemos escolher o algoritmo; - no campo onde aparece a palavra “NONE”, podemos alterar os parâmetros de configuração para o algoritmo; - na área “Currente Rellation” temos a qtd. de instâncias, nº de atributos e, também, a relação que será usada inicialmente para gerar alguns gráficos;na área “Attributes” temos a relação de todos os atributos; - no botão visualize all, poderemos obter várias informações através de gráficos. 3.4.10 Versões do arquivo .arff Foram geradas duas versões para o arquivo .arff, visando encontrar os atributos que efetivamente iriam ser utilizados, bem como os tipos de dados dos atributos, conforme descrito na figura abaixo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 70 Tavares, Claudio; Bozza, Daniel e Kono, Frank FIGURA 9 – VERSÕES GERADAS PARA O ARQUIVO .ARFF FONTE: Os autores. O maior problema encontrado, foi com relação aos valores do atributo idade e votos, pois os mesmos possuíam, inicialmente, uma seqüência de valores muito grande e, para resolver isso, foram criadas faixas para agrupar os valores, conforme descrito no item 3.4.6. 3.4.11 Interpretando os dados gerados pelo J48 no weka Abaixo, serão feitas algumas observações para que o leitor possa entender como os dados podem ser analisados ou interpretados. Tais resultados foram obtidos através da aplicação do Método de Classificação, utilizando-se o algoritmo J48. 3.4.11.1 Análise da precisão O algoritmo J48 apresenta o seguinte quadro: FIGURA 10 – ANALISE DE PRECISÃO Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 71 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS FONTE: Os autores. Onde, na classificação de exemplos (levando-se em conta todos os registros analisados ), o fator de precisão para o cargo de suplente foi de 91,70% 3.4.11.2 Análise da Matriz de Confusão A matriz de confusão contém informações muito importantes para o entendimento do resultado do algoritmo, dentre elas: - a quantidade de instâncias classificadas corretamente; - a quantidade de instâncias classificadas erroneamente; - a quantidade de instâncias que o algoritmo acreditava ser de um tipo (eleito) e na verdade foram classificadas como (não eleito) por exemplo: FIGURA 11 – MATRIZ DE CONFUSÃO FONTE: Os autores. É possível analisar que: - dos 15 exemplos(1ªlinha), 12 foram classificados corretamente como eleito, 3 foram classificados erroneamente como suplente; - dos 3 exemplos (2ªlinha), 1 foi classificado erroneamente como eleito e 2 foram classificados erroneamente como suplente; - dos 4 exemplos (3ªlinha), 4 foram classificados erroneamente como suplente; Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 72 Tavares, Claudio; Bozza, Daniel e Kono, Frank - dos 101 exemplos (4ªlinha), 100 foram classificados corretamente como suplente e 1 foi classificado erroneamente como eleito. Mas como chegou-se ao numero das instâncias classificadas corretamente e erroneamente no exemplo acima? Para isso, basta analisar o quadro abaixo, no qual a somatória dos valores, que fazem parte da diagonal marcada como azul, representam os valores classificados como corretos e os demais valores somados em suas respectivas diagonais, correspondem aos valores classificados erroneamente. Obviamente, na somatória dos valores errados, deve-se excluir os valores que fazem intersecção com a linha em azul. FIGURA 12 – MATRIZ DE CONFUSÃO FONTE: Os autores. Com isto, obtemos o seguinte resultado: - Instâncias classificadas corretamente: 112; - Instâncias classificadas erroneamente: 11; - Perfazendo um total de 123 instâncias analisadas. Estes valores, apresentados pela matriz de confusão, são os mesmos que o algoritmo do weka apresenta, conforme quadro abaixo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 73 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS FIGURA 13 – RESULTADOS WEKA FONTE: Os autores. 3.4.11.3 Análise da Arvore de Decisão FIGURA 14 – ARVORE DE DECISÃO FONTE: Os autores. Onde os valores tem a seguinte representação: FIGURA 15 – PERCENTUAL DE ACERTOS FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 74 Tavares, Claudio; Bozza, Daniel e Kono, Frank Neste artigo, não foram abordadas todas as possibilidades de interpretação dos resultados do algoritmos J48. As interpretações que aqui foram abordadas permitirão realizar uma análise inicial dos resultados. 3.4.11.4 Análise Acertos * Erros Tomando como exemplo parte do resultado do arquivo eleições.arff sexo = masculino | anoeleicao > 1996 | | situacao = eleito | | | votos <= 13 | | | | estcivil = casado: deputadoestadual (37.0/3.0) O que significam os valores ( 37.0 / 3.0 ): - 37 significa o número de acertos, ou seja, 37 registros, nos quais a regra acima se aplica corretamente; - 3 significa o número de erros, ou seja, 3 registros, nos quais a regra acima não se aplica corretamente. 3.4.12 Resultado A tabela abaixo, demonstra os diferentes experimentos realizados para se encontrar o resultado do weka que mais se aproximasse do desejado, em termos dos valores dos atributos. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 75 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS TABELA 4 – ETAPAS DOS EXPERIMENTOS Exp. E1 E2 Nº registros bd original Nº registros treinamento 349.606 349.606 349.606 * Nº registro s testes * 770 comentário Inicialmente, foi feito um teste com todos os registros de todos os anos e todas as cidades. Ficou impraticável a análise Neste momento, foram gerados os testes com todos os registros para que o J48 pudesse gerar os resultados a serem analisados. FONTE: Os autores. Abaixo serão demonstrados os resultados obtidos com o primeiro treinamento e com o último treinamento. A análise será subdividida da seguinte forma: - análise dos gráficos; - análise dos resultados gerados pelo J48. 3.4.12.1 Resultado gerado pelos gráficos No tocante aos gráficos, é possível escolher um dos atributos como chave para que o resultado seja baseado neste. O atributo escolhido neste momento foi o atributo sexo. A tela para a escolha do atributo no weka é a seguinte: FIGURA 16 – ESCOLHA DO ATRIBUTO FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 76 Tavares, Claudio; Bozza, Daniel e Kono, Frank Os gráficos serão gerados pelo botão “Visualize All“, conforme mostrado na figura acima. No gráfico gerado pelo botão ,o sexo masculino está representado pela cor azul e o sexo feminino pela cor vermelha, conforme gráficos abaixo. A primeira análise feita foi em relação ao Sexo e Idade: GRÁFICO 1 – RELAÇÃO AO SEXO E IDADE FONTE: Os autores. A maior barra representa a faixa de idade, entre 3,947 a 4,316; isso corresponde à faixa aproximada de 48 a 54 anos, com um total de 288 instâncias, ou seja 37,4% de todos os registros (770). Observe que a predominância nesta faixa é do sexo masculino. A segunda análise feita foi em relação ao sexo e sexo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 77 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS GRÁFICO 2 – RELAÇÃO AO SEXO E SEXO FONTE: Os autores. A maior barra corresponde ao sexo masculino, com 705 instâncias, o que corresponde a 91,56%; já a menor barra corresponde ao sexo feminino, com 65 registros, o que corresponde a 8,44%. Um ponto interessante, levando em consideração que estes dados referem-se somente à cidade de Curitiba, é que para o grau de instrução, lê e escreve, somente 3 instâncias foram selecionadas. A terceira análise feita foi em relação ao sexo e o grau de instrução: GRÁFICO 3 – RELAÇÃO AO SEXO E GRAU DE INSTRUÇÃO FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 78 Tavares, Claudio; Bozza, Daniel e Kono, Frank A maior barra, corresponde ao grau de instrução Superior Completo, com um total de 390 instâncias, o que corresponde a 50,64% de todos os registros (770). Observe que a predominância é do sexo masculino. A quarta análise feita foi em relação ao sexo e estado civil: GRÁFICO 4 – RELAÇÃO AO SEXO E ESTADO CIVIL FONTE: Os autores. A maior barra corresponde à situação civil de casado, com um total de 584 instâncias, o que corresponde a 75,85% de todos os registros (770). Observe que a predominância é do sexo masculino. A quinta análise foi feita em relação ao sexo e profissão: GRÁFICO 5 – RELAÇÃO AO SEXO E PROFISSÃO FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 79 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Neste item será feita menção de três barras. A maior representa a profissão “outros”. Não se pode afirmar o motivo pelo qual, na base de dados, muitas instâncias foram classificadas como outros. A segunda maior barra representa a profissão de “Proprietário de Estabelecimento“, com 77 instâncias, o que representa a 10% do total. A terceira maior barra representa a profissão de “Advogado”, com 73 instâncias, o que representa 9,48 %. Note que a predominância também é do sexo masculino. A sexta análise foi feita em relação ao sexo e partido: GRÁFICO 6 – RELAÇÃO AO SEXO E PARTIDO POLÍTICO FONTE: Os autores. Neste item será feita menção de duas barras. A maior barra representa o partido “PMDB”, com 105 instâncias, o que representa 13,64 % de todos os registros. A segunda maior barra representa o partido “PT”, com 99 instâncias, o que representa 12,87% de todos os registros. Note que a predominância também é do sexo masculino. A sétima análise foi feita em relação ao sexo e quantidade de votos: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 80 Tavares, Claudio; Bozza, Daniel e Kono, Frank GRÁFICO 7 – RELAÇÃO AO SEXO E QUANTIDADE DE VOTOS FONTE: Os autores. A maior barra representa a faixa de votos, aproximada entre 4.800 a 15.000 votos, com 191 instâncias, o que representa 24,80%. Note que a predominância também é do sexo masculino. A oitava análise foi feita em relação ao sexo e a situação: GRÁFICO 8 – RELAÇÃO AO SEXO E SITUAÇÃO FONTE: Os autores. A maior barra corresponde à situação de “Suplente” com 648 instâncias, o que representa 84,15% do total de instâncias. Note que a predominância também é do sexo masculino.Com este gráfico pode-se chegar às seguintes conclusões: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 81 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS - existe uma predominância da cor azul (sexo masculino) em relação a cor vermelha (sexo feminino); - e a concentração da cor azul para o cargo de suplente. Uma outra informação que pode ser retirada deste gráfico, é a de se clicar sobre qualquer um dos “x”, azul ou vermelho, automaticamente, serão demonstradas todas as informações referentes ao “x” selecionado, ou melhor dizendo, ao “x” que representa uma determinada instância. FIGURA 17 – DADOS PONTUAIS DO WEKA FONTE: Os autores. 3.4.12.1.1 Tendências encontradas a) Perfil do candidato a suplente de deputado estadual na cidade de Curitiba - ter idade entre 48 a 54 anos; - ser do sexo masculino; - possuir um grau de instrução Superior Completo; - ser casado; - ter como profissão proprietário de estabelecimento ou advogado; - ser filiado aos partidos PMBD ou PT. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 82 Tavares, Claudio; Bozza, Daniel e Kono, Frank Um fato marcante em todos as relações é que o sexo masculino predominou em todos os atributos. b) Perfil do candidato vencedor em relação ao atributo Sexo Observe a tabela abaixo: TABELA 5 – RELAÇÃO SEXO * SUCESSO Sexo Candidatos Suplentes % Sucesso Masculino 705 587 82,26 Feminino 65 61 93,85 FONTE: Os autores. Onde: - candidatos: refere-se à quantidade total de candidatos, nos anos de 1994 e 1998; - suplentes: quantidade de candidatos que alcançaram a posição de suplente de deputados estadual; - % de sucesso: representa a relação em (%) entre o total de candidatos * suplentes / por 100. No ano de 1994, as mulheres tiveram um desempenho muito melhor do que os homens, pois 5% do total de mulheres candidatas foram eleitas, em contrapartida, somente 2,33% dos candidatos homens se elegeram. O gráfico abaixo, ilustra a distribuição de candidatos em relação ao sexo: Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 83 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS GRÁFICO 9 – DISTRIBUIÇÃO DE CANDIDATOS EM RELAÇÃO AO SEXO FONTE: Os autores. c) Perfil em relação ao grau de instrução e idade No gráfico abaixo, pode-se visualizar que existe uma distribuição bastante proporcional referente ao grau de instrução, onde cada cor representa um nível de escolaridade (eixo x) em relação a faixa de idade (eixo x ): GRÁFICO 10 – DISTRIBUIÇÃO REFERENTE AO GRAU DE INSTRUÇÃO FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 84 Tavares, Claudio; Bozza, Daniel e Kono, Frank d) Perfil em relação ao grau de instrução e sexo No gráfico abaixo, é possível visualizar a relação entre sexo e grau de instrução. Note que a maior concentração para ambos os sexos é o grau de instrução superior completo. GRÁFICO 11 – RELAÇÃO ENTRE SEXO E GRAU DE INSTRUÇÃO FONTE: Os autores. e) Perfil do grau de instrução na cidade de Curitiba O gráfico abaixo, demonstra que, na cidade de Curitiba, pouquíssimos são os candidatos com grau de instrução ( lê e escreve): Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 85 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS GRÁFICO 12 – GRAU DE INSTRUÇÃO EM CURITIBA FONTE: Os autores. 4 RESULTADOS GERADOS PELO ALGORITMO J48 Foi utilizado o método de classificação e o algoritmo J48. Os parâmetros do J48 alterados foram os seguintes: TABELA 6 – PARÂMETROS DO J48 C confidence: escolhe o fator de confiança inicial para a podar -> default:0.25 M escolhe o número mínimo de instâncias por folha -> default:2 FONTE: Os autores. Onde: C = 0.9 M = 0.25 Os demais atributos foram mantidos com os valores default do J48. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 86 Tavares, Claudio; Bozza, Daniel e Kono, Frank Os resultados que serão apresentados e suas respectivas análises, tomaram como base a argumentação teórica apresentada no item 3.4.11 Interpretando os dados gerados pelo J48 no weka e o item 3.4.9.1 Buscando o arquivo .arff . Ao aplicar o arquivo .arff ao algoritmo, inicialmente temos um resumo gerado pelo J48 com relação as regras, atributos e instâncias analisadas: FIGURA 18 – ALGORITMO J48 FONTE: Os autores. Este é o cabeçalho do resultado do J48, no qual tem-se as seguintes informações: - Schema: que demonstra o metódo, o algoritmo e os parametros utilizados; - Relation: informa o nome do arquivo .arff e dois dos parâmetros que foram removidos. Os parâmetros aqui removidos foram cargo e ano da eleição, isso porque o único valor para o atributo cargo, no arquivo .arff, é suplente de deputado estadual e os anos são de 1994 e 1998, visto que, neste momento, a temporalidade não era importante. - Instances: total de instancias analisadas; - Abribute: relação dos atributos analisados; - Test-mode: informa que será realizada cross-validation. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 87 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Posteriormente, o J48 gera várias regras sobre a relação existente entre os atributos. Estas regras irão, posteriormente, dar origem à árvore: FIGURA 19 – REGRAS GERADAS FONTE: Os autores. As informações abaixo, demonstram o tamanho da árvore que será gerada: FIGURA 16 – NÍVEIS DA ÁRVORE FONTE: Os autores. Onde, - J48 pruned tree: indica que será feita a poda na árvore; - logo após é montada uma série de linhas classificatórias, na qual se demonstra a regra e os valores para os atributos; - Number of leaves: número de níveis que a árvore gerou; - Size of the tree: o tamanho da árvore. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 88 Tavares, Claudio; Bozza, Daniel e Kono, Frank No weka, é possível visualizar a árvore gerada para as regras acima mencionadas, executando os seguinte passos: Após o J48 ter concluído o seu processamento de um clique com o botão direito do mouse sobre a última linha do campo Result list e escolha a opção Visualize tree. FIGURA 20 – CHAMADA DA ÁRVORE FONTE: Os autores. Será, então, apresentada a árvore gerada pelo weka: FIGURA 21 – ARVORE DE DECISÃO FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 89 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS É necessário que a árvore acima seja expandida para melhor visualização. Outro conjunto de informações muito importante é referente ao sumário, ou seja, um breve resumo do que foi gerado pelo J48: FIGURA 22 – RESULTADO J48 FONTE: Os autores. - Correctly classified instances: representa o número de instâncias classificadas corretamente; - Incorrectly classified instances: representa o número de instâncias classificadas de forma errada. Um dos parâmetros do J48 alterados foi o C 0.9 ou seja, desejava-se alcançar 90% de sucesso, mas o J48 retornou um sucesso de 92.4675 %, bem acima do desejado. Também, é apresentada uma tabela informando, dentre muitos parâmetros, o fator de precisão: FIGURA 23 – RESULTADO J48 FONTE: Os autores. Nota-se nesta tabela o seguinte: o fator de precisão de acerto, para o cargo de suplente, foi de 96.4%, o mais alto dentre todos os cargos; muito importante, visto Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 90 Tavares, Claudio; Bozza, Daniel e Kono, Frank que o objetivo inicial do trabalho era o de encontrar uma tendência para os candidatos ao cargo de suplente de deputado estadual. Já a matriz de confusão, conforme apresentada na figura abaixo, é muito importante para que se possa extrair informações valiosas. FIGURA 24 – MATRIZ DE CONFUSÃO FONTE: Os autores. Da matriz de confusão podem-se extrair as seguintes informações: - de todos os 770 registros analisados, o J48 conseguiu classificar corretamente 712 ,sendo que estes estão subdivididos da seguinte forma: • 76 – cargo eleito • 1 – cargo media • 13 – não eleito • 622 - suplente - de todos os 770 registros analisados, o J48 classificou erroneamente 58, sendo que estes estão subdivididos da seguinte forma: • dos 17 registros que eram para ser classificados como eleito, 4 foram classificados como média e 13 como suplente; • dos 14 registros que eram para ser classificados como média, 5 foram classificados como eleito e 9 como suplente; • do total de 1 registro que era para ser classificado como não eleito, este 1 foi classificado como suplente; • dos 26 registros que eram para ser classificados como suplente, 21 foram classificados como eleito, 3 como média e 2 com não eleito. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 91 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Para chegar a esta conclusão basta somar todos os valores de cada linha, excluindo os valores que fazem parte da diagonal que inicia-se em (a,a) e termina em (a,e). 5 CONCLUSÕES Os dados analisados vêm a comprovar um fato já conhecido, o de que as pessoas do sexo masculino têm uma representatividade muito maior na Câmara dos Deputados do que as mulheres. Mas, outro fato muito interessante é que as mulheres têm um desempenho muito melhor do que os homens, quando estas se elegem, o que nos leva à seguinte indagação: - qual o diferencial que as mulheres tem em relação aos homens para ter um melhor desempenho ? - será que os eleitores homens tem votado nas mulheres acreditando neste potencial? ou será que as eleitoras mulheres tem votado na candidata mulher, como uma forma de revolta contra o desempenho masculino ? Sabe-se que as mulheres tem alcançado, com muita naturalidade, os postos que, anteriormente, eram de exclusividade masculina e isto também fica evidenciado pelos resultados deste trabalho, pois se elas, “ candidatas mulheres“, continuarem a ter um desempenho melhor do que os homens, logo o quadro no cenário político será revertido, ou seja, haverá mais mulheres na política do que homens. Um ponto interessante, é o de que o nível de escolaridade dos candidatos eleitos tem sido não inferior ao Superior Completo, o que reflete o anseio da sociedade, no tocante a colocar no meio político pessoas mais esclarecidas, mais cultas, com uma visão mais ampla do todo. Normalmente, quando uma pessoa necessita de um conselho acerca de alguma decisão, irá buscar esta ajuda com pessoas mais velhas e mais experientes, o que deixa claro que pessoas de mais idade tem mais experiência na vida.Em relação a isto, os dados encontrados na aplicação do algoritmo, demonstraram que os candidatos eleitos estavam na faixa dos 45 aos 55 anos, ou seja, acima da metade da sua vida; isso, se considerarmos a expectativa de vida em, Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 92 Tavares, Claudio; Bozza, Daniel e Kono, Frank aproximadamente, 90 anos, o que vem a afirmar que a sociedade também acredita que candidatos com idade média têm experiências suficientes para auxiliar a sociedade em seus problemas, fazendo para isso uso de seu poder político. Outro fato muito interessante, é em relação à profissão do candidato, pois a facilidade de comunicação, a habilidade de convencimento está diretamente relacionada entre o político e a população. Com base nisto, foi identificado que as duas profissões que tiveram o maior destaque foram a de proprietário de estabelecimento comercial e advogado, duas profissão que estão diretamente envolvidas com o público exercendo seu poder de convencimento e habilidade em técnicas de relacionamento. Será que é por acaso que os políticos tem tais habilidades ? Artigo recebido em 23/04/2007 e aprovado em 15/05/2007. REFERÊNCIAS CAMEIRÃO, A. J. “Esboço” da NETLIG - A rede de “antigos alunos da LIG”. Universidade do Minho, Escola de Engenharia, Licenciatura em Informática de Gestão, OPÇÃO III - Tecnologias e Sistemas de Informação, 2004/2005. Disponível: http://72.14.205.104/search?q=cache:iVPvv5OgFL4J:papadocs.dsi.uminho.pt:8080/retrieve/7 37/Relat%C3%B3rio.pdf+%22Aurora+Jo%C3%A3o+Cameir%C3%A3o%22&hl=ptBR&ct=clnk&cd=1&gl=br&lr=lang_pt CARVALHO, L, A. V. de. Datamining: a mineração de dados no Marketing, Medicina, Economia, Engenharia e Administração. São Paulo: Ciência Moderna, 2006. DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Acta Scientiarum, UEM - Maringá - PR, v. 24, n. 6, p. 1715-1725, 2002. MALUF, R. T. A Carreira Política na Câmara Municipal de São Paulo. Doutorado em Ciência Política. Universidade de São Paulo, USP, Brasil, 2006. MARTINHAGO, S. Descoberta de conhecimento sobre o processo seletivo da UFPR. Dissertação de Mestrado em Ciências, do Programa de Pós-graduação em Métodos Numéricos em Engenharia, Departamento de Matemática, Setor de Ciências Exatas e Departamento de Construção Civil, Setor de Tecnologia da Universidade Federal do Paraná, 2005. Disponível em: http://www.ppgmne.ufpr.br/dissertacoes/D120_Sergio_Martinhago06072005.pdf Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 93 DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS SENKO, L.G. M. Um Método Baseado em Lógica Paraconsistente para Detecção de Inconsistências em Classificadores à Base de Regras. Mestrado em Informática Aplicada. Pontifícia Universidade Católica do Paraná, PUC-PR, Brasil, 2006. SILVA, M. P. dos S. Análise de episódios de tornados em Santa Catarina: caracterização sinótica e mineração de dados. Mestrado em Sensoriamento Remoto, Instituto Nacional de Pesquisas Espaciais, INPE, Brasil, 2003. SILVA, M. P. dos S. SKDQL Uma Linguagem Declarativa de Especificações de Consultas e Processos para Descoberta de Conhecimento em Bancos de Dados e sua Implementação. Mestrado em Ciências da Computação. Universidade Federal de Pernambuco, UFPE, Brasil, 2003. TSE - Tribunal Superior Eleitoral. “Bases de Dados das Eleições”, Disponível em: http://www.tse.gov.br, Junho, 2006. TSUNODA, D. F. Abordagens evolucionárias para a descoberta de padrões e classificação de proteínas. Doutorado em Pós Graduação em Engenharia Elétrica e Informática. Universidade Tecnológica Federal do Paraná, UTFPR, Brasil, 2004. ANEXOS ANEXO 1 – TABELA DE DADOS DO WEKA FONTE: Os autores. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007 94