weka aplicado a dados eleitorais - Revista Gestão e Conhecimento

Propaganda
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
sDESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
Claudio Tavares
Especialista em Banco de Dados, Unicenp. E-mail: clá[email protected]
Daniel Bozza
Especialista em Banco de Dados, Unicenp. E-mail: [email protected]
Frank Kono
Especialista em Banco de Dados, Unicenp. E-mail: [email protected]
Resumo: Este artigo tem como objetivo encontrar uma possível tendência a ser
observada, no tocante as pessoas que almejem se candidatar e conseqüentemente
se eleger Deputado Estadual na cidade de Curitiba. Para alcançar o objetivo, será
analisado e preparado um conjunto de dados que envolvem as eleições de 1994 e
1998 e posteriormente serão aplicadas algumas técnicas de Data Minining para que
possam ser geradas regras de associações. Tais regras ou resultados serão
analisados para então se determinar a existência ou não de tendências no tocante
ao perfil dos candidatos ao cargo de suplente de Deputado Estadual na cidade de
Curitiba.Por fim serão apresentados os resultados encontrados, quer sejam eles
confirmando uma certa tendência ou não.
Palavras-chave: Data Mining, Classificação, Algoritmo J48
1 INTRODUÇÃO
Inicialmente, será feita uma breve descrição do processo que envolve a
descoberta de conhecimento, passando, posteriormente, para o desenvolvimento do
trabalho, levando-se em consideração o cronograma, o escopo inicial do projeto, o
negócio em questão e a parte lógica. A parte lógica será subdividida na busca da
base de dados, que irá dar suporte a todo o processo de descoberta de
conhecimento, bem como a geração do modelo de dado para o DW, a extração dos
dados irrelevantes para o processo, a conseqüente limpeza e padronização dos
dados, para que estes estejam adequados ao objetivo do trabalho.
Ainda, na parte lógica será abordado o item referente à geração do arquivo
.arff, tomando como base os dados disponíveis, bem como a escolha do método e
algoritmo, que serão utilizados sobre os dados para a busca do conhecimento. Mais
especificamente, no caso do algoritmo, será feita uma descrição em relação ao seu
funcionamento e parâmetros que podem ser alterados e seus efeitos.
Tendo sido gerados os arquivos.arff, imprescindíveis para a utilização no
weka, será, então, feita uma explanação sobre a ferramenta weka e demonstrado
como utilizá-la. Muitos serão os resultados gerados pelo weka, e, por causa disso,
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007: 54 - 94
Tavares, Claudio; Bozza, Daniel e Kono, Frank
será dada à devida atenção a uma explanação sobre como interpretar os resultados
do weka.
Por fim, o(s) arquivo(s) .arff serão aplicados no weka e os resultados serão
gerados, dando início, então, a toda uma explanação e interpretação sobre os
resultados a fim de encontrar uma possível tendência em relação aos dados, a qual
é: “Será que pode-se determinar um padrão, uma semelhança no perfil dos
candidatos que conseguem ser eleitos ao cargo de deputado estadual na cidade de
Curitiba ? “
2 O PROCESSO DE DESCOBERTA DE CONHECIMENTO DO DATA MINING
(DM)
A análise das grandes quantidades de dados armazenadas nos SGBD’s,
visando encontrar informações estratégicas não conhecidas, tem exigido técnicas
mais adequadas, sendo que o processo de DM permite em suas várias etapas
extrair tais informações.
De forma macro, pode-se definir o processo de DM como:
- definição do problema;
- pré-processamento dos dados;
- mineração (analise) dos dados;
- interpretação.
FIGURA 1: ETAPAS NO PROCESSO DE DM
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
55
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
A figura acima demonstra, de forma gráfica, o processo da descoberta de
conhecimento, onde cada parte da figura representa:
-Dados: conjunto de dados armazenados em uma ou mais base(s) de dados,
os quais são a matéria prima de todo o processo de Data Mining.
- Dados Selecionados: de todos os dados disponíveis será separado um
conjunto que contenha os dados que sejam relevantes para a questão,
dúvida, informação estratégica que se pretende obter.
- Dados processados: todos os dados selecionados serão previamente préprocessados, ou seja, serão tratados, limpos consistidos, visando à remoção
de qualquer ruído nos dados.
- Dados Transformados: depois de processados ou tratados, os dados serão
formatados de forma a adequá-los à ferramenta de mineração ( weka ).
- Padrões: os dados transformados aplicados aos algoritmos previamente
escolhidos na ferramenta de mineração ( weka ) irão resultar em padrões,
regras,
gráficos,
dados
numéricos,
os
quais
serão
analisados
gerados
pelos
algoritmos,
exaustivamente.
-Conhecimento:
analisando
os
padrões
possivelmente serão encontradas as
“informações estratégicas não
conhecidas “.
3
PLANEJAMENTO E DESCRIÇÃO DO PROCESSO DE DESCOBERTA DO
CONHECIMENTO
3.1 CRONOGRAMA
O cronograma abaixo representa as várias atividades que envolveram o
processo de DM neste artigo.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
56
Tavares, Claudio; Bozza, Daniel e Kono, Frank
FIGURA 2 – CRONOGRAMA
FONTE: Os autores.
Onde:
- Tarefa: refere-se à atividade executada;
- Etapa: refere-se à relação atividade * etapa descrita no item 2 deste artigo;
- Semana/Dias: tempo em semanas para a execução da atividade
As tarefas executadas foram as seguintes:
- entender o funcionamento do weka: inicialmente, a ferramenta do weka era
desconhecida pelo grupo;
- escrever o artigo: este processo deu-se durante todo o tempo do trabalho;
- buscar o problema a ser resolvido: o grupo não tinha bem claro o problema
que pretendia resolver;
- encontrar a(s) base(s) de dados: após definir o problema, deu-se início a
busca pela(s) base(s) de dados que conteriam os dados necessários para o
trabalho;
- modelar os dados: desenhar o modelo de dados;
- limpar os dados: tratar os dados adequadamente;
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
57
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
- trabalhar os dados: alguns dados, como idade e qtd. de votos, tiveram seus
valores alterados para uma faixa de números;
- gerar arquivo.arff: geração do arquivo .arff;
- aplicar o arquivo .arff ao algoritmo: aplicar os algoritmos sobre os arquivos
.arff;
3.2 O ESCOPO INICIAL DO PROJETO
De posse das bases de dados referentes às eleições de 1994, 1996 e 1998,
as quais contemplavam os cargos de Deputado Estadual, Deputado Federal,
Senador, Prefeito, Governador e Presidente de todos os municípios do País,
entendeu-se que a abrangência era muito grande. A partir deste momento, muitas
foram as mudanças no escopo, as quais são melhores identificadas na figura 2 Cronograma, pois as tarefas marcadas no cronograma em azul representam o clico
de extração e interpretação dos dados devido às alterações no escopo.
Abaixo são listadas as várias alterações:
1ª - a idéia era a de se trabalhar como todos os registros relacionados com o
cargo de Deputado Estadual a nível nacional.
2ª - posteriormente, a idéia foi alterada para se trabalhar somente com os
registros relacionados com o cargo de Deputado Estadual do Estado do
Paraná.
3ª - finalmente, decidiu-se trabalhar somente com os registros relacionados
com o cargo de Deputado Estadual da cidade de Curitiba.
O motivo para tantas alterações foi que, ao aplicar o arquivo .arff no weka,
os resultados eram muito abrangentes, ou seja, muitos eram os cargos ou muitas
eram as cidades e a interpretação tornou-se inviável. Analisando que, para cada
uma das alterações, era necessário voltar ao item de extração de dados (vide figura
2 - Cronograma ), pode-se afirmar que o trabalho era exaustivo, as mudanças não
foram fáceis, pois o retrabalho custou muito tempo e esforço.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
58
Tavares, Claudio; Bozza, Daniel e Kono, Frank
3.3 ANÁLISE DO NEGÓCIO
O negócio em questão, neste artigo, é o de se analisar os dados
disponibilizados na(s) base(s) de dados, referentes aos candidatos ao cargo de
Deputado Estadual na cidade de Curitiba e verificar se existe alguma tendência de
perfil para que um candidato possa garantir a sua eleição.
3.4 ANÁLISE LÓGICA
Este item será subdividido para contemplar o detalhamento de várias etapas,
desde a busca dos dados até a geração dos resultados pelo(s) algoritmo(s) do weka.
3.4.1 Busca da(s) base(s) de dados
O(s) banco(s) de dado(s) foram encontrados no seguinte link:
http://www.tse.gov.br/utilidades/download/see.html
Os dados estavam distribuídos em bases de dados distintas, ou seja, uma
base para cada um dos anos (1994, 1996 e 1998), logo foram feitos os downloads
dos seguintes arquivos:
1º donwload - 1994C.exe (Banco de Dados – 1994 completo) – tamanho
instalado 30,90 mb – qtd. de linhas na tab_candidato era de 11.999;
2º download - 1996C.exe (Banco de Dados – 1996 completo) – tamanho
instalado 54,00 mb – qtd. de linhas na tab_candidato era de 322.698;
3º download - 1998C.exe (Banco de Dados – 1998 completo) – tamanho
instalado 35,34 mb – qtd. de linhas na tab_candidato era de 14.909.
É importante salientar, que os dados acima referem-se à base de dados
completa, ou seja, todos os registros a nível nacional, contendo todos os cargos e
cidades. Posteriormente, os arquivos foram descompactados e gerado, para cada
um dos anos (1994, 1996 e 1998), um arquivo .mdb.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
59
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
A figura abaixo representa o modelo de dados do(s) banco(s), sendo que
este modelo é idêntico para os três anos ( 94, 96 e 98 ):
FIGURA 3 – MODELO DE DADOS ORIGINAL
FONTE: Os autores
3.4.2 Gerando o Modelo de Dados para o DW
Analisando o modelo da figura 3 – Modelo de Dados original, foi feita uma
análise de todas as tabelas e seus atributos e, de acordo com o escopo do artigo, ou
seja, a pergunta que se pretende responder, vide item 3.3, foi identificado que
muitos dados das tabelas do modelo original eram desnecessárias para o novo
modelo. A partir deste momento, foi gerado um novo modelo de dados, o qual irá
suportar os dados necessários para que se possa encontrar a resposta deste artigo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
60
Tavares, Claudio; Bozza, Daniel e Kono, Frank
FIGURA 4 – MODELO DE DADOS DO DW ELEIÇÕES
FONTE: Os autores.
É importante salientar, que nem todos os atributos descritos no modelo de
dados do DW irão aparecer no arquivo que será utilizado no weka, mas todos os
atributos serão necessários para a geração da tabela TAB_WEKA, conforme
descrita no modelo de dados o anexo 1, pois esta tabela irá conter todos os dados
que, posteriormente, serão exportados e que darão origem ao arquivo ( .arff ), o qual
será utilizado no weka.
3.4.3 Extração de Dados
Os dados continuarão sendo trabalhados de forma distinta, ou seja, para
cada ano será criado um novo modelo de dados e um arquivo ( .arff). De acordo com
o modelo de dados do DW e com as três etapas descritas no item 3.2 Escopo Inicial
do Projeto, foram, então, gerados as seguintes bases de dados:
- eleicoes_1994.mdb
- eleicoes_1996.mdb
- eleicoes_1998.mdb
Estas bases, inicialmente, continham todos os valores para o atributo cargo
(dep. Estadual, prefeito, etc) para a cidade de Curitiba. Após as alterações de
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
61
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
escopo, foram, então, geradas novas bases de dados para a cidade de Curitiba e
para o cargo de Deputado Estadual.
- eleicoes_1994.mdb (359 registros)
- eleicoes_1998.mdb ( 411 registros )
Totalizando 770 registros, os quais irão compor o arquivo (.arff ) final.
Abaixo, relacionam-se alguns dos motivos para se trabalhar com os dados em bases
diferentes:
- por exemplo, na tabela profissão do ano de 1994 tinha-se advogado com o
valor 1, para a chave primária; e, no ano de 1996, tinha-se advogado com o
valor de 7, como chave primária. Este problema de atributos iguais com
valores de chaves primárias diferentes foi identificado em outras tabelas.
Realizar um mapeamento “de-para” entre as tabelas seria muito custoso e,
por isso, decidiu-se manter os dados em bancos distintos.
Na tabela abaixo, pode-se visualizar com mais detalhes a tabela de dados
do WEKA
TABELA 1 – TABELA DE DADOS DO WEKA
Atributo
NOMSEXO
NOMGRAINS
NOMESTCIV
NOMPROFIS
SGLPAR
NOMSITUA
ANOELEIC
NOMCAR
FAIXAIDADE
FAIXAVOTOS
Tipo dados
varchar
Varchar
Varchar
Varchar
Varchar
Varchar
Integer
Varchar
Integer
integer
Descrição
Armazena a descrição do sexo
Armazena a descrição do grau de instrução (escolaridade)
Armazena a descrição do est.civil
Armazena a descrição da profissão
Armazena a sigla do partido
Armazena a situação do candidato
Armazena o ano de eleição
Armazena o nome do cargo
Armazena a faixa de idade
Armazena a faixa de votos
FONTE: Os autores.
3.4.4 Limpeza dos Dados
Abaixo, serão descritos os tratamentos ou limpeza as quais os dados foram
submetidos. Foram removidos os espaços em branco na descrição dos atributos por
exemplo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
62
Tavares, Claudio; Bozza, Daniel e Kono, Frank
- Na tabela profissão, o atributo profissão continha o seguinte valor (auxiliar
de escritório), sendo que este valor foi substituído por (auxiliardeescritorio)
Foram removidos os acentos:
- Na tab_profissao, o atributo profissão continha o seguinte valor (médico) e
foi substituído por “medico” sem o acento (as “” não acompanham o
atributo). Este item “ii” refere-se ao tratamento feito para a remoção de
acentos e caracteres especiais dos valores dos atributos.
Foram padronizados os valores dos atributos:
- No banco eleicao_1994.mdb tab_profissao, o atributo profissão continha o
seguinte valor ( funcionário público ) e, no banco eleicao_1996.mdb
tab_profissao, o atributo profissão continha o seguinte valor (func. Público),
foi feito um tratamento para que, em ambos os bancos, o valor fosse
substituído por ( funcpublico).
Estes tratamentos foram feitos em todas as tabelas/atributos para que todos
os dados estivessem padronizados.
3.4.5 Geração dos dados
Conforme descrito no item 3.4.2 foi criada uma tabela chamada TAB_WEKA,
a qual irá armazenar todos os dados que, posteriormente, serão exportados para a
criação do arquivo (.arff ). Neste momento, foram montados os sql’s que irão gerar a
massa de dados para popular a TAB_WEKA.mdb (formato de banco Access).
Abaixo, serão descritos os passos para a geração dos dados na
TAB_WEKA:
- Inicialmente, foi criada uma consulta para visualização dos dados, conforme
a figura do anexo nº 1 – Tabela de dados do weka.
Feita uma conferência do resultado gerado no anexo nº 1, posteriormente foi
utilizado outro recurso do banco .mdb para com base no resultado do select criar
uma nova tabela contendo todos os dados gerados pela consulta (TAB_WEKA).
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
63
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
Na TAB_WEKA foram feitos os seguintes tratamentos:
- foram retirados os seguintes campos: Nomcan, datnas, codcan, nommun;
- foi renomeado o campo Expr1 para idade;
- todos os valores dos atributos texto foram descritos com letras minúsculas.
- os campos da tabela TAB_WEKA foram ordenados na seguinte seqüência:
- IDADE, NOMSEXO, NOMGRAINS, NOMEESTCIV, NOMPROFIS, SGLPAR,
VOTOS, NOMSITUAC, ANOELEICAO, NOMCAR, sendo que esta seqüência
será a mesma que o arquivo ( .arff ) conterá.
É importante salientar, que a TAB_WEKA foi criada em cada um dos dois
bancos de dados (1994 e 1996), logo todo o procedimento foi aplicado na tabela dos
dois bancos.
3.4.6 Padronização dos Dados
Na tabela de dados Weka foi necessário padronizar os valores de dois
atributos, idade e quantidade de votos, isto porque eles continham uma seqüência
de valores muito abrangente, o que dificultava o processamento e entendimento dos
resultados. Para resolver este problema foram criadas faixas que enquadravam os
valores dos atributos, valores estes representados na tabela abaixo.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
64
Tavares, Claudio; Bozza, Daniel e Kono, Frank
TABELA 2 – FAIXA IDADE E VOTOS
Atributo
Idade
Faixa
% idade >=20 e idade <= 30
% idade >=31 e idade <= 40
% idade >=41 e idade <= 50
% idade >=51 e idade <= 60
% idade >=61 e idade <= 70
% idade >=71 e idade <= 80
% idade >=81 e idade <= 90
% idade >=91
Valor
1
2
3
4
5
6
7
8
Votos
%votos >=0
e votos <= 200
%votos >=201
e votos <= 400
%votos >=401
e votos <= 600
%votos >=601
e votos <= 800
%votos >=801
e votos <= 1000
%votos >=1001
e votos <= 5000
%votos >=5001
e votos <= 10000
%votos >=10001 e votos <= 15000
%votos >=15001 e votos <= 20000
%votos >=20001 e votos <= 25000
%votos >=25001 e votos <= 30000
%votos >=30001 e votos <= 40000
%votos >=40001 e votos <= 50000
%votos >=50001 e votos <=
100000
%votos >=100001 e votos
<=1000000
%votos >=1000001 e votos
<=2000000
%votos >=2000001
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
FONTE: Os autores.
3.4.7 Geração do arquivo .arff
Neste momento, as tabelas TAB_WEKA (ano 1994) e TAB_WEKA (ano 1998)
já estão criadas e com seus dados tratados. Foram gerados três arquivos .arff para
os testes:
- eleicoes_1994.arff, contendo 359 registros.
- eleicoes_1998.arff, contendo 411 registros.
- eleicoes_94_98.arff, o qual contém todos os dados de 1994 e 1998,
totalizando 770 registros.
O arquivo .arff foi subdividido da seguinte forma:
- Declarando o arquivo
@relation eleições
- Declarando todos os atributos
@attribute idade real
@attribute sexo {masculino, ...}
@attribute grauinstrucao {1graucompleto, ..}
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
65
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
@attribute estcivil {casado, ...}
@attribute profissão {administrador, ...}
@attribute partido {pan, ...}
@attribute votos real
@attribute situação {eleito, ...}
@attribute anoeleicao real
@attribute cargo {deputadoestadual, ...}
- Declarando o data
@Data 5,masculino,1graucompleto,casado,outros,pdt,10,eleito,1994,deputadoestadual
Este é somente um exemplo das várias linhas que o atributo @Data contém.
3.4.8 Escolha do Método e Algoritmo
Para a análise dos três arquivos .arff, foi escolhido o Método de Classificação
e o algoritmo J48. Isso em decorrência do escopo do trabalho e dos valores que
compõem o arquivo .arff. Após análises dos diferentes métodos, que podem ser
aplicados, e das formas de se minerar os dados e das características dos dados,
constatou-se que os diferentes métodos podem ser aplicados com diferentes
algoritmos a diferentes tipos de dados; tudo depende do tipo de problema que se
deseja solucionar.
O método de classificação foi escolhido por melhor responder à questão alvo
deste artigo, ou seja, com o método de classificação pode-se inferir (prever) que
determinados candidatos, com um determinado perfil, consigam se eleger. Neste
caso, o atributo cargo é denominado como atributo alvo da classificação (poderia ser
outro) e, sobre este, regras de classificação em relação ao outros atributos serão
geradas.
As formas mais comuns de representação de conhecimento dos algoritmos de
classificação são regras e árvores. Os algoritmos Id3, C45, J48, ADTree,
UserClassifier, PredictionNode, Splitter, ClassifierTree, M5Prime, por exemplo,
geram, como resultado, árvores de classificação, enquanto que outros como Prism,
Part, OneR geram regras de classificação. Já o algoritmo escolhido para a análise
dos dados foi o J48, isso levando-se em consideração o tipo dos dados que serão
analisados.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
66
Tavares, Claudio; Bozza, Daniel e Kono, Frank
Abaixo, será feita uma breve explanação, um pouco mais detalhada com
relação ao algoritmo J48:
J48 constrói uma árvore de decisão. A forma de construção é a
-
abordagem top-down, em que o atributo mais significativo, ou seja, o mais
generalizado, quando comparado a outros atributos do conjunto, é
considerado raiz da árvore. Na seqüência da construção, o próximo nó da
árvore
será
o
segundo
atributo
mais
significativo,
e,
assim,
sucessivamente, até gerar o nó folha, que representa o atributo alvo da
instância. O processo de geração de regras, para classificação de
sistemas normalmente atua em dois estágios: as regras são induzidas e
posteriormente refinadas. Isto é feito através de dois métodos, através da
geração das árvores de decisão e o posterior mapeamento da árvore em
regras e, então, aplicando processos de refinamento, ou pela utilização do
paradigma “separar – pra – conquistar”. ”. Assim como na árvore de
decisão, esse processo também possuiu um estágio de otimização das
regras geradas
Com relação ao algoritmo J48 podem-se alterar os valores padrões dos seus
vários atributos, conforme a descrição dos atributos na tabela abaixo:
TABELA 3 – PARÂMETROS J48
U
C
M
R
N
B
S
L
usa a árvore sem poda
confidence: escolhe o fator de confiança
inicial para a podar -> default:0.25
escolhe o número mínimo de instâncias por
folha -> default:2
usa a poda com redução de erro
escolhe o número de partições para a poda
com redução de erro, onde uma partição é
utilizada como conjunto de poda ->default:3
usa árvore binária
não utiliza subárvore de poda
não apaga a árvore depois de construída
FONTE: Os autores.
Os parâmetros acima mencionados podem ser configurados na seguinte tela
do weka:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
67
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
FIGURA 5 – ESCOLHA DO ALGORITMO NO WEKA
FONTE: Os autores.
Clicando sobre o botão Choose surgira a tela para configuração dos
parâmetros:
FIGURA 6 – PARÂMETROS J48 NO WEKA
FONTE: Os autores.
Onde cada campo representa um parâmetro a ser configurado:
1) binarySplits:
2) confidenceFactor:
3) debug:
4) minNumObj:
5) numFolds:
6) reducedErrorPruning :
7) saveInstanceData:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
68
Tavares, Claudio; Bozza, Daniel e Kono, Frank
8) seed:
9) subtreeRaising:
10)unpruned:
11)useLaplace:
3.4.9 Abrindo o Weka
Com o aplicativo do weka aberto em modo Explorer, aparecerá a seguinte
janela:
FIGURA 7 – WEKA
FONTE: Os autores.
3.4.9.1 Buscando o arquivo .arff
Seleciona-se a opção OpenFile para encontrar o arquivo eleicoes.arff e,
após escolhido o arquivo, a seguinte tela foi apresentada. O arquivo eleicoes.arff
estava no seguinte diretório: ..weka-3-4\data\eleicoes.arff
FIGURA 8 – TELA WEKA
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
69
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
FONTE: Os autores.
Obs:. Neste artigo estão sendo processados três arquivos .arff, conforme item
3.4.7 .
Nesta visualização, podem-se analisar os seguintes dados:
- as abas Classify, Cluster, Associate, Select Atributes são os métodos que
podemos escolher para gerar os dados;
- na guia Visualize, podemos visualizar os resultados dos algoritmos através
de alguns gráficos, os quais veremos posteriormente;
- o botão Chosse nos permite navegar em uma árvore na qual podemos
escolher o algoritmo;
- no campo onde aparece a palavra “NONE”, podemos alterar os parâmetros
de configuração para o algoritmo;
- na área “Currente Rellation” temos a qtd. de instâncias, nº de atributos e,
também, a relação que será usada inicialmente para gerar alguns gráficos;na área “Attributes” temos a relação de todos os atributos;
- no botão visualize all, poderemos obter várias informações através de
gráficos.
3.4.10 Versões do arquivo .arff
Foram geradas duas versões para o arquivo .arff, visando encontrar os
atributos que efetivamente iriam ser utilizados, bem como os tipos de dados dos
atributos, conforme descrito na figura abaixo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
70
Tavares, Claudio; Bozza, Daniel e Kono, Frank
FIGURA 9 – VERSÕES GERADAS PARA O ARQUIVO .ARFF
FONTE: Os autores.
O maior problema encontrado, foi com relação aos valores do atributo idade
e votos, pois os mesmos possuíam, inicialmente, uma seqüência de valores muito
grande e, para resolver isso, foram criadas faixas para agrupar os valores, conforme
descrito no item 3.4.6.
3.4.11 Interpretando os dados gerados pelo J48 no weka
Abaixo, serão feitas algumas observações para que o leitor possa entender
como os dados podem ser analisados ou interpretados. Tais resultados foram
obtidos através da aplicação do Método de Classificação, utilizando-se o algoritmo
J48.
3.4.11.1 Análise da precisão
O algoritmo J48 apresenta o seguinte quadro:
FIGURA 10 – ANALISE DE PRECISÃO
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
71
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
FONTE: Os autores.
Onde, na classificação de exemplos (levando-se em conta todos os registros
analisados ), o fator de precisão para o cargo de suplente foi de 91,70%
3.4.11.2 Análise da Matriz de Confusão
A matriz de confusão contém informações muito importantes para o
entendimento do resultado do algoritmo, dentre elas:
- a quantidade de instâncias classificadas corretamente;
- a quantidade de instâncias classificadas erroneamente;
- a quantidade de instâncias que o algoritmo acreditava ser de um tipo
(eleito) e na verdade foram classificadas como (não eleito) por exemplo:
FIGURA 11 – MATRIZ DE CONFUSÃO
FONTE: Os autores.
É possível analisar que:
- dos 15 exemplos(1ªlinha), 12 foram classificados corretamente como eleito,
3 foram classificados erroneamente como suplente;
- dos 3 exemplos (2ªlinha), 1 foi classificado erroneamente como eleito e 2
foram classificados erroneamente como suplente;
- dos 4 exemplos (3ªlinha), 4 foram classificados erroneamente como
suplente;
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
72
Tavares, Claudio; Bozza, Daniel e Kono, Frank
- dos 101 exemplos (4ªlinha), 100 foram classificados corretamente como
suplente e 1 foi classificado erroneamente como eleito.
Mas como chegou-se ao numero das instâncias classificadas corretamente e
erroneamente no exemplo acima? Para isso, basta analisar o quadro abaixo, no qual
a somatória dos valores, que fazem parte da diagonal marcada como azul,
representam os valores classificados como corretos e os demais valores somados
em
suas
respectivas
diagonais,
correspondem
aos
valores
classificados
erroneamente. Obviamente, na somatória dos valores errados, deve-se excluir os
valores que fazem intersecção com a linha em azul.
FIGURA 12 – MATRIZ DE CONFUSÃO
FONTE: Os autores.
Com isto, obtemos o seguinte resultado:
-
Instâncias classificadas corretamente: 112;
-
Instâncias classificadas erroneamente: 11;
-
Perfazendo um total de 123 instâncias analisadas.
Estes valores, apresentados pela matriz de confusão, são os mesmos que o
algoritmo do weka apresenta, conforme quadro abaixo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
73
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
FIGURA 13 – RESULTADOS WEKA
FONTE: Os autores.
3.4.11.3 Análise da Arvore de Decisão
FIGURA 14 – ARVORE DE DECISÃO
FONTE: Os autores.
Onde os valores tem a seguinte representação:
FIGURA 15 – PERCENTUAL DE ACERTOS
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
74
Tavares, Claudio; Bozza, Daniel e Kono, Frank
Neste artigo, não foram abordadas todas as possibilidades de interpretação
dos resultados do algoritmos J48. As interpretações que aqui foram abordadas
permitirão realizar uma análise inicial dos resultados.
3.4.11.4 Análise Acertos * Erros
Tomando como exemplo parte do resultado do arquivo eleições.arff
sexo = masculino
| anoeleicao > 1996
| |
situacao = eleito
| |
|
votos <= 13
| |
|
|
estcivil = casado: deputadoestadual (37.0/3.0)
O que significam os valores ( 37.0 / 3.0 ):
-
37 significa o número de acertos, ou seja, 37 registros, nos quais a regra
acima se aplica corretamente;
-
3 significa o número de erros, ou seja, 3 registros, nos quais a regra
acima não se aplica corretamente.
3.4.12 Resultado
A tabela abaixo, demonstra os diferentes experimentos realizados para se
encontrar o resultado do weka que mais se aproximasse do desejado, em termos
dos valores dos atributos.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
75
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
TABELA 4 – ETAPAS DOS EXPERIMENTOS
Exp.
E1
E2
Nº
registros
bd original
Nº
registros
treinamento
349.606
349.606
349.606
*
Nº
registro
s testes
*
770
comentário
Inicialmente, foi feito
um teste com todos os
registros de todos os
anos e todas as
cidades.
Ficou
impraticável a análise
Neste momento, foram
gerados os testes com
todos os registros para
que o J48 pudesse
gerar os resultados a
serem analisados.
FONTE: Os autores.
Abaixo serão demonstrados os resultados obtidos com o primeiro
treinamento e com o último treinamento. A análise será subdividida da seguinte
forma:
- análise dos gráficos;
- análise dos resultados gerados pelo J48.
3.4.12.1 Resultado gerado pelos gráficos
No tocante aos gráficos, é possível escolher um dos atributos como chave
para que o resultado seja baseado neste. O atributo escolhido neste momento foi o
atributo sexo. A tela para a escolha do atributo no weka é a seguinte:
FIGURA 16 – ESCOLHA DO ATRIBUTO
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
76
Tavares, Claudio; Bozza, Daniel e Kono, Frank
Os gráficos serão gerados pelo botão “Visualize All“, conforme mostrado na
figura acima. No gráfico gerado pelo botão ,o sexo masculino está representado pela
cor azul e o sexo feminino pela cor vermelha, conforme gráficos abaixo.
A primeira análise feita foi em relação ao Sexo e Idade:
GRÁFICO 1 – RELAÇÃO AO SEXO E IDADE
FONTE: Os autores.
A maior barra representa a faixa de idade, entre 3,947 a 4,316; isso
corresponde à faixa aproximada de 48 a 54 anos, com um total de 288 instâncias, ou
seja 37,4% de todos os registros (770). Observe que a predominância nesta faixa é
do sexo masculino.
A segunda análise feita foi em relação ao sexo e sexo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
77
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
GRÁFICO 2 – RELAÇÃO AO SEXO E SEXO
FONTE: Os autores.
A maior barra corresponde ao sexo masculino, com 705 instâncias, o que
corresponde a 91,56%; já a menor barra corresponde ao sexo feminino, com 65
registros, o que corresponde a 8,44%. Um ponto interessante, levando em
consideração que estes dados referem-se somente à cidade de Curitiba, é que para
o grau de instrução, lê e escreve, somente 3 instâncias foram selecionadas.
A terceira análise feita foi em relação ao sexo e o grau de instrução:
GRÁFICO 3 – RELAÇÃO AO SEXO E GRAU DE INSTRUÇÃO
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
78
Tavares, Claudio; Bozza, Daniel e Kono, Frank
A maior barra, corresponde ao grau de instrução Superior Completo, com
um total de 390 instâncias, o que corresponde a 50,64% de todos os registros (770).
Observe que a predominância é do sexo masculino.
A quarta análise feita foi em relação ao sexo e estado civil:
GRÁFICO 4 – RELAÇÃO AO SEXO E ESTADO CIVIL
FONTE: Os autores.
A maior barra corresponde à situação civil de casado, com um total de 584
instâncias, o que corresponde a 75,85% de todos os registros (770). Observe que a
predominância é do sexo masculino.
A quinta análise foi feita em relação ao sexo e profissão:
GRÁFICO 5 – RELAÇÃO AO SEXO E PROFISSÃO
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
79
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
Neste item será feita menção de três barras. A maior representa a profissão
“outros”. Não se pode afirmar o motivo pelo qual, na base de dados, muitas
instâncias foram classificadas como outros. A segunda maior barra representa a
profissão de “Proprietário de Estabelecimento“, com 77 instâncias, o que representa
a 10% do total. A terceira maior barra representa a profissão de “Advogado”, com 73
instâncias, o que representa 9,48 %. Note que a predominância também é do sexo
masculino.
A sexta análise foi feita em relação ao sexo e partido:
GRÁFICO 6 – RELAÇÃO AO SEXO E PARTIDO POLÍTICO
FONTE: Os autores.
Neste item será feita menção de duas barras. A maior barra representa o
partido “PMDB”, com 105 instâncias, o que representa 13,64 % de todos os
registros. A segunda maior barra representa o partido “PT”, com 99 instâncias, o que
representa 12,87% de todos os registros. Note que a predominância também é do
sexo masculino.
A sétima análise foi feita em relação ao sexo e quantidade de votos:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
80
Tavares, Claudio; Bozza, Daniel e Kono, Frank
GRÁFICO 7 – RELAÇÃO AO SEXO E QUANTIDADE DE VOTOS
FONTE: Os autores.
A maior barra representa a faixa de votos, aproximada entre 4.800 a 15.000
votos, com 191 instâncias, o que representa 24,80%. Note que a predominância
também é do sexo masculino.
A oitava análise foi feita em relação ao sexo e a situação:
GRÁFICO 8 – RELAÇÃO AO SEXO E SITUAÇÃO
FONTE: Os autores.
A maior barra corresponde à situação de “Suplente” com 648 instâncias, o
que representa 84,15% do total de instâncias. Note que a predominância também é
do sexo masculino.Com este gráfico pode-se chegar às seguintes conclusões:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
81
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
-
existe uma predominância da cor azul (sexo masculino) em relação a cor
vermelha (sexo feminino);
-
e a concentração da cor azul para o cargo de suplente.
Uma outra informação que pode ser retirada deste gráfico, é a de se clicar
sobre qualquer um dos “x”, azul ou vermelho, automaticamente, serão demonstradas
todas as informações referentes ao “x” selecionado, ou melhor dizendo, ao “x” que
representa uma determinada instância.
FIGURA 17 – DADOS PONTUAIS DO WEKA
FONTE: Os autores.
3.4.12.1.1 Tendências encontradas
a) Perfil do candidato a suplente de deputado estadual na cidade de Curitiba
- ter idade entre 48 a 54 anos;
- ser do sexo masculino;
- possuir um grau de instrução Superior Completo;
- ser casado;
- ter como profissão proprietário de estabelecimento ou advogado;
- ser filiado aos partidos PMBD ou PT.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
82
Tavares, Claudio; Bozza, Daniel e Kono, Frank
Um fato marcante em todos as relações é que o sexo masculino predominou
em todos os atributos.
b) Perfil do candidato vencedor em relação ao atributo Sexo
Observe a tabela abaixo:
TABELA 5 – RELAÇÃO SEXO * SUCESSO
Sexo
Candidatos Suplentes
% Sucesso
Masculino
705
587
82,26
Feminino
65
61
93,85
FONTE: Os autores.
Onde:
-
candidatos: refere-se à quantidade total de candidatos, nos anos de 1994
e 1998;
-
suplentes: quantidade de candidatos que alcançaram a posição de
suplente de deputados estadual;
-
% de sucesso: representa a relação em (%) entre o total de candidatos *
suplentes / por 100.
No ano de 1994, as mulheres tiveram um desempenho muito melhor do que
os homens, pois 5% do total de mulheres candidatas foram eleitas, em contrapartida,
somente 2,33% dos candidatos homens se elegeram. O gráfico abaixo, ilustra a
distribuição de candidatos em relação ao sexo:
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
83
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
GRÁFICO 9 – DISTRIBUIÇÃO DE CANDIDATOS EM RELAÇÃO AO SEXO
FONTE: Os autores.
c) Perfil em relação ao grau de instrução e idade
No gráfico abaixo, pode-se visualizar que existe uma distribuição bastante
proporcional referente ao grau de instrução, onde cada cor representa um nível de
escolaridade (eixo x) em relação a faixa de idade (eixo x ):
GRÁFICO 10 – DISTRIBUIÇÃO REFERENTE AO GRAU DE INSTRUÇÃO
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
84
Tavares, Claudio; Bozza, Daniel e Kono, Frank
d) Perfil em relação ao grau de instrução e sexo
No gráfico abaixo, é possível visualizar a relação entre sexo e grau de
instrução. Note que a maior concentração para ambos os sexos é o grau de
instrução superior completo.
GRÁFICO 11 – RELAÇÃO ENTRE SEXO E GRAU DE INSTRUÇÃO
FONTE: Os autores.
e) Perfil do grau de instrução na cidade de Curitiba
O gráfico abaixo, demonstra que, na cidade de Curitiba, pouquíssimos são
os candidatos com grau de instrução ( lê e escreve):
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
85
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
GRÁFICO 12 – GRAU DE INSTRUÇÃO EM CURITIBA
FONTE: Os autores.
4 RESULTADOS GERADOS PELO ALGORITMO J48
Foi utilizado o método de classificação e o algoritmo J48. Os parâmetros do
J48 alterados foram os seguintes:
TABELA 6 – PARÂMETROS DO J48
C
confidence: escolhe o fator de
confiança inicial para a podar
-> default:0.25
M escolhe o número mínimo de
instâncias por folha ->
default:2
FONTE: Os autores.
Onde:
C = 0.9
M = 0.25
Os demais atributos foram mantidos com os valores default do J48.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
86
Tavares, Claudio; Bozza, Daniel e Kono, Frank
Os resultados que serão apresentados e suas respectivas análises, tomaram
como base a argumentação teórica apresentada no item 3.4.11 Interpretando os
dados gerados pelo J48 no weka e o item 3.4.9.1 Buscando o arquivo .arff . Ao
aplicar o arquivo .arff ao algoritmo, inicialmente temos um resumo gerado pelo J48
com relação as regras, atributos e instâncias analisadas:
FIGURA 18 – ALGORITMO J48
FONTE: Os autores.
Este é o cabeçalho do resultado do J48, no qual tem-se as seguintes
informações:
- Schema: que demonstra o metódo, o algoritmo e os parametros utilizados;
- Relation: informa o nome do arquivo .arff e dois dos parâmetros que foram
removidos.
Os parâmetros aqui removidos foram cargo e ano da eleição, isso porque o
único valor para o atributo cargo, no arquivo .arff, é suplente de deputado estadual e
os anos são de 1994 e 1998, visto que, neste momento, a temporalidade não era
importante.
- Instances: total de instancias analisadas;
- Abribute: relação dos atributos analisados;
- Test-mode: informa que será realizada cross-validation.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
87
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
Posteriormente, o J48 gera várias regras sobre a relação existente entre os
atributos. Estas regras irão, posteriormente, dar origem à árvore:
FIGURA 19 – REGRAS GERADAS
FONTE: Os autores.
As informações abaixo, demonstram o tamanho da árvore que será gerada:
FIGURA 16 – NÍVEIS DA ÁRVORE
FONTE: Os autores.
Onde,
- J48 pruned tree: indica que será feita a poda na árvore;
- logo após é montada uma série de linhas classificatórias, na qual se
demonstra a regra e os valores para os atributos;
- Number of leaves: número de níveis que a árvore gerou;
- Size of the tree: o tamanho da árvore.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
88
Tavares, Claudio; Bozza, Daniel e Kono, Frank
No weka, é possível visualizar a árvore gerada para as regras acima
mencionadas, executando os seguinte passos: Após o J48 ter concluído o seu
processamento de um clique com o botão direito do mouse sobre a última linha do
campo Result list e escolha a opção Visualize tree.
FIGURA 20 – CHAMADA DA ÁRVORE
FONTE: Os autores.
Será, então, apresentada a árvore gerada pelo weka:
FIGURA 21 – ARVORE DE DECISÃO
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
89
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
É necessário que a árvore acima seja expandida para melhor visualização.
Outro conjunto de informações muito importante é referente ao sumário, ou seja, um
breve resumo do que foi gerado pelo J48:
FIGURA 22 – RESULTADO J48
FONTE: Os autores.
- Correctly classified instances: representa o número de instâncias
classificadas corretamente;
- Incorrectly classified instances: representa o número de instâncias
classificadas de forma errada.
Um dos parâmetros do J48 alterados foi o C 0.9 ou seja, desejava-se
alcançar 90% de sucesso, mas o J48 retornou um sucesso de 92.4675 %, bem
acima do desejado. Também, é apresentada uma tabela informando, dentre muitos
parâmetros, o fator de precisão:
FIGURA 23 – RESULTADO J48
FONTE: Os autores.
Nota-se nesta tabela o seguinte: o fator de precisão de acerto, para o cargo
de suplente, foi de 96.4%, o mais alto dentre todos os cargos; muito importante, visto
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
90
Tavares, Claudio; Bozza, Daniel e Kono, Frank
que o objetivo inicial do trabalho era o de encontrar uma tendência para os
candidatos ao cargo de suplente de deputado estadual.
Já a matriz de confusão, conforme apresentada na figura abaixo, é muito
importante para que se possa extrair informações valiosas.
FIGURA 24 – MATRIZ DE CONFUSÃO
FONTE: Os autores.
Da matriz de confusão podem-se extrair as seguintes informações:
- de todos os 770 registros analisados, o J48 conseguiu classificar
corretamente 712 ,sendo que estes estão subdivididos da seguinte forma:
•
76 – cargo eleito
•
1 – cargo media
•
13 – não eleito
•
622 - suplente
- de todos os 770 registros analisados, o J48 classificou erroneamente 58,
sendo que estes estão subdivididos da seguinte forma:
• dos 17 registros que eram para ser classificados como eleito, 4
foram classificados como média e 13 como suplente;
• dos 14 registros que eram para ser classificados como média, 5
foram classificados como eleito e 9 como suplente;
• do total de 1 registro que era para ser classificado como não eleito,
este 1 foi classificado como suplente;
• dos 26 registros que eram para ser classificados como suplente, 21
foram classificados como eleito, 3 como média e 2 com não eleito.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
91
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
Para chegar a esta conclusão basta somar todos os valores de cada
linha, excluindo os valores que fazem parte da diagonal que inicia-se em (a,a) e
termina em (a,e).
5 CONCLUSÕES
Os dados analisados vêm a comprovar um fato já conhecido, o de que as
pessoas do sexo masculino têm uma representatividade muito maior na Câmara dos
Deputados do que as mulheres. Mas, outro fato muito interessante é que as
mulheres têm um desempenho muito melhor do que os homens, quando estas se
elegem, o que nos leva à seguinte indagação:
-
qual o diferencial que as mulheres tem em relação aos homens para ter
um melhor desempenho ?
-
será que os eleitores homens tem votado nas mulheres acreditando
neste potencial? ou será que as eleitoras mulheres tem votado na
candidata mulher, como uma forma de revolta contra o desempenho
masculino ?
Sabe-se que as mulheres tem alcançado, com muita naturalidade, os postos
que, anteriormente, eram de exclusividade masculina e isto também fica evidenciado
pelos resultados deste trabalho, pois se elas, “ candidatas mulheres“, continuarem a
ter um desempenho melhor do que os homens, logo o quadro no cenário político
será revertido, ou seja, haverá mais mulheres na política do que homens.
Um ponto interessante, é o de que o nível de escolaridade dos candidatos
eleitos tem sido não inferior ao Superior Completo, o que reflete o anseio da
sociedade, no tocante a colocar no meio político pessoas mais esclarecidas, mais
cultas, com uma visão mais ampla do todo.
Normalmente, quando uma pessoa necessita de um conselho acerca de
alguma decisão, irá buscar esta ajuda com pessoas mais velhas e mais experientes,
o que deixa claro que pessoas de mais idade tem mais experiência na vida.Em
relação a isto, os dados encontrados na aplicação do algoritmo, demonstraram que
os candidatos eleitos estavam na faixa dos 45 aos 55 anos, ou seja, acima da
metade da sua vida; isso, se considerarmos a expectativa de vida em,
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
92
Tavares, Claudio; Bozza, Daniel e Kono, Frank
aproximadamente, 90 anos, o que vem a afirmar que a sociedade também acredita
que candidatos com idade média têm experiências suficientes para auxiliar a
sociedade em seus problemas, fazendo para isso uso de seu poder político.
Outro fato muito interessante, é em relação à profissão do candidato, pois a
facilidade de comunicação, a habilidade de convencimento está diretamente
relacionada entre o político e a população. Com base nisto, foi identificado que as
duas profissões que tiveram o maior destaque foram a de proprietário de
estabelecimento comercial e advogado, duas profissão que estão diretamente
envolvidas com o público exercendo seu poder de convencimento e habilidade em
técnicas de relacionamento. Será que é por acaso que os políticos tem tais
habilidades ?
Artigo recebido em 23/04/2007 e aprovado em 15/05/2007.
REFERÊNCIAS
CAMEIRÃO, A. J. “Esboço” da NETLIG - A rede de “antigos alunos da LIG”.
Universidade do Minho, Escola de Engenharia, Licenciatura em Informática de
Gestão, OPÇÃO III - Tecnologias e Sistemas de Informação, 2004/2005. Disponível:
http://72.14.205.104/search?q=cache:iVPvv5OgFL4J:papadocs.dsi.uminho.pt:8080/retrieve/7
37/Relat%C3%B3rio.pdf+%22Aurora+Jo%C3%A3o+Cameir%C3%A3o%22&hl=ptBR&ct=clnk&cd=1&gl=br&lr=lang_pt
CARVALHO, L, A. V. de. Datamining: a mineração de dados no Marketing,
Medicina, Economia, Engenharia e Administração. São Paulo: Ciência Moderna,
2006.
DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de
dados. Acta Scientiarum, UEM - Maringá - PR, v. 24, n. 6, p. 1715-1725, 2002.
MALUF, R. T. A Carreira Política na Câmara Municipal de São Paulo. Doutorado
em Ciência Política. Universidade de São Paulo, USP, Brasil, 2006.
MARTINHAGO, S. Descoberta de conhecimento sobre o processo seletivo da
UFPR. Dissertação de Mestrado em Ciências, do Programa de Pós-graduação em
Métodos Numéricos em Engenharia, Departamento de Matemática, Setor de
Ciências Exatas e Departamento de Construção Civil, Setor de Tecnologia da
Universidade
Federal
do
Paraná,
2005.
Disponível
em:
http://www.ppgmne.ufpr.br/dissertacoes/D120_Sergio_Martinhago06072005.pdf
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
93
DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS
SENKO, L.G. M. Um Método Baseado em Lógica Paraconsistente para
Detecção de Inconsistências em Classificadores à Base de Regras. Mestrado
em Informática Aplicada. Pontifícia Universidade Católica do Paraná, PUC-PR,
Brasil, 2006.
SILVA, M. P. dos S. Análise de episódios de tornados em Santa Catarina:
caracterização sinótica e mineração de dados. Mestrado em Sensoriamento
Remoto, Instituto Nacional de Pesquisas Espaciais, INPE, Brasil, 2003.
SILVA, M. P. dos S. SKDQL Uma Linguagem Declarativa de Especificações de
Consultas e Processos para Descoberta de Conhecimento em Bancos de
Dados e sua Implementação. Mestrado em Ciências da Computação. Universidade
Federal de Pernambuco, UFPE, Brasil, 2003.
TSE - Tribunal Superior Eleitoral. “Bases de Dados das Eleições”, Disponível em:
http://www.tse.gov.br, Junho, 2006.
TSUNODA, D. F. Abordagens evolucionárias para a descoberta de padrões e
classificação de proteínas. Doutorado em Pós Graduação em Engenharia Elétrica
e Informática. Universidade Tecnológica Federal do Paraná, UTFPR, Brasil, 2004.
ANEXOS
ANEXO 1 – TABELA DE DADOS DO WEKA
FONTE: Os autores.
Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
94
Download