Avaliação do perfil do aluno que pretende ingressar no Instituto

Propaganda
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA FLUMINENSE
CAMPUS CAMPOS-CENTRO
TECNÓLOGO EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS
PATRÍCIA SANTANA CARDOSO
TAIANE ROSA DE AZEREDO
AVALIAÇÃO DO PERFIL DO ALUNO QUE PRETENDE INGRESSAR NO
INSTITUTO FEDERAL FLUMINENSE ATRAVÉS DE MINERAÇÃO DE DADOS.
Campos dos Goytacazes – RJ
2016
PATRÍCIA SANTANA CARDOSO
TAIANE ROSA DE AZEREDO
AVALIAÇÃO DO PERFIL DO ALUNO QUE PRETENDE INGRESSAR NO
INSTITUTO FEDERAL FLUMINENSE ATRAVÉS DE MINERAÇÃO DE DADOS
Trabalho de conclusão de curso apresentado ao
Instituto Federal de Educação, Ciência e
Tecnologia Fluminense Campus Campos Centro
como requisito parcial para a conclusão do Curso
de Tecnólogo em Análise e Desenvolvimento de
Sistemas.
Orientadora: Profª. Renata Mesquita Da Silva
Santos
Campos dos Goytacazes – RJ
2016
AGRADECIMENTOS
Primeiramente agradecemos a Deus, por nos ter permitido chegar ao fim
deste trabalho.
Aos nossos pais, obrigada por nos ensinar a enfrentar a vida e incentivar
sempre na busca pelo nosso crescimento pessoal e profissional, não medindo
esforços para isto. Não seriamos nada sem o amor e sabedoria de vocês. Não
podemos deixar de agradecer a todos nossos familiares e amigos, por todo incentivo
e apoio que nos deram durante esta fase de nossas vidas.
Agradecemos à professora e orientadora Renata Mesquita, por suas
importantes contribuições para a conclusão deste trabalho, por dedicar seu tempo
para nos orientar. Obrigada por ter confiado em nossa capacidade, pelas palavras
de incetivo. Com certeza nos motivou ainda mais a chegar até aqui.
Agradecemos aos professores do Instituto Federal Fluminense Campus
Campos Centro pelos conhecimentos repassados e aos nossos colegas, que
sempre estiveram presente em cada fase.
Agradecemos a todos que de alguma forma contribuíram nesta fase
importante de nossas vidas. Nosso muito Obrigada.
“A tarefa não é tanto ver aquilo que ninguém
viu, mas pensar o que ninguém ainda
pensou sobre aquilo que todo mundo vê.”
(Arthur Schopenhauer)
RESUMO
Todo sistema gera uma base de dados, dados estes que podem ser
extraídos, e a partir deles podemos realizar análises que permitam uma melhor
utilização, uma melhoria e até mesmo a descoberta de conhecimento.
Esse estudo apresenta como se pode utilizar a Mineração de Dados, voltada
para a área educacional. Neste sentido, foram aplicadas as técnicas de
Clusterização e Associação utilizando uma rica base de dados, coletada no ato da
inscrição de um futuro ingressante para um processo seletivo, por meio do
preenchimento do formulário socioeconômico. A pesquisa aborda por meio de um
levantamento bibliográfico conceitos sobre Mineração de Dados com suas técnicas e
tarefas finalizando com a ferramenta de mineração WEKA. Por meio desta pesquisa,
foi possível traçar o perfil predominante dos alunos, observar qual o perfil dos alunos
dos cursos mais procurados, bem como avaliar os resultados com a aplicação das
técnicas de Mineração de dados. Desta forma, como um dos resultados obtidos
observou-se que a aplicação de técnicas de Mineração de Dados pode ser um
poderoso instrumento para a gestão das informações na área educacional.
Palavras-chave: Mineração de dados Educacionais, Associação, Clusterização;
ABSTRACT
All system generates a database, data that can be extracted and from them
we can perform analyses that allow a better utilization, an improvement and even the
discovery of knowledge.
This study presents how we can use the data mining for the educational area,
for both were applied Clustering and Association techniques using a rich data base,
collected at the time of inscription of a future ingressante for a selection process by
means of
the
socio-economic
form.
The
research
addresses
through
a
bibliographical survey concepts about data mining with its techniques and tasks
finishing with the mining tool WEKA. Through this research, it was possible to trace
predominant profile of students, observe which courses most sought by a particular
profile, as well as evaluate the results with the implementation of these tasks. Thus,
as one of the results was that the implementation of a data mining tool can be a
powerful tool for the management of information in the educational area.
Keywords: Mining Education Data, Association, Clustering
ÍNDICE DE FIGURAS
Figura 1: Visão geral das etapas que compõem o processo de KDD (FAYYAD et al.,
1996)............................................................................................................................18
Figura 2: Relacionamento entre as atividades e tarefas de Mineração de Dados,
adaptado de (CONTI, 2011)........................................................................................24
Figura 3: Algoritmo K-means básico (STEINBACH, 2009).........................................27
Figura 4: Usando o Algoritmo K-means para encontrar três grupos nos dados de
exemplo(STEINBACH et al., 2009).............................................................................27
Figura 5: Equação do Algoritmo K-means (SILVA, 2010)...........................................28
Figura 6: Algoritmo Apriori...........................................................................................30
Figura 7: Interface gráfica de inicialização do Weka..................................................34
Figura 8: Campus com seus respectivos cursos ofertados........................................36
Figura 9: Resultado da execução do algoritmo Apriori...............................................42
ÍNDICE DE TABELAS
Tabela 1: Clusterização por nivel de ensino................................................................44
Tabela 2: Clusterização pela modalidade...................................................................46
Tabela 3: Clusterização por área de conhecimento....................................................48
Tabela 4: Clusterização por curso – nivel superior.....................................................51
Tabela 5: Clusterização por curso – nivel técnico integrado.......................................53
Tabela 6: Clusterização por curso – nivel técnico.......................................................55
LISTA DE ABREVIATURAS E SIGLAS
KDD
Knowledge Discovery in Databases
DCBD
Descoberta de Conhecimento em Bases de Dados
EDM
Mineração de Dados Educacionais
EAD
Educação a Distancia
AVA
Ambiente Virtual de Aprendizado
UFRJ
Universidade Federal do Rio de Janeiro
JEDM
Journal of Educational Data Mining
IFF
Instituto Federal Fluminense
ODM
Oracle Data Mining
MDE
Mineração de Dados Educacionais
BD
Banco de Dados
STI
Sistemas Tutores Inteligentes
WEKA
Waikato Environment for Knowledge Analysis
SUMÁRIO
1. INTRODUÇÃO........................................................................................................12
1.1 PROBLEMA...........................................................................................................12
1.2 OBJETIVO.............................................................................................................12
1.3 JUSTIFICATIVA.....................................................................................................13
1.4 ESTRUTURA DO TRABALHO..............................................................................14
2. DESCOBERTA DO CONHECIMENTO EM BASE DE DADOS EDUCACIONAIS. 15
2.1 PROCESSO SELETIVO.......................................................................................15
2.2 MINERAÇÃO DE DADOS EDUCACIONAIS........................................................15
2.3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS............................17
2.3.1 PRÉ-PROCESSAMENTO..................................................................................19
2.3.1.1 SELEÇÃO....................................................................................................20
2.3.1.2 LIMPEZA......................................................................................................20
2.3.1.3 TRANSFORMAÇÃO....................................................................................20
2.3.2 MINERAÇÃO DE DADOS..................................................................................21
2.3.3 PÓS-PROCESSAMENTO..................................................................................21
2.3.4 DESAFIOS MOTIVADORES..............................................................................22
2.3.5 TAREFAS DE MINERAÇÃO DE DADOS..........................................................23
2.3.6 TÉCNICAS DE MINERAÇÃO DE DADOS........................................................25
2.3.6.1 K-MEANS.....................................................................................................26
2.3.6.1.1 FUNCIONAMENTO DO ALGORITMO K-MEANS BÁSICO.....................26
2.3.6.2 APRIORI.......................................................................................................29
2.3.6.2.1 FUNCIONAMENTO DO ALGORITMO APRIORI.....................................29
2.3.7 FERRAMENTAS DE MINERAÇÃO....................................................................31
2.3.7.1 WEKA...........................................................................................................33
3. ESTUDO DE CASO................................................................................................35
3.1 DESCRIÇÃO DO CENÁRIO.................................................................................35
3.2 DESCOBERTA DE CONHECIMENTO EM DADOS DOS PROCESSOS
SELETIVOS.................................................................................................................37
3.3 PRÉ-PROCESSAMENTO.....................................................................................38
3.3.1 SELEÇÃO.......................................................................................................38
3.3.2 LIMPEZA.........................................................................................................39
3.3.3 TRANSFORMAÇÃO.......................................................................................40
3.4 MINERAÇÃO DE DADOS.....................................................................................40
3.5 PÓS-PROCESSAMENTO.....................................................................................41
3.5.1 EXECUÇÃO DO ALGORITMO APRIORI.......................................................42
3.5.2 EXECUÇÃO DO ALGORITMO K-MEANS.....................................................44
3.5.2.1 CLUSTERIZAÇÃO POR NIVEL DE ENSINO..............................................44
3.5.2.2 CLUSTERIZAÇÃO DE ACORDO COM MODALIDADE..............................46
3.5.2.3 CLUSTERIZAÇÃO DE ACORDO COM A ÁREA DE CONHECIMENTO....48
3.5.2.4 CLUSTERIZAÇÃO DE ACORDO COM O CURSO.....................................50
3.5.2.4.1 NIVEL SUPERIOR....................................................................................51
3.5.2.4.2 NIVEL TÉCNICO INTEGRADO................................................................52
3.5.2.4.3 NIVEL TÉCNICO.......................................................................................54
4. CONSIDERAÇÕES FINAIS....................................................................................57
4.1 CONCLUSÕES.....................................................................................................57
4.2 TRABALHOS FUTUROS......................................................................................58
REFERÊNCIAS BIBLIOGRÁFICAS............................................................................59
ANEXO – FORMULÁRIO SOCIOECONÔMICO........................................................62
12
1. INTRODUÇÃO
1.1 PROBLEMA
Ao longo do ano, são realizados diversos processos seletivos no Instituto
Federal Fluminense, sendo estes para nível médio, técnico, superior e pósgraduação. Cada processo gera uma enorme e rica base de dados que ficam
apenas armazenados para alguma possível consulta futura, para produção de dados
estatísticos quando necessário, e que se extraídos de modo eficaz viabilizam a
Instituição a aplicação de formas de melhorias na oferta dos cursos e
disponibilização das vagas para melhor atender aos futuros ingressantes.
O reconhecimento das informações disponibilizadas pelos futuros inscritos
através do preenchimento de formulários, sendo um destes o socioeconômico,
representa uma excelente oportunidade para a descoberta de conhecimento.
No entanto, esta descoberta não é uma tarefa trivial. O grande volume de
dados, as diferentes informações coletadas, o grande número de perfis possíveis
torna o trabalho de extração de conhecimento uma tarefa que exige a utilização de
técnicas sofisticadas (SILVA, 2010).
Devido a grande quantidade de dados que são obtidos no ato da inscrição no
processo seletivo da Instituição, identificamos uma base rica em informações, o que
nos motivou a elaboração deste trabalho. O problema a ser conhecido neste
trabalho refere-se à utilização de tarefas e métodos de Mineração de Dados, com o
objetivo de descobrir conhecimento a partir da determinação de relações entre os
dados armazenados. Através de modelos de Descoberta de Conhecimento em
Bases de Dados (DCBD) pretende-se estabelecer um conjunto de possíveis perfis
de aluno, com a consequente geração de conhecimento.
1.2 OBJETIVO
O objetivo geral consiste em aplicar tarefas e métodos de Mineração de
Dados para identificar o perfil do aluno que deseja ingressar no Instituto Federal
13
Fluminense.
Os objetivos específicos deste trabalho consistem em:
•
Avaliar os diferentes perfis dos alunos que desejam ingressar na Instituição.
•
Avaliar os cursos mais procurados por determinado perfil.
•
Avaliar as técnicas de Mineração de Dados
•
Avaliar os resultados obtidos com aplicação destas técnicas.
1.3 JUSTIFICATIVA
A análise dos dados obtidos no ato do preenchimento socioeconômico é
importante, pois seu resultado permite conhecer um pouco mais sobre a realidade
daqueles que tem por objetivo ingressar no Instituto Federal Fluminense, podendo
traçar assim o perfil dos alunos e verificar quais os cursos mais procurados.
Com o intuito de aprofundar mais esse conhecimento, esta pesquisa realizou
o processo de Mineração de Dados, que nada mais é do que Descoberta do
Conhecimento. O processo de DCBD consiste de diversos passos que são
iterativamente e interativamente realizados. Estes passos são sempre categorizados
em fases de pré-processamento, geração e verificação de hipóteses, e pósprocessamento (KLÖSGEN & ZYTKOW, 2002, p. 2 apud OGLIARI, 2002).
De acordo com Baker (2011), a Mineração de Dados Educacionais – MDE,
(do inglês EDM – Educational Data Mining) é uma área recente de pesquisa que tem
como principal objetivo o desenvolvimento de métodos para explorar conjuntos de
dados coletados em ambientes educacionais. Atualmente ela vem se estabelecendo
como uma forte e consolidada linha de pesquisa que possui grande potencial para
melhorar a qualidade do ensino. Apesar dos esforços de pesquisadores brasileiros,
essa área ainda é pouco explorada no país.
Seguindo a linha dos cursos a distância, Gottardo et al. (2012) destaca que os
Ambiente Virtual de Aprendizado (AVA) tem se tornado uma ferramenta fundamental,
e que estes ambientes armazenam grandes volumes de dados relativos às
14
atividades desenvolvidas pelos estudantes. Estes dados podem ser utilizados com
as técnicas de Mineração de Dados para a descoberta de informações que auxiliem
professores na gestão do processo de ensino.
Manhães et al. (2011) destaca a identificação precocemente alunos em risco
de evasão nos cursos de graduação, por meio da aplicação de técnicas de
Mineração de Dados, que oferece diversos algoritmos que podem ser empregados
para identificar alunos em risco de abandono.
1.4 ESTRUTURA DO TRABALHO
A partir desta Introdução, o restante do trabalho está organizado da seguinte
maneira:
Capítulo 2 trata a mineração de dados voltado para o âmbito educacional de
onde veio nossa inspiração para realização deste trabalho.
Capítulo 3 aborda a descoberta do conhecimento em base de dados e os
processos que são feitos nesta fase, também são apresentados os motivos que
fizeram com que a mineração de dados se tornasse tão importante, explica-se as
tarefas e as técnicas que são utilizadas e são apresentadas as ferramentas
disponíveis para este tipo de trabalho.
Capítulo 4 apresenta o estudo de caso explicando sobre o processo seletivo e
como se dá a oferta de vagas, explicando o que foi feito e como foi feito, mostrando
os resultados obtidos através destas análises de maneira minuciosa.
Por fim, o Capítulo 5 fala sobre a conclusão do trabalho, as considerações
que podem ser feitas de acordo com o estudo que foi realizado e apresenta
sugestões de trabalhos futuros.
15
2. DESCOBERTA DO CONHECIMENTO EM BASE DE DADOS
EDUCACIONAIS
2.1 PROCESSO SELETIVO
Os processos seletivos em geral são regidos pela Lei de nº 9.394 – Lei de
Diretrizes e Bases da Educação Nacional de 20 de dezembro 1996. Para cada novo
processo é necessário a publicação de um edital, contendo algumas regras
determinadas pela justiça.
Dentre estas, pode-se destacar a regra de atendimento especial para
portadores de necessidade, regra de cota, seja ela por cor ou renda e a regra de
desempate na classificação.
No entanto, a maneira em que a inscrição é feita é uma particularidade de
cada instituição, sendo o preenchimento do formulário socioeconômico para
inscrição uma particularidade determinada pelo Instituto Federal, com o objetivo da
realização de trabalhos futuros, não tendo este nenhuma determinação por lei.
2.2 MINERAÇÃO DE DADOS EDUCACIONAIS
O termo Mineração de Dados, também conhecido como Descoberta de
Conhecimentos em Bancos de Dados – DCBD, ou KDD (do inglês, “Knowledge
Discovery in Databases”), refere-se a disciplina que tem como objetivo descobrir
“novas” informações através da análise de grandes quantidades de dados (WITTEN,
I.H.; FRANK apud BAKER, 2011). O termo “novas informações” refere-se ao
processo de identificar relações entre dados que podem produzir novos
conhecimentos e gerar novas descobertas científicas.
Segundo Baker (2011), as informações sobre a relação entre dados e,
posteriormente a descoberta de conhecimento, podem ser muito úteis para realizar
atividades de tomada de decisão. Por exemplo, ao minerar os dados de um estoque
de supermercado poderia se descobrir que todas as sextas-feiras uma marca
específica de cerveja se esgota nas prateleiras e, portanto, um gerente que obtém
esta “nova informação” poderia planejar o estoque do supermercado para aumentar
16
a quantidade de cervejas desta marca as sextas-feiras. Analogamente, é possível
minerar dados de alunos para verificar a relação entre uma abordagem pedagógica
e o aprendizado do aluno. Através desta informação o professor poderia
compreender se sua abordagem realmente está ajudando o aluno e desenvolver
novos métodos de ensino mais eficazes. A Mineração de Dados tem sido aplicada
em diversas áreas do conhecimento, como por exemplo, vendas, bioinformática, e
ações contra-terrorismo. Recentemente, com a expansão dos cursos a distância e
também daqueles com suporte computacional, muitos pesquisadores da área de
Informática na Educação (em particular, Inteligência Artificial Aplicada à Educação)
têm mostrado interesse em utilizar mineração de dados para investigar perguntas
científicas na área de educação (e.g. quais são os fatores que afetam a
aprendizagem? Ou como desenvolver sistemas educacionais mais eficazes?).
Dentro deste contexto, surgiu uma nova área de pesquisa conhecida como
“Mineração de Dados Educacionais” (do inglês, “Educational Data Mining”, ou EDM)
(BAKER, 2011).
A área emergente de Mineração de Dados Educacionais procura desenvolver
ou adaptar métodos e algoritmos de mineração existentes, de tal modo que se
prestem a compreender melhor os dados em contextos educacionais, produzidos
principalmente por estudantes e professores, considerando os ambientes nos quais
eles interagem, tais como AVAs, Sistemas Tutores Inteligentes (STIs), entre outros
(COSTA, 2012). Por exemplo, é possível identificar em que situação um tipo de
abordagem instrucional (e.g. aprendizagem individual ou colaborativa) proporciona
melhores benefícios educacionais ao aluno. Também é possível verificar se o aluno
está desmotivado ou confuso e, assim, personalizar o ambiente e os métodos de
ensino para oferecer melhores condições de aprendizagem (BAKER, 2011).
A comunidade de EDM vem crescendo rapidamente. Em 2008 criou-se a
Conferência Internacional sobre Mineração de Dados Educacionais (International
Conference on Educational Data Mining), evento este que se estabeleceu e ganhou
regularidade de realização anual após uma sequência de workshops bem-sucedidos
realizados anualmente desde 2004. Em 2009, esta sociedade investiu na criação de
um periódico e publicou o seu primeiro volume do JEDM (Journal of Educational
Data Mining). Além da consolidação da conferência e da revista na área de EDM, a
17
comunidade também publicou dois livros sobre o assunto em 2006 e 2010 (ata
Mining in e-learning e Handbook of Educational Data Mining). Enfim, a área de EDM
está bem consolidada internacionalmente, mas, ainda dando os seus primeiros
passos no Brasil, ficando a produção por conta de algumas poucas iniciativas de
pesquisas isoladas (BAKER, 2011).
2.3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
As duas últimas décadas foram marcadas por um avanço dramático na
computação e tecnologia em geral. Tais avanços trazem consigo uma quantidade de
informações antes inimagináveis. O valor destes dados armazenados está
diretamente ligado à capacidade de extrair informações uteis de mais alto nível que
se encontra subjacente a estes dados, ou seja, informação útil que pode ser utilizada
no entendimento do fenômeno gerador dos dados. Podem existir padrões de
vinculações neste amontoado de informações que são uteis, por exemplo, para
aperfeiçoar um processo de negócio em uma empresa, na análise de resultados de
estudos científicos, sugerir tendências e desvendar particularidades (BUENO &
VIANA, 2012).
Nesse contexto à área de conhecimento Knowledge Discovery in Databases
(KDD), que em português tem a designação de “Descoberta de Conhecimento em
Bases de Dados (DCBD)”, tem como objetivo principal extrair conhecimento a partir
de grandes bases de dados. Para isto ele envolve integrações com diversas áreas
de conhecimento, tais como: estatística, matemática, bancos de dados (BD),
inteligência artificial, visualização de dados e reconhecimento de padrões
(CASTANHEIRA, 2008).
Segundo Fayyad et al. (1996), o modelo tradicional para transformação dos
dados em informação (conhecimento) consiste em um processamento manual de
todas essas informações por especialistas que, então, produzem relatórios que
deverão ser analisados. Na grande maioria das situações, devido ao grande volume
de dados, esse processo manual torna-se impraticável, portanto concordamos com
Fayyad quando ele diz que:
18
[…]Há uma necessidade urgente de uma nova geração de
teorias computacionais e ferramentas para ajudar os seres
humanos a extrair informações(conhecimento) úteis dos
volumes de rápido crescimento de dados digitais. (FAYYAD et
al., 1996, p.1)
Ainda segundo Fayyad et al. (1996), o KDD é uma tentativa de solucionar o
problema causado pela chamada “era da informação”: a sobrecarga de dados. Para
ele o KDD refere-se a todo o processo de descoberta de conhecimento útil a partir
de dados e a Mineração de Dados refere-se a uma determinada etapa neste
processo. O KDD é um processo não trivial, interativo e iterativo, envolvendo vários
passos, além de ser um processo de conversão de dados brutos em informações
úteis, conforme mostrado na Figura 1.
Figura 1: Visão geral das etapas que compõem o processo de KDD (FAYYAD et al.,
1996)
Sendo que as etapas de Seleção, Pré-Processamento e Transformação
dizem respeito à preparação dos dados, ou seja, ao Pré-Processamento. Em
seguida, tem-se a fase de Mineração de Dados, sendo esta a etapa principal do
processo. Por fim, a etapa de Avaliação, na qual é realizada análise e assimilação
dos resultados, ou seja, o Pós-Processamento (apud SILVA, 2010).
As atividades de KDD são classificadas em três classes:
19
1. Pré-Processamento: responsável por transformar os dados de entrada
brutos em um formato apropriado para análises subsequentes
(STEINBACH et al., 2009);
2. Mineração de Dados: responsável por realizar buscas efetivas por
conhecimentos úteis em um KDD (GOLDSCHIMIDT, 2005); e
3. Pós-Processamento: abrange o tratamento do conhecimento obtido
pela etapa de mineração de dados, assegurando que apenas
resultados válidos e úteis sejam incorporados ao sistema de apoio a
decisões (STEINBACH et al., 2009).
2.3.1 PRÉ-PROCESSAMENTO
A etapa de Pré-Processamento engloba uma análise inicial dos dados para
se ter sólidas definições dos mesmos (tais como, estrutura das tabelas, valores
potenciais dos atributos, sistema fonte original, formatos e tipos de dados), além
de toda e qualquer operação necessária para a escolha dos dados relevantes
aos objetivos do usuário, limpeza e transformação dos mesmos para tornar
possível a Mineração de Dados a ser feita pela técnica escolhida (NEVES, 2003).
De acordo com Mannila apud Castanheira (2008), a fase de préprocessamento é a mais complexa, podendo tomar até 80% de todo o tempo do
processo e precisa ser feita com especialistas que conhecem bem o domínio de
aplicação dos dados, já que suas atividades são, por exemplo, a integração de
dados heterogêneos e a eliminação de incompletude dos dados. Além disso, podem
aparecer problemas que são específicos para cada aplicação e que, dessa forma,
precisam ser resolvidos com soluções específicas.
Os dados de entrada podem ser armazenados em uma diversidade de
formatos (arquivos simples, planilhas, ou tabelas relacionais) e podem ficar em um
repositório central de dados ou serem distribuídos em múltiplos locais. O propósito
do pré-processamento é transformar os dados de entrada brutos em um formato
apropriado
para
análises
subsequentes.
Os
passos
envolvidos
no
pré-
20
processamento de dados incluem a fusão de dados de múltiplas fontes, a limpeza
dos dados para remoção de ruídos, observações duplicadas, a seleção de registros
e características que sejam relevantes à tarefa de mineração de dados. Por causa
das muitas formas através das quais os dados podem ser coletados e armazenados,
o pré-processamento de dados talvez seja o passo mais trabalhoso e demorado no
processo geral de descoberta de conhecimento (STEINBACH et al., 2009).
A etapa de Pré-Processamento é composta pelas seguintes sub-fases:
seleção, limpeza e transformação de dados.
2.3.1.1 SELEÇÃO
A seleção de dados envolve a escolha da(s) tabela(s), atributos e instâncias
da(s) mesma(s) em relação aos objetivos do usuário, considerando-se ainda que, na
necessidade de se manipular informações de várias tabelas cabe a integração das
mesmas de modo a obter-se um conjunto único de instâncias sobre o qual será dada
a continuidade do pré-processamento e/ ou do processo DCBD (NEVES, 2003).
2.3.1.2 LIMPEZA
A limpeza dos dados envolve uma verificação da consistência das
informações, e o preenchimento ou a eliminação de valores nulos e redundantes.
Nessa fase são identificados e removidos os dados duplicados e/ou corrompidos.
Uma boa limpeza dos dados é essencial, podendo inclusive diminuir o tempo de
processamento,
eliminando
consultas
desnecessárias
à
base
de
dados
(CASTANHEIRA, 2008).
2.3.1.3 TRANSFORMAÇÃO
Quanto à transformação de dados esta corresponde a operações que tornem
a apresentação dos dados apropriada à técnica de mineração de dados a ser
utilizada, assim encontram-se descritas operações do tipo normalização de dados,
conversões de valores simbólicos para valores numéricos, discretização e
21
composição de atributos (NEVES, 2003). Segundo Bueno e Viana (2012) a
transformação nada mais é do que analisar os dados e reorganizá-los de uma forma
específica e serão interpretados por um software de mineração de dados.
2.3.2 MINERAÇÃO DE DADOS
A fase da mineração de dados é considerada como a principal etapa no
processo de DCBD, onde é realizada a extração e a descoberta de padrões
propriamente dita. A mineração de dados envolve um conjunto de técnicas e
ferramentas
computacionais
usadas
para
a
identificação
desses
padrões
(conhecimentos) embutidos em grandes massas de dados. Os algoritmos são
aplicados para extrair padrões dos dados, ou gerar regras que descrevam o
comportamento da base de dados (BERRY, 1997).
Pode-se concluir que a mineração de dados caracteriza-se pela existência de
um algoritmo que diante da tarefa proposta será eficiente em extrair conhecimento
implícito e útil de um banco de dados. Pode-se dizer que mineração de dados é a
fase que transforma dados puros em informações úteis (CASTANHEIRA, 2008).
2.3.3 PÓS-PROCESSAMENTO
Os resultados do processo de descoberta do conhecimento podem ser
mostrados de diversas formas. Nesta última fase é onde as regras indicadas pelo
processo anterior serão interpretadas e avaliadas. Após a interpretação poderão
surgir padrões, relacionamentos e descoberta de novos fatos, que podem ser
utilizados para pesquisas, otimização e outros (TEÓFILO, 2015).
Segundo Steinbach et al., 2009,
“Fechar o laço” é a expressão
frequentemente usada para se referir ao processo de integrar os resultados da
mineração de dados com os sistemas de apoio a decisões. Por exemplo, em
aplicações de negócio, a compreensão permitida pelos resultados da mineração de
dados pode ser integrada com ferramentas de administração de campanha de forma
22
que promoções eficazes de venda possam ser realizadas e testadas. Tal integração
requer um passo de pós-processamento que assegure que apenas resultados
válidos e úteis sejam incorporados ao sistema de apoio a decisões. Um exemplo de
pós-processamento é a visualização, a qual permite que os analistas explorem os
dados e os resultados da mineração dos mesmos a partir de uma diversidade de
pontos de vista. Medições estatísticas ou métodos de teste de hipóteses também
podem ser aplicadas durante o pós-processamento para eliminar resultados não
legítimos da mineração de dados (STEINBACH et al., 2009).
2.3.4 DESAFIOS MOTIVADORES
De acordo com (STEINBACH et al., 2009) pode-se citar os seguintes
desafios:
•
Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados
com tamanhos em gigabytes, terabytes e mesmo petabytes estão se tornando
comuns;
•
Alta Dimensionalidade: é comum encontrarmos conjuntos de dados com
centenas ou milhares de atributos ao invés do punhado comum de algumas
décadas atrás;
•
Dados Complexos e Heterogêneos: a medida que o papel da mineração de
dados tem aumentado, também o tem a necessidade de técnicas que possam
lidar com dados heterogêneos. Os últimos anos também têm visto o
aparecimento de objetos de dados mais complexos;
•
Propriedade e Distribuição de dados: os dados necessários para análise
nem sempre estão armazenados num mesmo local ou não são propriedades
de uma organização. Eles estão distribuídos geograficamente entre fontes
pertencentes a múltiplas instâncias organizacionais;
•
Análises Não Tradicionais: tarefas atuais de análise de dados muitas vezes
requerem a geração e a avaliação de milhares de hipóteses e,
23
consequentemente, o desenvolvimento de técnicas de mineração de dados
tem sido motivado pelo desejo de se automatizar esse processo.
2.3.5 TAREFAS DE MINERAÇÃO DE DADOS
É importante distinguir o que é uma tarefa e o que é uma técnica de
mineração. A tarefa consiste na especificação do que estamos querendo buscar nos
dados, que tipo de regularidades ou categoria de padrões temos interesses em
encontrar, ou que tipo de padrões poderiam nos surpreender (por exemplo, um gasto
exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus
gastos) (AMO, 2004).
As tarefas de mineração de dados são geralmente divididas em duas
categorias principais segundo (STEINBACH et al., 2009).
Tarefas de Previsão: O objetivo destas tarefas é prever o valor de um
determinado atributo baseado nos valores de outros atributos. O atributo a ser
previsto é comumente conhecido como variável dependente ou alvo, enquanto que
os atributos usados para fazer a previsão são conhecidos como as variáveis
independentes ou explicativas.
Tarefas Descritivas: O objetivo é derivar padrões (correlações, tendências,
grupos, trajetórias, e anomalias) que resumam os relacionamentos subjacentes nos
dados. As tarefas descritivas da mineração de dados são muitas vezes exploratórias
em sua natureza e frequentemente requerem técnicas de pós-processamento para
validar e explicar resultados.
As tarefas são descritas de acordo com a Figura 2.
24
Figura 2: Relacionamento entre as atividades e tarefas de Mineração de Dados, adaptado
de (CONTI, 2011)
As Tarefas de Mineração de Dados estão descritas da seguinte forma:
Classificação (Classification) - Segundo Camilo e Silva (2009), a
Classificação é uma das tarefas mais comum, visa identificar a qual classe um
determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de
registros fornecidos, com cada registro já contendo a indicação à qual classe
pertence, a fim de ‘aprender’ como classificar um novo registro (aprendizado
supervisionado). Por exemplo, categorizamos cada registro de um conjunto de
dados contendo as informações sobre os colaboradores de uma empresa: Perfil
Técnico, Perfil Negocial e Perfil Gerencial. O modelo analisa os registros e então é
capaz de dizer em qual categoria um novo colaborador se encaixa. Os algoritmos
dessa tarefa se utilizam de Redes Neurais, Algoritmos Genéticos e Lógica Indutiva
(CAMILO & SILVA, 2009).
Estimação (Estimation) ou Regressão (Regression) - A estimação é similar
à classificação, porém é usada quando o registro é identificado por um valor
numérico e não um categórico. Assim, pode-se estimar o valor de uma determinada
variável analisando-se os valores das demais. Por exemplo, um conjunto de
registros contendo os valores mensais gastos por diversos tipos de consumidores e
25
de acordo com os hábitos de cada um. Após ter analisado os dados, o modelo é
capaz de dizer qual será o valor gasto por um novo consumidor. A tarefa de
estimação pode ser usada, por exemplo, para: estimar a quantia gasta por uma
família de quatro pessoas durante a volta às aulas, estimar a pressão ideal de um
paciente baseando-se na idade, sexo e massa corporal (CAMILO & SILVA, 2009).
Agrupamento (Clustering) – Com a aplicação dessa tarefa, os elementos
com características semelhantes são agrupados em um mesmo cluster. Cada cluster
apresenta internamente grande similaridade e grande diferença em relação aos
outros cluster formados pelo conjunto de dados. São exemplos dessa tarefa os
algoritmos: K-Means, K-item (CONTI, 2011).
Essa tarefa se assemelha com a tarefa de classificação. A diferença é que na
classificação, as classes são definidas de forma previa, enquanto que no
agrupamento, as classes são definidas durante a tarefa de acordo com o
estabelecimento do conjunto de atributos que devem direcionar essa categorização.
Os grupos são formados de acordo com a similaridade desses atributos
direcionadores (BUENO & VIANA, 2012).
Associação (Association) – Visa identificar grupos de fatos que ocorrem em
conjunto
ou
de
forma
condicionada.
Nela
encontramos
associações
e
relacionamentos entre itens. Os resultados normalmente são expressos em forma de
regras de associação. Uma regra de associação é uma regra da forma X→Y, onde X
e Y são conjuntos de itens significando que se X ocorre em uma transação da base
de dados Y também tende a ocorrer (BUENO & VIANA, 2012).
É uma das tarefas mais conhecidas devido aos bons resultados obtidos. O
algoritmo Apriori é um exemplo baseado na associação.
2.3.6 TÉCNICAS DE MINERAÇÃO DE DADOS
A técnica de mineração consiste na especificação de métodos que nos
garantam como descobrir os padrões que nos interessam. Dentre as principais
26
técnicas utilizadas em mineração de dados, temos técnicas estatísticas, técnicas de
aprendizado de máquina e técnicas baseadas em crescimento-poda-validação
(AMO, 2004).
Para cada tarefa, existem diversos tipos de técnicas, sendo assim foi
necessário então escolher com qual algoritmo trabalhar, em cada caso.
Para a tarefa de clusterização, foi escolhido o K-means, que é um dos mais
utilizados pelos seus bons resultados.
Por último, para a Tarefa de Associação, foi utilizado o Apriori, este algoritmo
trabalha por meio de uma busca profunda nos dados produzindo conjunto de
padrões, onde os mais contínuos são mantidos e os menos são eliminados.
2.3.6.1 K-MEANS
De acordo com Steinbach et al. (2009), técnicas de agrupamento baseadas
em protótipos criam um particionamento de um nível dos objetos de dados. Há um
número de tais técnicas, mas duas das mais proeminentes são o K-means e Kmedoid. K-means define um protótipo em termos de um centróide, que é geralmente
a média de um grupo de pontos, e é geralmente aplicada a objetos em um espaço ndimensional contínuo. K-medoid define um protótipo em termos de um medóide, que
é o ponto mais representativo para um grupo de pontos e pode ser aplicada a uma
ampla faixa de dados, já que requer apenas uma medida de proximidade para um
par de objetos. Embora uma centróide quase nunca corresponda a um ponto real de
dados, um medóide, pela sua definição deve ser um ponto real de dados. Usaremos,
no entanto, o K-means, que é o algoritmo de agrupamento mais antigo e
amplamente usado.
2.3.6.1.1 FUNCIONAMENTO DO ALGORITMO K-MEANS BÁSICO
A técnica de agrupamento K-means é simples e se inicia com a descrição do
algoritmo básico. Primeiro determina-se K centróides iniciais, onde K é um
parâmetro especificado pelo usuário, a saber, o número de grupo desejado. Cada
ponto é atribuído a seguir ao centróide mais próximo, e cada coleção de pontos
atribuídos a um centróide é um grupo. O centróide de cada grupo é então atualizado
27
baseado nos pontos atribuídos ao grupo. Repete-se os passos de atribuição e
atualização até que nenhum ponto mude de grupo ou, equivalente até que os
centróides permaneçam os mesmos.
K-means é formalmente descrito na Figura 3.
Figura 3: Algoritmo K-means básico (STEINBACH, 2009).
No primeiro passo mostrado na Figura 3 os pontos são atribuídos aos
centróides iniciais, que estão todos no grupo maior de pontos. Para este exemplo,
usamos a média como centróide. Após os pontos serem atribuídos a um centróide,
ele é atualizado. Novamente, a figura para cada passo mostra o centróide no início
do passo e a atribuição de pontos àqueles centróides. No segundo passo, os pontos
são atribuídos aos centróides atualizados e os centróides são atualizados
novamente. Nos passos 2, 3 e 4 que são mostrados na Figura 4, através das etapas
(b), (c) e (d), respectivamente, dois dos centróides se movam para os dois grupos
pequenos de pontos na parte inferior das figuras. Quando o algoritmo K-means
termina na etapa (d), porque não há mais mudanças, os centróides identificaram os
agrupamentos naturais dos pontos (STEINBACH et al., 2009).
Figura 4: Usando o Algoritmo K-means para encontrar três grupos nos dados de
exemplo(STEINBACH et al., 2009).
28
Para algumas combinações de funções de proximidade e tipos de centróides,
K-means sempre converge para uma solução; i.e., K-means atinge um estado no
qual nenhum ponto mudam de grupo para outro e, assim, os centróides não mudam.
Devido ao fato da maioria da convergência ocorrer nos primeiros passos, entretanto,
a condição na linha 5 do algoritmo(quadro la de cima) é muitas vezes substituída por
uma condição mais fraca, e.g., repetir até que apenas 1% dos pontos mudem de
grupo.
A execução deste algoritmo parte do princípio de seleção aleatória de k
objetos, sendo que, num primeiro momento, cada um representa a média de um
cluster. Quanto aos objetos restantes, para eles é realizada a atribuição a um cluster
a que esses objetos tenham maior similaridade, sendo que esse processo ocorre até
que os centróides não sejam mais alterados (GOLDSCHIMIDT, 2005).
O critério de agrupamento do K-médias pode ser descrito conforme
expressão da Figura 5 abaixo:
Figura 5: Equação do Algoritmo K-means (SILVA, 2010)
Analisando o K-médias Gama (2002) esclarece que:
a) há influência da configuração inicial na solução obtida;
b) não há prova de que todos os elementos ou objetos se dirijam para o
ponto previsto;
c) não existe nenhuma garantia de convergência para a melhor solução, pois
são desconhecidos seus limites;
d) no caso do critério de mínimos-quadrados, existe a tendência de divisão
de grupos com maior número de elementos, mesmo em situações em que
os grupos estejam bem definidos.
29
Atualmente são encontradas muitas variações do algoritmo K-médias, mas
em geral essas variações referem-se a seleção das k médias iniciais, no cálculo de
similaridades ou na estratégia para o cálculo da média dos clusteres (SILVA, 2010).
2.3.6.2 APRIORI
Este algoritmo realiza buscas sucessivas em toda a base de dados, no intuito
de encontrar relacionamentos entre os atributos e combinações. Para a execução
desse algoritmo é necessário que os dados estejam no formato discretos ou
nominais. Como resultado do Apriori é apresentado o tamanho dos conjuntos de
itemsets com suporte mínimo e as melhores regras de associação com os números
de instâncias ou ocorrências para as quais a associação acontece (CONTI, 2011).
Principio Apriori: Se um conjunto de itens é frequente, então todos os seus
subconjuntos também devem ser frequentes (STEINBACH, 2009).
De acordo com Arbex (2004) as três fases que compõem o APRIORI são:
Geração dos conjuntos Candidatos; Poda dos conjuntos Candidatos e Contagem do
Suporte (nesta fase é necessário visitar o BD). A este algoritmo é aplicada a
propriedade de Antimonotonia da Relação ou Propriedade Apriori que é descrita a
seguir: Se X está contido em Y e X não é frequente, logo Y também não é frequente
(AMO, 2004).
Isto implica uma diminuição do tempo de execução, pois se X não é
frequente, então não será necessário calcular o suporte de Y, e o BD não precisará
ser varrido.
2.3.6.2.1 FUNCIONAMENTO DO ALGORITMO APRIORI
Segundo Arbex (2004) esse algoritmo gera um conjunto de itens frequentes a
cada uma de suas passagens. Com base nestes conjuntos será gerado um outro
conjunto Ck, conjunto de itens candidatos, que consta os itens do conjunto frequente
(Lk) com minsup maior que o estabelecido. O conjunto candidato é resultado do
produto cartesiano do conjunto de frequentes da passagem anterior com ele mesmo.
Posteriormente o conjunto candidato é podado, seu suporte é contado e os itens que
30
tem suporte acima do estabelecido serão os itens frequentes da próxima passagem
(Lk+1).
O Algoritmo Apriori utiliza os itens frequentes obtidos pelo comando
executado em SQL, sendo a primeira passagem k=1. Para k=2, enquanto o conjunto
obtido na passagem anterior não for vazio então k será incrementado e o conjunto
de candidatos receberá os itens retornados pela função apriori_gen (ARBEX, 2004).
A Função Apriori-gen é responsável pela união dos conjuntos frequentes a fim
de formar o conjunto candidato com k itens. Para isso tem os itens frequentes da
passagem anterior como parâmetro. Ela faz também a poda dos candidatos
(ARBEX, 2004).
Então para todas as transações t contidas no conjunto de transações é
adicionado um contador de suporte, verificando assim quais itens do conjunto
candidato estão contidos em cada uma das transações.
Para o processo de contagem do suporte dos candidatos, os conjuntos são
dispostos em uma árvore Hash. Esse é um método de espalhar os elementos de um
conjunto seguindo uma dada função (função hash) com ela é possível realizar uma
busca direta pelo elemento desejado, evitando a princípio buscas sequenciais em
todo conjunto, acarretando em um ganho significativo em tempo de execução.
Figura 6: Algoritmo Apriori
31
Um nó em uma árvore hash ou contém uma lista de conjuntos de itens (nó
folha), ou contém uma tabela hash (nó interno) essa é usada quando o número
máximo de elementos em uma folha excede o limite estabelecido.
Quando um conjunto candidato é adicionado, inicia-se da raiz da árvore até
alcançar uma folha, a definição do caminho a ser seguido é dada pela função hash
calculada para este anteriormente. Inicialmente cada nó é criado como sendo uma
folha. A poda é realizada se algum subconjunto do conjunto candidato não estiver
presente no conjunto de itens frequentes da passagem anterior. Como meio de
otimização, a poda dos conjuntos também pode ser feita através de uma árvore
hash, mas no algoritmo original ela é feita através da função Apriori_Gen (ARBEX,
2004).
A Função Subset é encarregada de contar o suporte dos itens candidatos, ela
toma como parâmetros o conjunto candidato (C k) e o conjunto de Transações (T).
Primeiramente ela faz as combinações entre os itens da transação da seguinte
forma: um item é combinado com todos os outros que estão imediatamente a sua
frente e assim até o último elemento.
Posteriormente verificam-se quais destes estão presentes na árvore hash, da
seguinte forma: é calculada a função hash dos subconjuntos obtidos com a
transação e então esses são comparados com a árvore, sendo que se presentes na
árvore haverá um contador de suporte que incrementará o suporte deste itemset.
Feito isso teremos o suporte dos itens candidatos, os itens que possuírem suporte
maior que o estabelecido formarão o conjunto de itens frequentes desta passagem.
O Algoritmo Apriori termina quando o conjunto de itens frequentes da
passagem anterior for igual a zero, e retorna como resultado de sua execução a
união de todos os itens frequentes de todas as passagens (ARBEX, 2004).
2.3.7 FERRAMENTAS DE MINERAÇÃO
O mercado de ferramentas de mineração de dados tem se tornado bastante
atraente (CAMILO & SILVA, 2009). Com o crescimento da Mineração de Dados
como ferramenta de descoberta de conhecimento, aumentou também a oferta de
software para esse tipo de abordagem. Aplicações comerciais das empresas IBM
32
(Intelligent Miner), SAS (Enterprise Miner), SPSS (Clementine), e opções de
ferramentas Open Source, como por exemplo o Weka, auxiliam na execução do
processo de Mineração de Dados (CONTI, 2011).
Segue abaixo uma breve descrição de cada uma delas:
Clementine – É um kit de ferramentas de mineração de dados que visa
permitir que especialistas de domínio (usuários normais) façam sua própria
mineração de dados. Ele tem uma interface de programação de dados e foi uma das
primeiras ferramentas de mineração de dados de uso geral, é um dos pacotes de
Mineração de Dados mais populares (THE DATA MINING, 2016)
SAS Enterprise Miner Suite – Modelagem descritiva e preditiva, fornece
insights que impulsionam uma melhor tomada de decisão. Com ele pode-se agilizar
o processo de mineração de dados para desenvolver modelos rapidamente.
Compreender relacionamentos chaves. E encontrar os padrões que mais importam
(SAS THE POWER TO KNOW, 2016).
SAS Text Miner – Software de mineração de texto, permite que facilmente
analise os dados de texto a partir da web, campos de comentário, livros e outras
fontes de texto (SAS THE POWER TO KNOW, 2016).
WEKA – É um software de código aberto. Possui um conjunto de algoritmos
de aprendizado de máquina para tarefas de mineração de dados. Os algoritmos
podem ser aplicados diretamente a um conjunto de dados ou chamado a partir de
seu próprio código Java. Weka contém ferramentas para pré-processamento de
dados, classificação, regressão, clustering, regras de associação, e visualização. É
também bem adequada para o desenvolvimento de novos sistemas de
aprendizagem máquina (WEKA, 2016)
Oracle Data Mining (ODM) – Oracle Data Mining (ODM) fornece uma
poderosa funcionalidade de mineração de dados como funções nativas de SQL no
banco de dados Oracle (ORACLE, 2016).
33
IBM Intelligent Miner – É um conjunto de ferramentas de mineração de
dados para a classificação, associação, sequências, séries temporais, clustering e
previsão de valor. O Intelligent Miner é integrado com o banco de dados DB2,
embora suporte entrada de outras fontes (IBM INTELLIGENT MINE, 2016).
LingPipe – É um kit de ferramentas para processamento de texto usando
linguística computacional (LINGPIPE, 2016).
KNIME – Plataforma de mineração de dados aberta, que implementa o
paradigma de pipelining de dados (OPEN FOR INOVATION – KMINE).
A seguir será descrito mais detalhadamente a ferramenta escolhida para ser
utilizada neste trabalho.
2.3.7.1 WEKA
Para este projeto, foi escolhida a ferramenta WEKA, por ser a mais utilizada
na área acadêmica. Ela começou a ser escrita em 1993 usando Java, na
Universidade de Waikato, Nova Zelândia sendo adquirido posteriormente por uma
empresa no final de 2006 (WIKIPÉDIA, 2016).
De acordo com Fabieli (2011) Weka é um conjunto de algoritmos de
aprendizado de máquina para tarefas de mineração de dados. Os algoritmos podem
ser aplicados diretamente a um conjunto de dados ou chamado a partir de seu
próprio código Java. Weka contém ferramentas para pré-processamento de dados,
classificação, regressão, clustering, regras de associação, e visualização. É também
bem adequada para o desenvolvimento de novos sistemas de aprendizagem. Weka
é um software de código aberto, emitido sob a GNU General Public License. Ao
longo dos anos o WEKA se consolidou como a ferramenta de data mining mais
utilizada em ambiente acadêmico.
Essas
características
facilitam
a
adaptação,
a
inclusão
de
novas
funcionalidades em algoritmos e a portabilidade entre diferentes sistemas
operacionais. A grande
aceitação
dessa
ferramenta
está
relacionada
às
características elencadas acima, aliadas a uma interface amigável. A Figura 7,
34
representa a interface gráfica de inicialização do Weka, onde o usuário pode
selecionar um dos quatro modos para trabalhar com os seus dados.
Figura 7: Interface gráfica de inicialização do Weka.
•
A aplicação Explorer é a interface gráfica mais utilizada do Weka, agregando
as etapas de pré-processamento, mineração de dados e pós-processamento.
•
A aplicação Experimenter é a interface gráfica destinado à realização de
testes estatísticos utilizados na comparação entre diferentes algoritmos de
aprendizagem suportados pelo Weka.
•
A aplicação KnowledgeFlow é uma interface gráfica semelhante ao Explorer,
só diferencia pelo fato de trabalhar com fluxos de dados;
•
A aplicação Simple Cli é a interface que se apresenta no modo texto, sendo a
utilização por linhas de comando, é destinado a usuários avançados .
35
3. ESTUDO DE CASO
3.1 DESCRIÇÃO DO CENÁRIO
Todo aquele que deseja ingressar na Instituição precisa passar por um
Processo Seletivo, para isso é necessário que o candidato realize sua inscrição
através do portal de inscrições, para que o mesmo possa realizar a prova que pode
torná-lo um aluno do estabelecimento de ensino. No portal o candidato realiza seu
cadastro e preencherá dois formulários, um sobre seus dados pessoais e outro
denominado como socioeconômico.
Este formulário é formado por treze perguntas. Os dados registrados no ato
do preenchimento do questionário socioeconômico, que foram utilizados como base
para este trabalho. É importante ressaltar que uma vez cadastrado no portal de
inscrição, as informações ficam armazenados para processos futuros que o aluno
pode vir a tentar novamente e todas as respostas são padronizadas.
O acesso
se dá através do CPF e senha do usuário, podendo qualquer informação ser trocada
posteriormente pelo candidato, no entanto ele só consegue concluir a inscrição com
todas as perguntas respondidas.
Há diversas vagas em diferentes campus da Instituição, dividida entre
variados cursos. A oferta se dá dividida em dois semestres, onde a maneira que
estas serão preenchidas é uma particularidade de cada Campus, uns podem
escolher fazer um processo único já para os dois períodos, já outros podem optar
por fazer estas fases separadas. Pode ocorrer também deste processo único se dar
para apenas alguns tipos de cursos e a grande maioria restante ser dividida em duas
etapas. Este trabalho abrange todos os campis listados na Figura 8.
Importante ressaltar, que as áreas que estão em branco ocorre devido ao fato
daquele campi não possuir cursos nos níveis de ensino citado.
36
Figura 8: Campus com seus respectivos cursos ofertados.
37
3.2 DESCOBERTA DE CONHECIMENTO EM DADOS DOS
PROCESSOS SELETIVOS
O processo de descoberta do conhecimento em base de dados apresentado
será adotado como base para a aplicação do Estudo de Caso, a ser realizado sobre
uma base de dados real disponibilizado pelo Instituto Federal Fluminense, para
realização deste trabalho.
O presente estudo foi conduzido da seguinte forma: identificamos que os
dados socioeconômico dos processos seletivos seriam uma boa base de pesquisa,
desta maneira entramos em contato com o departamento de processo seletivo e
enviamos um memorando para liberação da base de dados.
Após a obtenção dos dados, deu-se inicio a fase de pré-processamento dos
dados, sendo realizada a seleção, limpeza, e transformação. Esta etapa é de total
importância para a próxima etapa, na qual são aplicados os métodos da Mineração
de Dados, por meio de algoritmos. Neste trabalho foram utilizados as tarefas de
clusterização e associação. Para finalizar, os resultados encontrados são analisados
e discutidos.
O método de clusterização, também chamada de agrupamento, é uma tarefa
utilizada para particionar os registros de uma base de dados em clusteres
(subconjuntos) de forma a permitir que os dados de um cluster possam usufruir um
grupo de propriedades comuns, mas que os diferenciem dos dados de outros
clusteres (GOLDSCHIMIDT, 2005).
O método de Associação caracteriza o quanto a presença de um conjunto de
itens nos registros de uma base de dados implica na presença de algum outro
conjunto distinto de itens nos mesmos registros, desse modo, o objetivo das regras
de associação é encontrar tendências que possam ser usadas para entender e
explorar padrões de comportamento dos dados (CASTANHEIRA, 2008).
Para a realização da Mineração de Dados, foi utilizada a ferramenta de
Descoberta de Conhecimento em Base de Dados WEKA – Waikato Environment for
Knowledge Analysis, que possui um conjunto de algoritmos para tarefas de
Mineração de Dados. Weka contém ferramentas para pré-processamento de dados,
classificação, regressão, clustering, regras de associação, e visualização (WEKA,
2016).
38
3.3 PRÉ-PROCESSAMENTO
Segundo Fayyad (et al., 1996) a etapa de pré-processamento de dados, de
acordo com o processo de Descoberta do Conhecimento é composta pelas etapas
de Seleção, Limpeza, e Transformação dos Dados.
3.3.1 SELEÇÃO
Os dados designados para esta pesquisa foram obtidos do formulário
socioeconômico preenchido por aqueles que pretendem ingressar no Instituto
Federal Fluminense nos processos seletivos realizado em 2014.1 e 2014.2, nos
campi citados na Figura 8.
Este formulário é formado por treze perguntas, como mostrado a seguir:
01-Estado Civil
02-Cor ou raça
03-Em que tipo de estabelecimento você cursa/cursou o ensino médio (2º
grau) e/ou fundamental?
04-Em qual colégio você cursou a última série do ensino médio (2º grau) e/ou
fundamental?
05-Em que período cursa/cursou o ensino médio (2º grau) e/ou fundamental?
06-Você já fez ou vem fazendo algum curso superior, qual das seguintes
alternativas melhor expressa sua situação no referido curso?
07-Qual o motivo predominante na escolha do curso para o qual você se
inscreveu?
08-De que fontes você recebeu informações sobre o IF Fluminense?
09-Você exerce alguma atividade remunerada?
10-Qual a renda mensal da sua família?
11-Qual a sua participação na vida econômica da família?
12-Você costuma usar microcomputadores?
13-Considerando as possibilidades em relação ao mercado de trabalho, em
que local você considera que terá maiores oportunidades de obtenção de emprego
na formação que você está buscando no IF Fluminense?
39
Esta fase se iniciou com a seleção dos atributos(perguntas) úteis para esta
pesquisa, foi decidido então retirar o atributo 04 (Em qual colégio você cursou a
última série do ensino médio (2º grau) e/ou fundamental?), pois se trata apenas do
nome do colégio onde o ingressante estudou, julgamos não ser um fato relevante
para a nossa pesquisa, visto que no atributo 03 (Em que tipo de estabelecimento
você cursa/cursou o ensino médio (2º grau) e/ou fundamental?) já é possível saber
se o candidato que pretende ingressar no Instituto Federal Fluminense veio de
escola pública ou particular.
Juntamente aos dados do formulário socioeconômico, foi fornecido os
respectivos processos seletivos ao qual este candidato a ingressar no Instituto
Federal Fluminense já participou.
3.3.2 LIMPEZA
Os dados selecionados para realização deste trabalho foram obtidos do
questionário socioeconômico que é disponibilizado ao aluno que realiza sua
inscrição no processo seletivo do Instituto Federal Fluminense. Foi obtido um total
de 57541 dados fornecidos em uma planilha eletrônica no formato xls. Para a
utilização
dos
algoritmos
de
Mineração
de
Dados,
estes
devem
estar
desnormalizados, ou seja, todas as informações devem estar em uma única tabela.
Fez-se necessário a exclusão da coluna quatro, por se tratar de um dado
irrelevante como citado acima, fez-se necessário também a exclusão de algumas
linhas, somente para a realização do estudo por área de conhecimento, pois
constava Técnico Integrado ao Médio, não sendo possível determinar a qual área
pertencia.
Para estudo dos Cursos foi realizada uma avaliação dos dados identificando
os três principais cursos mais procurados de acordo com o nível de ensino (técnico,
técnico integrado e superior), após essa identificação esses dados foram colocados
em uma outra planilha para que se realiza-se a mineração.
Houve a exclusão também de algumas linhas cujo as respostas estavam
incoerentes, dado ao fato que uma mesma pessoa que respondia exercer alguma
atividade remunerada, também respondia que sua participação na vida econômica
40
da família se dava ao fato que não trabalhava e seus gastos eram financiados pela
família. Após todas as exclusões necessárias obteve-se um total de 55028 dados
para serem minerados.
3.3.3 TRANSFORMAÇÃO
Foram inseridas na planilha quatro colunas, sendo estas: curso, nível de
ensino, modalidade e área de conhecimento.
A partir da coluna com o processo seletivo o qual o futuro ingressante tentou,
foi extraído o nome do curso, para a criação da coluna nível de ensino nos
baseamos nos cursos, classificando da seguinte forma: técnico, técnico integrado,
superior e pós-graduação.
Para a coluna de modalidade, dividimos desta maneira: presencial,
semipresencial e proeja, sendo o semipresencial a EAD (Educação a Distância),
pois todos aqueles que participam desta modalidade precisam ir na instituição para
realização das provas. Por fim a coluna sobre a área de conhecimento, foi
necessário fazer uma pesquisa identificando assim a que área de conhecimento
cada curso pertencia, referindo-se estas: Ciências Humanas, Ciências Exatas,
Engenharia e Ciências Biológicas.
Alteramos também a visualização das perguntas, ficando então com P – nº da
pergunta, por exemplo P – 01. É importante lembrar que como foi excluído a coluna
da pergunta de número quatro, passamos de treze para doze perguntas.
Para realizar a análise dos dados, foi necessário a transformação do formato
da planilha de xls para o formato Arff, de maneira que pudesse ser executada na
ferramenta Weka.
3.4 MINERAÇÃO DE DADOS
Realizada a primeira fase, ou seja, a etapa e pré-processamento, e com os
dados prontos para a mineração, o próximo passo foi a escolha dos algoritmos de
cada tarefa que será aplicado a base de dados. Utilizamos nesta pesquisa a
41
ferramenta de Mineração de Dados WEKA. Para avaliar o perfil do aluno que deseja
ingressar ao Instituto Federal, foi aplicado o algoritmo da tarefa de associação,
Apriori, que realiza buscas sucessivas em toda base de dados, no intuito de
encontrar relacionamentos entre os atributos e combinações. É obtida regras de
associação do tipo X→Y, onde X e Y são conjuntos de itens significando que se X
ocorre em uma transação da base de dados Y também tende a ocorrer.
Para avaliar o perfil dos alunos de acordo com a modalidade, o nível de
ensino, a área de conhecimento e os cursos mais procurados, foi aplicada a tarefa
de Clusterização por meio do algoritmo K-mediasSimples, que consiste em definir
um parâmetro de entrada k e dividir um conjunto de n objetos em k clusteres de
forma que a similaridade do cluster seja alta, porém diferencie dos outros clusteres.
O objetivo da utilização de clusterização é avaliar o perfil dos alunos que
pretendem ingressar no Instituto Federal Fluminense relacionado a modalidade, ao
nivel de ensino, a área de conhecimento e aos cursos. Para avaliar a comparação
do perfil com a modalidade alterando o valor do parâmetro numClusters (número de
clusteres) para o valor correspondente ao número de modalidades possíveis
(presencial, semipresencial e proeja). O mesmo tratamento foi usado para fazer a
comparação por nível de ensino (técnico, superior, pós-graduação e técnico
integrado), e pela área de conhecimento (ciências exatas, engenharias, ciências
humanas e ciências biológicas).
Para avaliar a comparação do perfil do aluno por curso também foi alterado o
valor do parâmetro numClusters (número de clusteres) para o valor correspondente
ao número de cursos, que serão três clusteres, pois será realizada a mineração dos
três cursos mais procurados de acordo com o nível técnico, superior e técnico
integrado.
3.5 PÓS-PROCESSAMENTO
Após a execução dos métodos de Mineração de Dados é efetuada a
interpretação e a validação dos resultados obtidos.
42
3.5.1 EXECUÇÃO DO ALGORITMO APRIORI
Figura 9: Resultado da execução do algoritmo Apriori
43
O algoritmo de associação Apriori apresentou dez regras, conforme descrição
na Figura 9. As regras estão ordenadas em ordem de confiança, sendo assim a
primeira regra obteve 93% de grau de confiança, a segunda regra obteve 92% de
grau de confiança, a terceira regra 91%, a quarta regra 89%, a quinta regra 89%, a
sexta regra 87%, a sétima regra 86%, a oitava regra 86%, a nona regra 85% e a
décima regra 85% de grau de confiança.
Na primeira regra, a P – 04 representa 39403 ocorrências, sendo que 36486
dessas ocorrências são da modalidade presencial. A segunda regra, P – 01
representa 45898 ocorrências, sendo que 42315 dessas ocorrências são da
modalidade presencial. A terceira regra, P – 05 representa 40405 ocorrências, sendo
que 36885 dessas ocorrências são da modalidade presencial. A quarta regra, a área
de conhecimento igual a ciências exatas representa 42167 ocorrências, sendo que
37490 dessas ocorrências são da modalidade presencial. A quinta regra, o nível de
ensino igual a técnico representa 42670 ocorrências, sendo que 37873 dessas
ocorrências são da modalidade presencial. A sexta regra, a área de conhecimento
igual a ciências exatas representa 42167 ocorrências, sendo que 36784 dessas
ocorrências são do nível de ensino técnico. A sétima regra, a modalidade igual a
presencial representa 49038 ocorrências, sendo que 42315 dessas ocorrências (P –
01) são solteiros. A oitava regra, o nível de ensino igual a técnico representa 42670
ocorrências, sendo que 36784 dessas ocorrências são da área de conhecimento
formada pelas ciências exatas. A nona regra, a área de conhecimento igual a
ciências exatas representa 42167 ocorrências, sendo que 36024 dessas ocorrências
(P – 01) são solteiros. A décima regra, o nível de ensino igual a técnico representa
42670 ocorrências, sendo que 36255 dessas ocorrências são solteiros.
Pode-se concluir que os alunos que cursaram o período diurno no ensino
médio (2º grau) e/ou fundamental optam pela modalidade de ensino presencial.
Também pode-se concluir que os alunos que optam pela modalidade de ensino
presencial optam por cursos da área de conhecimento das Ciências Exatas, assim
como os que optam pela área de conhecimento das Ciências Exatas optam por
cursos de nivel Técnico.
44
3.5.2 EXECUÇÃO DO ALGORITMO K-MEANS
3.5.2.1 CLUSTERIZAÇÃO POR NIVEL DE ENSINO
Apresenta-se o resultado obtido através da aplicação do algoritmo de
Clusterização, K-mediasSimples, definindo as classes de acordo com o nível de
ensino. Foram identificados quatro clusteres, sendo eles técnico, pós-graduação,
superior e técnico integrado definidos pela similaridade das ocorrências das
instâncias dos itens avaliados serem altas em cada cluster, onde se caracteriza de
acordo com a Tabela 1:
Tabela 1: Clusterização por nivel de ensino
Superior
Pós-Graduação
Técnico Integrado Técnico
Solteiro
Solteiro
Casado
Solteiro
Branco
Branco
Branco
Branco
Pública/particular –
diurno
Público – diurno
Público – noturno
Público – diurno
Realização pessoal
Mercado de Trabalho Mercado de Trabalho Mercado de Trabalho
Não trabalha
Atividade
Remunerada
Atividade
Remunerada
Não Trabalha
Acima de três
salários e meio
Meio a um salário
mínimo e meio
Um salário e meio a
dois salários e meio
Meio a um salário
mínimo e meio
Acesso a
Acesso a computador Acesso a computador Acesso a computador
computador em casa em casa
em casa
em casa
Campos dos
Goytacazes
Campos dos
Goytacazes
Macaé
Macaé
Presencial
Presencial
Presencial
Presencial
Exatas
Exatas
Exatas
Exatas
•
Cluster Superior – possui uma maior incidência de pessoas solteiras, brancas,
que cursaram o ensino médio e/ou fundamental em parte pública e parte
particular, somente no período diurno, escolheram determinado curso pela
possibilidade de realização pessoal, não exercem atividade remunerada, a
renda mensal da família é acima de três salários mínimos e meio, como não
45
trabalham seus gastos são financiados pela família ou por outras pessoas,
tem acesso a computador em casa, acreditam que suas maiores chances de
emprego será em Campos dos Goytacazes, dentro desse grupo predomina
uma procura maior pela modalidade presencial e por fim a área de
conhecimento das Ciências Exatas.
•
Cluster Pós-Graduação – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, exercem atividade
remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal
da família é entre meio salário mínimo e um salário mínimo e meio, são
responsáveis pelo seu próprio sustento e contribui para o sustento da família
ou de outra pessoa, tem acesso a computador em casa, acreditam que suas
maiores chances de emprego será em Campos dos Goytacazes, dentro
desse grupo predomina uma procura maior pela modalidade presencial e por
fim a área de conhecimento das Ciências Exatas.
•
Cluster Técnico Integrado – neste grupo tem uma maior incidência de
pessoas casadas, brancas, que cursaram o ensino médio e/ou fundamental
somente em estabelecimento público, somente no período noturno,
escolheram determinado curso visando o mercado de trabalho, exercem
atividade remunerada em tempo integral (cerca de 30 horas semanais), a
renda mensal da família é entre um salário mínimo e meio e dois salários
mínimos e meio, são responsáveis pelo sustento da família, tem acesso a
computador em casa, acreditam que suas maiores chances de emprego será
em Macaé, dentro desse grupo predomina uma procura maior pela
modalidade presencial e por fim a área de conhecimento das Ciências
Exatas.
•
Cluster Técnico – neste grupo tem uma maior incidência de pessoas solteiras,
brancas, que cursaram o ensino médio e/ou fundamental somente em
estabelecimento
público,
somente
no
período
diurno,
escolheram
determinado curso visando o mercado de trabalho, não exercem atividade
46
remunerada, a renda mensal da família é entre meio salário mínimo e um
salário mínimo e meio, como não trabalham seus gastos são financiados pela
família ou por outras pessoas, tem acesso a computador em casa, acreditam
que suas maiores chances de emprego será em Macaé, dentro desse grupo
predomina uma procura maior pela modalidade presencial e por fim a área de
conhecimento das Ciências Exatas.
3.5.2.2 CLUSTERIZAÇÃO DE ACORDO COM MODALIDADE
Apresenta-se o resultado obtido através da aplicação do algoritmo de
Clusterização, K-mediasSimples, definindo as classes de acordo com a modalidade.
Foram identificados três clusteres, sendo eles presencial, semipresencial e proeja,
definidos pela similaridade das ocorrências das instâncias dos itens avaliados serem
altas em cada cluster, onde se caracteriza de acordo com a Tabela 2:
Tabela 2: Clusterização pela modalidade
Presencial
Semipresencial
Proeja
Solteiro
Solteiro
Casado
Branco
Branco
Branco
Público – diurno
Público – diurno
Público – noturno
Mercado de Trabalho
Mercado de Trabalho
Mercado de Trabalho
Não trabalha
Não trabalha
Atividade Remunerada
Um salário e meio a dois
salários e meio
Meio a um salário mínimo e
meio
Um salário e meio a dois
salários e meio
Acesso a computador em
casa
Acesso a computador em
casa
Acesso a computador em
casa
Campos dos Goytacazes
Macaé
Macaé
Informática
Segurança do Trabalho
Eletromecânica
Técnico
Técnico
Técnico
Presencial
Presencial
Presencial
•
Cluster Presencial – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
47
em estabelecimento público, escolheram determinado curso visando o
mercado de trabalho, não exercem atividade remunerada, a renda mensal da
família é entre um salário mínimo e meio e dois salários mínimos e meio,
como não trabalham seus gastos são financiados pela família ou por outras
pessoas, tem acesso a computador em casa, acreditam que suas maiores
chances de emprego será em Campos dos Goytacazes, dentro desse grupo
predomina uma procura maior pelo curso de Informática, com nivel de ensino
Técnico e por fim a área de conhecimento das Ciências Exatas.
•
Cluster Semipresencial – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, não exercem atividade
remunerada, a renda mensal da família é entre meio salário mínimo e um
salário mínimo e meio, como não trabalham seus gastos são financiados pela
família ou por outra pessoa, tem acesso a computador em casa, acreditam
que suas maiores chances de emprego será em Macaé, dentro desse grupo
predomina uma procura maior pelo curso de Segurança do Trabalho com
nivel de ensino Técnico e por fim a área de conhecimento das Ciências
Exatas.
•
Cluster Proeja – neste grupo tem uma maior incidência de pessoas casadas,
brancas, que cursaram o ensino médio e/ou fundamental somente em
estabelecimento
público,
somente
no
período
noturno,
escolheram
determinado curso visando o mercado de trabalho, exercem atividade
remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal
da família é entre um salário mínimo e meio e dois salários mínimos e meio,
são responsáveis pelo sustento da família, tem acesso a computador em
casa, acreditam que suas maiores chances de emprego será em Macaé,
dentro desse grupo predomina uma procura maior pelo curso de
Eletromecânica com nivel de ensino Técnico e por fim a área de
conhecimento das Ciências Exatas.
48
3.5.2.3 CLUSTERIZAÇÃO DE ACORDO COM A ÁREA DE
CONHECIMENTO
Apresenta-se o resultado obtido através da aplicação do algoritmo de
Clusterização, K-mediasSimples, definindo as classes de acordo com a área de
Conhecimento. Foram identificados quatro clusteres, sendo eles ciências exatas,
engenharias, ciências humanas e ciências biológicas, definidos pela similaridade das
ocorrências das instâncias dos itens avaliados serem altas em cada cluster, onde se
caracteriza de acordo com a Tabela 3:
Tabela 3: Clusterização por área de conhecimento
Ciências Exatas
Engenharias
Ciências Humanas
Ciências
Biológicas
Solteiro
Solteiro
Solteiro
Solteiro
Branco
Branco
Branco
Branco
Público – diurno
Público – diurno
Público – diurno, já
Público – diurno
concluiu ou faz algum
curso superior
Mercado de Trabalho Continuidade dos
estudos
Mercado de Trabalho Mercado de Trabalho
Não trabalha
Não trabalha
Atividade
Remunerada
Não trabalha
Um salário e meio a
dois salários e meio
Meio a um salário
mínimo e meio
Um salário e meio a
dois salários e meio
Meio a um salário
mínimo e meio
Acesso a computador Acesso a computador Acesso a computador Acesso a computador
em casa
em casa
no trabalho e em
em casa
casa
Campos dos
Goytacazes
Macaé
Campos dos
Goytacazes
Campos dos
Goytacazes
Técnico
Técnico
Técnico
Técnico
Presencial
Presencial
Presencial
Presencial
•
Cluster Ciências Exatas – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
49
determinado curso visando o mercado de trabalho, não exercem atividade
remunerada, a renda mensal da família é entre um salário mínimo e meio e
dois salários mínimos e meio, como não trabalham seus gastos são
financiados pela família ou por outras pessoas, tem acesso a computador em
casa, acreditam que suas maiores chances de emprego será em Campos dos
Goytacazes, dentro desse grupo predomina uma procura maior pelo pela
modalidade Presencial com nivel de ensino Técnico.
•
Cluster Engenharias – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
determinado curso pela possibilidade de dar continuidade a seus estudos,
não exercem atividade remunerada, a renda mensal da família é entre meio
salário mínimo e um salário mínimo e meio, como não trabalham seus gastos
são financiados pela família ou por outras pessoas, tem acesso a computador
em casa, acreditam que suas maiores chances de emprego será em Macaé,
dentro desse grupo predomina uma procura maior pela modalidade
Presencial com nivel de ensino Técnico.
•
Cluster Ciências Humanas – este grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, já concluiu ou fiz
algum curso superior, escolheram determinado curso visando o mercado de
trabalho, exercem atividade remunerada em tempo integral (cerca de 30
horas semanais), a renda mensal da família é entre um salário mínimo e meio
e dois salários mínimos e meio, são responsáveis pelo sustento da família,
tem acesso a computador no trabalho e em casa, acreditam que suas
maiores chances de emprego será em Campos dos Goytacazes, dentro
desse grupo predomina uma procura maior pela modalidade Presencial com
nivel de ensino Técnico.
•
Cluster Ciências Biológicas – neste grupo tem uma maior incidência de
pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental
somente
em
estabelecimento
público,
somente
no
período
diurno,
50
escolheram determinado curso visando o mercado de trabalho, não exercem
atividade remunerada, a renda mensal da família é entre meio salário mínimo
e um salário mínimo e meio, como não trabalham seus gastos são
financiados pela família ou por outras pessoas, tem acesso a computador em
casa, acreditam que suas maiores chances de emprego será em Campos dos
Goytacazes, dentro desse grupo predomina uma procura maior pela
modalidade presencial com nivel de ensino Técnico.
Quanto ao fato de já ter feito ou se vem fazendo algum curso superior ouve
uma maior incidência de respostas na opção 'Outros' em três clusteres, somente o
cluster Ciências Humanas apresentou a resposta que já concluiu ou fez algum curso
superior.
3.5.2.4 CLUSTERIZAÇÃO DE ACORDO COM O CURSO
Com base no questionário socioeconômico do Instituto Federal Fluminense,
foi possível obter alguns resultados com relação aos cursos.
Como já citado, para a aplicação dos métodos de Mineração de Dados, se faz
necessário a preparação dos dados.
Segue abaixo a apresentação dos resultados obtidos através da aplicação do
algoritmo de Clusterização, K-mediasSimples, definindo as classes de acordo com o
curso. Foram selecionados os três cursos mais procurados de acordo com o nível de
ensino Superior, Técnico Integrado e Técnico.
Dentro dos cursos superiores foram identificados três clusteres, sendo eles
Arquitetura
e
Urbanismo,
Ciências
da
natureza
–
Licenciaturas
(Física/Química/Biologia) e Engenharia de Controle Automação. Dentro dos cursos
técnicos integrados também foram identificados três clusteres, sendo eles
Eletrotécnica, Eletrônica e Meio Ambiente, por fim, dentro dos cursos técnicos foram
identificados três clusteres, sendo eles Eletromecânica, Automação Industrial e
Segurança do Trabalho definidos pela similaridade das ocorrências das instâncias
dos itens avaliados serem altas em cada cluster, onde se caracteriza de acordo com
as Tabelas 4, 5 e 6:
51
3.5.2.4.1 NIVEL SUPERIOR
Tabela 4: Clusterização por curso – nivel superior
Arquitetura e Urbanismo
Ciências da Natureza
Engenharia de Controle e
Automação
Solteiro
Solteiro
Solteiro
Branco
Branco
Branco
Público – diurno
Público – diurno
Público – diurno
Realização Pessoal
Mercado de Trabalho
Mercado de Trabalho
Não trabalha
Atividade Remunerada
Não trabalha
Acima de três salários e meio Acima de três salários e meio Um salário e meio a dois
salários e meio
Acesso a computador em
casa
Acesso a computador em
casa
Acesso a computador em
casa
Campos dos Goytacazes
Campos dos Goytacazes
Macaé
Presencial
Presencial
Presencial
Exatas
Exatas
Engenharias
•
Cluster Arquitetura e Urbanismo – neste grupo tem uma maior incidência de
pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental
somente em estabelecimento público, somente no período diurno, escolheram
determinado curso pela possibilidade de realização pessoal, não exercem
atividade remunerada, a renda mensal da família é acima de três salários
mínimos e meio, como não trabalham seus gastos são financiados pela
família ou por outras pessoas, tem acesso a computador em casa, acreditam
que suas maiores chances de emprego será em Campos dos Goytacazes,
dentro desse grupo predomina uma procura maior por cursos da modalidade
Presencial e área do conhecimento das Ciências Exatas.
•
Cluster Ciências da natureza – Licenciaturas (Física/Química/Biologia) –
neste grupo tem uma maior incidência de pessoas solteiras, brancas, que
cursaram o ensino médio e/ou fundamental somente em estabelecimento
público, somente no período diurno, escolheram determinado curso visando o
52
mercado de trabalho, exercem atividade remunerada em tempo integral
(cerca de 30 horas semanais), a renda mensal da família é acima de três
salários mínimos e meio, como trabalham seus gastos são financiados pela
família ou por outras pessoas, tem acesso a computador no trabalho e em
casa, acreditam que suas maiores chances de emprego será em Campos dos
Goytacazes, dentro desse grupo predomina uma procura maior por cursos da
modalidade presencial e área do conhecimento das Ciências Exatas.
•
Cluster Engenharia de Controle e Automação – neste grupo tem uma maior
incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou
fundamental somente em estabelecimento público, somente no período
diurno, escolheram determinado curso visando o mercado de trabalho, não
exercem atividade remunerada, a renda mensal da família é entre um salário
mínimo e meio e dois salários mínimos e meio, como não trabalham seus
gastos são financiados pela família ou por outras pessoas, tem acesso a
computador em casa, acreditam que suas maiores chances de emprego será
em Macaé, dentro desse grupo predomina uma procura maior por cursos da
modalidade presencial e área do conhecimento das Engenharias.
3.5.2.4.2 NIVEL TÉCNICO INTEGRADO
53
Tabela 5: Clusterização por curso – nivel técnico integrado
Eletrotécnica
Meio Ambiente
Eletrônica
Solteiro
Solteiro
Solteiro
Branco
Negro
Branco
Público – diurno/noturno
Público – diurno
Público – noturno
Mercado de Trabalho
Mercado de Trabalho
Mercado de Trabalho
Atividade Remunerada
Não Trabalha
Atividade Remunerada
Um salário e meio a dois
salários e meio
Um salário e meio a dois
salários e meio
Meio a um salário mínimo e
meio
Acesso a computador em
casa
Acesso a computador em
casa
Acesso a computador em
casa de amigos e parentes
Macaé
Campos dos Goytacazes
Outras localidades/Regiões
Proeja
Proeja
Proeja
Exatas
Exatas
Exatas
•
Cluster Eletrotécnica – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, parte em período diurno e parte no período
noturno, escolheram determinado curso visando o mercado de trabalho,
exercem atividade remunerada em tempo integral (cerca de 30 horas
semanais), a renda mensal da família é entre um salário mínimo e meio e dois
salários mínimos e meio, como trabalham se sustentam e contribui
parcialmente para o sustento da família ou de outra pessoa, tem acesso a
computador em casa, acreditam que suas maiores chances de emprego será
em Macaé, dentro desse grupo predomina uma procura maior por cursos da
modalidade Proeja e área do conhecimento das Ciências Exatas.
•
Cluster Meio Ambiente – neste grupo tem uma maior incidência de pessoas
solteiras, negras, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, não exercem atividade
remunerada, a renda mensal da família é entre meio salário mínimo e um
salário mínimo e meio, como não trabalham seus gastos são financiados pela
família ou por outras pessoas, tem acesso a computador em casa, acreditam
54
que suas maiores chances de emprego será em Campos dos Goytacazes,
dentro desse grupo predomina uma procura maior por cursos da modalidade
Proeja e área do conhecimento das Ciências Exatas.
•
Cluster Eletrônica – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período noturno, escolheram
determinado curso visando o mercado de trabalho, exercem atividade
remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal
da família é entre meio salário mínimo e um salário mínimo e meio, como
trabalham
são
responsáveis
pelo
seu
próprio
sustento
e
contribui
parcialmente para o sustento da família ou de outra pessoa, tem acesso a
computador em casa de amigos e parentes, acreditam que suas maiores
chances de emprego será em outras localidades/regiões dentro desse grupo
predomina uma procura maior por cursos da modalidade Proeja e área de
conhecimento das Ciências Exatas.
3.5.2.4.3 NIVEL TÉCNICO
55
Tabela 6: Clusterização por curso – nivel técnico
Segurança do Trabalho
Eletromecânica
Automação Industrial
Solteiro
Solteiro
Solteiro
Branco
Branco
Branco
Público – diurno
Público – diurno
Público – diurno
Mercado de Trabalho
Mercado de Trabalho
Mercado de Trabalho
Atividade Remunerada
Não trabalha
Não trabalha
Um salário e meio a dois
salários e meio
Meio a um salário mínimo e
meio
Um salário e meio a dois
salários e meio
Acesso a computador em
casa
Acesso a computador em
casa
Acesso a computador em
casa
Macaé
Macaé
Região dos Lagos, inclusive
Macaé
Presencial
Presencial
Semipresencial
Exatas
Exatas
Exatas
•
Cluster Segurança do Trabalho – neste grupo tem uma maior incidência de
pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental
somente em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, exercem atividade
remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal
da família é entre um salário mínimo e meio e dois salários mínimos e meio,
como trabalham se sustentam e contribui parcialmente para o sustento da
família ou de outra pessoa, tem acesso a computador em casa, acreditam
que suas maiores chances de emprego será em Macaé, dentro desse grupo
predomina uma procura maior por cursos da modalidade Presencial e área de
conhecimento das Ciências Exatas.
•
Cluster Eletromecânica – neste grupo tem uma maior incidência de pessoas
solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente
em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, não exercem atividade
remunerada, a renda mensal da família é entre meio salário mínimo e um
salário mínimo e meio, como não trabalham seus gastos são financiados pela
56
família ou por outras pessoas, tem acesso a computador em casa, acreditam
que suas maiores chances de emprego será em Macaé, dentro desse grupo
predomina uma procura maior por cursos da modalidade Presencial e área do
conhecimento das Ciências Exatas.
•
Cluster Automação Industrial – neste grupo tem uma maior incidência de
pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental
somente em estabelecimento público, somente no período diurno, escolheram
determinado curso visando o mercado de trabalho, não exercem atividade
remunerada, a renda mensal da família é entre um salário mínimo e meio e
dois salários mínimos e meio, como não trabalham seus gastos são
financiados pela família ou por outras pessoas, tem acesso a computador em
casa, acreditam que suas maiores chances de emprego será na Região dos
Lagos exclusive Macaé, dentro desse grupo predomina uma procura maior
por cursos da modalidade Semipresencial da área de conhecimento das
Ciências Exatas.
57
4. CONSIDERAÇÕES FINAIS
Neste capítulo são feitas algumas considerações a respeito do estudo
realizado. Além disso, apresentamos também as sugestões para trabalhos futuros.
4.1 CONCLUSÕES
Os processos de DCBD podem ser utilizados para a obtenção de
conhecimento útil a partir das bases de dados.
Neste trabalho foi demonstrada a relevância da aplicação de tarefas e
métodos de Mineração de Dados na descoberta de conhecimento no que se refere
ao questionário socioeconômico dos futuros ingressantes do Instituto Federal
Fluminense.
Assim, teve-se como objetivo a aplicação dessas tarefas e métodos de
Mineração de Dados para identificar o perfil dos alunos que pretendem ingressar no
Instituto Federal Fluminense.
Para alcançar o objetivo pretendido foi utilizada a tarefa de clusterização por
meio do algoritmo K-mediasSimples e associação através do algoritmo APRIORI.
Os resultados obtidos, tanto com a clusterização e associação, permitiram
identificar o perfil dos alunos.
Pode-se concluir que tanto na análise por curso, por nível de ensino, por área
de conhecimento ou pela modalidade, obtiveram perfis semelhantes, com uma
predominância de pessoas brancas, solteiras, que estudaram em escola pública,
com a renda mensal da família entre um salário mínimo e meio e dois salários
mínimos e meio, maior procura por curso da área das ciências exatas, na
modalidade presencial. Dentro dos cursos técnicos a maior procura foi pelo curso de
Segurança do Trabalho, os de nível superior a maior procura foi pelo curso de
Engenharia de Controle e Automação, já no técnico integrado foi predominante a
escolha do curso de Eletrotécnica e, por fim, na pós-graduação houve uma maior
procura pelo curso de Mestrado em Engenharia Ambiental.
Entende-se que o trabalho proposto foi concluído de forma satisfatória, sendo
seus objetivos atingidos de forma plena.
58
4.2 TRABALHOS FUTUROS
Como trabalho futuro, sugere-se o estudo de outras tarefas e métodos de
Mineração de Dados para a descoberta de conhecimento para análise de resultados,
em outros anos, a fim de se obter um estudo comparativo.
Uma outra sugestão, seria fazer um estudo de acordo com a quantidade de
vagas ofertadas para cada curso e se estas atendem a demanda e/ou estão bem
distribuídas.
Por fim, sugerimos um estudo para ver o perfil dos alunos que foram
aprovados no processo seletivo.
59
REFERÊNCIAS BIBLIOGRÁFICAS
ARBEX, Eduardo Compasso; Saboredo, Alexandre de Paiva; Miranda, Dhalila.
Implementação e Estudo de caso do algoritmo Apriori para Mineração de
Dados. Curso de Sistemas de Informação, Associação Educacional Dom Bosco,
Resende RJ-Brasil, 2004.
AMO, Sandra de. Técnicas de Mineração de Dados. XXIV Congresso da
Sociedade Brasileira de Computação. Jornada de Atualização em Informática, 2004.
BAKER, Ryan Shaun Joazeiro de; Seiji Isotani; Adriana Maria Joazeiro Baker de
Carvalho. Mineração de dados educacionais: oportunidades para o Brasil.
Revista Brasileira de Informática na Educação, vol. 19, n° 2, 2011.
BATISTA, Gustavo Enrique de Almeida Prado Alves. Pré-processamento em
aprendizado
de
máquina
supervisionado.
2003.
Disponível
em:
<http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003160219/publico/TeseDoutorado.pdf>. Acesso em 14 de maio 2016.
BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques – for marketing, sales,
andcustomer support. United States: Wiley Computer Publishing, 1997.
BUENO, Michel Ferreira; Viana, Maury Reis. Mineração de dados: Aplicações,
Eficiência e Usabilidade. Anais do Congresso de Iniciação Científica do INATEL –
INCITEL, 2012.
CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de Dados: Conceitos,
Tarefas, Métodos e Ferramentas. Mestrado em Ciência da Computação, 2009.
CASTANHEIRA, Luciana Gomes. Aplicação de Técnicas de Mineração de Dados
em Problemas de Classificação de Padrões. Dissertação de Pós-Graduação em
Engenharia Elétrica, 2008.
CONTI, Fabieli de. Mineração de dados no moodle: Análise de prazos de
entrega de atividades. Dissertação de Mestrado, 2011.
COSTA, Evandro; Ryan S.J.d. Baker, Lucas Amorim, Jonathas Magalhães, Tarsis
Marinho. Mineração de Dados Educacionais: Conceitos, Técnicas, Ferramentas
e Aplicações. Jornada de Atualização em Informática na Educação – JAIE, 2012.
CRUNCH,
Base.
Disponível
em:
<https://www.crunchbase.com/organization/kxen#/entity> Acesso em 13 de maio de
2016.
FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. American Association for Artificial Intelligence, 1996.
GOLDSCHMIDT R. PASSOS, E. Data Mining: um guia prático. Rio de Janeiro:
Elsevier/Campus, 2005.
60
GOTTARDO, Ernani; Celso Kaestner; Robinson Vida Noronha. Avaliação de
Desempenho de Estudantes em Cursos de Educação a Distância Utilizando
Mineração de Dados. Anais do Workshop de Desafios da Computação Aplicada à
Educação. 2012.
IBM, Intelligent Mine. Disponível em: <http://www.psy.gla.ac.uk/~steve/pr/ibm.html>
Acesso em 13 de maio de 2016.
KMINE, Open for Inovation. Disponível em: <https://www.knime.org/> Acesso em 13
de maio de 2016.
LINGPIPE. Disponível em: <http://alias-i.com/lingpipe/> Acesso em 13 de maio de
2016.
MACHADO, Letícia Santos. Mineração do Uso da Web na Educação a Distância:
Propostas para a Condução de um Processo a partir de um Estudo de Caso.
Dissertação em Ciência da Computação. Pontifícia Universidade Católica do Rio
Grande
do
Sul,
2002.
Disponível
em:
<http://www.
pucrs.br/uni/poa/info/pos/dissertacoes/arquivos/leticiam.pdf> Acesso em 14 de maio
2016.
MANHÃES, Laci Mary Barbosa, et al. Previsao de estudantes com risco de
evasão utilizando técnicas de mineração de dados. Anais do XXII SBIE-XVII
WIE, Aracaju, 2011.
MIRANDA, Dhalila. Implementação e Estudo de caso do algoritmo Apriori para
Mineração de Dados. Curso de Sistemas de Informação, Associação Educacional
Dom Bosco, Resende RJ-Brasil.
MINING,
The
Data.
Disponível
em:
<http://www.the-datamine.com/Software/SPSSClementine> Acesso em 13 de maio de 2016.
NEVES, Rita de Cássia David das. Pré-Processamento no Processo de
Descoberta de Conhecimento em Banco de Dados. Dissertação de Mestrado em
Ciência da Computação, 2003.
OGLIARI, Paulo José et al.. Desenvolvimento e Implementação de Metodologia
para a Análise de Dados Gero referenciados em Segurança Pública.
Universidade Federal de Santa Catarina – Centro Tecnológico Departamento de
Informática e Estatística, Pós-Graduação em Ciência da Computação, 2002.
Disponível
em:
<www.inf.ufsc.br/~ogliari/arquivos/Projeto_de_Pesquisa_Seguranca_Publica3.doc>
Acesso em 24/05/2016
ORACLE.
Disponível
<http://www.oracle.com/technetwork/database/options/advancedanalytics/odm/index.html> Acesso em 13 de maio de 2016.
em:
61
PRASS, Fernando Sarturi. Algoritmo de K-means; Sopa de Letrinhas – O Blog do
Business
Intelligence,
2013.
Disponível
em:
<http://fp2.com.br/blog/index.php/2013/algoritmo-de-k-means/> Acesso em: 21 de
maio de 2016
PORTAL DE INSCRIÇÕES. Disponível em: (https://inscricoes.iff.edu.br Acesso em
14 de maio de 2016.
QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan
Kaufmann Publishers, 1993. 302 p.
RAMISCH, Carlos. Trabalho prático de mineração de dados – Algoritmos de
aprendizado para avaliação de carros. 2009
REFAAT, M. Data Preparation for Data Mining Usisg SAS. São Francisco:Elsevier,
2007.
SAS,
The
Power
To
Know.
Disponível
em:
<http://www.sas.com/en_us/software/analytics/enterprise-miner.html> Acesso em 13
de maio de 2016.
SAS,
The
Power
To
Know.
Disponível
em:
<http://www.sas.com/en_us/software/analytics/text-miner.html> Acesso em 13 de
maio de 2016.
SILVA, Renata Mesquita da. Percepção dos Discentes em Relação aos Docentes
Através da Aplicação de Técnicas e Métodos de Mineração de Dados.
Dissertação de Mestrado, 2010.
STEINBACH, Michael; TAN, Pang – Ning; KUMAR, Vipin – Introdução ao DATA
MINING Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda., 2009
TEÓFILO, Daniel – Tecnologia, KDD Knowlegde Discovery in Database.
Disponível em: <https://danielteofilo.wordpress.com/2015/02/16/kdd-knowlegdediscovery-in-database/ > Acesso: 24/05/2016.
WEKA
–
The
University
of
Waikato.
Disponível
<http://www.cs.waikato.ac.nz/ml/weka/> Acesso em 13 de maio de 2016.
em:
WIKIPÉDIA
–
A
Enciclopédia
Livre.
Disponível
<https://pt.wikipedia.org/wiki/Weka> Acesso em 10 de maio de 2016.
em
WIVES, L..K. Um Estudo sobre Agrupamento de Documentos Textuais em
Processamento de Informações não Estruturadas Usando Técnicas
de"Clustering". Dissertação de Mestrado em Ciência da Computação, UFRGS.
Porto Alegre, 1998.
62
ANEXO – FORMULÁRIO SOCIOECONÔMICO
63
Download