aplicação de mineração de dados para o

Propaganda
APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE
PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR
PRIVADA
Lizianne Priscila Marques SOUTO
1
Faculdade
de
Ciências
Sociais
e
Aplicadas
[email protected]. Telefone: (83)8879-0679.
–
FACISA,
1
Campina
Grande-PB.
E-mail:
RESUMO
Nos últimos anos, a informação tem sido considerada como um dos recursos mais valiosos para as
organizações, porém, de nada adianta ter informação se não for interpretada e utilizada, de maneira
correta e segura. Nesse sentido, esse artigo sugere a utilização do KDD como uma ferramenta que
possa extrair informações sobre o perfil dos alunos do curso de Sistemas de Informação, a partir de
uma base de dados de uma Instituição de Ensino Superior, com o objetivo de aplicar o conhecimento
obtido, no processo de tomada de decisões acadêmicas. Neste trabalho, foi realizado um estudo de
caso que teve como foco, uma das tarefas de Mineração de Dados, a Clusterização, combinando
informações em comum entre diversos alunos para formação de perfis.
PALAVRAS CHAVE: KDD, Mineração de Dados, Clusterização.
1 INTRODUÇÃO
Nos últimos anos pôde-se observar que as empresas utilizaram ferramentas de
Tecnologia da Informação (TI) para automatizar processos e conquistar fatias cada
vez maiores do mercado. O uso dessas ferramentas tem facilitado os processos de
coleta e de armazenamento de dados. Com o tempo, o volume desses dados
armazenados em um repositório aumenta, acumulando informações desnecessárias
ou ocultando informações valiosas para a organização.
No contexto educacional, ferramentas de TI podem ajudar a fazer
levantamento de informações acerca dos estudantes, de forma a apoiar decisões
gerenciais. Para tal apoio é necessário conhecer a fundo o perfil dos alunos, prever
antecipadamente possíveis dificuldades de aprendizagem, assim como descobrir o
potencial vocacional de cada aluno, fatores essenciais para a formação acadêmica.
Os talentos devem ser devidamente explorados e o grau de dificuldade deve
ser trabalhado ao longo do curso para diminuir a incerteza no direcionamento de
cada profissional ao mercado de trabalho. À medida que o número de alunos, e
consequentemente, de dados a eles relacionados aumenta, diminui a capacidade de
identificação dos talentos apenas de forma intuitiva, por parte dos gestores dos
cursos, sendo necessário o uso de ferramentas que automatizem o processo de
descoberta desse conhecimento.
Neste trabalho foi realizado o processo do KDD (Knowledge Discovery in
Databases, Descoberta de Conhecimento em Bancos de Dados) como maneira de
resolver o problema do excesso de dados. O KDD é um processo composto por
vários passos que transformam dados brutos em informações úteis. (TAN et al.,
2009).
Uma das etapas do processo de KDD é a Mineração de Dados. Existem
diversas tarefas de Mineração de Dados. A escolha de uma das tarefas está
relacionada com o objetivo que se deseja alcançar. Neste caso, a tarefa utilizada foi
a Clusterização, onde cada cluster encontrado corresponde a perfis de alunos da
instituição. A definição de um perfil é baseada em uma característica ou problema
em particular, possibilitando a descoberta de características comuns em alunos que
se enquadram no perfil.
Este estudo se faz necessário para auxiliar o coordenador a trabalhar com o
aluno de maneira estratégica e diferenciada de acordo com o perfil de cada um.
Esses perfis serão úteis na composição de turmas, ocupação de vagas de
empregos, estágios, etc.
2 PROCESSO DE DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS
(KDD)
O processo de descoberta de conhecimento em bancos de dados Knowledge Discovery in Databases - KDD é uma tentativa de resolver o problema
da sobrecarga dos dados estocados e sem utilidade para a organização.
Segundo Fayyad (1996 apud BOENTE et al., 2007), “KDD é um processo, de
várias etapas, não trivial, interativo e iterativo, para identificação de padrões
compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos
de dados”.
O KDD é um processo amplo, composto por várias etapas, são elas: Préprocessamento, Mineração de Dados e Pós-processamento.
O pré-processamento é a primeira etapa do KDD, ela envolve todas as
funções relacionadas à seleção, à organização e ao tratamento dos dados
(GOLDSCHIMIDT;
PASSOS,
2005).
O
propósito
do
pré-processamento
é
transformar dados que ainda não foram trabalhados em um formato válido para a
etapa da mineração de dados (TAN et al., 2009).
“A Mineração de Dados, segunda etapa do KDD, consiste na aplicação de
algoritmos específicos, que extraem padrões a partir dos dados” (FAYYAD et al.,
1996 apud MACEDO; MATOS, 2010).
Ao realizar o processo de Mineração de Dados, tem-se a possibilidade de
escolher dentre várias tarefas, a específica para determinada situação e com isso
obter conhecimentos diversos. A tarefa está relacionada ao que se deseja encontrar
nos dados (regularidades, categoria de padrões, etc.). As tarefas da Mineração de
Dados são: Descoberta de Associação, Classificação, Regressão, Clusterização,
Sumarização, Detecção de Desvios (outliers) e Descoberta de Sequências.
Dentre as tarefas de Mineração de Dados, a clusterização, foi escolhida para
realizar este trabalho. Clusterização consiste em formar grupos (clusters) de objetos
similares. De acordo com Boente et. al. (2007), essa tarefa tem como objetivo
formar grupos de objetos homogênios, que compartilhem propriedades comuns e
que diferenciem de elementos de outros grupos, ou seja, minimizar as diferenças
entre os elementos de um cluster e maximizar a diferença entre os clusters. O
K-
Means foi o algoritmo utilizado para realizar a Clusterização neste trabalho. Este
algoritmo é comumente utilizado e investigado, pois, implementa o método de
particionamento, bastante eficiente em classificar os dados em grupos (BOGORNY,
2003).
Na ultima fase do KDD, é realizado o Pós-Processamento. Nessa fase é
possível visualizar, analisar e interpretar os resultados que foram gerados na fase de
mineração de dados (GOLDSCHIMIDT; PASSOS, 2005).
Geralmente os resultados são avaliados por um especialista em KDD e o
conhecimento obtido é incorporado ao sistema e apresentado ao cliente que, de
acordo com seus critérios, pode-se voltar à fase inicial para novas iterações e
realizar outras investigações dos dados. Na etapa de Pós-processamento são
construídos gráficos, diagramas e relatórios demonstrativos para representar o
conhecimento extraído no processo de KDD (BOENTE et al., 2007).
3 METODOLOGIA
Este estudo propõe uma metodologia para a realização de um processo de
KDD, fundamentado pela realização de um estudo de caso, realizado na FACISA –
Faculdade de Ciências Sociais e Aplicadas, instituição de ensino superior localizada
em Campina Grande – PB, no Brasil. Os dados utilizados foram os relativos ao
curso de Sistemas de Informação (SI).
Para complementar a base de dados com informações inicialmente
ausentes, foi realizada uma pesquisa entre os alunos cursando a partir do segundo
período do curso, a partir de um questionário contendo 14 perguntas. Essas
informações diziam respeito a opiniões dos alunos acerca do curso, como seu grau
de satisfação, áreas de maior interesse, o rumo que ele pretende seguir após a
graduação, entre outras.
Os alunos responderam ao questionário de maneira voluntária. Atualmente
existem 150 alunos (população). A amostra investigada foi de 44 alunos, ou seja,
29,33% dos alunos de SI.
Para a realização do estudo de caso, propõe-se as seguintes atividades
distribuídas de acordo com o processo de KDD:
a. Pré-Processamento
Inicialmente o banco de dados (BD) deve ser explorado. Deve-se analisar
todas as tabelas e seus atributos, além de, excluir do processo os dados
incompletos, nulos e em branco. Em seguida, agregar aos dados selecionados e
tratados, os dados obtidos na pesquisa de opnião.
b. Clusterização
Na
clusterização,
são
executados os seguintes passos para cada
Levantamento de Perfil:
1. Definição de objetivo – Inicialmente, o objetivo a ser alcançado é definido
de acordo com o perfil que se deseja obter;
2. Definição do número de cluster – O número de Clusters (grupos) é
definido pelo analista de acordo com o objetivo definido na etapa 1.
3. Escolha de atributo – Nesta etapa, o atributo chave é escolhido. A escolha
do atributo chave é feita de acordo com o objetivo definido na etapa 1;
4. Mineração atributo-atributo – O atributo selecionado na etapa 3 é
combinado a outro atributo e submetido ao algoritmo de mineração. Esse
procedimento se repete até encontrar atributos que estejam interligados;
5. Mineração em conjunto – Os atributos que passaram pela etapa anterior
são minerados, dessa vez em conjunto;
6. Resultados- Os resultados da clusterização são divulgados.
c. Pós- Processamento
Nesta fase, as informações obtidas na etapa anterior (Mineração de Dados)
são analisadas e apresentadas em forma de tabela.
d. Validação
A cada obtenção de perfil, o coordenador do curso de Sistemas de
Informação analisa o resultado, sugerindo mudanças, validando ou não, a
informação descoberta e acrescentando outros atributos para a investigação de
novos padrões.
4 RESULTADOS E DISCUSSÃO
Neste capítulo, os resultados obtidos por meio dos Levantamentos de Perfis
serão apresentados em forma de tabelas, compostas pelas colunas chamadas,
atributo e cluster. A coluna atributo contém os dados que compõem o perfil de cada
grupo (cluster). Nas colunas Cluster 1 e Cluster 2 contém o grupo que foi formado,
nelas estão a quantidade de alunos pertencentes a cada cluster.
4.1 Levantamento de Perfis 1
O curso de SI é bastante procurado por pessoas do sexo masculino, o que
não acontece com tanta intensidade por pessoas do sexo feminino. Como as
mulheres fazem parte da minoria no curso, deseja-se saber especialmente o perfil
dessas alunas, assim como a área em que elas mais se identificam.
 Objetivo: Descobrir qual área do curso que os alunos (feminino e
masculino) de SI mais se identificam.
Tabela 1 – Levantamento de perfis 1.
Atributos
Sexo
Trabalhando
Segundo_grau_escola_PubPriv
Gosta_de_programação
Gosta_BancoDados
Fonte: própria (2012).
Cluster 1 (9 alunos)
Cluster 2 (34 alunos)
F
Sim, em outra área
Pública
Não
Sim
M
Sim, na área de TI
Privada
Sim
Não
Considerações: Com base no agrupamento realizado no cluster 1 mostrado na
Tabela 1 conclui-se que, a maioria das alunas se identificam mais com a área de
Banco de Dados e não gostam de programação. Grande parte cursou o segundo
grau em escola pública e trabalha em outra área diferente da área de TI.
No cluster 2 ilustrado na Tabela 1 pode-se observar que a maioria dos
homens que cursam Sistemas de Informação já trabalham na área de TI e gostam
de programar. Eles vêm de escola privada e, ao contrário das mulheres, não gostam
da área de banco de dados.
O estudo aponta que as mulheres se identificam mais com a área de banco
de dados, essa área envolve a realização de atividade como modelagens de BD e
gerenciamento de dados, enquanto os homens se identificam com a área de
programação, atividade que envolve raciocínio lógico e matemático.
4.2 Levantamento de Perfis 2
O curso de Sistemas de Informação oferece disciplinas de programação,
banco de dados, redes de computadores, entre outras. Mas nem sempre os alunos
se identificam com todas essas áreas.
 Objetivo: Deseja-se saber qual o rumo que os alunos que não gostam de
programação pretendem seguir.
Tabela 2 – Levantamento de perfis 2.
Atributo
Gosta_de_programação
Segundo_grau_escola_Pubpriv
Trabalhando
Rumo_pos_graduacao
PosGraduacao
Fonte: própria (2012).
Cluster 1 (19 alunos)
Cluster 2 (24 alunos)
Sim
Privada
Sim, em outra área
Emprego
Especialização
Não
Publica
Sim, na área de TI
Academia
Mestrado
Considerações: Ao comparar os dois perfis obtidos no Levantamento de Perfis 2,
observou-se que os alunos que não gostam de programar preferem tentar entrar no
mestrado do que conseguir um emprego na área logo após a graduação. Isso se
deve em grande parte pelo fato de que a maior parte dos empregos para recém-
formados envolve programação, o que justifica a preferência pela academia por
parte dos alunos que não gostam de programar.
4.3 Levantamento de Perfis 3
O trancamento das disciplinas por parte dos alunos é um fator preocupante
para a Instituição. A cada semestre vem-se observando uma grande evasão dos
alunos em determinadas disciplinas. Então, surgiu a necessidade por parte da
coordenação em saber quais motivos têm contribuído para isto ocorrer.
 Objetivo: Descobrir fatores que influenciam os alunos a trancar as
disciplinas.
Tabela 3 – Levantamento de perfis 3.
Atributos
Trancou_disciplina
Motivos_trancamento_disciplina
Trabalhando
Idade
Rumo_pos_graduacao
Satisfação_curso
Gosta_de_programacao
Fonte: própria (2012).
Cluster 1 (24 alunos)
Cluster 2 (19 alunos)
Sim, duas, três ou quatro
Não
Dificuldade de
Aprendizagem
-----------
Não
Sim, na área de TI
De 21 a 23 anos
De 24 a 26 anos
Emprego
Academia
Parcialmente Satisfeito
Completamente Satisfeito
Sim
Não
Considerações: À medida que o aluno realiza a matricula em muitas disciplinas e
dependendo do grau de dificuldade, ele poderá apresentar problemas de
aprendizagem e a consequência futura poderá ser o trancamento de alguma(s)
disciplina(s). Esse trancamento pode ocasionar o atraso da conclusão do curso,
causando certa desmotivação no aluno, tornando-os parcialmente satisfeitos com o
curso. Neste estudo, observou-se que os alunos mais jovens estão mais propensos
a desistir das disciplinas, estes não trabalham e teoricamente deveriam ter mais
tempo para dedicar aos estudos.
É possível observar na coluna Cluster 2, Tabela 3, que, os alunos que não
trancaram disciplinas e que estão no mercado de trabalho apresentaram maior
satisfação em relação ao curso. Dessa maneira, entende-se que o curso está
atingindo suas expectativas e contribuindo positivamente para executar as tarefas
da profissão. É possível supor que, a partir da experiência adquirida através do
mercado de trabalho e por não gostarem de programação, esses alunos gostariam
de melhorar suas condições de emprego e salário, uma solução para isso seria
investir mais em sua carreira tentando um mestrado.
4 CONCLUSÃO
Ter informação tornou-se uma necessidade por parte das organizações
quando se trata de diferencial competitivo. Isso porque ela contribui para diminuir
incertezas durante o processo de tomada de decisão. Com base nisso, as empresas
têm feito uso de ferramentas de Tecnologia da Informação para facilitar a coleta e
armazenamento de dados. Porém, o aumento do volume dos dados armazenados
pode contribuir para ocultar informações úteis para o processo de tomada de
decisão. O mesmo problema se aplica a instituições de âmbito educacional. Uma
solução para este problema é o processo de KDD.
Este trabalho sugere um processo de KDD sobre os dados de uma base de
alunos em uma instituição de ensino superior privada. Tal processo visa encontrar
perfis de alunos baseados em problemas e dificuldades comumente encontradas no
curso de Sistemas de Informação, identificando características semelhantes entre
alunos que passam por essas dificuldades e possibilitando à coordenação tomar
medidas proativas para dirimi-las, num claro ganho educacional.
Foram demonstrados neste artigo três dos perfis levantados usando a
metodologia de KDD proposta, cada um mostrando entre cinco e sete atributos, que
representam as características em comum entre os alunos que enfrentam a mesma
dificuldade. A identificação destas características fornece subsídios para a
compreensão do problema como um todo, o que é necessário para que se tome
qualquer medida preventiva.
A metodologia de KDD proposta não é exclusiva do curso de Sistemas de
Informação, podendo ser aplicada em qualquer curso. Para tanto, é necessário
identificar problemas corriqueiros do curso e fazer um levantamento de possíveis
causas, de forma que o levantamento de perfis feito na base de dados do curso
possa associar as causas às dificuldades, fornecendo subsídios para decisões
acadêmicas.
REFERÊNCIAS
Boente, A. N. P., Goldschmidt R. R., Estrela, V. V., Uma Metodologia de Suporte
ao Processo de Descoberta de Conhecimento em Bases de Dados, acesso em
21/07/2012, disponível em http://www.aedb.br/seget/artigos2007.php?pag=34.
Bogorny, Vania, Algoritmos e Ferramentas de Descoberta de Conhecimento em
Bancos de Dados Geográficos, UFRGS, TI-III 1120, Research Report, 2003,
pp.43, Porto Alegre.
Goldschimidt, R., Passos, E., Data Mining: Um guia prático. Rio de Janeiro, 2005.
Tan, P., Steinbach, M. e Kumar,V., Introdução ao Datamining: Mineração de
Dados, Rio de Janeiro: Editora Ciência Moderna Ltda, 2009.
Macedo, D. C. e Matos, S. N., Extração de Conhecimento Através da Mineração
de Dados, Revista de Engenharia e Tecnologia. v. 2, n. 2, p.22-30, 2010.
Download