Baixar este arquivo PDF - Fatec-ID

Propaganda
Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos
alunos do ensino básico do município de Indaiatuba
Thaís Barros Nascimento1, Maria das Graças J. M. Tomazela1
1
Faculdade de Tecnologia de Indaiatuba (FATEC-ID) – Indaiatuba, SP – Brasil
[email protected], [email protected]
Resumo: O objetivo da pesquisa foi aplicar técnicas de Mineração de Dados a uma base de dados
composta por variáveis na área educacional, com a finalidade de identificar as variáveis que influenciam
no rendimento dos alunos das escolas de ensino básico de Indaiatuba, podendo auxiliar os gestores nas
tomadas de decisão. Inicialmente foi realizada uma revisão bibliográfica sobre Knowledge Discovery in
Databases. Em seguida foi aplicada a tarefa de Clusterização, utilizando o algoritmo K-means. Com os
resultados gerados pela clusterização aplicou-se uma função estatística, o Histograma, gerando gráficos
para análise. Após a análise dos resultados, aplicaram-se os principais algoritmos classificadores, para
verificar a capacidade preditiva dos modelos gerados pela clusterização. A precisão obtida dos
algoritmos foi aproximadamente 95%, com isso pode-se dizer que a mineração de dados pode ser
aplicada para analisar as variáveis que influenciam no rendimento do ensino básico.
Abstract: The purpose of this article was to apply Data Mining into an academic database from
Indaiatuba city, in order to identify the attributes of student´s performance in primary school, assisting
the educational system in decision making. It was conducted a literature review on Knowledge Discovery
in Databases, then it was applied the clustering task, using the K-means algorithm. Based on clustering
results it were deployed statistics function, Histogram, generating graphs. After a deep analysis, it was
implemented the main classifier algorithm to verify the predictive ability of the models generated by
clustering. The algorithm´s accuracy was around 95%, with these outcomes it can be said that data
mining can be considered to analyze the attributes in student´s performance in primary school.
1.Introdução
O avanço nas técnicas para coleta, armazenamento e gerenciamento de dados levou ao
armazenamento de grandes e múltiplas bases de dados. Muitos desses dados possuem
informações úteis para melhorar a decisão de negócios, considerando que essas bases
possuem uma grande quantidade de dados, torna-se necessário o desenvolvimento de
processos para analisar automaticamente esses dados, como o processo de Descoberta
de conhecimento (REZENDE, 2005; GOLDSHIMIDT,2005,).
Basicamente o Processo de KDD pode ser dividido em três grandes etapas – PréProcessamento, Extração de Padrões e Pós Processamento. Nessa divisão não foram
incluídas uma fase anterior ao processo, que se refere ao conhecimento do domínio e
identificação do problema, e uma fase posterior, a fase da utilização do conhecimento
obtido (REZENDE, 2005).
Segundo Rezende (2005), a primeira etapa do processo de Descoberta de
Conhecimento em Base de Dados é a identificação dos objetivos, metas a serem
alcançados e restrições, esses tópicos fornece auxílio para todas as demais etapas do
processo. Na etapa de Pré-processamento, esse conhecimento pode ajudar os analistas
na escolha do melhor conjunto de dados para realizar a Extração de Padrões, saber quais
valores são válidos para os atributos, os critérios de preferência entre os possíveis
atributos, as restrições de relacionamento ou informações para geração de novos
atributos. Segundo Rezende (2005) diversas transformações nos dados podem ser
executadas na etapa de pré- processamento de dados. Entre elas: Extração e Integração,
Transformação, Limpeza, Seleção e Redução de Dados.
Na extração de padrões ou Mineração de Dados é realizada a busca do
conhecimento conforme o contexto a ser analisado por meio da ferramenta de KDD. É a
principal etapa no processo e consiste na aplicação de técnicas inteligentes para obter a
extração de padrões de interesse do usuário.
A Etapa de pós-processamento é responsável por realizar o tratamento do
conhecimento obtido na Mineração de Dados. É importante, nesta etapa, a análise dos
resultados por especialistas da área do problema que está sendo minerado.
Na etapa da extração de padrões é feita a escolha da tarefa de Mineração de Dados a ser
utilizada. Neste trabalho são utilizadas as tarefas de classificação e clusterização.
A tarefa de Clusterização (ou agrupamento) consiste em particionar os registros
da base de dados em subconjuntos (ou clusters) de maneira que elementos presentes em
um cluster, compartilhem um conjunto de propriedades comuns e que os diferenciem
dos elementos de outros clusters. Em geral o conjunto de dados utilizados para efetuar a
clusterização não possui uma classe pré-definida, a clusterização pode ser utilizada para
definir classes para o conjunto em análise (HAN e KAMBER, 2006).
A Classificação de Dados é citada por Goldschimidt e Passos(2005) como uma
das tarefas do KDD mais populares e importantes, consiste na busca por uma função
que permita associar corretamente cada registro do banco de dados a uma classe. Para
isso é necessário encontrar um modelo para o atributo alvo, utilizando uma função
aplicada nos valores de outros atributos.
O processo de KDD tem sido aplicado em diversas áreas de conhecimento, na
educação há uma nova área de pesquisa conhecida como Mineração de dados
Educacionais, que tem como foco principal o desenvolvimento de métodos para
explorar conjuntos de dados coletados em ambientes educacionais. Assim é possível
compreender de forma mais eficaz e adequada os alunos, como eles aprendem, o
contexto no qual a aprendizagem ocorre, além de outros fatores que influenciam a
aprendizagem (BAKER, ISOTANI, CARVALHO, 2011).
É com foco neste cenário que decidimos utilizar, nesta pesquisa, as técnicas de
Mineração de Dados que são uma forma de análise de banco de dados permitindo
tomadas de decisão mais eficiente.
Dessa forma o objetivo deste trabalho foi realizar o processo de KDD em uma
base de dados das escolas de Ensino Básico do município de Indaiatuba, para
caracterizar grupos distintos formados a partir de dados de rendimento acadêmico de
alunos do ensino básico, visando a auxiliar os gestores da Secretaria de Educação nas
tomadas de decisão.
2.Trabalhos Relacionados
Manhaes et al (2012) com o tema “Identificação dos fatores que influenciam a evasão
em cursos de graduação através de sistemas baseados em Mineração de Dados: Uma
abordagem quantitativa”, aplicaram-se métodos e tarefas de Mineração de Dados na
Universidade Federal do Rio de Janeiro afim de identificar os principais fatores aos
grupos de alunos que conseguem sucesso ou insucesso na conclusão do curso de
graduação. O artigo apresentado justifica-se pelo fato de o sistema educacional
brasileiro possuir um grande número de estudantes que iniciam um curso universitário,
mas não conseguem obter êxito em cumprir as exigências curriculares e se graduar. A
evasão dos alunos que não completam o curso de graduação se configura como um
grande problema que ocorre em instituições públicas e particulares.
Baker, Isotani, Carvalho (2011) apresentam condições que viabilizam a pesquisa
de Educational Data Mining (EDM) no cenário internacional e quais desafios para
consolidar a área no Brasil, é abordado também o potencial de impacto da EDM na
melhora da qualidade dos cursos na modalidade educação a distância (EAD) que vêm
recebendo incentivo governamental e um crescente número de alunos. Os autores
enfatizam que a área de EDM vem se estabelecendo com uma forte e consolidada linha
de pesquisa que possui grande potencial para melhorar a qualidade do ensino.
Costa et al(2012) aborda a Mineração de Dados Educacionais no ambiente Web,
pois com o crescente uso de sistemas virtuais de aprendizagem, um grande volume de
dados tem sido gerado a partir das diferentes modalidades de interações no sistema. Mas
os dados gerados não são analisados, o que se constitui uma lacuna importante, dada a
quantidade de informação valiosa que se pode potencialmente extrair de tais dados. Os
autores citam como exemplo a melhor compreensão do comportamento dos estudantes e
a forma como eles aprendem. Tais conhecimentos podem servir de subsídio para a
melhoria de práticas em educação a distância ou presencial, além de ser importante
ferramenta para viabilizar a personalização do ensino.
Das revisões literárias acima pode-se notar que a aplicação de Mineração de
Dados em ambientes educacionais tem sido utilizada em diversos níveis de ensino, seja
no ensino superior ou em cursos isolados, na modalidade presencial ou à distância. O
presente trabalho apresenta a utilização de técnicas de mineração de dados da educação
básica.
3. Materiais e Métodos
Os dados para essa pesquisa foram coletados da Secretaria de Educação e se referem ao
acompanhamento anual dos alunos das escolas municipais de ensino básico de
Indaiatuba, de Janeiro de 2007 a Dezembro de 2012.
Foram selecionados os seguintes dados:
As séries de todas as escolas de ensino básico: 1ª, 2ª, 3ª, 4ª,5ª séries, 9º ano 10º
ano. Também foram registrados alguns projetos da cidade, como EJA (Ensino
para Jovens e adultos), EEE (Educação Especial Exclusiva).
O período de aulas lecionadas condiz em que horário o estudante está matriculado.
No sistema temos o turno Matutino que é representado pelo número 1(um), o
Vespertino, número 3(três), o Integral, número 6 (seis) e por fim o Noturno que
é representado pelo número 5(cinco).
A quantidade de alunos matriculados por sala e turma de todas as escolas
cadastradas no sistema.
Quantidade de alunos aprovados em todas as escolas.
Quantidade de alunos reprovados por rendimento insuficiente.
Quantidade de alunos reprovados por frequência insuficiente.
Todos esses dados descritos acima foram organizados em uma planilha no
programa Microsoft Excel 2007, gerando o total de 2308 linhas. Cada linha foi
composta por: Nome da Escola, Série, Número da Sala, Alunos Matriculados, Reprova
por Rendimento, Reprova por Frequência, Turno e Ano.
Após a coleta de dados e elaboração da planilha eletrônica iniciou-se o processo de
Mineração de Dados na ferramenta WEKA1 (Waikato Environment for Knowledge
Analysis) que fornece todo o suporte para essa etapa ser concluída. A ferramenta
desenvolvida na Universidade de Waikato da Nova Zelândia analisa os dados partindo
de padrões encontrados gerando hipóteses para a solução requerida, foi escolhida por
ser gratuita e muito utilizada em trabalhos acadêmicos. A seguir serão descritas as
etapas da Mineração de Dados realizada.
O Pré Processamento realizado na base de dados foi a definição dos atributos.
Decidiu-se que: Nome da Escola, Série, Turma, Sala, Turno e Ano são atributos
nominais. Número de Matriculados, Reprovados por Rendimento e Reprovados por
Frequência são atributos numéricos. Estes atributos foram definidos assim por serem os
mais relevantes para a pesquisa, sendo de mais fácil análise. Não foram necessárias
outras transformações nos dados.
Para a etapa de Mineração de Dados, a planilha foi salva como arquivo CSV, para
poder ser utilizada na ferramenta de Mineração de Dados WEKA.
As tarefas de Mineração Dados escolhidas para essa pesquisa foi a Clusterização e a
Classificação. A primeira tarefa descrita será a Clusterização.
A etapa inicial da tarefa de clusterização foi decidir qual algoritmo seria usado para
o particionamento dos dados. Inicialmente aplicou-se o algoritmo K-means que exige ao
usuário inserir um número de clusters. A primeira escolha para análise foi particionar a
base de dados em 5 clusters. Mas após verificação os clusters formados, notou-se que os
grupos estavam muito similares, dificultando a análise dos dados. Então decidiu-se
particionar em 3 clusters. Notou-se que a base de dados particionada em três clusters
gerou melhor possibilidade de interpretação dos dados, então optou-se por analisar esse
grupo resultante.
Após aplicação do algoritmo e o resultado gerado, o programa WEKA é capaz de
gerar um novo documento em formato de tabela definindo o cluster de cada registro. A
partir dessa tabela decidiu-se analisar os dados estatisticamente utilizando o programa
Excel, mais especificamente usando a função Análise de Dados para gerar Histogramas,
que são gráficos que mostram a variação de uma medida em um grupo de dados por
meio da distribuição por frequência, gerando amostra de uma característica na base de
dados e a variabilidade das medidas de uma característica dos grupos em torno da
média. Partindo dessa definição decidiu-se fazer Histogramas das variáveis mais
importantes para essa pesquisa.
4. Análise dos Clusters
O primeiro cluster analisado foi o Cluster0 com todas as variáveis. O primeiro
histograma é frequência em cada série presente no cluster, representado na Figura 1.
Figura 1. Frequência de Séries Cluster0
Nota-se que a concentração de 1 ª e 2ª séries é maior nesse cluster, mas as outras
séries estão equilibradas.
A Figura 2 mostra a frequência de séries no Cluster1.
Figura 2. Frequência de Séries Cluster1
Nesse cluster nota-se que o número de 1ª e 2ª séries diminui, e o número de 3ª séries
aumenta.
A Figura 3 mostra a frequência de séries no Cluster2
Figura 3. Frequência de Séries Cluster2
No Cluster2 verifica-se que o número de 4ª séries é maior comparado aos outros
clusters, além do número de 1ª,2ª e 3ª séries ser mais equilibrado.
Com os histogramas da variável série conclui-se que, no Cluster0 o número de
alunos matriculados na 1ª e 2ª séries é maior, observa-se que a 3ª série foi mais
representada no Cluster1, e que o número de matriculados na 4ª série no Cluster2 é
maior.
A próxima variável analisada será o total de alunos matriculados por sala no
Cluster0, representado pela Figura 4.
Figura 4. Total alunos matriculados Cluster0
Nota-se que a frequência maior de alunos matriculados é entre 32 a 35 alunos,
analisando juntamente com o histograma de séries por cluster verifica-se que as 1ª e 2ª
séries possuem esse total de alunos por sala.
Na Figura 5 têm o total de alunos matriculados por sala no Cluster1.
Figura 5. Total alunos matriculados Cluster1
Nesse cluster é possível notar que o total de alunos matriculados por sala é mais
distribuído quando comparado com o Cluster0.
A Figura 6 possui o total de alunos matriculados no Cluster2. Nota-se que o
número de alunos matriculados é mais equilibrado entre 28 a 30 alunos.
Figura 6. Total alunos matriculados Cluster2
A próxima variável são os alunos reprovados por rendimento insuficiente nos
três clusters. A Figura 7 representa essa informação para o Cluster0. Nesse cluster é
possível notar claramente que o número de reprovados por rendimento na 1ª e 2ª séries é
de pelo menos um por sala.
Figura 7. Alunos reprovados Cluster0
Na Figura 8 a seguir é apresentada a variável reprovados por rendimento no
Cluster1.
Figura 8. Alunos reprovados Cluster1
Nota-se que a frequência de alunos reprovados nos Cluster0 e Cluster1 é de
aproximadamente 400 alunos. No Cluster1 a quantidade de alunos reprovados por sala
aumenta, comparado com os outros clusters, quando o número de alunos reprovados por
sala é maior que um. Verifica-se que no Cluster2 a quantidade de um aluno reprovado é
maior, de aproximadamente 600 alunos conforme apresentado na Figura 9. Entretanto
observando-se a Figura 10 pode ser notado que o maior número de reprova por sala
concentra-se no Cluster1. Observando o histograma apresentado na Figura 1, com a
variável série, sabe-se que o número maior de alunos matriculados no Cluster1 é da 3ª
série, logo o índice de reprova nas 3ª séries é maior que o índice de reprova das demais
séries.
Figura 9. Alunos reprovados Cluster2
Figura 10. Total de reprova Cluster0, Cluster1 e Cluster2
A variável a seguir será o período em que o aluno foi matriculado. O Cluster0
está representado pela Figura 11.
Figura 11. Período matricula dos alunos Cluster0
Nota-se que o Cluster0 é formado por alunos cadastrados no período Matutino e
poucas turmas matriculadas em outros períodos.
A Figura 12 tem os períodos mais frequentes no Cluster1.
Figura 12. Período matricula dos alunos Cluster1
Percebe-se que no Cluster1 os períodos matutino e vespertino são dominantes,
mas o número de matriculados no período integral e noturno já é maior do que no
Cluster0. Como vemos abaixo no Cluster2 representado pela Figura 13, os dois
períodos dominantes são iguais ao do Cluster1, mas o número de alunos no período
noturno é maior, comparado aos dois outros clusters.
Figura 13. Período matricula dos alunos Cluster2
4.1Análise dos algoritmos de Classificação sobre os clusters
A técnica de classificação tem como objetivo buscar uma função que associe
corretamente cada registro da base de dados a um único rótulo, uma vez identificado,
essa função pode ser aplicada a novos registros capaz de prever a classe em que tais
registros se enquadram. Neste trabalho foi utilizada para verificar a capacidade preditiva
do modelo de clusters.
Para técnica de classificação foram utilizadas as seguintes técnicas: Árvore de
decisão, classificador Bayesiano, K- Nearest Neighboor(K-NN), Redes Neurais e
Support Vector Machine SMO.
No Quadro 1 são descritos os classificadores de cada técnica utilizada.
Quadro 1. Descrição dos classificadores
Técnica
Classificador
Árvore de Decisão
J48
Classificador Bayesiano
Naive Bayes
K-Nearest Neighboor
IBK
Redes Neurais
MultilayerPerceptron
Support Vector Machine SMO
SMO
Na Tabela 1 tem-se as acurácias obtidas a partir do modelo de clusters gerados.
Acurácia é a porcentagem de acerto de cada classificador. A primeira tabela tem o
resultado da função Cross Validation, que divide os dados em partes, separa uma parte
para teste e faz o treinamento com as demais. Este procedimento é repetido para todas
as partes. A acurácia final do modelo é a medida das acurácias parciais calculadas para
cada parte. A validação cruzada apresenta bons resultados quando o conjunto de dados é
pequeno.
Tabela 1. Acurácia dos classificadores Cross Validation
Classificador
Acurácia
J48
84.5754 %
Naive Bayes
79.766 %
IBK
78.3362 %
Multilayer Perceptron
88.6915 %
SMO
94.4974 %
Nota-se que o algoritmo Support Vector Machine SMO teve a melhor acurácia
comparado aos outros classificadores, resultando em aproximadamente 94.5% de
precisão.
A Tabela 2 apresenta a acurácia dos classificadores utilizando a função
Percentage Split, divide a base de dados em duas partes: uma parte para treinamento e a
outra para teste. Geralmente esta abordagem utiliza dois terços para o conjunto de
treinamento e um terço para o conjunto de teste.
Tabela 2. Acurácia dos classificadores Percentage Split
Classificador
Acurácia
J48
84.0764 %
Naive Bayes
80 %
IBK
76.8153 %
Multilayer Perceptron
92.2293 %
SMO
94.6497 %
Pode-se observar que a função Percentage Split obteve melhores resultados com
os classificadores, Naive Bayes, Multilayer Perceptron e Support Vector MachineSMO. O algoritmo Naive Bayes funciona melhor para variáveis independentes, sendo
assim o resultado acima para esse classificador pode indicar a dependência entre os
dados utilizados. O algoritmo Multilayer Perceptron possui a precisão de classificação
alta, esta técnica normalmente apresenta bons resultados de classificação, entretanto o
tempo de processamento desse algoritmo é muito maior que o tempo gasto pela maioria
dos algoritmos de classificação. Por fim, o algoritmo SMO que obteve o melhor
resultado de acurácia nas duas funções realizadas. Esse classificador possui um bom
desempenho no reconhecimento de padrões em grande volume de dados e assim como o
algoritmo Multilayer Perceptron possui tempo de processamento mais elevado.
Ressalta-se que todos os classificadores obtiveram porcentagem de acerto muito boa,
indicando que o modelo de clusters obtido pela ferramento WEKA é realmente
adequado.
5.Conclusões
Essa pesquisa apresentou tarefas e técnicas de Mineração de Dados aplicadas em dados
das escolas de ensino básico do município de Indaiatuba. Os dados analisados são
referentes ao acompanhamento anual dos alunos de Janeiro de 2007 a Dezembro de
2012.
Nesta pesquisa foram escolhidas as tarefas Clusterização e Classificação. A
tarefa de Clusterização foi utilizada para particionar a base de dados em clusters
(grupos), para realização dessa divisão foi aplicado o algoritmo K-Means. A base de
dados foi dividida em três diferentes clusters, este número foi definido após várias
realizações de testes com diferentes tamanhos de clusters.
Uma vez efetuada a clusterização, foram realizadas análises sobre todos os
clusters gerados. Utilizou-se uma função estatística denominada Histograma para
medição da frequência de cada variável presente nos clusters. De acordo com a variável
de alunos reprovados temos as seguintes análises: No Cluster0 o número de reprovados
por rendimento na 1ª e 2ª séries é de pelo menos um por sala; No Cluster2 verifica-se
que o número de 4ª séries é maior comparado aos outros clusters, além do número de
1ª,2ª e 3ª séries ser mais equilibrado. No Cluster2 é possível notar claramente que o
número de reprovados por rendimento na 1ª e 2ª séries é de pelo menos um por sala. A
frequência de alunos reprovados nos Cluster0 e Cluster1 é de aproximadamente 400
alunos. Verifica-se que no Cluster2 a quantidade de um aluno reprovado é maior, de
aproximadamente 600 alunos. Nota-se que o Cluster0 é formado por alunos cadastrados
no período Matutino e poucas turmas matriculadas em outros períodos. Percebe-se que
no Cluster1 os períodos matutino e vespertino são dominantes, mas o número de
matriculados no período integral e noturno já é maior do que no Cluster0. No Cluster2,
os dois períodos dominantes são iguais ao do Cluster1, mas o número de alunos no
período noturno é maior, comparado aos dois outros clusters.
O principal resultado gerado a partir da análise dos clusters é que: o Cluster1
tem o maior índice de reprova e a série predominante neste cluster é a 3ª série. A partir
desse resultado pode-se dizer que os alunos matriculados na 3ª série do ensino básico
tiveram o maior índice de reprova de 2007 a 2010. A maior reprovação na 3ª série pode
ser explicada pelo fato dos alunos não serem retidos nas 1ª e 2ª séries. Pôde-se verificar
também que o período que o aluno frequenta (Matutino e Vespertino) não influenciam
no aproveitamento, uma vez que o Cluster1 possui aproximadamente 50% de alunos em
cada período.
Para verificar a capacidade preditiva dos clusters gerados foram aplicados os
algoritmos classificadores: Redes Neurais, Árvore de Decisão, K-Nearest Neighbor,
Classificadores Bayesianos e Support Vector Machine em duas funções da ferramenta
WEKA, a função Cross Validation e Percentage Split. A melhor acurácia resultante em
todos os algoritmos e nas duas funções foi o algoritmo SMO, que representa o
classificador Support Vector Machine apresentando a precisão de predição de
aproximadamente 95%.
O algoritmo de clusterização utilizado neste trabalho possibilitou a
caracterização de grupos distintos formados a partir de dados de rendimento acadêmico
de alunos do ensino básico e obteve resultados interessantes que poderão auxiliar os
gestores da Secretaria de Educação nas tomadas de decisão. Desta forma pode-se
afirmar que os objetivos deste trabalho foram alcançado.
6.Bibliografia
BAKER, R.; ISOTANI, S.; de CARVALHO, A.. Mineração de Dados Educacionais:
Oportunidades para o Brasil. Revista Brasileira de Informática na Educação ,v.19, n 2,
2011. Disponível em: <http://www.br-ie.org/pub/index.php/rbie/article/view/1301>
Acesso em 30/08/2012
COSTA,E; et al. Mineração de Dados Educacionais: Conceitos, Técnicas , Ferramentas
e Aplicações. Jornada de Atualização em Informática na Educação, 2012. Disponível
em: < http://www.br-ie.org/pub/index.php/pie/article/view/2341> Acesso em
07/03/2013
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um guia Prático. Rio
de Janeiro: Campos, 2005.
HAN, J. ; KAMBER, M. Data Mining: Concepts And Techniques. Second Edition,
Morgan Kaufmann, 2006.
MANHÃES,L; et al. Identificação dos Fatores que Influenciam a Evasão em Cursos de
Graduação Através de Sistemas Baseados em Mineração de Dados: Uma Abordagem
Quantitativa.VIII Simpósio Brasileiro de Sistemas de Informação, 2012. Disponível
em: < http://www.lbd.dcc.ufmg.br/colecoes/sbsi/2012/0046.pdf > Acesso em
07/03/2013.
REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. São
Paulo: Manole, 2005.
Download