Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Thaís Barros Nascimento1, Maria das Graças J. M. Tomazela1 1 Faculdade de Tecnologia de Indaiatuba (FATEC-ID) – Indaiatuba, SP – Brasil [email protected], [email protected] Resumo: O objetivo da pesquisa foi aplicar técnicas de Mineração de Dados a uma base de dados composta por variáveis na área educacional, com a finalidade de identificar as variáveis que influenciam no rendimento dos alunos das escolas de ensino básico de Indaiatuba, podendo auxiliar os gestores nas tomadas de decisão. Inicialmente foi realizada uma revisão bibliográfica sobre Knowledge Discovery in Databases. Em seguida foi aplicada a tarefa de Clusterização, utilizando o algoritmo K-means. Com os resultados gerados pela clusterização aplicou-se uma função estatística, o Histograma, gerando gráficos para análise. Após a análise dos resultados, aplicaram-se os principais algoritmos classificadores, para verificar a capacidade preditiva dos modelos gerados pela clusterização. A precisão obtida dos algoritmos foi aproximadamente 95%, com isso pode-se dizer que a mineração de dados pode ser aplicada para analisar as variáveis que influenciam no rendimento do ensino básico. Abstract: The purpose of this article was to apply Data Mining into an academic database from Indaiatuba city, in order to identify the attributes of student´s performance in primary school, assisting the educational system in decision making. It was conducted a literature review on Knowledge Discovery in Databases, then it was applied the clustering task, using the K-means algorithm. Based on clustering results it were deployed statistics function, Histogram, generating graphs. After a deep analysis, it was implemented the main classifier algorithm to verify the predictive ability of the models generated by clustering. The algorithm´s accuracy was around 95%, with these outcomes it can be said that data mining can be considered to analyze the attributes in student´s performance in primary school. 1.Introdução O avanço nas técnicas para coleta, armazenamento e gerenciamento de dados levou ao armazenamento de grandes e múltiplas bases de dados. Muitos desses dados possuem informações úteis para melhorar a decisão de negócios, considerando que essas bases possuem uma grande quantidade de dados, torna-se necessário o desenvolvimento de processos para analisar automaticamente esses dados, como o processo de Descoberta de conhecimento (REZENDE, 2005; GOLDSHIMIDT,2005,). Basicamente o Processo de KDD pode ser dividido em três grandes etapas – PréProcessamento, Extração de Padrões e Pós Processamento. Nessa divisão não foram incluídas uma fase anterior ao processo, que se refere ao conhecimento do domínio e identificação do problema, e uma fase posterior, a fase da utilização do conhecimento obtido (REZENDE, 2005). Segundo Rezende (2005), a primeira etapa do processo de Descoberta de Conhecimento em Base de Dados é a identificação dos objetivos, metas a serem alcançados e restrições, esses tópicos fornece auxílio para todas as demais etapas do processo. Na etapa de Pré-processamento, esse conhecimento pode ajudar os analistas na escolha do melhor conjunto de dados para realizar a Extração de Padrões, saber quais valores são válidos para os atributos, os critérios de preferência entre os possíveis atributos, as restrições de relacionamento ou informações para geração de novos atributos. Segundo Rezende (2005) diversas transformações nos dados podem ser executadas na etapa de pré- processamento de dados. Entre elas: Extração e Integração, Transformação, Limpeza, Seleção e Redução de Dados. Na extração de padrões ou Mineração de Dados é realizada a busca do conhecimento conforme o contexto a ser analisado por meio da ferramenta de KDD. É a principal etapa no processo e consiste na aplicação de técnicas inteligentes para obter a extração de padrões de interesse do usuário. A Etapa de pós-processamento é responsável por realizar o tratamento do conhecimento obtido na Mineração de Dados. É importante, nesta etapa, a análise dos resultados por especialistas da área do problema que está sendo minerado. Na etapa da extração de padrões é feita a escolha da tarefa de Mineração de Dados a ser utilizada. Neste trabalho são utilizadas as tarefas de classificação e clusterização. A tarefa de Clusterização (ou agrupamento) consiste em particionar os registros da base de dados em subconjuntos (ou clusters) de maneira que elementos presentes em um cluster, compartilhem um conjunto de propriedades comuns e que os diferenciem dos elementos de outros clusters. Em geral o conjunto de dados utilizados para efetuar a clusterização não possui uma classe pré-definida, a clusterização pode ser utilizada para definir classes para o conjunto em análise (HAN e KAMBER, 2006). A Classificação de Dados é citada por Goldschimidt e Passos(2005) como uma das tarefas do KDD mais populares e importantes, consiste na busca por uma função que permita associar corretamente cada registro do banco de dados a uma classe. Para isso é necessário encontrar um modelo para o atributo alvo, utilizando uma função aplicada nos valores de outros atributos. O processo de KDD tem sido aplicado em diversas áreas de conhecimento, na educação há uma nova área de pesquisa conhecida como Mineração de dados Educacionais, que tem como foco principal o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais. Assim é possível compreender de forma mais eficaz e adequada os alunos, como eles aprendem, o contexto no qual a aprendizagem ocorre, além de outros fatores que influenciam a aprendizagem (BAKER, ISOTANI, CARVALHO, 2011). É com foco neste cenário que decidimos utilizar, nesta pesquisa, as técnicas de Mineração de Dados que são uma forma de análise de banco de dados permitindo tomadas de decisão mais eficiente. Dessa forma o objetivo deste trabalho foi realizar o processo de KDD em uma base de dados das escolas de Ensino Básico do município de Indaiatuba, para caracterizar grupos distintos formados a partir de dados de rendimento acadêmico de alunos do ensino básico, visando a auxiliar os gestores da Secretaria de Educação nas tomadas de decisão. 2.Trabalhos Relacionados Manhaes et al (2012) com o tema “Identificação dos fatores que influenciam a evasão em cursos de graduação através de sistemas baseados em Mineração de Dados: Uma abordagem quantitativa”, aplicaram-se métodos e tarefas de Mineração de Dados na Universidade Federal do Rio de Janeiro afim de identificar os principais fatores aos grupos de alunos que conseguem sucesso ou insucesso na conclusão do curso de graduação. O artigo apresentado justifica-se pelo fato de o sistema educacional brasileiro possuir um grande número de estudantes que iniciam um curso universitário, mas não conseguem obter êxito em cumprir as exigências curriculares e se graduar. A evasão dos alunos que não completam o curso de graduação se configura como um grande problema que ocorre em instituições públicas e particulares. Baker, Isotani, Carvalho (2011) apresentam condições que viabilizam a pesquisa de Educational Data Mining (EDM) no cenário internacional e quais desafios para consolidar a área no Brasil, é abordado também o potencial de impacto da EDM na melhora da qualidade dos cursos na modalidade educação a distância (EAD) que vêm recebendo incentivo governamental e um crescente número de alunos. Os autores enfatizam que a área de EDM vem se estabelecendo com uma forte e consolidada linha de pesquisa que possui grande potencial para melhorar a qualidade do ensino. Costa et al(2012) aborda a Mineração de Dados Educacionais no ambiente Web, pois com o crescente uso de sistemas virtuais de aprendizagem, um grande volume de dados tem sido gerado a partir das diferentes modalidades de interações no sistema. Mas os dados gerados não são analisados, o que se constitui uma lacuna importante, dada a quantidade de informação valiosa que se pode potencialmente extrair de tais dados. Os autores citam como exemplo a melhor compreensão do comportamento dos estudantes e a forma como eles aprendem. Tais conhecimentos podem servir de subsídio para a melhoria de práticas em educação a distância ou presencial, além de ser importante ferramenta para viabilizar a personalização do ensino. Das revisões literárias acima pode-se notar que a aplicação de Mineração de Dados em ambientes educacionais tem sido utilizada em diversos níveis de ensino, seja no ensino superior ou em cursos isolados, na modalidade presencial ou à distância. O presente trabalho apresenta a utilização de técnicas de mineração de dados da educação básica. 3. Materiais e Métodos Os dados para essa pesquisa foram coletados da Secretaria de Educação e se referem ao acompanhamento anual dos alunos das escolas municipais de ensino básico de Indaiatuba, de Janeiro de 2007 a Dezembro de 2012. Foram selecionados os seguintes dados: As séries de todas as escolas de ensino básico: 1ª, 2ª, 3ª, 4ª,5ª séries, 9º ano 10º ano. Também foram registrados alguns projetos da cidade, como EJA (Ensino para Jovens e adultos), EEE (Educação Especial Exclusiva). O período de aulas lecionadas condiz em que horário o estudante está matriculado. No sistema temos o turno Matutino que é representado pelo número 1(um), o Vespertino, número 3(três), o Integral, número 6 (seis) e por fim o Noturno que é representado pelo número 5(cinco). A quantidade de alunos matriculados por sala e turma de todas as escolas cadastradas no sistema. Quantidade de alunos aprovados em todas as escolas. Quantidade de alunos reprovados por rendimento insuficiente. Quantidade de alunos reprovados por frequência insuficiente. Todos esses dados descritos acima foram organizados em uma planilha no programa Microsoft Excel 2007, gerando o total de 2308 linhas. Cada linha foi composta por: Nome da Escola, Série, Número da Sala, Alunos Matriculados, Reprova por Rendimento, Reprova por Frequência, Turno e Ano. Após a coleta de dados e elaboração da planilha eletrônica iniciou-se o processo de Mineração de Dados na ferramenta WEKA1 (Waikato Environment for Knowledge Analysis) que fornece todo o suporte para essa etapa ser concluída. A ferramenta desenvolvida na Universidade de Waikato da Nova Zelândia analisa os dados partindo de padrões encontrados gerando hipóteses para a solução requerida, foi escolhida por ser gratuita e muito utilizada em trabalhos acadêmicos. A seguir serão descritas as etapas da Mineração de Dados realizada. O Pré Processamento realizado na base de dados foi a definição dos atributos. Decidiu-se que: Nome da Escola, Série, Turma, Sala, Turno e Ano são atributos nominais. Número de Matriculados, Reprovados por Rendimento e Reprovados por Frequência são atributos numéricos. Estes atributos foram definidos assim por serem os mais relevantes para a pesquisa, sendo de mais fácil análise. Não foram necessárias outras transformações nos dados. Para a etapa de Mineração de Dados, a planilha foi salva como arquivo CSV, para poder ser utilizada na ferramenta de Mineração de Dados WEKA. As tarefas de Mineração Dados escolhidas para essa pesquisa foi a Clusterização e a Classificação. A primeira tarefa descrita será a Clusterização. A etapa inicial da tarefa de clusterização foi decidir qual algoritmo seria usado para o particionamento dos dados. Inicialmente aplicou-se o algoritmo K-means que exige ao usuário inserir um número de clusters. A primeira escolha para análise foi particionar a base de dados em 5 clusters. Mas após verificação os clusters formados, notou-se que os grupos estavam muito similares, dificultando a análise dos dados. Então decidiu-se particionar em 3 clusters. Notou-se que a base de dados particionada em três clusters gerou melhor possibilidade de interpretação dos dados, então optou-se por analisar esse grupo resultante. Após aplicação do algoritmo e o resultado gerado, o programa WEKA é capaz de gerar um novo documento em formato de tabela definindo o cluster de cada registro. A partir dessa tabela decidiu-se analisar os dados estatisticamente utilizando o programa Excel, mais especificamente usando a função Análise de Dados para gerar Histogramas, que são gráficos que mostram a variação de uma medida em um grupo de dados por meio da distribuição por frequência, gerando amostra de uma característica na base de dados e a variabilidade das medidas de uma característica dos grupos em torno da média. Partindo dessa definição decidiu-se fazer Histogramas das variáveis mais importantes para essa pesquisa. 4. Análise dos Clusters O primeiro cluster analisado foi o Cluster0 com todas as variáveis. O primeiro histograma é frequência em cada série presente no cluster, representado na Figura 1. Figura 1. Frequência de Séries Cluster0 Nota-se que a concentração de 1 ª e 2ª séries é maior nesse cluster, mas as outras séries estão equilibradas. A Figura 2 mostra a frequência de séries no Cluster1. Figura 2. Frequência de Séries Cluster1 Nesse cluster nota-se que o número de 1ª e 2ª séries diminui, e o número de 3ª séries aumenta. A Figura 3 mostra a frequência de séries no Cluster2 Figura 3. Frequência de Séries Cluster2 No Cluster2 verifica-se que o número de 4ª séries é maior comparado aos outros clusters, além do número de 1ª,2ª e 3ª séries ser mais equilibrado. Com os histogramas da variável série conclui-se que, no Cluster0 o número de alunos matriculados na 1ª e 2ª séries é maior, observa-se que a 3ª série foi mais representada no Cluster1, e que o número de matriculados na 4ª série no Cluster2 é maior. A próxima variável analisada será o total de alunos matriculados por sala no Cluster0, representado pela Figura 4. Figura 4. Total alunos matriculados Cluster0 Nota-se que a frequência maior de alunos matriculados é entre 32 a 35 alunos, analisando juntamente com o histograma de séries por cluster verifica-se que as 1ª e 2ª séries possuem esse total de alunos por sala. Na Figura 5 têm o total de alunos matriculados por sala no Cluster1. Figura 5. Total alunos matriculados Cluster1 Nesse cluster é possível notar que o total de alunos matriculados por sala é mais distribuído quando comparado com o Cluster0. A Figura 6 possui o total de alunos matriculados no Cluster2. Nota-se que o número de alunos matriculados é mais equilibrado entre 28 a 30 alunos. Figura 6. Total alunos matriculados Cluster2 A próxima variável são os alunos reprovados por rendimento insuficiente nos três clusters. A Figura 7 representa essa informação para o Cluster0. Nesse cluster é possível notar claramente que o número de reprovados por rendimento na 1ª e 2ª séries é de pelo menos um por sala. Figura 7. Alunos reprovados Cluster0 Na Figura 8 a seguir é apresentada a variável reprovados por rendimento no Cluster1. Figura 8. Alunos reprovados Cluster1 Nota-se que a frequência de alunos reprovados nos Cluster0 e Cluster1 é de aproximadamente 400 alunos. No Cluster1 a quantidade de alunos reprovados por sala aumenta, comparado com os outros clusters, quando o número de alunos reprovados por sala é maior que um. Verifica-se que no Cluster2 a quantidade de um aluno reprovado é maior, de aproximadamente 600 alunos conforme apresentado na Figura 9. Entretanto observando-se a Figura 10 pode ser notado que o maior número de reprova por sala concentra-se no Cluster1. Observando o histograma apresentado na Figura 1, com a variável série, sabe-se que o número maior de alunos matriculados no Cluster1 é da 3ª série, logo o índice de reprova nas 3ª séries é maior que o índice de reprova das demais séries. Figura 9. Alunos reprovados Cluster2 Figura 10. Total de reprova Cluster0, Cluster1 e Cluster2 A variável a seguir será o período em que o aluno foi matriculado. O Cluster0 está representado pela Figura 11. Figura 11. Período matricula dos alunos Cluster0 Nota-se que o Cluster0 é formado por alunos cadastrados no período Matutino e poucas turmas matriculadas em outros períodos. A Figura 12 tem os períodos mais frequentes no Cluster1. Figura 12. Período matricula dos alunos Cluster1 Percebe-se que no Cluster1 os períodos matutino e vespertino são dominantes, mas o número de matriculados no período integral e noturno já é maior do que no Cluster0. Como vemos abaixo no Cluster2 representado pela Figura 13, os dois períodos dominantes são iguais ao do Cluster1, mas o número de alunos no período noturno é maior, comparado aos dois outros clusters. Figura 13. Período matricula dos alunos Cluster2 4.1Análise dos algoritmos de Classificação sobre os clusters A técnica de classificação tem como objetivo buscar uma função que associe corretamente cada registro da base de dados a um único rótulo, uma vez identificado, essa função pode ser aplicada a novos registros capaz de prever a classe em que tais registros se enquadram. Neste trabalho foi utilizada para verificar a capacidade preditiva do modelo de clusters. Para técnica de classificação foram utilizadas as seguintes técnicas: Árvore de decisão, classificador Bayesiano, K- Nearest Neighboor(K-NN), Redes Neurais e Support Vector Machine SMO. No Quadro 1 são descritos os classificadores de cada técnica utilizada. Quadro 1. Descrição dos classificadores Técnica Classificador Árvore de Decisão J48 Classificador Bayesiano Naive Bayes K-Nearest Neighboor IBK Redes Neurais MultilayerPerceptron Support Vector Machine SMO SMO Na Tabela 1 tem-se as acurácias obtidas a partir do modelo de clusters gerados. Acurácia é a porcentagem de acerto de cada classificador. A primeira tabela tem o resultado da função Cross Validation, que divide os dados em partes, separa uma parte para teste e faz o treinamento com as demais. Este procedimento é repetido para todas as partes. A acurácia final do modelo é a medida das acurácias parciais calculadas para cada parte. A validação cruzada apresenta bons resultados quando o conjunto de dados é pequeno. Tabela 1. Acurácia dos classificadores Cross Validation Classificador Acurácia J48 84.5754 % Naive Bayes 79.766 % IBK 78.3362 % Multilayer Perceptron 88.6915 % SMO 94.4974 % Nota-se que o algoritmo Support Vector Machine SMO teve a melhor acurácia comparado aos outros classificadores, resultando em aproximadamente 94.5% de precisão. A Tabela 2 apresenta a acurácia dos classificadores utilizando a função Percentage Split, divide a base de dados em duas partes: uma parte para treinamento e a outra para teste. Geralmente esta abordagem utiliza dois terços para o conjunto de treinamento e um terço para o conjunto de teste. Tabela 2. Acurácia dos classificadores Percentage Split Classificador Acurácia J48 84.0764 % Naive Bayes 80 % IBK 76.8153 % Multilayer Perceptron 92.2293 % SMO 94.6497 % Pode-se observar que a função Percentage Split obteve melhores resultados com os classificadores, Naive Bayes, Multilayer Perceptron e Support Vector MachineSMO. O algoritmo Naive Bayes funciona melhor para variáveis independentes, sendo assim o resultado acima para esse classificador pode indicar a dependência entre os dados utilizados. O algoritmo Multilayer Perceptron possui a precisão de classificação alta, esta técnica normalmente apresenta bons resultados de classificação, entretanto o tempo de processamento desse algoritmo é muito maior que o tempo gasto pela maioria dos algoritmos de classificação. Por fim, o algoritmo SMO que obteve o melhor resultado de acurácia nas duas funções realizadas. Esse classificador possui um bom desempenho no reconhecimento de padrões em grande volume de dados e assim como o algoritmo Multilayer Perceptron possui tempo de processamento mais elevado. Ressalta-se que todos os classificadores obtiveram porcentagem de acerto muito boa, indicando que o modelo de clusters obtido pela ferramento WEKA é realmente adequado. 5.Conclusões Essa pesquisa apresentou tarefas e técnicas de Mineração de Dados aplicadas em dados das escolas de ensino básico do município de Indaiatuba. Os dados analisados são referentes ao acompanhamento anual dos alunos de Janeiro de 2007 a Dezembro de 2012. Nesta pesquisa foram escolhidas as tarefas Clusterização e Classificação. A tarefa de Clusterização foi utilizada para particionar a base de dados em clusters (grupos), para realização dessa divisão foi aplicado o algoritmo K-Means. A base de dados foi dividida em três diferentes clusters, este número foi definido após várias realizações de testes com diferentes tamanhos de clusters. Uma vez efetuada a clusterização, foram realizadas análises sobre todos os clusters gerados. Utilizou-se uma função estatística denominada Histograma para medição da frequência de cada variável presente nos clusters. De acordo com a variável de alunos reprovados temos as seguintes análises: No Cluster0 o número de reprovados por rendimento na 1ª e 2ª séries é de pelo menos um por sala; No Cluster2 verifica-se que o número de 4ª séries é maior comparado aos outros clusters, além do número de 1ª,2ª e 3ª séries ser mais equilibrado. No Cluster2 é possível notar claramente que o número de reprovados por rendimento na 1ª e 2ª séries é de pelo menos um por sala. A frequência de alunos reprovados nos Cluster0 e Cluster1 é de aproximadamente 400 alunos. Verifica-se que no Cluster2 a quantidade de um aluno reprovado é maior, de aproximadamente 600 alunos. Nota-se que o Cluster0 é formado por alunos cadastrados no período Matutino e poucas turmas matriculadas em outros períodos. Percebe-se que no Cluster1 os períodos matutino e vespertino são dominantes, mas o número de matriculados no período integral e noturno já é maior do que no Cluster0. No Cluster2, os dois períodos dominantes são iguais ao do Cluster1, mas o número de alunos no período noturno é maior, comparado aos dois outros clusters. O principal resultado gerado a partir da análise dos clusters é que: o Cluster1 tem o maior índice de reprova e a série predominante neste cluster é a 3ª série. A partir desse resultado pode-se dizer que os alunos matriculados na 3ª série do ensino básico tiveram o maior índice de reprova de 2007 a 2010. A maior reprovação na 3ª série pode ser explicada pelo fato dos alunos não serem retidos nas 1ª e 2ª séries. Pôde-se verificar também que o período que o aluno frequenta (Matutino e Vespertino) não influenciam no aproveitamento, uma vez que o Cluster1 possui aproximadamente 50% de alunos em cada período. Para verificar a capacidade preditiva dos clusters gerados foram aplicados os algoritmos classificadores: Redes Neurais, Árvore de Decisão, K-Nearest Neighbor, Classificadores Bayesianos e Support Vector Machine em duas funções da ferramenta WEKA, a função Cross Validation e Percentage Split. A melhor acurácia resultante em todos os algoritmos e nas duas funções foi o algoritmo SMO, que representa o classificador Support Vector Machine apresentando a precisão de predição de aproximadamente 95%. O algoritmo de clusterização utilizado neste trabalho possibilitou a caracterização de grupos distintos formados a partir de dados de rendimento acadêmico de alunos do ensino básico e obteve resultados interessantes que poderão auxiliar os gestores da Secretaria de Educação nas tomadas de decisão. Desta forma pode-se afirmar que os objetivos deste trabalho foram alcançado. 6.Bibliografia BAKER, R.; ISOTANI, S.; de CARVALHO, A.. Mineração de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática na Educação ,v.19, n 2, 2011. Disponível em: <http://www.br-ie.org/pub/index.php/rbie/article/view/1301> Acesso em 30/08/2012 COSTA,E; et al. Mineração de Dados Educacionais: Conceitos, Técnicas , Ferramentas e Aplicações. Jornada de Atualização em Informática na Educação, 2012. Disponível em: < http://www.br-ie.org/pub/index.php/pie/article/view/2341> Acesso em 07/03/2013 GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um guia Prático. Rio de Janeiro: Campos, 2005. HAN, J. ; KAMBER, M. Data Mining: Concepts And Techniques. Second Edition, Morgan Kaufmann, 2006. MANHÃES,L; et al. Identificação dos Fatores que Influenciam a Evasão em Cursos de Graduação Através de Sistemas Baseados em Mineração de Dados: Uma Abordagem Quantitativa.VIII Simpósio Brasileiro de Sistemas de Informação, 2012. Disponível em: < http://www.lbd.dcc.ufmg.br/colecoes/sbsi/2012/0046.pdf > Acesso em 07/03/2013. REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. São Paulo: Manole, 2005.