DATA MINING IN EDUCATIONAL ENVIRONMENTS: A PRACTICAL APPLICATION OF INSTITUTIONAL SELF EVALUATION DATA ABSTRACT Currently the many sectors of society produce an increasing amount of data that differs from the data of past decades at a crucial point: its volume. The analysis of such data is not an easy task because of its large volume. Thus, many of these data remains "forgotten", although they may contain potentially valuable and useful information. However, over the years, new techniques and computational tools have emerged for the purpose of extracting useful knowledge of that big amount of data. Among these techniques and tools, it highlights the Data Mining. The research presented in this article aims to get relevant knowledge discovery to the Education area through the mining of real data in educational environments. The data analyzed in this article are related to the institucional self evaluation promoted annually by Internal Committee for Assessment of the Federal Institute of Education, Science and Technology of Triângulo Mineiro. The methodology used in the research makes use of the application of a tool that assists in the mining step. The results showed the viability of applying data mining techniques on the selected data, and the relevance of the knowledge discovered to guide managers in the decision making process. Keywords: Data Mining, J48, Education. 1. Introdução É notável que a quantidade de dados originados por diversas fontes cresce exponencialmente ao longo dos anos. O volume de dados é tão grande que, na maior parte dos casos, sua análise é impossível de ser realizada por seres humanos. Nesse contexto, surgiu a necessidade da criação de ferramentas que possibilitassem tal análise de forma automática e precisa. Com isso, surgiu a área de Mineração de Dados (Han & Kamber, 2000). Mineração de dados, ou data mining, é um conjunto de técnicas que possibilitam agregação, associação e classificação de dados, de tal modo que sejam descobertos padrões ou anomalias que de outras formas não seriam percebidos. Tal recurso é usado em diversas áreas, como medicina, financeira, cientifica, marketing, dentre outras (Han & Kamber, 2000). Durante o processo de mineração de dados existem diversas etapas a serem cumpridas até que se chegue ao resultado esperado. O processo requer desde a preparação dos dados até a escolha de um método de visualização das informações que serão obtidas. Nessas etapas são utilizados recursos provenientes de diversas áreas do conhecimento, como Estatística e Inteligência Artificial, principalmente no que se refere aos algoritmos de aprendizado de máquina para construção de modelos (Han & Kamber, 2000). Em ambientes educacionais existe uma grande quantidade de dados que não são analisados, ou não é realizada uma verificação se existem padrões além daqueles que estão explícitos. A análise detalhada de tais dados pode identificar problemas, ou soluções daqueles já identificados, bem como permitir aos gestores e equipes pedagógicas tomarem decisões estratégicas. Existem diversos tipos de dados educacionais, como por exemplo: notas de alunos, quantitativo de matrículas e dados de avaliação institucional. Estes podem ser obtidos de diversas maneiras. Analisar dados referentes à Instituição como um todo, no que se referem aos professores, técnicos administrativos (TAEs), alunos, infraestrutura do ambiente educacional e gestão é significativamente relevante, ainda mais quando se deseja verificar a eficácia de técnicas de mineração de dados sobre tais informações. O objetivo do presente trabalho é realizar um estudo da aplicação de técnicas de mineração de dados sobre os dados coletados pela Comissão Própria de Avaliação (CPA) do Instituto Federal de Educação, Ciência e Tecnologia do Triângulo Mineiro (IFTM) nos anos de 2012 a 2014. Esse estudo tem o intuito de identificar padrões ou anomalias que não haviam sido percebidos anteriormente, podendo também fornecer subsídios para a criação de estratégias que podem contribuir para melhorar as ações da CPA, bem como auxiliar os gestores dos campi do IFTM no processo de tomada de decisão. Analisando sob outro ponto de vista, pode-se dizer que este artigo apresenta dados da autoavaliação institucional de anos passados para tentar predizer, através da mineração de dados, como serão as avaliações dos próximos anos. A justificativa dessa análise é que, se a predição de um item for ruim, o gestor já conseguirá saber com antecedência onde deve investir esforços para melhorar a estrutura do seu curso, por exemplo, e ter uma avaliação melhor quando chegar o próximo momento da mesma. Isto porque, se nada for feito em relação a uma predição ruim, então provavelmente a mesma continuará sendo ruim. Enquanto isso, se o gestor trabalhar sobre um item de predição ruim, provavelmente este conseguirá melhorar a avaliação do item. Isso ilustra a relevância da aplicação de técnicas de mineração sobre esse tipo de dados. 2. Metodologia O processo de descoberta de conhecimento em bases de dados – KDD (Knowledge Discovery in Databases) – é um processo de extração de informação de bases de dados, que tem como objetivo a descoberta de conhecimento relevante para uma determinada área. A mineração de dados é uma das etapas do KDD, embora, na maior parte das vezes, todo o processo ser chamado de mineração de dados, devido à grande importância desta etapa. A aplicação do KDD sobre os dados reais do ambiente educacional analisado, bem como o uso da ferramenta WEKA1 (Waikato Environment for Knowledge Analysis) (Hall et al., 2009) como instrumento auxiliar na etapa de mineração de dados, fazem parte da metodologia desta pesquisa. A Figura 1 mostra as diversas etapas que compõe o KDD. Na sequência, é apresentada em detalhes a aplicação dessas etapas sobre os dados considerados nessa pesquisa. Figura 1: Etapas do KDD. 2.1. Seleção A seleção é a primeira etapa do processo de descoberta de conhecimento, e está diretamente ligada ao resultado final alcançado no KDD. Nesta etapa é escolhido o conjunto de dados a ser analisado. Sendo assim, trata-se de uma etapa complexa no KDD, pois podem existir dados redundantes ou que somente façam sentido para um especialista da área. Normalmente, em Instituições Educacionais existe uma comissão responsável por aplicar uma avaliação anual que realize uma análise sobre os diversos prismas da Instituição. Participam desta avaliação professores, técnicos administrativos e alunos. As perguntas que fazem parte da avaliação permitem avaliar diversas áreas, como estrutura física, qualidade das aulas, informações sobre o plano de desenvolvimento da Instituição, dentre outros. Nesta pesquisa, conforme mencionado anteriormente, os dados analisados são referentes à Autoavaliação Institucional promovida anualmente pela CPA do IFTM. A análise realizada sobre esses dados foi segmentada em três áreas de interesse: 1) 1 Consiste em uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados. Avaliação dos professores; 2) Avaliação da infraestrutura dos campi; 3) Avaliação da política de ensino, pesquisa e extensão. Essas áreas de interesse serão mais bem detalhadas na seção 3. A partir destes dados, foram selecionados alguns atributos para serem analisados. Para a primeira área de interesse, foram selecionados os atributos “Curso”, “Disciplina”, “Pergunta” e “Resposta”. Já para a segunda e terceira áreas de interesse, foram selecionados os atributos “Tipo Categoria” (que pode ser Aluno, Professor ou Técnico Administrativo), “Pergunta” e “Resposta”. Esses atributos são evidenciados nas figuras da seção 3. 2.2. Processamento Os dados obtidos estavam armazenados em bases de dados, havendo muitas informações redundantes ou que não eram necessárias para se chegar ao objetivo deste trabalho. Neste sentido, inicialmente foi feito um estudo da estrutura das bases de dados a partir de engenharia reversa. Posteriormente, foram criadas consultas para recuperar somente informações úteis ao objetivo fim deste trabalho. Os dados recuperados através das consultas são referentes à avaliação de professores, por parte dos alunos, e dos demais elementos da instituição, por parte de alunos, professores e técnicos administrativos. 2.3. Transformação A transformação de dados foi feita através de um programa desenvolvido especialmente para esse fim. Em alguns casos, foi necessária a categorização de determinados atributos, como por exemplo, o atributo “Pergunta” na avaliação dos professores. A Tabela 1 apresenta a categorização que foi utilizada nas perguntas referentes à avaliação dos professores realizada pelos alunos. A categorização foi realizada considerando a proximidade das perguntas entre si. Tabela 1: Categorização das perguntas da avaliação dos professores. Pergunta Categoria Quanto ao Dinamismo e Criatividade nas Aulas P1 Quanto à Eficiência na Apresentação de Conteúdos P1 Quanto à Qualidade de Aula P1 Quanto à Relação entre Teoria/Prática P2 Quanto à Contextualização dos Conteúdos Ministrados com P2 a Atividade Profissional Quanto à Agilidade na Entrega de Notas P3 Quanto à Participação nas Ações do Curso P4 Quanto à Cordialidade P5 Quanto ao Atendimento Pedagógico P5 Quanto à Assiduidade P6 Quanto à Pontualidade P6 O atributo “Disciplina” dos cursos também foi categorizado. A categorização das disciplinas foi realizada de acordo com os núcleos de formação dos cursos analisados, presentes em seus próprios “Projeto Pedagógico de Curso” (PPC). Esta categorização é apresentada na seção 3.1. A seguir, são apresentados os cursos analisados neste artigo. Esses cursos foram escolhidos por serem os únicos cursos superiores com dados de avaliação no ano de 2012, o que propicia a continuidade das análises nos anos de 2013 e 2014. Dentre os cursos apresentados abaixo, aqueles referentes aos itens 2, 4 e 5 tiveram suas disciplinas categorizadas e analisadas em detalhes. 1) 2) 3) 4) 5) Tecnologia em Análise e Desenvolvimento de Sistemas - Campus Ituiutaba; Bacharelado em Zootecnia - Campus Uberaba, Unidade I (IFTM, 2011:1); Bacharelado em Engenharia Agronômica - Campus Uberaba, Unidade I; Licenciatura em Computação - Campus Uberlândia Centro (IFTM, 2012a: 17); Tecnologia em Logística - Campus Uberlândia Centro (IFTM, 2012b: 21). 2.4. Mineração de Dados As diversas etapas do KDD são muito importantes, contudo a mineração de dados é considerada a parte mais importante de todo o processo. Para a mineração dos dados, foi considerada a tarefa de classificação através da utilização do algoritmo J48. O software WEKA foi utilizado como ferramenta auxiliar nesta etapa. O algoritmo J48 surgiu da modificação da linguagem de codificação do algoritmo C4.5 (Librelotto & Mozzaquatro, 2013). Sua execução gera uma árvore de decisão baseada em um conjunto de dados de treinamento, e o modelo resultante é usado para classificar as instancias do conjunto de teste (Librelotto & Mozzaquatro, 2013). Foram submetidos a esse processo três grandes conjuntos de dados: 1) Dados da avaliação dos professores feita pelos alunos; 2) Dados da avaliação das políticas de ensino, pesquisa e extensão, realizada pelos alunos, professores e técnicos administrativos; 3) Dados da avaliação feita sobre a infraestrutura da Instituição. 2.5. Interpretação / Avaliação Na interpretação dos resultados pode ser utilizada uma variedade de técnicas, que inclui desde dados estatísticos até gráficos de frequência. O método de visualização é escolhido segundo o público alvo que irá se beneficiar com as informações resultantes. Neste trabalho, as informações resultantes do KDD são visualizadas através de árvores de decisão (Tan, Steinbach & Kumar, 2009). Após a execução da mineração de dados, a WEKA disponibiliza meios visuais para a interpretação do resultado, como por exemplo, a árvore de decisão obtida. 3. Resultados Esta seção descreve os resultados obtidos com a aplicação de técnicas de mineração de dados sobre os dados da Autoavaliação Institucional promovida pela CPA do IFTM nos anos de 2012, 2013 e 2014. Foram analisadas as avaliações realizadas pelos alunos sobre os professores, bem como os blocos de perguntas referentes à Dimensão II (“A política para o ensino, a pesquisa, a pós-graduação, a extensão e as respectivas formas de operacionalização, incluídos os procedimentos para estímulo à produção acadêmica, as bolsas de pesquisa, de monitoria e demais modalidades”) e Dimensão VII (“Infraestrutura física, especialmente a de ensino e de pesquisa, biblioteca, recursos de informação e comunicação”) descritas em (CPA/IFTM, 2012). Para a mineração dos dados, utilizou-se a tarefa de classificação, através do algoritmo J48 com um grau de confiança de 90%. O atributo que sempre foi considerado como classe durante a execução do algoritmo foi o atributo “Resposta”. Em todas as árvores de decisão apresentadas neste artigo, a legenda dos valores possíveis para o atributo “Resposta” é apresentada na Tabela 2. Tabela 2: Legenda dos valores possíveis para o atributo “Resposta”. Descrição Rótulo Ótimo O Bom B Regular R Fraco F Não sei NS Não se aplica NA 3.1. Avaliação dos professores As Figuras 2, 3 e 4 apresentam as árvores de decisão resultantes da aplicação do algoritmo J48 nos dados da avaliação dos professores, realizada pelos alunos, em diversos cursos superiores ofertados pelo IFTM nos anos de 2012, 2013 e 2014, respectivamente. Figura 2: Árvore de decisão obtida na mineração dos dados de avaliação dos professores do IFTM em cursos específicos no ano de 2012. De acordo com a Figura 2, os cursos de Análise e Desenvolvimento de Sistemas, Licenciatura em Computação e Logística foram classificados pelo modelo como “Ótimo” para todas as perguntas mostradas na Tabela 1. Por outro lado, os cursos de Engenharia Agronômica e Zootecnia tiveram sua classificação dependente do atributo “Pergunta”. No curso de Engenharia Agronômica, a pergunta P6 foi classificada pelo modelo como “Ótimo”, enquanto que as demais foram classificadas como “Bom”. Já no curso de Zootecnia, a pergunta P3 foi classificada pelo modelo como “Bom”, enquanto que as demais foram classificadas como “Ótimo”. Sendo assim, essa análise nos mostra que, com os dados de treinamento utilizados (autoavaliação de 2012), essas são as predições do modelo para as respostas dos alunos desses cursos durante as avaliações. Com base nesses dados, a ideia é que a equipe de gestão responsável pelos cursos invista estrategicamente de forma a manter as avaliações satisfatórias e elabore um planejamento de forma a otimizar as avaliações que ainda possam ser melhoradas. É importante ressaltar que, provavelmente, uma determinada predição satisfatória não se manterá caso as condições anteriores que proporcionaram tal avaliação não sejam mantidas. Dessa forma, mesmo as avaliações satisfatórias precisam ser trabalhadas, logicamente que em um nível diferente, de forma a serem mantidas. Figura 3: Árvore de decisão obtida na mineração dos dados de avaliação dos professores do IFTM em cursos específicos no ano de 2013. No ano de 2013, de acordo com a Figura 3, o curso de Licenciatura em Computação permaneceu classificado como “Ótimo” pelo modelo. No entanto, os cursos de Análise de Desenvolvimento de Sistemas e Logística, que na Figura 2 apareceram classificados como “Ótimo”, passaram a ter sua classificação dependente do atributo “Pergunta”. No curso de Análise e Desenvolvimento de Sistemas a pergunta P3 foi classificada como “Fraco”, as perguntas P2 e P4 foram classificados como “Bom”, e as demais perguntas deste curso permaneceram classificadas como “Ótimo”. Já no curso de Logística a pergunta P2 passou a ser classificada como “Bom”, e as demais perguntas foram classificadas pelo modelo como “Ótimo”. Por outro lado, os cursos de Engenharia Agronômica e Zootecnia apresentaram resultados semelhantes aos dados apresentados na Figura 2. As perguntas P1, P2 e P5 do curso de Engenharia Agronômica, que em 2012 foram classificadas como “Bom”, em 2013 passaram a ser classificados pelo modelo como “Ótimo”. No curso de Zootecnia as perguntas P1, P2 e P4, que em 2012 foram classificadas como “Ótimo”, em 2013 passaram a ser classificadas como “Bom”. Dessa forma, é possível constatar que, no geral, as predições de 2013 pioraram em relação às de 2012. Isso mostra a relevância de se ter acesso aos dados obtidos pela mineração de dados, e com base nisso elaborar um planejamento para o próximo ano. Figura 4: Árvore de decisão obtida na mineração dos dados de avaliação dos professores do IFTM em cursos específicos no ano de 2014. Por fim, a Figura 4 apresenta a classificação feita pelo modelo sobre os dados da autoavaliação do ano de 2014. Neste caso, houve uma melhora significativa na opinião dos alunos em relação ao desempenho dos professores dentro dos cursos. Os cursos de Engenharia Agronômica, Zootecnia e Logística, que em 2013 tinham sua classificação dependente do atributo “Pergunta”, em 2014 passaram a ser classificados como “Ótimo”. Já o curso de Análise e Desenvolvimento de Sistemas, que em 2013 teve sua classificação dependente do atributo “Pergunta”, em 2014 continuou em situação semelhante, apesar da pergunta P3 ter sua classificação melhorada de “Fraco” para “Ótimo”. Sendo assim, em suma, os dados apresentados na Figura 4 mostram que em 2014, a grande maioria dos cursos apresentou sua classificação otimizada para todas as perguntas avaliadas. As Figuras 2, 3 e 4 mostraram a avaliação dos cursos de uma forma geral, sem considerar os detalhes relacionados aos diversos núcleos de formação que compõe cada curso. Desta maneira, de forma a propiciar uma visão mais detalhada de cada curso, estes foram analisados em nível de disciplinas. Como um curso normalmente possui dezenas de disciplinas, estas foram agrupadas por núcleos de formação, de acordo com a categorização proposta no próprio Projeto Pedagógico de Curso (PPC) dos cursos analisados, conforme mencionado na seção 2.3. Dentro desse contexto, a Figura 5 mostra a árvore de decisão especificamente para o curso de Licenciatura em Computação do campus Uberlândia Centro do IFTM no ano de 2012, enquanto que a Figura 6 apresenta a avaliação do mesmo curso no ano de 2014. A Tabela 3 mostra a legenda da categorização de disciplinas utilizada nas Figuras 5 e 6. Tabela 3: Legenda para os dados apresentados nas Figuras 5 e 6. Descrição Rótulo Formação Científica D1 Formação Específica D2 Formação Geral D3 Formação Pedagógica D4 Formação Tecnológica (S.C.) D5 Formação Tecnológica (S.I.) D6 Figura 5: Árvore de decisão obtida dos dados de avaliação do curso de Licenciatura em Computação no ano de 2012. Figura 6: Árvore de decisão obtida dos dados de avaliação do curso de Licenciatura em Computação no ano de 2014. Analisando as árvores de decisão resultantes da mineração dos dados de 2012 e 2014 do curso de Licenciatura em Computação, Figuras 5 e 6 respectivamente, pode-se constatar que ocorreram mudanças significativas. As perguntas que tratam de cordialidade e atendimento pedagógico (P5), e também aquelas que tratam da assiduidade e pontualidade (P6), permaneceram classificadas como “Ótimo” em ambas as avaliações. Já a questão que trata da agilidade na entrega de notas (P3), que antes foi classificada como “Ótimo”, passou a ser classificada como “Bom” nas áreas de Formação Pedagógica e Formação Tecnológica (S.C.), permanecendo como “Ótimo” nas demais áreas de formação. Nas demais questões houve algumas mudanças entre “Ótimo” e “Bom”, no entanto, nenhumas delas chegaram ao ponto de classificar o núcleo de formação como “Regular”. Sendo assim, em suma, de acordo com os dados apresentados nas Figuras 5 e 6, não houve mudança significativa que indique uma grande diferença na qualidade do curso segundo a opinião dos alunos, mas estes dados são relevantes para que os professores e equipe de gestão do curso em questão possam identificar as áreas onde existe insatisfação por parte dos estudantes. Outro curso analisado em detalhes foi o curso de Logística do campus Uberlândia Centro do IFTM. As Figuras 7 e 8 mostram as árvores de decisão resultantes do processo de mineração de dados desse curso nos anos de 2012 e 2014, respectivamente. A Tabela 4 mostra a legenda da categorização de disciplinas utilizada nas Figuras 7 e 8. Tabela 4: Legenda para os dados apresentados nas Figuras 7 e 8. Descrição Rótulo Formação Complementar - Obrigatória D1 Formação Básica D2 Formação Específica D3 Formação Complementar - Projeto Multidisciplinar D4 Figura 7: Árvore de decisão obtida dos dados da avaliação do curso de Tecnologia em Logística no ano de 2012. Figura 8: Árvore de decisão obtida dos dados da avaliação do curso de Tecnologia em Logística no ano de 2014. De acordo com o resultado alcançado através da mineração dos dados das autoavaliações de 2012 e 2014, Figuras 7 e 8 respectivamente, sobre o curso de Logística, pode-se constatar que houve uma melhora na avaliação das disciplinas de Formação Complementar - Obrigatória (D1), enquanto que nas disciplinas de Formação Básica (D2) e Especifica (D3) a classificação fornecida pelo modelo permaneceu a mesma. Apesar disso, o núcleo de Formação Complementar - Projeto Multidisciplinar (D4), que antes apresentava apenas um item avaliado como “Regular”, apresentou uma piora significativa, com duas perguntas (P1 e P3) sendo avaliadas como “Fraco” e com outras duas (P5 e P6) sendo avaliadas como “Regular”. Esse resultado poderia ter sido evitado com base na análise dos dados apresentados neste artigo. Por fim, este artigo apresenta a análise em detalhes dos dados do curso de Zootecnia do campus Uberaba - Unidade I do IFTM. As Figuras 9 e 10 mostram as árvores de decisão resultantes da mineração dos dados desse curso nos anos de 2012 e 2014, respectivamente. A Tabela 5 mostra a legenda da categorização de disciplinas utilizada nas Figuras 9 e 10. Tabela 5: Legenda para os dados apresentados nas Figuras 9 e 10. Descrição Rótulo Núcleo de Ciências Agronômicas D1 Núcleo de Ciências Econômicas D2 Núcleo de Ciências Ambientais D3 Núcleo de Genética Melhoramento e Reprodução Animal D4 Núcleo de Ciências Exatas e Aplicadas D5 Núcleo de Morfologia e Fisiologia Animal D6 Núcleo de Higiene e Profilaxia Animal D7 Núcleo de Nutrição e Alimentação D8 Núcleo de Produção Animal e Industrialização D9 Figura 9: Árvore de decisão obtida dos dados da avaliação do curso Bacharelado em Zootecnia no ano de 2012. Figura 10: Árvore de decisão obtida dos dados da avaliação do curso Bacharelado em Zootecnia no ano de 2014. Na mineração dos dados do curso de Zootecnia referente aos anos de 2012 e 2014, Figuras 9 e 10 respectivamente, pode-se concluir que houve um crescimento na quantidade de núcleos de formação classificados como “Ótimo” por parte do modelo. Os núcleos de Ciências Exatas e Aplicadas (D5) e Higiene e Profilaxia Animal (D7) permaneceram avaliados como “Ótimo”. Enquanto isso, os núcleos de Morfologia e Fisiologia Animal (D6), Nutrição e Alimentação (D8) e Produção Animal e Industrialização (D9), que possuíam grupos de perguntas classificados como “Bom”, “Ótimo” e “Fraco”, passaram a ser classificados apenas como “Ótimo”. Nos demais núcleos de formação houve uma ligeira melhora, pois embora estes não tenham sido classificados como “Ótimo” pelo modelo, todos os grupos de perguntas que antes eram tidos como “Fraco” ou “Regular” passaram a ser classificados como “Ótimo” ou “Bom”. 3.2. Avaliação da infraestrutura dos campi A Figura 11 apresenta o resultado da aplicação do algoritmo J48 nos dados do bloco de perguntas referentes à Dimensão VII (CPA/IFTM, 2012), que trata principalmente da infraestrutura dos campi do IFTM, no ano de 2012. Essa avaliação foi realizada pelos alunos, professores e técnicos administrativos. A Tabela 6 contém a legenda para os rótulos apresentados na Figura 11. Tabela 6: Legenda para os dados apresentados na Figura 11. Descrição Avaliação feita por alunos Avaliação feita por professores Avaliação feita por técnicos administrativos A infraestrutura das salas de aula (dimensões do espaço físico, iluminação, ventilação, mobiliário e equipamento) é A infraestrutura dos laboratórios (dimensões do espaço físico, iluminação, ventilação, mobiliário e equipamento) é A infraestrutura da biblioteca (organização e horário de funcionamento, qualidade do acervo e do atendimento) é A infraestrutura do campus (dimensões do espaço físico, iluminação, ventilação, mobiliário e equipamento) O número de computadores para acesso à Internet disponibilizados na biblioteca é Rótulo A P T P1 P2 P3 P4 P5 Figura 11: Árvore de decisão obtida na mineração dos dados de avaliação da infraestrutura do IFTM no ano de 2012. Dentre os resultados apresentados na Figura 11, destaca-se a diferença de opinião dos alunos, professores e técnicos administrativos em relação às mesmas perguntas. De acordo com o modelo produzido pelo algoritmo, os professores, no geral, apresentaram uma avaliação mais crítica do que os demais, sendo sua resposta normalmente classificada como “Regular” (perguntas P1, P2 e P4). Além disso, de acordo com o modelo, a avaliação dos alunos se assemelha bastante à avaliação realizada pelos técnicos administrativos do IFTM (perguntas P1, P2, P3 e P4). Outro ponto importante a se ressaltar é que, de acordo com o modelo, a resposta dos alunos foi classificada como “Fraco” para a pergunta referente ao número de computadores para acesso à internet disponibilizados na biblioteca (P5), sendo esta a avaliação mais crítica para essa pergunta. A mesma análise apresentada na Figura 11 foi realizada também para os anos de 2013 e 2014. As árvores de decisão obtidas na mineração dos dados de avaliação da infraestrutura do IFTM nos anos de 2013 e 2014 consistiram em apenas um nó, com a classificação “Bom”. Neste sentido, pode-se concluir que, com o passar dos anos, houve uma melhora significativa na opinião dos alunos, professores e técnicos administrativos em relação ao bloco de perguntas referentes à Dimensão VII. Dentro desse contexto, outro ponto bastante relevante que deve considerado é o crescimento na quantidade de alunos, professores e técnicos administrativos que participaram das autoavaliações do IFTM realizadas nos anos de 2012, 2013 e 2014. O Gráfico 1 mostra a evolução desse número aos longo dos anos analisados. Gráfico 1: Número total de participantes discriminados por categoria que participaram das autoavaliações do IFTM realizadas nos anos de 2012, 2013 e 2014. De acordo com os dados apresentados no Gráfico 1, o número de participantes nos diversos seguimentos cresceu consideravelmente ao longo dos anos, com destaque para a quantidade de alunos, que praticamente dobrou de 2013 para 2014. Um dos fatores relacionados a esse crescimento está o próprio crescimento da Instituição e, consequentemente, do seu número de alunos e servidores. No geral, esses resultados são bastante importantes, uma vez que a Instituição encontra-se em fase de crescimento, e a adoção de medidas para melhoria contínua visa garantir uma satisfação crescente nos seguimentos presentes. O processo de melhoria contínua pode ser alcançado através da análise e planejamento sobre dados semelhantes aos apresentados nesta pesquisa, uma vez que estes servem de suporte aos gestores. 3.3. Avaliação da política de ensino, pesquisa e extensão As Figuras 12 e 13 apresentam os resultados da aplicação do algoritmo J48 nos dados do bloco de perguntas referentes à Dimensão II (CPA/IFTM, 2012), que trata principalmente da política para o ensino, pesquisa e extensão dos campi do IFTM, nos anos de 2012 e 2014, respectivamente. Essa avaliação foi realizada pelos alunos, professores e técnicos administrativos. A Tabela 7 contém a legenda para os rótulos apresentados nas Figuras 12 e 13. Tabela 7: Legenda para os dados apresentados nas Figuras 12 e 13. Descrição Rótulo Avaliação feita por alunos A Avaliação feita por professores P Avaliação feita por técnicos administrativos T A política e a atuação do Instituto para o ensino é P1 Seu conhecimento e interesse na participação dos programas de pesquisa P2 e extensão é A política e a atuação do Instituto para a pesquisa é P3 Seu conhecimento do programa de concessão de bolsas e monitoria é P4 A política e a atuação do Instituto para a extensão é P5 Figura 12: Árvore de decisão obtida na mineração dos dados sobre a política de ensino, pesquisa e extensão do IFTM no ano de 2012. Figura 13: Árvore de decisão obtida na mineração dos dados sobre a política de ensino, pesquisa e extensão do IFTM no ano de 2014. De acordo com a Figura 12, a política e a atuação da Instituição para o ensino, pesquisa e extensão (perguntas P1, P3 e P5, respectivamente) foi classificada pelo modelo como “Bom” para todas as categorias de participantes da avaliação. Enquanto isso, as perguntas que dizem respeito ao conhecimento e interesse na participação dos programas de pesquisa e extensão (P2) e o conhecimento do programa de concessão de bolsas e monitoria (P4) foram classificadas pelo modelo como “Fraco” pelos técnicos administrativos. A mesma análise apresentada na Figura 12 foi realizada também para o ano de 2013. A árvore de decisão obtida na mineração dos dados sobre a política de ensino, pesquisa e extensão do IFTM no ano de 2013 consistiu em apenas um nó, com a classificação “Bom”. Sendo assim, nota-se uma maior atuação dos técnicos administrativos nos programas de pesquisa e extensão da Instituição no ano de 2013. Enquanto isso, de acordo com a Figura 13 (ano de 2014), os itens P2, P3, P4 e P5 foram classificados pelo modelo como “Bom”, da mesma forma como já haviam sido classificados sobre os dados de 2013. Além disso, em 2014, os professores avaliaram o item P1 como “Ótimo”, mostrando assim uma melhora na política e atuação do Instituto para o ensino. Em resumo, de acordo com essa análise, pode-se concluir que houve uma melhora significativa ao longo dos anos na opinião dos diversos seguimentos, ainda mais se observado o crescimento na quantidade de participantes das autoavaliações consideradas nesta pesquisa, conforme foi mostrado no Gráfico 1. 4. Conclusões Os experimentos realizados nesta pesquisa evidenciaram a viabilidade e a eficácia da aplicação de técnicas de mineração de dados sobre os dados da Autoavaliação Institucional promovida pela CPA nos anos de 2012 a 2014. Os resultados obtidos revelaram uma pequena parcela da informação que está escondida por trás desses dados, de forma a propiciar uma amostra de como é possível se beneficiar dos resultados dessa pesquisa. Neste artigo foram apresentados vários grupos de árvores de decisão, com o objetivo de ilustrar de forma clara o resultado da mineração dos dados coletados pela CPA ao longo de três anos. A análise realizada sobre esses dados foi segmentada em três áreas de interesse, conforme apresentado na seção 3: 1) Avaliação dos professores; 2) Avaliação da infraestrutura dos campi; 3) Avaliação da política de ensino, pesquisa e extensão. A primeira área de interesse visa fornecer resultados de forma a auxiliar a equipe de gestão dos cursos em como e onde deve-se investir esforços de forma a melhorar a qualidade dos mesmos. Com essa análise é possível tanto predizer a opinião geral dos alunos sobre os cursos, quanto a opinião dos mesmos segmentada por núcleos de formação, o que fornece subsídios para uma planejamento mais apurado. Enquanto isso, com a segunda área de interesse é possível analisar a opinião dos alunos, professores e técnicos administrativos quanto à infraestrutura dos campi. Isso permite entender se uma das partes relacionadas com a infraestrutura está em desagrado de apenas um dos segmentos ou de todos, permitindo-se assim que a equipe de gestão da Instituição se planeje para atuar de forma mais assertiva. Por fim, a terceira área de interesse também apresenta a opinião segmentada por alunos, professores e técnicos administrativos, porém para questões do âmbito das políticas de ensino, pesquisa e extensão. Isso possibilita analisar qual desses três pilares (ensino, pesquisa e extensão) carece de mais atenção e atuação por parte da equipe gestora da Instituição. Além disso, as informações apresentadas neste artigo destacam a importância da existência da Comissão Própria de Avaliação dentro de uma instituição de ensino, e também mostram como a mineração de dados pode ser utilizada para predizer os resultados que serão alcançados nos próximos anos caso os gestores não realizem um planejamento de melhoria adequado. Com estes dados, também é possível compartilhar experiências bem sucedidas dentro das instituições de ensino. 5. Referências Comissão Própria de Avaliação do Instituto Federal de Educação, Ciência e Tecnologia do Triângulo Mineiro, CPA/IFTM. (2012). RELATÓRIO AUTOAVALIAÇÃO INSTITUCIONAL ANO 2012. Disponível em: <http://www.iftm.edu.br/cpa/pdf/relatorio_final_2012.pdf>. Acesso em: 1 set. 2015. Instituto Federal de Educação, Ciência e Tecnologia do Triângulo Mineiro, IFTM. (2012a). Projeto Pedagógico do Curso de Licenciatura em Computação. Disponível em: < http://www.iftm.edu.br/visao/loader_arquivo_ppc.php?src=190815161857_decretos_ad _referendum_10-2013_-_ppc_computacao_av_udia.pdf >. Acesso em: 4 jan. 2016. Instituto Federal de Educação, Ciência e Tecnologia do Triângulo Mineiro, IFTM. (2012b). Projeto Pedagógico do Curso Superior de Tecnologia em Logística. Disponível em: < http://www.iftm.edu.br/visao/loader_arquivo_ppc.php?src=150713160347_resolucao_3 2-2012_-_aprova_o_ppc__do_cst_em_logistica.pdf>. Acesso em: 4 jan. 2016. Instituto Federal de Educação, Ciência e Tecnologia do Triângulo Mineiro, IFTM. (2011). Projeto Pedagógico do Curso de Bacharelado em Zootecnia. Disponível em: <http://www.iftm.edu.br/uberaba/cursos/graduacaopresencial/zootecnia/ppc/PPC_Bacharelado_Zootecnia.pdf>. Acesso em: 4 jan. 2016. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA Data Mining Software: An Update; SIGKDD Explorations. 11(1), 10-18. Han, J., & Kambe, M. (2000). Data Mining: Concepts and Techniques. Morgan Kaufmann. Librelotto, S. R., & Mozzaquatro, P. M. (2013). Análise dos algoritmos de mineração J48 e APRIORI aplicados na detecção de indicadores de qualidade de vida e saúde. Revista interdisciplinar de ensino, pesquisa e extensão. 1(1), 26-37. Tan, P., Steinbach, M., & Kumar, V. (2009). Introdução ao Data Mining: Mineração de Dados. Rio de Janeiro: Ciência Moderna Ltda.