XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM MINERAÇÃO DE DADOS RELACIONADOS AO APRENDIZADO DE LÍNGUA PORTUGUESA – UM ESTUDO EXPLORATÓRIO Anderson Amendoeira Namen – [email protected] Universidade do Estado do Rio de Janeiro, Instituto Politécnico Universidade Veiga de Almeida Ana Carolina Soares e Soares – [email protected] Universidade Veiga de Almeida Resumo. O artigo apresenta o processo de mineração de dados aplicado para a identificação de associações entre variáveis relacionadas ao ensino de Língua Portuguesa para alunos da quarta série do ensino fundamental do Estado do Rio de Janeiro. São apresentadas as tarefas de limpeza e tratamento dos dados, pré-requisito para a execução do algoritmo de associação utilizado e são analisados os primeiros resultados obtidos no processo. Palavras-chave: Descoberta de conhecimento, Mineração de dados, Algoritmo Apriori 1. INTRODUÇÃO Em 2007 foi lançado o Plano de Desenvolvimento da Educação (PDE), que define uma série de metas a serem alcançadas, relacionadas ao fortalecimento da educação básica. Um dos mecanismos que propiciam o acompanhamento das metas definidas pelo PDE é o Censo Escolar da Educação Básica (INEP, 2009). Realizado anualmente, tem como principal objetivo a organização de uma ampla base de dados sobre escolas, professores e alunos. Também são realizadas avaliações em nível nacional (SAEB e Prova Brasil) visando coletar indicadores das médias de desempenho dos alunos do ensino básico em Língua Portuguesa e Matemática. O presente trabalho apresenta os resultados iniciais referentes à mineração de dados relacionados aos alunos da quarta série do ensino fundamental do Estado do Rio de Janeiro. Segundo Hirji (2001), a mineração de dados efetua o casamento da Estatística com a Inteligência Artificial, possibilitando a descoberta de relações ocultas em grandes repositórios de dados e, a partir daí, a inferência de regras para previsão de comportamento futuro e orientação na tomada de decisões. O objetivo principal é descobrir, a partir do uso de modelos computacionais, associações entre variáveis que caracterizam o perfil dos alunos e o nível de aprendizado de língua portuguesa obtido por estes. Dessa forma, torna-se possível identificar características que influenciem positivamente ou negativamente o processo de ensino-aprendizagem de língua portuguesa. O artigo apresenta, inicialmente, as bases de dados selecionadas, bem como o processo desenvolvido para limpeza e transformação de dados, pré-requisito necessário para a mineração. Os conceitos do algoritmo apriori, utilizado para a descoberta de associações entre variáveis, são então apresentados, assim como a escolha dos parâmetros utilizados na XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM execução do algoritmo. Finalmente, é efetuada uma análise dos primeiros resultados obtidos, seguida de algumas conclusões. 2. BASES USADAS, LIMPEZA E TRANSFORMAÇÃO DOS DADOS A cada dois anos, o Governo Federal realiza uma prova de língua portuguesa e matemática, denominada Prova Brasil, para todos os alunos da quarta e oitava série do ensino fundamental. Além da prova, os alunos respondem um questionário contendo diferentes perguntas relacionadas ao seu perfil sócio-econômico. Professores e diretores de escolas também respondem questionários relacionados ao seu perfil e ao da Instituição em que trabalham. Todos esses dados são armazenados em diferentes arquivos, sendo que os últimos dados disponibilizados pelo INEP referem-se à Prova Brasil do ano de 2007. Os seguintes arquivos foram selecionados para o presente trabalho: • TS_ALUNO (Identificação dos alunos juntamente com a proficiência em cada disciplina); • TS_QUEST_ALUNO (Resposta do questionário aplicado ao aluno de cada série); As estruturas dos arquivos são apresentadas nas Tabelas 1 e 2. Tabela 1 – Estrutura do arquivo TS_ALUNO seq. Atributo Tipo tam. Descrição 1 2 ID_ALUNO ID_TURMA Num Char 8 7 4 TX_HORARIO_INICIO Char 5 5 TX_HORARIO_FINAL Char 5 6 NU_QTD_ALUNO Num 4 Código do Aluno na Prova Brasil Código da Turma na Prova Brasil Horário de Início da aula. As duas primeiras posições correspondem a hora e as duas ultimas aos minutos. Horário de Término da aula.As duas primeiras posições correspondem a hora e as duas ultimas aos minutos. Número de Alunos matriculados na turma 7 ID_SERIE Num 1 Código da Série (4 – 4.ª série/5.º ano EF; 8 – 8.ª série / 9.º ano EF) 8 PK_COD_ENTIDADE Num 8 Código da Escola 9 ID_DEPENDENCIA_ADM Num 1 Código da Dependência Administrativa da Escola 10 ID_LOCALIZACAO Num 1 Código da Localização da Escola 11 12 12 13 SIGLA_UF COD_UF NO_MUNICIPIO COD_MUNICIPIO Char Num Char Num 2 2 50 7 14 ST_LINGUA_PORTUGUESA Num 1 Sigla da Unidade da Federação Código da Unidade da Federação Nome do Município Código do Município Situação do Preenchimento da prova de Língua Portuguesa. O valor 0 indica que a prova não foi preenchida pelo aluno, enquanto o valor 1 indica que a prova foi preenchida. 15 ST_MATEMATICA Num 1 16 NU_THETA_L Num 8 17 NU_SETHETA_L Num 8 18 NU_THETAT_L Num 8 19 NU_SETHETAT_L Num 8 Proficiência do aluno em Língua Portuguesa calculada na escala única do SAEB, com média = 0 e desvio = 1 na população de referência Desvio padrão da proficiência em Língua Portuguesa Proficiência em Língua Portuguesa transformada na escala única do SAEB, com média = 250, desvio = 50 (do SAEB/97). Desvio padrão da proficiência transformada em Língua Portuguesa 20 NU_SETHETA_M Num 8 Desvio padrão da proficiência em Matemática Situação do Preenchimento da prova de Matemática XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM 21 NU_THETAT_M Num 8 22 NU_SETHETAT_M Num 8 23 NU_THETA_M Num 8 Proficiência do aluno em Matemática transformada na escala única do SAEB, com média = 250, desvio = 50 (do SAEB/97) Desvio padrão da proficiência transformada em Matemática Proficiência do aluno em Matemática calculada na escala única do SAEB, com média = 0 e desvio = 1 na população de referência Tabela 2 – Estrutura do arquivo TS_QUEST_ALUNO seq. Atributo Tipo tam. 8 Descrição Código do Aluno na Prova Brasil 1 Código da Série Num 1 Código da Dependência Administrativa da Escola ID_LOCALIZACAO Num 1 Código da Localização da Escola SIGLA_UF COD_UF NO_MUNICIPIO COD_MUNICIPIO Char Num Char Num 2 2 50 7 TX_RESP_QUESTIONARIO Char 47 Sigla da Unidade da Federação Código da Unidade da Federação Nome do Município Código do Município Resposta para o Questionário do Aluno 1 ID_ALUNO 2 ID_SERIE 3 ID_DEPENDENCIA_ADM 4 5 6 7 8 9 Num Num Código de Preenchimento 4 – 4.ª série/5.º ano EF 8 – 8.ª série / 9.º ano EF 1 – Federal 2 - Estadual 3 - Municipal 1 – Urbana 2 – Rural Ver posição da resposta no questionário O escopo do presente trabalho envolve a análise dos dados dos alunos de língua portuguesa da quarta série do ensino fundamental do Estado do Rio de Janeiro. Desse modo, o primeiro processo realizado foi selecionar somente os alunos do Estado do Rio de Janeiro. Assim, foram selecionados, dentre os registros existentes nos diferentes arquivos, apenas os registros com o atributo SIGLA_UF igual ao valor “RJ” e o atributo ID_SERIE igual a 4. Embora a maior parte das técnicas de mineração tolere algum nível de imperfeição nas entradas, a melhoria da qualidade dos dados provê um grande aprimoramento nas análises resultantes dos algoritmos de mineração. Alguns trabalhos, como o de Redman (2001) e Wang et al. (2001) apresentam diferentes aspectos relacionados ao tratamento e garantia da qualidade dos dados. Para o presente caso, foram realizadas algumas tarefas, tanto de limpeza, quanto de transformação de dados. Estas foram fundamentais para a posterior execução dos algoritmos de detecção de padrões de associações entre as variáveis existentes no modelo. 2.1 Eliminação dos dados inconsistentes Como pode ser observado nas Tabelas 1 e 2, o atributo ID_ALUNO identifica cada aluno e está presente nos arquivos TS_ALUNO e TS_QUEST_ALUNO. Conforme citado anteriormente, o arquivo TS_ALUNO possui os dados da proficiência dos alunos, enquanto TS_QUEST_ALUNO possui os dados das respostas aos questionários dos alunos. Desse modo, identificou-se que todo registro com determinado ID_ALUNO existente em TS_ALUNO deveria possuir um registro correspondente no arquivo TS_QUEST_ALUNO. Caso isso não ocorresse, significava que o aluno possuía os dados referentes ao seu nível de aprendizado, mas não possuía os dados do questionário aplicado, contendo seu perfil sócio econômico. Foi realizado, então, um processo de exclusão dos registros de TS_ALUNO que não possuíam registro com ID_ALUNO correspondente em TS_QUEST_ALUNO, resultando na eliminação de 703 registros, de um total de 147873, permanecendo 147170 registros no arquivo. XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM 2.2 Criação de novos atributos a partir de atributos existentes O arquivo TS_QUEST_ALUNO possui um atributo denominado TX_RESP_QUESTIONARIO, que identifica as respostas ao questionário do aluno. O campo é do tipo Char com 47 posições, sendo este o número de questões aplicadas ao aluno. Ou seja, como esse campo é um string de tamanho 47, cada posição do campo corresponde à letra referente à resposta de uma determinada questão. Exemplificando, a primeira posição do string pode ser preenchida com os valores ‘A’ ou ‘B’, e corresponde à primeira pergunta sobre o sexo do aluno, sendo a letra ‘A’ a resposta para o sexo masculino e ‘B’ para o sexo feminino. A trigésima sexta posição do string, por sua vez, está ligada à questão de número 36 (“Quando você entrou na escola?”) e pode ser preenchida com os valores ‘A’, ‘B’, ‘C’ ou ‘D’, que são as opções referentes às seguintes respostas, respectivamente: “No maternal (jardim de infância).”; “Na pré-escola.”; “Na primeira série.”; “Depois da primeira série.”. Para acesso a maiores detalhes, todos os questionários estão disponíveis no site do INEP, no endereço www.inep.gov.br. O objetivo do presente trabalho é a identificação de variáveis que possam influenciar positiva ou negativamente a proficiência do aluno em língua portuguesa. Como o atributo TX_RESP_QUESTIONARIO é representado por um string único, este não possui qualquer representatividade, dentro dos objetivos de associação buscados. Assim, foi necessária a divisão do atributo em tantos atributos quantos fossem os números de questões. No arquivo TS_QUEST_ALUNO foram criados 47 atributos, todos do tipo Char de tamanho 1, cada um deles identificando a resposta à pergunta correspondente aplicada no questionário do aluno. Os atributos foram nomeados de acordo com os enunciados das questões. Por exemplo, o novo atributo criado no arquivo TS_QUEST_ALUNO denominado Q1Sexo, corresponde à primeira questão sobre o sexo do aluno. Ele foi preenchido com o valor contido na primeira posição do string TX_RESP_QUESTIONARIO do arquivo TS_QUEST_ALUNO. O atributo Q2RacaCor, preenchido com o valor da segunda posição do string, corresponde à raça/cor do estudante, pergunta de número 2 do questionário, e assim sucessivamente. A criação dos novos atributos possibilitou que todas as variáveis caracterizadoras do perfil dos alunos ficassem disponíveis no modelo e pudessem ser usadas como entradas para o algoritmo de mineração. 2.3 Transformação de atributos contínuos em discretos A transformação de um atributo contínuo em um categórico é geralmente aplicada em atributos que são usados na análise de classificação ou associação. Conforme mencionado por Tan, Steinbach & Kumar (2009), alguns algoritmos de associação, caso do presente trabalho, não podem ser aplicados com a utilização de atributos contínuos. Para os arquivos aqui apresentados, a grande maioria dos atributos possui dados discretos. Somente os dados relacionados à proficiência dos alunos (arquivo TS_ALUNO) possuem atributos contínuos. Em particular, após análise detalhada do significado dos dados contidos no arquivo TS_ALUNO, foi constatado que o atributo NU_THETAT_L era o mais recomendado para ser utilizado nas análises. De acordo com o dicionário de dados do INEP XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM (vide www.inep.gov.br), esse campo contém o dado da proficiência em Língua Portuguesa de cada aluno já transformada em uma escala única. Na realidade, o atributo NU_THETAT_L foi mantido no arquivo, sendo criado um novo atributo correspondente denominado EscalaNotaPortugues. Observou-se que a média geral do atributo NU_THETAT_L possuía o valor de 178.82. Foram então criadas duas categorias para o novo atributo EscalaNotaPortugues: “Abaixo Média” e “Acima Média”, onde: 0 ≤ NU_THETAT_L < 178.82 => EscalaNotaPortugues = “Abaixo Média” e NU_THETAT_L ≥ 178.82 => EscalaNotaPortugues = “Acima Média” Além das duas categorias apresentadas, foi criada mais uma categoria denominada “Não Fez”, para os alunos que não haviam feito a prova. Essa transformação foi feita para todos os alunos que possuíam o atributo ST_LINGUA_PORTUGUESA igual a 0, indicando que não haviam preenchido a prova (vide Tabela 1). Apesar desses alunos (ao todo 316) terem o campo NU_THETAT_L preenchido com o valor 0, eles não poderiam ser categorizados na faixa “Abaixo Média”. Se isso acontecesse, as informações utilizadas como base para o algoritmo de associação ficariam inconsistentes, já que se tratavam de duas situações completamente distintas (fazer a prova e ter aproveitamento igual a zero é uma situação completamente diferente de não fazer a prova). É importante ressaltar que os dados relativos à proficiência foram utilizados como entrada para o algoritmo utilizado, já que um dos principais objetivos buscados era a identificação de padrões de comportamento (ou perfis) associados ao nível de aprendizagem obtido pelos alunos. Desse modo, a criação de uma variável discreta era pré-requisito essencial para a aplicação do algoritmo de associação. 3. DESCOBERTA DE ASSOCIAÇÕES ENTRE VARIÁVEIS Essa seção apresenta a aplicação de uma metodologia conhecida como análise de associação, útil para descobrir relacionamentos interessantes escondidos em grandes conjuntos de dados. Os relacionamentos descobertos podem ser representados na forma de regras de associação. Uma regra de associação é uma expressão de implicação no formato X => Y (X implica em Y), onde X = {x1, x2, ..., xn} e Y = { y1, y2, ..., yn } são conjuntos disjuntos de itens, isto é, X ∩ Y = ϕ; X é o antecedente da regra (lado esquerdo) e Y é o consequente da regra (lado direito) podendo envolver qualquer número de itens (atributos) em cada lado da regra. O significado desta regra é que as transações da base de dados que contêm X tendem a conter Y. A força de uma regra de associação pode ser medida em termos de duas métricas: o suporte e a confiança. O suporte determina a frequência com que um conjunto de itens X U Y ocorre. Ou seja, o suporte é o percentual de transações que contêm todos os itens na qual uma regra é aplicável. A confiança determina a frequência na qual os itens Y aparecem em transações que contenham X. Em outras palavras, a confiança não trabalha com todas as transações, apenas com as que possuem o antecedente da regra. Para uma determinada regra X => Y, quanto XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM maior a confiança, maior a probabilidade de que Y esteja presente em transações que contenham X. As definições formais dessas medidas são: Suporte = S(X =>Y) = O( X ∪ Y ) N Confiança = C(X =>Y) = (1) O( X ∪ Y ) O( X ) (2) onde: O ( X ∪ Y ) é o número total de ocorrências de registros contendo os itens X e Y O(X) é o número total de ocorrências de registros contendo X N é o numero total de registros Outra medida, denominada fator de interesse (também chamada de importância ou lift), deve ser usada para evitar uma situação cunhada como armadilha de confiança. O exemplo listado a seguir, retirado de Tan, Steinbach & Kumar (2009), mostra que mesmo valores significativos de confiança podem não identificar uma regra relevante. A Tabela 3 mostra uma situação onde se busca analisar o relacionamento entre pessoas que bebam chá e café. Tabela 3 – Preferências de bebida em um grupo de 1000 pessoas Bebe chá Não bebe chá Totais Bebe café 150 650 800 Não bebe café 50 150 200 Totais 200 800 1000 Analisando a regra Bebe chá => Bebe café, poderíamos, em um primeiro momento, considerá-la relevante, já que seus valores de suporte (15%) e confiança (75%) são relativamente altos. Este argumento pode ser contraposto quando se percebe que 80% do número total de pessoas bebe café, número superior ao das pessoas que bebem chá e café. Ou seja, apesar do valor da confiança da regra Bebe chá => Bebe café ser alto (75%), a regra, no entanto, é ilusória. O fato de uma pessoa beber chá, na realidade, diminui a possibilidade de que beba café de 80 para 75 por cento. O fator de interesse é uma medida que provê informação adicional, evitando situações enganosas, como a mencionada acima. O fator de interesse de uma regra é calculado a partir da seguinte fórmula: P (Y | X ) Fator de Interesse = I(X =>Y) = log (3) P (Y | not X ) ( ) onde P(Y | X) é a probabilidade de Y ocorrer quando X ocorre e P(Y | not X), é a probabilidade de Y ocorrer quando X não ocorre. XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM Um fator de interesse igual a 0 significa que não há associação entre X e Y. Fatores de interesse positivos indicam que Y tenderá a crescer caso X seja verdadeiro. Valores negativos, por sua vez, indicam que o antecedente X afeta negativamente o consequente Y, ou seja, a regra não é relevante. O objetivo da mineração de regras de associação é gerar todas as regras possíveis que excedam alguns patamares mínimos de suporte e de confiança especificados pelo usuário. O problema, portanto, é decomposto em dois subproblemas: 1. Gerar todos os conjuntos de itens que possuem suporte maior do que um limite mínimo definido pelo usuário. Esses conjuntos são chamados de conjuntos de itens frequentes; 2. Para cada conjunto de itens frequentes, gerar todas as regras que possuem confiança maior que um valor de confiança mínimo. Para tratar esses subproblemas foi utilizado o algoritmo Apriori. O algoritmo realiza a mineração em dois passos. No primeiro, é feita uma varredura sobre o arquivo de entrada, a fim de gerar todos os conjuntos de combinações de itens que satisfaçam um valor maior do que o suporte mínimo especificado pelo usuário. No segundo, são extraídas todas as regras de alta confiança dos conjuntos gerados. Estas regras são chamadas de regras fortes. Detalhes do algoritmo, inclusive com apresentação de variações do respectivo pseudocódigo, podem ser encontrados em Han & Kamber (2006), Tan, Steinbach & Kumar (2009) e Elmasri & Navathe (2011). Mais especificamente, foi utilizado o algoritmo denominado Microsoft Association Rules, uma implementação do algoritmo Apriori, disponibilizada dentro do ambiente do Sistema Gerenciador de Banco de Dados SQL Server 2008 da Microsoft, ambiente para o qual os arquivos foram importados em formato de tabelas de banco de dados. Maiores detalhes da ferramenta e dos algoritmos de mineração disponibilizados por ela podem ser encontrados em Harinath et al. (2009) e MacLennan & Crivat (2008). 4. SIMULAÇÃO E GERAÇÃO DE RESULTADOS Um número limitado de atributos foi selecionado para a execução do algoritmo de mineração. O objetivo foi identificar relacionamentos entre a proficiência do aluno, sua faixa etária, período em que entrou na escola, grau de escolaridade dos pais, incentivos dos pais em relação à frequência na escola, atividades do aluno como trabalho doméstico ou fora de casa, e se este já havia sido reprovado (atributos EscalaNotaPortugues, Q4Idade, Q36QndEntrouNaEscola, Q19SerieMaeOuResponsavelEstudou, Q23SeriePaiOuResponsavelEstudou, Q30SeusPaisIncentivamNaoFaltarAula, Q34EmDiaAulaQntTempoTrabalhoDomestico, Q35TrabalhaForaDeCasa, Q38JaFoiReprovado). A escala da nota de português foi definida como atributo para previsão, ou seja, o atributo a ser identificado como consequente das regras geradas pelo algoritmo. Os atributos selecionados possuem relação direta com as respostas aos questionários dos alunos da quarta série do ensino fundamental do Estado do Rio, bem como com os resultados no exame de proficiência em Língua Portuguesa, conforme mencionado na XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM Seção 2. Foram definidos parâmetros de entrada relacionados ao suporte e confiança mínimos desejados para obtenção de regras, com os seguintes valores: • Suporte Mínimo = 0,5%; • Confiança Mínima = 75%. Cabe ressaltar que a escolha de um valor pequeno para o suporte mínimo visou possibilitar a identificação de combinação de itens (atributos) que, apesar de não tão frequentes, pudessem ter grande relevância (ou seja, confiança e fator de interesse altos). Como o volume de dados envolvido é grande (147170 registros de alunos), o uso de um percentual mínimo de suporte de 0.5% permite a identificação de regras relacionadas a um número ainda significativo de estudantes contendo perfil semelhante. Após a simulação, foram geradas 45 regras, todas elas contendo valores do fator de interesse maiores do que 0, ou seja, sendo identificadas como regras relevantes. As primeiras 20 regras, ordenadas decrescentemente pela confiança, são apresentadas na Tabela 4, que contêm, além da regra, os respectivos valores de confiança e fator de interesse. Como pode ser observado na tabela, as variáveis que compõem o antecedente da regra são precedidas pelo sinal ->, sendo a variável EscalaNotaPortugues o seu consequente. Tabela 4 – Regras de Associação geradas Confiança Fator de Interesse Regra Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q4 Idade = 12 anos -> Escala Nota Portugues = 83,70% 0,2294677 Abaixo Média 82,70% Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q35 Trabalha Fora De Casa = Sim -> Escala 0,225192 Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q38 Ja Foi Reprovado = Sim, uma vez -> Escala 82,60% 0,2257504 Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q23 Serie Pai Ou Responsavel Estudou = Completou a 8ª série, mas não completou o Ensino Médio( antigo 2º grau), Q38 Ja Foi Reprovado = Sim, uma vez 81,30% 0,2165584 > Escala Nota Portugues = Abaixo Média Q4 Idade = 13 anos, Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez -> 80,70% 0,2136312 Escala Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q19 Serie Mae Ou Responsavel Estudou = Completou a 8ª série, mas não completou o Ensino Médio( antigo 2º grau), Q38 Ja Foi Reprovado = Sim, uma vez 80,10% 0,2100054 > Escala Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q38 Ja Foi Reprovado = Sim, uma vez, Q35 79,70% 0,2086639 Trabalha Fora De Casa = Não -> Escala Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q36 Qnd Entrou Na Escola = Na Pré- escola, Q38 Ja Foi 79,30% 0,2063325 Reprovado = Sim, uma vez -> Escala Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q34 Em Dia Aula Qnt Tempo Trabalho Domestico = 2 horas, 79,00% 0,2045466 Q38 Ja Foi Reprovado = Sim, uma vez -> Escala Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q36 Qnd Entrou Na Escola = Na Pré- escola -> 78,60% 0,2025701 Escala Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não 78,20% 0,2015946 sei -> Escala Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q36 Qnd Entrou Na Escola = Na Pré- escola, Q38 Ja Foi Reprovado = Sim, uma vez, Q30 Seus Pais Incentivam Nao Faltar Aula = Sim -> Escala Nota 77,80% 0,1978884 Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não 77,80% 0,1984247 sei, Q23 Serie Pai Ou Responsavel Estudou = Não sei -> Escala Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q36 Qnd Entrou Na Escola = Na primeira série 77,50% 0,1963756 > Escala Nota Portugues = Abaixo Média 77,40% 0,1962752 Q4 Idade = 14 anos, Q35 Trabalha Fora De Casa = Sim -> Escala Nota Portugues = Abaixo Média XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez -> Escala Nota 77,40% 0,2038172 Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q19 Serie Mae Ou Responsavel Estudou = Completou a 4ª série, mas não completou a 8ª série( antigo ginásio), Q38 Ja Foi Reprovado = Sim, uma vez -> 77,40% 0,1955217 Escala Nota Portugues = Abaixo Média Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez, Q19 Serie Mae Ou 76,90% 0,1939155 Responsavel Estudou = Não sei -> Escala Nota Portugues = Abaixo Média 76,90% 0,200493 Q30 Seus Pais Incentivam Nao Faltar Aula = Não -> Escala Nota Portugues = Abaixo Média Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não 76,80% 0,1925957 sei, Q35 Trabalha Fora De Casa = Não -> Escala Nota Portugues = Abaixo Média 5. CONCLUSÕES O presente trabalho apresentou a simulação de um algoritmo para detecção de padrões de associação entre diferentes variáveis de um modelo. Cabe ressaltar que as tarefas de manipulação dos dados, visando à eliminação de inconsistências, limpeza de dados e transformação de atributos, com a conversão de atributos contínuos em discretos, foram essenciais para a execução do algoritmo e simulação propriamente dita. Sem essas atividades, não seria possível a geração de resultados com nível de confiabilidade satisfatório. Analisando a Tabela 4, é possível observar que alguns fatores, como falta de incentivo dos pais, reprovação prévia do aluno e atuação do aluno em trabalho doméstico e/ou em trabalho fora de casa, entre outros, exercem influência (negativa) sobre o aprendizado do estudante. O presente artigo, no entanto, não tem a pretensão de analisar esses fatores mais detalhadamente, cabendo essa tarefa para o futuro, preferencialmente contando com o apoio de educadores e especialistas na área de educação. O objetivo principal do presente trabalho foi demonstrar o potencial da mineração de dados e, mais especificamente, do algoritmo Apriori, utilizado para a identificação de associações entre diferentes variáveis do modelo. Trata-se de um trabalho inicial, que terá continuidade com a execução de outras simulações. Muitos outros atributos, além dos utilizados na simulação apresentada, poderão ser usados para a identificação de novas regras de associação relevantes. Outros arquivos, com dados de professores, diretores e escolas, também disponibilizados na base de dados do INEP/MEC, poderão ser utilizados para trabalhos futuros de mineração. Desse modo, será possível identificar também relações entre atributos referentes aos professores, aos diretores e as escolas, e o processo de ensino-aprendizagem dos estudantes. Evidentemente, tratamento semelhante em relação aos dados deverá ser efetuado nesses arquivos, com correção de inconsistências e transformações, antes da execução dos algoritmos. Agradecimentos O presente trabalho foi realizado com o apoio da CAPES e do INEP, por intermédio do Programa Observatório da Educação. XIV Encontro de Modelagem Computacional II Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM REFERÊNCIAS Elmasri, R., Navathe, S.B. 2011. Sistemas de banco de dados. São Paulo: Pearson Addison Wesley. Han, J., Kamber, M. 2006. Data Mining: Concepts and techniques. 2 ed. Morgan Kaufmann Publishers. Harinath, S., Matt, C., Meenakshisundaram, S., Zare, R. Lee, D.G. 2009. Professional Microsoft SQL Server Analysis Services 2008 with MDX. Wiley Publishing Inc. Hirji, K. 2001. Exploring data mining implementation. Communications of ACM, 44, n. 7, jul. 2001. INEP. 2009. Estudo exploratório sobre o professor brasileiro com base nos resultados do Censo Escolar da Educação Básica 2007. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Brasília: Inep, 2009. MacLennan, J., Crivat, B. 2008. Data Mining with Microsoft SQL Server 2008. Wiley Publishing Inc. Redman, T.C. 2001. Data Quality: The Field Guide. Digital Press. Tan, P., Steinbach, M., Kumar, V. 2009. Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda. Wang, R.Y., Ziad, M., Lee, Y.W. 2001. Data Quality. The Kluwer International Series on Advances in Database Systems, Vol. 23. Kluwer Academic Publishers. DATA MINING RELATED TO PORTUGUESE LANGUAGE LEARNING – AN INITIAL ANALISYS Abstract. This paper presents the use of Data Mining for knowledge discovery related to Portuguese language learning by students from elementary school in Rio de Janeiro – Brazil. The process of data cleaning and transformation is presented, which is the prerequisite to the execution of the association algorithm. Some first results are reported. Keywords: Knowledge Discovery, Data Mining, Apriori Algorithm