MINERAÇÃO DE DADOS RELACIONADOS AO

Propaganda
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
MINERAÇÃO DE DADOS RELACIONADOS AO APRENDIZADO
DE LÍNGUA PORTUGUESA – UM ESTUDO EXPLORATÓRIO
Anderson Amendoeira Namen – [email protected]
Universidade do Estado do Rio de Janeiro, Instituto Politécnico
Universidade Veiga de Almeida
Ana Carolina Soares e Soares – [email protected]
Universidade Veiga de Almeida
Resumo. O artigo apresenta o processo de mineração de dados aplicado para a identificação
de associações entre variáveis relacionadas ao ensino de Língua Portuguesa para alunos da
quarta série do ensino fundamental do Estado do Rio de Janeiro. São apresentadas as tarefas
de limpeza e tratamento dos dados, pré-requisito para a execução do algoritmo de
associação utilizado e são analisados os primeiros resultados obtidos no processo.
Palavras-chave: Descoberta de conhecimento, Mineração de dados, Algoritmo Apriori
1.
INTRODUÇÃO
Em 2007 foi lançado o Plano de Desenvolvimento da Educação (PDE), que define
uma série de metas a serem alcançadas, relacionadas ao fortalecimento da educação básica.
Um dos mecanismos que propiciam o acompanhamento das metas definidas pelo PDE é o
Censo Escolar da Educação Básica (INEP, 2009). Realizado anualmente, tem como principal
objetivo a organização de uma ampla base de dados sobre escolas, professores e alunos.
Também são realizadas avaliações em nível nacional (SAEB e Prova Brasil) visando coletar
indicadores das médias de desempenho dos alunos do ensino básico em Língua Portuguesa e
Matemática.
O presente trabalho apresenta os resultados iniciais referentes à mineração de dados
relacionados aos alunos da quarta série do ensino fundamental do Estado do Rio de Janeiro.
Segundo Hirji (2001), a mineração de dados efetua o casamento da Estatística com a
Inteligência Artificial, possibilitando a descoberta de relações ocultas em grandes repositórios
de dados e, a partir daí, a inferência de regras para previsão de comportamento futuro e
orientação na tomada de decisões.
O objetivo principal é descobrir, a partir do uso de modelos computacionais,
associações entre variáveis que caracterizam o perfil dos alunos e o nível de aprendizado de
língua portuguesa obtido por estes. Dessa forma, torna-se possível identificar características
que influenciem positivamente ou negativamente o processo de ensino-aprendizagem de
língua portuguesa.
O artigo apresenta, inicialmente, as bases de dados selecionadas, bem como o processo
desenvolvido para limpeza e transformação de dados, pré-requisito necessário para a
mineração. Os conceitos do algoritmo apriori, utilizado para a descoberta de associações
entre variáveis, são então apresentados, assim como a escolha dos parâmetros utilizados na
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
execução do algoritmo. Finalmente, é efetuada uma análise dos primeiros resultados obtidos,
seguida de algumas conclusões.
2.
BASES USADAS, LIMPEZA E TRANSFORMAÇÃO DOS DADOS
A cada dois anos, o Governo Federal realiza uma prova de língua portuguesa e
matemática, denominada Prova Brasil, para todos os alunos da quarta e oitava série do ensino
fundamental. Além da prova, os alunos respondem um questionário contendo diferentes
perguntas relacionadas ao seu perfil sócio-econômico. Professores e diretores de escolas
também respondem questionários relacionados ao seu perfil e ao da Instituição em que
trabalham. Todos esses dados são armazenados em diferentes arquivos, sendo que os últimos
dados disponibilizados pelo INEP referem-se à Prova Brasil do ano de 2007.
Os seguintes arquivos foram selecionados para o presente trabalho:
• TS_ALUNO (Identificação dos alunos juntamente com a proficiência em cada
disciplina);
• TS_QUEST_ALUNO (Resposta do questionário aplicado ao aluno de cada série);
As estruturas dos arquivos são apresentadas nas Tabelas 1 e 2.
Tabela 1 – Estrutura do arquivo TS_ALUNO
seq.
Atributo
Tipo
tam.
Descrição
1
2
ID_ALUNO
ID_TURMA
Num
Char
8
7
4
TX_HORARIO_INICIO
Char
5
5
TX_HORARIO_FINAL
Char
5
6
NU_QTD_ALUNO
Num
4
Código do Aluno na Prova Brasil
Código da Turma na Prova Brasil
Horário de Início da aula. As duas primeiras posições correspondem a hora e
as duas ultimas aos minutos.
Horário de Término da aula.As duas primeiras posições correspondem a hora e
as duas ultimas aos minutos.
Número de Alunos matriculados na turma
7
ID_SERIE
Num
1
Código da Série (4 – 4.ª série/5.º ano EF; 8 – 8.ª série / 9.º ano EF)
8
PK_COD_ENTIDADE
Num
8
Código da Escola
9
ID_DEPENDENCIA_ADM
Num
1
Código da Dependência Administrativa da Escola
10
ID_LOCALIZACAO
Num
1
Código da Localização da Escola
11
12
12
13
SIGLA_UF
COD_UF
NO_MUNICIPIO
COD_MUNICIPIO
Char
Num
Char
Num
2
2
50
7
14
ST_LINGUA_PORTUGUESA
Num
1
Sigla da Unidade da Federação
Código da Unidade da Federação
Nome do Município
Código do Município
Situação do Preenchimento da prova de Língua Portuguesa. O valor 0 indica
que a prova não foi preenchida pelo aluno, enquanto o valor 1 indica que a
prova foi preenchida.
15
ST_MATEMATICA
Num
1
16
NU_THETA_L
Num
8
17
NU_SETHETA_L
Num
8
18
NU_THETAT_L
Num
8
19
NU_SETHETAT_L
Num
8
Proficiência do aluno em Língua Portuguesa calculada na escala única do
SAEB, com média = 0 e desvio = 1 na população de referência
Desvio padrão da proficiência em Língua Portuguesa
Proficiência em Língua Portuguesa transformada na escala única do SAEB,
com média = 250, desvio = 50 (do SAEB/97).
Desvio padrão da proficiência transformada em Língua Portuguesa
20
NU_SETHETA_M
Num
8
Desvio padrão da proficiência em Matemática
Situação do Preenchimento da prova de Matemática
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
21
NU_THETAT_M
Num
8
22
NU_SETHETAT_M
Num
8
23
NU_THETA_M
Num
8
Proficiência do aluno em Matemática transformada na escala única do SAEB,
com média = 250, desvio = 50 (do SAEB/97)
Desvio padrão da proficiência transformada em Matemática
Proficiência do aluno em Matemática calculada na escala única do SAEB, com
média = 0 e desvio = 1 na população de referência
Tabela 2 – Estrutura do arquivo TS_QUEST_ALUNO
seq.
Atributo
Tipo
tam.
8
Descrição
Código do Aluno na Prova Brasil
1
Código da Série
Num
1
Código da Dependência
Administrativa da Escola
ID_LOCALIZACAO
Num
1
Código da Localização da Escola
SIGLA_UF
COD_UF
NO_MUNICIPIO
COD_MUNICIPIO
Char
Num
Char
Num
2
2
50
7
TX_RESP_QUESTIONARIO
Char
47
Sigla da Unidade da Federação
Código da Unidade da Federação
Nome do Município
Código do Município
Resposta para o Questionário do
Aluno
1
ID_ALUNO
2
ID_SERIE
3
ID_DEPENDENCIA_ADM
4
5
6
7
8
9
Num
Num
Código de Preenchimento
4 – 4.ª série/5.º ano EF
8 – 8.ª série / 9.º ano EF
1 – Federal
2 - Estadual
3 - Municipal
1 – Urbana
2 – Rural
Ver posição da resposta no
questionário
O escopo do presente trabalho envolve a análise dos dados dos alunos de língua
portuguesa da quarta série do ensino fundamental do Estado do Rio de Janeiro. Desse modo, o
primeiro processo realizado foi selecionar somente os alunos do Estado do Rio de Janeiro.
Assim, foram selecionados, dentre os registros existentes nos diferentes arquivos, apenas os
registros com o atributo SIGLA_UF igual ao valor “RJ” e o atributo ID_SERIE igual a 4.
Embora a maior parte das técnicas de mineração tolere algum nível de imperfeição nas
entradas, a melhoria da qualidade dos dados provê um grande aprimoramento nas análises
resultantes dos algoritmos de mineração. Alguns trabalhos, como o de Redman (2001) e
Wang et al. (2001) apresentam diferentes aspectos relacionados ao tratamento e garantia da
qualidade dos dados. Para o presente caso, foram realizadas algumas tarefas, tanto de limpeza,
quanto de transformação de dados. Estas foram fundamentais para a posterior execução dos
algoritmos de detecção de padrões de associações entre as variáveis existentes no modelo.
2.1 Eliminação dos dados inconsistentes
Como pode ser observado nas Tabelas 1 e 2, o atributo ID_ALUNO identifica cada aluno
e está presente nos arquivos TS_ALUNO e TS_QUEST_ALUNO. Conforme citado
anteriormente, o arquivo TS_ALUNO possui os dados da proficiência dos alunos, enquanto
TS_QUEST_ALUNO possui os dados das respostas aos questionários dos alunos. Desse
modo, identificou-se que todo registro com determinado ID_ALUNO existente em
TS_ALUNO deveria possuir um registro correspondente no arquivo TS_QUEST_ALUNO.
Caso isso não ocorresse, significava que o aluno possuía os dados referentes ao seu nível de
aprendizado, mas não possuía os dados do questionário aplicado, contendo seu perfil sócio
econômico. Foi realizado, então, um processo de exclusão dos registros de TS_ALUNO que
não possuíam registro com ID_ALUNO correspondente em TS_QUEST_ALUNO, resultando
na eliminação de 703 registros, de um total de 147873, permanecendo 147170 registros no
arquivo.
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
2.2 Criação de novos atributos a partir de atributos existentes
O
arquivo
TS_QUEST_ALUNO
possui
um
atributo
denominado
TX_RESP_QUESTIONARIO, que identifica as respostas ao questionário do aluno. O campo
é do tipo Char com 47 posições, sendo este o número de questões aplicadas ao aluno. Ou seja,
como esse campo é um string de tamanho 47, cada posição do campo corresponde à letra
referente à resposta de uma determinada questão. Exemplificando, a primeira posição do
string pode ser preenchida com os valores ‘A’ ou ‘B’, e corresponde à primeira pergunta
sobre o sexo do aluno, sendo a letra ‘A’ a resposta para o sexo masculino e ‘B’ para o sexo
feminino. A trigésima sexta posição do string, por sua vez, está ligada à questão de número 36
(“Quando você entrou na escola?”) e pode ser preenchida com os valores ‘A’, ‘B’, ‘C’ ou ‘D’,
que são as opções referentes às seguintes respostas, respectivamente: “No maternal (jardim de
infância).”; “Na pré-escola.”; “Na primeira série.”; “Depois da primeira série.”. Para acesso a
maiores detalhes, todos os questionários estão disponíveis no site do INEP, no endereço
www.inep.gov.br.
O objetivo do presente trabalho é a identificação de variáveis que possam influenciar
positiva ou negativamente a proficiência do aluno em língua portuguesa. Como o atributo
TX_RESP_QUESTIONARIO é representado por um string único, este não possui qualquer
representatividade, dentro dos objetivos de associação buscados. Assim, foi necessária a
divisão do atributo em tantos atributos quantos fossem os números de questões. No arquivo
TS_QUEST_ALUNO foram criados 47 atributos, todos do tipo Char de tamanho 1, cada um
deles identificando a resposta à pergunta correspondente aplicada no questionário do aluno.
Os atributos foram nomeados de acordo com os enunciados das questões. Por exemplo, o
novo atributo criado no arquivo TS_QUEST_ALUNO denominado Q1Sexo, corresponde à
primeira questão sobre o sexo do aluno. Ele foi preenchido com o valor contido na primeira
posição do string TX_RESP_QUESTIONARIO do arquivo TS_QUEST_ALUNO. O atributo
Q2RacaCor, preenchido com o valor da segunda posição do string, corresponde à raça/cor do
estudante, pergunta de número 2 do questionário, e assim sucessivamente.
A criação dos novos atributos possibilitou que todas as variáveis caracterizadoras do
perfil dos alunos ficassem disponíveis no modelo e pudessem ser usadas como entradas para o
algoritmo de mineração.
2.3 Transformação de atributos contínuos em discretos
A transformação de um atributo contínuo em um categórico é geralmente aplicada em
atributos que são usados na análise de classificação ou associação. Conforme mencionado por
Tan, Steinbach & Kumar (2009), alguns algoritmos de associação, caso do presente trabalho,
não podem ser aplicados com a utilização de atributos contínuos.
Para os arquivos aqui apresentados, a grande maioria dos atributos possui dados
discretos. Somente os dados relacionados à proficiência dos alunos (arquivo TS_ALUNO)
possuem atributos contínuos. Em particular, após análise detalhada do significado dos dados
contidos no arquivo TS_ALUNO, foi constatado que o atributo NU_THETAT_L era o mais
recomendado para ser utilizado nas análises. De acordo com o dicionário de dados do INEP
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
(vide www.inep.gov.br), esse campo contém o dado da proficiência em Língua Portuguesa de
cada aluno já transformada em uma escala única.
Na realidade, o atributo NU_THETAT_L foi mantido no arquivo, sendo criado um
novo atributo correspondente denominado EscalaNotaPortugues. Observou-se que a média
geral do atributo NU_THETAT_L possuía o valor de 178.82. Foram então criadas duas
categorias para o novo atributo EscalaNotaPortugues: “Abaixo Média” e “Acima Média”,
onde:
0 ≤ NU_THETAT_L < 178.82 => EscalaNotaPortugues = “Abaixo Média” e
NU_THETAT_L ≥ 178.82 => EscalaNotaPortugues = “Acima Média”
Além das duas categorias apresentadas, foi criada mais uma categoria denominada
“Não Fez”, para os alunos que não haviam feito a prova. Essa transformação foi feita para
todos os alunos que possuíam o atributo ST_LINGUA_PORTUGUESA igual a 0, indicando
que não haviam preenchido a prova (vide Tabela 1). Apesar desses alunos (ao todo 316) terem
o campo NU_THETAT_L preenchido com o valor 0, eles não poderiam ser categorizados na
faixa “Abaixo Média”. Se isso acontecesse, as informações utilizadas como base para o
algoritmo de associação ficariam inconsistentes, já que se tratavam de duas situações
completamente distintas (fazer a prova e ter aproveitamento igual a zero é uma situação
completamente diferente de não fazer a prova).
É importante ressaltar que os dados relativos à proficiência foram utilizados como
entrada para o algoritmo utilizado, já que um dos principais objetivos buscados era a
identificação de padrões de comportamento (ou perfis) associados ao nível de aprendizagem
obtido pelos alunos. Desse modo, a criação de uma variável discreta era pré-requisito
essencial para a aplicação do algoritmo de associação.
3.
DESCOBERTA DE ASSOCIAÇÕES ENTRE VARIÁVEIS
Essa seção apresenta a aplicação de uma metodologia conhecida como análise de
associação, útil para descobrir relacionamentos interessantes escondidos em grandes
conjuntos de dados. Os relacionamentos descobertos podem ser representados na forma de
regras de associação.
Uma regra de associação é uma expressão de implicação no formato X => Y (X implica
em Y), onde X = {x1, x2, ..., xn} e Y = { y1, y2, ..., yn } são conjuntos disjuntos de itens, isto é,
X ∩ Y = ϕ; X é o antecedente da regra (lado esquerdo) e Y é o consequente da regra (lado
direito) podendo envolver qualquer número de itens (atributos) em cada lado da regra. O
significado desta regra é que as transações da base de dados que contêm X tendem a conter Y.
A força de uma regra de associação pode ser medida em termos de duas métricas: o suporte e
a confiança.
O suporte determina a frequência com que um conjunto de itens X U Y ocorre. Ou seja,
o suporte é o percentual de transações que contêm todos os itens na qual uma regra é
aplicável. A confiança determina a frequência na qual os itens Y aparecem em transações que
contenham X. Em outras palavras, a confiança não trabalha com todas as transações, apenas
com as que possuem o antecedente da regra. Para uma determinada regra X => Y, quanto
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
maior a confiança, maior a probabilidade de que Y esteja presente em transações que
contenham X.
As definições formais dessas medidas são:
Suporte = S(X =>Y) =
O( X ∪ Y )
N
Confiança = C(X =>Y) =
(1)
O( X ∪ Y )
O( X )
(2)
onde: O ( X ∪ Y ) é o número total de ocorrências de registros contendo os itens X e Y
O(X) é o número total de ocorrências de registros contendo X
N é o numero total de registros
Outra medida, denominada fator de interesse (também chamada de importância ou
lift), deve ser usada para evitar uma situação cunhada como armadilha de confiança. O
exemplo listado a seguir, retirado de Tan, Steinbach & Kumar (2009), mostra que mesmo
valores significativos de confiança podem não identificar uma regra relevante. A Tabela 3
mostra uma situação onde se busca analisar o relacionamento entre pessoas que bebam chá e
café.
Tabela 3 – Preferências de bebida em um grupo de 1000 pessoas
Bebe chá
Não bebe chá
Totais
Bebe café
150
650
800
Não bebe café
50
150
200
Totais
200
800
1000
Analisando a regra Bebe chá => Bebe café, poderíamos, em um primeiro momento,
considerá-la relevante, já que seus valores de suporte (15%) e confiança (75%) são
relativamente altos. Este argumento pode ser contraposto quando se percebe que 80% do
número total de pessoas bebe café, número superior ao das pessoas que bebem chá e café. Ou
seja, apesar do valor da confiança da regra Bebe chá => Bebe café ser alto (75%), a regra, no
entanto, é ilusória. O fato de uma pessoa beber chá, na realidade, diminui a possibilidade de
que beba café de 80 para 75 por cento.
O fator de interesse é uma medida que provê informação adicional, evitando situações
enganosas, como a mencionada acima. O fator de interesse de uma regra é calculado a partir
da seguinte fórmula:
P (Y | X )
Fator de Interesse = I(X =>Y) = log
(3)
P (Y | not X )
(
)
onde P(Y | X) é a probabilidade de Y ocorrer quando X ocorre e P(Y | not X), é a
probabilidade de Y ocorrer quando X não ocorre.
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
Um fator de interesse igual a 0 significa que não há associação entre X e Y. Fatores de
interesse positivos indicam que Y tenderá a crescer caso X seja verdadeiro. Valores negativos,
por sua vez, indicam que o antecedente X afeta negativamente o consequente Y, ou seja, a
regra não é relevante.
O objetivo da mineração de regras de associação é gerar todas as regras possíveis que
excedam alguns patamares mínimos de suporte e de confiança especificados pelo usuário. O
problema, portanto, é decomposto em dois subproblemas:
1. Gerar todos os conjuntos de itens que possuem suporte maior do que um limite
mínimo definido pelo usuário. Esses conjuntos são chamados de conjuntos de itens
frequentes;
2. Para cada conjunto de itens frequentes, gerar todas as regras que possuem
confiança maior que um valor de confiança mínimo.
Para tratar esses subproblemas foi utilizado o algoritmo Apriori. O algoritmo realiza a
mineração em dois passos. No primeiro, é feita uma varredura sobre o arquivo de entrada, a
fim de gerar todos os conjuntos de combinações de itens que satisfaçam um valor maior do
que o suporte mínimo especificado pelo usuário. No segundo, são extraídas todas as regras de
alta confiança dos conjuntos gerados. Estas regras são chamadas de regras fortes. Detalhes do
algoritmo, inclusive com apresentação de variações do respectivo pseudocódigo, podem ser
encontrados em Han & Kamber (2006), Tan, Steinbach & Kumar (2009) e Elmasri & Navathe
(2011).
Mais especificamente, foi utilizado o algoritmo denominado Microsoft Association
Rules, uma implementação do algoritmo Apriori, disponibilizada dentro do ambiente do
Sistema Gerenciador de Banco de Dados SQL Server 2008 da Microsoft, ambiente para o qual
os arquivos foram importados em formato de tabelas de banco de dados. Maiores detalhes da
ferramenta e dos algoritmos de mineração disponibilizados por ela podem ser encontrados em
Harinath et al. (2009) e MacLennan & Crivat (2008).
4.
SIMULAÇÃO E GERAÇÃO DE RESULTADOS
Um número limitado de atributos foi selecionado para a execução do algoritmo de
mineração. O objetivo foi identificar relacionamentos entre a proficiência do aluno, sua faixa
etária, período em que entrou na escola, grau de escolaridade dos pais, incentivos dos pais em
relação à frequência na escola, atividades do aluno como trabalho doméstico ou fora de casa,
e se este já havia sido reprovado (atributos EscalaNotaPortugues, Q4Idade,
Q36QndEntrouNaEscola,
Q19SerieMaeOuResponsavelEstudou,
Q23SeriePaiOuResponsavelEstudou,
Q30SeusPaisIncentivamNaoFaltarAula,
Q34EmDiaAulaQntTempoTrabalhoDomestico,
Q35TrabalhaForaDeCasa,
Q38JaFoiReprovado). A escala da nota de português foi definida como atributo para
previsão, ou seja, o atributo a ser identificado como consequente das regras geradas pelo
algoritmo.
Os atributos selecionados possuem relação direta com as respostas aos questionários
dos alunos da quarta série do ensino fundamental do Estado do Rio, bem como com os
resultados no exame de proficiência em Língua Portuguesa, conforme mencionado na
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
Seção 2. Foram definidos parâmetros de entrada relacionados ao suporte e confiança mínimos
desejados para obtenção de regras, com os seguintes valores:
• Suporte Mínimo = 0,5%;
• Confiança Mínima = 75%.
Cabe ressaltar que a escolha de um valor pequeno para o suporte mínimo visou
possibilitar a identificação de combinação de itens (atributos) que, apesar de não tão
frequentes, pudessem ter grande relevância (ou seja, confiança e fator de interesse altos).
Como o volume de dados envolvido é grande (147170 registros de alunos), o uso de um
percentual mínimo de suporte de 0.5% permite a identificação de regras relacionadas a um
número ainda significativo de estudantes contendo perfil semelhante.
Após a simulação, foram geradas 45 regras, todas elas contendo valores do fator de
interesse maiores do que 0, ou seja, sendo identificadas como regras relevantes. As primeiras
20 regras, ordenadas decrescentemente pela confiança, são apresentadas na Tabela 4, que
contêm, além da regra, os respectivos valores de confiança e fator de interesse. Como pode
ser observado na tabela, as variáveis que compõem o antecedente da regra são precedidas pelo
sinal ->, sendo a variável EscalaNotaPortugues o seu consequente.
Tabela 4 – Regras de Associação geradas
Confiança
Fator de
Interesse
Regra
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q4 Idade = 12 anos -> Escala Nota Portugues =
83,70% 0,2294677 Abaixo Média
82,70%
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q35 Trabalha Fora De Casa = Sim -> Escala
0,225192 Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q38 Ja Foi Reprovado = Sim, uma vez -> Escala
82,60% 0,2257504 Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q23 Serie Pai Ou Responsavel Estudou = Completou a 8ª
série, mas não completou o Ensino Médio( antigo 2º grau), Q38 Ja Foi Reprovado = Sim, uma vez 81,30% 0,2165584 > Escala Nota Portugues = Abaixo Média
Q4 Idade = 13 anos, Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez ->
80,70% 0,2136312 Escala Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q19 Serie Mae Ou Responsavel Estudou = Completou a 8ª
série, mas não completou o Ensino Médio( antigo 2º grau), Q38 Ja Foi Reprovado = Sim, uma vez 80,10% 0,2100054 > Escala Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q38 Ja Foi Reprovado = Sim, uma vez, Q35
79,70% 0,2086639 Trabalha Fora De Casa = Não -> Escala Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q36 Qnd Entrou Na Escola = Na Pré- escola, Q38 Ja Foi
79,30% 0,2063325 Reprovado = Sim, uma vez -> Escala Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q34 Em Dia Aula Qnt Tempo Trabalho Domestico = 2 horas,
79,00% 0,2045466 Q38 Ja Foi Reprovado = Sim, uma vez -> Escala Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q36 Qnd Entrou Na Escola = Na Pré- escola ->
78,60% 0,2025701 Escala Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não
78,20% 0,2015946 sei -> Escala Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q36 Qnd Entrou Na Escola = Na Pré- escola, Q38 Ja Foi
Reprovado = Sim, uma vez, Q30 Seus Pais Incentivam Nao Faltar Aula = Sim -> Escala Nota
77,80% 0,1978884 Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não
77,80% 0,1984247 sei, Q23 Serie Pai Ou Responsavel Estudou = Não sei -> Escala Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q36 Qnd Entrou Na Escola = Na primeira série 77,50% 0,1963756 > Escala Nota Portugues = Abaixo Média
77,40% 0,1962752 Q4 Idade = 14 anos, Q35 Trabalha Fora De Casa = Sim -> Escala Nota Portugues = Abaixo Média
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez -> Escala Nota
77,40% 0,2038172 Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q19 Serie Mae Ou Responsavel Estudou = Completou a 4ª
série, mas não completou a 8ª série( antigo ginásio), Q38 Ja Foi Reprovado = Sim, uma vez ->
77,40% 0,1955217 Escala Nota Portugues = Abaixo Média
Q35 Trabalha Fora De Casa = Sim, Q38 Ja Foi Reprovado = Sim, uma vez, Q19 Serie Mae Ou
76,90% 0,1939155 Responsavel Estudou = Não sei -> Escala Nota Portugues = Abaixo Média
76,90%
0,200493 Q30 Seus Pais Incentivam Nao Faltar Aula = Não -> Escala Nota Portugues = Abaixo Média
Q30 Seus Pais Incentivam Nao Faltar Aula = Não, Q19 Serie Mae Ou Responsavel Estudou = Não
76,80% 0,1925957 sei, Q35 Trabalha Fora De Casa = Não -> Escala Nota Portugues = Abaixo Média
5.
CONCLUSÕES
O presente trabalho apresentou a simulação de um algoritmo para detecção de padrões de
associação entre diferentes variáveis de um modelo. Cabe ressaltar que as tarefas de
manipulação dos dados, visando à eliminação de inconsistências, limpeza de dados e
transformação de atributos, com a conversão de atributos contínuos em discretos, foram
essenciais para a execução do algoritmo e simulação propriamente dita. Sem essas atividades,
não seria possível a geração de resultados com nível de confiabilidade satisfatório.
Analisando a Tabela 4, é possível observar que alguns fatores, como falta de incentivo
dos pais, reprovação prévia do aluno e atuação do aluno em trabalho doméstico e/ou em
trabalho fora de casa, entre outros, exercem influência (negativa) sobre o aprendizado do
estudante. O presente artigo, no entanto, não tem a pretensão de analisar esses fatores mais
detalhadamente, cabendo essa tarefa para o futuro, preferencialmente contando com o apoio
de educadores e especialistas na área de educação.
O objetivo principal do presente trabalho foi demonstrar o potencial da mineração de
dados e, mais especificamente, do algoritmo Apriori, utilizado para a identificação de
associações entre diferentes variáveis do modelo. Trata-se de um trabalho inicial, que terá
continuidade com a execução de outras simulações. Muitos outros atributos, além dos
utilizados na simulação apresentada, poderão ser usados para a identificação de novas regras
de associação relevantes.
Outros arquivos, com dados de professores, diretores e escolas, também disponibilizados
na base de dados do INEP/MEC, poderão ser utilizados para trabalhos futuros de mineração.
Desse modo, será possível identificar também relações entre atributos referentes aos
professores, aos diretores e as escolas, e o processo de ensino-aprendizagem dos estudantes.
Evidentemente, tratamento semelhante em relação aos dados deverá ser efetuado nesses
arquivos, com correção de inconsistências e transformações, antes da execução dos
algoritmos.
Agradecimentos
O presente trabalho foi realizado com o apoio da CAPES e do INEP, por intermédio do
Programa Observatório da Educação.
XIV Encontro de Modelagem Computacional
II Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ), Campus Regional da UERJ, Nova Friburgo/RJ, Brasil. 22-24 nov. 2011.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
REFERÊNCIAS
Elmasri, R., Navathe, S.B. 2011. Sistemas de banco de dados. São Paulo: Pearson Addison
Wesley.
Han, J., Kamber, M. 2006. Data Mining: Concepts and techniques. 2 ed. Morgan Kaufmann
Publishers.
Harinath, S., Matt, C., Meenakshisundaram, S., Zare, R. Lee, D.G. 2009. Professional
Microsoft SQL Server Analysis Services 2008 with MDX. Wiley Publishing Inc.
Hirji, K. 2001. Exploring data mining implementation. Communications of ACM, 44, n. 7, jul.
2001.
INEP. 2009. Estudo exploratório sobre o professor brasileiro com base nos resultados do
Censo Escolar da Educação Básica 2007. Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira. Brasília: Inep, 2009.
MacLennan, J., Crivat, B. 2008. Data Mining with Microsoft SQL Server 2008. Wiley
Publishing Inc.
Redman, T.C. 2001. Data Quality: The Field Guide. Digital Press.
Tan, P., Steinbach, M., Kumar, V. 2009. Introdução ao Data Mining – Mineração de Dados.
Rio de Janeiro: Editora Ciência Moderna Ltda.
Wang, R.Y., Ziad, M., Lee, Y.W. 2001. Data Quality. The Kluwer International Series on
Advances in Database Systems, Vol. 23. Kluwer Academic Publishers.
DATA MINING RELATED TO PORTUGUESE
LANGUAGE LEARNING – AN INITIAL ANALISYS
Abstract. This paper presents the use of Data Mining for knowledge discovery related to
Portuguese language learning by students from elementary school in Rio de Janeiro – Brazil.
The process of data cleaning and transformation is presented, which is the prerequisite to the
execution of the association algorithm. Some first results are reported.
Keywords: Knowledge Discovery, Data Mining, Apriori Algorithm
Download