01-TC-PAULO HENRIQUE DE FREITAS - CCET

Propaganda
UNIVERSIDADE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
PAULO HENRIQUE DE FREITAS
Aplicação de ferramentas de mineração em dados acadêmicos,
com o apoio computacional do software R.
Anápolis
Janeiro, 2015
UNIVERSIÚDE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
PAULO HENRIQUE DE FREITAS
Aplicação de ferramentas de mineração em dados acadêmicos,
com o apoio computacional do software R.
Monografia apresentado ao Departamento de Sistemas de Informação da Unidade Universitária
de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás, como requisito parcial
para obtenção do grau de Bacharel em Sistemas de Informação.
Orientador: Prof. Emerson Wruck
Anápolis
Janeiro, 2015
FICHA CATALOGRÁFICA
FREITAS, Paulo Henrique.
Aplicação de Ferramentas de Mineração em dados Acadêmicos, com o apoio Computacional do
Software R. [Anápolis] 2014.
(UEG / UnUCET, Bacharelado em Sistemas de Informação, 2014).
Monografia, Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e
Tecnológicas. Departamento de Sistemas de Informação.
1. Mineração de Dados 2. Análise de Agrupamento
3. Dados Educacionais 4. Gower
REFERÊNCIA BIBLIOGRÁFICA
FREITAS, Paulo Henrique. Aplicação de Ferramentas de Mineração em dados
Acadêmicos, com o apoio Computacional do Software R. Anápolis, 2014. p. Monografia –
Curso de Sistemas de Informação, UnUCET, Universidade Estadual de Goiás.
CESSÃO DE DIREITOS
NOME DO AUTOR: Paulo Henrique de Freitas
TÍTULO DO TRABALHO: Aplicação de Ferramentas de Mineração em dados acadêmicos,
com o apoio Computacional do Software R.
GRAU/ANO: Graduação /2014.
É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste trabalho
ou emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor reserva
outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida sem a
autorização por escrito do autor.
Paulo Henrique de Freitas
Rua Cruzeiro do Sul Quadra 28 Lote 24 Jardim Alvorada
CEP 75.104-390– Anápolis – GO – Brasil
AGRADECIMENTOS
A todos os amigos, colegas e professores que ajudaram de alguma forma para a
realização desde trabalho, especialmente ao meu orientador que me acompanhou em todas as
etapas enriquecendo o conteúdo do trabalho com sua vasta experiência.
Aos colegas que cursam o primeiro ano do curso que gentilmente responderam o
questionário proposto.
A todos, os meus sinceros agradecimentos.
LISTA DE ILUSTRAÇÕES
Figura 1 – Etapas do processo KDD. (FAYYAD, 1996) ...................................... .............9
Figura 2 – Mineração de Dados como uma confluência de muitas disciplinas. (TAN;
STEINBACH & KUMAR, 2009) .................................................................................... 11
Figura 3 – Exemplo de Árvore de Decisão ......... ......................................................... ....13
Figura 4 – Armazenamento de distâncias entre 4 elementos (MINGOTI, 2005) ......... ....20
Figura 5 – Procedimentos hierárquicos aglomerativos e divisivos (MINGOTI, 2005) .. ..24
Figura 6 – Um agrupamento hierárquico de quatro pontos mostrado como um dendograma e
como grupos aninhados. (TAN; STEINBACH & KUMAR (2009) ................ ................25
Figura 7 – Tela inicial do R ...............................................................................................31
Figura 8 – Tela versão do R ......................................................................... .....................31
Figura 9 – Menu Ajuda .............................................................................. .......................32
Figura 10 – Exemplo de utilização do comando help() ................................. ...................32
Figura 11 – Exemplo de carregamento de pacote “rpart”............................... .. ................33
Figura 12 – Exemplo de um Objeto ............................................................. .... ................34
Figura 13 – Exemplo de um Vetor ................................................................. .... ..............35
Figura 14 – Carregar e Salvar base de dados ......................................................... ...........36
Figura 15 – Exemplo do Comando names().............................................. ........... .............36
Figura 16 – Comando de geração do Dendograma ............................................ ..... .........37
Figura 17 – Comando e Gráfico do Boxplot ............................................ ............... .........37
Figura 18 – Comando e Gráfico do Barplot ............................................ ................ .........38
Figura 19 – Saída do comando Summary() para idade ...................... ........ .......................39
Figura 20 – Saída do comando Table() para sexo ............................... ...... .......................40
Figura 21 – Saída do comando Table() para escola ............................................. .............40
Figura 22 – Saída do comando Table() para período ............................. ......... .................41
Figura 23 – Saída do comando Summary() e Table() para ano de conclusão do ensino médio
...... .................................................................................................................................. ...41
Figura 24 – Saída do comando Table() para a forma de ingresso no curso ...................... 42
Figura 25 – Saída do comando Summary() para a nota de ingresso .................................. 42
Figura 26 – Saída do comando Table() para listar os alunos repetentes ........................... 43
Figura 27 – Saída do comando Table() para listar quantos já iniciaram outro curso superior
........................................................................................................................................... 43
Figura 28 – Saída do comando Table() para listar quantos vivem com cônjuge............... 44
Figura 29 – Saída do comando Table() para listar quantos residem em outra cidade ....... 44
Figura 30 – Saída do comando Table() para o quesito trabalho ........................................ 45
Figura 31 – Saída do comando Summary() para o quesito prática de atividade física ...... 45
Figura 32 – Saída do comando Summary() para o quesito lazer ....................................... 45
Figura 33 – Saída do comando Table() para a escolaridade dos pais ................................ 46
Figura 34 – Saída do comando Table() para o quesito se moram com os pais ................. 46
Figura 35 – Saída do comando Table() para o quesito se os pais vivem juntos ................ 47
Figura 36 – Saída do comando Table() para a renda familiar ........................................... 48
Figura 37 – Saída do comando Summary() para horas de estudo fora da universidade .... 48
Figura 38 – Saída do comando Summary() para o entendimento do curso ....................... 48
Figura 39 – Saída do comando Summary() para o entendimento da matéria de cálculo ... 49
Figura 40 – Dendograma gerado pelo software R ........................................... ... ..............49
Figura 41 – Resultado dos coeficientes gerados pelo software R ..................................... 51
Figura 42 – Desempenho dos grupos na 1º VA ...................................................... ..........51
Figura 43 – Desempenho dos grupos na 2º VA ...................................................... ..........52
Figura 44 – Desempenho dos grupos na 3º VA ...................................................... ..........53
Figura 45 – Número de alunos evadidos por grupo ............................................... ..........54
LISTA DE TABELAS
Tabela 1 – Medidas de Distância (Dissimilaridade). ....................................................... ..19
Tabela 2 – Tabela de Coincidência e Divergência para Cálculo dos Coeficientes ........... 21
Tabela 3 – Coeficientes usuais de Similaridade ............................................................. ...21
Tabela 4 – Operações Lógicas do R ................... ............................. .................................34
Tabela 5 – Média geral dos grupos nas V.A. ................................... .................................52
LISTA DE QUADROS
Quadro 1 – Algoritmo de Agrupamento Hierárquico Aglomerativo Básico ................... ..25
Quadro 2 – Descrição dos Grupos Identificados ............................................................... 50
LISTA DE ABREVIATURAS E SIGLAS
Siglas
Descrição
EDM
Mineração de Dados Educacionais
IA
Inteligência Artificial
IBM
International Business Machines
KDD
Knowledge Discovery in Databases
SAS
Sistema de Avaliação Seriado
SSE
Soma do erro quadrado
UEG
Universidade Estadual de Goiás
UnUCET
Unidade de Ciências e Exatas e Tecnologias
V.A.
Verificação Avaliativa
RESUMO
Neste trabalho foi proposto a utilização da mineração de dados para a descoberta de
conhecimento em base de dados educacionais, trabalhando especificamente com a técnica de
análise de agrupamento, afim de conseguir descobrir padrões nas características
socioeconômicas dos acadêmicos que estão relativamente correlacionadas a evasão e
reprovação. Os dados obtidos através de questionário aplicado aos acadêmicos são compostos
de variáveis quantitativas e qualitativas. Para a construção da matriz de similaridade foi
utilizado o método de Gower (1971) que combina os dois tipos de variáveis simultaneamente.
A fundamentação teórica é fundamentada principalmente nos autores Mingoti (2005) e Tan,
Steinbach e Kumar (2009) que descrevem os diferentes tipos de agrupamento possíveis. Foram
identificados 4 grupos de alunos com características diferentes entre os grupos e parecidos
dentro dos grupos. Os coeficientes aglomerativo e cofenético, apresentaram os valores de 0.83
e 0.94 respectivamente, caracterizando um bom agrupamento. As características mais
relevantes no grupo que apresentou melhor desempenho foram: estudo em escola particular e
maior tempo de estudo fora da universidade, e para o pior desempenho: pouco tempo de estudo
fora da universidade e possuir um trabalho. Os resultados obtidos podem servir de subsídio para
a adoção de medidas de apoio direcionadas a grupos específicos de acadêmicos com fim de
diminuir a taxa de evasão e reprovação que atualmente na instituição de ensino é bastante alta.
Palavras-chave: Mineração de dados, Análise de agrupamento, Dados educacionais, Método de
Gower.
ABSTRACT
This work proposes the use of data mining for knowledge discovery in educational database,
working specifically with the cluster analysis technique in order to achieve discover patterns in
the socioeconomic characteristics of students that are relatively correlated to evasion and
failure. The data obtained from a applied questionnaire to the academics is composed of
quantitative and qualitative variables. For the construction of the similarity matrix the used
method was from Gower (1971), which combines the two types variables simultaneously. The
theoretical framework is mainly based on the authors Mingoti (2005) and Tan, Steinbach and
Kumar (2009) that describes the different types of possible grouping. It was identified four
groups of students with different characteristics between groups and alike within groups. The
agglomerative and cofenetic coefficients showed values of 0.83 and 0.94 respectively, featuring
a good clustering. The most prominent features in the group with the best performance were:
private school studying and longer study outside the university, and the worst performance: low
schooling outside the university and having a job. The results can serve as a basis for the
adoption of support measures aimed at specific groups of academics in order to reduce the
dropout and failure rates that currently at the educational institution are quite high.
Key-Words: Data-mining, Cluster Analysis, Educational Data, Gower’s Method.
SUMÁRIO
INTRODUÇÃO ........................................................................................................................ 1
CAPÍTULO 1 – DESENHO TEÓRICO E METODÓLOGO DA PESQUISA .................. 3
1.1 Problema da pesquisa ........................................................................................................... 3
1.2 Hipótese ................................................................................................................................ 3
1.3 Objetivo Geral ...................................................................................................................... 3
1.4 Objetivos Específicos da Pesquisa ....................................................................................... 4
1.5 Tipos de Pesquisa ................................................................................................................. 4
1.6 Universo e Amostra .............................................................................................................. 4
1.7 Instrumentos e procedimentos de coleta de dados ............................................................... 4
1.8 Tratamento dos dados ........................................................................................................... 5
CAPÍTULO 2 - INTRODUÇÃO AO DATA MINING (MINERAÇÃO DE DADOS) ....... 6
2.1 Introdução ............................................................................................................................. 6
2.2 Dados .................................................................................................................................... 7
2.3 Base dados ............................................................................................................................ 7
2.4 Tipos de variáveis ................................................................................................................. 7
2.5 O que é mineração de dados? ............................................................................................... 8
2.6 Mineração de dados e Descoberta de conhecimento (KDD) ................................................ 9
2.7 As origens da mineração de dados ..................................................................................... 10
2.8 Tarefas de Mineração de Dados ......................................................................................... 11
2.9 Técnicas de Mineração de Dados ....................................................................................... 12
2.9.1 Classificação .................................................................................................................... 12
2.9.2 Árvores de Decisão .......................................................................................................... 12
2.9.3 Classificadores Bayesianos.............................................................................................. 13
2.9.4 Rede Neural Artificial (ANN) ......................................................................................... 13
2.9.5 Análise Associativa ......................................................................................................... 13
2.9.6 O Princípio Apriori .......................................................................................................... 14
2.9.7 Análise de Grupos ........................................................................................................... 14
CAPÍTULO 3 – ANÁLISE DE AGRUPAMENTO............................................................. 16
3.1 Introdução ........................................................................................................................... 16
3.2 Diferentes Tipos de Agrupamento ...................................................................................... 16
3.3 Distâncias e Coefientes de Similaridade ............................................................................ 17
3.3.1 Medidas de Distância (Dissimilaridades) ........................................................................ 18
3.3.2 Matriz de Distância .......................................................................................................... 19
3.3.3 Coeficientes de Similaridades ......................................................................................... 20
3.3.4 Coeficiente de Gower ...................................................................................................... 22
3.5 Técnicas de Agrupamento .................................................................................................. 23
3.5.1 Técnicas Hierárquicas ..................................................................................................... 24
3.5.1.1 Algoritmo de Agrupamento Hierárquico Aglomerativo Básico................................... 25
3.5.1.2 Método de Ligação Simples ........................................................................................ 26
3.5.1.3 Método de Ligação Completa...................................................................................... 27
3.5.1.4 Considerações sobre o Agrupamento Hierárquico Aglomerativo ................................ 28
3.5.1.5 Métodos de validação do Agrupamento ....................................................................... 28
3.5.1.5.1 Coeficiente de Correlação Cofenética ....................................................................... 29
3.5.1.5.2 Coeficiente Aglomerativo.......................................................................................... 29
CAPÍTULO 4 – INTRODUÇÃO AO SOFTWARE R ....................................................... 30
4.1 Introdução ........................................................................................................................... 30
4.2 Instalação do R ................................................................................................................... 30
4.3 Começar a usar o R ............................................................................................................. 30
4.4 Ajuda sobre o R .................................................................................................................. 32
4.5 “Packages” do R ................................................................................................................. 33
4.6 Objetos ................................................................................................................................ 33
4.7 Operadores .......................................................................................................................... 34
4.8 Tipos de Variáveis .............................................................................................................. 34
4.9 Vetores ................................................................................................................................ 35
4.10 Carregar base de dados ..................................................................................................... 36
4.11 Gráficos ............................................................................................................................ 36
4.11.1 Dendograma .................................................................................................................. 36
4.11.2 BoxPlot .......................................................................................................................... 37
4.11.3 BarPlot ........................................................................................................................... 38
CAPÍTULO 5 – ESTUDO DE CASO ................................................................................... 39
5.1 Introdução ........................................................................................................................... 39
5.2 Análise descritiva dos dados............................................................................................... 39
5.3 Dendograma ....................................................................................................................... 49
5.4 Descrição dos Grupos ......................................................................................................... 50
5.5 Avaliação do Agrupamento ................................................................................................ 51
5.6 Grupos x Desempenho ....................................................................................................... 51
5.7 Grupos x Evasão ................................................................................................................. 54
CONCLUSÃO......................................................................................................................... 55
REFERÊNCIAS ..................................................................................................................... 56
APÊNDICES ........................................................................................................................... 58
Apêndice A – Cronograma .................................................................................................... 58
Apêndice B – Questionário .................................................................................................... 60
Apêndice C – Comandos Utilizados no Software R ............................................................ 62
Apêndice D – Pôster Comunicação Científica ..................................................................... 63
1
INTRODUÇÃO
Atualmente, a sociedade vive em uma era informatizada onde diferentes sistemas
de informação são de suma importância para as organizações, pois somente através deles é
possível fazer um gerenciamento completo e detalhado de toda a organização. Logo, são
geradas enormes bases de dados, normalmente não integradas, que contém informações
fundamentais para o conhecimento das organizações, mas que por seu tamanho e ou formato,
impõem dificuldades na geração de conhecimento.
Assim, surgiu a necessidade da mineração de dados, que trata-se de ferramentas de
análise de dados mais complexas que unem as técnicas tradicionais com algoritmos sofisticados
podendo trabalhar com extensas bases de dados.
Na matéria de Cálculo Diferencial e Integral do curso de Sistemas de Informação
da UnUCET – Unidade de Ciências Exatas e Tecnológicas foi identificado, através do histórico
da disciplina, uma grande taxa de reprovação e evasão. No último ano, por exemplo, apenas
32.65% dos alunos que iniciaram a disciplina foram aprovados, o que preocupa de forma
significativa a coordenação do curso. Com o intuito de identificar as causas do problema,
propõe-se a aplicação de técnicas de mineração na base de dados dos acadêmicos do curso
matriculados na disciplina no ano letivo de 2014. A partir de dados socioeconômicos e de
desempenho do acadêmico durante o ano será feita uma análise de agrupamento, que assim é
definida por Mingoti (2005):
A análise de agrupamentos, também conhecida como análise de
conglomerados, classificação ou clusters, tem como objetivo dividir os
elementos da amostra, ou população, em grupos de forma que os elementos
pertencentes a um mesmo grupo sejam similares entre si com respeito com
respeito ás variáveis (características) que neles foram medidas e os elementos
em grupos diferentes sejam heterogêneos em relação a estas mesmas
características (MINGOTI, 2005, p.155).
A análise de agrupamento, ou análise de conglomerado, que também pode ser
encontrada em outras literaturas como análise de clusters, já vem sendo utilizada há bastante
tempo por diversas áreas devido a sua extensa abrangência.
Por exemplo, na medicina, uma doença ou condição possui frequentemente uma
quantidade de variantes, e a análise de agrupamento pode ser usada para identificar essas
diferentes subcategorias. No clima, compreender o clima da Terra requer encontrar padrões na
atmosfera e no oceano, para este fim, a análise de agrupamento tem sido aplicada para encontrar
2
padrões na pressão atmosférica de regiões polares e áreas do oceano que tem um impacto
significativo sobre o clima da Terra.
Assim, através da análise de agrupamento serão identificados grupos de acadêmicos
socioeconomicamente semelhantes e será realizado o acompanhamento do seu respectivo
desempenho. Afim de conseguir identificar características socioeconômicas que estejam
diretamente relacionadas ao baixo desempenho e a evasão, com esses dados em mãos, no
próximo ano será possível facilmente identificar os acadêmicos pertencentes ao grupo de risco
e dessa forma, auxiliar no planejamento estratégico do curso, que tem como foco melhorar o
desempenho acadêmico dos alunos ingressantes. Com os resultados desse estudo os gestores
poderão sugerir o direcionamento dos respectivos grupos previamente a coordenação
pedagógica para que sejam aplicadas medidas preventivas na tentativa de melhoria do
desempenho e a diminuição da evasão.
Os dados iniciais foram coletados através de questionário aplicado em sala com
participação dos acadêmicos matriculados no curso de Cálculo Diferencial e Integral no ano de
2014.
Para o auxílio da ferramenta de mineração de dados foi utilizado o software R que
é desenvolvido por “The R Foundation for Statistical Computing” e disponibilizado de
forma gratuita. Este programa consiste em um pacote integrado de softwares para facilitar o
trabalho com dados, cálculos e exibição de gráficos. As ferramentas incluem um gerenciador
de dados e armazenamento, operadores para cálculos em exibições (matrizes em particular),
uma coleção de ferramentas para análise de dados, facilidades para exibição de dados e recursos
de programação para os usuários avançados.
O principal motivo pela escolha do tema foi sua abrangência de aplicações, e sua
utilidade prática. A descoberta de informação em bases de dados que antes só eram
armazenadas para histórico, pode proporcionar enormes ganhos para as organizações,
proporcionando um maior conhecimento sobre a organização em si e consequentemente
possibilitando uma maior especialização e o desenvolvimento de políticas gerenciais para
otimizar os resultados.
3
CAPÍTULO 1 – DESENHO TEÓRICO E METODÓLOGO DA PESQUISA
1.1 Problema da pesquisa
Devido ao histórico de alto índice de evasão e reprovação na disciplina de Cálculo
– Diferencial e Integral no curso de Sistemas de Informação foi identificada a necessidade de
realizar um estudo que possa ajudar a diminuir esses índices, contribuindo assim para a
formação de mais alunos no curso.
Assim, o estudo visou através de ferramentas de mineração de dados, construir
agrupamentos de alunos semelhantes com base nas características socioeconômicas e avaliar o
desempenho desses, visando identificar nos grupos as respectivas características que podem
estar ligadas ao baixo desempenho e evasão. Dessa forma, os padrões encontrados serão
disponibilizados a coordenação pedagógica, de maneira que no início de novas turmas possam
ser identificados alunos com características similares, viabilizando que medidas de prevenção
sejam aplicadas de forma mais eficiente.
1.2 Hipótese
A identificação de grupos de alunos com características socioeconômicas
semelhantes que baseado no desempenho durante o ano tem maiores chances de evasão e
reprovação no curso.
1.3 Objetivo Geral
Identificar através da utilização de técnicas de mineração de dados, grupos de
alunos com características socioeconômicas semelhantes e relacionar esses grupos com as taxas
de evasão e reprovação com apoio computacional do software R à partir das ferramentas de
análise de agrupamento disponíveis.
4
1.4 Objetivos Específicos da Pesquisa
 Realizar revisão bibliográfica sobre técnicas de mineração de dados voltado para o
estudo de caso em questão.
 Realizar coleta de dados socioeconômicos dos alunos da disciplina de Cálculo –
Diferencial e Integral a partir da construção e aplicação de questionário.
 Realizar o estudo do software R, visando a criação e implementação de scripts para
análise de agrupamento.
 Identificar grupos de alunos com características socioeconômicas semelhantes a partir
da análise de agrupamento.
 Acompanhar o desempenho dos grupos ao longo do ano calculando as taxas de evasão
e desempenho para cada grupo.
1.5 Tipos de Pesquisa
Com o intuito de contribuir com a disciplina de Cálculo – Diferencial e Integral e
consequentemente com o curso de Sistemas de Informação, foi realizada uma pesquisa aplicada
a partir de um estudo de caso que visa, com a utilização da ferramenta de análise de
agrupamento a identificação de grupos de risco, analisando indicadores socioeconômicos e de
desemprenho dos alunos do curso com apoio computacional do software R.
1.6 Universo e Amostra
Nosso universo foram 36 (trinta e seis) alunos matriculados na disciplina de Cálculo
– Diferencial e Integral do curso de Sistemas de Informação no ano de 2014.
1.7 Instrumentos e procedimentos de coleta de dados
Os dados foram coletados através de questionário aplicado aos alunos matriculados
no curso.
5
1.8 Tratamento dos dados
Os dados foram tratados através da técnica de análise de agrupamentos, com o apoio
computacional do software R.
6
CAPÍTULO 2 - INTRODUÇÃO AO DATA MINING (MINERAÇÃO DE
DADOS)
2.1 Introdução
Com os avanços rápidos da tecnologia de coleta e armazenamento de dados, foi
permitido que muitas informações fossem acumuladas e tornou-se um grande desafio a
descoberta de conhecimento útil dentro dessas gigantes massas. As técnicas tradicionais de
análise de dados em muitas situações não podem ser usadas devido ao enorme tamanho do
conjunto de dados ou simplesmente por causa da sua natureza não trivial requerendo métodos
de análise mais sofisticados.
Segundo Tan, Steinbach e Kumar (2009), a mineração de dados é uma tecnologia
que combina os métodos tradicionais de análise com algoritmos sofisticados que permitem
analisar e processar um conjunto de dados. Um exemplo de aplicação que é bastante usada
atualmente encontra-se no comércio, se trata da coleta de dados nos pontos de venda que
permite aos varejistas atualizar informações a respeito das compras dos seus clientes nos caixas
de suas lojas. Com o apoio de técnicas de mineração de dados os varejistas podem utilizar essa
informação, junto com outras, para apoiar uma ampla gama de aplicações de inteligência de
negócios como a criação de perfis de clientes, vendas direcionadas, administração do fluxo de
trabalho, formato de organização da loja e detecção de fraudes. Assim como também auxiliam
os varejistas a responder importantes questões de negócios como “Quais são os clientes mais
lucrativos?” e “Qual a perspectiva de lucro da empresa no próximo ano?”. São esses tipos de
questões que motivam a criação de técnicas de mineração de dados.
Graças a sua versatilidade a mineração de dados pode ser aplicada em diversas
áreas, inclusive na educação, onde é o foco da pesquisa. Assim, na área educacional tem-se a
“Mineração de Dados Educacionais” (do inglês, “Educational Data Mining”, ou EDM) que
tem como principal foco extrair e analisar dados educacionais.
Nessa área de pesquisa, pode-se listar alguns trabalhos pioneiros desenvolvidos no
Brasil, como por exemplo: o publicado por Brandão et al. (2006) analisando dados do programa
nacional de informática na educação, onde foi utilizada a técnica de análise de agrupamento
para dividir em grupos as escolas com desempenho semelhante. Dessa forma, foi possível
mapear as principais características das escolas com o melhor desempenho, para que essas
características pudessem ser aplicadas nas outras escolas. Também pode ser citado o trabalho
de Pimentel e Omar (2006), onde foi realizado um estudo para descobrir informação em
7
métodos de avaliação de alunos, o resultado obtido auxilia em uma melhor formulação das
próximas avaliações. Também um estudo relacionado a evasão de alunos intitulado “Previsão
de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados” de Manhães
et al. (2011) desenvolvido na Universidade Federal do Rio de Janeiro (UFRJ), onde seu objetivo
consistia em levantar características de acadêmicos que estivessem relacionadas à evasão.
2.2 Dados
Antes de descrever sobre mineração de dados é importante saber o conceito de dado
e suas classificações que influenciam diretamente na escolha da melhor técnica de mineração a
ser aplicada.
De acordo com Setzer (1999), dado é definido como uma sequência de símbolos
quantificados ou quantificáveis. Então, por exemplo: texto, imagem, sons e animações são
dados pois são símbolos quantificados e assim sendo podem ser armazenados e processados em
um computador.
2.3 Base dados
Uma base de dados são um conjunto de objetos, que também podem ser chamados
de registros, ponteiros, vetores, padrões, casos ou entidades.
Por sua vez, um objeto de dados é composto por um número de atributos que define
suas características. Tan, Steinbach & Kumar (2009, p. 28) define atributo como “é uma
propriedade ou característica de um objeto que pode variar, seja de um objeto para outro ou de
tempo para outro.” Por exemplo, um registro de um aluno possui diversos atributos que
compõem suas características, como nome, endereço, curso e outras. Os atributos são mais
conhecidos como variáveis.
2.4 Tipos de variáveis
As variáveis podem ter valores numéricos ou não numéricos, assim sendo
classificadas como quantitativas ou qualitativas.
As variáveis quantitativas são compostas por números, como o próprio nome
sugere, atributos quantitativos como por exemplo, idade, número de identificação, nota.
8
Já as qualitativas, ou também conhecida como categórica, são definidas por
categoria, ou seja, representam uma classificação por exemplo, fumante/não fumante, sexo,
faixa de renda.
2.5 O que é mineração de dados?
Pode-se encontrar em diversas literaturas diferentes definições do termo mineração
de dados (do inglês “Data Mining”) que ao longo do tempo foram evoluindo até as mais
recentes que são mais utilizadas.
De acordo com Weis e Indurkhya (1999), mineração de dados é busca de
informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens
e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus
objetivos. Os computadores verificam dados e procuram padrões que casem com as metas
estabelecidas pelos homens.
Já para Thuraisingham (1999), “mineração de dados é o processo de várias
consultas e extração de informações úteis, padrões, tendências, frequentemente desconhecidos,
a partir de grande quantidade de dados armazenada em bancos de dados.”
Mineração de dados é definida para Tan, Steinbach & Kumar (2009) da seguinte
forma:
A mineração de dados é o processo de descoberta automática de informações
úteis em grandes depósitos de dados. As técnicas de mineração de dados são
organizadas para agir sobre grandes bancos de dados com o intuito de
descobrir padrões úteis e recentes que poderiam, de outra forma, permanecer
ignorados (TAN; STEINBACH; KUMAR, 2009, p. 3).
A mineração de dados também tem a capacidade de previsão de resultados futuros,
como por exemplo quais as chances de determinado cliente dar calote no banco. É importante
ressaltar que, nem todas as técnicas de descoberta de informação são consideradas mineração
de dados. Por exemplo, a procura de registros individuais usando um sistema gerenciador de
banco de dados ou a busca de determinadas páginas na internet através de um mecanismo de
busca são tarefas relacionadas à área da recuperação de dados. Por mais sofisticadas que sejam
e possam envolver algoritmos e estruturas de dados essas técnicas se baseiam em métodos
tradicionais da ciência da computação. A mineração de dados tem sido usada para melhorar
esses sistemas de recuperações de informações.
9
2.6 Mineração de dados e Descoberta de conhecimento (KDD)
A mineração de dados é uma parte integral da descoberta de conhecimento em
banco de dados (KDD – Knowledge Discovery in Databases), que é o processo geral de
conversão de dados brutos em informações úteis. Basicamente, esse processo se divide em seis
etapas que são: Seleção, Pré-processamento, Transformação, Data Mining e Interpretação dos
resultados obtidos da mineração conforme mostrado na Figura 1.
Figura 1 - Etapas do processo de KDD.
Fayyad et al. (1996).
Segundo Fayyad (1996), “KDD é um processo de várias etapas, não trivial,
interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e
potencialmente úteis a partir de grandes conjuntos de dados”.
A princípio, os dados coletados na seleção são armazenados em diferentes tipos de
plataformas e podem ficar em um repositório central ou distribuídos em diferentes locais. O
objetivo do pré-processamento é transformar todos esses dados brutos em um único formato e
em uma mesma fonte de armazenamento para que se possa ser feita a análise. Os passos
envolvidos na etapa da transformação incluem a fusão de dados de múltiplas fontes, a limpeza
para remoção de ruídos, observações duplicadas, a seleção de registros e características que
sejam relevantes para a mineração (TAN; STEINBACH e KUMAR, 2009).
10
Consequentemente, tem-se a etapa do Data Mining onde será determinada entre as
diversas técnicas qual ou quais serão utilizadas para conseguir extrair informação útil dessa
base de dados. Mais adiante, algumas dessas técnicas serão apresentadas de forma introdutória.
Por fim, mas não menos importante, tem-se a interpretação que é a fusão das
informações descobertas na mineração de dados com os sistemas de apoio a decisão existentes.
É necessário saber o que fazer com essas novas informações, a forma com que elas impactam
nos resultados e sua relevância. Devido a isso, essa etapa é tão importante e decisiva.
2.7 As origens da mineração de dados
Com o objetivo de vencer os desafios da descoberta de informação nas bases de
dados, pesquisadores de diferentes disciplinas começaram a desenvolver ferramentas mais
eficientes e escaláveis que pudessem lidar com diferentes tipos de dados. Dessa forma, surgiu
a área da mineração de dados onde foram construídas metodologias e algoritmos para resolver
esse problema.
Em especial, a mineração de dados atrai ideias, como a amostragem,
estimativa e teste de hipóteses a partir de estatísticas e algoritmos de busca,
técnicas de modelagem e teorias de aprendizagem da inteligência artificial,
reconhecimento de padrões e aprendizagem de máquina (TAN;
STEINBACH; KUMAR, 2009, p. 7).
A quantidade de áreas que influenciam na mineração de dados é ilustrada na Figura
2. Onde temos a Mineração de Dados como resultado da junção de técnicas estatísticas com
técnicas de AI (Inteligência Artificial), aprendizagem de máquina e reconhecimento de padrões,
usando como base a tecnologia de banco de dados, computação paralela e computação
distribuída.
11
Figura 2 - Mineração de Dados como uma confluência de muitas disciplinas.
Fonte: TAN; STEINBACH; KUMAR, 2009
2.8 Tarefas de Mineração de Dados
As tarefas de mineração de dados basicamente são divididas em duas categorias
principais: tarefas de previsão e tarefas descritivas.
Nas tarefas de previsão o objetivo e prever o valor de determinado atributo baseado
nos valores de outros atributos. Geralmente, o atributo a ser previsto é conhecido como variável
dependente ou alvo, enquanto os atributos usados para fazer a previsão são conhecidos como
variáveis independentes ou explicativas (TAN; STEINBACH e KUMAR, 2009).
Já nas tarefas descritivas o objetivo é definir padrões (correlações, tendências,
grupos, trajetórias e anomalias) que resumam o relacionamento dos dados. Normalmente, as
tarefas descritivas são exploratórias em sua natureza e frequentemente requerem técnicas de
pós-processamento para validar e explicar os resultados (TAN; STEINBACH e KUMAR,
2009).
12
2.9 Técnicas de Mineração de Dados
2.9.1 Classificação
É uma tarefa que tem como objetivo organizar objetos em categorias que são prédefinidas.
Classificação é a tarefa de aprender uma função alvo ƒ que mapeie cada
conjunto de atributos x para um dos rótulos de classes y pré-determinados.
(TAN; STEINBACH; KUMAR, 2009, p.171).
Os dados de entrada são um conjunto de registros, onde o cada registro é conhecido
como instância ou exemplo é e caracterizado com as variáveis (x, y). O conjunto de atributos e
referenciado por x e o y ao atributo especial, designado como rótulo da classe (atributo alvo ou
categorização).
2.9.2 Árvores de Decisão
Trata-se de uma técnica de classificação simples, onde se constrói uma estrutura
hierárquica de questões e de acordo com as respostas os objetos são classificados. É constituída
de nodos e arestas direcionadas. No topo da árvore existe um nodo chamado raiz que não possui
arestas chegando em zero ou mais arestas saindo. Os nodos internos possuem uma aresta
chegando e duas ou mais saindo. E finalmente, os nodos folha ou terminais possuem uma aresta
chegando e nenhuma saindo. Observe o exemplo de árvore de decisão apresentado na figura 3,
onde apresenta o esquema de avaliação de aluno.
13
Figura 3 – Exemplo de Árvore de Decisão.
Fonte: Google.
2.9.3 Classificadores Bayesianos
Utiliza-se o teorema de Bayes na classificação quando o conjunto de atributos e a
variável classe é não determinístico, ou seja, o rótulo da classe de um registro não pode ser
previsto com certeza embora seus atributos sejam compatíveis com a classe.
2.9.4 Rede Neural Artificial (ANN)
A rede neutral é uma tentativa de simular o sistema neural biológico em neurais
artificiais. Muito utilizado na área de inteligência artificial. Onde se cria um treinamento e a
rede é capaz de aprender com novas entradas de dados com base no treinamento aplicado.
2.9.5 Análise Associativa
É uma metodologia que tem como objetivo descobrir relacionamentos úteis
escondidos em conjuntos de dados. Por exemplo, um supermercado que emite milhares de
cupons fiscais em um único dia pode utilizar a análise associativa para tentar identificar um
relacionamento de itens nos cupons. Essas informações são valiosas para apoiar aplicações
14
relacionadas ao negócio, como promoção de vendas, gerência de estoque e gerência de
relacionamento com os clientes. Os relacionamentos descobertos podem ser representados na
forma de regras de associação.
Regra de Associação – Uma regra de associação é uma expressão de
implicação no formato X -› Y, onde X e Y são conjuntos disjuntos de itens,
i.e., X ∩ Y = Ø. A força de uma regra de associação pode ser medida em
termos do seu suporte e confiança. O suporte determina a frequência na qual
uma regra é aplicável a um determinado conjunto de dados, enquanto que a
confiança determina a frequência na qual os itens em Y aparecem em
transações que contenham X. As definições formais destas métricas são
Suporte, s (X -› Y) =
𝜎 (𝑋 ∪ 𝑌);
𝑁
Confiança, c (X -› Y) =
𝜎 (𝑋 ∪ 𝑌)
.
𝜎 (𝑋)
(TAN; STEINBANCH; KUMAR, 2009, p.392).
2.9.6 O Princípio Apriori
Algoritmo proposto em 1994 pela equipe de pesquisa do projeto QUEST da IBM
que originou o software Intelligent Miner. Baseia-se no teorema que diz que se um conjunto de
itens é frequente, então todos os seus subconjuntos também devem ser frequentes. Ou seja, a
partir de um conjunto pode-se determinar se um item é frequente ou não (AMO, 2003).
2.9.7 Análise de Grupos
Divide o conjunto de dados em grupos (clusters) que tenham algum significado,
que sejam úteis. Normalmente os clusters devem capturar a estrutura natural dos grupos, que
em muitos casos a análise de grupos é um ponto inicial para outros propósitos (TAN;
STEINBACH & KUMAR, 2009).
A análise de grupos é bastante utilizada e em diversas áreas como, por exemplo, no
clima. Compreender o clima da Terra requer encontrar padrões na atmosfera e no oceano.
Assim, é utilizada a análise de grupos para encontrar padrões na pressão atmosférica de regiões
15
polares e áreas do oceano que tenham um impacto significativo sobre o clima. Outro exemplo
é na medicina, uma doença ou condição possuiu frequentemente uma quantidade de variantes,
e a análise de agrupamentos pode ser usada para identificar essas diferentes subcategorias.
Dentre os principais algoritmos, são três os mais usados:
K-means é uma técnica particional de agrupamento baseada em
protótipos que tenta encontrar m número especificado pelo usuário de grupos
(K), que são representados pelos seus centroides.
Agrupamento Hierárquico Aglomerativo é uma abordagem de
agrupamento que se refere a um conjunto de técnicas de agrupamento
intimamente relacionadas que produzem um agrupamento hierárquico
iniciando com cada ponto como um grupo único e depois fundindo
repetidamente os dois grupos mais próximos até que reste um único grupo
englobando tudo.
DBSCAN é um algoritmo de agrupamento baseado em
densidade que produz um agrupamento particional, no qual o número de
grupos é determinado automaticamente pelo algoritmo. Pontos em regiões de
densidade baixa são classificadas como ruído e omitidas; assim, DBSCAN
não produz um agrupamento completo (TAN; STEINBANCH; KUMAR,
2009, p.591).
A análise de agrupamento é uma técnica que possui várias técnicas e diferentes
tipos de aplicações, logo o próximo capítulo é totalmente dedicado para sua especificação.
16
CAPÍTULO 3 – ANÁLISE DE AGRUPAMENTO
3.1 Introdução
Como já especificado de forma introdutória no capítulo 2 (dois), a análise de
agrupamento tem a função de dividir um conjunto de dados em grupos (clusters) de forma que
sejam úteis, especificamente quando se quer obter um significado ou identificar um padrão, ou
seja, quando se deseja entender melhor como os dados se relacionam é capturada a estrutura
natural dos dados que é chamado de agrupamento para compreensão.
A análise de agrupamentos, também conhecida como análise de
conglomerados, classificação ou clusters, tem como objetivo dividir os
elementos da amostra, ou população, em grupos de forma que os elementos
pertencentes a um mesmo grupo sejam similares entre si com respeito ás
variáveis (características) que neles foram medidas e os elementos em grupos
diferentes sejam heterogêneos em relação a estas mesmas características
(MINGOTI, 2005, p.155).
Com as diversas utilizações da técnica e os diferentes objetivos identificados
existem alguns tipos de agrupamento definidos.
3.2 Diferentes Tipos de Agrupamento
Existem diversas noções de grupo úteis para cada tipo de problema, é importante
descrever sobre alguns deles.
Bem separados: um grupo é formado por um conjunto de objetos no qual cada
objeto esteja mais próximo, ou seja, mais semelhante a cada um dos outros objetos dentro desse
mesmo grupo. Em várias situações é utilizado um limite para especificar o quão semelhante o
objeto deve ser do outro para popular o mesmo grupo. Essa ideia é satisfeita apenas para os
grupos naturais que sejam bastante diferentes entre si, logo a distância entre qualquer dois
pontos de grupos diferentes seja maior que a distância entre qualquer dois pontos do mesmo
grupo (TAN; STEINBACH & KUMAR, 2009).
Baseados em protótipos: para grupos com atributos contínuos, o protótipo de um
grupo é na maioria das vezes um centróide, portanto a média de todos os pontos no grupo.
Ainda assim, o centróide pode não ser significativo, quando por exemplo os dados possuem
17
atributos categorizados, nesse caso o protótipo será um medóide, o ponto mais representativo
do grupo (TAN; STEINBACH & KUMAR, 2009).
Baseados em gráfico: para dados representados como um grafo um grupo pode ser
definido como um componente conectado, isto é, um grupo de objetos que sejam conectados
entre si, mas não tenham conexão com outros objetos fora do grupo (TAN; STEINBACH &
KUMAR, 2009).
Baseados em densidade: figura pela formação de um grupo que caracteriza uma
região densa de objetos que seja rodeada por uma região de baixa densidade (TAN;
STEINBACH & KUMAR, 2009).
Propriedades compartilhadas (grupos conceituais): de forma simples pode ser
caracterizado por um grupo com um conjunto de objetos que compartilham alguma propriedade
(TAN; STEINBACH & KUMAR, 2009).
3.3 Distâncias e Coefientes de Similaridade
Um ponto chave na análise de agrupamento é saber se um elemento é próximo ou
não de outro. Supondo que cada elemento tenha p variáveis, deve-se comparar uma a uma com
o outro elemento para se obter um valor resultante que diz qual o grau de similaridade ou
dissimilaridade que os dois elementos em questão possuem.
De acordo com Quintal (2006), a semelhança mede o grau de proximidade entre os
objetos. Por outro lado a dissemelhança reflete o grau de diferença ou afastamento entre dois
objetos. Dois objetos pertencem ao mesmo cluster se são semelhantes e pertencem a clusters
diferentes se são dissemelhantes.
Segundo Mingoti (2005), suponha que se tenha disponível um conjunto de dados
constituído de n elementos amostrais, tendo-se medido p-variáveis aleatórias em cada um deles.
O objetivo é agrupar esses elementos em g grupos. Para cada elemento amostral j, tem-se,
portanto, o vetor de medidas 𝑋𝑗 definido por:
′
𝑋𝑗 = [𝑋1𝑗 𝑋2𝑗 … 𝑋𝑝𝑗 ] , 𝑗 = 1, 2, … , 𝑛
onde 𝑋𝑖𝑗 representa o valor observado da variável i medida no elemento j. Para que se possa
proceder o agrupamento deve-se primeiro decidir a medida de similaridade ou dissimilaridade
18
que será utilizada. Existem vários tipos de medidas e cada uma delas produz um determinado
tipo de agrupamento.
3.3.1 Medidas de Distância (Dissimilaridades)
Medidas de dissimilaridades são utilizadas quando é necessário realizar o
agrupamento de variáveis quantitativas, é aconselhável que se utilize distâncias verdadeiras, ou
seja, que atenda as seguintes propriedades:
I)
d (P,Q) = d (Q,P);
II)
d (P,Q) > 0 se P ≠ Q;
III)
d (P,Q) = 0 se P = Q;
IV)
d (P,Q) ≤ d (P,R) + d (R,Q);
Onde:
R é um ponto intermediário;
I é a Simetria;
II e III é a Positividade;
IV é a Desigualdade Triangular.
A desigualdade triangular tem origem na geometria euclidiana que pode ser
encontrado na obra “Os Elementos” de Euclides (2009), onde afirma que em um triângulo o
comprimento de um dos lados é sempre inferior à soma dos comprimentos dos outros dois
lados.
Existem diversos tipos de medidas de distâncias que podem ser usados para o
agrupamento de variáveis, as mais usuais são dispostas na Tabela 1.
19
Tabela 1 – Medidas de Distância (Dissimilaridade).
Nome
Expressão
𝑝
Distância Euclidiana
𝑑(𝑥, 𝑦) = √∑(𝑥𝑗 − 𝑦𝑗 )²
𝑗=1
𝑝
Distância Euclidiana
Quadrática
𝑑(𝑥, 𝑦) = ∑(𝑥𝑗 − 𝑦𝑗 )²
Distância de
Mahalanobis
(Estatística)
𝑑(𝑥, 𝑦)
= √(𝑥 − 𝑦)𝑇 𝑆 −1 (𝑥 − 𝑦)
𝑗=1
𝑝
Manhattan (Cityblock)
𝑑(𝑥, 𝑦) = [∑|𝑥𝑖 − 𝑦𝑖 |]
𝑖=1
Chebchev
𝑑(𝑥, 𝑦) = max(|𝑥𝑗 − 𝑦𝑖 |), 𝑖
= 1, … , 𝑝
𝑝
Minkowski
𝑑(𝑥, 𝑦) = [∑|𝑥𝑖 − 𝑦𝑖 |𝑚 ]
𝑖=1
1
𝑚
Explicação
É a mais comum, simplesmente
é a distância geométrica
(intuitiva) em um espaço pdimensional.
É similar à distância euclidiana,
porém atribui um peso maior a
distâncias entre objetos mais
distantes.
−1
𝑆 é a inversa da matriz de
covariância. Contudo sem
conhecimento dos grupos
distintos está matriz não pode
ser calculada, portanto é
preferível utilizar a distância
euclidiana.
A distância de Manhattan é a
distância média entre as
dimensões. Na maioria dos
casos a distância encontrada é
similar a distância Euclidiana,
entretanto, os efeitos de
grandes diferenças são
suavizados.
A distância de Chebchev é
apropriada quando o objetivo é
definir dois elementos como
diferentes, onde apenas uma
das dimensões difere.
A distância de Minkowski é
uma generalização das demais
distâncias, pois as distâncias
são basicamente normas de
vetores. Por exemplo, para m =
2 temos a expressão da
distância euclidiana.
Fonte: Maximiliano e Cordeiro, 2008.
3.3.2 Matriz de Distância
Encontrada o valor da medida de similaridade ou dissimilaridade muitas das vezes
é formada uma matriz de distâncias, que é uma matriz n x n com o valor das distâncias entre
todos os elementos, como mostrado na Figura 4.
20
Figura 4 – Armazenamento de distâncias entre 4 elementos
𝐷4𝑥4
0
𝑑
= [ 21
𝑑31
𝑑41
𝑑12
0
𝑑32
𝑑42
𝑑13
𝑑23
0
𝑑43
𝑑14
𝑑24
]
𝑑34
0
Fonte: MINGOTI, 2005
3.3.3 Coeficientes de Similaridades
Os coeficientes de similaridades são utilizados para tratar a distância entre
indivíduos quando a variável de comparação é qualitativa, por exemplo, a variável é dada pela
presença (1) ou ausência (0) de uma determinada característica, sendo assim, os pares possíveis
de comparações são (1,0), (0,1), (1,1) e (0,0), percebe-se que as distâncias entre (1,0) e (0,1)
são iguais e as distâncias dos empates (1,1) e (0,0) também, porém em alguns casos suas
distâncias não devem ser iguais. Para evidenciar analisa-se o seguinte exemplo: Se (1) significa
“lê grego antigo” e (0) significa “não lê grego antigo”, é óbvio que o empate (1,1) mostra que
estes indivíduos são mais parecidos que os empates (0,0) (CHAVES NETO, 2007).
Assim, os coeficientes de similaridades resolvem esse problema, pois atribuem
pesos maiores para as distâncias dos empates (1,1), e pesos menos ou até mesmo desconsideram
as distâncias dos empates (0,0). Para introduzir a metodologia são apresentados os resultados
de coincidência e divergência dos objetos h e i na tabela 2.
21
Tabela 2 – Tabela de Coincidência e Divergência para Cálculo dos Coeficientes.
Item I
Item h
Totais
1
0
1
a
b
a + b
0
c
d
c + d
a+c
b+d
p=a+b+c+d
Totais
Fonte: Adaptação de Johnson e Wichern (1999).
Do mesmo modo que as medidas de similaridade existem diversos coeficientes que
cabe ao pesquisador escolher a que melhor atende o seu problema. Vários deles são propostos
na literatura e alguns apresentados na tabela 3.
Tabela 3 – Coeficientes usuais de Similaridade.
Nome
Coincidência
Simples
Sokal e Sneath
Rogers e Tanimoto
Russel e Rao
Expressão
𝑎+𝑑
𝑝
2(𝑎 + 𝑑)
2(𝑎 + 𝑑) + 𝑏 + 𝑐
Explicação
Pesos iguais para 1-1
e 0-0
Variação
Peso duplo 1-1 e 0-0
(0,1)
𝑎+𝑑
𝑎 + 2(𝑏 + 𝑐) + 𝑑
𝑎
𝑝
Duplo peso para
pares não
coincidentes
Nenhum 0-0 no
numerador
As coincidências 0-0
são tratas como
irrelevantes
0-0 é irrelevante e
duplo peso para 1-1
Jaccard
𝑎
𝑎+𝑏+𝑐
Sorenson
2𝑎
2𝑎 + 𝑏 + 𝑐
Distância Binária de
Sokal
√
𝑏+𝑐
𝑝
𝑎
Ochiai
Baroni-Urbani-Buser
√(𝑎 + 𝑏)(𝑎 + 𝑐)
𝑎 + √𝑎𝑑
𝑎 + 𝑏 + 𝑐 + √𝑎𝑑
Única medida de
dissimilaridade
Concordâncias
positivas sobre
adaptação da média
geométrica de
discordâncias
Coincidência
positiva sobre
adaptação da média
geométrica de
concordância
positiva e negativa
Fonte: Adaptação de Ferreira (1996).
(0,1)
(0,1)
(0,1)
(0,1)
(0,1)
(0,1)
(0,1)
(0,1)
22
Uma situação comum é aquela em que são observadas p-variáveis quantitativas e q
qualitativas nos mesmos elementos amostrais. Nessas situações, Mingoti (2005) lista três
alternativas possíveis:
I – transformar as q-variáveis qualitativas em quantitativas através da atribuição de
valores numéricos às várias categorias;
II – transformar as p-variáveis quantitativas em variáveis qualitativas através de
categorização de seus valores por algum critério. Essa é a alternativa de uso menos comum em
problemas práticos devido à perda de informação que se tem ao categorizar variáveis contínuas;
III – Construir medidas de semelhança mistas e utilizá-las para comparação dos
elementos amostrais.
O coeficiente de Gower (1971) é uma ótima alternativa quando se tem esse tipo de
base de dados.
3.3.4 Coeficiente de Gower
Quando é preciso fazer uma análise de agrupamento com elementos que possuem
características quantitativas e qualitativas as alternativas de medidas de parecença se tornam
mais escassas.
Gower (1971) propôs um coeficiente geral de similaridade que permite a
combinação simultânea de variáveis quantitativas e qualitativas. Este coeficiente é aplicável ao
mais diversos tipos de variáveis: binárias, numéricas, nominais (multiníveis) e ordinais
(multíniveis). O índice é calculado pela expressão:
𝑆𝑖𝑗
∑𝑝𝑘=1 𝑊𝑘 𝑆𝑘
=
∑𝑝𝑘=1 𝑊𝑘
Onde, 𝑆𝑖𝑗 , é a dissimilaridade (distância) entre os elementos Xi e Xj , com 𝑖 ≠ j .
Se a variável é qualitativa, então:
0, 𝑠𝑒 𝑥𝑘𝑖 = 𝑥𝑘𝑗,
𝑆𝑘 = {
1, 𝑠𝑒 𝑥𝑘𝑖 ≠ 𝑥𝑘𝑗,
Se a variável é quantitativa (numéricas), trata-se de maneira diferente. Inicialmente
é calculado o desvio entre os valores de duas amostras, |𝑥𝑘𝑖 − 𝑥𝑘𝑗 |, este valor é então dividido
23
pelo desvio máximo max(𝑥𝑘. ) − min(𝑥𝑘. ) que pode ser calculado para esta variável, utilizando
a amostra disponível.
𝑆𝑘 =
|𝑥𝑘𝑖 − 𝑥𝑘𝑗 |
max(𝑥𝑘. ) − min(𝑥𝑘. )
𝑘 = 1,2, … , 𝑝;
𝑝 = número total de variáveis;
𝑥𝑘𝑖 : é o valor da k-ésima variável para o elemento 𝑖;
𝑥𝑘𝑗 : é o valor da k-ésima variável para o elemento 𝑗;
𝑤𝑘 = 1, quando se tem os valores da k-ésima variável para ambos elementos;
𝑤𝑘 = 0, quando não se tem os valores da k-ésima variável para quaisquer dos dois elementos.
O elemento 𝑤𝑖 (Delta de Kronecker) funciona de forma que garante a flexibilidade.
Assim, não é feita a comparação para variáveis que faltam informação. O 𝑤𝑖 funciona como
um peso para a comparação, informando o valor 1 para variáveis como informação válida e 0
para comparações invalidas, ou seja, quando falta informação na variável.
3.5 Técnicas de Agrupamento
Segundo Mingoti (2005), as técnicas de agrupamento ou clusters são
frequentemente classificadas em dois tipos: técnicas hierárquicas e não hierárquicas, sendo que
as hierárquicas são classificadas em aglomerativas e divisivas, como mostra a figura 5.
Para Tan, Steinbach & Kumar (2009), existem duas abordagens básicas para gerar
um agrupamento hierárquico:
Aglomerativa: Comece com os pontos como grupos individuais e, em cada
etapa, funda os pares mais próximos de grupos. Isto requer a definição de uma
noção de proximidade de grupos.
Divisiva: Comece com um grupo inclusivo com tudo e, a cada etapa, divida
um grupo até que restem apenas grupos únicos de pontos individuais. Neste
caso, precisamos decidir qual grupo dividir em cada etapa e como fazer a
divisão (TAN; STEINBACH; KUMAR, 2009, p. 614).
A principal diferença entre as duas técnicas é que nas hierárquicas, na maioria das
vezes, são utilizadas em análises exploratórias dos dados com o intuito de identificar possíveis
24
agrupamentos e o valor provável do número de grupos g. Já nas técnicas não hierárquicas, é
necessário que o valor do número de grupos já esteja pré-especificado pelo pesquisador.
A técnica de agrupamento não hierárquica é bastante utilizada em agrupamentos de
variáveis do tipo quantitativas e tem como seus principais métodos de similaridade o k-Médias
(k-Means) e o Fuzzy c-Médias (Fuzzy c-Means) por exemplo. Na pesquisa foi utilizada a técnica
de agrupamento hierárquica aglomerativa, devido a isso não será mais especificado sobre a
técnica não hierárquica
Figura 5 – Procedimentos hierárquicos aglomerativos e divisivos.
Fonte: MINGOTI, 2005.
3.5.1 Técnicas Hierárquicas
Um agrupamento hierárquico é exibido na maioria dos casos usando um diagrama
do tipo árvore chamado dendograma, que exibe os relacionamentos grupo-subgrupo quanto na
ordem que os grupos são fundidos (visão aglomerativa) ou divididos (visão divisiva), ou em
alguns casos também pode ser usado um diagrama de grupos aninhados, observe a Figura 6.
25
Figura 6 – Um agrupamento hierárquico de quatro pontos mostrado como um dendograma e como
grupos aninhados.
Fonte: TAN; STEINBACH & KUMAR (2009).
3.5.1.1 Algoritmo de Agrupamento Hierárquico Aglomerativo
Básico
Basicamente as técnicas de agrupamento hierárquico segue a seguinte abordagem:
inicia com pontos individuais como grupos, funde sucessivamente os dois grupos mais
próximos até que reste apenas um grupo, observe o quadro 1. Formalmente expressada no
Algoritmo 2.
Quadro 1 – Algoritmo de Agrupamento Hierárquico Aglomerativo básico
Algoritmo 2 – Algoritmo de Agrupamento Hierárquico Aglomerativo Básico
1: Calcule a matriz de proximidade, caso necessário.
2: repita
3: Funda os dois grupos mais próximos.
4: Atualize a matriz de proximidade para refletir a proximidade entre o novo grupo e
os grupos originais.
5: até que Reste apenas um grupo.
Fonte: TAN; STEINBACH; KUMAR, 2009.
Para definir a proximidade dos grupos diferentes métodos são utilizados, dentre os
mais populares podemos citar média das distâncias, centróide, ward e os que serão introduzidos
mais adiante: ligação simples e ligação completa. O método utilizado na pesquisa foi o de
ligação completa.
26
3.5.1.2 Método de Ligação Simples
Na utilização do método de ligação simples no agrupamento hierárquico, a
proximidade de dois grupos é definida como o mínimo da distância (máximo de semelhança)
entre dois pontos quaisquer nos dois grupos diferentes (TAN; STEINBACH & KUMAR,
2009).
Por exemplo:
A matriz de distâncias entre os seis elementos amostrais é dada por:
𝐴
𝐵
𝐶
𝐷
𝐸
𝐴
0
𝐵 3,23
0
𝐶 15,74 12,53
0
𝐷 13,19 12,04 16,29
0
𝐸 6,44
7,50 17,06 19,33
0
𝐹 13.39 10,19 4,12 12,18 16,19
𝐹
0
O menor valor observado na matriz é 3,23, que corresponde à distância entre os
elementos A e B nas duas variáveis medidas. Esses indivíduos são então, reunidos em um único
conglomerado, e a amostra de seis elementos é repartida em cinco grupos que são:
C1= {A, B} C2= {C} C3= {D} C4= {E} C5= {F}
A título de ilustração, mostra como foram obtidos os valores de distância do
conglomerado {A, B} em relação aos outros neste passo do algoritmo.
𝑑({𝐴, 𝐵}, {𝐶}) = min{𝑑(𝐴, 𝐶), 𝑑(𝐵, 𝐶)} = min{15,74; 12,53)} = 12,53
𝑑({𝐴, 𝐵}, {𝐷}) = min{𝑑(𝐴, 𝐷), 𝑑(𝐵, 𝐷)} = min{13,19; 12,04)} = 12,04
𝑑({𝐴, 𝐵}, {𝐸}) = min {𝑑(𝐴, 𝐸), 𝑑(𝐵, 𝐸)} = min {6,44; 7,50)} = 6,44
𝑑({𝐴, 𝐵}, {𝐹}) = min{𝑑(𝐴, 𝐹), 𝑑(𝐵, 𝐹)} = min{13,39; 10,90)} = 10,19
A partir dos resultados anteriores é formada uma nova matriz de distâncias:
27
𝐴, 𝐵
𝐶
𝐷
𝐸
𝐴, 𝐵
0
𝐶 12,53
0
𝐷 12,04 16,29
0
𝐸
6,44 17,06 19,33
0
𝐹
10,19 4,12 12,18 16,19
𝐹
0
Nesta etapa o valor mínimo da matriz é 4,12 que é a distância entre os indivíduos
C e F que serão unidos em um grupo. Após essa etapa a matriz é recalculada e mais um grupo
formado até que obtenha o agrupamento total.
3.5.1.3 Método de Ligação Completa
No método de ligação completa ou MAX a proximidade de dois grupos é definida
como o máximo da distância (mínimo da semelhança) entre quaisquer dois pontos nos dois
grupos diferentes (TAN; STEINBACH & KUMAR, 2009).
Segundo Mingoti (2005), em cada estágio do processo de agrupamento a medida é
calculada para todos os pares de grupos, sendo então, combinados em um único grupo aqueles
que apresentarem o menor valor da distância, ou seja, o menor valor do máximo. Esse método
é chamado de ligação completa porque todos os objetos em agrupamento são conectados um
com o outro a alguma distância máxima ou similaridade mínima.
Por exemplo:
A matriz de distâncias é dada por:
(𝐴, 𝐵)
𝐵
𝐶
𝐷
𝐸
(𝐴, 𝐵)
0
𝐶
15,74 12,53
0
𝐷
13,19 12,04 16,29
0
𝐸
6,44 7,50 17,06 19,33
0
𝐹
13.39 10,19 4,12 12,18 16,19
𝐹
0
O menor valor observado na matriz é 4,12, que corresponde à distância entre os
elementos C e F nas duas variáveis medidas. Portanto, a amostra fica repartida em quatro
grupos.
A título de ilustração, apresenta-se a seguir, os cálculos relativos às distâncias do
conglomerado {A, B} aos outros grupos.
𝑑({𝐴, 𝐵}, {𝐶}) = max{𝑑(𝐴, 𝐶), 𝑑(𝐵, 𝐶)} = max{15,74; 12,53)} = 15,74
28
𝑑({𝐴, 𝐵}, {𝐷}) = max{𝑑(𝐴, 𝐷), 𝑑(𝐵, 𝐷)} = max{13,19; 12,04)} = 13,19
𝑑({𝐴, 𝐵}, {𝐸}) = max {𝑑(𝐴, 𝐸), 𝑑(𝐵, 𝐸)} = max {6,44; 7,50)} = 7,50
𝑑({𝐴, 𝐵}, {𝐹}) = max{𝑑(𝐴, 𝐹), 𝑑(𝐵, 𝐹)} = max{13,39; 10,90)} = 13,19
A matriz de distância é dada por:
𝐴, 𝐵
𝐶, 𝐹
𝐷
𝐴, 𝐵
0
𝐶, 𝐹 15,74
0
𝐷 13,19 16,29
0
𝐸
7,50 17,06 19,33
𝐸
0
Nessa etapa, os conglomerados {A, B} e {E} são agrupados, uma vez que a
distância entre eles é o menor valor na matriz. E assim continua o processo de agrupamento,
recalculando as medidas a cada novo grupo até chegar em um agrupamento total.
3.5.1.4
Aglomerativo
Considerações
sobre
o
Agrupamento
Hierárquico
De modo geral as técnicas de agrupamento hierárquico são usadas para aplicações
que as requerem, por exemplo a criação de uma taxonomia. Segundo Tan, Steinbach & Kumar
(2009) estudos revelam que esses algoritmos podem produzir grupos de melhor qualidade. O
principal ponto fraco é que os algoritmos são custosos em termos de seus requisitos
computacionais e de armazenamento.
3.5.1.5 Métodos de validação do Agrupamento
Uma questão chave na análise de agrupamento hierárquica é saber qual o número
ideal de grupos, ou seja, em que etapa do algoritmo deve ser interrompido. Não existe uma
resposta exata para essa pergunta, porém existem alguns critérios que podem auxiliar na
validação, como é mostrado a seguir.
29
3.5.1.5.1 Coeficiente de Correlação Cofenética
O dendograma representa a simplificação da matriz de similaridade (F), portanto,
para se saber se houve ou não um bom agrupamento pode ser utilizado o coeficiente de
correlação cofenética. Para isso, o primeiro passo é construir a matriz cofenética, que é a matriz
de distâncias entre os objetos obtidos a partir do dendograma.
Com a matriz cofenética (C) construída deve-se verificar a proximidade das duas
matrizes, através da formula:
𝑐𝑐𝑐 =
̂ (𝐹, 𝐶)
𝐶𝑜𝑣
√𝑉̂ (𝐹) ∙ 𝑉̂ (𝐶)
Quanto mais próximo esse resultado for de 1, melhor o seu agrupamento. Pode-se
adiantar que algo em torno de 0,8 já pode ser considerado um bom resultado (BASSAB;
MIAZAKI e ANDRADE, 1990).
3.5.1.5.2 Coeficiente Aglomerativo
Trata-se de um coeficiente para medir agrupamentos aglomerativos. Para cada
objeto i, d(i) é sua similaridade em relação ao primeiro agrupamento em que foi inserido pela
dissimilaridade na etapa final. O coeficiente é definido da seguinte forma:
𝑛
1
𝐶𝐴 = ∑ 1 − 𝑑(𝑖)
𝑛
𝑖
Onde n é o número total de objetos do conjunto de dados.
Os valores do coeficiente variam entre 0 e 1. Valores baixos do coeficiente
correspondem a estruturas ruins, onde nenhum agrupamento foi encontrado. Por outro lado,
agrupamentos mais próximos de 1 representam que estruturas claras foram encontradas
(VARELLA, 2013).
30
CAPÍTULO 4 – INTRODUÇÃO AO SOFTWARE R
4.1 Introdução
R é uma linguagem de programação e um ambiente de desenvolvimento integrado
para cálculos estatísticos e gráficos, muito conceituado por profissionais da aérea.
Foi criada originalmente por Ross Ihaka e Robert Gentleman no departamento de
Estatística da universidade de Auckland, Nova Zelândia, e para o seu desenvolvimento contouse com a colaboração de pessoas de várias locais do mundo. O nome R provêm das iniciais dos
criadores (R Project Contributors, 2014).
Atualmente é mantido por The R Fundation for Statistical Computing e uma das
suas principais características é a sua distribuição de forma gratuita e a sua compatibilidade
com uma gama de sistemas operacionais (Windows, Linux, Mac OS). Apesar de se tratar de
uma ferramenta gratuita, o R é capaz de fazer cálculos poderosos e possui uma boa capacidade
de programação, além de contar com um conjunto vasto de packages (pacote de
funcionalidades) que acrescentam bastantes potencialidades à versão base (TORGO, 2006).
4.2 Instalação do R
Para a instalação do R é preciso possuir computador com conexão com a internet e
acessar o site: http://www.r-project.org/. Após acessado o site deverá ser acessado o menu à
esquerda com o nome CRAN, em seguida, escolher entre os vários locais espalhados pelo
mundo para o download. Logo em seguida, escolher o que corresponde ao seu sistema
operacional utilizado no computador e proceder o download.
Com o arquivo no computador deverá proceder a instalação do R, bastando clicar
duas vezes (executar) no executável do programa baixado e aguardar a instalação. Assim que
terminado o processo vai ser criado um ícone do R na área de trabalho do computador para
acesso do programa.
4.3 Começar a usar o R
Com o R devidamente instalado no computador, para executá-lo bastar acessar o
ícone disponível na aérea de trabalho. Conforme a Figura 7, será aberta a tela inicial.
31
Figura 7 – Tela inicial do R
Nota-se que é apresentado a janela do prompt do R (> ), com o cursor a sua frente.
É nesta linha onde serão inseridos os comandos para que o R execute. Por exemplo, pode-se
saber a versão do R de forma mais detalhada através do comando R.version seguido da tecla
Enter (Figura 8).
Figura 8 – Tela versão do R
32
4.4 Ajuda sobre o R
O R possui um sistema de ajuda bastante completo para os usuários, que permite
saber muito mais sobre a linguagem. Na versão do Windows, a ajuda pode ser acessada de
forma simples através no menu ajuda disponível na janela da aplicação. (Figura 9).
Figura 9 – Menu Ajuda
No entanto, caso precise saber especificamente sobre determinada função do R, a
forma mais simples é utilizar a função help(). Por exemplo, se pretende saber mais sobre a
função version, pode-se inserir o comando help(version) e teclar Enter que ele vai te direcionar
a documentação sobre a função, que vai da simples descrição dos seus argumentos até exemplos
de utilização. (Figura 10).
Figura 10 – Exemplo de utilização do comando help()
33
4.5 “Packages” do R
Na instalação padrão do R já contém alguns “packages” ou pacotes instalados.
Esses pacotes são novas funcionalidades desenvolvidas por algum membro da comunidade e
disponibilizado para todos.
Para instalar um novo pacote pode-se usar a função install.packages(), que leva
como argumento o nome do pacote a instalar. Depois de indicado um repositório de onde fazer
o download do pacote o R encarrega-se de todo o processo, inclusive a instalação no
computador.
Para carregar um pacote que já está instalado no sistema para a sua utilização basta
usar a função library(), como no exemplo da Figura 11.
Figura 11 – Exemplo de carregamento de pacote “rpart”
O pacote utilizado para realização da análise de agrupamento foi o cluster, que já
vem na versão nativa do software R e não precisa ser baixado, basta utilizar o comando:
library(cluster) para ter acesso as suas funcionalidades.
Com a utilização deste comando a partir de agora passa a estar disponíveis todos os
objetos (funções, dados e etc.) definidos no pacote. Cada pacote possui uma ajuda específica
que pode ser obtida no sistema R, como descrito na seção 4.4.
4.6 Objetos
O R é uma linguagem baseada em objetos, isso quer dizer que tudo que é utilizado
na linguagem é guardada na memória do computador como objeto. Todos os objetos no R têm
um nome associado e podem armazenar diferentes tipos de coisas (números, textos, vetores,
matrizes, funções, etc.).
Para armazenar algo em um objeto usamos o operador de atribuição. Este operador
consiste num sinal < seguido por um sinal -, como se vê na Figura 12, onde foi guardadi o valor
60 no objeto que foi atribuído o nome de taxa.de.desistencia:
34
Figura 12 – Exemplo de um Objeto
Para ver o conteúdo do objeto basta digitar o seu nome atribuído, nota-se na Figura
12 que ao digitar o nome taxa.de.desistencia ele retorna o valor que foi atribuído na linha
anterior.
O número [1] que aparece antes do valor representa o primeiro valor do objeto, ou
seja, o elemento de número 1. Em objetos como vetores, pode-se se ter n elementos dentro de
um mesmo objeto, e esse número identifica qual a posição do elemento em questão.
4.7 Operadores
Um software de estatística não poderia deixar de ser capaz de fazer operações
matemáticas e lógicas. A Tabela 4, apresenta os principais operadores matemáticos e lógicos
usados no R.
Tabela 4 – Operações Lógicas do R
4.8 Tipos de Variáveis
Quando se trabalha com banco de dados pode-se encontrar nele vários tipos de
variáveis, a seguir serão abordados os principais tipos de variáveis.
35
Numérica: No R as variáveis numéricas são referidas através do nome numeric, este
tipo de variável é utilizado para números inteiros ou reais, como quantidade, idade e quantidade
de habitantes.
Data: Utilizada para campos de data é referida pelo nome date.
Categóricas: São variáveis qualitativas, ou seja, irá armazenar valores não
numéricos como sexo, religião, estado civil e condições de uso de um objeto, esse tipo de
variável usa a referência factor.
Categóricas Ordenáveis: Dados como o grau de escolaridade são representados
neste tipo de variável onde temos categorias com ordem hierarquizáveis. Representado por
ordered.
Texto: Representado por character armazena texto.
Booleanas armazenam valores verdadeiros ou falsos por TRUE ou FALSE; logical.
4.9 Vetores
Vetores são um conjunto de vários elementos do mesmo tipo agrupados, partindo
do princípio que já se conhece a definição de objeto, o vetor é um objeto com n elementos
dentro dele. Uma das formas de criar um vetor é pelo uso da função vector(). A função recebe
como argumentos mode (modo) e length (comprimento). O primeiro argumento é uma variável
do tipo character informando o tipo de vetor a ser criado o qual pode ser entre outros, logical
(logico), numeric (numérico) e character (caractere).
Para a criação de um vetor utiliza-se a função c() para indicar que o vetor possui
mais de um elemento e coloca-los entre vírgulas. O tamanho do vetor pode ser obtido pela
função length().Veja a figura 13.
Figura 13 – Exemplo de um Vetor
36
4.10 Carregar base de dados
Arquivos do tipo .csv são bastante utilizados, devido a sua visualização em editores
de texto simples porque não contém qualquer formatação especial como negrito, itálico, cores,
espaçamento entre linhas etc.
Arquivos .csv podem ser lidos através da função read.csv(“caminho”, “caractere
separador”) que precisa do caminho da planilha passado como parâmetro.
Do mesmo modo write.csv(“objeto”,"caminho-e-nome"), é usado para gravar o
objeto passado no primeiro parâmetro no arquivo passado no segundo parâmetro. Veja a figura
14.
Figura 14 – Carregar e Salvar base de dados
Nota-se que ao ler a base de dados o software R não exibe nenhuma mensagem,
apenas leva o cursor para a linha de baixo. Pode ser visualizar o título das variáveis através do
comando names(). Observe a figura 15.
Figura 15 – Exemplo do Comando names()
4.11 Gráficos
O software R tem um alto potencial na geração de gráficos, e durante a pesquisa
foram gerados alguns para a melhor análise dos dados.
4.11.1 Dendograma
O principal gráfico gerado na pesquisa é o dendograma, é através dele que
consegue-se visualizar os níveis de agrupamento. O comando hclust() é usado para gerar o
37
dendograma, deve ser passada a matriz de distância como parâmetro do comando, que na figura
15 corresponde por may.
O comando rect.hclust() deverá receber um objeto com um cluster e irá desenhar
retângulos no dendograma com destaques aos grupos correspondentes. Além do dendograma
passado deverão ser passados via parâmetro a quantidade de clusters a serem destacados e a cor
das boras dos retângulos. Veja a figura 16.
Figura 16 – Comando de geração do Dendograma
4.11.2 BoxPlot
O boxplot ou “box and whiskers plot” (chamado em português de desenho
esquemático, desenho da caixa, ou desenho de caixa e bigode). No boxplot, a linha grossa do
meio representa a mediana, a caixa representa o 1° e 3°quartil, e os “bigodes” podem representar
ou os valores máximos e mínimos, ou 1.5 vezes o valor dos quartis (aproximadamente 2 desvios
padrões) é desenhado o que for menor. Observe na figura 17 o seu comando e o resultado.
Figura 17 – Comando e Gráfico de geração do Boxplot
38
4.11.3 BarPlot
O barplot, ou gráfico de barras, mostra cada ponto da variável especificada como
uma barra. Na sua forma mais simples, são apresentados apenas os valores brutos e não há
informação alguma quanto à dispersão dos dados. Veja na figura 18, que foram acrescentados
os comandos col para mudar a cor da barra e main para adicionar um título.
Figura 18 – Comando e Gráfico de geração do Barplot
39
CAPÍTULO 5 – ESTUDO DE CASO
5.1 Introdução
O questionário foi aplicado a um total de 36 alunos, sendo que no mesmo havia 21
variáveis: 13 qualitativas e 8 quantitativas. Devido a uma análise da qualidade dos grupos, foi
decidido que o agrupamento seria realizado com base em quatro variáveis: idade, tipo de escola
onde estudou (pública ou privada), trabalho e a quantidade de horas de estudo que o aluno
possui fora da faculdade.
5.2 Análise descritiva dos dados
Para melhor conhecimento sobre a base dados foi realizada uma análise descritiva
de todas as variáveis pesquisadas no questionário. Buscando uma melhor visualização foram
aplicados alguns comandos básicos do software R, como o summary e table.
Para a variável idade, como observado na figura 19, o conjunto de alunos possui
idade mínima de 17 anos e máxima de 37, apresentando uma média geral de 21.19 e com
mediana em 18.50.
Figura 19 – Saída do comando Summary() para a variável idade
Como observado na figura 20, o conjunto de alunos possui 3 referentes ao sexo
feminino e a sua grande maioria do masculino, 33.
40
Figura 20 – Saída do comando Table() para a variável sexo
Observa-se na figura 21, no quesito que foi perguntado sobre o tipo de escola que
frequentaram a maior parte do ensino médio, temos 7 alunos que estudaram em escola privada
e os outros 29 em escola pública.
Figura 21 – Saída do comando Table() para a variável escola
Observa-se na figura 22, que a maior parte dos alunos estudaram o ensino médio
no período matutino que corresponde a 25 alunos, o período noturno vem em segundo lugar
com 9 alunos e por último somente 2 alunos no período vespertino.
41
Figura 22 – Saída do comando Table() para a variável período
Observa-se na figura 23, que a maior parte dos alunos terminaram o ensino médio
no ano anterior ao de início do curso, 2013. Porém, existem alunos que terminaram o ensino
médio a partir de 1999 e outros alunos no meio tempo entre 1999 e 2013. É notável que a maior
parte dos alunos estão concentrados entre 2011 e 2013.
Figura 23 – Saída do comando Summary e Table() para ano de conclusão do ensino médio
Observa-se na figura 24, que a maioria dos alunos ingressaram no curso através do
vestibular, uma minoria pelo SAS (Sistema de Avaliação Seriado), devido a uma quantidade de
vagas limitadas e um aluno portador de diploma.
42
Figura 24 – Saída do comando Table() para a forma de ingresso no curso
Observa-se na figura 25, que a média da nota de ingresso dos alunos foi de 115,
tendo com nota mínima 70 e nota máxima 186.
Figura 25 – Saída do comando Summary() para a nota de ingresso
Devido ao histórico do alto índice de reprovação foi levantada a questão para saber
quais são os alunos repetentes da disciplina. Observe na figura 26, que apenas 5 alunos são
repetentes da matéria, sendo assim conclui-se que a maioria dos reprovados no ano anterior ou
estão cursando a matéria em outro período ou abandonaram o curso.
43
Figura 26 – Saída do comando Table() para listar os alunos repetentes
A fim de conhecer melhor sobre o perfil dos acadêmicos, foi perguntado através do
questionário se já tinham iniciado outro curso superior ou se era o primeiro. Observa-se na
figura 27, que para 75% dos acadêmicos esse é o primeiro curso superior que iniciam.
Figura 27 – Saída do comando Table() para listar quantos já iniciaram outro curso superior
Quando perguntado se vivem com cônjuge a maioria dos acadêmicos responderam
que não. Percebe-se uma relação com a média de idade dos acadêmicos que é de 21.19 anos.
Observe a figura 28.
44
Figura 28 – Saída do comando Table() para listar quantos vivem com cônjuge
É comum alunos residirem em uma cidade e estudarem em outra, porém esse
deslocamento contínuo se torna um desgaste a mais para o aluno. Como observado na figura
29, dos alunos pesquisados apenas 1 (um) reside em outra cidade.
Figura 29 – Saída do comando Table() para listar quantos residem em outra cidade
45
Uma das variáveis mais importantes da pesquisa é a respeito de trabalho, é
importante saber se o trabalho influência no desempenho dos acadêmicos durante o curso.
Observa-se na figura 30, que a base de dados é bem variada nesse quesito.
Figura 30 – Saída do comando Table() para o quesito trabalho
]]
Como observado na figura 31, os acadêmicos possuem uma média de atividade
física de 4 horas por semana.
Figura 31 – Saída do comando Summary() para o quesito de prática de atividade física
Como observado na figura 32, os acadêmicos possuem média de aproximadamente
12 horas de lazer durante a semana.
Figura 32 – Saída do comando Summary() para o quesito de lazer
46
Fica evidente na figura 33, que a maioria dos acadêmicos possuem pais com o nível
de escolaridade de ensino médio, porém vale ressaltar que os outros níveis como fundamental,
graduação e pós-graduação possuem valores significantes.
Figura 33 – Saída do comando Table() para a escolaridade dos pais
A figura 34, representa a quantidade de alunos que moram com os pais e os que
moram em outra residência. A grande maioria, 75% (setenta e cinco por cento) moram com os
pais.
Figura 34 – Saída do comando Table() para o quesito se moram com os pais
47
Na figura 35, contém a quantidade de alunos que possuem os pais que vivem juntos
e os que não possuem.
Figura 35 – Saída do comando Table() para o quesito se os pais vivem juntos
Outra questão importante a ser analisada é a renda familiar do acadêmico, que se
trata de uma variável econômica que pode ter influência com o desempenho do aluno. Na figura
36, nota-se que a renda familiar de maior parte dos acadêmicos está em até 3 (três) salários
mínimos e entre 3 (três) e 5 (cinco) salários mínimos.
48
Figura 36 – Saída do comando Table() para a renda familiar
É importante saber quantas horas fora da universidade o acadêmico possui para
estudar e melhorar seu desempenho. Como observado na figura 37, a turma apresentou média
de aproximadamente 7 horas por semana de estudo fora da universidade.
Figura 37 – Saída do comando Summary() para horas de estudo fora da universidade
No questionário foi perguntado ao acadêmico qual era o seu entendimento do curso,
incluindo todas as matérias, até o momento. Ele devia avaliar de 0 a 10 o seu entendimento,
sendo 0 para nenhum e 10 para ótimo. Como observado na figura 38, a turma obteve uma média
de aproximadamente 6 (seis).
Figura 38 – Saída do comando Summary() para o entendimento do curso
49
No questionário, foi perguntado ao acadêmico qual era o seu entendimento
especificamente da matéria de cálculo até o momento. Ele devia avaliar de 0 a 10 o seu
entendimento, sendo 0 para nenhum e 10 para ótimo. Como observado na figura 39, a turma
obteve uma média de aproximadamente 5 (cinco), observe que foi abaixo que a do curso como
um todo.
Figura 39 – Saída do comando Summary() para o entendimento da matéria de cálculo
5.3 Dendograma
Utilizando o método de Gower para gerar a similaridade entre os elementos foi
obtido o seguinte dendograma com a utilização do software R, observe a figura 40 que será
explicada na seção 5.4.
Figura 40 – Dendograma gerado pelo software R
50
5.4 Descrição dos Grupos
Com base no dendograma gerado pelo software R fica evidente a formação de 4
(quatro) grupos, que estão devidamente tracejados pela linha vermelha (Figura 40).
O grupo 1 (um) é composto por 8 (oito) integrantes. Possui média de idade de 24
anos, a maior entre os grupos. Todos os alunos que compõem o grupo estudaram de escola
pública e trabalham na área de atuação do curso de Sistemas de Informação. O grupo possui
uma média de tempo de estudo fora da faculdade de aproximadamente 4 horas por semana.
O grupo 2 (dois) é composto por 7 (sete) integrantes. Possui média de idade de 18
anos. Todos os alunos que compõem o grupo estudaram de escola particular e a sua maioria
absoluta não trabalha, com exceção de 1 (um). O grupo possui uma média de tempo de estudo
fora da faculdade de aproximadamente 5 horas por semana.
O grupo 3 (três) é composto por 7 (sete) integrantes. Possui média de idade de 18
anos. Todos os alunos que compõem o grupo estudaram de escola pública e não trabalham. O
grupo possui maior média de tempo de estudo fora da faculdade, que é de aproximadamente 16
horas por semana.
O grupo 4 (quatro) é maior grupo, composto por 14 (quatorze) integrantes. Possui
média de idade de 22 anos. Todos os alunos que compõem o grupo estudaram de escola pública
e trabalham em outra área que não a de atuação do curso de Sistemas de Informação. O grupo
possui uma média de tempo de estudo fora da faculdade de aproximadamente 5 horas por
semana.
Com as informações descritas nos parágrafos anteriores foi montado o quadro 2,
que pode ser observado logo abaixo.
Quadro 2 – Descrição dos Grupos Identificados
Grupos
Grupo 1 – 8 Integrantes
Média de Idade
24 anos
Todos estudaram em escola Pública
Todos trabalham na área do curso
Tempo Médio de Estudo
4 hrs/semana
Grupo 2 – 7 Integrantes
Média de Idade
18 anos
Todos estudaram em escola Particular
A sua maioria absoluta não trabalha
Tempo Médio de Estudo
5 hrs/semana
Grupo 3 – 7 Integrantes
Média de Idade
18 anos
Todos estudaram em escola Pública
Todos não trabalham
Tempo Médio de Estudo 16 hrs/semana
Grupo 4 – 14 Integrantes
Média de Idade
22 anos
Todos estudaram em escola Pública
Todos trabalham em outra área
Tempo Médio de Estudo
5 hrs/semana
Fonte: O autor
51
5.5 Avaliação do Agrupamento
O agrupamento realizado foi avaliado por 2 (dois) métodos diferentes. O coeficiente
Aglomerativo, tendo como resultado 0.83 e o Coeficiente Cofenético, tendo como resultado
0.94. Observe na figura 41, o resultado para ambos os métodos.
Figura 41 – Resultados dos coeficientes gerados pelo software R
5.6 Grupos x Desempenho
Com base nos grupos formados foi comparado o desempenho dos grupos nas V.As
(Verificações Avaliativas). Assim, pode ser observado nas figuras 42, 43, 44 e na tabela 5.
Figura 42 – Desempenho dos grupos na 1º VA
52
Fazendo uma análise do gráfico obtido pelo software R é possível visualizar o
melhor desempenho do grupo 2 na primeira V.A. Vale ressaltar que o desempenho geral dos
grupos na primeira V.A foi relativamente bom.
Figura 43 – Desempenho dos grupos na 2º VA
Na segunda V.A. o grupo 3 obteve o melhor desempenho, seguido do grupo 2. Os
grupos 1 e 4 tiveram uma queda na média geral das notas. Observe a Figura 43.
53
Figura 44 – Desempenho dos grupos na 3º VA
Na terceira V.A todos os grupos apresentaram uma notável queda no desempenho,
porém o grupo 3 apresentou menor queda entre todos, os demais tiveram notas similares.
Observe a Figura 44.
Tabela 5 – Média geral dos grupos nas V.A.
Grupos
Grupo 1
Grupo 2
Grupo 3
Grupo 4
1ª V.A.
5.75
7.21
5.4
5.4
2ª V.A.
3.6
6
6
4.2
3ª V.A.
1.75
2.2
4.21
2.6
Na tabela 6, são apresentadas as médias das notas dos grupos durante o ano. Até o
momento pesquisado haviam sido aplicadas 3 V.As.
54
5.7 Grupos x Evasão
Nota-se, através da figura 45, que o número de alunos evadidos tem bastante relação
com o desempenho. Os grupos 1 e 4 que ao longo do estudo sempre apresentaram pior
desempenho em relação aos grupos 2 e 3, apresentaram o maior número de evadidos. O grupo
1, apresentou 3 evadidos de um total de 8 integrantes, o grupo 4 apresentou 4 evadidos de um
total de 14 integrantes, o grupo 3 com 1 evadido de um total de 7 integrantes e o grupo 2 não
apresentou nenhum evadido.
Figura 45 – Número de alunos evadidos por grupo
55
CONCLUSÃO
Através do agrupamento e o acompanhamento das notas dos alunos durante o curso
de cálculo foi possível notar que os alunos que estudaram em escola particular e/ou possuem
mais tempo para estudo fora da faculdade possuem melhor desempenho na matéria.
O estudo só confirma ainda mais o baixo nível do ensino das escolas públicas em
relação com as privadas. Devido a isso os alunos que estudaram em escola pública e que não
possuem tempo para estudo fora da faculdade, na maioria devido à possuir algum tipo de
trabalho, tendem a ter mais dificuldades durante o curso. Sendo assim foi identificado que essas
duas variáveis, tempo de estudo fora da faculdade e tipo de escola que o acadêmico frequentou,
estão correlacionadas com o desempenho do acadêmico e evasão.
Também fica evidenciado que o desempenho dos alunos durante o curso tem
influência com a evasão, ou seja, os grupos que apresentaram os piores desempenhos são os
que possuem maior número de evadidos.
Uma sugestão para a coordenação do curso é fazer uma pesquisa em relação a essas
duas variáveis com os próximos alunos ingressantes e partir disso obter um grupo de risco de
alunos com baixo desempenho e evasão. Com o grupo identificado, pode-se tomar iniciativas
direcionadas e obter melhor resultado que será refletido na taxa final de aprovação dos alunos,
que é o objetivo principal.
A pesquisa contribuiu bastante para minha formação agregando um conhecimento
sobre o tema que está em bastante uso no mercado de trabalho nos dias atuais, posteriormente
pode ser decisivo na realização de um trabalho.
56
REFERÊNCIAS
A Brief History R: Past and Future History, Ross Ihaka, Statistics Department, The University
of
Auckland,
Auckland,
New
Zealand.
Disponível
em
<http://www.rproject.org/contributors.html/> Acesso em: 04 de Dez/2014.
AMO, Sandra A. de. Curso de Data Mining. Uberlândia: Editora UFU, 2003.
THURAISINGHAM, Bhavani M. (1999). Data Mining: Technologies, Techiniques, Tools
and Trends. Boca Raton: CRC Press.
BRANDÃO, M. F. R., RAMOS, C. R. S., TRÓCCOLI, B. T. Análise de agrupamento de
escolas e Núcleos de Tecnologia Educacional: mineração na base de dados de avaliação do
Programa Nacional de Informática na Educação. Brasília, 2006. Disponível em:
<http://www.nce.ufrj.br/sbie2003/publicacoes/paper39.pdf> Acessado em: 15 de Jan/2015.
CHAVES NETO, A. Notas de Aula - Análise Multivariada II. Curitiba: [s.n.], 2007.
EUCLIDES. Os Elementos. Tradução de Irineu Bicudo. 1ª edição. São Paulo: Ed. UNESP,
2009.
FAYYAD, Usama, PIATETSKY-SHAPIRO, Gregory e SMYTH, Padhraic. From Data
Mining to Knowlegde discovery. American Association for Artificial Intelligence. 1996.
FERREIRA, D.F. Análise Multivariada. Lavras. Ed. UFLA, 1996.
GOWER, J. C. (1971). A general coefficient of similarity and some of its properties.
Biometrics, 77, 623-637.
JOHNSON, R. A.; WICHERN, D. W. Aplied multivariate statistical analysis. 4th, ed.
Prentice-Hall, New Jersey, 1999.
MANHÃES, L. M. B., CRUZ, S. M. S., COSTA, R. J. M., ZAVANETA, J., ZIMBRÃO, G.,
Previsão de Estudantes com risco de Evasão Utilizando Técnicas de Mineração de Dados.
Aracajú, 2011. Disponível em: <http://www.br-ie.org/pub/index.php/sbie/article/view/1585>
acesso em: 15 de Jan/2015.
MAXIMILIANO, Adriano Schon, CORDEIRO, Marcos Tadeu Andrade. Partição de Grupos
e Análise de agrupamento para Equipamentos de Fiscalização Eletrônica de Trânsito.
Coritiba, 2008. p. Monografia – Curso de Estatística, UFPR, Universidade Federal do Paraná.
MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística
multivariada. Belo Horizonte: Editora UFMG, 2005.
PIMENTEL, E.P., OMAR, N. Descobrindo Conhecimentos em Dados de Avaliação
Aprendizagem com Técnicas de Mineração de Dado. Workshop sobre Informática na Escola.
Anais do Congresso da Sociedade Brasileira de Computação, 147-155, 2006
57
QUINTAL, M. C. C., 2006. Análise de Clusters Aplica ao Sucesso/Insucesso em Matemática.
Dissertação de Mestrado. Universidade de Madeira Departamento de Matemática e
Engenharias. Funchal. Portugal.
SANTOS, Francis D’stephanne Pereira. Análise de Agrupamentos (Clusters) com apoio
computacional do software R. Anápolis, 2013. p. Monografia – Curso de Sistemas de
Informação, UnUCET, Universidade Estadual de Goiás.
SETZER, V. W, Dado, Informação, Conhecimento e Competência. 1999.
WEIS, Sholom., INDURKHYA, Nitim. Predict Data Mining. Morgan Kaufmann Publishers,
Inc, 1999.
TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao Data Mining –
Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda., 2009.
VARELLA, Carlos Alberto Alves. Análise de Agrupamento. Atualizado em 18/06/2013.
Disponível em <http://www.ufrrj.br/institutos/it/deng/varella/> Acesso em: 04 de Dez/2014.
58
APÊNDICES
Apêndice A – Cronograma
N.º
Cronograma de execução do Trabalho de Curso.
ATIVIDADE
ABR
MAI
JUN
JUL
AGO
SET
OUT
NOV
2014
01
02
03
04
05
06
07
08
09
10
11
12
Desenvolvi
mento do
termo de
aceite
1º Reunião
do TC.
Entrega do
termo de
aceite.
2º Reunião
do TC.
Entrega do
Projeto do
TC.
3º Reunião
do TC.
Elaboração
e Aplicação
do
questionário
Entrega dos
produtos
desenvolvid
os para
avaliação
parcial
Banca de
avaliação
parcial
4º Reunião
do TC.
Postagem
do arquivo
da
comunicaçã
o cientficia.
Entrega da
comunicaçã
o científica
impressa.
DEZ
JAN
FEV
2015
X
X
X
X
X
X
X
X
X
X
X
X
59
13
14
15
16
17
18
19
Exposição e
comunicaçã
o científica
Entrega do
trabalho
para
avaliação e
indicação
para a
banca.
5º reunião
TC
entrega do
TC para
avaliação
final
Apresentaçã
o do TC
Entrega das
correções
ao
orientador
Entrega das
mídias com
TC
X
X
X
X
X
X
X
60
Apêndice B – Questionário
UNIVERSIDADE ESTADUAL DE GOIÁS
SISTEMAS DE INFORMAÇÃO
Os dados fornecidos através deste questionário serão utilizados para uso exclusivo do
desenvolvimento do TCC.
Nome:
Idade:
Sexo: a- ( ) Masculino
1) Você frequentou a maior parte do ensino
médio em que tipo de escola:
a- ( ) Pública
b- ( )
Privada
3) Em que ano você concluiu o ensino médio:
b- ( ) Feminino
2) Em qual período você frequentou maior
parte do ensino médio:
a- ( ) Matutino b- ( )Vespertino b- ( )
Noturno
4) Qual a sua forma de ingresso na UEG:
a- ( )Vestibular b- ( ) SAS c- ( )
Transferência
Nota Obtida:
5) Você já cursou Cálculo – Diferencial e
Integral:
6) Você já iniciou outro curso superior:
a- ( ) Sim
a- ( ) Sim
b- ( ) Não
7) Atualmente você vive junto com o
companheiro(a):
a- ( ) Sim b- ( ) Não c- ( ) Não se aplica.
9) Você trabalha:
a- ( ) Na área de informática
b- ( ) Em outra área
c- ( ) Não trabalho
b- (
) Não
8) Onde atualmente você reside:
a- ( ) Anápolis
b- ( ) Outra cidade
10) Quantas horas semanais você dedica à
atividade física regular:
12) Qual a maior escolaridade entre seus pais:
11) Quantas horas semanais você dedica à lazer:
a- ( ) Não alfabetizado(a)
Fundamental
c- ( ) Ensino médio
Graduação
e- ( ) Pós-Graduação
b- (
)
d- (
)
61
13) Você mora com seus pais:
a- ( ) Sim
b- (
) Não
14) Os seus pais vivem juntos:
a- ( ) Sim
b- ( ) Não
c- ( ) Não se
aplica
15) Marque a opção em que se enquadra sua da 16) Quantas horas semanais você consegue
renda familiar:
estudar, fora o período da faculdade:
a- ( ) Até 3 salário mínimo
b- ( ) Entre 3 e 5 salários mínimos
c- ( ) Mais que 5 salários mínimos
17) Avalie de 0 à 10 até o presente momento o 18) Da mesma forma, de 0 à 10 avalie até o
seu entendimento do conteúdo aplicado no
presente momento seu entendimento do
curso em geral:
conteúdo aplicado no curso de Cálculo:
62
Apêndice C – Comandos Utilizados no Software R
### Leitura dos Dados ###
x<-read.csv("D:/Paulo_2014/BTESTE2.csv", header = TRUE, sep = ";", quote = "\"")
nv<-dim(x) # Dimensão dos Dados #
str(x) # resumo das variáveis #
names(x)
# Lista as variáveis #
### Carregar pacote de Agrupamento ###
require(cluster)
### Criação da Matriz de Dissimilaridade Utilizando o Método de Gower ###
matriz.dissim <- daisy(x[,c(3,5,14,21)], metric = "gower", stand = FALSE)
### Dendograma ###
par(cex=0.7)
plot(may,hang = -1,xlab="Grupos",ylab="Dissimilaridade",
main="Dendograma",labels=x$Nome)
abline(h=0.4,col=4)
g=4
rect.hclust(may, k=g, border="red")
### Avaliação de Agrupamento ###
co1<-cophenetic(may)
cor(matriz.dissim,co1)
coef(may)
63
Apêndice D – Pôster Comunicação Científica
Download