Aprendizagem do Conhecimento Gerado pela Mineração

Propaganda
EduMiner: Um software para Auxílio no Processo de Ensino–
Aprendizagem do Conhecimento Gerado pela Mineração de
Dados
Autoria: Alana Deusilan Sester Pereira, Clarice Pereira de Paiva Ribeiro,
Luiz Henrique de Campos Merschmann
RESUMO
Com as transformações promovidas pela “Era da Informação” muitas organizações
passaram a adotar as ferramentas computacionais como grandes precursores e responsáveis
pelo valor adicional às tomadas de decisões, armazenando uma grande quantidade de dados.
Tornou-se imprescindível transformar essas grandes massas de dados em conhecimentos úteis
para a obtenção de vantagem competitiva agregando valor aos negócios. Mas, para que haja
conhecimento é necessário que a informação seja disponibilizada de maneira eficiente e que
sejam utilizados processos para transformação dessa informação. Neste contexto, uma questão
é levantada: é possível criar e implementar um software que contribua no processo ensinoaprendizagem de como o conhecimento foi gerado através da mineração de dados?
Buscando respostas, definiu-se como objetivo geral deste trabalho a apresentação de um
módulo de ferramenta de mineração de dados que auxiliasse os usuários no processo de
ensino-aprendizado na compreensão de como as informações são trabalhadas na geração de
conhecimento e que pudessem facilitar a tomada de decisão no processo decisório
empresarial. Para a construção do software foi escolhida a tarefa de extração de Regras de
Associação. Como metodologia utilizou-se a abordagem proposta pelo modelo em cascata,
consistindo nas etapas: análise e definição dos requisitos, design do software, implementação,
testes de unidade e manutenção. Seguintes estes procedimentos construiu-se o Eduminer. Para
testar sua usabilidade, foi definida uma amostra de 32% dos estudantes do curso de Sistemas
de Informação da Universidade Federal de Outro Preto (MG). Primeiramente, testaram o
Eduminer com várias bases de dados e com diversos valores de parâmetros (suporte e
confiança). Os resultados obtidos nos testes demonstraram que ele opera de maneira correta
na geração de regras e nos cálculos de suporte e confiança, por apresentar exatamente os
mesmos resultados de regras geradas e destes parâmetros na ferramenta Weka.
Posteriormente, os estudantes responderam a um questionário sobre a ferramenta quanto ao
cumprimento de sua proposta e usabilidade. Segundo os respondentes sua interface é de fácil
utilização, fazendo com que o usuário tenha uma maior produtividade, aprendendo mais
rápido a usá-la e memorizando as operações. A partir dos dados apurados nesta pesquisa,
pode-se inferir que o software cumpriu sua proposta de criação e sua implementação teve boa
aceitação pelo usuário. Portanto, o Eduminer contribuiu para o processo de ensinoaprendizagem tanto na área acadêmica quanto na profissional. A rotina de se ensinar com a
utilização de softwares, é uma condição necessária e eficaz para modificar o estoque mental e
cognitivo do usuário, seja ele um aluno de graduação ou pós-graduação, ou um profissional
que se dedique a trabalhos em organizações públicas ou privadas. As contribuições deste
software são significativas por fornecer ao gestor além de um conhecimento útil, a
possibilidade de entender como ele foi criado, proporcionando maior confiabilidade em
utilizá-lo no processo decisório, como vantagem competitiva.
1
1. INTRODUÇÃO
Em diversos segmentos do mercado, as organizações buscam recursos tecnológicos
que apóiem seus processos de tomada de decisões e auxiliem na estratégia empresarial. As
transformações decorrentes do desenvolvimento tecnológico nas áreas de informação afetam
significativamente a sociedade. Com isso, as organizações passam a adotar as ferramentas
computacionais como grandes precursores e responsáveis pelo valor adicional às tomadas de
decisões.
Considerando que a quantidade de dados armazenados em sistemas computacionais
tem aumentado significativamente, torna-se essencial transformar essas grandes massas de
dados em conhecimentos úteis. Dessa maneira, torna-se possível, a partir de informações
valiosas obter vantagem competitiva e agregar valor aos negócios.
Sendo assim, quanto maior a compreensão e a capacidade de uma organização coletar,
armazenar, criar, distribuir, sedimentar e gerar conhecimento, mais eficaz será o
desenvolvimento de seus objetivos estratégicos (MENDES, 2007). Neste cenário, gerenciar o
conhecimento torna-se uma estratégia crucial para as organizações.
Não há uma única definição para a Gestão do Conhecimento (GC). Para Fresneda et al
(2009) e Leuch (2006), a GC não significa gerir os conhecimentos das pessoas, e sim facilitar
os processos pelos quais esse conhecimento é criado, compartilhado e utilizado na
organização e, assim, a partir das “práticas de GC” é possível identificar como a gestão do
conhecimento está sendo realizada na organização.
Nesse contexto destaca-se o data Mining, na língua vernácula, a mineração de dados,
uma prática de GC que auxilia os usuários finais, da maioria dos segmentos empresariais, a
extrair informações estratégicas de seus negócios que estão residentes em grandes bancos de
dados.
Desde a década de 1960, os Bancos de Dados e a Tecnologia de Informação têm
evoluído sistematicamente de sistemas de processamento de arquivos primitivos para
sofisticados e poderosos sistemas de bancos de dados. Segundo Han e Kambler (2001), a
mineração de dados pode ser vista como resultado da evolução natural da Tecnologia da
Informação. Surgiu a partir da criação de técnicas e ferramentas computacionais para
descoberta de conhecimentos reunindo diversas técnicas com destaque para as Estatísticas
(comumente utilizadas na avaliação e validação de resultados), Banco de Dados (recursos
para manipular grandes bases de dados) e de Inteligência Artificial, especialmente,
Aprendizagem de Máquina, capazes de descobrir conhecimentos e gerar informações inéditas.
O número de ferramentas computacionais que implementam algoritmos de mineração
de dados, para solucionar diversos problemas, cresce consideravelmente devido às pesquisas
realizadas nesta área. Como exemplos de ferramentas têm-se: Intelligent Miner (IBM
CORPORATION, 2004), integrada ao DB2, da IBM Corporation; e a Oracle Data Mining
(ORACLE CORPORATION, 2004), integrada ao Oracle 10g, da Oracle Corporation,
Clementine (Inc. SPSS, 2004), da SPSS Inc., a Enterprise Miner (SAS INSTITUTE, 2004),
do SAS Institute, a PolyAnalyst (MEGAPUTER INTELLIGENCE, 2004), da Megaputer
Intelligence Inc. entre outras.
Algumas universidades também têm desenvolvido ferramentas como produto de suas
pesquisas. São exemplos a Simon Fraser University, do Canadá, que desenvolveu a DBMiner
(HAN et al, 1996; DBMINER TECHNOLOGY, 2002), a Waikato University, da Nova
Zelândia, que desenvolveu a WEKA - Waikato Environment for Knowledge Analysis (WAIKATO UNIVERSITY, 2004) e a Universidade Federal Fluminense, no Brasil, que está
desenvolvendo a Midas-UFF (SANTOS e PEREIRA, 2004).
2
Apesar da grande quantidade de ferramentas de Mineração de Dados disponível,
estudos literários mostram que nenhuma delas possui como foco demonstrar ao usuário como
o resultado gerado por uma técnica de mineração de dados foi construído e, principalmente,
exibir como as informações existentes naquela base de dados são trabalhadas para gerar
conhecimento.
A partir dessas exposições, chegou-se ao seguinte questionamento norteador desta
pesquisa: é possível criar e implementar um software que contribua no processo de ensinoaprendizagem do conhecimento que foi gerado pelo processo de mineração de dados?
Buscando as respostas definiu-se como objetivo geral deste trabalho a apresentação de
uma ferramenta de mineração de dados que auxilie os usuários no processo de ensinoaprendizado para compreensão de como as informações são trabalhadas na geração do
conhecimento e que, consequentemente, facilite o processo decisório empresarial.
Para atingir esse objetivo, dentre as tarefas existentes de mineração de dados, foi
escolhida a tarefa de Regras de Associação devido à sua relevância no processo de tomada de
decisão, já que consiste na busca por regras que representem relações entre itens contidos em
bases de dados.
Destarte, o propósito deste estudo se estende a auxiliar estudantes de graduação e pósgraduação de cursos afins que necessitam entender melhor sobre mineração de dados; bem
como para gestores de organizações.
2. REFERENCIAL TEÓRICO
2.1- Gestão do Conhecimento
Para Davenport e Prusak (1999), é essencial que as organizações saibam definir o que
são dados, informações e conhecimento, sendo que o sucesso ou o fracasso organizacional
muitas vezes pode depender da aplicação desses elementos para solução de problemas e
tomada de decisões.
Assim, os dados não sustentam a estruturação necessária para a tomada de decisões
por serem ainda elementos em sua forma bruta, não conduzindo a nenhuma compreensão do
fato ou da situação. Para serem úteis, é preciso a realização de análises e transformações,
gerando assim uma informação. A informação auxilia o processo decisório. Padoveze (2000,
p. 43), evidencia que a “informação é o dado que foi processado e armazenado de forma
compreensível para seu receptor e que apresenta valor real percebido para suas decisões
correntes ou prospectivas”.
Drucker (1997) afirma que o conhecimento é a informação eficaz em ação, focalizada
em resultados, é a ferramenta apta para tornar o conhecimento produtivo. Para Nonaka
(1994) o conhecimento é informação que foi interpretada, categorizada, aplicada, revisada e a
análise dessa informação produz o conhecimento que pode ser aplicável a soluções de
problemas e tomadas de decisões. Com isso, para que haja a conhecimento é necessário que a
informação seja disponibilizada de maneira eficiente e que sejam utilizados processos ou
mecanismos para transformação dessa informação.
Segundo Mendes (2007) se obtém conhecimento através da gestão do saber das
pessoas da organização, dos seus talentos, das suas experiências, articulando-os e
potencializando-os, utilizando-se para tanto de tecnologia de informação e comunicação
adequadas às características da instituição. Na visão de Terra (2005), GC significa organizar
as principais políticas, processos e ferramentas gerenciais e tecnológicas à luz de uma melhor
identificação, validação, disseminação, compartilhamento e uso dos conhecimentos
estratégicos para gerar resultados para a empresa e benefícios para os colaboradores.
3
As práticas de gestão do conhecimento demonstram como as organizações gerenciam
o conhecimento. De acordo com Batista et al (2005), estas práticas de gestão do
conhecimento são relacionadas, principalmente, aos aspectos de gestão de recursos humanos,
desmembrando-se em dois tipos; a) práticas ligadas primariamente à estruturação dos
processos organizacionais e, b) práticas cujo foco central é a base tecnológica e funcional que
serve de suporte à gestão do conhecimento organizacional, incluindo automação da gestão da
informação, aplicativos e ferramentas de Tecnologia da Informação (TI) para captura, difusão
e colaboração que facilitam a transferência, a disseminação e o compartilhamento de
informações e conhecimento.
Alguns exemplos de práticas de GC são: aprendizagem organizacional, fóruns,
universidade corporativa, comunidades de prática, educação corporativa, inteligência
competitiva, lições aprendidas, mapeamento de conhecimentos, mineração de dados, gestão
eletrônica de documentos, memória organizacional, mentoring, portais corporativos, gestão de
conteúdo, dentre outros.
2.2- A Descoberta de Conhecimento em Bases de Dados
O aumento do volume de dados nas organizações tem alcançado proporções
gigantescas, com bases de dados alcançando proporções em torno de centenas de terabytes de
informações. Então, surgem alguns problemas causados com relação à essa abundância de
dados: “O que fazer com todos os dados armazenados?;Como utilizar o patrimônio digital
em benefício das instituições? E Como analisar e utilizar de maneira útil todo o volume de
dados disponível? ( GOLDSCHMIDT & PASSOS, 2005, p.1)
Continuando os autores respondem às questões supracitadas argumentando que esta
análise para o homem é inviável sem o auxílio de ferramentas computacionais apropriadas,
por isso ressaltam a importância da criação de ferramentas que auxiliem o homem, de forma
automática e inteligente, na tarefa de analisar, interpretar e relacionar esses dados para que se
possa desenvolver e selecionar estratégias de ação em cada contexto de aplicação. Então, pela
primeira vez, fala-se de Knowledge Discovery in Database (KDD) – que na língua vernácula
significa a descoberta de conhecimento em base de dados.
A Descoberta de Conhecimento em Bases de Dados, também conhecida como
Knowledge Discovery in Database (KDD), é um conjunto de procedimentos pelo qual se
analisa e transforma um conjunto de dados em conhecimento, sob a forma de padrões e regras
interessantes, fazendo utilização de técnicas automáticas para a extração destes padrões. O seu
termo foi formalizado em 1989 e uma das definições mais populares foi proposta pelos
autores Fayyad, Piatetsky-Shapiro e Smith (1996) explicitando que KDD é um processo de
várias etapas, e que a partir de grandes conjuntos de dados, são identificados padrões
compreensíveis, válidos, novos e potencialmente úteis. Estas etapas podem ser visualizadas na
Figura 1.
4
Figura 1 – As etapas do processo de KDD (Knowledge Discovery in Database).
Fonte: SANTOS e PEREIRA (2004, p.10)
As etapas que compõem a descoberta de conhecimento em base de dados
proporcionam a manipulação dos dados até que a informação útil seja revelada. Para que o
processo seja iniciado, é necessária a compreensão do domínio da aplicação e dos objetivos a
serem explorados. De acordo com os autores Goldschmidt e Passos (2005), Fayyad,
Piatetsky-Shapiro e Smith (1996), fazem parte deste processo as seguintes etapas:
•
•
•
•
Seleção de dados: refere-se à escolha das informações que devem ser
consideradas relevantes e que servirão para todo o processo;
Pré-processamento: é a preparação dos dados para os algoritmos da etapa de
mineração, com as funções de captação, organização e tratamento dos mesmos.
Compreende desde a correção de dados errados até o ajuste da formatação para
os algoritmos de mineração a serem utilizados. É a fase utilizada para a limpeza,
retirada de ruídos ou aberrações, para integração de dados heterogêneos e para
tratar os incompletos;
Mineração dos dados: consiste na principal etapa do processo de KDD. Através
da aplicação de algoritmos, o objetivo é a descoberta de padrões interessantes e
capazes de representar informações úteis e que estão ocultas na base de dados;
Interpretação e avaliação: representa a avaliação dos resultados obtidos e a
definição de novas alternativas de investigação dos dados. Contempla o
tratamento dos conhecimentos descobertos na etapa de mineração de dados. O
objetivo desta etapa é facilitar a viabilização de uma utilização prática desses
resultados descobertos.
Nas aplicações corporativas, o emprego de técnicas de mineração de dados atinge
diferentes empreendimentos – mineração em DNA, dados médicos, dados financeiros, dados
comerciais, etc; sendo utilizadas também para avaliar campanhas publicitárias, potencializar o
comércio eletrônico, avaliar e incentivar a fidelidade de clientes, entre outros.
5
2.2.1 – Mineração de Dados
Segundo Batista (2005), a mineração de dados (data mining) é uma ferramenta de
tecnologia da informação para apoio à gestão do conhecimento. Os mineradores de dados são
instrumentos com alta capacidade de associação de termos, permitindo-lhes "garimpar"
assuntos ou temas específicos.
A mineração de dados é parte de um processo maior conhecido como KDD –
Knowledge Discovery in Database - ou busca de conhecimentos em banco de dados. É a
etapa essencial do processo consistindo na aplicação de técnicas inteligentes de se extrair os
padrões de interesse e que possam representar informações úteis (AMO, 2008).
Para Amo (2008), a Mineração de Dados (MD) é um ramo da Computação que teve
início nos anos 80, quando os profissionais das empresas e organizações começaram a se
preocupar com os grandes volumes de dados estocados e inutilizados dentro da empresa.
Assim, formularam problemas em MD, agrupando-os em classes de acordo com suas
características, dando origem às tarefas de mineração de dados. Estas podem ser divididas em
duas categorias (HAN e KAMBLER, 2001):
•
•
Descritivas: as que têm como objetivo encontrar padrões que descrevam os
dados, permitindo sua análise. As principais tarefas descritivas são: Extração
de Regras de Associação, Agrupamento ou Clusterização e Sumarização.
Preditivas: aquelas que realizam inferências sobre os dados existentes para
predizerem o comportamento de novos dados. As principais tarefas preditivas
são: Classificação e Regressão.
2.2.1.1 – Regras de Associação
A Extração de Regras de Associação é uma das tarefas de mineração de dados e
consiste na busca por regras que representem relações entre itens contidos em bases de dados,
atendendo a critérios estabelecidos. Estes critérios estabelecem a relevância da regra.
Esta tarefa é considerada uma atividade descritiva ou não supervisionada, pois trabalha
com um conjunto de dados que não possuem uma classe determinada ou formulação prévia de
hipóteses. Busca identificar padrões de comportamento comuns nestes dados e, assim, exige a
participação do usuário na definição dos dados que serão analisados e na verificação do
conhecimento que será descoberto.
Um exemplo, típico e sempre lembrado na literatura, é o de uma grande empresa
varejista que a partir da utilização de um algoritmo de extração de regras de associação,
obteve a regra “às sextas-feiras no horário noturno, jovens do sexo masculino que compram
fraldas também compram cerveja” (ZANARDI, 2007). Sendo assim, a partir da regra obtida,
a empresa pôde tomar decisões estratégicas de Marketing após o estudo das informações
obtidas nas regras, como ajustar mostruários, modificar prateleiras ou propagandas, e
introduzir atividades promocionais específicas, identificando oportunidades de vendas, na
tentativa de melhorar o foco do negócio.
Uma regra forma-se pela junção de duas partes: a condição e o resultado. Geralmente
é representada por: se <condição>, então <resultado>. A condição e o resultado representam
itens, ou conjuntos de itens. Ilustrando, a regra (X
Y) indica que o conjunto expresso na
condição (X) implica, com certo grau de certeza, na presença do conjunto expresso no
resultado (Y), ou seja, “se X ocorre então Y ocorre”.
As regras de associação possuem índices que indicam sua relevância e a validade, tais
como (SILVEIRA, 2003):
6
•
•
Suporte: o fator de suporte é a percentagem de transações que incluem todos os
itens presentes nas partes, antecedente e conseqüente, da regra. O suporte de
uma regra indica sua relevância.
Confiança: o fator de confiança de uma regra representa o grau de
satisfatibilidade do conseqüente, em relação às transações que incluem o
antecedente.
Agrawal, Imielinski e Swami (1993) propuseram um modelo, em que as regras de
associação geradas devem atender a um suporte e confiança mínimo especificado pelo
decisor, decompondo o problema de geração de regras em dois sub-problemas:
•
•
Primeiro: descobrir todas as combinações de itens que tenham suporte maior
ou igual ao mínimo previamente especificado. Essas combinações de itens são
chamadas de conjunto de itens freqüentes.
Segundo: gerar as regras de associação do banco de dados utilizando os
conjuntos de itens freqüentes. A regra só será válida se a confiança da mesma
for maior ou igual à mínima predeterminada.
2.2.1.1.1- Algoritmo Apriori
O algoritmo Apriori, estudado e implementado neste trabalho, foi proposto por
Agrawal (AGRAWAL E SRIKANT, 1994), com o objetivo de minerar regras associativas em
grandes bases de dados.
Este algoritmo de extração de regras associativas é um dos mais referenciados e
difundidos na literatura, dando origem a diversos outros algoritmos na área (SCHEFFER et
al., 2001). A parametrização é feita por um suporte mínimo e uma confiança mínima, que são
especificadas pelo decisor.
Segundo Agrawal e Srikant (1994), a idéia principal deste algoritmo baseia-se nas
propriedades em que qualquer subconjunto de um conjunto de itens freqüentes deve ser
freqüente e que se um conjunto não é considerado freqüente, então nenhum conjunto que
contenha este conjunto será considerado freqüente. O algoritmo é composto por várias etapas,
conforme ilustrado na Figura 2.
Figura 2 – Pseudocódigo do algoritmo Apriori.
Fonte: SEMAAN; GRACA e DIAS (2006, p.21).
7
Onde:
- Lk é o conjunto de todos os conjuntos freqüentes de tamanho k;
- T é uma transação da base de dados;
- Ck é o conjunto de todos os conjuntos candidatos de tamanho k;
- SupMin é o valor do suporte mínimo desejado;
- ConfMin é o valor da confiança mínima desejada para as regras.
As etapas de geração, poda e validação de candidatos são constituídas por:
•
•
O algoritmo inicia suas etapas contabilizando a ocorrência dos itens,
individualmente, e em seguida elimina aqueles que não preenchem os
requisitos de suporte mínimo, assim, formando o conjunto freqüente L1;
A geração de conjuntos candidatos de tamanho k é feita a partir do conjunto
freqüente Lk-1. Os itens do conjunto Lk-1 são combinados de maneira a
aumentar a cardinalidade dos conjuntos de itens em apenas uma unidade. Os
conjuntos candidatos gerados serão analisados, sendo podados todos os
conjuntos candidatos Ck que não atendem o requisito de suporte mínimo. Os
conjuntos restantes formam o conjunto freqüente Lk;
•
A geração de conjuntos candidatos de tamanho k termina quando não houver
mais combinações a serem feitas, ou seja, quando Lk = ∅.
A etapa de geração de regras é realizada a partir dos conjuntos de itens freqüentes,
utilizando o parâmetro de confiança mínima especificado. Para cada um dos conjuntos de
itens freqüentes, são extraídos os seus subconjuntos não nulos para a formação das regras. A
regra será selecionada se a confiança da mesma for maior ou igual à confiança mínima
previamente estabelecida. O algoritmo de geração de regras está demonstrado na figura 3.
Figura 3 – Algoritmo para geração de regras
Fonte: LAVÔR (2003, p.52)
Onde:
F é o conjunto que contém todos os conjuntos freqüentes existentes.
s é o subconjunto de cada conjunto freqüente.
8
3. PROCEDIMENTOS METODOLÓGICOS
Este estudo tem como foco a construção de um software a partir de um módulo de
Associação que pudesse auxiliar no processo ensino-aprendizagem no processo ensinoaprendizagem de como o conhecimento foi gerado através da mineração de dados.
Maddison apud Avison e Fitzgerald (1997, p.418) define que a metodologia para
construção de software é composta por um conjunto recomendado de filosofias, fases,
procedimentos, técnicas, regras, ferramentas e gerenciamento para o desenvolvimento desse
sistema. Dessa forma, dentre as metodologias existentes, esse trabalho utilizou, para atingir o
seu objetivo, a abordagem proposta pelo modelo em cascata e as técnicas metodológicas
pesquisa de bibliográfica e questionário.
O modelo em cascata assume que os sistemas têm um ciclo de vida semelhante ao de
qualquer produto, sendo composto por início, meio e fim e que cada etapa do ciclo de vida,
pressupõe atividades que devem ser completadas antes do início da próxima etapa.
Assim, a ferramenta foi construída seguindo as atividades típicas proposta pelo
modelo em cascata (LEITE, 2008), que consiste nas seguintes etapas:
1. Análise e definição dos requisitos: nesta etapa foi realizada a captura das
informações sobre o domínio do problema, com base no conhecimento
adquirido na literatura pertinente, para posteriormente traduzi-la em telas de
ação e fluxogramas de decisão. Logo após, foi proposta a especificação da
ferramenta e a indicação do que deve ser implementado, delimitando o campo
de trabalho do sistema com os objetivos e restrições detalhadas;
2. Design do software: etapa que consiste na descrição e indicação de como a
ferramenta deverá ser implementada;
3. Implementação e testes de unidade: o módulo da ferramenta foi desenvolvido
utilizando a linguagem de programação Java. Junior (1999) define Java como
uma linguagem de programação orientada a objetos, desenvolvida pela Sun
Microsystems e introduzida no mercado em 1995. O ambiente de
desenvolvimento (IDE)i utilizado foi o Eclipse. Marinho (2006) pontua que o
Eclipse, escrito na linguagem Java, é uma plataforma de desenvolvimento de
código aberto e extensível. O algoritmo Apriori, estudado e implementado
neste trabalho, foi proposto por Agrawal (AGRAWAL E SRIKANT, 1994),
com o objetivo de minerar regras associativas em grandes bases de dados. A
etapa de geração de regras é realizada a partir dos conjuntos de itens
freqüentes, utilizando o parâmetro de confiança mínima especificado. Para
cada um dos conjuntos de itens freqüentes, são extraídos os seus subconjuntos
não nulos para a formação das regras. A regra será selecionada se a confiança
da mesma for maior ou igual à confiança mínima previamente estabelecida
pelo usuário. A ferramenta em questão tem o propósito de, através de uma
interface simples, ou seja, tendo os componentes básicos, facilitar o seu uso e
ser útil no processo de ensino-aprendizado de como o conhecimento foi gerado
por uma tarefa de mineração de dados como ilustrado na figura 4. O modelo
proposto para a implementação utiliza a estrutura hashii para armazenamento
de conjuntos e suportes, assim, todas as operações necessárias para a geração
de regras de associação serão executadas na memória principal. O módulo
Associação da ferramenta realiza suas operações com a entrada de dados de um
arquivo com extensão “.ARFF”iii;
9
4. Manutenção: este procedimento envolveu a correção de erros apresentados
durante os testes realizados.
Figura 4 – Interface de saída das regras de associação.
Fonte: Dados da pesquisa, 2010.
Seguidos todos os procedimentos necessários para a criação da ferramenta de
mineração de dados, esta recebeu o nome de Eduminer (ferramenta educacional de
mineração).
Criada a ferramenta é preciso que seja testada a sua usabilidade para verificar se vai
atingir a sua proposta. Para tanto foi determinada uma amostra de estudantes do curso de
Sistemas de Informação da Universidade Federal de Outro Preto (MG), Campus João
Monlevade (MG), que cursavam o oitavo período, representando cerca de 32% da população.
A escolha desta amostra se justifica por serem alunos que já haviam cursado
disciplinas relacionadas à temática, e, por estarem trabalhando ou estagiando, ou seja,
ingressados no mercado de trabalho e convivendo com o ambiente competitivo e com
importância da geração de conhecimentos. Dessa forma poderiam testar a ferramenta e levar o
conhecimento gerado também para as empresas.
A pesquisa foi composta por duas etapas. Na primeira, os estudantes fizeram testes
com a ferramenta com várias bases de dados e com diversos valores de parâmetros (suporte e
confiança). Na segunda, responderam um pequeno questionário sobre a ferramenta quanto ao
cumprimento da proposta e a usabilidade.
4.RESULTADOS
4.1- Características da ferramenta
Para atingir o objetivo proposto neste estudo, desenvolveu-se uma ferramenta,o
Eduminer, cuja proposta era uma interface de fácil utilização, fazendo com que o usuário
tenha uma maior produtividade, aprendendo mais rápido a uzá-la e memorizando as
operações.
Após selecionar a fonte de dados, o usuário terá as outras funções habilitadas: a
definição da parametrização requerida pelo algoritmo implementado – os parâmetros de
suporte e confiança; a maneira que deseja realizar o processamento do algoritmo. Nesse caso
da escolha do processamento, o usuário poderá escolher entre o processamento completo do
10
algoritmo com posterior exibição das regras encontradas e a execução passo a passo do
algoritmo, ou seja, cada iteração realizada como apresenta a figura 2 no referencial teórico,
que permite a visualização de cada etapa da sua execução (Figura 5).
Figura 5 – Tela de resultados das Iterações do Algoritmo Apriori
Fonte: Dados da pesquisa, 2010.
Na tela apresentada na Figura 2, nos procedimentos metodológicos, o usuário visualiza
além das informações de cada iteração do algoritmo escolhido da tarefa de mineração de
dados, os valores escolhidos de suporte e confiança mínima, o que o possibilita verificar que o
suporte dos conjuntos e a confiança das regras respeitam os valores que estabelecidos.
Desse modo, poderá ser feito o acompanhamento de como são feitas as combinações
até a geração das regras, pois ao final das iterações, uma mensagem de finalização é exibida
na tela e, em seguida, são apresentadas todas as regras extraídas com seus respectivos valores
de suporte e confiança. .
Os resultados são exibidos para o usuário no formato de regras que são o
conhecimento gerado, ou seja, a relação entre os elementos. As regras estão no formato
padronizado: X Y, ou seja, se X ocorre então Y ocorre, como ilustrado na Figura 6:
11
Figura 6 – Saída das regras de associação
Fonte: Dados da pesquisa, 2010
Com o intuito de avaliar a implementação dos algoritmos, foram efetuados testes com
algumas bases de dados sintéticas, ou seja, bases que foram criadas apenas para realização
destes testes. O número de transações contidas nestes arquivos varia de 10 a 80 instâncias.
Para verifica a corretude das regras geradas, foram realizados vários testes com uma mesma
base de dados e mesma parametrização para suporte e confiança na ferramenta EduMiner e na
ferramenta Weka (UNIVERSITY WAIKATO, 2004). A ferramenta Weka é um pacote
desenvolvido pela Universidade de Waikato, em 1993, elaborado em linguagem Java, que
possui um conjunto de implementações de algoritmos de diversas técnicas de Mineração de
Dados.
Os resultados obtidos nesta comparação demonstraram que a ferramenta EduMiner
opera de maneira correta, na geração de regras e nos cálculos de suporte e confiança, por
apresentar exatamente os mesmos resultados de regras geradas e destes parâmetros na
ferramenta Weka.
4.2 Ambiente de ensino-aprendizagem
Os resultados obtidos na aplicação dos questionários aos estudantes mostraram que a
proposta de se construir o módulo dessa ferramenta foi cumprida. Além disso, testes
comprovaram que o software apresenta corretude em suas regras geradas. Os resultados da
pesquisa foram obtidos pelas respostas adquiridas no questionário. As perguntas foram
baseadas em:
• Cumprimento da proposta da ferramenta: se a maneira que a ferramenta foi
planejada e implementada consegue cumprir o objetivo proposto e 87,5% dos
32% dos alunos entrevistados, responderam que cumpre plenamente.
• O auxílio que módulo Associação oferece no processo de aprendizagem dos
usuários: 75% da amostra responderam que o módulo auxilia amplamente no
aprendizado.
• Quanto à usabilidade do módulo: 87,5% da amostra responderam que o módulo
apresenta uma interface simples e intuitiva para uso.
12
Assim, de acordo com os respondentes do questionário e aqueles que testaram a
ferramenta Eduminer , o módulo realmente é de fácil utilização e contribui no processo de
esniso-aprendizagem do algoritmo implementado.
5.CONSIDERAÇÕES FINAIS
A quantidade de dados produzidos pela humanidade cresce desenfreadamente e, assim,
o ser humano não é mais capaz de armazenar e processar toda essa massa de dados de maneira
não automatizada. Nesse contexto, surgem inúmeras ferramentas computacionais que tem a
finalidade de auxiliar o homem na descoberta de conhecimento, ou seja, aproveitar essas
informações, transformando-a em conhecimentos úteis e valiosos para o processo decisório
nas organizações. Quanto maior a compreensão e a capacidade de uma organização gerar
conhecimento mais eficaz será o desenvolvimento de seus objetivos estratégicos.
A mineração de dados, uma prática de gestão do conhecimento, corrobora com o
processo de criação do conhecimento e consequentemente, geração de resultados para a
organização e benefícios para os colaboradores.
O presente trabalho apresentou o módulo de Associação da ferramenta EduMiner,
sendo implementado o algoritmo Apriori. A proposta desta pesquisa foi desenvolver e
implementar uma ferramenta baseada no processo de mineração de dados, utilizando a tarefa
de regras de associação, que viabilizasse o ensino e a aprendizagem dos alunos de graduação
e pós-graduação de cursos afins a essa temática, tais como: Sistemas de Informação,
Administração de Empresas, Ciência da Informação, Ciência da Computação, dentre outros; e
profissionais de organizações, especialmente, gestores que lidam com o processo de tomada
de decisões.
A ferramenta foi construída de forma a possibilitar aos usuários o entendimento de
como as informações são trabalhas na geração do conhecimento, dada a relevância de que o
conhecimento gerado pode agregar valor ao negócio.
Os resultados obtidos tanto no teste quanto na pesquisa comprovaram que a ferramenta
EduMiner atendeu ao objetivo proposto. por apresentar exatamente os mesmos resultados de
regras geradas e destes parâmetros na ferramenta Weka. Quanto à sua aplicabilidade os
estudantes (da amostra) demonstraram que o objetivo da pesquisa foi alcançado. Além disso,
testes comprovaram que o software apresenta corretude em suas regras geradas.
Melhorias podem ser realizadas nessa ferramenta e, principalmente, nesse módulo.
Neste sentido, são sugestões de trabalhos futuros: a implementação de outras tarefas de
mineração de dados e o acréscimo de um módulo para pré-processar os dados na ferramenta
Eduminer, e com relação ao módulo de Associação, sugere-se implementar outros algoritmos
da tarefa de Extração de Regras de Associação, aumentando a oportunidade de aprendizado
desta tarefa.
Este estudo contribui tanto na área acadêmica quanto na profissional. A rotina de se
ensinar com a utilização de softwares, na “Era da Informação” e, mais recentemente, na atual
“Era do Conhecimento”, é uma condição necessária e eficaz para modificar o estoque mental
e cognitivo do usuário, seja ele um aluno de graduação ou pós-graduação, seja um
profissional que se dedique a trabalhos em organizações públicas ou privadas.
Para o mercado, as contribuições deste software são significativas por fornecer ao
gestor além de um conhecimento útil, a possibilidade de entender como ele foi criado,
proporcionando maior confiabilidade em utilizá-lo no processo decisório.
13
REFERÊNCIAS BIBLIOGRÁFICAS
AMO, S.; Técnicas de Mineração de Dados, Universidade Federal de Uberlândia.
Disponivel em: <www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf>. Acessado em: 19 de março
de 2008.
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules between Sets of
Items in Large Databases. Proceedings of the ACM SIGMOD Conference. Washington,
USA, May 1993.
AGRAWAL R., SRIKANT R., Fast Algorithms for Mining Association Rules, Proc. of the
20th Int’l Conference on Very Large Databases. Santiago, Chile, set. 1994.
AGARWAL, R.; AGGARWAL, C. C; PRASAD, V. V. V.; A Tree Projection Algorithm
for Generation of Frequent Itemset, Journal of Parallel and Distributed Computing,
2000.
BATISTA, F. F.; QUANDT, C. O.; PACHECO, F. F.; TERRA, J. C. C.Gestão do
Conhecimento na Administração Pública. Brasília, junho de 2005. Disponível em: <
http://www.terraforum.com.br/biblioteca/Documents/libdoc00000229v001relatorio_ipea.pdf>
Acesso em 10 de junho de 2010.
CAMPOS S.; LEAL F.; HENRIQUE J.; BORBA P.; “Introdução ao Eclipse”, Centro de
Informática
Universidade
Federal
de
Pernambuco.
Disponível
em:
<www.cin.ufpe.br/~phmb/ip/MaterialDeEnsino/IntroducaoAoEclipse/IntroducaoAoEclipse.ht
m> Acessado em 14 de maio de 2008.
CESCONETO, C.; OLIVEIRA, A. S. “Estruturas de Dados – Hash”, 2006. Disponível em:
<sites.facensa.com.br/diogo/files/transfer/Tabela%20hash2.doc> Acessado em: 03 de março
de 2008.
DAVENPORT, T., PRUSAK, L. Conhecimento empresarial. Rio de Janeiro: Campus,
1999. 237p. Ecologia da informação: por que só a tecnologia não basta para o sucesso na era
da informação. São Paulo: Futura, 1998.
DBMINER
TECHNOLOGY,
DBMiner,
2002,
< http://www.dbminer.com/> Acessado em: 05 de março de 2008.
Disponível
em:
DRUCKER, Peter F. As Novas realidades. 4ed. São Paulo, Pioneira, 1997.
FAYYAD, U. M.; PIATETSKY-SHAPIRO G., SMITH P., From Data Mining to Knowledge
Discovery: An Overview, Advances in Knowledge Discovery and Data Mining,
AAAI/MIT Press, 1-34, 1996.
GOLDSCHMIDT, R.; PASSOS, E.; Data Mining Um guia prático; 2005, Elsevier Editora
Ltda, p. 1-66.
HAN,J.; KAMBLER M.; Data Mining Concepts and Techniques, Second Edition, The
Morgan Kaufmaann Series in Data Management System, p.1-17, 2001.
14
HAN, J.; FU, Y.; WANG, W.; CHIANG, J.; GONG, W.; KOPERSKI, K.; LI, D.; LU, Y.;
RAJAN, A.; STEFANOVIC N.; XIA, B.; ZAIANE, O. R.; DBMiner: A System for Mining
Knowledge in Large Relational Databases, Proceedings of the 1996 International
Conference on Data Mining and Knowledge Discovery - KDD’96, 250–255, 1996.
IBM
CORPORATION,;
DB2
Intelligent
Miner,
Disponível
<http://www.software.ibm.com/data/iminer/, 2004> Acessado em 05 de abril de 2008.
em:
INC. SPSS, Clementine, 2004. Disponível em : < http://www.spss.com/ clementine/>
Acessado em: 06 de abril de 2008.
J. JUNIOR, P. Introdução ao Java - Núcleo de Educação a Distância – Universidade São
Francisco, 1999. Disponível: <http://apostilas.netsaber.com.br/ver_apostila_c_158.html>
Acessado em: 24 de julho de 2008.
LAVOR, R. M. P. Implementação de serviços relacionados a mineração de regras de
associação. Universidade Federal do Rio de Janeiro – Instituto de Matemática, Tese de
Mestrado, 2003.
LEUCH, V. Práticas de Gestão do Conhecimento em Indústrias de grande porte dos
Campos Gerais. 2006. Dissertação (Mestrado em Engenharia de Produção) - Programa de
Pós-Graduação em Engenharia de Produção,UTFPR - Ponta Grossa – PR, 2006.
LEITE,
J.
C.
Engenharia
de
Software.
2008.
Disponível
em:
<http://www.dimap.ufrn.br/~jair/ES/slides/ModelosDeProcesso.pdf >. Acessado em: julho de
2010.
MARCHIORI, Patricia Zeni. A ciência e a gestão da informação: compatibilidades no espaço
profissional. Ci. Inf. [online]. 2002, vol.31, n.2, pp. 72-79. ISSN 0100-1965.
MENDES, T. M.; Gestão Do Conhecimento Da Informação, 2006. Disponível em: < http://
www.al.sp.gov.br/StaticFile/ilp/texto_aula_gestao_do_conhecimento.pdf> Acesso em: 11 de
junho de 2010.
MARINHO, E. Introdução a plataforma Eclipse. Universidade Federal de Ouro Preto DECEA, Apostila didática, 2006.
MEGAPUTER
INTELLIGENCE,;
PolyAnalyst
4.6,
2004.
Disponível
em:
<http://www.megaputer.com/products/pa/index.php3> Acessado em: 06 de abril de 2008.
MENDES, T. M.; Gestão Do Conhecimento Da Informação, 2006. Disponível em: < http://
www.al.sp.gov.br/StaticFile/ilp/texto_aula_gestao_do_conhecimento.pdf> Acesso em: 11 de
junho de 2010.
ORACLE CORPORATION.; Oracle Data Mining, 2004. Disponível
<http://otn.oracle.com/products/bi/odm/index.html> Acesso em 05 de abril de 2008.
em:
PADOVEZE, C. L. Contabilidade gerencial: um enfoque e sistemas de informação
contábil. – São Paulo: Atlas, 1997.
15
SAS
INSTITUTE;
Enterprise
Miner,
2004.
Disponível
em:
<http://www.sas.com/technologies/analytics/datamining/miner/> Acessado em: 05 de abril de
2008.
SANTOS, L. F. M.; PEREIRA, R. M.; “Ferramenta Midas-UFF: Módulo de
Classificação”, Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) Universidade Federal Fluminense, 2004.
SCHEFFER, T. et al., Finding association rules that trade support optimally against
confidence. In: PKDD 2001: principles of data mining and knowledge discovery, European
conference on principles of data mining and knowledge discovery, 2001.
SEMAAN, G. S. ; GRACA, A. A. ; DIAS, C. R. . Descoberta de associações em dados.
Revista eletrônica da Faculdade Metodista Granbery, 2006.
SILVEIRA, R. de FREITAS. Mineração de Dados Aplicada à Definição de Índices em
Sistemas de Raciocínio Baseado em Casos. UFRGS, 2003.
THE UNIVERSITY OF WAIKATO, Weka 3: Data Mining Software in Java, Disponível
em: <http://www.cs.waikato.ac.nz/ml/weka/> Acessado em: 25 de Janeiro de 2008
WITTEN, I. H.; FRANK, E., “Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations”, Morgan Kaufmann, 2ª edição, 2005.
ZANARDI, L. A. Data mining: estudo e aplicação de algoritmos de data mining; Trabalho
de conclusão de curso.100f. Fernandópolis, 2007.
i
Um IDE – Integrated Development Environment (Ambiente de desenvolvimento integrado) - consiste em um
software que contém um conjunto de funcionalidades embutidas, cuja finalidade é prover um modo mais fácil e
interativo de construir e manipular seus programas. (CAMPOS et.al.,2008)
ii
Em Ciência da Computação, a tabela hash é uma estrutura de dados especial, que associa chaves de pesquisa
(hash) a valores. Seu objetivo é, a partir de uma chave simples, fazer uma busca rápida e obter o valor desejado.
(CESCONETO, 2006)
iii
Um arquivo no formato “.ARFF” é um arquivo de texto puro, composto pelas partes: relação, atributo e dados.
O arquivo pode, também, conter comentários, os quais são representados por linhas iniciadas com o sinal de
porcentagem (%).(WITTEN e FRANK, 2005)
16
Download