EduMiner: Um software para Auxílio no Processo de Ensino– Aprendizagem do Conhecimento Gerado pela Mineração de Dados Autoria: Alana Deusilan Sester Pereira, Clarice Pereira de Paiva Ribeiro, Luiz Henrique de Campos Merschmann RESUMO Com as transformações promovidas pela “Era da Informação” muitas organizações passaram a adotar as ferramentas computacionais como grandes precursores e responsáveis pelo valor adicional às tomadas de decisões, armazenando uma grande quantidade de dados. Tornou-se imprescindível transformar essas grandes massas de dados em conhecimentos úteis para a obtenção de vantagem competitiva agregando valor aos negócios. Mas, para que haja conhecimento é necessário que a informação seja disponibilizada de maneira eficiente e que sejam utilizados processos para transformação dessa informação. Neste contexto, uma questão é levantada: é possível criar e implementar um software que contribua no processo ensinoaprendizagem de como o conhecimento foi gerado através da mineração de dados? Buscando respostas, definiu-se como objetivo geral deste trabalho a apresentação de um módulo de ferramenta de mineração de dados que auxiliasse os usuários no processo de ensino-aprendizado na compreensão de como as informações são trabalhadas na geração de conhecimento e que pudessem facilitar a tomada de decisão no processo decisório empresarial. Para a construção do software foi escolhida a tarefa de extração de Regras de Associação. Como metodologia utilizou-se a abordagem proposta pelo modelo em cascata, consistindo nas etapas: análise e definição dos requisitos, design do software, implementação, testes de unidade e manutenção. Seguintes estes procedimentos construiu-se o Eduminer. Para testar sua usabilidade, foi definida uma amostra de 32% dos estudantes do curso de Sistemas de Informação da Universidade Federal de Outro Preto (MG). Primeiramente, testaram o Eduminer com várias bases de dados e com diversos valores de parâmetros (suporte e confiança). Os resultados obtidos nos testes demonstraram que ele opera de maneira correta na geração de regras e nos cálculos de suporte e confiança, por apresentar exatamente os mesmos resultados de regras geradas e destes parâmetros na ferramenta Weka. Posteriormente, os estudantes responderam a um questionário sobre a ferramenta quanto ao cumprimento de sua proposta e usabilidade. Segundo os respondentes sua interface é de fácil utilização, fazendo com que o usuário tenha uma maior produtividade, aprendendo mais rápido a usá-la e memorizando as operações. A partir dos dados apurados nesta pesquisa, pode-se inferir que o software cumpriu sua proposta de criação e sua implementação teve boa aceitação pelo usuário. Portanto, o Eduminer contribuiu para o processo de ensinoaprendizagem tanto na área acadêmica quanto na profissional. A rotina de se ensinar com a utilização de softwares, é uma condição necessária e eficaz para modificar o estoque mental e cognitivo do usuário, seja ele um aluno de graduação ou pós-graduação, ou um profissional que se dedique a trabalhos em organizações públicas ou privadas. As contribuições deste software são significativas por fornecer ao gestor além de um conhecimento útil, a possibilidade de entender como ele foi criado, proporcionando maior confiabilidade em utilizá-lo no processo decisório, como vantagem competitiva. 1 1. INTRODUÇÃO Em diversos segmentos do mercado, as organizações buscam recursos tecnológicos que apóiem seus processos de tomada de decisões e auxiliem na estratégia empresarial. As transformações decorrentes do desenvolvimento tecnológico nas áreas de informação afetam significativamente a sociedade. Com isso, as organizações passam a adotar as ferramentas computacionais como grandes precursores e responsáveis pelo valor adicional às tomadas de decisões. Considerando que a quantidade de dados armazenados em sistemas computacionais tem aumentado significativamente, torna-se essencial transformar essas grandes massas de dados em conhecimentos úteis. Dessa maneira, torna-se possível, a partir de informações valiosas obter vantagem competitiva e agregar valor aos negócios. Sendo assim, quanto maior a compreensão e a capacidade de uma organização coletar, armazenar, criar, distribuir, sedimentar e gerar conhecimento, mais eficaz será o desenvolvimento de seus objetivos estratégicos (MENDES, 2007). Neste cenário, gerenciar o conhecimento torna-se uma estratégia crucial para as organizações. Não há uma única definição para a Gestão do Conhecimento (GC). Para Fresneda et al (2009) e Leuch (2006), a GC não significa gerir os conhecimentos das pessoas, e sim facilitar os processos pelos quais esse conhecimento é criado, compartilhado e utilizado na organização e, assim, a partir das “práticas de GC” é possível identificar como a gestão do conhecimento está sendo realizada na organização. Nesse contexto destaca-se o data Mining, na língua vernácula, a mineração de dados, uma prática de GC que auxilia os usuários finais, da maioria dos segmentos empresariais, a extrair informações estratégicas de seus negócios que estão residentes em grandes bancos de dados. Desde a década de 1960, os Bancos de Dados e a Tecnologia de Informação têm evoluído sistematicamente de sistemas de processamento de arquivos primitivos para sofisticados e poderosos sistemas de bancos de dados. Segundo Han e Kambler (2001), a mineração de dados pode ser vista como resultado da evolução natural da Tecnologia da Informação. Surgiu a partir da criação de técnicas e ferramentas computacionais para descoberta de conhecimentos reunindo diversas técnicas com destaque para as Estatísticas (comumente utilizadas na avaliação e validação de resultados), Banco de Dados (recursos para manipular grandes bases de dados) e de Inteligência Artificial, especialmente, Aprendizagem de Máquina, capazes de descobrir conhecimentos e gerar informações inéditas. O número de ferramentas computacionais que implementam algoritmos de mineração de dados, para solucionar diversos problemas, cresce consideravelmente devido às pesquisas realizadas nesta área. Como exemplos de ferramentas têm-se: Intelligent Miner (IBM CORPORATION, 2004), integrada ao DB2, da IBM Corporation; e a Oracle Data Mining (ORACLE CORPORATION, 2004), integrada ao Oracle 10g, da Oracle Corporation, Clementine (Inc. SPSS, 2004), da SPSS Inc., a Enterprise Miner (SAS INSTITUTE, 2004), do SAS Institute, a PolyAnalyst (MEGAPUTER INTELLIGENCE, 2004), da Megaputer Intelligence Inc. entre outras. Algumas universidades também têm desenvolvido ferramentas como produto de suas pesquisas. São exemplos a Simon Fraser University, do Canadá, que desenvolveu a DBMiner (HAN et al, 1996; DBMINER TECHNOLOGY, 2002), a Waikato University, da Nova Zelândia, que desenvolveu a WEKA - Waikato Environment for Knowledge Analysis (WAIKATO UNIVERSITY, 2004) e a Universidade Federal Fluminense, no Brasil, que está desenvolvendo a Midas-UFF (SANTOS e PEREIRA, 2004). 2 Apesar da grande quantidade de ferramentas de Mineração de Dados disponível, estudos literários mostram que nenhuma delas possui como foco demonstrar ao usuário como o resultado gerado por uma técnica de mineração de dados foi construído e, principalmente, exibir como as informações existentes naquela base de dados são trabalhadas para gerar conhecimento. A partir dessas exposições, chegou-se ao seguinte questionamento norteador desta pesquisa: é possível criar e implementar um software que contribua no processo de ensinoaprendizagem do conhecimento que foi gerado pelo processo de mineração de dados? Buscando as respostas definiu-se como objetivo geral deste trabalho a apresentação de uma ferramenta de mineração de dados que auxilie os usuários no processo de ensinoaprendizado para compreensão de como as informações são trabalhadas na geração do conhecimento e que, consequentemente, facilite o processo decisório empresarial. Para atingir esse objetivo, dentre as tarefas existentes de mineração de dados, foi escolhida a tarefa de Regras de Associação devido à sua relevância no processo de tomada de decisão, já que consiste na busca por regras que representem relações entre itens contidos em bases de dados. Destarte, o propósito deste estudo se estende a auxiliar estudantes de graduação e pósgraduação de cursos afins que necessitam entender melhor sobre mineração de dados; bem como para gestores de organizações. 2. REFERENCIAL TEÓRICO 2.1- Gestão do Conhecimento Para Davenport e Prusak (1999), é essencial que as organizações saibam definir o que são dados, informações e conhecimento, sendo que o sucesso ou o fracasso organizacional muitas vezes pode depender da aplicação desses elementos para solução de problemas e tomada de decisões. Assim, os dados não sustentam a estruturação necessária para a tomada de decisões por serem ainda elementos em sua forma bruta, não conduzindo a nenhuma compreensão do fato ou da situação. Para serem úteis, é preciso a realização de análises e transformações, gerando assim uma informação. A informação auxilia o processo decisório. Padoveze (2000, p. 43), evidencia que a “informação é o dado que foi processado e armazenado de forma compreensível para seu receptor e que apresenta valor real percebido para suas decisões correntes ou prospectivas”. Drucker (1997) afirma que o conhecimento é a informação eficaz em ação, focalizada em resultados, é a ferramenta apta para tornar o conhecimento produtivo. Para Nonaka (1994) o conhecimento é informação que foi interpretada, categorizada, aplicada, revisada e a análise dessa informação produz o conhecimento que pode ser aplicável a soluções de problemas e tomadas de decisões. Com isso, para que haja a conhecimento é necessário que a informação seja disponibilizada de maneira eficiente e que sejam utilizados processos ou mecanismos para transformação dessa informação. Segundo Mendes (2007) se obtém conhecimento através da gestão do saber das pessoas da organização, dos seus talentos, das suas experiências, articulando-os e potencializando-os, utilizando-se para tanto de tecnologia de informação e comunicação adequadas às características da instituição. Na visão de Terra (2005), GC significa organizar as principais políticas, processos e ferramentas gerenciais e tecnológicas à luz de uma melhor identificação, validação, disseminação, compartilhamento e uso dos conhecimentos estratégicos para gerar resultados para a empresa e benefícios para os colaboradores. 3 As práticas de gestão do conhecimento demonstram como as organizações gerenciam o conhecimento. De acordo com Batista et al (2005), estas práticas de gestão do conhecimento são relacionadas, principalmente, aos aspectos de gestão de recursos humanos, desmembrando-se em dois tipos; a) práticas ligadas primariamente à estruturação dos processos organizacionais e, b) práticas cujo foco central é a base tecnológica e funcional que serve de suporte à gestão do conhecimento organizacional, incluindo automação da gestão da informação, aplicativos e ferramentas de Tecnologia da Informação (TI) para captura, difusão e colaboração que facilitam a transferência, a disseminação e o compartilhamento de informações e conhecimento. Alguns exemplos de práticas de GC são: aprendizagem organizacional, fóruns, universidade corporativa, comunidades de prática, educação corporativa, inteligência competitiva, lições aprendidas, mapeamento de conhecimentos, mineração de dados, gestão eletrônica de documentos, memória organizacional, mentoring, portais corporativos, gestão de conteúdo, dentre outros. 2.2- A Descoberta de Conhecimento em Bases de Dados O aumento do volume de dados nas organizações tem alcançado proporções gigantescas, com bases de dados alcançando proporções em torno de centenas de terabytes de informações. Então, surgem alguns problemas causados com relação à essa abundância de dados: “O que fazer com todos os dados armazenados?;Como utilizar o patrimônio digital em benefício das instituições? E Como analisar e utilizar de maneira útil todo o volume de dados disponível? ( GOLDSCHMIDT & PASSOS, 2005, p.1) Continuando os autores respondem às questões supracitadas argumentando que esta análise para o homem é inviável sem o auxílio de ferramentas computacionais apropriadas, por isso ressaltam a importância da criação de ferramentas que auxiliem o homem, de forma automática e inteligente, na tarefa de analisar, interpretar e relacionar esses dados para que se possa desenvolver e selecionar estratégias de ação em cada contexto de aplicação. Então, pela primeira vez, fala-se de Knowledge Discovery in Database (KDD) – que na língua vernácula significa a descoberta de conhecimento em base de dados. A Descoberta de Conhecimento em Bases de Dados, também conhecida como Knowledge Discovery in Database (KDD), é um conjunto de procedimentos pelo qual se analisa e transforma um conjunto de dados em conhecimento, sob a forma de padrões e regras interessantes, fazendo utilização de técnicas automáticas para a extração destes padrões. O seu termo foi formalizado em 1989 e uma das definições mais populares foi proposta pelos autores Fayyad, Piatetsky-Shapiro e Smith (1996) explicitando que KDD é um processo de várias etapas, e que a partir de grandes conjuntos de dados, são identificados padrões compreensíveis, válidos, novos e potencialmente úteis. Estas etapas podem ser visualizadas na Figura 1. 4 Figura 1 – As etapas do processo de KDD (Knowledge Discovery in Database). Fonte: SANTOS e PEREIRA (2004, p.10) As etapas que compõem a descoberta de conhecimento em base de dados proporcionam a manipulação dos dados até que a informação útil seja revelada. Para que o processo seja iniciado, é necessária a compreensão do domínio da aplicação e dos objetivos a serem explorados. De acordo com os autores Goldschmidt e Passos (2005), Fayyad, Piatetsky-Shapiro e Smith (1996), fazem parte deste processo as seguintes etapas: • • • • Seleção de dados: refere-se à escolha das informações que devem ser consideradas relevantes e que servirão para todo o processo; Pré-processamento: é a preparação dos dados para os algoritmos da etapa de mineração, com as funções de captação, organização e tratamento dos mesmos. Compreende desde a correção de dados errados até o ajuste da formatação para os algoritmos de mineração a serem utilizados. É a fase utilizada para a limpeza, retirada de ruídos ou aberrações, para integração de dados heterogêneos e para tratar os incompletos; Mineração dos dados: consiste na principal etapa do processo de KDD. Através da aplicação de algoritmos, o objetivo é a descoberta de padrões interessantes e capazes de representar informações úteis e que estão ocultas na base de dados; Interpretação e avaliação: representa a avaliação dos resultados obtidos e a definição de novas alternativas de investigação dos dados. Contempla o tratamento dos conhecimentos descobertos na etapa de mineração de dados. O objetivo desta etapa é facilitar a viabilização de uma utilização prática desses resultados descobertos. Nas aplicações corporativas, o emprego de técnicas de mineração de dados atinge diferentes empreendimentos – mineração em DNA, dados médicos, dados financeiros, dados comerciais, etc; sendo utilizadas também para avaliar campanhas publicitárias, potencializar o comércio eletrônico, avaliar e incentivar a fidelidade de clientes, entre outros. 5 2.2.1 – Mineração de Dados Segundo Batista (2005), a mineração de dados (data mining) é uma ferramenta de tecnologia da informação para apoio à gestão do conhecimento. Os mineradores de dados são instrumentos com alta capacidade de associação de termos, permitindo-lhes "garimpar" assuntos ou temas específicos. A mineração de dados é parte de um processo maior conhecido como KDD – Knowledge Discovery in Database - ou busca de conhecimentos em banco de dados. É a etapa essencial do processo consistindo na aplicação de técnicas inteligentes de se extrair os padrões de interesse e que possam representar informações úteis (AMO, 2008). Para Amo (2008), a Mineração de Dados (MD) é um ramo da Computação que teve início nos anos 80, quando os profissionais das empresas e organizações começaram a se preocupar com os grandes volumes de dados estocados e inutilizados dentro da empresa. Assim, formularam problemas em MD, agrupando-os em classes de acordo com suas características, dando origem às tarefas de mineração de dados. Estas podem ser divididas em duas categorias (HAN e KAMBLER, 2001): • • Descritivas: as que têm como objetivo encontrar padrões que descrevam os dados, permitindo sua análise. As principais tarefas descritivas são: Extração de Regras de Associação, Agrupamento ou Clusterização e Sumarização. Preditivas: aquelas que realizam inferências sobre os dados existentes para predizerem o comportamento de novos dados. As principais tarefas preditivas são: Classificação e Regressão. 2.2.1.1 – Regras de Associação A Extração de Regras de Associação é uma das tarefas de mineração de dados e consiste na busca por regras que representem relações entre itens contidos em bases de dados, atendendo a critérios estabelecidos. Estes critérios estabelecem a relevância da regra. Esta tarefa é considerada uma atividade descritiva ou não supervisionada, pois trabalha com um conjunto de dados que não possuem uma classe determinada ou formulação prévia de hipóteses. Busca identificar padrões de comportamento comuns nestes dados e, assim, exige a participação do usuário na definição dos dados que serão analisados e na verificação do conhecimento que será descoberto. Um exemplo, típico e sempre lembrado na literatura, é o de uma grande empresa varejista que a partir da utilização de um algoritmo de extração de regras de associação, obteve a regra “às sextas-feiras no horário noturno, jovens do sexo masculino que compram fraldas também compram cerveja” (ZANARDI, 2007). Sendo assim, a partir da regra obtida, a empresa pôde tomar decisões estratégicas de Marketing após o estudo das informações obtidas nas regras, como ajustar mostruários, modificar prateleiras ou propagandas, e introduzir atividades promocionais específicas, identificando oportunidades de vendas, na tentativa de melhorar o foco do negócio. Uma regra forma-se pela junção de duas partes: a condição e o resultado. Geralmente é representada por: se <condição>, então <resultado>. A condição e o resultado representam itens, ou conjuntos de itens. Ilustrando, a regra (X Y) indica que o conjunto expresso na condição (X) implica, com certo grau de certeza, na presença do conjunto expresso no resultado (Y), ou seja, “se X ocorre então Y ocorre”. As regras de associação possuem índices que indicam sua relevância e a validade, tais como (SILVEIRA, 2003): 6 • • Suporte: o fator de suporte é a percentagem de transações que incluem todos os itens presentes nas partes, antecedente e conseqüente, da regra. O suporte de uma regra indica sua relevância. Confiança: o fator de confiança de uma regra representa o grau de satisfatibilidade do conseqüente, em relação às transações que incluem o antecedente. Agrawal, Imielinski e Swami (1993) propuseram um modelo, em que as regras de associação geradas devem atender a um suporte e confiança mínimo especificado pelo decisor, decompondo o problema de geração de regras em dois sub-problemas: • • Primeiro: descobrir todas as combinações de itens que tenham suporte maior ou igual ao mínimo previamente especificado. Essas combinações de itens são chamadas de conjunto de itens freqüentes. Segundo: gerar as regras de associação do banco de dados utilizando os conjuntos de itens freqüentes. A regra só será válida se a confiança da mesma for maior ou igual à mínima predeterminada. 2.2.1.1.1- Algoritmo Apriori O algoritmo Apriori, estudado e implementado neste trabalho, foi proposto por Agrawal (AGRAWAL E SRIKANT, 1994), com o objetivo de minerar regras associativas em grandes bases de dados. Este algoritmo de extração de regras associativas é um dos mais referenciados e difundidos na literatura, dando origem a diversos outros algoritmos na área (SCHEFFER et al., 2001). A parametrização é feita por um suporte mínimo e uma confiança mínima, que são especificadas pelo decisor. Segundo Agrawal e Srikant (1994), a idéia principal deste algoritmo baseia-se nas propriedades em que qualquer subconjunto de um conjunto de itens freqüentes deve ser freqüente e que se um conjunto não é considerado freqüente, então nenhum conjunto que contenha este conjunto será considerado freqüente. O algoritmo é composto por várias etapas, conforme ilustrado na Figura 2. Figura 2 – Pseudocódigo do algoritmo Apriori. Fonte: SEMAAN; GRACA e DIAS (2006, p.21). 7 Onde: - Lk é o conjunto de todos os conjuntos freqüentes de tamanho k; - T é uma transação da base de dados; - Ck é o conjunto de todos os conjuntos candidatos de tamanho k; - SupMin é o valor do suporte mínimo desejado; - ConfMin é o valor da confiança mínima desejada para as regras. As etapas de geração, poda e validação de candidatos são constituídas por: • • O algoritmo inicia suas etapas contabilizando a ocorrência dos itens, individualmente, e em seguida elimina aqueles que não preenchem os requisitos de suporte mínimo, assim, formando o conjunto freqüente L1; A geração de conjuntos candidatos de tamanho k é feita a partir do conjunto freqüente Lk-1. Os itens do conjunto Lk-1 são combinados de maneira a aumentar a cardinalidade dos conjuntos de itens em apenas uma unidade. Os conjuntos candidatos gerados serão analisados, sendo podados todos os conjuntos candidatos Ck que não atendem o requisito de suporte mínimo. Os conjuntos restantes formam o conjunto freqüente Lk; • A geração de conjuntos candidatos de tamanho k termina quando não houver mais combinações a serem feitas, ou seja, quando Lk = ∅. A etapa de geração de regras é realizada a partir dos conjuntos de itens freqüentes, utilizando o parâmetro de confiança mínima especificado. Para cada um dos conjuntos de itens freqüentes, são extraídos os seus subconjuntos não nulos para a formação das regras. A regra será selecionada se a confiança da mesma for maior ou igual à confiança mínima previamente estabelecida. O algoritmo de geração de regras está demonstrado na figura 3. Figura 3 – Algoritmo para geração de regras Fonte: LAVÔR (2003, p.52) Onde: F é o conjunto que contém todos os conjuntos freqüentes existentes. s é o subconjunto de cada conjunto freqüente. 8 3. PROCEDIMENTOS METODOLÓGICOS Este estudo tem como foco a construção de um software a partir de um módulo de Associação que pudesse auxiliar no processo ensino-aprendizagem no processo ensinoaprendizagem de como o conhecimento foi gerado através da mineração de dados. Maddison apud Avison e Fitzgerald (1997, p.418) define que a metodologia para construção de software é composta por um conjunto recomendado de filosofias, fases, procedimentos, técnicas, regras, ferramentas e gerenciamento para o desenvolvimento desse sistema. Dessa forma, dentre as metodologias existentes, esse trabalho utilizou, para atingir o seu objetivo, a abordagem proposta pelo modelo em cascata e as técnicas metodológicas pesquisa de bibliográfica e questionário. O modelo em cascata assume que os sistemas têm um ciclo de vida semelhante ao de qualquer produto, sendo composto por início, meio e fim e que cada etapa do ciclo de vida, pressupõe atividades que devem ser completadas antes do início da próxima etapa. Assim, a ferramenta foi construída seguindo as atividades típicas proposta pelo modelo em cascata (LEITE, 2008), que consiste nas seguintes etapas: 1. Análise e definição dos requisitos: nesta etapa foi realizada a captura das informações sobre o domínio do problema, com base no conhecimento adquirido na literatura pertinente, para posteriormente traduzi-la em telas de ação e fluxogramas de decisão. Logo após, foi proposta a especificação da ferramenta e a indicação do que deve ser implementado, delimitando o campo de trabalho do sistema com os objetivos e restrições detalhadas; 2. Design do software: etapa que consiste na descrição e indicação de como a ferramenta deverá ser implementada; 3. Implementação e testes de unidade: o módulo da ferramenta foi desenvolvido utilizando a linguagem de programação Java. Junior (1999) define Java como uma linguagem de programação orientada a objetos, desenvolvida pela Sun Microsystems e introduzida no mercado em 1995. O ambiente de desenvolvimento (IDE)i utilizado foi o Eclipse. Marinho (2006) pontua que o Eclipse, escrito na linguagem Java, é uma plataforma de desenvolvimento de código aberto e extensível. O algoritmo Apriori, estudado e implementado neste trabalho, foi proposto por Agrawal (AGRAWAL E SRIKANT, 1994), com o objetivo de minerar regras associativas em grandes bases de dados. A etapa de geração de regras é realizada a partir dos conjuntos de itens freqüentes, utilizando o parâmetro de confiança mínima especificado. Para cada um dos conjuntos de itens freqüentes, são extraídos os seus subconjuntos não nulos para a formação das regras. A regra será selecionada se a confiança da mesma for maior ou igual à confiança mínima previamente estabelecida pelo usuário. A ferramenta em questão tem o propósito de, através de uma interface simples, ou seja, tendo os componentes básicos, facilitar o seu uso e ser útil no processo de ensino-aprendizado de como o conhecimento foi gerado por uma tarefa de mineração de dados como ilustrado na figura 4. O modelo proposto para a implementação utiliza a estrutura hashii para armazenamento de conjuntos e suportes, assim, todas as operações necessárias para a geração de regras de associação serão executadas na memória principal. O módulo Associação da ferramenta realiza suas operações com a entrada de dados de um arquivo com extensão “.ARFF”iii; 9 4. Manutenção: este procedimento envolveu a correção de erros apresentados durante os testes realizados. Figura 4 – Interface de saída das regras de associação. Fonte: Dados da pesquisa, 2010. Seguidos todos os procedimentos necessários para a criação da ferramenta de mineração de dados, esta recebeu o nome de Eduminer (ferramenta educacional de mineração). Criada a ferramenta é preciso que seja testada a sua usabilidade para verificar se vai atingir a sua proposta. Para tanto foi determinada uma amostra de estudantes do curso de Sistemas de Informação da Universidade Federal de Outro Preto (MG), Campus João Monlevade (MG), que cursavam o oitavo período, representando cerca de 32% da população. A escolha desta amostra se justifica por serem alunos que já haviam cursado disciplinas relacionadas à temática, e, por estarem trabalhando ou estagiando, ou seja, ingressados no mercado de trabalho e convivendo com o ambiente competitivo e com importância da geração de conhecimentos. Dessa forma poderiam testar a ferramenta e levar o conhecimento gerado também para as empresas. A pesquisa foi composta por duas etapas. Na primeira, os estudantes fizeram testes com a ferramenta com várias bases de dados e com diversos valores de parâmetros (suporte e confiança). Na segunda, responderam um pequeno questionário sobre a ferramenta quanto ao cumprimento da proposta e a usabilidade. 4.RESULTADOS 4.1- Características da ferramenta Para atingir o objetivo proposto neste estudo, desenvolveu-se uma ferramenta,o Eduminer, cuja proposta era uma interface de fácil utilização, fazendo com que o usuário tenha uma maior produtividade, aprendendo mais rápido a uzá-la e memorizando as operações. Após selecionar a fonte de dados, o usuário terá as outras funções habilitadas: a definição da parametrização requerida pelo algoritmo implementado – os parâmetros de suporte e confiança; a maneira que deseja realizar o processamento do algoritmo. Nesse caso da escolha do processamento, o usuário poderá escolher entre o processamento completo do 10 algoritmo com posterior exibição das regras encontradas e a execução passo a passo do algoritmo, ou seja, cada iteração realizada como apresenta a figura 2 no referencial teórico, que permite a visualização de cada etapa da sua execução (Figura 5). Figura 5 – Tela de resultados das Iterações do Algoritmo Apriori Fonte: Dados da pesquisa, 2010. Na tela apresentada na Figura 2, nos procedimentos metodológicos, o usuário visualiza além das informações de cada iteração do algoritmo escolhido da tarefa de mineração de dados, os valores escolhidos de suporte e confiança mínima, o que o possibilita verificar que o suporte dos conjuntos e a confiança das regras respeitam os valores que estabelecidos. Desse modo, poderá ser feito o acompanhamento de como são feitas as combinações até a geração das regras, pois ao final das iterações, uma mensagem de finalização é exibida na tela e, em seguida, são apresentadas todas as regras extraídas com seus respectivos valores de suporte e confiança. . Os resultados são exibidos para o usuário no formato de regras que são o conhecimento gerado, ou seja, a relação entre os elementos. As regras estão no formato padronizado: X Y, ou seja, se X ocorre então Y ocorre, como ilustrado na Figura 6: 11 Figura 6 – Saída das regras de associação Fonte: Dados da pesquisa, 2010 Com o intuito de avaliar a implementação dos algoritmos, foram efetuados testes com algumas bases de dados sintéticas, ou seja, bases que foram criadas apenas para realização destes testes. O número de transações contidas nestes arquivos varia de 10 a 80 instâncias. Para verifica a corretude das regras geradas, foram realizados vários testes com uma mesma base de dados e mesma parametrização para suporte e confiança na ferramenta EduMiner e na ferramenta Weka (UNIVERSITY WAIKATO, 2004). A ferramenta Weka é um pacote desenvolvido pela Universidade de Waikato, em 1993, elaborado em linguagem Java, que possui um conjunto de implementações de algoritmos de diversas técnicas de Mineração de Dados. Os resultados obtidos nesta comparação demonstraram que a ferramenta EduMiner opera de maneira correta, na geração de regras e nos cálculos de suporte e confiança, por apresentar exatamente os mesmos resultados de regras geradas e destes parâmetros na ferramenta Weka. 4.2 Ambiente de ensino-aprendizagem Os resultados obtidos na aplicação dos questionários aos estudantes mostraram que a proposta de se construir o módulo dessa ferramenta foi cumprida. Além disso, testes comprovaram que o software apresenta corretude em suas regras geradas. Os resultados da pesquisa foram obtidos pelas respostas adquiridas no questionário. As perguntas foram baseadas em: • Cumprimento da proposta da ferramenta: se a maneira que a ferramenta foi planejada e implementada consegue cumprir o objetivo proposto e 87,5% dos 32% dos alunos entrevistados, responderam que cumpre plenamente. • O auxílio que módulo Associação oferece no processo de aprendizagem dos usuários: 75% da amostra responderam que o módulo auxilia amplamente no aprendizado. • Quanto à usabilidade do módulo: 87,5% da amostra responderam que o módulo apresenta uma interface simples e intuitiva para uso. 12 Assim, de acordo com os respondentes do questionário e aqueles que testaram a ferramenta Eduminer , o módulo realmente é de fácil utilização e contribui no processo de esniso-aprendizagem do algoritmo implementado. 5.CONSIDERAÇÕES FINAIS A quantidade de dados produzidos pela humanidade cresce desenfreadamente e, assim, o ser humano não é mais capaz de armazenar e processar toda essa massa de dados de maneira não automatizada. Nesse contexto, surgem inúmeras ferramentas computacionais que tem a finalidade de auxiliar o homem na descoberta de conhecimento, ou seja, aproveitar essas informações, transformando-a em conhecimentos úteis e valiosos para o processo decisório nas organizações. Quanto maior a compreensão e a capacidade de uma organização gerar conhecimento mais eficaz será o desenvolvimento de seus objetivos estratégicos. A mineração de dados, uma prática de gestão do conhecimento, corrobora com o processo de criação do conhecimento e consequentemente, geração de resultados para a organização e benefícios para os colaboradores. O presente trabalho apresentou o módulo de Associação da ferramenta EduMiner, sendo implementado o algoritmo Apriori. A proposta desta pesquisa foi desenvolver e implementar uma ferramenta baseada no processo de mineração de dados, utilizando a tarefa de regras de associação, que viabilizasse o ensino e a aprendizagem dos alunos de graduação e pós-graduação de cursos afins a essa temática, tais como: Sistemas de Informação, Administração de Empresas, Ciência da Informação, Ciência da Computação, dentre outros; e profissionais de organizações, especialmente, gestores que lidam com o processo de tomada de decisões. A ferramenta foi construída de forma a possibilitar aos usuários o entendimento de como as informações são trabalhas na geração do conhecimento, dada a relevância de que o conhecimento gerado pode agregar valor ao negócio. Os resultados obtidos tanto no teste quanto na pesquisa comprovaram que a ferramenta EduMiner atendeu ao objetivo proposto. por apresentar exatamente os mesmos resultados de regras geradas e destes parâmetros na ferramenta Weka. Quanto à sua aplicabilidade os estudantes (da amostra) demonstraram que o objetivo da pesquisa foi alcançado. Além disso, testes comprovaram que o software apresenta corretude em suas regras geradas. Melhorias podem ser realizadas nessa ferramenta e, principalmente, nesse módulo. Neste sentido, são sugestões de trabalhos futuros: a implementação de outras tarefas de mineração de dados e o acréscimo de um módulo para pré-processar os dados na ferramenta Eduminer, e com relação ao módulo de Associação, sugere-se implementar outros algoritmos da tarefa de Extração de Regras de Associação, aumentando a oportunidade de aprendizado desta tarefa. Este estudo contribui tanto na área acadêmica quanto na profissional. A rotina de se ensinar com a utilização de softwares, na “Era da Informação” e, mais recentemente, na atual “Era do Conhecimento”, é uma condição necessária e eficaz para modificar o estoque mental e cognitivo do usuário, seja ele um aluno de graduação ou pós-graduação, seja um profissional que se dedique a trabalhos em organizações públicas ou privadas. Para o mercado, as contribuições deste software são significativas por fornecer ao gestor além de um conhecimento útil, a possibilidade de entender como ele foi criado, proporcionando maior confiabilidade em utilizá-lo no processo decisório. 13 REFERÊNCIAS BIBLIOGRÁFICAS AMO, S.; Técnicas de Mineração de Dados, Universidade Federal de Uberlândia. Disponivel em: <www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf>. Acessado em: 19 de março de 2008. AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules between Sets of Items in Large Databases. Proceedings of the ACM SIGMOD Conference. Washington, USA, May 1993. AGRAWAL R., SRIKANT R., Fast Algorithms for Mining Association Rules, Proc. of the 20th Int’l Conference on Very Large Databases. Santiago, Chile, set. 1994. AGARWAL, R.; AGGARWAL, C. C; PRASAD, V. V. V.; A Tree Projection Algorithm for Generation of Frequent Itemset, Journal of Parallel and Distributed Computing, 2000. BATISTA, F. F.; QUANDT, C. O.; PACHECO, F. F.; TERRA, J. C. C.Gestão do Conhecimento na Administração Pública. Brasília, junho de 2005. Disponível em: < http://www.terraforum.com.br/biblioteca/Documents/libdoc00000229v001relatorio_ipea.pdf> Acesso em 10 de junho de 2010. CAMPOS S.; LEAL F.; HENRIQUE J.; BORBA P.; “Introdução ao Eclipse”, Centro de Informática Universidade Federal de Pernambuco. Disponível em: <www.cin.ufpe.br/~phmb/ip/MaterialDeEnsino/IntroducaoAoEclipse/IntroducaoAoEclipse.ht m> Acessado em 14 de maio de 2008. CESCONETO, C.; OLIVEIRA, A. S. “Estruturas de Dados – Hash”, 2006. Disponível em: <sites.facensa.com.br/diogo/files/transfer/Tabela%20hash2.doc> Acessado em: 03 de março de 2008. DAVENPORT, T., PRUSAK, L. Conhecimento empresarial. Rio de Janeiro: Campus, 1999. 237p. Ecologia da informação: por que só a tecnologia não basta para o sucesso na era da informação. São Paulo: Futura, 1998. DBMINER TECHNOLOGY, DBMiner, 2002, < http://www.dbminer.com/> Acessado em: 05 de março de 2008. Disponível em: DRUCKER, Peter F. As Novas realidades. 4ed. São Paulo, Pioneira, 1997. FAYYAD, U. M.; PIATETSKY-SHAPIRO G., SMITH P., From Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1-34, 1996. GOLDSCHMIDT, R.; PASSOS, E.; Data Mining Um guia prático; 2005, Elsevier Editora Ltda, p. 1-66. HAN,J.; KAMBLER M.; Data Mining Concepts and Techniques, Second Edition, The Morgan Kaufmaann Series in Data Management System, p.1-17, 2001. 14 HAN, J.; FU, Y.; WANG, W.; CHIANG, J.; GONG, W.; KOPERSKI, K.; LI, D.; LU, Y.; RAJAN, A.; STEFANOVIC N.; XIA, B.; ZAIANE, O. R.; DBMiner: A System for Mining Knowledge in Large Relational Databases, Proceedings of the 1996 International Conference on Data Mining and Knowledge Discovery - KDD’96, 250–255, 1996. IBM CORPORATION,; DB2 Intelligent Miner, Disponível <http://www.software.ibm.com/data/iminer/, 2004> Acessado em 05 de abril de 2008. em: INC. SPSS, Clementine, 2004. Disponível em : < http://www.spss.com/ clementine/> Acessado em: 06 de abril de 2008. J. JUNIOR, P. Introdução ao Java - Núcleo de Educação a Distância – Universidade São Francisco, 1999. Disponível: <http://apostilas.netsaber.com.br/ver_apostila_c_158.html> Acessado em: 24 de julho de 2008. LAVOR, R. M. P. Implementação de serviços relacionados a mineração de regras de associação. Universidade Federal do Rio de Janeiro – Instituto de Matemática, Tese de Mestrado, 2003. LEUCH, V. Práticas de Gestão do Conhecimento em Indústrias de grande porte dos Campos Gerais. 2006. Dissertação (Mestrado em Engenharia de Produção) - Programa de Pós-Graduação em Engenharia de Produção,UTFPR - Ponta Grossa – PR, 2006. LEITE, J. C. Engenharia de Software. 2008. Disponível em: <http://www.dimap.ufrn.br/~jair/ES/slides/ModelosDeProcesso.pdf >. Acessado em: julho de 2010. MARCHIORI, Patricia Zeni. A ciência e a gestão da informação: compatibilidades no espaço profissional. Ci. Inf. [online]. 2002, vol.31, n.2, pp. 72-79. ISSN 0100-1965. MENDES, T. M.; Gestão Do Conhecimento Da Informação, 2006. Disponível em: < http:// www.al.sp.gov.br/StaticFile/ilp/texto_aula_gestao_do_conhecimento.pdf> Acesso em: 11 de junho de 2010. MARINHO, E. Introdução a plataforma Eclipse. Universidade Federal de Ouro Preto DECEA, Apostila didática, 2006. MEGAPUTER INTELLIGENCE,; PolyAnalyst 4.6, 2004. Disponível em: <http://www.megaputer.com/products/pa/index.php3> Acessado em: 06 de abril de 2008. MENDES, T. M.; Gestão Do Conhecimento Da Informação, 2006. Disponível em: < http:// www.al.sp.gov.br/StaticFile/ilp/texto_aula_gestao_do_conhecimento.pdf> Acesso em: 11 de junho de 2010. ORACLE CORPORATION.; Oracle Data Mining, 2004. Disponível <http://otn.oracle.com/products/bi/odm/index.html> Acesso em 05 de abril de 2008. em: PADOVEZE, C. L. Contabilidade gerencial: um enfoque e sistemas de informação contábil. – São Paulo: Atlas, 1997. 15 SAS INSTITUTE; Enterprise Miner, 2004. Disponível em: <http://www.sas.com/technologies/analytics/datamining/miner/> Acessado em: 05 de abril de 2008. SANTOS, L. F. M.; PEREIRA, R. M.; “Ferramenta Midas-UFF: Módulo de Classificação”, Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) Universidade Federal Fluminense, 2004. SCHEFFER, T. et al., Finding association rules that trade support optimally against confidence. In: PKDD 2001: principles of data mining and knowledge discovery, European conference on principles of data mining and knowledge discovery, 2001. SEMAAN, G. S. ; GRACA, A. A. ; DIAS, C. R. . Descoberta de associações em dados. Revista eletrônica da Faculdade Metodista Granbery, 2006. SILVEIRA, R. de FREITAS. Mineração de Dados Aplicada à Definição de Índices em Sistemas de Raciocínio Baseado em Casos. UFRGS, 2003. THE UNIVERSITY OF WAIKATO, Weka 3: Data Mining Software in Java, Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/> Acessado em: 25 de Janeiro de 2008 WITTEN, I. H.; FRANK, E., “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Morgan Kaufmann, 2ª edição, 2005. ZANARDI, L. A. Data mining: estudo e aplicação de algoritmos de data mining; Trabalho de conclusão de curso.100f. Fernandópolis, 2007. i Um IDE – Integrated Development Environment (Ambiente de desenvolvimento integrado) - consiste em um software que contém um conjunto de funcionalidades embutidas, cuja finalidade é prover um modo mais fácil e interativo de construir e manipular seus programas. (CAMPOS et.al.,2008) ii Em Ciência da Computação, a tabela hash é uma estrutura de dados especial, que associa chaves de pesquisa (hash) a valores. Seu objetivo é, a partir de uma chave simples, fazer uma busca rápida e obter o valor desejado. (CESCONETO, 2006) iii Um arquivo no formato “.ARFF” é um arquivo de texto puro, composto pelas partes: relação, atributo e dados. O arquivo pode, também, conter comentários, os quais são representados por linhas iniciadas com o sinal de porcentagem (%).(WITTEN e FRANK, 2005) 16