Congresso de Inovação, Ciência e Tecnologia do IFSP - 2016 Estudo sobre a relação entre vida pessoal e profissional com mineração de dados GABRIEL LIMA GOMES1, LETICIA T. M. ZOBY2 1Graduando em Ciência da Computação, Bolsista PIBIC, Centro Universitário IESB, Brasília-DF, [email protected]. em Engenharia de Sistemas Eletrônicos e de Automação, Centro Universitário IESB, Brasília-DF, [email protected] 2Doutora Área de conhecimento (Tabela CNPq): Banco de Dados 1.03.03.03-0 Apresentado no 7° Congresso de Iniciação Científica e Tecnológica do IFSP 29 de novembro a 02 de dezembro de 2016 - Matão-SP, Brasil RESUMO: O processo KDD (Knowledge Discovery in Database - Descoberta de Conhecimento em Base de Dados) é uma metodologia para auxiliar na extração e gerenciamento de informações em grandes bases de dados. Este trabalho descreve uma das etapas deste processo, a mineração de dados, com objetivo de extrair informações sobre a vida profissional e pessoal. A tarefa de mineração de dados escolhida foi a de regras de associação e o algoritmo Apriori. Os resultados mostram que os profissionais estão em contínua capacitação fazendo cursos para melhorar o desempenho de suas atribuições e o que pode está influenciando para progressão salarial e de cargo. Também é notado que o nível de estresse dos profissionais está alto podendo ser prejudicial para o rendimento e para saúde. PALAVRAS-CHAVE: KDD; mineração de dados; Apriori. Study on the relationship between personal and professional life with data mining ABSTRACT: The Knowledge Discovery in Database (KDD) process is resouce for support in big data. This paper describes one of step this process, data mining. The goal is to extract information about professional and personal life, and the relation among them. Association Rules was chosen as data mining function and Apriori algorithm the focus of the project. The results indicate that professionals are in continuous training, completing courses to improve there performance and that this can be a key factor to wage and job progress. In addition, the professionals present high stress levels that can be harmful to there performance and health. KEYWORDS: KDD; data mining; Apriori. INTRODUÇÃO Várias empresas utilizam a TI (Tecnologia da Informação) com o objetivo de auxiliar no processo de tomadas de decisões e direcionam melhor o seu marketing e propaganda (HEKIMA, 2014). Ela também pode contribuir para potencializar a produção no trabalho e como um importante instrumento para a busca de uma vida saudável (OGATA, 2010). Gerenciar grande volume de dados e extrair informações manualmente dela, se torna complexo e até mesmo impossível. Um dos métodos existente para solucionar tal dificuldade é a utilização do processo KDD (Knowledge Discovery in Database), o qual tem contribuído na seleção de informações úteis às empresas em grandes bases de dados (HEKIMA, 2014). No contexto de relação de qualidade da vida pessoal e profissional, o mesmo processo que auxilia as empresas nas tomadas de decisões, também pode servir de meio para os empresários, gestores e colaboradores a melhorarem a qualidade de trabalho dos seus funcionários. Neste trabalho foi realizada a mineração de dados, que compõe uma das etapas do processo KDD, para extrair informações sobre relação da vida pessoal e profissional, e para aprendizagem prática do método de mineração de dados, assim obtendo conhecimentos teóricos e práticos das tarefas, algoritmos e ferramentas. Para este trabalho foi escolhida a tarefa de regras de associação, onde cada regra encontrada fará a relação do perfil pessoal com o perfil profissional. Em (GOMES E ZOBY, 2015), a mineração de dados foi aplicada para extrair informações sobre a relação da vida profissional e o estresse, aplicando a tarefa cluster. Através dos resultados obtidos foi possível observar a relação do nível de estresse e salário e relação de progressão na vida profissional (salarial/cargo) e nível de estresse, além de notar a eficácia do processo de mineração de dados. MATERIAL E MÉTODOS Descoberta de Conhecimento em Bases de Dados (KDD) e Mineração de Dados O KDD é um processo não trivial de identificação e extração de padrões válidos, novos, potencialmente compreensível em grandes conjuntos de dados. A execução deste processo envolve alguns passos, que são: seleção (escolha do conjunto de dados, variáveis, parâmetros), préprocessamento (eliminação de dados redundantes e inconsistentes, ruídos), transformação (formatação e armazenamento dos dados), mineração de dados e pós-processamento/interpretação (avaliação dos resultados obtidos), além dessas etapas o usuário adota algumas decisões para se alcançar o objetivo estipulado (FAYYAD, 1996). Mineração de Dados - DM (Data Mining) é uma etapa do processo KDD, onde se aplica algoritmos específicos para extração dos modelos de forma automática ou semiautomática, mas aceitando as limitações da eficiência computacional. Esta etapa é de extrema importância e uma atividade legítima para o processo KDD, desde que se entenda como realizá-la corretamente (FAYYAD, 1996). O uso deste processo deu início em meados da década de 90 (LAZZARETTI et al,. 2012). Essa solução se torna eficaz ao extrair informações em grandes volumes de dados, podendo tornar mais rápido o processo de tomada de decisão ou proporcionar um maior grau de confiança, sendo que para extrair informação não é necessário de conhecimento prévio (PAZ et al., 2015). Na mineração de dados existem algumas tarefas, algumas delas são: classificação, regras de associação, detecção de desvios (outlier) e agrupamento (cluster). Dentre essas tarefas existentes, a regra de associação, foi escolhida para este trabalho. Essa tarefa consiste em um método nãosupervisionada, a qual encontra associações (relação, dependência) interessantes em grandes bases de dados. A base de dados utilizada para a implementação deste projeto foi a mesma utilizada do projeto de (GOMES E ZOBY, 2015), a qual foi elaborada através de uma pesquisa com profissionais em âmbito nacional e internacional. A amostra investigada foi de 296 registros. Para a execução deste projeto foram selecionados atributos diferentes com o propósito de extrair informações/padrões novos e/ou confirmar os resultados já estabelecidos em (GOMES E ZOBY, 2015) utilizando tarefa e algoritmo diferentes. Assim, também verificando a eficácia e eficiência da mineração de dados. Para aplicação do algoritmo de mineração de dados, foi utilizado o software Weka, uma ferramenta de mineração de dados, desenvolvida em linguagem de programação Java (DAMASCENO, 2010), conectando-a diretamente ao sistema de gerenciamento de banco de dados, o MySQL. Como dito anteriormente a tarefa escolhida para a realização deste trabalho foi a de Regras de Associação. Para essa tarefa existem diferentes algoritmos para execução, como, Apriori, Partition, Eclat e FP-Growth. Para aplicação deste trabalho o algoritmo Apriori foi o escolhido. O algoritmo Apriori realiza uma busca em profundidade e gera conjuntos de padrões de k elementos a partir de conjuntos de itens de k-1 elementos. Toda a base de dados é lida, assim, os padrões que não obtiverem uma determinada frequência são eliminados (VASCONCELOS e CARVALHO, 2004). Antes de executar a tarefa de mineração de dados no software Weka podemos definir alguns parâmetros, como: lowerBoundMinSupport - limite inferior em % que uma regra tem que ter para ser válida; minMetric - mínimo de acerto da regra para poder ser apresentada no resultado; numRules define o número máximo de regras que o usuário deseja; e upperBoundMinSupport - limite superior de suporte da geração da regra em %. No programa Weka as regras são separadas pela enumeração e são divididas em antecedente que está à esquerda e consequente que está à direita, que são separadas por uma seta (==>), onde o antecedente causa o consequente. Ao final da associação “antecedente” há um número significa o número absoluto da associação, por exemplo, Nível Estresse = Alto 176 ==> Curso Extra = Sim 133, significa que houve 176 instancias que possuem essa associação e o número ao final do consequente à direita, significa o número de instancias que tem a regra. E ao final da regra há outro número que demonstra a confiança de acerto, neste exemplo, conf: (0.76) indica que houve 76% de acerto, conforme a Figura 1. RESULTADOS E DISCUSSÃO Para obter os resultados que atendessem os objetivos deste projeto foi necessária a execução da tarefa diversas vezes alterando alguns parâmetros, como lowerBoundMinSupport, minMetric e numRules, definidos na seção anterior. Na Figura 1 são demonstras as associações obtidas ao executar o processo de mineração de dados. Em seguida algumas regras serão detalhadas. Figura 1. Resultados obtidos ao executar a mineração de dados. Foram obtidos 11 tipos de associações após aplicação do algoritmo de mineração de dados. Após essas associações serem obtidas, essas são interpretadas e analisadas para confirmar sua validação e se serão úteis para tomada de decisão. É possível observar na figura 1, as seguintes associações: Linha 4: Profissionais que não obtiveram progressão de cargo nos últimos 18 meses, então estão com o nível de estresse alto. Linha 5: Profissionais que obtiveram progressão de cargo nos últimos 18 meses, então obtiveram também progressão salarial. Linha 6: Profissionais que obtiveram progressão de cargo nos últimos 18 meses, então possuem algum curso extra. Linha 7: Profissionais que obtiveram progressão de cargo nos últimos 18 meses, então estes estão trabalhando em cargo de nível superior. Linha 9: Profissionais que obtiveram progressão salarial nos últimos 18 meses, então possuem algum curso extra. Linha 10: Profissionais que obtiveram progressão salarial nos últimos 18 meses, então estes trabalham em cargo de nível superior. Linha 11: Profissionais que obtiveram progressão salarial e possuem algum curso extra, então estes trabalham em cargos de nível superior. CONCLUSÕES Nos resultados obtidos, pode ser observado a importância de cursos além da formação regular para a progressão profissional e/ou salarial. Também nota-se que o nível de estresse dos profissionais que não estão obtendo alguma progressão, salarial e/ou de cargo, é alto. Outro fator observado nos resultados, os profissionais mesmo com a graduação de nível superior, continuam se capacitando o que pode estar relacionada com a sua progressão profissional/salarial, assim confirmando um dos resultados obtidos em (GOMES E ZOBY, 2015). A mineração de dados é uma poderosa ferramenta que pode auxiliar as organizações, mesmo aparentando ser um processo fácil de ser realizado, é processo complexo, havendo erros nas etapas iniciais pode prejudicar o restante do processo e podendo extrair informações erradas, o que pode acarretar em diversas consequências e prejuízos, principalmente em grandes empresas. AGRADECIMENTOS Os autores gostariam de agradecer ao Centro Universitário IESB pelo projeto de Iniciação Científica e ao CNPq pelo suporte financeiro com a bolsa CNPq/FUNTEL. REFERÊNCIAS DAMASCENO, MARCELO. Introdução a mineração de dados utilizando o weka. CONNEPI. 2014. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. AI MAGAZINE, v. 17, n.3, p.37-54. 1996. GOMES, GABRIEL LIMA, ZOBY, LETICIA TOLEDO MAIA. Relação Entre Vida Profissional e Vida Pessoal, Utilizando Mineração de Dados. 6º CINTEC. 2015. HEKIMA. Por que a mineração de dados é essencial para as empresas que querem se destacar?. Disponível em: <http://bigdatabusiness.com.br/por-que-a-mineracao-de-dados-e-essencialpara-as-empresas-que-querem-se-destacar/>. Acessado em: 01 jun. 2016. LAZZARETTI, ALEXANDRE T.; LIMA, VINICIUS P.; FERNANDES, JOSÉ MAURICIO; PAVAN, WILLINGTON; TOEBE, JOSUÉ. Mineração de Dados Para Inferir Padrões Associados aos Fenômenos: El Niño, La Niña e Anos Neutros. ERBD 2012. OGATA, ALBERTO. Qualidade de vida e tecnologia. Revista Cardnews 2010. p. 66. PAZ, JEANE; BASTOS, VIVIANI L.; NOTARI, DANIEL; SILVA, SCHEILA DE A. E. Utilização da técnica de árvore de decisão para identificação de espécies de aves do estado do Rio Grande do Sul – Brasil. ERBD 2015. VASCONCELOS, L. M. R. de; CARVALHO, C. L. de. Aplicação de Regras de Associação para Mineração de Dados na Web. Disponível em: http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_004-04.pdf/. Acessado em: 01 jun 2016.