UTILIZAÇÃO DE UM MODELO DE ARQUITETURA CORPORATIVA NA MINERAÇÃO DE DADOS Fernando Hadad Zaidan Universidade Federal Minas Gerais - UFMG – Escola de Ciência da Informação – ECI Minas Gerais, Brasil - [email protected] Marcello Peixoto Bax Universidade Federal Minas Gerais - UFMG – Escola de Ciência da Informação – ECI Minas Gerais, Brasil - [email protected] Resumo Quantidades gigantescas de dados são coletadas e armazenadas em organizações a cada dia. Emerge daí a necessidade de usar tecnologias elaboradas para tratamento e descoberta de informações nos bancos de dados. A mineração de dados é uma disciplina da Ciência da Computação que propõe técnicas e algoritmos para a descoberta de informações. Em domínios específicos, a mineração de dados é carente de um melhor alinhamento com os negócios da organização. A arquitetura corporativa é estratégica para alinhar, nas organizações, os níveis de negócios, aplicações e infraestrutura. O objetivo do artigo é apresentar o esboço de um modelo de arquitetura corporativa capaz de refletir projetos de mineração de dados mais estratégicos. A revisão da literatura traz os principais conceitos e a metodologia foi exploratória e aplicada. A validação do modelo proposto ficou como trabalho futuro que possibilitará explorar oportunidades de alinhamento estratégico no contexto de projetos de mineração de dados. Palavras-chave: Mineração de dados, Arquitetura corporativa, Informação estratégica, Alinhamento tecnologia e negócios. USE OF A MODEL OF ENTERPRISE ARCHITECTURE IN DATA MINING Abstract Every day huge amounts of data are collected and stored in organizations. From there, the need to use technologies developed for treatment and discovery of information in databases emerges. Data mining is a discipline of Computer Science that proposes techniques and algorithms to discover information. In specifics domains, data mining requires a better alignment with the enterprise businesses. The enterprise architecture is key to align, in the enterprises, the layers of business, applications and infrastructure. The aim of this study is to present an outline of an enterprise architecture model that reflects more strategic data mining projects. The literature review clarifies the main concepts. The methodology is exploratory and applied. The future validation of the proposed model will enable the exploration of the results and opportunities for the strategic information's use in the context of data mining. Keywords: Data mining, Enterprise architecture, Strategic information, Alignment of technology and business. 1 INTRODUÇÃO A evolução dos modelos e de tecnologias de banco de dados (BD), a partir dos anos de 1980, possibilitou que as organizações coletassem e armazenassem, de forma contínua, uma enorme quantidade de dados sobre clientes, fornecedores, produtos e serviços, dentre outros, aumentando, sensivelmente, o volume de dados presentes nos BD (ELMASRI; NAVATHE, 2011). Nesse contexto, a mineração de dados (DM - data mining) surge como uma linha de pesquisa multidisciplinar e campo de atuação que se preocupa com a proposição de metodologias (técnicas) e algoritmos eficientes para a descoberta de conhecimento em grandes bancos de dados. A multidisciplinaridade mencionada deve-se ao fato de que a DM, além de aplicada a domínios de conhecimentos específicos, engloba metodologias diversas, como o próprio DB, informação estratégica, estatística, aprendizado de máquina e lógica computacional, de forma a possibilitar a descoberta de conhecimentos de domínio escondidos em grandes bases de dados (TAN; STEINBACH; KUMAR, 2006). Segundo Braga (2005), para interpretar os objetivos, expectativas e desejos dos clientes das organizações, não bastam apenas ferramentas genéricas de sistemas de relacionamento com clientes (CRM), sistemas de gestão empresarial (ERP) ou ainda business intelligence (BI). Para tanto, é necessária, também, a capacidade analítica para identificação de padrões e predição a partir as informações estratégicas, conseguida através da aplicação das técnicas de DM. Em outras palavras, a coleta e o armazenamento de dados, por si só, não contribuem para melhorar a estratégia da organização, tampouco a tomada de decisão. A demanda por análise em grande quantidade de dados de domínios específicos é crescente, bem como processar e analisar as informações geradas pelas bases de dados atuais de forma correta está entre os requisitos essenciais para uma boa tomada de decisão (SIMON, 1979). Para atender a essa necessidade informacional das organizações, emerge o fato de se ter o alinhamento entre os negócios e a TI (HENDERSON; VENKATRAMAN, 1993). A arquitetura corporativa (EA – enterprise architecture) é o instrumento que materializa esse alinhamento, pois é parte da estratégia de negócio de uma organização. Ao invés de adotar um conjunto desconexo de representações para modelar a organização como um todo, a EA privilegia os modelos de negócios e indica como desenvolver uma infraestrutura de negócio apropriada para a execução da estratégia corporativa. Esses modelos fornecem uma fundamentação adequada para execução e crescimento da organização (BAX, 2012; GARTNER – IT CLOSSARY, 2014). De fato, uma EA é criada para que as diferentes preocupações ou interesses (concerns) das partes interessadas (stakeholders) da organização possam ser representados e atendidos (THE OPEN GROUP, 2009; 2012). Os stakeholders necessitam de visões especializadas da mesma organização, voltadas para a natureza de sua atuação e responsabilidades específicas. O papel do arquiteto é representar essas preocupações, levantando, identificando e refinando os vários requisitos e necessidades, bem como desenvolvendo visões específicas sobre a arquitetura (LANKHORST, 2012; WIERDA, 2013). No que tange ao modelo utilizado para o desenvolvimento dessa apresentação de pesquisa, será empregado o arcabouço ArchiMate, que dispõe de uma linguagem gráfica de representação das arquiteturas (ARCHI, 2014). Essa apresentação de pesquisa refere-se à versão 2.0 da linguagem ArchiMate, que contém uma série de correções, melhorias e esclarecimentos, assim como extensões da sua versão inicial (ARCHIMATE, 2014). Cabe esclarecer que foram buscados trabalhos correlatos que contribuíssem para essa apresentação de pesquisa e encontrou-se em Chertov (2013) o estado a arte da interconexão da arquitetura corporativa com a mineração de dados. Contudo, este autor aborda de uma maneira genérica, incluindo, além da mineração de dados, o business intelligence (BI) em seu modelo. Diante do que foi exposto, elaborou-se o objetivo principal desse estudo, que é apresentar um esboço de um modelo de arquitetura corporativa capaz de refletir projetos de mineração de dados mais estratégicos. Será apresentada, também, uma proposta de um ambiente de mineração de dados, a partir do modelo de EA desenvolvido. Caberá, nessa apresentação de pesquisa, utilizar de forma adequada a EA em benefício da mineração de dados, para líderes que buscam identificar o tão almejado alinhamento entre os processos de negócios e a TI, desta forma serão recompensados com a melhora na tomada de decisão com o uso de informações estratégicas. Com bancos de dados cada vez mais volumosos e encontrados em diferentes formatos ou plataformas, faz-se necessário o uso de técnicas de análises mais elaboradas que os métodos tradicionais, de forma a garantir que tais informações estratégicas, presentes nessas bases de dados, possam ser recuperadas ou descobertas para utilização no processo decisório das organizações. Dessa forma, a ideia de levar o tema adiante se justifica, a partir das seguintes formulações: do ponto de vista corporativo, essa pesquisa visa a abrir oportunidades para que as organizações prestem atenção ao uso da informação estratégica e à melhoria da análise e da tomada de decisão em domínios específicos (DAVENPORT; MANVILLE, 2012); pela perspectiva acadêmica, a pertinência do problema como tópico de pesquisa se torna evidente sob qualquer ótica observada, se considerada a afirmação de que se ocupa Saracevic (1996), de que a informação receberá a introjeção de novos conhecimentos. Ainda mais, no modelo que será obtido, a mineração de dados será apoiada por uma arquitetura corporativa; aplicar as técnicas de mineração de dados em casos reais nas empresas,, antecipando eventos e prevendo tendências, baseados na descoberta de padrões (WITTEN; FRANK; HALL, 2011) é tarefa cuja complexidade carece de um modelo de EA para sua condução (LANKHORST, 2012; WIERDA, 2013). Essa apresentação de pesquisa está dividida em sete partes: acima foi introduzido o tema, os objetivos e as justificativas. Na Seção 2, os principais construtos serão elucidados, bem como a ligação entre os mesmos. Na seção seguinte, descrevem-se as abordagens metodológicas. Na Seção 4 é apresentado o modelo de EA que foi desenvolvido. Na Seção 5 é descrita a proposta do projeto de mineração de dados e são apresentados os resultados que se almejam. Seguemse as considerações finais e as referências. 2 REVISÃO DA LITERATURA Não é intenção dessa apresentação de pesquisa exaurir todos os fundamentos teóricos dos construtos. Efetivamente, o intuito é de identificar o estado da arte dos principais conceitos e os elos que representam, trazendo alguma luz sobre as terminologias da área, fundamentado em autores seminais e contemporâneos. 2.1 Informação estratégica Não existe uma definição única e universalmente aceita para estratégia. Segundo Mintzberg e Quinn (2001), inicialmente deu-se ênfase especial ao uso militar do termo estratégia, originada das mais antigas literaturas do mundo. No âmbito organizacional, a estratégia é relacionada com uma série de pontos de vistas, tais como plano ou padrão que integram as principais metas e sequências de ações de uma organização. Ainda segundo esses autores, formular uma estratégia carece de informações precisas e ajuda a ordenar e alocar os recursos de uma organização para uma postura singular e viável. Já a informação está presente de forma intensa nas empresas e que deve ser considerada como um importante ativo organizacional (DAVENPORT; MANVILLE, 2012). A motivação em tratá-la de forma estratégica agrega valor aos bens organizacionais (CHOO, 2006). Nas organizações, a informação pode estar embutida não só em documentos ou repositórios, mas em rotinas, processos e normas organizacionais, tornando-a pura ou simples, mas sempre como uma mistura de vários elementos, agregando valores (DAVENTPOR; PRUSAK, 1998), utilizando-a para a valoração da estratégia organizacional. Munida de informações estratégicas, o caminho para o sucesso organizacional ficará mais preciso. 2.2 Tomada de decisão Com o foco na estratégia das organizações, a tomada de decisão, durante muito tempo, foi considerada uma arte, um talento. Com o aprendizado que as pessoas adquiriam, a criatividade, a intuição, a experiência e a tentativa e erro, as decisões eram tomadas. Sabe-se, porém, que a tomada de decisão é algo bem mais complexo, sofrendo interferências de variáveis e de fatores internos e externos e o envolvimento de diversos atores. Simon (1979) indica que a função da administração é ter o ambiente desenhado de tal forma que o indivíduo, para tomar uma decisão, possa estar tão próximo dele quanto lhe permite a racionalidade. Ainda segundo este autor, existe três estágios para o processo decisório: a busca de situações que requerem decisão (atividade de inteligência - termo utilizado com conotação similar à militar); a criação, o desenvolvimento e a análise dos possíveis cursos de ação (atividade de design ou projeto); a seleção de um curso particular de ação, dentre os que estão disponíveis (atividade de escolha). Choo (2006) esclarece que, no contexto de um mercado caracterizado por mudanças e descontinuidade, é fundamental reavaliar continuamente os processos organizacionais para assegurar de que a tomada de decisão se oriente por premissas ainda válidas. E complementa que o fornecimento de informações exatas e relevantes, no ambiente corporativo, é um fator crítico para a realização de melhores negócios para os tomadores de decisão. Eles precisam de ferramentas que permitam a análise dos dados a partir de diversas perspectivas, auxiliando a identificação de tendências e padrões. 2.3 Alinhamento da TI com os negócios organizacionais Os executivos de negócio e de TI deparam com um novo desafio: criar um ambiente de confiança e de colaboração para que seja facilitada a interação de todas as áreas organizacionais. Com o crescimento e o surgimento de novas tecnologias, a área de TI não pode ser considerada apenas de suporte para as demais áreas organizacionais. Nesse sentido, com o mercado atual, globalizado, dinâmico e competitivo, exige-se das organizações uma nova postura, necessitando que processos de gestão estejam alinhados com processos de TI. Desta forma, muda-se o enfoque da TI, de automação para gestão estratégica (MAES, 2007). Alinhamento estratégico são as atividades executadas de forma coordenada pela gerência da organização com o objetivo de alcançar suas metas através da integração de várias áreas funcionais, tais como: TI, administração financeira, marketing, recursos humanos, produção, serviços, dentre outras (HENDERSON; VENKATRAMAN, 1993). Embora existam diversos modelos de alinhamento estratégico da TI, Henderson e Venkatraman (1993) propuseram o modelo mais aceito, o qual retrata quatro domínios: estratégia de negócios; infraestrutura e processos organizacionais; estratégia de TI; e infraestrutura e processos de TI (MAES, 2007). Esses quatro domínios mantêm o perfeito ajuste estratégico e a integração funcional dos negócios com a TI. 2.4 Mineração de dados (DM) Para uma compreensão mais clara e atual da mineração de dados como uma área de pesquisa relevante no mundo dos negócios é preciso caracterizá-la como uma etapa essencial no processo de descoberta do conhecimento em bancos de dados, do inglês knowledge discovery in databases (KDD). Essa não é uma tarefa difícil, porque a maioria das referências sobre o tema já faz essa caracterização (FAYYAD, et al., 1996; BRAGA, 2005). A partir da década de 1990, uma série de tecnologias da informação foi desenvolvida com o objetivo de possibilitar a análise de grandes bases de dados. O uso dessas novas tecnologias de informação, associadas com técnicas e estratégias de negócio, fez surgir e consolidar o conceito de business intelligence (BI) ou inteligência de negócio. BI é um conjunto de conceitos, metodologias e ferramentas que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apoia a tomada de decisões (BRAGA, 2005). Outro conceito inicialmente importante é o de data warehouse (DW). A partir dos bancos de dados brutos, dos sistemas transacionais, bem como os dados da web, de planilhas eletrônicas, enfim, de arquivos diversos, com a finalidade de integração destas múltiplas fontes, gera-se o DW para um armazenamento multidimensional. O DW é uma coleção de dados orientada a assuntos, não volátil, variável no tempo, com vistas à tomada de decisões. Este banco de dados gerencial (DW) oferece acesso a dados para análise complexa, descoberta de conhecimento e tomada de decisão, dando suporte a demandas de alto desempenho sobre os dados e informações de uma organização. Um processo também importante é o de extração, transformação e carga (ETL), que a partir destas diversas fontes heterogêneas de dados vai gerar o DW de forma integrada. (ELMASRI; NAVATHE, 2011). A referência de DW é importante, tanto para o BI quanto para a mineração de dados, na medida em que essa tecnologia está diretamente ligada ao KDD. Normalmente, constrói-se um DW com vistas à realização da inteligência de negócios e a mineração de dados (FAYYAD et al., 1996; HAN; KAMBER, 2007; TAN; STEINBACH; KUMAR, 2006). Quanto ao entendimento do conceito de mineração de dados, recorrer-se a importantes autores, dentre eles Fayyad et al. (1996), que elucidam como um processo não trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis. Tan, Steinbach e Kumar (2006) diz que para ser eficiente, uma técnica de mineração de dados deve fazer previsões corretas, serem compreensíveis e úteis aos usuários para tomada de decisões. Embora existam pequenas diferenças nas definições de data mining, elas concordam com o fato de que o objetivo é a descoberta de conhecimento valioso em grandes bases de dados, usando, para isso, estratégias e técnicas automatizadas ou semiautomatizadas, além de encontrar relações escondidas em um grande conjunto de dados. Na prática, a mineração de dados ajuda na extração de novos padrões significativos que não podem ser necessariamente encontrados apenas ao consultar ou processar dados ou metadados no DW. Nesse sentido, a mineração de dados complementa o DW na busca pela geração de conhecimento a partir de bancos de dados. Finalizando esses conceitos iniciais, apresenta-se o OLAP ou processamento analítico em tempo real (on-line analytical processing). De acordo com Elmasri e Navathe (2011), OLAP é um termo usado para descrever a análise de dados complexos de um DW. Nas mãos de trabalhadores do conhecimento, as ferramentas OLAP utilizam capacidades de computação distribuída para análises que exigem mais armazenamento e poder de processamento. Nesse sentido, a mineração de dados possibilita buscar padrões, fatos e correlações invisíveis em DW e também informações e tendências escondidas, não observadas em ferramentas OLAP. 2.4.1 Tarefas e técnicas de mineração de dados Segundo Witten, Frank e Hall (2011) existem diversas tarefas (ou funcionalidades) de mineração de dados e, geralmente, cada uma delas está associada a um tipo de problema que ela se propõe a resolver. Nesse sentido, uma tarefa determina o tipo de problema que será resolvido pelo processo de mineração de dados. Pode-se definir tarefa de mineração de dados como o ato de descobrir certo tipo de padrão em uma base de dados. Quanto aos tipos de tarefas de mineração de dados, pode-se agrupá-las em dois grandes grupos: tarefas Preditivas: predizem o valor de um determinado atributo baseado nos valores de outros atributos. Exemplos: classificação; predição ; tarefas Descritivas: derivam padrões, que incluem correlações, tendências, anomalias e agrupamentos, dentro de uma grande massa de dados. Exemplos: regras de associação; padrões sequenciais; agrupamentos (clusterização); anomalias (outliers). Já o conceito de técnica de mineração de dados é diferente do conceito de tarefa. Cada tarefa possui um conjunto de técnicas a ela associadas, que representam os algoritmos que podem ser empregados para a sua execução. O QUADRO 1 relaciona as principais tarefas de mineração com a técnica (algoritmo), que a ela se aplica. QUADRO 1: Tarefas e técnicas (algoritmos) de mineração de dados Tarefa de Mineração Regras de associação Classificação Clusterização (Agrupamento) Regressão Padrões sequenciais Técnica (Algoritmo) de Mineração Algoritmo Apriori; Árvore de padrão de crescimento frequente. Árvores de decisão ID3; Redes Neurais; Redes Bayesianas. Algoritmo k-Médias; Algoritmo k-Medóides. Regressão Linear; Regressão Exponencial. Algoritmo Apriori-All; Algoritmo PrefixScan. Fonte: Adaptado de Han e Kamber, 2007. 2.4.2 Projeto de mineração de dados Devido à complexidade do ambiente que se insere a mineração de dados, um roteiro de elaboração de um projeto torna-se imprescindível. É necessário dividir em etapas para que esse projeto seja modular e de fácil condução. Braga (2005) descreve as etapas essenciais: definição do problema: etapa fundamental, pois tem como desafio descobrir as necessidades do cliente. Também é feita a escolha do modelo preditivo ou descritivo. Outro aspecto essencial é a seleção das fontes de dados a serem usadas no projeto; aquisição e avaliação dos dados: após a escolha da fonte de dados a ser usada no projeto de mineração, o passo seguinte é adquiri-los e avaliá-los. O processo de amostragem é uma boa alternativa para BD muito grandes, assim, utilizam-se apenas partes (conjunto de registros) de data warehouse na criação do modelo de mineração; transformação e codificação dos dados: nessa etapa é preciso identificar quais atributos contribuem para a resolução do problema. O objetivo principal dessa etapa é produzir um conjunto de dados (dataset) representativo, reproduzível e confiável. Outra importante tarefa nesta etapa é a detecção e o tratamento dos valores aberrantes (outliers); prototipagem e desenvolvimento do modelo de mineração: talvez seja a etapa mais crítica num projeto de mineração e envolve uma série de aspectos e parâmetros que merecem a atenção especial. Num projeto de mineração de dados, como qualquer outro projeto de TI, deve-se definir os aspectos que viabilizam a execução do projeto, dentre eles o escopo, custo e prazo, assim como a ferramenta que será utilizada. São definidos, também, o método de mineração, as hipóteses, a prototipagem, o modelo, o plano de testes e a execução do modelo; avaliação e validação do modelo de mineração: a validação deve ser entendida, aqui, como a etapa em que a efetividade do modelo será posta à prova. As seguintes questões podem ser levantadas: O que deu errado? Por que deu errado? Como validar? Obviamente, essa etapa é uma etapa crítica do processo, porém, não necessariamente definitiva, pois, a rejeição de um modelo pode ser uma importante etapa no processo de descoberta do conhecimento. Não se pode esquecer-se de documentar tudo o que for feito; avaliação do retorno sobre o investimento (ROI): essa fase deve ser conduzida pela gerência da empresa para avaliar se as mudanças consequentes ao projeto representaram, efetivamente, um ganho material. Essa atividade é feita após o uso do modelo proposto durante um período compatível com o ciclo do problema. 2.5 Arquitetura corporativa (EA) A acepção que se toma nessa apresentação de pesquisa para designar o conceito de arquitetura é aquela definida pela norma IEEE-14711. Nessa norma, uma arquitetura é entendida como a organização fundamental de um sistema, plasmada em seus componentes e relações mútuas e também com o ambiente, além dos princípios orientadores da sua concepção e evolução (IEEE, 2000). Arquitetura corporativa conta com uma miríade de definições propostas na literatura. Tal profusão de conceitos ocorreu ao longo dos últimos 20 anos, em função da proliferação das pesquisas relacionadas ao desenvolvimento de metodologias e frameworks para construir e operacionalizar o conceito na prática (ZAIDAN; BAX, 2013a, 2013b). Alguns autores ainda utilizam o termo “informação”, referindo-se a uma “arquitetura de informação” e adicionam “corporativa”, “empresarial” ou “organizacional” ao final da expressão. Nesse caso, a presença do termo “de informação” gera grande confusão com a terminologia utilizada para designar a “arquitetura de informação” de portais e sites web (GARTNER – IT GLOSSARY, 2014). Para Dyer (2009), a arquitetura corporativa é a lógica de organização para os processos de negócios e tecnologia da informação de infraestrutura, cujo objetivo é criar uma organização mais eficaz no contexto do negócio. O escopo de um programa de elaboração e manutenção de EA é amplo e envolve toda a empresa, incluindo as pessoas, processos, informação e tecnologia empregada, além de suas relações entre si e com o ambiente externo. Os arquitetos compõem soluções holísticas que abordam os desafios empresariais e apoiam a governança necessária para implementá-las. Conduzem o processo de EA para definir o estado de destino em que a organização deseja alcançar e, em seguida, ajudam a organização a compreender o seu progresso em direção ao estado desejado. Dessa forma, é necessário conhecer a situação atual da empresa (as is) para que se almeje o estado futuro (to be), da mesma forma que a análise do impacto das mudanças também é de suma importância (DYER, 2009; GRAVES, 2012; SEREFF; 2012). As descrições definem que elementos ou componentes (building blocks) integram os sistemas de informação e fornecem um plano a partir do qual produtos e soluções podem ser adquiridos ou desenvolvidos e integrados ao sistema original. Assim, é possível gerir o investimento global de TI de forma a melhor atender as necessidades do negócio (SEREFF, 2012; THE OPEN GROUP, 2009). 2.5.1 Linguagem de arquitetura corporativa: ArchiMate A especificação precisa e a descrição dos componentes da arquitetura e suas relações requerem uma linguagem de modelagem que priorize a questão de fundo, relativa ao alinhamento consistente entre as camadas de abstração da organização (negócios, sistemas e infraestrutura), de forma a suportar a modelagem coerente de arquiteturas corporativas. Em uma linguagem de modelagem, essa especificação precisa dos componentes e relações, que 1 The IEEE Computer Society elaborou a IEEE-Std-1471-2000 que é um conjunto de práticas recomendadas para descrever arquiteturas de Sistemas de Informação. estão disponíveis ao arquiteto, é formalizada por aquilo que é denominado o “metamodelo” da linguagem (LANKHORST, 2012; WIERDA, 2013). Portanto, a empresa é modelada em três níveis de abstração, ou camadas: a camada de negócios: oferece produtos e serviços para os clientes externos, desenvolvidos na organização por processos de negócios e realizados por atores; a camada de aplicação: suporta a camada de negócios, com serviços realizados pelas aplicações de software; a camada de infraestrutura de TI: oferece os serviços de infraestrutura tecnológica (por exemplo, processamento, armazenamento e serviços de comunicação) necessários para executar os aplicativos realizados por computador, além do hardware e o software de comunicação do sistema (ARCHIMATE, 2014; LANKHORST, 2012; THE OPEN GROUP, 2012). ArchiMate é uma linguagem de modelagem de arquitetura para descrever, analisar e visualizar arquiteturas corporativas em diferentes domínios de negócios (ARCHIMATE, 2014; LANKHOST, 2012; WIERDA, 2013). ArchiMate é um padrão do The Open Group baseado nos conceitos da norma IEEE 1471. Distingue-se de outras linguagens, como Unified Modeling Language (UML) e Business Process Modeling Notation (BPMN), pelo seu metamodelo bem definido e de escopo mais amplo, apropriado para a modelagem da arquitetura da organização como um todo (ARCHIMATE, 2014). A linguagem básica consiste de três grupos de elementos: elementos de estrutura ativa: são atores do negócio e seus papéis (pertencentes à camada de negócio), assim como os componentes de aplicativos (camada de aplicação) e os dispositivos (camada de infraestrutura). O padrão de cor para representá-los é o azul; elementos de comportamento: são definidos como uma unidade de atividade realizada por um ou mais elementos de estrutura ativa. É caracterizado pela cor amarela e os serviços (unidades de funcionalidade de todas as camadas), assim como as funções e os processos de negócio (camada de negócio), são exemplos de comportamento; elementos de estrutura passiva: são os objetos os quais o comportamento é executado. Representa-se pela cor verde e um exemplo são os objetos de dados ou de negócios (ARCHIMATE, 2014). 3. METODOLOGIA Wazlawick (2009) explica que, para não se chegar a conclusões errôneas é importante a coexistência da teoria e a prática. Essa pesquisa é tanto exploratória quanto aplicada, situando-se na fronteira entre a arquitetura corporativa e a mineração de dados. Há pouco conhecimento acumulado sobre o objeto de pesquisa proposto e o problema está sendo tratado de forma pioneira. Identifica-se a pesquisa como aplicada, pois visa a solucionar um problema concreto existente. Além disso, serão utilizados dados para implementação do projeto de mineração de dados. Os resultados alcançados no projeto de mineração de dados serão comunicados e validados, pois é preciso verificar objetivamente se o fenômeno descrito realmente é verdadeiro (WAZLAWICK, 2009). Será utilizada a pesquisa bibliográfica. Para a construção do referencial teórico, realizou-se um estudo com base em livros de arquitetura corporativa, mineração de dados, informação e estratégia organizacional. Buscou-se, também, no estado da arte um rico material já publicado. Quanto à abordagem, dois paradigmas, qualitativo e quantitativo, poderão ser identificados nessa pesquisa. Por um lado, serão analisados os conteúdos dos dados informacionais de um banco de dados. De outro, as descobertas devem ser analisadas cuidadosamente, deixando que os números levem à solução de respostas reais. Gil (2010) confirma a viabilidade destes direcionamentos. O universo em questão são as organizações que demandam por análises de informações estratégicas para a tomada de decisão mais assertivas. 4. MODELO DE ARQUITETURA CORPORATIVA (EA) NA LINGUAGEM ARCHIMATE PARA O DATA MINING (DM) Antes de enumerar os resultados esperados, foi escolhido o modelo de EA denominado visão em camadas, que será construído para o ambiente de DM. O que se propõe, aqui, é um modelo utilizando-se da linguagem de modelagem ArchiMate, concebido para a representação genérica dos elementos no contexto de DM, assim como os seus relacionamentos. Identificam-se as três camadas típicas da EA, contudo com uma pequena variação para fins de clarificação: negócios: subdividida em três subcamadas; aplicações: duas subcamadas; infraestrutura de TI: em apenas uma camada. A seguir, na FIGURA 1, está representada a modelagem da visão em camadas, seguida pela sua descrição e detalhamento. FIGURA 1: Modelo de arquitetura corporativa na mineração de dados Fonte: o autor, 2014. Encontram-se a seguir o detalhamento dos principais elementos da modelagem desenvolvida: camada de negócios – atores, papéis e serviços: os atores Executivos são os stakeholders diretamente interessados nos resultados do DM. Eles estão associados ao papel de Tomadores de decisão, que desempenham este comportamento específico. Já os atores Administradores de DM, têm a responsabilidade por desempenhar o papel específico no ambiente de DM de Analisadores de informações. Ambos os papéis, Tomadores de decisão e Analisadores de informações, utilizam o serviço Busca por informações estatísticas. Um serviço de negócio executa uma necessidade de negócio para um cliente, interno ou externo à organização, assim como exibe uma funcionalidade de papéis de negócio para seu ambiente (ARCHIMATE, 2014); camada de negócios – informação: nesta camada tem-se representado o objeto de negócio denominado Padrões, que é um elemento informacional passivo, no sentido de que ele não dispara ou executa processos (ARCHIMATE, 2014). Padrões, aqui, compreendem as regras resultantes da mineração dos dados. Está associado ao serviço Busca por informações estatísticas é são acessados (lidos e escritos) pela função de negócio e pelos processos de negócios abaixo descritos; camada de negócios – processos e funções de negócio: como foi explicado anteriormente, esta subdivisão da camada de negócios foi para apontar os conceitos comportamentais internos, que agrupam funções e processos de negócios. Cabe esclarecer a diferença entre eles: um processo de negócio representa um fluxo de trabalho menor, conduzindo a algum resultado. Já uma função de negócio oferece funcionalidade que pode ser útil para um ou mais processos de negócios (ARCHIMATE, 2014; LANKHORST, 2012). A função de negócio Obtenção de resultados por meio de DM está encarregada de agrupar conhecimentos oriundos dos processos de negócios: definir os parâmetros do método DM, aplicar o método de DM, procurar padrão, corrigir os parâmetros do método de DM. Estes processos de negócios são específicos de um projeto genérico de DM, descrevendo as atividades demandadas. Os processos se relacionam por fluxo (troca ou transferência) de informações; camada de aplicações – serviços: mudando da camada de negócios para a de aplicações, nesta camada modelam-se os conceitos estruturais (não apenas componentes de software), mas aplicações ou sistemas de informações. Necessita-se de serviços na camada de aplicações para expor as funcionalidades dos componentes ao seu ambiente (ARCHIMATE, 2014). O serviço Procura de padrão é usado pela função de negócio e pelos processos de negócios; camada de aplicações – aplicativos: principal conceito desta camada, o componente de aplicação é uma unidade autossuficiente de funcionalidade. É independente, reutilizável e substituível, sendo capaz de executar uma ou mais funções de aplicação e pode estar associado a uma ou mais aplicações (ARCHIMATE, 2014). No modelo da FIGURA 1, tem-se o componente aplicação Ferramenta de DM, que realiza o serviço Procura de padrão; camada de infraestrutura e de TI: finalmente, tem-se a camada que demonstra os conceitos de tecnologia e seus relacionamentos, muitos inspirados no padrão UML. Representa-se nesta camada dois dispositivos: servidor DM e servidor OLTP. Segundo Lankhorst (2012) um dispositivo é definido como um recurso de hardware, cujos artefatos podem ser armazenados ou implantados para execução. A divisão em dois servidores é no intuito de atender ao quesito desempenho do banco de dados tanto OLTP, quanto de mineração de dados. Com relação aos relacionamentos, o Servidor DM realiza o componente Ferramenta de DM. Entre os servidores mantem-se um relacionamento de uso. Por fim, no Servidor DM têm-se os softwares de sistemas representados por Data warehouse e por Ferramenta de DM. Já o Servidor OLTP abarca o SGBD (sistema gerenciador de banco de dados) e as Aplicações OLTP. 5. RESULTADOS ESPERADOS A seção anterior discorreu sobre os componentes e os relacionamentos do modelo de EA da FIGURA 1. Após apresentar o modelo de EA, essa apresentação de pesquisa indica, como resultados esperados, a criação de um ambiente real de mineração de dados, tomando o modelo de EA como orientação. A interconexão com as atividades de um projeto de mineração de dados2 foi vista no modelo da FIGURA 1. Abaixo descreve-se as etapas do projeto de mineração de dados na busca por informações estratégicas: definição do problema: serão levantadas as necessidades, expectativas e objetivos. Será escolhida a tarefa e o algoritmo de mineração de dados a ser utilizado; aquisição e avaliação dos dados: a fonte de dados, já escolhida, será de um banco de dados de um sistema de gestão organizacinoal. Será realizada a avaliação minuciosa dos dados; transformação e codificação dos dados: nessa etapa será modelado o data warehouse e realizado o ETL . Em seguida, será feita a detecção de outliers; prototipagem e desenvolvimento do modelo de mineração: conforme as escolhas das necessidades dos executivos, um protótipo será desenvolvido e apresentado. Em seguida, o modelo de mineração escolhido começará a ser treinado; avaliação e validação do modelo de mineração: como é a etapa efetiva de treinamento do modelo de mineração, os processos de negócios do modelo de EA serão contemplados. Como resultado dessa etapa, os padrões de DM serão definidos. Os executivos da empresa parceira estarão envolvidos nesta etapa, pois receberão os resultados para análise, avaliação e validação. 5 CONSIDERAÇÕES FINAIS O objetivo dessa apresentação de pesquisa foi apresentar um esboço de um modelo de arquitetura corporativa capaz de refletir projetos de mineração de dados mais estratégicos. O tema foi justificado sob o ponto de vista acadêmico e organizacional. A consulta em autores seminais e do estado da arte da literatura científica possibilitou a elucidação dos principais construtos, tais como: informação estratégica, tomada de decisão, alinhamento da TI com os negócios organizacionais, mineração de dados e arquitetura corporativa. Com relação à metodologia escolhida, sustentou-se no que foi explicado por Wazlawick (2009), quando indica a necessidade de conduzir um projeto acadêmico utilizando, concomitantemente, a teoria a prática. Um ponto importante apresentado foi que, por fazer parte da estratégia organizacional, um modelo de arquitetura corporativa materializa o almejado alinhamento da TI com os negócios organizacionais. Ainda mais quando se tem certa complexidade em um projeto de mineração de dados, como comprovado por Braga (2005). Foi desenvolvido um modelo de arquitetura corporativa para apoiar projetos de mineração de dados. O modelo visa interconectar, nos três níveis organizacionais, negócios, aplicações e infraestrutura de TI, os principais componentes de um projeto de mineração de dados. 2 O projeto de mineração de dados está descrito por Braga (2005) no capítulo do estado da arte da literatura científica. No modelo de EA apresentado, ficou claro que os processos de mineração, dentre eles a definição dos parâmetros e a aplicação do método de DM, acessam os padrões estabelecidos e realizam os serviços de busca por informações mais estratégicas pelos stakeholders da área, que são os tomadores de decisões e os analisadores de informação. Essa apresentação de pesquisa alcançou o objetivo proposto, contudo recomenda que no futuro seja validado o modelo apresentado, pois é conveniente explorar oportunidades de alinhamento estratégico no contexto de projetos de mineração de dados, assim como auxiliar na disseminação de informações mais estratégicas dentro das organizações. REFERÊNCIAS ARCHI. ArchiMate modelling. 2014. Disponível em: <http://archi.cetis.ac.uk/>. Acesso em: 02 dez. 2014. ARCHIMATE. What is ArchiMate? 2014. Disponível em: <http://www.archimate.nl/en>. Acesso em: 02 dez. 2014. BAX, M. P. Arquitetura empresarial e segurança da informação: uma profícua sinergia. Revista Fonte, Belo Horizonte, n. 12, 2012. BRAGA, L. P. V. Introdução à Mineração de Dados. 2. ed. Rio de Janeiro: E-Papers Serviços Editoriais, 2005. CHERTOV, O. EA model that enables to search for patterns of statitical information. International Journal of Advanced Research in Artificial Intelligence- IJARAI. v. 2, n. 6, 2013. CHOO, C. W. A organização do conhecimento: como as organizações usam a informação para criar conhecimento, construir conhecimento e tomar decisões. 2. ed. São Paulo: Senac São Paulo, 2006. DAVENPORT, T. H.; MANVILLE, B. As melhores decisões são sempre difíceis: a importância do julgamento correto na tomada de decisão empresarial. Rio de Janeiro: Elsevier, 2012. DAVENPORT, T. H.; PRUSAK, L. Conhecimento empresarial: como as organizações gerenciam o seu capital intelectual. Rio de Janeiro: Campus, 1998. DYER, A. Measuring the Benefits of Enterprise Architecture. In: SAHA, P. Advances in government enterprise architecture. New York: Information Science Reference, 2009. ELMASRI, R.; NAVATHE, S. Sistemas de Banco de Dados. 6. ed. São Paulo: Addison Wesley, 2011. FAYYAD, U. et al. The KDD process for extracting useful knowledge from Volumes of data. In: Communications of the ACM, p.27-34, nov.1996. GARTNER – IT GLOSSARY. Enterprise Architecture. 2014. Disponível em: <http://www.gartner.com/it-glossary/enterprise-architecture-ea/>. Acesso em: 02 dez. 2014. GIL, A. C. Como elaborar projetos de pesquisa. 5. ed. São Paulo: Atlas, 2010. GRAVES, T. The enterprise as story: the role of narrative in enterprise architecture. London: LeanPub, 2012. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2. ed. USA: Elsevier Morgan Kaufmann Publishers, 2007. HENDERSON, J. C.; VENKATRAMAN, N. Strategic alignment: leveraging IT for transforming organizations. IBM Systems Journal, New York, v. 32, n. 1, 1993. IEEE. IEEE Recommended Practice for Architecture Description of Software-Intensive Systems, ANSI/IEEE Std 1471, ISO/IEC 42010, 2000. Disponível em: <http://www.isoarchitecture.org/ieee-1471/>. Acesso em: 02 dez. 2014. LANKHORST, M. Enterprise architecture at work: modelling, communication, and analysis. Berlin: Springer-Verlag, 2012. MAES, R. An Integrative Perspective on Information Management. Primavera Working Paper, apr. 2007. MINTZBERG, H.; QUINN, J. B. O processo da estratégia. 3. ed. Porto Alegre: Bookman, 2001. SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação. Belo Horizonte, v.1, n.1, p. 41-62, jan./jun. 1996. SEREFF, G. B. Launching an enterprise business architecture practice. USA: Published by Guy B. Sereff, 2012. SIMON, H. Comportamento Administrativo: estudo dos processos decisórios nas organizações administrativas. Rio de Janeiro: Editora da Fundação Getúlio Vargas, 1979. TAN, P. N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. USA: Addison Wesley, 2006. THE OPEN GROUP. Architecture Framework TOGAF. Version 9, 2009. Disponível em: <http://www.opengroup.org/architecture/togaf9/downloads.htm>. Acesso em: 02 dez. 2014. ______. ArchiMate 2.0 Specification. The Open Group, jan., 2012. Disponível em: <http://www.opengroup.org/archimate/downloads.htm>. Acesso em: 02 dez. 2014. WAZLAWICK, R. S. Metodologia de pesquisa para ciência da computação. Rio de Janeiro: Elsevier, 2009. WEKA. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em: 02 dez. 2014. WIERDA, G. Mastering ArchiMate. 4th Printing. The Netherlands: Screen Edition, 2013. WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques. 3. ed. USA: Elsevier Morgan Kaufmann, 2011. ZAIDAN, F. H.; BAX, M. P. Aportes da arquitetura empresarial para a gestão da informação em hospitais privados. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14, (ENANCIB 2013), Santa Catarina. Anais... Florianópolis, 2013a. ZAIDAN, F. H.; BAX, M. P. Gestão de Informação com Arquitetura Empresarial: Proposta de Aplicação nas Organizações de Saúde. In: 10th CONTECSI - International Conference on Information Systems and Technology Management, 2013b.