utilização de um modelo de arquitetura corporativa na mineração de

Propaganda
UTILIZAÇÃO DE UM MODELO DE ARQUITETURA CORPORATIVA NA
MINERAÇÃO DE DADOS
Fernando Hadad Zaidan
Universidade Federal Minas Gerais - UFMG – Escola de Ciência da Informação – ECI
Minas Gerais, Brasil - [email protected]
Marcello Peixoto Bax
Universidade Federal Minas Gerais - UFMG – Escola de Ciência da Informação – ECI
Minas Gerais, Brasil - [email protected]
Resumo
Quantidades gigantescas de dados são coletadas e armazenadas em organizações a cada
dia. Emerge daí a necessidade de usar tecnologias elaboradas para tratamento e descoberta
de informações nos bancos de dados. A mineração de dados é uma disciplina da Ciência da
Computação que propõe técnicas e algoritmos para a descoberta de informações. Em
domínios específicos, a mineração de dados é carente de um melhor alinhamento com os
negócios da organização. A arquitetura corporativa é estratégica para alinhar, nas
organizações, os níveis de negócios, aplicações e infraestrutura. O objetivo do artigo é
apresentar o esboço de um modelo de arquitetura corporativa capaz de refletir projetos de
mineração de dados mais estratégicos. A revisão da literatura traz os principais conceitos e
a metodologia foi exploratória e aplicada. A validação do modelo proposto ficou como
trabalho futuro que possibilitará explorar oportunidades de alinhamento estratégico no
contexto de projetos de mineração de dados.
Palavras-chave: Mineração de dados, Arquitetura corporativa, Informação estratégica,
Alinhamento tecnologia e negócios.
USE OF A MODEL OF ENTERPRISE ARCHITECTURE IN DATA MINING
Abstract
Every day huge amounts of data are collected and stored in organizations. From there, the
need to use technologies developed for treatment and discovery of information in
databases emerges. Data mining is a discipline of Computer Science that proposes
techniques and algorithms to discover information. In specifics domains, data mining
requires a better alignment with the enterprise businesses. The enterprise architecture is
key to align, in the enterprises, the layers of business, applications and infrastructure. The
aim of this study is to present an outline of an enterprise architecture model that
reflects more strategic data mining projects. The literature review clarifies the
main concepts. The methodology is exploratory and applied. The future validation of the
proposed model will enable the exploration of the results and opportunities for the
strategic information's use in the context of data mining.
Keywords: Data mining, Enterprise architecture, Strategic information, Alignment of
technology and business.
1 INTRODUÇÃO
A evolução dos modelos e de tecnologias de banco de dados (BD), a partir dos anos de 1980,
possibilitou que as organizações coletassem e armazenassem, de forma contínua, uma enorme
quantidade de dados sobre clientes, fornecedores, produtos e serviços, dentre outros,
aumentando, sensivelmente, o volume de dados presentes nos BD (ELMASRI; NAVATHE,
2011). Nesse contexto, a mineração de dados (DM - data mining) surge como uma linha de
pesquisa multidisciplinar e campo de atuação que se preocupa com a proposição de
metodologias (técnicas) e algoritmos eficientes para a descoberta de conhecimento em
grandes bancos de dados. A multidisciplinaridade mencionada deve-se ao fato de que a DM,
além de aplicada a domínios de conhecimentos específicos, engloba metodologias diversas,
como o próprio DB, informação estratégica, estatística, aprendizado de máquina e lógica
computacional, de forma a possibilitar a descoberta de conhecimentos de domínio escondidos
em grandes bases de dados (TAN; STEINBACH; KUMAR, 2006).
Segundo Braga (2005), para interpretar os objetivos, expectativas e desejos dos clientes das
organizações, não bastam apenas ferramentas genéricas de sistemas de relacionamento com
clientes (CRM), sistemas de gestão empresarial (ERP) ou ainda business intelligence (BI).
Para tanto, é necessária, também, a capacidade analítica para identificação de padrões e
predição a partir as informações estratégicas, conseguida através da aplicação das técnicas de
DM. Em outras palavras, a coleta e o armazenamento de dados, por si só, não contribuem para
melhorar a estratégia da organização, tampouco a tomada de decisão. A demanda por análise
em grande quantidade de dados de domínios específicos é crescente, bem como processar e
analisar as informações geradas pelas bases de dados atuais de forma correta está entre os
requisitos essenciais para uma boa tomada de decisão (SIMON, 1979).
Para atender a essa necessidade informacional das organizações, emerge o fato de se ter o
alinhamento entre os negócios e a TI (HENDERSON; VENKATRAMAN, 1993). A
arquitetura corporativa (EA – enterprise architecture) é o instrumento que materializa esse
alinhamento, pois é parte da estratégia de negócio de uma organização. Ao invés de adotar um
conjunto desconexo de representações para modelar a organização como um todo, a EA
privilegia os modelos de negócios e indica como desenvolver uma infraestrutura de negócio
apropriada para a execução da estratégia corporativa. Esses modelos fornecem uma
fundamentação adequada para execução e crescimento da organização (BAX, 2012;
GARTNER – IT CLOSSARY, 2014).
De fato, uma EA é criada para que as diferentes preocupações ou interesses (concerns) das
partes interessadas (stakeholders) da organização possam ser representados e atendidos (THE
OPEN GROUP, 2009; 2012). Os stakeholders necessitam de visões especializadas da mesma
organização, voltadas para a natureza de sua atuação e responsabilidades específicas. O papel
do arquiteto é representar essas preocupações, levantando, identificando e refinando os vários
requisitos e necessidades, bem como desenvolvendo visões específicas sobre a arquitetura
(LANKHORST, 2012; WIERDA, 2013).
No que tange ao modelo utilizado para o desenvolvimento dessa apresentação de pesquisa,
será empregado o arcabouço ArchiMate, que dispõe de uma linguagem gráfica de
representação das arquiteturas (ARCHI, 2014). Essa apresentação de pesquisa refere-se à
versão 2.0 da linguagem ArchiMate, que contém uma série de correções, melhorias e
esclarecimentos, assim como extensões da sua versão inicial (ARCHIMATE, 2014).
Cabe esclarecer que foram buscados trabalhos correlatos que contribuíssem para essa
apresentação de pesquisa e encontrou-se em Chertov (2013) o estado a arte da interconexão
da arquitetura corporativa com a mineração de dados. Contudo, este autor aborda de uma
maneira genérica, incluindo, além da mineração de dados, o business intelligence (BI) em seu
modelo.
Diante do que foi exposto, elaborou-se o objetivo principal desse estudo, que é apresentar um
esboço de um modelo de arquitetura corporativa capaz de refletir projetos de mineração de
dados mais estratégicos. Será apresentada, também, uma proposta de um ambiente de
mineração de dados, a partir do modelo de EA desenvolvido.
Caberá, nessa apresentação de pesquisa, utilizar de forma adequada a EA em benefício da
mineração de dados, para líderes que buscam identificar o tão almejado alinhamento entre os
processos de negócios e a TI, desta forma serão recompensados com a melhora na tomada de
decisão com o uso de informações estratégicas.
Com bancos de dados cada vez mais volumosos e encontrados em diferentes formatos ou
plataformas, faz-se necessário o uso de técnicas de análises mais elaboradas que os métodos
tradicionais, de forma a garantir que tais informações estratégicas, presentes nessas bases de
dados, possam ser recuperadas ou descobertas para utilização no processo decisório das
organizações.
Dessa forma, a ideia de levar o tema adiante se justifica, a partir das seguintes formulações:



do ponto de vista corporativo, essa pesquisa visa a abrir oportunidades para que as
organizações prestem atenção ao uso da informação estratégica e à melhoria da análise
e da tomada de decisão em domínios específicos (DAVENPORT; MANVILLE,
2012);
pela perspectiva acadêmica, a pertinência do problema como tópico de pesquisa se
torna evidente sob qualquer ótica observada, se considerada a afirmação de que se
ocupa Saracevic (1996), de que a informação receberá a introjeção de novos
conhecimentos. Ainda mais, no modelo que será obtido, a mineração de dados será
apoiada por uma arquitetura corporativa;
aplicar as técnicas de mineração de dados em casos reais nas empresas,, antecipando
eventos e prevendo tendências, baseados na descoberta de padrões (WITTEN;
FRANK; HALL, 2011) é tarefa cuja complexidade carece de um modelo de EA para
sua condução (LANKHORST, 2012; WIERDA, 2013).
Essa apresentação de pesquisa está dividida em sete partes: acima foi introduzido o tema, os
objetivos e as justificativas. Na Seção 2, os principais construtos serão elucidados, bem como
a ligação entre os mesmos. Na seção seguinte, descrevem-se as abordagens metodológicas. Na
Seção 4 é apresentado o modelo de EA que foi desenvolvido. Na Seção 5 é descrita a proposta
do projeto de mineração de dados e são apresentados os resultados que se almejam. Seguemse as considerações finais e as referências.
2 REVISÃO DA LITERATURA
Não é intenção dessa apresentação de pesquisa exaurir todos os fundamentos teóricos dos
construtos. Efetivamente, o intuito é de identificar o estado da arte dos principais conceitos e
os elos que representam, trazendo alguma luz sobre as terminologias da área, fundamentado
em autores seminais e contemporâneos.
2.1 Informação estratégica
Não existe uma definição única e universalmente aceita para estratégia. Segundo Mintzberg e
Quinn (2001), inicialmente deu-se ênfase especial ao uso militar do termo estratégia,
originada das mais antigas literaturas do mundo. No âmbito organizacional, a estratégia é
relacionada com uma série de pontos de vistas, tais como plano ou padrão que integram as
principais metas e sequências de ações de uma organização. Ainda segundo esses autores,
formular uma estratégia carece de informações precisas e ajuda a ordenar e alocar os recursos
de uma organização para uma postura singular e viável.
Já a informação está presente de forma intensa nas empresas e que deve ser considerada como
um importante ativo organizacional (DAVENPORT; MANVILLE, 2012). A motivação em
tratá-la de forma estratégica agrega valor aos bens organizacionais (CHOO, 2006).
Nas organizações, a informação pode estar embutida não só em documentos ou repositórios,
mas em rotinas, processos e normas organizacionais, tornando-a pura ou simples, mas sempre
como uma mistura de vários elementos, agregando valores (DAVENTPOR; PRUSAK, 1998),
utilizando-a para a valoração da estratégia organizacional. Munida de informações
estratégicas, o caminho para o sucesso organizacional ficará mais preciso.
2.2 Tomada de decisão
Com o foco na estratégia das organizações, a tomada de decisão, durante muito tempo, foi
considerada uma arte, um talento. Com o aprendizado que as pessoas adquiriam, a
criatividade, a intuição, a experiência e a tentativa e erro, as decisões eram tomadas. Sabe-se,
porém, que a tomada de decisão é algo bem mais complexo, sofrendo interferências de
variáveis e de fatores internos e externos e o envolvimento de diversos atores. Simon (1979)
indica que a função da administração é ter o ambiente desenhado de tal forma que o
indivíduo, para tomar uma decisão, possa estar tão próximo dele quanto lhe permite a
racionalidade. Ainda segundo este autor, existe três estágios para o processo decisório:



a busca de situações que requerem decisão (atividade de inteligência - termo utilizado
com conotação similar à militar);
a criação, o desenvolvimento e a análise dos possíveis cursos de ação (atividade de
design ou projeto);
a seleção de um curso particular de ação, dentre os que estão disponíveis (atividade de
escolha).
Choo (2006) esclarece que, no contexto de um mercado caracterizado por mudanças e
descontinuidade, é fundamental reavaliar continuamente os processos organizacionais para
assegurar de que a tomada de decisão se oriente por premissas ainda válidas. E complementa
que o fornecimento de informações exatas e relevantes, no ambiente corporativo, é um fator
crítico para a realização de melhores negócios para os tomadores de decisão. Eles precisam de
ferramentas que permitam a análise dos dados a partir de diversas perspectivas, auxiliando a
identificação de tendências e padrões.
2.3 Alinhamento da TI com os negócios organizacionais
Os executivos de negócio e de TI deparam com um novo desafio: criar um ambiente de
confiança e de colaboração para que seja facilitada a interação de todas as áreas
organizacionais. Com o crescimento e o surgimento de novas tecnologias, a área de TI não
pode ser considerada apenas de suporte para as demais áreas organizacionais. Nesse sentido,
com o mercado atual, globalizado, dinâmico e competitivo, exige-se das organizações uma
nova postura, necessitando que processos de gestão estejam alinhados com processos de TI.
Desta forma, muda-se o enfoque da TI, de automação para gestão estratégica (MAES, 2007).
Alinhamento estratégico são as atividades executadas de forma coordenada pela gerência da
organização com o objetivo de alcançar suas metas através da integração de várias áreas
funcionais, tais como: TI, administração financeira, marketing, recursos humanos, produção,
serviços, dentre outras (HENDERSON; VENKATRAMAN, 1993).
Embora existam diversos modelos de alinhamento estratégico da TI, Henderson e
Venkatraman (1993) propuseram o modelo mais aceito, o qual retrata quatro domínios:
estratégia de negócios; infraestrutura e processos organizacionais; estratégia de TI; e
infraestrutura e processos de TI (MAES, 2007). Esses quatro domínios mantêm o perfeito
ajuste estratégico e a integração funcional dos negócios com a TI.
2.4 Mineração de dados (DM)
Para uma compreensão mais clara e atual da mineração de dados como uma área de pesquisa
relevante no mundo dos negócios é preciso caracterizá-la como uma etapa essencial no
processo de descoberta do conhecimento em bancos de dados, do inglês knowledge discovery
in databases (KDD). Essa não é uma tarefa difícil, porque a maioria das referências sobre o
tema já faz essa caracterização (FAYYAD, et al., 1996; BRAGA, 2005).
A partir da década de 1990, uma série de tecnologias da informação foi desenvolvida com o
objetivo de possibilitar a análise de grandes bases de dados. O uso dessas novas tecnologias
de informação, associadas com técnicas e estratégias de negócio, fez surgir e consolidar o
conceito de business intelligence (BI) ou inteligência de negócio. BI é um conjunto de
conceitos, metodologias e ferramentas que, fazendo uso de acontecimentos (fatos) e sistemas
baseados nos mesmos, apoia a tomada de decisões (BRAGA, 2005).
Outro conceito inicialmente importante é o de data warehouse (DW). A partir dos bancos de
dados brutos, dos sistemas transacionais, bem como os dados da web, de planilhas eletrônicas,
enfim, de arquivos diversos, com a finalidade de integração destas múltiplas fontes, gera-se o
DW para um armazenamento multidimensional. O DW é uma coleção de dados orientada a
assuntos, não volátil, variável no tempo, com vistas à tomada de decisões. Este banco de
dados gerencial (DW) oferece acesso a dados para análise complexa, descoberta de
conhecimento e tomada de decisão, dando suporte a demandas de alto desempenho sobre os
dados e informações de uma organização. Um processo também importante é o de extração,
transformação e carga (ETL), que a partir destas diversas fontes heterogêneas de dados vai
gerar o DW de forma integrada. (ELMASRI; NAVATHE, 2011).
A referência de DW é importante, tanto para o BI quanto para a mineração de dados, na
medida em que essa tecnologia está diretamente ligada ao KDD. Normalmente, constrói-se
um DW com vistas à realização da inteligência de negócios e a mineração de dados
(FAYYAD et al., 1996; HAN; KAMBER, 2007; TAN; STEINBACH; KUMAR, 2006).
Quanto ao entendimento do conceito de mineração de dados, recorrer-se a importantes
autores, dentre eles Fayyad et al. (1996), que elucidam como um processo não trivial de
identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente
compreensíveis. Tan, Steinbach e Kumar (2006) diz que para ser eficiente, uma técnica de
mineração de dados deve fazer previsões corretas, serem compreensíveis e úteis aos usuários
para tomada de decisões. Embora existam pequenas diferenças nas definições de data mining,
elas concordam com o fato de que o objetivo é a descoberta de conhecimento valioso em
grandes bases de dados, usando, para isso, estratégias e técnicas automatizadas ou
semiautomatizadas, além de encontrar relações escondidas em um grande conjunto de dados.
Na prática, a mineração de dados ajuda na extração de novos padrões significativos que não
podem ser necessariamente encontrados apenas ao consultar ou processar dados ou metadados
no DW. Nesse sentido, a mineração de dados complementa o DW na busca pela geração de
conhecimento a partir de bancos de dados.
Finalizando esses conceitos iniciais, apresenta-se o OLAP ou processamento analítico em
tempo real (on-line analytical processing). De acordo com Elmasri e Navathe (2011), OLAP é
um termo usado para descrever a análise de dados complexos de um DW. Nas mãos de
trabalhadores do conhecimento, as ferramentas OLAP utilizam capacidades de computação
distribuída para análises que exigem mais armazenamento e poder de processamento. Nesse
sentido, a mineração de dados possibilita buscar padrões, fatos e correlações invisíveis em
DW e também informações e tendências escondidas, não observadas em ferramentas OLAP.
2.4.1 Tarefas e técnicas de mineração de dados
Segundo Witten, Frank e Hall (2011) existem diversas tarefas (ou funcionalidades) de
mineração de dados e, geralmente, cada uma delas está associada a um tipo de problema que
ela se propõe a resolver. Nesse sentido, uma tarefa determina o tipo de problema que será
resolvido pelo processo de mineração de dados. Pode-se definir tarefa de mineração de dados
como o ato de descobrir certo tipo de padrão em uma base de dados. Quanto aos tipos de
tarefas de mineração de dados, pode-se agrupá-las em dois grandes grupos:


tarefas Preditivas: predizem o valor de um determinado atributo baseado nos valores
de outros atributos. Exemplos: classificação; predição ;
tarefas Descritivas: derivam padrões, que incluem correlações, tendências, anomalias
e agrupamentos, dentro de uma grande massa de dados. Exemplos: regras de
associação; padrões sequenciais; agrupamentos (clusterização); anomalias (outliers).
Já o conceito de técnica de mineração de dados é diferente do conceito de tarefa. Cada tarefa
possui um conjunto de técnicas a ela associadas, que representam os algoritmos que podem
ser empregados para a sua execução. O QUADRO 1 relaciona as principais tarefas de
mineração com a técnica (algoritmo), que a ela se aplica.
QUADRO 1: Tarefas e técnicas (algoritmos) de mineração de dados
Tarefa de Mineração
Regras de associação
Classificação
Clusterização (Agrupamento)
Regressão
Padrões sequenciais
Técnica (Algoritmo) de Mineração











Algoritmo Apriori;
Árvore de padrão de crescimento frequente.
Árvores de decisão ID3;
Redes Neurais;
Redes Bayesianas.
Algoritmo k-Médias;
Algoritmo k-Medóides.
Regressão Linear;
Regressão Exponencial.
Algoritmo Apriori-All;
Algoritmo PrefixScan.
Fonte: Adaptado de Han e Kamber, 2007.
2.4.2 Projeto de mineração de dados
Devido à complexidade do ambiente que se insere a mineração de dados, um roteiro de
elaboração de um projeto torna-se imprescindível. É necessário dividir em etapas para que
esse projeto seja modular e de fácil condução. Braga (2005) descreve as etapas essenciais:





definição do problema: etapa fundamental, pois tem como desafio descobrir as
necessidades do cliente. Também é feita a escolha do modelo preditivo ou descritivo.
Outro aspecto essencial é a seleção das fontes de dados a serem usadas no projeto;
aquisição e avaliação dos dados: após a escolha da fonte de dados a ser usada no projeto
de mineração, o passo seguinte é adquiri-los e avaliá-los. O processo de amostragem é
uma boa alternativa para BD muito grandes, assim, utilizam-se apenas partes (conjunto de
registros) de data warehouse na criação do modelo de mineração;
transformação e codificação dos dados: nessa etapa é preciso identificar quais atributos
contribuem para a resolução do problema. O objetivo principal dessa etapa é produzir um
conjunto de dados (dataset) representativo, reproduzível e confiável. Outra importante
tarefa nesta etapa é a detecção e o tratamento dos valores aberrantes (outliers);
prototipagem e desenvolvimento do modelo de mineração: talvez seja a etapa mais crítica
num projeto de mineração e envolve uma série de aspectos e parâmetros que merecem a
atenção especial. Num projeto de mineração de dados, como qualquer outro projeto de TI,
deve-se definir os aspectos que viabilizam a execução do projeto, dentre eles o escopo,
custo e prazo, assim como a ferramenta que será utilizada. São definidos, também, o
método de mineração, as hipóteses, a prototipagem, o modelo, o plano de testes e a
execução do modelo;
avaliação e validação do modelo de mineração: a validação deve ser entendida, aqui,
como a etapa em que a efetividade do modelo será posta à prova. As seguintes questões
podem ser levantadas: O que deu errado? Por que deu errado? Como validar? Obviamente,
essa etapa é uma etapa crítica do processo, porém, não necessariamente definitiva, pois, a
rejeição de um modelo pode ser uma importante etapa no processo de descoberta do
conhecimento. Não se pode esquecer-se de documentar tudo o que for feito;

avaliação do retorno sobre o investimento (ROI): essa fase deve ser conduzida pela
gerência da empresa para avaliar se as mudanças consequentes ao projeto representaram,
efetivamente, um ganho material. Essa atividade é feita após o uso do modelo proposto
durante um período compatível com o ciclo do problema.
2.5 Arquitetura corporativa (EA)
A acepção que se toma nessa apresentação de pesquisa para designar o conceito de arquitetura
é aquela definida pela norma IEEE-14711. Nessa norma, uma arquitetura é entendida como a
organização fundamental de um sistema, plasmada em seus componentes e relações mútuas e
também com o ambiente, além dos princípios orientadores da sua concepção e evolução
(IEEE, 2000). Arquitetura corporativa conta com uma miríade de definições propostas na
literatura. Tal profusão de conceitos ocorreu ao longo dos últimos 20 anos, em função da
proliferação das pesquisas relacionadas ao desenvolvimento de metodologias e frameworks
para construir e operacionalizar o conceito na prática (ZAIDAN; BAX, 2013a, 2013b).
Alguns autores ainda utilizam o termo “informação”, referindo-se a uma “arquitetura de
informação” e adicionam “corporativa”, “empresarial” ou “organizacional” ao final da
expressão. Nesse caso, a presença do termo “de informação” gera grande confusão com a
terminologia utilizada para designar a “arquitetura de informação” de portais e sites web
(GARTNER – IT GLOSSARY, 2014). Para Dyer (2009), a arquitetura corporativa é a lógica
de organização para os processos de negócios e tecnologia da informação de infraestrutura,
cujo objetivo é criar uma organização mais eficaz no contexto do negócio.
O escopo de um programa de elaboração e manutenção de EA é amplo e envolve toda a
empresa, incluindo as pessoas, processos, informação e tecnologia empregada, além de suas
relações entre si e com o ambiente externo. Os arquitetos compõem soluções holísticas que
abordam os desafios empresariais e apoiam a governança necessária para implementá-las.
Conduzem o processo de EA para definir o estado de destino em que a organização deseja
alcançar e, em seguida, ajudam a organização a compreender o seu progresso em direção ao
estado desejado. Dessa forma, é necessário conhecer a situação atual da empresa (as is) para
que se almeje o estado futuro (to be), da mesma forma que a análise do impacto das mudanças
também é de suma importância (DYER, 2009; GRAVES, 2012; SEREFF; 2012).
As descrições definem que elementos ou componentes (building blocks) integram os sistemas
de informação e fornecem um plano a partir do qual produtos e soluções podem ser adquiridos
ou desenvolvidos e integrados ao sistema original. Assim, é possível gerir o investimento
global de TI de forma a melhor atender as necessidades do negócio (SEREFF, 2012; THE
OPEN GROUP, 2009).
2.5.1 Linguagem de arquitetura corporativa: ArchiMate
A especificação precisa e a descrição dos componentes da arquitetura e suas relações
requerem uma linguagem de modelagem que priorize a questão de fundo, relativa ao
alinhamento consistente entre as camadas de abstração da organização (negócios, sistemas e
infraestrutura), de forma a suportar a modelagem coerente de arquiteturas corporativas. Em
uma linguagem de modelagem, essa especificação precisa dos componentes e relações, que
1
The IEEE Computer Society elaborou a IEEE-Std-1471-2000 que é um conjunto de práticas
recomendadas para descrever arquiteturas de Sistemas de Informação.
estão disponíveis ao arquiteto, é formalizada por aquilo que é denominado o “metamodelo” da
linguagem (LANKHORST, 2012; WIERDA, 2013).
Portanto, a empresa é modelada em três níveis de abstração, ou camadas:



a camada de negócios: oferece produtos e serviços para os clientes externos,
desenvolvidos na organização por processos de negócios e realizados por atores;
a camada de aplicação: suporta a camada de negócios, com serviços realizados pelas
aplicações de software;
a camada de infraestrutura de TI: oferece os serviços de infraestrutura tecnológica (por
exemplo, processamento, armazenamento e serviços de comunicação) necessários para
executar os aplicativos realizados por computador, além do hardware e o software de
comunicação do sistema (ARCHIMATE, 2014; LANKHORST, 2012; THE OPEN
GROUP, 2012).
ArchiMate é uma linguagem de modelagem de arquitetura para descrever, analisar e
visualizar arquiteturas corporativas em diferentes domínios de negócios (ARCHIMATE,
2014; LANKHOST, 2012; WIERDA, 2013). ArchiMate é um padrão do The Open Group
baseado nos conceitos da norma IEEE 1471. Distingue-se de outras linguagens, como Unified
Modeling Language (UML) e Business Process Modeling Notation (BPMN), pelo seu
metamodelo bem definido e de escopo mais amplo, apropriado para a modelagem da
arquitetura da organização como um todo (ARCHIMATE, 2014).
A linguagem básica consiste de três grupos de elementos:



elementos de estrutura ativa: são atores do negócio e seus papéis (pertencentes à
camada de negócio), assim como os componentes de aplicativos (camada de
aplicação) e os dispositivos (camada de infraestrutura). O padrão de cor para
representá-los é o azul;
elementos de comportamento: são definidos como uma unidade de atividade realizada
por um ou mais elementos de estrutura ativa. É caracterizado pela cor amarela e os
serviços (unidades de funcionalidade de todas as camadas), assim como as funções e
os processos de negócio (camada de negócio), são exemplos de comportamento;
elementos de estrutura passiva: são os objetos os quais o comportamento é executado.
Representa-se pela cor verde e um exemplo são os objetos de dados ou de negócios
(ARCHIMATE, 2014).
3. METODOLOGIA
Wazlawick (2009) explica que, para não se chegar a conclusões errôneas é importante a
coexistência da teoria e a prática. Essa pesquisa é tanto exploratória quanto aplicada,
situando-se na fronteira entre a arquitetura corporativa e a mineração de dados. Há pouco
conhecimento acumulado sobre o objeto de pesquisa proposto e o problema está sendo tratado
de forma pioneira.
Identifica-se a pesquisa como aplicada, pois visa a solucionar um problema concreto
existente. Além disso, serão utilizados dados para implementação do projeto de mineração de
dados. Os resultados alcançados no projeto de mineração de dados serão comunicados e
validados, pois é preciso verificar objetivamente se o fenômeno descrito realmente é
verdadeiro (WAZLAWICK, 2009).
Será utilizada a pesquisa bibliográfica. Para a construção do referencial teórico, realizou-se
um estudo com base em livros de arquitetura corporativa, mineração de dados, informação e
estratégia organizacional. Buscou-se, também, no estado da arte um rico material já
publicado.
Quanto à abordagem, dois paradigmas, qualitativo e quantitativo, poderão ser identificados
nessa pesquisa. Por um lado, serão analisados os conteúdos dos dados informacionais de um
banco de dados. De outro, as descobertas devem ser analisadas cuidadosamente, deixando que
os números levem à solução de respostas reais. Gil (2010) confirma a viabilidade destes
direcionamentos.
O universo em questão são as organizações que demandam por análises de informações
estratégicas para a tomada de decisão mais assertivas.
4. MODELO DE ARQUITETURA CORPORATIVA (EA) NA LINGUAGEM
ARCHIMATE PARA O DATA MINING (DM)
Antes de enumerar os resultados esperados, foi escolhido o modelo de EA denominado visão
em camadas, que será construído para o ambiente de DM. O que se propõe, aqui, é um
modelo utilizando-se da linguagem de modelagem ArchiMate, concebido para a representação
genérica dos elementos no contexto de DM, assim como os seus relacionamentos.
Identificam-se as três camadas típicas da EA, contudo com uma pequena variação para fins de
clarificação:



negócios: subdividida em três subcamadas;
aplicações: duas subcamadas;
infraestrutura de TI: em apenas uma camada.
A seguir, na FIGURA 1, está representada a modelagem da visão em camadas, seguida pela
sua descrição e detalhamento.
FIGURA 1: Modelo de arquitetura corporativa na mineração de dados
Fonte: o autor, 2014.
Encontram-se a seguir o detalhamento dos principais elementos da modelagem desenvolvida:

camada de negócios – atores, papéis e serviços: os atores Executivos são os
stakeholders diretamente interessados nos resultados do DM. Eles estão associados ao
papel de Tomadores de decisão, que desempenham este comportamento específico. Já
os atores Administradores de DM, têm a responsabilidade por desempenhar o papel
específico no ambiente de DM de Analisadores de informações. Ambos os papéis,
Tomadores de decisão e Analisadores de informações, utilizam o serviço Busca por
informações estatísticas. Um serviço de negócio executa uma necessidade de negócio
para um cliente, interno ou externo à organização, assim como exibe uma
funcionalidade de papéis de negócio para seu ambiente (ARCHIMATE, 2014);





camada de negócios – informação: nesta camada tem-se representado o objeto de
negócio denominado Padrões, que é um elemento informacional passivo, no sentido
de que ele não dispara ou executa processos (ARCHIMATE, 2014). Padrões, aqui,
compreendem as regras resultantes da mineração dos dados. Está associado ao serviço
Busca por informações estatísticas é são acessados (lidos e escritos) pela função de
negócio e pelos processos de negócios abaixo descritos;
camada de negócios – processos e funções de negócio: como foi explicado
anteriormente, esta subdivisão da camada de negócios foi para apontar os conceitos
comportamentais internos, que agrupam funções e processos de negócios. Cabe
esclarecer a diferença entre eles: um processo de negócio representa um fluxo de
trabalho menor, conduzindo a algum resultado. Já uma função de negócio oferece
funcionalidade que pode ser útil para um ou mais processos de negócios
(ARCHIMATE, 2014; LANKHORST, 2012). A função de negócio Obtenção de
resultados por meio de DM está encarregada de agrupar conhecimentos oriundos dos
processos de negócios: definir os parâmetros do método DM, aplicar o método de
DM, procurar padrão, corrigir os parâmetros do método de DM. Estes processos de
negócios são específicos de um projeto genérico de DM, descrevendo as atividades
demandadas. Os processos se relacionam por fluxo (troca ou transferência) de
informações;
camada de aplicações – serviços: mudando da camada de negócios para a de
aplicações, nesta camada modelam-se os conceitos estruturais (não apenas
componentes de software), mas aplicações ou sistemas de informações. Necessita-se
de serviços na camada de aplicações para expor as funcionalidades dos componentes
ao seu ambiente (ARCHIMATE, 2014). O serviço Procura de padrão é usado pela
função de negócio e pelos processos de negócios;
camada de aplicações – aplicativos: principal conceito desta camada, o componente
de aplicação é uma unidade autossuficiente de funcionalidade. É independente,
reutilizável e substituível, sendo capaz de executar uma ou mais funções de aplicação
e pode estar associado a uma ou mais aplicações (ARCHIMATE, 2014). No modelo
da FIGURA 1, tem-se o componente aplicação Ferramenta de DM, que realiza o
serviço Procura de padrão;
camada de infraestrutura e de TI: finalmente, tem-se a camada que demonstra os
conceitos de tecnologia e seus relacionamentos, muitos inspirados no padrão UML.
Representa-se nesta camada dois dispositivos: servidor DM e servidor OLTP. Segundo
Lankhorst (2012) um dispositivo é definido como um recurso de hardware, cujos
artefatos podem ser armazenados ou implantados para execução. A divisão em dois
servidores é no intuito de atender ao quesito desempenho do banco de dados tanto
OLTP, quanto de mineração de dados. Com relação aos relacionamentos, o Servidor
DM realiza o componente Ferramenta de DM. Entre os servidores mantem-se um
relacionamento de uso. Por fim, no Servidor DM têm-se os softwares de sistemas
representados por Data warehouse e por Ferramenta de DM. Já o Servidor OLTP
abarca o SGBD (sistema gerenciador de banco de dados) e as Aplicações OLTP.
5. RESULTADOS ESPERADOS
A seção anterior discorreu sobre os componentes e os relacionamentos do modelo de EA da
FIGURA 1. Após apresentar o modelo de EA, essa apresentação de pesquisa indica, como
resultados esperados, a criação de um ambiente real de mineração de dados, tomando o
modelo de EA como orientação.
A interconexão com as atividades de um projeto de mineração de dados2 foi vista no modelo
da FIGURA 1. Abaixo descreve-se as etapas do projeto de mineração de dados na busca por
informações estratégicas:





definição do problema: serão levantadas as necessidades, expectativas e objetivos.
Será escolhida a tarefa e o algoritmo de mineração de dados a ser utilizado;
aquisição e avaliação dos dados: a fonte de dados, já escolhida, será de um banco de
dados de um sistema de gestão organizacinoal. Será realizada a avaliação minuciosa
dos dados;
transformação e codificação dos dados: nessa etapa será modelado o data warehouse
e realizado o ETL . Em seguida, será feita a detecção de outliers;
prototipagem e desenvolvimento do modelo de mineração: conforme as escolhas das
necessidades dos executivos, um protótipo será desenvolvido e apresentado. Em
seguida, o modelo de mineração escolhido começará a ser treinado;
avaliação e validação do modelo de mineração: como é a etapa efetiva de treinamento
do modelo de mineração, os processos de negócios do modelo de EA serão
contemplados. Como resultado dessa etapa, os padrões de DM serão definidos. Os
executivos da empresa parceira estarão envolvidos nesta etapa, pois receberão os
resultados para análise, avaliação e validação.
5 CONSIDERAÇÕES FINAIS
O objetivo dessa apresentação de pesquisa foi apresentar um esboço de um modelo de
arquitetura corporativa capaz de refletir projetos de mineração de dados mais estratégicos. O
tema foi justificado sob o ponto de vista acadêmico e organizacional. A consulta em autores
seminais e do estado da arte da literatura científica possibilitou a elucidação dos principais
construtos, tais como: informação estratégica, tomada de decisão, alinhamento da TI com os
negócios organizacionais, mineração de dados e arquitetura corporativa.
Com relação à metodologia escolhida, sustentou-se no que foi explicado por Wazlawick
(2009), quando indica a necessidade de conduzir um projeto acadêmico utilizando,
concomitantemente, a teoria a prática.
Um ponto importante apresentado foi que, por fazer parte da estratégia organizacional, um
modelo de arquitetura corporativa materializa o almejado alinhamento da TI com os negócios
organizacionais. Ainda mais quando se tem certa complexidade em um projeto de mineração
de dados, como comprovado por Braga (2005).
Foi desenvolvido um modelo de arquitetura corporativa para apoiar projetos de mineração de
dados. O modelo visa interconectar, nos três níveis organizacionais, negócios, aplicações e
infraestrutura de TI, os principais componentes de um projeto de mineração de dados.
2
O projeto de mineração de dados está descrito por Braga (2005) no capítulo do estado da arte da
literatura científica.
No modelo de EA apresentado, ficou claro que os processos de mineração, dentre eles a
definição dos parâmetros e a aplicação do método de DM, acessam os padrões estabelecidos e
realizam os serviços de busca por informações mais estratégicas pelos stakeholders da área,
que são os tomadores de decisões e os analisadores de informação.
Essa apresentação de pesquisa alcançou o objetivo proposto, contudo recomenda que no
futuro seja validado o modelo apresentado, pois é conveniente explorar oportunidades de
alinhamento estratégico no contexto de projetos de mineração de dados, assim como auxiliar
na disseminação de informações mais estratégicas dentro das organizações.
REFERÊNCIAS
ARCHI. ArchiMate modelling. 2014. Disponível em: <http://archi.cetis.ac.uk/>. Acesso em:
02 dez. 2014.
ARCHIMATE. What is ArchiMate? 2014. Disponível em: <http://www.archimate.nl/en>.
Acesso em: 02 dez. 2014.
BAX, M. P. Arquitetura empresarial e segurança da informação: uma profícua sinergia.
Revista Fonte, Belo Horizonte, n. 12, 2012.
BRAGA, L. P. V. Introdução à Mineração de Dados. 2. ed. Rio de Janeiro: E-Papers
Serviços Editoriais, 2005.
CHERTOV, O. EA model that enables to search for patterns of statitical information.
International Journal of Advanced Research in Artificial Intelligence- IJARAI. v. 2, n. 6,
2013.
CHOO, C. W. A organização do conhecimento: como as organizações usam a informação
para criar conhecimento, construir conhecimento e tomar decisões. 2. ed. São Paulo: Senac
São Paulo, 2006.
DAVENPORT, T. H.; MANVILLE, B. As melhores decisões são sempre difíceis: a
importância do julgamento correto na tomada de decisão empresarial. Rio de Janeiro:
Elsevier, 2012.
DAVENPORT, T. H.; PRUSAK, L. Conhecimento empresarial: como as organizações
gerenciam o seu capital intelectual. Rio de Janeiro: Campus, 1998.
DYER, A. Measuring the Benefits of Enterprise Architecture. In: SAHA, P. Advances in
government enterprise architecture. New York: Information Science Reference, 2009.
ELMASRI, R.; NAVATHE, S. Sistemas de Banco de Dados. 6. ed. São Paulo: Addison Wesley, 2011.
FAYYAD, U. et al. The KDD process for extracting useful knowledge from Volumes of data.
In: Communications of the ACM, p.27-34, nov.1996.
GARTNER – IT GLOSSARY. Enterprise Architecture. 2014. Disponível em:
<http://www.gartner.com/it-glossary/enterprise-architecture-ea/>. Acesso em: 02 dez. 2014.
GIL, A. C. Como elaborar projetos de pesquisa. 5. ed. São Paulo: Atlas, 2010.
GRAVES, T. The enterprise as story: the role of narrative in enterprise architecture.
London: LeanPub, 2012.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2. ed. USA: Elsevier
Morgan Kaufmann Publishers, 2007.
HENDERSON, J. C.; VENKATRAMAN, N. Strategic alignment: leveraging IT for
transforming organizations. IBM Systems Journal, New York, v. 32, n. 1, 1993.
IEEE. IEEE Recommended Practice for Architecture Description of Software-Intensive
Systems, ANSI/IEEE Std 1471, ISO/IEC 42010, 2000. Disponível em: <http://www.isoarchitecture.org/ieee-1471/>. Acesso em: 02 dez. 2014.
LANKHORST, M. Enterprise architecture at work: modelling, communication, and
analysis. Berlin: Springer-Verlag, 2012.
MAES, R. An Integrative Perspective on Information Management. Primavera Working
Paper, apr. 2007.
MINTZBERG, H.; QUINN, J. B. O processo da estratégia. 3. ed. Porto Alegre: Bookman,
2001.
SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectivas em
Ciência da Informação. Belo Horizonte, v.1, n.1, p. 41-62, jan./jun. 1996.
SEREFF, G. B. Launching an enterprise business architecture practice. USA: Published
by Guy B. Sereff, 2012.
SIMON, H. Comportamento Administrativo: estudo dos processos decisórios nas
organizações administrativas. Rio de Janeiro: Editora da Fundação Getúlio Vargas, 1979.
TAN, P. N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. USA: Addison
Wesley, 2006.
THE OPEN GROUP. Architecture Framework TOGAF. Version 9, 2009. Disponível em:
<http://www.opengroup.org/architecture/togaf9/downloads.htm>. Acesso em: 02 dez. 2014.
______. ArchiMate 2.0 Specification. The Open Group, jan., 2012. Disponível em:
<http://www.opengroup.org/archimate/downloads.htm>. Acesso em: 02 dez. 2014.
WAZLAWICK, R. S. Metodologia de pesquisa para ciência da computação. Rio de
Janeiro: Elsevier, 2009.
WEKA. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em: 02 dez. 2014.
WIERDA, G. Mastering ArchiMate. 4th Printing. The Netherlands: Screen Edition, 2013.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools
and Techniques. 3. ed. USA: Elsevier Morgan Kaufmann, 2011.
ZAIDAN, F. H.; BAX, M. P. Aportes da arquitetura empresarial para a gestão da informação
em hospitais privados. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA
INFORMAÇÃO, 14, (ENANCIB 2013), Santa Catarina. Anais... Florianópolis, 2013a.
ZAIDAN, F. H.; BAX, M. P. Gestão de Informação com Arquitetura Empresarial: Proposta
de Aplicação nas Organizações de Saúde. In: 10th CONTECSI - International Conference
on Information Systems and Technology Management, 2013b.
Download