UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA CURSO DE SISTEMAS DE INFORMAÇÃO SimpleSQL: Uma Camada Relacional sobre o SimpleDB Aluno: André Luiz Calil Roslindo Orientador: Ronaldo dos Santos Mello Florianópolis, SC Maio de 2012 SUMÁRIO LISTA DE TABELAS ........................................................................................................................................... 4 LISTA DE FIGURAS ........................................................................................................................................... 5 LISTA DE COMANDOS ...................................................................................................................................... 6 LISTA DE REDUÇÕES ....................................................................................................................................... 7 RESUMO ............................................................................................................................................................... 8 ABSTRACT ........................................................................................................................................................... 9 1 INTRODUÇÃO .......................................................................................................................................... 10 1.1 VISÃO GERAL .......................................................................................................................................... 10 1.2 OBJETIVOS ............................................................................................................................................... 12 1.2.1 Geral .............................................................................................................................................. 12 1.2.2 Específicos ..................................................................................................................................... 12 1.3 METODOLOGIA ........................................................................................................................................ 12 1.4 ESTRUTURA DO TRABALHO ..................................................................................................................... 13 2 COMPUTAÇÃÉ-REQUISITOS ...................................................................................................................................... 27 4.2 INTERFACE ............................................................................................................................................... 28 4.3 DECOMPOSIÇÃO DO COMANDO ................................................................................................................ 29 4.4 EXECUÇÃO E RETORNO ............................................................................................................................ 31 4.4.1 INSERT .......................................................................................................................................... 31 4.4.2 UPDATE e DELETE ..................................................................................................................... 32 4.4.3 SELECT ......................................................................................................................................... 32 2 5 AVALIAÇÃO EXPERIMENTAL ........................................................................................................... 34 5.1 CARGA ..................................................................................................................................................... 36 5.2 SELEÇÃO .................................................................................................................................................. 37 6 TRABALHOS RELACIONADOS ........................................................................................................... 42 7 CONCLUSÃO ............................................................................................................................................ 44 7.1 TRABALHOS FUTUROS .............................................................................................................................. 45 3 LISTA DE TABELAS TABELA 1: REQUISITOS DE BANCOS DE DADOS NAS NUVENS [20]. ......................................................................... 18 TABELA 2: EQUIVALÊNCIA ENTRE CONCEITOS RELACIONAIS E O MODELO DO SIMPLEDB...................................... 26 TABELA 3: ATRIBUTOS GERADOS NO SIMPLESQL A PARTIR DO COMANDO 2. ....................................................... 27 TABELA 4: COMANDOS DML SUPORTADOS E SUAS EXPRESSÕES REGULARES........................................................ 30 TABELA 5: RESULTADO DAS OPERAÇÕES DE CARGA. ............................................................................................. 36 TABELA 6: CONSULTAS SIMPLES PARA AVALIAÇÃO. .............................................................................................. 38 TABELA 8: CONSULTA COMPLEXA NA FORMA ORIGINAL E NA SINTAXE DO SIMPLEDB .......................................... 40 TABELA 9: DURAÇÃO MÉDIA DA EXECUÇÃO DE CADA ETAPA DO PROCESSAMENTO DE UMA CONSULTA COMPLEXA ..................................................................................................................................................................... 41 4 LISTA DE FIGURAS FIGURA 1: MODELO DE DADOS DO SIMPLEDB [5]. ................................................................................................. 21 FIGURA 2: ARQUITETURA DO SIMPLESQL. ............................................................................................................ 25 FIGURA 3: PERSISTÊNCIA NO MODELO DO SIMPLESQL. ......................................................................................... 27 FIGURA 3: DIAGRAMA DE CLASSES DO DOMÍNIO DO SIMPLESQL. .......................................................................... 31 FIGURA 4: ESQUEMA RELACIONAL USADO NOS EXPERIMENTOS. ............................................................................ 35 FIGURA 5: GRÁFICO COMPARATIVO PARA A MÉDIA DE TUPLAS CARREGADAS POR MINUTO. .................................. 37 5 LISTA DE COMANDOS COMANDO 1:EXEMPLO DE UM COMANDO DE CRIAÇÃO DE ITEM NA API REST DO SIMPLEDB ATRAVÉS DE GET. 24 COMANDO 2: EXEMPLO DE UM COMANDO GENÉRICO DE INSERÇÃO. ...................................................................... 26 6 LISTA DE REDUÇÕES SGBD Sistema de Gerenciamento de Bancos de Dados SQL Structured Query Language XML Extended Markup Language 7 RESUMO Este trabalho apresenta os principais conceitos de bancos de dados NoSQL, seu vínculo com sistemas distribuídos e características de utilização. Estes conceitos fundamentam o desenvolvimento do SimpleSQL, uma camada de acesso relacional ao SimpleDB, um banco de dados NoSQL orientado a documentos e também abordado no trabalho. O SimpleSQL provê uma interface SQL simplificada, abstraindo qualquer conhecimento a respeito do método de acesso ao SimpleDB, persistência de dados na nuvem e seu modelo de representação . A avaliação experimental apresentada sustenta a viabilidade da camada e sua evolução é sugerida nos trabalhos futuros. Palavras chave: banco de dados em nuvem, NoSQL, SimpleDB, SimpleSQL. 8 ABSTRACT This work presents the key concepts of NoSQL databases, its distributed system characteristics and the scenarios for its application. This research serves as basis for the development of SimpleSQL, a relational layer for accessing SimpleDB, a NoSQL document database available at the cloud. SimpleSQL offers a simplified SQL interface, covering any knowledge about the access layer to SimpleDB, data persistence in the cloud and its data modeling. Experimental evaluation shows the feasibility of our layer, and its evolution is discussed in terms of future work. 9 1 INTRODUÇÃO 1.1 Visão Geral O conceito de software as a service transformou-se de paradigma inovador a modelo de negócio durante os últimos anos. Enquanto o modelo de software licenciado e mantido pela companhia representava um alto custo em termos de aquisição e manutenção, software mantido pelo provedor do serviço e faturado de acordo com o uso (modelo pay as you go) [3], com garantias contratuais de disponibilidade e privacidade, passou a se tornar atrativos e populares [7]. Este paradigma se insere no que se denomina computação nas nuvens (cloud computing), onde os serviços utilizados, como software e infraestrutura, são remotos. Seguindo esse paradigma, soluções de armazenamento e gerenciamento de dados também passaram a ser oferecidos como serviço [14]. Este movimento modificou a arquitetura dos sistemas gerenciadores de bancos de dados para atribuir-lhes características de sistemas distribuídos, como alta disponibilidade e tolerância a falhas. Neste processo, surgiram SGBDs com modelos de dados divergentes do modelo relacional clássico [1]. Esses modelos são compatíveis com os paradigmas de programação e aplicações web correntes, que lidam com alto volume de dados e transações, mais orientados a objetos do que a relações. Exemplos desses novos modelos são coleções chave-valor, documento ou super-coluna [15]. Bancos de dados baseados nesses modelos são conhecidos como NoSQL [19]. A principal diferença entre estes sistemas e SGBDs relacionais está no aprimoramento à disponibilidade de dados em detrimento da consistência [8], além do modelo de dados propriamente dito. 10 Bancos de dados NoSQL, que são intimamente relacionados com conceitos de cloud computing, possuem também um forte relacionamento com as plataformas atuais de desenvolvimento de sistemas. A modelagem da solução segundo um paradigma orientado a objetos é mais facilmente persistida em um modelo de dados NoSQL e sua interface de acesso simplificada, geralmente desenvolvida sobre HTTP. Tal fato possibilita a sua utilização com menos esforço. Como esses novos bancos de dados não são relacionais, não há suporte ao padrão SQL, o que dificulta a migração e adoção de aplicações baseadas no modelo relacional de representação e acesso aos dados. Para atender esta demanda, este trabalho apresenta uma camada relacional, chamada SimpleSQL, para acesso ao SimpleDB [4], solução NoSQL da Amazon para gerenciamento de dados na nuvem. A escolha do SimpleDB foi motivada pela sua popularidade entre as ferramentas NoSQL do mercado e pela sua simplicidade de configuração e uso. SimpleSQL suporta uma versão restrita do SQL ISO/IEC, que permite inserção, atualização, remoção e consulta aos dados. Ao utilizar o SimpleSQL, a aplicação cliente fica isolada da interface de acesso ao SimpleDB, das suas operações e modelo de dados, tendo, desta forma, uma interface relacional para acesso a dados na nuvem. Além da transparência para manipulação e armazenamento dos dados, o SimpleSQL suporta consultas com junções, recurso indisponível no SimpleDB e raramente encontrado em soluções NoSQL. A camada é capaz de decompor uma consulta que relaciona diversas tabelas com junções em um conjunto de consultas individuais, para cada tabela relacionada, e combinar os dados obtidos para gerar uma única tabela de retorno no formato desejado e com os parâmetros de junção definidos. 11 1.2 Objetivos 1.2.1 Geral Desenvolver uma camada de software para acesso relacional ao sistema Amazon SimpleDB, abstraindo da aplicação cliente conhecimento sobre o modelo de dados não relacional, interface de acesso e manipulação de dados. 1.2.2 Específicos Oferecer uma interface relacional, suportando uma versão simplificada do SQL ISO/IEC, para acesso ao Amazon SimpleDB; Realizar experimentos que comprovem a viabilidade de utilização desta camada relacional; Transformar resultados primitivos, com um conjunto de objetos não relacionais, em uma tabela relacional no esquema definido pelo cliente; Prover um vínculo entre o modelo relacional de manipulação de dados e bancos de dados NoSQL. 1.3 Metodologia Para atender aos objetivos expostos, este trabalho segue as etapas abaixo elencadas: Estudo sobre cloud computing e NoSQL; Estudo detalhado sobre o funcionamento e operação do Amazon SimpleDB; Implementação do SimpleSQL; 12 Apresentação de avaliações experimentais. Na primeira etapa, é apresentado um breve histórico e os conceitos atualmente aceitos sobre recursos computacionais oferecidos no modelo de serviço e o surgimento de novos bancos de dados não relacionais. A segunda etapa consiste em uma pesquisa sobre o repositório escolhido para o trabalho, apresentando sua forma de operação, funcionamento e conceitos necessários para seu entendimento. A terceira etapa refere-se à implementação da ferramenta, que consiste na decomposição de instruções SQL em um modelo genérico e sua tradução para a interface do SimpleDB, tratamento dos dados e retorno. Na quarta etapa são apresentadas as avaliações experimentais executadas sobre o SimpleSQL, atestando seu funcionamento e desempenho. 1.4 Estrutura do Trabalho Este trabalho está dividido da seguinte forma: Capítulo 1: Introdução – Apresentação geral do trabalho, com breve contextualização sobre as tecnologias envolvidas, exploração do problema chave e a solução proposta; Capítulo 2: Computação nas nuvens – Apresentação dos conceitos, histórico e visão atual da computação nas nuvens; Capítulo 3: Bancos de dados nas nuvens – Motivação e problemática de bancos de dados publicados na nuvem, apresentação das definições existentes para bancos de dados NoSQL, classificações das principais ferramentas e detalhamento sobre o Amazon SimpleDB; 13 Capítulo 4: SimpleSQL – Explicação da ferramenta desenvolvida, com detalhamento sobre o funcionamento, implementação e conceitos utilizados; Capítulo 5: Avaliação experimental – Apresentação das baterias de experimentos realizados com a ferramenta, com avaliação do desempenho e comparações; Capítulo 6: Trabalhos Relacionados – Análise de alguns trabalhos com temas correlatos; Capítulo 7: Conclusões – Este capítulo apresenta as conclusões extraídas da pesquisa e desenvolvimento do SimpleSQL, bem como uma análise sobre restrições de escopo e limitações do SimpleSQL, abrindo possibilidades para trabalhos futuros. 14 2 COMPUTAÇÃO NAS NUVENS Sendo um dos principais paradigmas de computação nos dias de hoje [15], a computação nas nuvens representa o modelo de utilização de recursos computacionais em que o usuário, abstraído de toda a complexidade de instalação, manutenção e infraestrutura, possui acesso a um determinado recurso através de uma simples interface. Por isolar o usuário de todas as questões internas do recurso em questão e prover apenas uma interface externa para consumo, entende-se que computação nas nuvens segue também o paradigma as a service. Os recursos oferecidos podem ser de diferentes naturezas, que compõem os modelos de serviços que podem ser encontrados [16]: Software as a Service (SaaS): softwares para fins específicos, disponibilizados para o usuário final através de uma interface amigável, geralmente Web. Serviços de webmail, como Gmail e Hotmail, são exemplos deste modelo; Plataform as a Sevice (PaaS): sistemas operacionais, linguagens de programação e ambientes de desenvolvimento e publicação de aplicações. Assim como no modelo anterior, a infraestrutura subjacente não é controlada pelo usuário. Google App Engine e Microsoft Azure podem ser citados como PaaS; Infrastructure as a Service (IaaS): recursos computacionais de baixo nível de abstração, como armazenamento, ativos de rede e poder de processamento. Um exemplo deste modelo é o Amazon EC2. 15 É importante destacar que a nuvem não necessariamente refere-se à Internet. Há diferentes modelos de implantação, quem podem variar entre nuvens públicas, privadas ou híbridas [15]. Ainda assim, recursos no modelo de computação nas nuvens são sempre alcançados através de uma rede de computadores. Desta forma, características essenciais como alta disponibilidade e elasticidade [15] trazem para a computação nas nuvens conceitos fundamentais de sistemas distribuídos [9]. Em termos comerciais, a computação nas nuvens proporcionou que a cobrança fosse feita de acordo com o uso (pay as you go) [15], conveniência já observada em outros serviços do cotidiano. Considerando este paradigma de computação nas nuvens, o próximo capítulo concentra-se em apresentar os novos desafios para bancos de dados neste paradigma. 16 3 BANCOS DE DADOS EM NUVEM A oferta de bancos de dados em nuvem possui várias vantagens para os usuários, dentre elas: Previsibilidade e custos mais baixos, proporcional à qualidade do serviço e cargas de trabalho reais; Complexidade técnica reduzida, graças a interfaces de acesso unificado e a delegação de tuning e administração dos sistemas; Elasticidade e escalabilidade, proporcionando a percepção de recursos quase infinitos. Diversos sistemas e arquiteturas estão sendo desenvolvidos para suprir as novas demandas de aplicações com diferentes requisitos de processamento e armazenamento [2]. Estes novos sistemas tentam fornecer uma visão de armazenamento e escalabilidade infinitos, mas tem que tratar o problema de provisionar recursos. Este problema, que em SGBDs tradicionais consiste em determinar quais recursos são alocados para um único banco de dados, no ambiente em nuvem torna-se um problema de otimização, onde se tem uma grande quantidade de usuários, múltiplos repositórios em nuvem e grandes centros de dados. Isso fornece uma oportunidade sem precedentes para explorar a economia em escala, balanceamento dinâmico de carga e gerenciamento de energia. Esse aumento no número de abordagens disponíveis de repositórios em nuvem [2] agrava o problema da escolha, implantação e soluções de administração para a gestão de dados. 17 Com isso, os bancos de dados em nuvem estão sendo disponibilizados como serviços, que encapsulam a complexidade do gerenciamento por meio de formas de acesso simples e garantias de acordos de nível de serviço (SLAs). A Tabela 1 apresenta os requisitos de um banco de dados oferecido como serviço, sob as perspectivas do usuário, do provedor e da nuvem subjacente [20]. Estes parâmetros reforçam o diferente contexto em que os bancos de dados na nuvem estão incluídos. Tabela 1: Requisitos de bancos de dados nas nuvens [20]. Requisitos de usuário API simples com pouca configuração e administração Alto desempenho Alta disponibilidade e confiança Acesso fácil a características avançadas Requisitos do Provedor Atender o SLA do usuário Limitar hardware e custo de energia Limitar custo de administração Requisitos extra de Nuvem Pública Esquema de preço: barato, previsível e proporcional ao uso Garantias de segurança e privacidade Baixa latência 18 3.1 NoSQL Este novo cenário de implantação de um banco de dados e os requisitos demandados pelo mercado impulsionaram a criação de novas soluções de armazenamento de dados. Como um dos principais objetivos era otimizar a distribuição dos dados em diferentes máquinas [21], as ferramentas que surgiram não seguiram o modelo relacional. Esta tendência vem sendo chamada de NoSQL. Muito embora haja discordância se o nome significa Not Only SQL [8] ou No SQL [19], concorda-se em algumas características apresentadas nesta nova abordagem: Suporte à escalabilidade horizontal [8], isto é, aumento na capacidade de processamento através da inclusão de novas máquinas à grade; Replicação e particionamento de dados entre diferentes servidores; Interface de acesso simples e com alto nível de abstração; Liberdade de esquema. Nota-se, mais uma vez, similaridade com sistemas distribuídos. Para suportar tais características e atender aos requisitos esperados do serviço, bancos de dados NoSQL possuem menor controle transacional em termos de concorrência, como proposto no teorema CAP (Consistency, Availability, and Partition-tolerance) [12], que afirma que sistemas distribuídos, para que possam assegurar os benefícios do seu modelo, devem escolher apenas duas características entre consistência, alta disponibilidade e tolerância a falhas. Neste sentido, as características ACID (Atomicidade, Consistência, Isolamento e Durabilidade) dos bancos de dados relacionais são substituídas pelo 19 acrônimo BASE (Basically Available, Soft state, Eventually consistent) [8] [13], destacando a disponibilidade em detrimento à consistência. Em termos de modelo de dados, bancos de dados NoSQL são basicamente agrupados em três categorias [8][19]: Chave-valor: sistemas de persistência baseados em pares chave-valor. Esta estrutura oferece apenas um índice para acesso a dados, através da sua chave. As interfaces de acesso costumam ter apenas os métodos de inserção, remoção e consulta pelo índice. Em ambientes distribuídos, é comum encontrar a denominação DHT (distributed hashtable, tabela de espalhamento distribuída); Documento: persistência do objeto em um documento, que não deve ser confundido com um arquivo em um sistema de arquivos. Estes bancos geralmente suportam múltiplos índices e documentos (estruturas) aninhados; Super coluna (wide column): também conhecido por família de colunas, é uma persistência em tabela que suporta particionamento horizontal e vertical. O particionamento respeita as chaves primárias, quando horizontal, ou “grupo” de colunas, quando vertical, de forma a deixar dados relacionados entre si em um mesmo nó. Na próxima seção são apresentados detalhes do Amazon SimpleDB, um banco de dados NoSQL que segue o modelo de documento [8]. 3.2 Amazon SimpleDB SimpleDB é um dos serviços que compõe o Amazon Web Services, uma suíte da Amazon com ferramentas para diferentes aplicações, todas oferecidas na nuvem 20 na forma de serviços. O SimpleDB é um banco de dados NoSQL de rápida contratação e configuração. Sendo oferecido exclusivamente como um serviço, não há opção de licenciar para uso interno em uma corporação ou afins. Durante a configuração do sistema, o usuário deve escolher uma região geográfica onde seus dados serão mantidos. As opções são EUA (Virgína, Oregon ou Norte da Califórnia), Irlanda, Cingapura, Tóquio e São Paulo. Esta seleção é importante para manter os dados próximos da região de maior acesso e para respeitar legislações locais quanto a armazenamento de dados. Há também variação no preço do serviço entre as diferentes regiões. Dentro da região selecionada há um conjunto de data centers onde os dados serão replicados. Informações detalhadas sobre esta operação não são disponibilizadas ao usuário, mas a Amazon garante que, em uma operação de escrita, todas as cópias do dado são atualizadas [4]. O modelo de dados do SimpleDB é composto de domínios, itens, atributos e valores, conforme apresentado na Figura 1. Figura 1: Modelo de dados do SimpleDB [5]. Um domínio possui um nome e uma coleção de itens. Um item, por sua vez, possui uma identificação única e um conjunto de atributos, que são pares chavevalor. 21 O domínio é a unidade de replicação e alocação de recursos. Um usuário pode ter até 250 domínios, com no máximo 10 Gb de dados cada um. A distribuição de dados entre domínios, conforme decisão do usuário, deve ser cuidadosamente selecionada. Como o SimpleDB não suporta operações entre domínios, deve ficar a cargo da aplicação cliente a junção dos dados. Da mesma forma, caso seja necessário processar um item para decidir em qual domínio inseri-lo, o desempenho da aplicação poderá ser comprometida. Assim como ocorre com os domínios, o nome de um item deve identificá-lo exclusivamente. Um atributo é um par chave-valor, e o SimpleDB suporta múltiplos valores para uma mesma chave e não há limites para a quantidade de atributos que um item pode possuir. Também não há restrição quando ao número de atributos dos itens de um mesmo domínio. Seguindo a liberdade de esquema, itens em um mesmo domínio podem ter atributos completamente diferentes entre si. Como vimos, em termos de consistência o SimpleDB garante que uma operação de escrita atualiza todas as cópias do item em questão, muito embora não imediatamente após a conclusão do comando. Para leituras, entretanto, não há esta garantia. Há duas opções de consistência para as operações de leitura: leituras coerentes e leituras eventualmente coerentes [4]. A primeira opção aguarda a finalização de qualquer operação de escrita nos itens em questão e os bloqueia durante sua execução, garantindo que o valor retornado é o último valor atualizado. Consequentemente, operações de leitura com esta configuração apresentam um tempo de resposta maior e também podem impactar em outras operações sobre os mesmos dados. A segunda opção, que é o comportamento padrão, retorna o valor do nó que estiver mais disponível. Desta forma, pode não refletir uma última escrita que, eventualmente, ainda não tenha sido replicada. 22 A interface de acesso ao SimpleDB é implementada em uma API REST [10]. Como é baseada em requisições HTTP, a maior parte das plataformas de desenvolvimento possuem a capacidade de utilizá-la. Todas as operações de escrita, leitura e até mesmo administração de domínios são realizadas por requisições HTTP GET e POST. Ambos os verbos são suportados para todos os comandos da API, mas o cliente deverá utilizar POST caso os atributos excedam o limite máximo de parâmetros suportados em um GET. Tanto a operação sendo executada quanto seus parâmetros são enviados através da requisição HTTP. O Comando 1 ilustra uma operação PutAttributes, que é utilizada na criação de um item (caso o nome não exista) ou para atualizar seu conjunto de atributos. Há de ser destacado que o nome da operação, PutAttributes, é determinado pela API da Amazon, devidamente documentada pela companhia. Cada operação suportada pela API possui uma ação (Action, no comando), e todos parâmetros da operação são enviados através da requisição HTTP (POST ou GET, a critério do cliente). 23 GET https://sdb.amazonaws.com/?Action=PutAttributes &DomainName=dominio &ItemName=nomeDoItem &Attribute.1.Name=quantidade&Attribute.1.Value=20 &Attribute.2.Name=categoria&Attribute.2.Value=alimento &AWSAccessKeyId=accessKey &Version=2009-04-15 &Signature=assinatura &SignatureVersion=2 &SignatureMethod=HmacSHA256 &Timestamp=2010-01-25T15%3A01%3A28-07%3A00 HTTP/1.1 Comando 1:Exemplo de um comando de criação de item na API REST do SimpleDB através de GET. Um comando PutAttributes é utilizado tanto para as operações SQL INSERT e UPDATE. No exemplo, está sendo criado um item com dois atributos (quantidade e categoria) e dois valores (20 e alimento, respectivamente). 24 4 SIMPLESQL O SimpleSQL foi proposto neste trabalho para solucionar as barreiras de adoção de um banco de dados NoSQL, tanto em termos de adaptação de sistemas legados quanto de capacitação de profissionais. Como não há padrão de interface de acesso entre os sistemas NoSQL, o SimpleSQL, na sua versão atual, suporta unicamente o Amazon SimpleDB. Desenvolvido como uma biblioteca de classes, o SimpleSQL serve como a única camada de comunicação necessária entre a aplicação cliente e o SimpleDB. Ele recebe instruções SQL em formato texto e trata da sua interpretação, manipulação e execução no SimpleDB. Para consultas, o resultado é transformado em uma tabela, construída com as colunas esperadas como resultado da consulta. SimpleSQL foi desenvolvido utilizando a plataforma Microsoft .NET Framework 3.5 e a linguagem de programação C# 3.0. Sua arquitetura é apresentada na Figura 2, que ilustra as três etapas do processamento de um comando, detalhadas nas seções a seguir. Comandos Interface de acesso Decomposição Processamento e retorno Respostas tabulares Figura 2: Arquitetura do SimpleSQL. 25 REST Para que seja viável a tradução de comandos SQL em comandos SimpleDB, utilizou-se o relacionamento entre conceitos dos modelos relacional e de documento do SimpleDB apresentados na Tabela 1. Tabela 2: Equivalência entre conceitos relacionais e o modelo do SimpleDB. Relacional Esquema Tabela Tupla Atributo Valor Chave primária SimpleDB Domínio Item Chave de atributo Valor de atributo Nome do item Muito embora o esquema e o domínio sejam conceitos equivalentes, o SimpleSQL não suporta o nome do esquema como qualificador de uma tabela. Vale observar que o SimpleDB não possui um conceito equivalente à tabela do modelo relacional, que determina um tipo de objeto. Para contornar esta característica e sustentar a execução dos comandos, o SimpleSQL persiste o nome da tabela como um atributo do item. Para ilustrar o processo de criação de um item, considere o Comando 2, genérico para uma operação de inserção de dados a seguir. INSERT INTO tabela (coluna1, coluna2) VALUES (valor1, valor2) Comando 2: Exemplo de um comando genérico de inserção. Após a submissão deste comando ao SimpleSQL, o mesmo identifica qual o domínio responsável pelos objetos do tipo tabela e gera um item com a coleção de atributos, conforme apresentado na Tabela 3. 26 Tabela 3: Atributos gerados no SimpleSQL a partir do Comando 2. Chave coluna1 coluna2 SimpleSQL_TableName Valor valor1 valor2 tabela Depois de traduzido o INSERT para a API do SimpleDB e executado o comando, a tupla ficaria disposta em um esquema similar ao apresentado no Figura 3, em uma notação ilustrativa. Destaca-se que o nome do domínio é identificado a partir de uma configuração enviada pelo usuário ao SimpleSQL (discutida na próxima seção) e que o nome exclusivo do item é gerado automaticamente pelo SimpleSQL dominio: { 1234567890: { coluna1: valor1; coluna2: valor2; SimpleSQL_TableName: tabela; } } Figura 3: Persistência no modelo do SimpleSQL. 4.1 Pré-requisitos Para que seja capaz de conectar-se ao SimpleDB e identificar os domínios, o SimpleSQL deve receber, quando da sua instanciação, as seguintes informações: Access Key: chave de acesso do usuário ao SimpleDB. Esta informação pode ser encontrada no portal da Amazon, após autenticação; 27 Secret Access Key: chave de acesso secreta. Junto da access key, formam o par de autenticação e autorização do usuário. Também é encontrada no portal da Amazon; Distribuição de domínios: caso o usuário tenha mais de um domínio, ele deverá prover ao SimpleSQL um dicionário que tenha como chave o nome do domínio e como valor a lista de tabelas daquele domínio. Caso seja apenas um (1) domínio, é informado apenas o seu nome, simplificando o processo. Como um requisito não funcional, o ambiente de execução do SimpleSQL deve ter acesso ao website da Amazon. 4.2 Interface A interface de acesso do SimpleSQL é composta por dois métodos: ExecuteQuery, que retorna um objeto do tipo DataTable (estrutura tabular), e ExecuteNonQuery, que retorna um texto (string). Ambos recebem um comando SQL, em formato texto, como único parâmetro. Como apresentado anteriormente, SimpleSQL suporta as quarto operações tradicionais de manipulação de dados. Contudo, como uma restrição de escopo, cada operação possui limitações quanto à sintaxe suportada nesta primeira versão: SELECT: suporta consultas sobre uma única tabela ou conjunto de tabelas relacionadas através de INNER JOIN. Casa haja junções, todos os atributos do comando (no retorno, nas junções e nos critérios) devem estar no formato tabela.atributo; 28 UPDATE: suporta atualização de múltiplos itens, mas sem subcomandos. Múltiplos critérios de filtro são suportados, mas ao menos um deve ser informado; INSERT: suporta inserção de um item por comando, sem subcomandos ou instruções do tipo INSERT SELECT; DELETE: suporta remoção de múltiplos itens. Múltiplos critérios de filtro são suportados, mas ao menos um deve ser informado. 4.3 Decomposição do comando O primeiro passo do processamento é decompor o comando SQL, convertendo-o em um objeto do domínio do SimpleSQL. Para esta operação, cada tipo de comando suportado pelo SimpleSQL possui uma expressão regular que possui duas finalidades: (i) validar a sintaxe do comando e (ii) extrair os elementos determinantes do comando. Tabela 4 apresenta os comandos e suas expressões regulares. Os elementos extraídos do comando são utilizados para instanciar o objeto referente ao tipo de comando submetido no domínio do SimpleSQL. Por exemplo, para um comando do tipo SELECT, o SimpleSQL extrairia os atributos esperados, a tabela destino, a lista de junções e o conjunto de critérios. 29 Tabela 4: Comandos DML suportados e suas expressões regulares. Operação INSERT UPDATE Expressão regular ^(?:\s*(?i:INSERT INTO)\s+)(?<table>[^\(]+)(?:\(\s*)(?<attributes>(?:\w+\s*)(?:\,\s*\w+\s*)*)(?:\)\ s+)(?:(?i:VALUES)\s+\(\s*)(?<values>(?:[^\,]+|[^\)])+\s*(?:\,\s*[^\)])*)(?:\))$ ^\s*(?i:UPDATE)\s+(?<table>\S+\s+)(?i:SET)\s+(?<attributes>(\s*\S+\s*)\=(\s *\S+\s*)(,(\s*\S+\s*)\=(\s*\S+\s*))*)+(?<condition>((?i:where)|(?i:and)|(?i:or))(\ s+\w+\s*)(=|<|>|<=|>=|<>|(?i:in)|(?i:not in))((\s*\(?)(\s*\w+\s*)(,\s*\w+\s*)*(\s*\)?)))*$ ^(?:\s*(?i:DELETE DELETE FROM)\s+)(?<table>\S+\s+)(?<condition>(?:(?i:where)|(?i:and)|(?i:or))(?:\s+. +\s*)(?:=|<|>|<=|>=|<>|(?i:in)|(?i:not in))(?:(?:\s*\(?)(?:\s*.+\s*)(?:,\s*.+\s*)*(?:\s*\)?)))*$ ^\s*(?i:SELECT)\s+(?<attributes>(\S+\s*)(,\s*\w+\s*)*)\s+(?i:FROM)\s+(?<tab SELECT le>\s*\S+\s*)\s+(?<join>(?i:inner join)\s+(?<toTable>\s*\S+\s*)\s+(?i:on)\s+(?<fromKey>\s*\S+\s*)\s*=\s*(?<to Key>\s*\S+\s*)\s+)*(?<condition>((?i:where)|(?i:and)|(?i:or))(\s+.+\s*)(=|<|>|< =|>=|<>|(?i:in)|(?i:not in))((\s*\(?)(\s*.+\s*)(,\s*.+\s*)*(\s*\)?)))*$ É importante observar, na Tabela 4, o uso expressivo de grupos de captura nomeados, denotados pela sintaxe (?<nome do grupo>expressão). Grupos de captura nomeados são uma técnica de expressões regulares para pesquisa e obtenção de partes de um texto sem a necessidade de buscar manualmente os padrões esperados [11]. Com esta técnica, é possível obter facilmente cada elemento do comando, como a tabela destino, a lista de atributos ou critérios de filtro. Em termos de implementação, o SimpleSQL trabalha com uma classe abstrata chamada Command, que é especializada nas classes Insert e na classe abstrata ConditionedCommand, que é herdada e implementada pelas classes Update, Select e Delete. A Figura 3 apresenta o diagrama de classes do domínio do SimpleSQL. 30 Figura 4: Diagrama de classes do domínio do SimpleSQL. 4.4 Execução e retorno Uma vez instanciado o objeto de domínio correspondente à operação submetida, o SimpleSQL irá traduzi-lo para uma chamada de método na interface REST do SimpleDB. Todos os comandos iniciam com a identificação do domínio do SimpleDB a partir da tabela destino, extraída do comando. DELETE e UPDATE retornam a quantidade de itens afetados. INSERT retorna o resultado da operação (sucesso ou falha) e SELECT retorna os dados obtidos em uma estrutura de tabela, utilizando a classe DataTable, nativa do .Net. A seguir são apresentados maiores detalhes sobre o processamento de cada comando. 4.4.1 INSERT Uma tupla corresponde a um item no modelo do SimpleDB. Portanto, um comando INSERT gera um item. No início do processamento deste comando, o SimpleSQL verifica se a quantidade de atributos corresponde à quantidade de valores fornecidos. Além de 31 transformar os atributos do comando em uma coleção de atributos no modelo do SimpleDB, o SimpleSQL adiciona o atributo SimpleSQL_TableName, para manter o nome da tabela daquele item no esquema relacional. O nome do item é preenchido com uma instância de um global unique identifier (GUID) [14]. 4.4.2 UPDATE e DELETE A lista de filtros na parte de condição destes comandos é executada no formato de um SELECT simples (uma consulta sem junções) para recuperar os itens a serem atualizados ou removidos. No caso de um DELETE, cada item obtido é removido em uma operação isolada. Caso seja um UPDATE, a coleção de atributos de cada item obtido é iterada na busca do atributo com o nome informado na lista atributos a serem atualizados. Caso ele exista (como há liberdade de esquema, itens de um mesmo tipo podem não ter os mesmos atributos), seu valor é atualizado. 4.4.3 SELECT Ao receber um comando de consulta, o SimpleSQL extrai os atributos esperados, a tabela destino, as junções e os critérios de filtro. Em havendo junções, o comando é dividido em consultas simples. Isso significa que, através da notação tabela.atributo, o SimpleSQL é capaz de identificar todos os componentes do comando referentes a cada tabela envolvida. Depois de receber o retorno de cada consulta individual, é criado um objeto do tipo DataTable com o esquema esperado no resultado do comando principal e as listas de itens obtidas são combinadas usando os atributos determinados nas junções, similar a chaves estrangeiras em um esquema relacional, preenchendo a 32 tabela de retorno com os registros resultantes. Recomenda-se que cada tabela envolvida em uma consulta tenha ao menos um critério de filtro, para evitar que o SimpleSQL carregue todos os itens daquele tipo ao executar as consultas individuais. Para cada consulta submetida ao SimpleDB, o SimpleSQL inclui o nome da tabela, persistido no atributo SimpleSQL_TableName, como filtro. Com isso, o SimpleSQL é capaz de distinguir itens de diferentes tipos (tabelas) que tenham atributos de mesmo nome. O resultado de consultas submetidas ao SimpleDB é um conjunto de itens. O SimpleSQL itera em todos os atributos de todos os itens recebidos, de forma a recuperar seus valores e satisfazer os critérios do comando. Na formação da tabela de retorno, cada item representa um registro da tabela. Caso os itens obtidos não contenham o mesmo esquema e ocorra de um item não possuir um dos atributos esperados como retorno, o valor daquele atributo será definido como nulo (Null). Outro aspecto do SimpleDB é que a resposta de qualquer comando é limitada a 1MB, por questões de escalabilidade e desempenho. Isso significa que nem todos os itens resultantes de uma consulta são enviados na primeira resposta. O resultado completo é dividido, e o SimpleDB envia um atributo chamado NextToken, para que a consulta possa ser novamente submetida e o próximo lote de resposta seja retornado. O SimpleSQL identifica este controle e possui métodos recursivos para obter o resultado completo. Um exemplo de decomposição de uma consulta complexa com junções é apresentado na próxima seção, bem como os resultados obtidos na avaliação experimental ao qual o SimpleSQL foi submetido. 33 5 AVALIAÇÃO EXPERIMENTAL Experimentos foram realizados com o intuito de avaliar o impacto no desempenho com a inclusão do SimpleSQL como uma camada de acesso relacional sobre o SimpleDB. Estes experimentos foram baseados em uma amostra de dados relacionais referentes ao sistema de vestibular da UFSC. A amostra consiste em seis tabelas que representam candidatos, suas opções de curso, seus resultados e a qual evento (vestibular anual) eles estão associados. A Figura 4 apresenta o esquema relacional da amostra, que conta com mais de 500 mil tuplas no total. Os experimentos foram processados no seguinte ambiente computacional: Notebook Dell Vostro 3550; Processador Intel Core i5-2430M; Memória RAM 6GB DDR3 1066mHz; Conexão de internet 10Mbps ADSL2. No que diz respeito às configurações do SimpleDB, todos os dados foram persistidos em um único domínio, localizado na região Leste dos EUA. A carga dos dados ao SimpleDB fez parte dos experimentos, como apresentado nas próximas seções. Infelizmente, não é possível obter com a Amazon a quantidade de servidores envolvidos no processamento das consultas, uma vez que esta transparência é parte das características de um sistema distribuído. Foram avaliados o desempenho de duas operações: INSERT e SELECT. A primeira foi escolhida para avaliar o tempo necessário para a carga de um grande volume de dados. A operação de consulta foi escolhida para avaliar o processamento para um conjunto de comandos com diferentes complexidades. Demais operações não foram diretamente avaliadas porque são derivadas do 34 processamento de uma consulta e não agregariam valor na análise do desempenho do SimpleSQL. Para cada operação, foi comparado o tempo utilizando o SimpleSQL e o tempo gasto apenas com a utilização da API .NET do SimpleDB [6]. Os resultados são detalhados nas seções a seguir. Figura 5: Esquema relacional usado nos experimentos. 35 5.1 Carga Operações INSERT foram executadas para carregar dados de duas tabelas, candidato e opcaoCandidato, apresentadas na Figura 4 (canto superior esquerdo e direito). A Tabela 5 apresenta o tempo de processamento com o SimpleSQL e apenas com o SimpleDB, bem como a média de tuplas inseridas por minuto. Destaca-se o incremento na quantidade de tuplas de cada tabela, para averiguar o comportamento em escalabilidade da camada. Tabela 5: Resultado das operações de carga. Média Tabela # tuplas Modo Duração (tuplas/min) SimpleSQL 03:29:24 238,78 SimpleDB 03:19:24 250,75 SimpleSQL 18:49:10 221,40 SimpleDB 18:41:45 222,87 SimpleSQL 37:32:08 222,01 SimpleDB 37:15:24 223,67 SimpleSQL 07:37:08 218,75 SimpleDB 07:07:32 233,90 SimpleSQL 38:12:16 218,12 SimpleDB 36:53:40 225,87 SimpleSQL 77:15:48 215,71 SimpleDB 73:08:07 227,89 50.000 candidato 250.000 500.000 100.000 opcao 500.000 Candidato 1.000.000 36 A Figura 5 apresenta os dados acima em um gráfico comparativo, facilitando a análise do desempenho do SimpleSQL em contraste com a carga direta ao SimpleDB. Figura 6: Gráfico comparativo para a média de tuplas carregadas por minuto. Percebe-se um aumento do tempo de processamento do SimpleSQL, o que é esperado. Contudo, a sobrecarga média foi de 6% e a diferença na média de tuplas inseridas também foi pequena. Isso mostra que a utilização do SimpleSQL não compromete o desempenho e escalabilidade do SimpleDB. 5.2 Seleção SimpleSQL foi avaliado ainda com a execução de consultas simples (consultas sem junções, executadas apenas em uma tabela) e também com uma consulta complexa combinando quatro tabelas. A Tabela 6 apresenta as consultas simples utilizadas para medição, na sintaxe SQL e na sintaxe do SimpleDB, bem 37 como o total de tuplas retornadas. A Tabela 7, por sua vez, apresenta o tempo médio de processamento destas consultas. Tabela 6: Consultas simples para avaliação. Consulta 1 2 SimpleSQL SimpleDB SELECT nu_candidate, SELECT nu_candidate, cd_race FROM candidate WHERE en_city like 'FLORIAN%' cd_race FROM domain1 WHERE en_city like 'FLORIAN%' SELECT nu_candidate, cd_race FROM candidate WHERE cd_gender = 'F' SELECT nu_candidate, cd_race FROM domain1 WHERE cd_gender = 'F' 34678 58410 SELECT * FROM do- SELECT * FROM curse 3 # tuplas WHERE cd_area = 1 and nm_curse like 'ENGE%' and nu_places >= 100 AND nu_applicants > 1000 main1 WHERE cd_area = '1' and nm_curse like 'ENGE%' and nu_places >= '100' AND nu_applicants > '1000' 58 Na Tabela 6 podem ser observadas as diferenças entre uma consulta no padrão SQL e a sintaxe própria utilizada pelo SimpleDB. Muito embora pareçam similares, a sintaxe do SimpleDB sempre deve referenciar um domínio na cláusula FROM, todos os valores devem estar entre aspas simples e não há suporte a grande parte dos operadores de agrupamento. Por outro lado, a sintaxe do SimpleDB possui funções próprias, como itemName(), para referenciar o nome do item. 38 Tabela 7: Média de duração de cada consulta simples. Query SimpleSQL SimpleDB 1 00:02:22 00:01:34 2 00:03:09 00:02:33 3 00:00:03 00:00:02 A partir dos tempos acima, observa-se que a sobrecarga do SimpleSQL não foi superior a 40% em todas as consultas. Considera-se este resultado aceitável (inferior a um minuto no pior caso), dado o alto volume de dados carregados, especialmente para a tabela Candidato, que possui mais de 160 mil tuplas. Quanto a consultas complexas, como o SimpleDB não possui o conceito de tipo de item (tabela) e não suporta o operador de junção, como comentado anteriormente, ele oferece apenas a liberdade de buscar itens de um único domínio . A análise e combinação de resultados ficam a cargo da aplicação cliente. Mesmo assim, o SimpleSQL foi projetado para suportar consultas complexas. As etapas de processamento envolvidas na execução deste tipo de consulta são as que seguem: Divisão: o comando é dividido em consultas simples sem junções. Cada atributo esperado e critério de filtro é aplicado à sua consulta respectiva; Acesso: cada consulta simples é submetida ao SimpleDB; Transformação: cada resultado obtido é convertido para o esquema relacional correspondente; Junção: as tabelas são combinadas de acordo com os critérios de junção definidos no comando principal, formando a tabela de retorno. 39 Desta forma, considerando-se o fluxo acima no processamento nativo do SimpleDB, a etapa de acesso é a única que possui equivalência. Os outros passos são recursos do SimpleSQL para oferecer suporte ao processamento de consultas complexas. Com esta equivalência, para comparar o desempenho do SimpleSQL e do SimpleDB, foi tomado o tempo de cada etapa de execução, sendo o passo de acesso foi diretamente comparado ao SimpleDB. A Tabela 8 apresenta a consulta complexa utilizada na medição, no formato original e nas consultas individuais na sintaxe do SimpleDB. Tabela 8: Consulta complexa na forma original e na sintaxe do SimpleDB SimpleSQL SimpleDB SELECT candidatoClassificado.nu_or dem, candidato.en_cidade, estabelecimentoEnsino.nm_es tabelecimento, evento.dc_evento FROM candidato INNER JOIN estabelecimentoEnsino ON candidato.cd_estabeleciment o = estabelecimentoEnsino.cd_es tabelecimento INNER JOIN candidatoClassificado ON candidato.nu_candidato = candidatoClassificado.nu_ca ndidato INNER JOIN evento ON candidatoClassificado.cd_ev ento = evento.cd_evento WHERE evento.cd_evento = 25 AND estabelecimentoEnsino.cd_ev ento = 25 AND candidatoClassificado.cd_ev ento = 25 AND candidato.cd_evento = 25 40 SELECT nu_ordem FROM domain1 WHERE cd_evento = ‘25’ SELECT en_cidade FROM domain1 WHERE cd_evento = ‘25’ SELECT nm_estabelecimentoEnsino FROM domain1 WHERE cd_evento = ‘25’ SELECT dc_evento FROM domain1 WHERE cd_evento = ‘25’ A Tabela 9 apresenta os tempos de cada etapa. Para o SimpleDB, foi realizada a somatória do tempo de processamento de cada consulta individual. De acordo com estes dados, nota-se que a etapa mais custosa em todo o processo é o acesso, mas que apresenta pequena diferença entre o SimpleSQL e o SimpleDB. As demais etapas, necessárias para suportar a funcionalidade adicional do SimpleSQL, demandam um pequeno tempo de processamento, se comparado ao benefício oferecido. Tabela 9: Duração média da execução de cada etapa do processamento de uma consulta complexa Etapa SimpleSQL Divisão 00:00:03 Acesso 00:18:17 Transformação 00:02:23 Junção 00:04:08 41 SimpleDB 00:18:05 6 TRABALHOS RELACIONADOS Há uma variedade de trabalhos que discutem a disponibilização de bancos de dados relacionais na nuvem. (Rys, 2011) propõe que SGBDs relacionais estejam divididos em nodos e cada nodo deve estar pareado, para garantir disponibilidade das informações daquele nodo. Um protocolo de consenso trata da distribuição de dados entre a grade [22]. (Curino et. al. 2011), por sua vez, concentra-se no processamento paralelo de uma mesma consulta em diversos nodos [16], onde a problemática está na consolidação dos resultados, com um escopo similar ao algoritmo de MapReduce [23]. (Campbell et. al., 2010) descreve uma implementação sobre o Microsoft SQL Server que funciona sobre um ambiente distribuído e, com o conceito de “domínios de consistência”, garante alta disponibilidade sem abrir mão das propriedades ACID dentro dos domínios especificados [17]. Como alternativa ao SimpleDB, a Amazon também oferece o Relational Database Service (RDS) [18], que oferece uma instância de MySQL, Oracle ou Microsoft SQL Server para acesso através da nuvem. Em sendo um SGBD relacional, há total suporte ao padrão SQL, porém as características de escalabilidade e alta disponibilidade estão restritas à instância, que possui limitações de tamanho. (Arnaut et. al., 2011) e (Egger, 2009) possuem trabalhos bastante relacionados ao SimpleSQL. Ambos utilizaram o MySQL como SGBD e adaptam sua persistência para o Scalaris [24] e Cloudy [25], respectivamente. Ainda assim, há uma leve diferença no foco dos trabalhos. Ao aplicarem a interface de um SGBD já 42 existente, toda a parte de tratamento dos comandos é abstraída, sendo substituída por técnicas eficientes de armazenamento e recuperação da informação nos repositórios escolhidos. O modelo de dados dos repositórios também varia, sendo o Scalaris um repositório chave-valor e o Cloudy uma implementação do Casandra, que segue o modelo de super-coluna. Destaca-se, ainda assim, a estratégia de utilizar como interface de acesso um SGBD relacional de mercado. Esta adaptação corrobora da ideia de facilitar a migração de aplicações para repositórios NoSQL, que é um dos objetivos do SimpleSQL. Da mesma forma, o trabalho desenvolvido para interpretação dos comandos seria delegado ao SGBD. Contudo, muito embora os repositórios utilizados tenham sido desenvolvidos para ambientes distribuídos, eles não são voltados para a nuvem pública, que é uma das principais características do SimpleDB. Desta forma, o usuário seria responsável também pela sua implantação e administração. Portanto, preserva-se ainda o pioneirismo do SimpleSQL neste sentido. Ainda assim, é interessante o plano de desenvolver uma camada de persistência do MysQL para o Amazon SimpleDB, como uma das possíveis evoluções do SimpleSQL. 43 7 CONCLUSÃO A oferta de SGBDs como serviço traz vários benefícios, como redução de custos e menos preocupação com manutenção e administração do banco de dados. Contudo, a maior parte das aplicações contemporâneas utilizam dados relacionais, sendo necessário prover um vínculo entre o tradicional modelo relacional para os dados armazenados em nuvem, que seguem outros modelos. Este trabalho contribui com esta problemática ao propor o SimpleSQL, uma solução específica para mapeamento relacional e interface de acesso ao SimpleDB, um banco de dados NoSQL orientado a documentos. Apesar de ser voltada para um sbanco de dados NoSQL em especial, esta solução pretende evoluir para uma proposta genérica de mapeamento entre o modelo relacional e o modelo orientado a documentos, que é um tema de futuras pesquisas. A intenção é propor uma interface e um modelo de representação de dados padrão, permitindo ao SimpleSQL suportar demais bases NoSQL e prover liberdade de escolha ao usuário. Como apresentado no Capítulo 5, a avaliação experimental mostra que o SimpleSQL adiciona uma pequena sobrecarga de processamento se comparado à utilização direta do SimpleDB, mas essa diferença não representa um obstáculo para sua adoção. Para operações de carga, a sobrecarga média foi de 6%. Para consultas simples, foi observada uma adição de 40% no tempo total de processamento, o que é esperado, considerando-se a conversão dos modelos executada pelo SimpleSQL. Estes resultados mostram que o SimpleSQL não é proibitivo em termos de desempenho. Uma sobrecarga maior foi observada com consultas complexas, o que atesta o processamento adicional do SimpleSQL para 44 suportar operações não oferecidas pelo SimpleDB. Ainda assim, observou-se otimizações que podem ser realizadas no processamento do SimpleSQL. Como apresentado no capítulo de Trabalhos Futuros, planeja-se continuar o desenvolvimento do SimpleSQL e a pesquisa no tema de bancos de dados NoSQL. 7.1 Trabalhos futuros Muito embora a versão atual do SimpleSQL esteja funcional e devidamente evidenciada na avaliação experimental, ela ainda carece de extensões e algumas melhorias. Algumas restrições de escopo e limitações podem ser entendidas como itens para trabalhos futuros: Suporte ao SQL ISO/IEC: as operações atualmente suportadas podem ser aprimoradas para aceitar mais recursos da linguagem, como operadores de agrupamento para consultas; Origem dos dados: a versão atual do SimpleSQL suporta operações apenas sobre dados que tenham sido inseridos através dele, em virtude da dependência do atributo SimpleSQL_TableName. Pode ser elaborada uma ferramenta que opere sobre um volume de dados existente, preparando-o para o SimpleSQL; Suporte a operações DDL: o SimpleSQL não suporta operações SQL DDL visto que não há como definir esquemas no repositório NoSQL. Contudo, a principal restrição do SimpleSQL é o suporte exclusivo ao SimpleDB. Isto ocorre porque não há um padrão na interface de acesso e representação dos dados entre os diferentes bancos de dados NoSQL. Estes obstáculos e restrições são potenciais temas para trabalhos futuros, em nível de graduação e pós. 45 BIBLIOGRAFIA [1] Abadi, D. J.: Data management in the cloud: Limitations and opportunities. IEEE Data Eng. Bull., 32:3-12 (2009). [2] Abouzeid, A., Bajda-Pawlikowski, K., Abadi, D. J., Rasin, A., and Silberschatz, A.: Hadoopdb: An architectural hybrid of Map-Reduce and DBMS technologies for analytical workloads. PVLDB, 2(1):922-933 (2009). [3] Armbrust, M., Fox, A., Griffith, R., Joseph, A. D., Katz, R., Konwinski, A., Lee, G., Patterson, D., Rabkin, A., Stoica, I., Zaharia, M.: Above the Clouds: A Berkeley View of Cloud Computing. UC Berkeley Reliable Adaptive Distributed Systems Laboratory (2009). [4] Amazon SimpleDB, http://aws.amazon.com/simpledb/. Acesso em 01 de junho de 2012. [5] Amazon SimpleDB, Getting Start Guide, http://docs.amazonwebservices.com/AmazonSimpleDB/latest/GettingStartedGui de/Welcome.html?r=1. Acesso em 03 de maio de 2012 [6] Amazon Web Services .NET SDK, http://aws.amazon.com/pt/sdkfornet/. Acesso em 15 de dezembro de 2011. [7] Buyya, R., Yeo, C. S., Venugopal, S., Broberg, J., and Brandic, I.: Cloud computing and emerging it platforms: Vision, hype, and reality for delivering computing as the 5th utility. Future Gener. Comput. Syst., 25(6):599–616 (2009). [8] Cattell, R.: Scalable SQL and NoSQL Data Stores. SIGMOD (2010). [9] G. Coulouris, J. Dollimore, T. Kindberg: Distributed Systems: Concepts and Design, 5ª edition. Addison-Wesley, (2011). [10] Fielding, R. T.: Architectural Styles and the Design of Network-based Software Architectures. University of California (2000). 46 [11] Friedl, J. E. F.: Mastering Regular Expressions, 2ª edition. O’Reilly (2002). [12] Gilbert, S., Lynch, N.: Brewer’s conjecture and the feasibility of consistent, available, and partition-tolerant Web services. ACM SIGACT News 33 (2002). [13] Pritchett, D.: BASE, an ACID alternative. ACM Queue (2008). [14] MSDN Library, Guid Structure, http://msdn.microsoft.com/en- us/library/system.guid%28v=vs.90%29.aspx. Acesso em 03 de maio de 2012 [15] Sousa, F. R. C., Moreira, L. O., de Macêdo, J. A. F., Javam, C. M.: Gerenciamento de Dados em Nuvem: Conceitos, Sistemas e Desafios. Em: Tópicos em sistemas colaborativos, interativos, multimídia, web e bancos de dados. Mini-cursos do XXV Simpósio Brasileiro de Banco de Dados (2010). [16] Carlo Curino, Evan P. C. Jones, Raluca A. Popa, Nirmesh Malviya, Eugene Wu, Samuel Madden, Hari Balakrishnan, Nickolai Zeldovich: Relational Cloud: a Database Service for the cloud. CIDR 2011:235-240 (2011). [17] Campbell, D. G., Kakivaya, G., Ellis, N (2010). Extreme Scale with Full SQL Language Support in Microsoft SQL Azure. [18] Amazon Relational Database Service, http://aws.amazon.com/pt/rds/. Acesso em 18 de maio de 2012. [19] Fowler, Martin. NosqlDefinition, http://martinfowler.com/bliki/NosqlDefinition.html. Acesso em 18 de maio de 2012. [20] Curino, C., Jones, E., Zhang, Y., Wu, E., and Madden, S. (2010). Relational cloud: The case for a database service. Technical report, MIT-CSAIL-TR-2010014. Computer Science and Artificial Intelligence Laboratory, MIT, USA. 47 [21] Fowler, Martin. Aggregate Oriented Database. http://martinfowler.com/bliki/AggregateOrientedDatabase.html. Acesso em 18 de maio de 2012. [22] Rys, Michael. Scalable SQL. Communications of the ACM 54, 6 (2011), 48-53. [23] Foto N. Afrati, Anish Das Sarma, Semih Salihoglu, Jeffrey D. Ullman: Vision Paper: Towards an Understanding of the Limits of Map-Reduce Computation CoRR abs/1204.1754 (2012). [24] D. E. M. Arnaut, R. Schroeder, and C. S. Hara. PHOENIX - UM COMPONENTE RELACIONAL PARA PLATAFORMAS DE ARMAZENAMENTO EM NUVEM. 4º IEEE CLOUD, (684-691), 2011. [25] Egger, D.: SQL in the Cloud. Departamento de Ciências da Computação, ETH Zurique, 2009. 48