otimização de consultas em sgbd relacional – estudo de caso

Propaganda
Mariana Gava
002200601383 – 10º semestre
OTIMIZAÇÃO DE CONSULTAS EM SGBD RELACIONAL –
ESTUDO DE CASO
Dezembro de 2010
Itatiba / SP
ii
Mariana Gava
002200601383 – 10º semestre
OTIMIZAÇÃO DE CONSULTAS EM SGBD RELACIONAL –
ESTUDO DE CASO
Monografia apresentada à disciplina
Trabalho de Conclusão de Curso, do
Curso de Engenharia de Computação da
Universidade São Francisco, sob a
orientação do Profa. Rafaela Girotte
Sampaio Maion, como exigência parcial
para conclusão do curso de graduação.
Dezembro de 2010
Itatiba / SP
iii
AGRADECIMENTOS
Agradeço primeiramente a Deus, por ter me concedido a oportunidade de poder
ingressar numa universidade e chegar ao final desse curso, superando os obstáculos e
desafios.
A realização desta Monografia só foi possível graças a inúmeras pessoas,
principalmente aos meus pais, que em todos os momentos souberam compreender e
motivar-me durante toda a graduação para que mais essa etapa fosse vencida. Aos meus
amigos, que sempre me deram apoio e entusiasmo nos momentos mais difíceis, dirigindome palavras de conforto. Aqui deixo um agradecimento especial a minha amiga Talita que
me ajudou muito na leitura, revisão e formatação desse trabalho. Ao meu amigo Decinho
que também revisou esse trabalho e me ajudou passando seus conhecimentos durante a
sua realização. E a todos manifesto aqui a minha gratidão. E de modo particular me refiro à
profª Rafaela G. Sampaio Maion pela sua tão importante orientação, dedicação e disposição
constante em todos os momentos da realização deste trabalho, proporcionando-me grande
estímulo e motivação para realização do mesmo. Agradeço também, aos professores do
curso de Engenharia de Computação, alguns hoje nem mais presentes no corpo docente
desta Universidade, porém foram de grande contribuição para o meu crescimento intelectual
e pessoal.
Enfim, a todas as pessoas que direta ou indiretamente compartilharam informações
úteis que colaboraram para a elaboração deste trabalho.
iv
GAVA, Mariana. Otimização de Consultas em SGBD Relacional – Estudo de Caso.
2010. 80f. Monografia – Curso de Engenharia da Computação da Unidade Acadêmica da
Área de Exatas da Universidade São Francisco, Itatiba.
RESUMO
Bancos de dados tornam-se cada dia mais importantes no cotidiano da sociedade atual.
Durante as atividades diárias, pessoas deparam-se interações com algum banco de dados,
embora na maioria das vezes sem ao menos perceberem tal feito. Pode-se afirmar que os
bancos de dados são amplamente utilizados em diversas aplicações presentes no dia-a-dia,
tais como: transações bancárias, transações com cartão de crédito, reservas de linhas
aéreas e informações de horários, reservas de hotel, vendas, revendedores on-line, dentre
outras aplicações. Devido ao grande volume de dados que estes precisam gerenciar e a
complexidade de suas aplicações, é fundamental que as operações sejam realizadas de
forma eficiente, pois o desempenho de um Sistema de Gerenciamento de Banco de Dados é
medido a partir da sua eficiência na realização de consultas e alterações. Através de uma
linguagem de manipulação de dados (DML) os dados são manipulados dentro do SGBD,
sendo possível realizar diferentes funções como, consultas, atualizações e fornecer
relatórios específicos. SGBDs têm como principal função proteger o banco de dados contra
ataques maliciosos ou acessos não autorizados e também precisam garantir que não haja
mau funcionamento ou falhas que podem ocorrer no hardware ou software. Outra função
importante é quanto à manutenção dos dados. Bancos de dados precisam estar protegidos
com relação a danos causados pelos usuários, quer sejam intencionais ou não. Visando a
agilidade na consulta desses dados, o objetivo deste trabalho é analisar as técnicas de
otimização e tuning de banco de dados, utilizando o banco de dados SQL SERVER 2008,
pois a seleção de uma boa estratégia faz toda diferença e, em termos do tempo de
avaliação, a diferença de custo pode chegar a várias ordens de grandeza.
Palavras-chave: SGBD, TUNING, OTIMIZAÇÃO.
v
ABSTRACT
Databases become increasingly important in the daily lot of society today. During the daily
activities, people are faced with some interaction with a database, although most often
without even realizing it done. It can be stated that databases are widely used in various
applications present on the day to day, such as: banking transactions, credit card
transactions, airline reservations and information on schedules, hotel reservations, sales,
online retailers, among other applications. Due to the large volume of data they need to
manage complexity and its applications, it is essential that operations are carried out
efficiently, because the performance of a Management System Database is measured from
its efficiency in carrying out consultations and changes. Through a data manipulation
language (DML) data are handled within the SGBD, and can perform different functions such
as queries, updates, and provide specific reports. SGBDs have the main function to protect
the database from malicious attacks or unauthorized access and must also ensure that no
malfunctions or failures that may occur in hardware or software. Another important function is
for the maintenance of the data. Databases must be protected against damage caused by
users, whether intentional or not. Aiming to speed up the consultation of such data, the
objective is to analyze the techniques of optimization and tuning database using the
database SQL SERVER 2008, because the selection of a good strategy makes all the
difference and in terms of time evaluation, the difference in cost can reach several orders of
magnitude.
Key Words: SGBD, TUNING, OPTIMIZATION
vi
SUMÁRIO
LISTA DE SIGLAS................................................................................................................... viii
LISTA DE FIGURAS ................................................................................................................ ix
LISTA DE TABELAS................................................................................................................ xi
1. INTRODUÇÃO ................................................................................................................... 12
1.1 Objetivos ........................................................................................................................... 13
2. CONCEITOS GERAIS SOBRE BANCO DE DADOS ......................................................... 14
3. STRUCTURED QUERY LANGUAGE – SQL ..................................................................... 15
3.1 Definição de dados e tipos do SQL.................................................................................... 16
4. OTIMIZAÇÃO DE BANCO DE DADOS SQL SERVER ....................................................... 20
4.1 Traduzindo consultas SQL para a álgebra relacional ......................................................... 21
4.1.2 Utilização de heurísticas na otimização de consultas...................................................... 21
4.1.3 Otimização heurística de árvores de consulta................................................................. 22
4.1.4 Otimização baseada em custo ........................................................................................ 23
4.1.5 Componentes do custo para execução de uma consulta ................................................ 23
4.1.6 Otimizando subconsultas aninhadas............................................................................... 25
5. SINTONIZAÇÃO (TUNING) DE BANCO DE DADOS EM SISTEMAS RELACIONAIS....... 28
5.1 Sintonização do projeto de banco de dados....................................................................... 30
5.1.2 Sintonização de consultas .............................................................................................. 31
5.2 Possíveis causas para o baixo desempenho ..................................................................... 32
5.3 Aumentando a perfomance da aplicação através da otimização de SQL........................... 33
6. ÍNDICES NO SQL SERVER ................................................................................................ 35
6.1 Estruturas de índices clusterizados.................................................................................... 35
6.1.2 Estruturas de índices não clusterizados.......................................................................... 37
6.1.3 De que maneira o otimizador sabe quando utilizar os índices?....................................... 38
6.2 Páginas e extends ............................................................................................................. 38
6.2.1 Unidade de alocação IN_ROW_DATA............................................................................ 39
6.2.2 Unidade de alocação ROW_OVERFLOW_DATA ........................................................... 40
6.2.3 Unidade de alocação LOB_DATA................................................................................... 40
6.3 Sintonização de índices ..................................................................................................... 40
7. O PLANO DE EXECUÇÃO NO SQL SERVER ................................................................... 42
7.1 O Otimizador de consulta................................................................................................... 42
7.2 Plano de execução estimado e plano de execução real..................................................... 43
7.2.1 Formato dos planos ........................................................................................................ 43
7.2.2 Interpretando planos de execução gráficos..................................................................... 47
vii
7.2.3 Facilitando a captura do plano de execução usando SQL SERVER Profiler ................... 51
7.2.4 Eventos do plano de execução ....................................................................................... 52
7.3 Um pouco mais sobre planos gráficos ............................................................................... 53
8. ESTUDO DE CASO............................................................................................................. 66
8.1 O SGBD............................................................................................................................. 66
8.1.2 Infraestrutura .................................................................................................................. 66
8.2 Aplicação da metodologia .................................................................................................. 66
8.2.1 Base de dados................................................................................................................ 67
8.2.2 Implementação das consultas......................................................................................... 67
8.3 Testes................................................................................................................................ 67
8.3.1 Teste 1 (subconsultas aninhadas – comandos EXISTS e INNER JOIN) ......................... 67
8.3.2 Teste 2 (Transformando expressões NOT em expressões afirmativas) .......................... 69
8.3.3 Teste 3 (Usando ou não índices) .................................................................................... 71
9. ANÁLISE DOS RESULTADOS ........................................................................................... 75
10. CONSIDERAÇÕES FINAIS............................................................................................... 77
REFERÊNCIAS BIBLIOGRÁFICAS........................................................................................ 78
viii
LISTA DE SIGLAS
ANSI – American National Standards Institute
BD – Banco de Dados
CLR – Common Language Runtime
CPU – Central Processing Unit
DBA – Database Administrator
DDL – Linguagem de Definição de Dados
DER – Diagrama Entidade Relacionamento
DML – Linguagem de Manipulação de Dados
GB – Gigabyte
GUI – Graphical User Interface
IAM – Index Allocation Map
ID – Identifier
ISO – International Organization for Standardization
I/O – Input/Output
KB – Kilobyte
MB – Megabyte
OLAP – Online Analytical Processing
RAM – Random Access Memory
SGBD – Sistema de Gerenciamento de Banco de Dados
SO – Sistema Operacional
SPID – System Process Identifier
SQL – Structure Query Language
XML – Extensible Markup Language
ix
LISTA DE FIGURAS
Figura 6.1 – Árvore B para um índice clusterizado.
Figura 6.2 – Árvore B para um índice não clusterizado.
Figura 6.3 – Árvore B padrão para um índice do SQL SERVER.
Figura 7.1 – Exemplo de texto estimado usando os comandos SET SHOWPLAN_ALL ON e
SET SHOWPLAN_ALL OF.
Figura 7.2 – Exemplo de um plano de texto estimado usando os comandos SET
SHOWPLAN_TEXT ON e SET SHOWPLAN_TEXT OFF.
Figura 7.3 – Exemplo de um plano de texto real usando os comandos SET
STATISTICS_PROFILE ON e SET STATISTICS_PROFILE OFF.
Figura 7.4 – Exemplo de um plano XML estimado usando os comandos SET
SHOWPLAN_XML e SET ON e SHOWPLAN_XML OFF.
Figura 7.5 – Exemplo de um plano de execução em XML.
Figura 7.6 – Exemplo de um plano de execução gráfico.
Figura 7.7 – Dados resultantes do ícone SELECT no plano de execução gráfico.
Figura 7.8 – Dados resultantes do ícone table scan.
Figura 7.9 – Exemplo de funcionamento do SQL profiler.
Figura 7.10 – Operador clustered index scan.
Figura 7.11 – Exemplo de consulta que retorna um clustered index scan.
Figura 7.12 – Operador clustered index seek
Figura 7.13 – Exemplo de consulta que retorna um clustered index seek
Figura 7.14 – Operador non clustered index seek.
Figura 7.15 – Exemplo de consulta que retorna um non clustered index seek.
Figura 7.16 – Operador key lookup.
Figura 7.17 – Exemplo de consulta que retorna um operador key lookup.
Figura 7.18 – Dados resultantes do operador non clustered index seek.
Figura 7.19 – Dados resultantes do operador key lookup.
Figura 7.20 – Operador nested loops.
Figura 7.21 – Operador sort.
Figura 7.22 – Operador table scan.
Figura 7.23 – Exemplo de consulta que retorna um table scan.
Figura 7.24 – Operador RID lookup.
Figura 7.25 – Exemplo de consulta que retorna um operador RID lookup.
Figura 7.26 – Operador merge join.
x
Figura 7.27 – Operador hash match.
Figura 7.28 – Exemplo de consulta que retorna os operadores merge join e hash match.
Figura 8.1 – Plano de execução gerado para o teste 1a.
Figura 8.2 – Plano de execução gerado para o teste 1b.
Figura 8.3 – Plano de execução gerado para o teste 2a.
Figura 8.4 – Plano de execução gerado para o teste 2b.
xi
LISTA DE TABELAS
Tabela 9.1 – Resultados obtidos através dos Testes 1 e 2.
Tabela 9.2 – Resultados obtidos através do Teste 3.
12
1.
INTRODUÇÃO
Atualmente banco de dados tornou-se peça fundamental nas atividades diárias das
pessoas. Muitas vezes nos deparamos com banco de dados nas nossas tarefas diárias e
nem ao menos sabemos disso. Alguns exemplos são: transações bancárias, transações
com cartão de créditos, reservas de passagens áreas, reserva de hotéis, compras on-line,
dentro outras aplicações.
Com o crescimento e o avanço tecnológico ao longo dos anos surgiram novas
aplicações dos sistemas de banco de dados. É possível citar bancos de dados multimídia,
que armazenam figuras, videoclipes e mensagens sonoras; bancos de dados geográficos,
que armazenam e também são capazes de analisar mapas, dados do tempo e imagens de
satélite; data warehouse e Online analytical processing (OLAP), que são utilizados em
muitas empresas para auxiliar em tomada de decisões, devido à capacidade de extrair e
analisar informações.
Segundo uma das definições de Elmasri e Navathe, “Um banco de dados é projetado,
construído e povoado por dados, atendendo a uma proposta específica. Possui um grupo de
usuários definido e algumas aplicações preconcebidas, de acordo com o interesse desse
grupo de usuários.” (2005, p.4)
A complexidade e o tamanho de um banco de dados são variáveis. Eles também
podem ser criados e mantidos manualmente ou então computadorizados através de um
grupo de aplicações como um sistema gerenciador de banco de dados (SGBD).
De acordo com Elmasri e Navathe (2005, p.4), “Um SGBD é uma coleção de
programas que permite aos usuários criar e manter um banco de dados.” Sendo assim, um
banco de dados é construído através de dados que são armazenados e assim são
controlados por um SGBD.
SGBDs têm como principal função proteger o banco de dados contra ataques
maliciosos ou acessos não autorizados e também precisam garantir que não haja mau
funcionamento ou falhas que podem ocorrer no hardware ou software. Outra função
importante é quanto à manutenção dos dados. Bancos de dados precisam estar protegidos
com relação aos danos causados pelos usuários, quer sejam intencionais ou não.
O principal problema enfrentado com relação a esses sistemas é o grande volume de
dados que estes precisam gerenciar e a complexidade de suas aplicações. Sendo assim, é
13
fundamental que as operações sejam realizadas de forma eficiente, pois o desempenho de
um SGBD é medido a partir da sua eficiência na realização de consultas e alterações.
Visando a agilidade na consulta desses dados, a otimização é um processo muito
utilizado para a escolha da maneira mais adequada na realização de uma consulta, pois em
geral, existem diferentes maneiras de realizá-la.
Diante disso, é de extrema importância realizar o processo de otimização e tuning,
pois a seleção de uma boa estratégia faz toda diferença e, em termos do tempo de
avaliação, a diferença de custo pode chegar a várias ordens de grandeza.
1.1
Objetivos
A elaboração deste trabalho tem como objetivo estudar as principais técnicas de
otimização e tuning em um banco de dados SQL SERVER, o qual é muito utilizado em
diversas aplicações, sendo de grande importância a escolha da solução mais adequada
para agilizar no processo de consultas.
14
2.
CONCEITOS GERAIS SOBRE BANCO DE DADOS
Segundo Silberschatz, “Um modelo de dados é uma coleção de ferramentas
conceituais para descrever dados, relações de dados, semântica de dados e restrições de
consistência.” (2006, p.5). Existem três maneiras para se descrever um projeto de um banco
de dados como no nível físico, lógico e de visão, que são divididos em quatro categorias
diferentes de classificação de modelos:
•
Modelo relacional: baseado em tabelas, que representam os dados e as relações
entre eles. Cada tabela possui um nome único. É formado por uma estrutura de
registros de tamanho fixo de vários tipos. Cada tipo de registro define a quantidade
de número dos campos ou atributos. Devido a sua simplicidade conceitual, pois
facilita o trabalho do programador, ainda hoje é o modelo mais utilizado.
•
Modelo de entidade/relacionamento: consiste em uma coleção de objetos básicos,
chamados de entidades e de relações entre eles. É um modelo muito útil no
mapeamento para um esquema conceitual.
•
Modelo de dados baseado em objetos: uma extensão do modelo de dados relacional,
incluindo orientação a objetos e tipos de coleção que possuem relações, conjuntos,
multiconjuntos e arrays.
•
Modelo de dados semi-estruturado: possui características contrárias aos dos
modelos acima citados, pois itens de dados individuais do mesmo tipo podem ter
diferentes conjuntos de atributos. Um exemplo desse modelo é a Extensible Markup
Language (XML).
Como citado anteriormente, um banco de dados relacional é formado por uma coleção
de tabelas, sendo que cada tabela possui um nome único. A relação entre um conjunto de
valores é representada pela linha de uma tabela.
15
3.
STRUCTURED QUERY LANGUAGE – SQL
De acordo com a definição de Silberschatz (2006, p.51),
Embora a SQL seja referenciada como “linguagem de consulta”, ela pode
fazer muito mais do que simplesmente consultar um banco de dados, pois
ela consegue definir a estrutura dos dados, modificar dados no banco de
dados e especificar restrições de segurança.
No início da década de 1970, a IBM desenvolveu a versão original da SQL, a qual foi
chamada de Sequel. Após anos de evolução, passou a ser chamada de SQL (Structure
Query Language), tornando-se a linguagem padrão de banco de dados relacional.
Em 1986, foi publicado um padrão SQL chamado de SQL-86 pelo American National
Standards Institute (ANSI) e a International Organization for Standardization (ISO). Em 1989,
o ANSI publicou o SQL-89 e depois surgiram as versões SQL-92 e SQL-1999. Atualmente a
versão utilizada é o SQL-2008. A linguagem SQL possui várias partes:
•
Linguagem de definição de dados (DDL): através da DDL é possível definir
esquemas de relação, excluir relações e modificar esquemas. Inclui comandos para
definir visões, especificar direitos de acesso para relações e visões e comandos para
especificar restrições de integridade às quais os dados armazenados precisam
satisfazer. Não é possível realizar atualizações que violam as restrições de
integridade.
•
Linguagem de manipulação de dados interativa (DML): inclui uma linguagem de
consulta baseada na álgebra relacional e no cálculo relacional de tabela. Também
possui comandos para inserir, excluir e modificar tabelas.
•
Integridade: A DDL SQL inclui comandos para especificar restrições de integridade
as quais os dados armazenados no banco de dados precisam satisfazer. As
atualizações que violam as restrições de integridade são proibidas.
•
Definição de view: A DDL SQL inclui comandos que definem as views.
•
Controle de transação: SQL inclui comandos que especificam o início e o fim das
transações.
16
•
SQL embutida e SQL dinâmica: definem como as instruções SQL podem ser
incorporadas dentro das linguagens de programação.
•
Autorização: A DDL inclui comandos que especificam direitos de acesso para
relações e views.
Devido ao fato de ter se tornado padrão para os bancos de dados relacionais, os
usuários não têm tanta preocupação ao migrar suas aplicações para outros tipos de
sistemas de banco de dados, como exemplo, em rede e hierárquico para sistema relacional.
3.1
Definição de dados e tipos do SQL
A SQL usa os termos tabela, linha e coluna, ao invés de relação, tabela e atributo para
o modelo relacional formal. De acordo com Elmasri e Navathe (2005), o principal comando
SQL para definição de dados é o CREATE, que pode ser usado para criar esquemas,
tabelas (relações) e domínios da mesma forma que outros construtores, como visões
(views), asserções (assertions) e gatilhos (triggers).
O padrão SQL SERVER 2008 aceita diversos tipos de domínio internos, como:
Tipos numéricos:
•
TINYINT: Faz o armazenamento de valores numéricos inteiros, variando de 0 a
255 – 1 byte;
•
SMALLINT: Faz o armazenamento de valores numéricos inteiros, variando de
(-) 32.768 à (+) 32.767 – 2 bytes;
•
INT: Faz o armazenamento de valores numéricos inteiros, variando de
(-)
2.147.483.648 à (+) 2.147.483.647 – 4 bytes;
•
BIGINT: Faz o armazenamento de valores numéricos inteiros, variando de (+)
9.223.372.036.854.775.808 à (-) 9.223.372.036.854.775.807 – 8 bytes;
17
•
SMALLMONEY: Armazena valores numéricos decimais variando de (-)
214.748.3648 à (+) 214.748.3647 – 4 bytes;
•
MONEY:
Armazena
valores
numéricos
decimais
variando
de
(-)
922.337.203.685.477.5808 à (+) 922.337.203.685.477.5807 – 8 bytes;
•
NUMERIC(18,0): Valores numéricos com casas decimais com precisão. O
primeiro número representa a quantidade de inteiros a serem armazenados e o
segundo, indica a quantidade de casas decimais do número;
•
DECIMAL(18,0): Possui as mesmas funcionalidades do tipo NUMERIC, com a
diferença que o DECIMAL faz parte do padrão ANSI e NUMERIC é mantido por
compatibilidade;
•
FLOAT: Valores numéricos aproximados com precisão de ponto flutuante,
variando de (-) 1.79E + 308 à (+) 1.79E + 308 – 4 ou 8 bytes;
•
REAL: Valores numéricos aproximados com precisão de ponto flutuante,
variando de (-) 3.40E + 38 à 3.40E + 38 – 4 bytes;
Tipo BIT:
•
BIT: Armazena bits, podendo conter valores lógicos 0 ou 1 – 1 bit;
Tipo data:
•
SMALLDATETIME: Faz o armazenamento de data e hora, com precisão de
minutos – 4 bytes;
•
DATETIME: Também armazena data e hora, porém com precisão de
centésimos de segundos – 8 bytes;
•
TIME: Armazena somente hora, podendo armazenar segundos até a fração de
9999999 – 3 a 5 bytes;
•
DATE: Somente data – 3 bytes;
•
DATETIME2: Combinação dos tipos de dados DATE e TIME, com a diferença
para o tipo DATETIME é a precisão ao armazenar as horas – 6 a 8 bytes;
18
•
DATETIMEOFFSET: Valores de data e hora com a combinação da hora do dia
com o fuso horário. O intervalo de deslocamento do fuso horário é de (-)14:00 à
(+) 14:00 – 8 a 10 bytes;
Tipos caracteres:
•
CHAR(N): Faz o armazenamento de N caracteres fixos (até 8.000) no formato
não Unicode. Independente da quantidade de caracteres utilizados, sempre irá
armazenar o tamanho de caracteres do campo, preenchendo o restante com
espaços em branco;
•
VARCHAR(N): Faz o armazenamento de N caracteres (até 8.000) no formato
não Unicode;
•
VARCHAR(MAX): Faz o armazenamento de caracteres no formato não
Unicode. MAX indica que o máximo a ser armazenado pode chegar a 2^31-1
bytes;
•
TEXT: Faz o armazenamento de caracteres no formato não Unicode. Esse tipo
de dado suporte até 2.147.483.647 caracteres e possui funções específicas
para trabalhar com esse tipo de dado;
•
NCHAR(N): Praticamente similar ao CHAR(N), com a diferença que armazena
N caracteres fixos (até 4.000) no formato Unicode;
•
NVARCHAR(N): Faz o armazenamento de (até 4.000) no formato Unicode;
•
NVARCHAR(MAX): Faz o armazenamento de caracteres no formato Unicode.
MAX indica que o máximo a ser armazenado pode chegar a 2^31-1 bytes;
•
NTEXT: Faz o armazenamento de caracteres no formato Unicode. Esse tipo de
dado suporte até 1.073.741.823 caracteres e possui funções específicas para
trabalhar com esse tipo de dado;
Por padrão todo caracter ocupa um byte. Se considerarmos que um byte representa
um octeto de oito bits e que cada bit tem duas possibilidades (ligado ou desligado), então
um byte pode representar 256 possibilidades (2^8). No passado, 256 possibilidades eram
suficientes para cobrir todo o conjunto de caracteres americano.
19
Outros tipos de dados:
•
BINARY(N): Faz o armazenamento de dados no formato binário, podendo
chegar até 8.000 bytes. Independente da quantidade de dados armazenados, o
restante do campo será preenchido com espaços em branco;
•
VARBINARY(N): Faz o armazenamento de dados no formato binário, podendo
chegar até 8.000 bytes. É diferente do tipo BINARY porque não faz o
preenchimento com espaços em branco.
•
VARBINARY(MAX): Faz o armazenamento de dados no formato binário,
podendo chegar até 2^31-1 bytes;
•
IMAGE: Faz o armazenamento de dados no formato binário, podendo chegar
até 2,147,483,647 bytes;
•
SQL_VARIANT: Faz o armazenamento de todos os tipos de dados em um
mesmo campo de uma tabela, com exceção dos tipos TEXT, NTEXT,
TIMESTAMP e SQL_VARIANT – até 8 K;
•
TIMESTAMP: Permite a geração automática de um valor binário para um
campo de uma tabela;
•
UNIQUEIDENTIFIER: Utilizado para a criação de um identificador global e
único para uma tabela do SQL SERVER – armazena 16 bytes;
•
GEOMETRY:
Faz
o
armazenamento
de
dados
espaciais
utilizando
representação plana da Terra (Flat Earth);
•
GEOGRAPHY: Faz o armazenamento de dados espaciais utilizando
representação redonda da Terra (Round Earth);
•
HIERARCHYID: Usado para representar uma posição em uma hierarquia. Uma
coluna não necessariamente irá representar automaticamente uma árvore. É
até a aplicação para gerar e atribuir valores hierarchyid de tal forma que a
relação desejada entre as linhas é refletida nos valores;
•
XML: Faz o armazenamento de dados no formato XML, não podendo exceder
a 2Gb;
20
4.
OTIMIZAÇÃO DE BANCO DE DADOS SQL SERVER
Segundo a definição de Silberschatz, otimização da consulta “É o processo de
selecionar o plano de avaliação de consulta mais eficiente dentre as muitas estratégias
normalmente possíveis para o processamento de determinada consulta, especialmente se
esta for complexa”. (2006, p.383). Os usuários não têm obrigação de saber escrever a
consulta para que a mesma seja processada de forma eficiente, mas o sistema deve
construir um plano de avaliação para que o custo da avaliação da consulta seja reduzido.
Além da busca ser realizada pelo sistema de uma maneira mais eficiente para
executar uma consulta, através de uma expressão similar na álgebra relacional, outros
aspectos também são observados tais como: algoritmos para execução de operações e
também índices específicos que serão utilizados.
O otimizador de consulta tem como tarefa gerar um plano de avaliação de consulta
que terá como base uma expressão em álgebra relacional e a transformará numa expressão
com menor custo. A geração de planos de avaliação envolve três etapas:
1. Definir expressões que sejam logicamente equivalentes a expressão dada;
2. Fazer uma estimativa do custo do plano de avaliação;
3. Realizar de forma alternativa anotações das expressões resultantes para gerar
planos de avaliação de consulta alternativos;
Primeiramente, as etapas 1 e 3 são realizadas, sendo as expressões geradas e
anotadas aos poucos. E em segundo plano a etapa 2 é feita com a coleta de informações
estatísticas sobre as relações para garantir uma boa estimativa do custo de um plano.
De acordo com Silberschatz (2006, p.384), o otimizador de consulta gera expressões
equivalentes a uma determinada expressão através de regras de equivalência que
especificam como transformar uma expressão em outra logicamente equivalente.
Existem diversas maneiras de uma consulta ser expressa, com diferentes custos de
avaliação. É bom ressaltar que, a ordem das tabelas é irrelevante, desde que seja
equivalente o conjunto de tabelas.
21
4.1 Traduzindo consultas SQL para a álgebra relacional
Em primeiro lugar, uma consulta SQL é traduzida para uma expressão equivalente na
álgebra relacional, sendo representada por uma estrutura de dados de árvore de consulta,
que após é otimizada. Uma regra de equivalência diz que expressões de duas formas são
equivalentes. É através delas que o otimizador transforma expressões em outras
logicamente equivalentes.
De acordo com Elmasri e Navathe (2005, p.356),
As consultas SQL são decompostas em blocos de consultas, que formam
as unidades básicas que podem ser traduzidas em operadores algébricos e
otimizadas. Um bloco de consulta contém uma única expressão SELECTFROM-WHERE, bem como cláusulas GROUP BY e HAVING, se elas forem
partes do bloco.
Sendo assim, consultas aninhadas dentro de uma consulta são identificadas como
blocos separados.
4.1.2 Utilização de heurísticas na otimização de consultas
As regras heurísticas são utilizadas para melhorar o desempenho das consultas,
através da modificação da representação interna de uma consulta, que na maioria das
vezes está na forma de dados de árvore de consulta ou de um grafo de consulta. Segundo
Elmasri e Navathe, “O analisador sintático de uma consulta de alto nível primeiro gera uma
representação interna inicial, que depois é otimizada de acordo com as regras de
heurística.” (2005, p.368). Após, um plano de execução de consulta é gerado, e o mesmo
tem como responsabilidade executar grupos de operações com base nos caminhos de
acesso disponíveis para os arquivos envolvidos na consulta.
Devido ao tamanho do arquivo resultante de uma operação binária, como JOIN,
utilizam-se as operações SELECT e PROJECT antes do JOIN de operações binárias, pois
essas operações reduzem o tamanho de um arquivo.
22
As regras de otimização heurísticas são aplicadas para converter uma árvore de
consulta numa árvore de consulta equivalente, que representa uma expressão diferente da
álgebra relacional e que é executada de forma mais eficiente, porém que produz o mesmo
resultado. Elmasri e Navathe (2005, p. 368), definem que:
Uma árvore de consulta é uma estrutura de dados de árvore que
corresponde a uma expressão da álgebra relacional. Ela representa as
relações de entrada de uma consulta como nós folhas da árvore e
representa as operações da álgebra relacional como nós internos.
Realiza-se a execução de uma operação de nó interno, se seus operandos estiverem
disponíveis, e em seguida a substituição do nó interno pela relação que resulta da execução
da operação, que é chamada de execução da árvore de consulta. Na árvore de consulta
existe a necessidade de preservar uma ordem específica de operações para execução de
uma consulta. Já uma representação mais neutra de uma consulta é notada de grafo de
consulta, na qual não indica uma ordem na qual as operações devem ser realizadas e
apenas um grafo corresponde a cada consulta. De acordo com Elmasri e Navathe (2005),
embora algumas técnicas de otimização sejam baseadas em grafos de consulta, as árvores
de consulta são preferíveis porque, na prática, o otimizador de consulta precisa mostrar a
ordem das operações para a execução da consulta, o que não é possível em grafos de
consulta.
4.1.3 Otimização heurística de árvores de consulta
Devido ao fato de existirem muitas expressões diferentes na álgebra relacional, muitas
árvores de consulta diferentes podem corresponder à mesma consulta. É criada uma árvore
de consulta inicial, correspondente à consulta SQL, sem nenhuma otimização através do
analisador sintático.
É tarefa do otimizador heurístico de consulta transformar a árvore de consulta inicial
em uma árvore de consulta final que seja eficiente. Incluem-se regras de equivalência entre
as expressões da álgebra relacional, que são utilizadas para transformar a árvore inicial na
árvore de consulta otimizada final.
Operações Cartesian Product seguidas de uma condição de junção podem ser
substituídas por uma operação Join para melhorar ainda mais a árvore de consulta.
23
Também é importante o mais cedo possível manter apenas os atributos necessários para as
operações subseqüentes nas relações intermediárias, por meio da inclusão de operações
Project (π).
Enfim, as heurísticas básicas para otimização algébrica são:
•
Aplicar o quanto antes operações que reduzem o tamanho dos resultados
intermediários, como operações de SELECT que reduzem o número de tabelas e
•
Operações Project que diminuem o número de atributos.
4.1.4 Otimização baseada em custo
Um otimizador de consultas não deve basear-se apenas em regras heurísticas, mas
também deve estimar e comparar diferentes estratégias de execução, considerando a
melhor estratégia aquela com menor estimativa de custo. Uma otimização mais elaborada é
indicada em consultas compiladas, que são consultas na qual a otimização é feita em tempo
de compilação, sendo consultas interpretadas indicadas para otimização parcial, que
ocorrem em tempo de execução.
A otimização baseada no custo, busca soluções para um problema e também uma
solução que minimize uma função de custo, porém essas funções são apenas estimativas,
pois o otimizador pode escolher uma estratégia de solução que não seja a estratégia ótima.
4.1.5 Componentes do custo para execução de uma consulta
Alguns componentes são necessários para o custo da execução de uma consulta,
como:
•
Custo de acesso ao armazenamento secundário: refere-se ao custo da busca, leitura
e escrita de blocos de dados que residem em armazenamento secundário,
principalmente em discos. Fatores como blocos de arquivos alocados de maneira
adjacente no mesmo cilindro ou disco afetam o custo de acesso.
24
•
Custo de armazenamento: custo de arquivos temporários que são gerados por uma
estratégia de execução de consulta.
•
Custo de computação: compõe o custo de realização, na memória, referente às
operações de buffers de dados durante a execução da consulta.
•
Custo do uso de memória: custo referente ao número de buffers de memória que são
solicitados durante a execução da consulta.
•
Custo de comunicação: custo que se refere ao transporte da consulta e de seus
resultados de um site de banco de dados para o site ou terminal onde a consulta
originou-se.
Em grandes bancos de dados, o foco é minimizar o custo de acesso ao
armazenamento secundário. Já em bancos menores, o ideal é minimizar o custo de
computação. Nos bancos de dados distribuídos, o custo de comunicação deve ser o foco de
minimização.
De acordo com Elmasri e Navathe (2005, p.377),
Para estimar custos de várias estratégias de execução, devemos manter
atualizadas quaisquer informações que sejam necessárias para as funções
de custo. Essas informações podem ser armazenadas no catálogo do
SGBD, onde são acessadas pelo otimizador de consulta.
Para o otimizador de consulta realizar a estimativa de custo das várias estratégias de
execução,
é preciso valores
razoavelmente próximos
de atualizados,
mas
não
necessariamente valores atualizados até o último minuto. As diferenças estratégias são
enumeradas e os custos das diferentes estratégias são estimados. A programação dinâmica
é uma técnica de otimização que pode ser utilizada para encontrar eficientemente a
estimativa de custo ótima, sem precisar considerar todas as possíveis estratégias de
execução.
Segundo Elmasri e Navathe, “Para desenvolver funções de custo razoavelmente
precisas para operações JOIN, é preciso ter uma estimativa do tamanho (número de
tabelas) do arquivo que resulta após a operação JOIN”. (2005, p.378). Dá-se o nome de
seletividade da junção (js), a proporção entre o tamanho do arquivo de junção resultante e o
tamanho do arquivo do produto cartesiano.
25
Para uma consulta complexa o número de planos de consulta diferentes que são
equivalentes pode ser muito grande. Várias técnicas são utilizadas para reduzir ainda mais o
custo da pesquisa por uma grande quantidade de planos. Para Silberschatz (2006, p.395),
Ao examinarmos os planos para uma expressão, podemos terminar depois
que examinarmos apenas uma parte da expressão, isso se determinarmos
que o plano mais barato para essa parte já é mais dispendioso do que o
plano de avaliação mais barato para uma expressão completa examinada
anteriormente.
A redução ainda maior do número de planos de execução pode ser conseguida
através de uma escolha heurística de um bom plano e estimando seu custo. Essas
otimizações podem diminuir significativamente a sobrecarga da otimização de consulta.
O SQL SERVER introduz grande complexidade nos otimizadores de consulta. Existem
diferentes técnicas de otimização, sendo que alguns sistemas como Microsoft SQL SERVER
são baseados em regras de equivalência, que possui como benefício à facilidade de
estender o otimizador com novas regras. De acordo com Silberschatz (2006), para que a
técnica funcione de modo eficiente, é preciso que haja técnicas eficientes para detectar
derivações duplicadas e uma forma de programação dinâmica para evitar a reotimização
das mesmas subexpressões.
4.1.6 Otimizando subconsultas aninhadas
No SQL SERVER, subconsultas são consultas aninhadas, que pode ser utilizada em
SELECT, INSERT, UPDATE ou DELETE, ou mesmo em subconsulta. Existem dois tipos de
subsconsultas aninhadas: Correlacionada e não correlacionada.
Subconsultas correlacionadas são consultas, onde a consulta aninhada depende de
campos da query externa. Quando se utiliza uma subquery correlativa com o comando
EXISTS, a perfomance é igual ao do INNER JOIN.
SELECT p.ProductID, p.Name, p.ListPrice
FROM Production.Product AS p
WHERE EXISTS (SELECT * FROM Sales.SalesOrderDetail AS sod
WHERE p.ProductID = sod.ProductID )
26
No exemplo abaixo, fazendo a mesma query com o INNER JOIN
SELECT DISTINCT p.ProductID, p.Name, p.ListPrice
FROM Production.Product AS p
INNER JOIN Sales.SalesOrderDetail sod ON p.ProductID = sod.ProductID
Subquery não-correlacionada – A subquery não depende de campos da query externa.
SELECT p.ProductID, p.Name, p.ListPrice
FROM Production.Product AS p
WHERE p.ListPrice > (SELECT AVG(p2.ListPrice) FROM Production.Product AS p2)
As tabelas derivadas – Quando a SELECT é embutido na clausula FROM.
SELECT B.BusinessEntityID, b.Jobtitle, a.NumTitle
FROM (SELECT e.JobTitle, COUNT(*) numtitle FROM HumanResources.Employee e
GROUP BY e.JobTitle) AS a
INNER JOIN HumanResources.Employee b ON b.JobTitle = a.JobTitle.
Demais exemplos:
Comando IN
SELECT Name, p.ProductSubcategoryID
FROM Production.Product p
WHERE ProductSubcategoryID IN ( SELECT ProductSubcategoryID FROM
Production.ProductSubcategory WHERE Name = 'Wheels' );
O mesmo exemplo que o acima, mas usando o JOIN ao invés do IN. A diferença é
que com o JOIN, consegue-se pegar os campos das duas tabelas e usar no SELECT, já
com o IN isso não é possível.
SELECT p.Name, s.Name, p.ProductSubcategoryID
FROM Production.Product p
INNER JOIN Production.ProductSubcategory s ON p.ProductSubcategoryID =
s.ProductSubcategoryID AND s.Name = 'Wheels';
27
Utilizando Valores no IN.
SELECT Name, ProductSubcategoryID
FROM Production.Product
WHERE ProductSubcategoryID IN (12, 17);
Utilizando o comando NOT IN
SELECT Name
FROM Production.Product
WHERE ProductSubcategoryID NOT IN ( SELECT ProductSubcategoryID FROM
Production.ProductSubcategory WHERE Name = 'Mountain Bikes' )
28
5.
SINTONIZAÇÃO
(TUNING)
DE
BANCO
DE
DADOS
EM
SISTEMAS RELACIONAIS
É de extrema importância que no projeto físico inicial de desenvolvimento de um
banco de dados sejam tomados certos cuidados, para que, quando o banco de dados esteja
em operação, fazendo uso das aplicações, transações, consultas e visões, não ocorram
problemas. É preciso realizar estimativas seguras de volumes de atividades e os tamanhos
dos dados e constantemente monitorar e revisar o projeto.
Para Elmasri e Navathe, “A utilização dos recursos, bem como o processamento
interno do SGBD, tais como otimização de consultas, podem ser monitorados para revelar
gargalos, como a disputa pelos mesmos dados ou dispositivos”. (2005, p.389). Os objetivos
da sintonização são:
•
Permitir que as aplicações sejam executadas mais rapidamente;
•
Fazer com que as consultas/transações possam ter um tempo de resposta menor;
•
Melhorar o desempenho geral das transações;
A sintonização pode ser considerada como um ajuste continuado do projeto, pois as
mesmas decisões do projeto precisam ser revistas. Os SGBDs podem coletar as seguintes
estatísticas:
•
Tamanhos de tabelas individuais;
•
Número de valores distintos em uma coluna;
•
Número de vezes que uma consulta ou transação em particular é submetida ou
executada num determinado intervalo de tempo;
•
Os tempos necessários para as diferentes fases do processamento de consultas e
transações (para um dado conjunto de consultas e transações).
A sintonização de um banco de dados envolve tratar os seguintes tipos de problemas:
•
Como evitar excessivas disputas por bloqueios, para que não ocorra a concorrência
entre as transações;
29
•
Como diminuir a sobrecarga dos registros de logs e o armazenamento
desnecessário de dados;
•
Como realizar a otimização do tamanho do buffer e o escalonamento de processos;
•
De que maneira alocar recursos, como discos, RAM e também processos para que
haja uma utilização mais eficiente;
Os DBAs passam por treinamentos para tratar de problemas de sintonização em
SGBDs específicos. Alguns problemas podem ser resolvidos através de ajustes de
parâmetros físicos do SGBD, como alteração da configuração de dispositivos, de
parâmetros do sistema operacional e de outras atividades similares.
É preciso levar em consideração vários aspectos para que se consiga um
desempenho adequado de um banco de dados. Para isso é necessário tomar algumas
decisões durante o projeto.
De acordo com Carneiro (2009), uma das principais considerações a se levar em
conta na fase de projeto é quanto ao volume esperado de dados em cada relação do
sistema e quais consultas serão realizadas com mais freqüência. Porém, em alguns
sistemas percebe-se o real desempenho, somente após algum tempo de uso, e também
muitas vezes, as considerações feitas pelos projetistas podem estar equivocadas. Por isso
que se tornam necessários o monitoramento e a revisão do projeto físico de banco de
dados, para descobrir a existência de gargalos ou mesmo a disputa dos mesmos dados ou
dispositivos. Através desse monitoramento, algumas outras informações são obtidas, tais
como:
•
Estatísticas de armazenamento: dados a respeito da alocação de armazenamento
para espaço de tabelas, espaço de índices e portas de buffer.
•
Estatísticas de desempenho de I/O: atividade total de leitura/escrita (paginação) do
disco.
•
Estatísticas de processamento de consultas: Quantidade de tempo utilizado para
execução de cada consulta e também do tempo de otimização das mesmas.
•
Estatísticas relacionadas a bloqueios/registros de log: taxas de definição de
diferentes bloqueios, de desempenho de transações e registros de log de atividades.
Apesar das estatísticas acima referirem-se a transações, controle de concorrência e
recuperação de dados, o tuning de banco de dados trata diretamente de problemas
relacionados a excessivas disputas, que podem ser amenizados por meio de bloqueios,
aumentando a concorrência entre as transações, minimizando a sobrecarga de registros,
30
logs e o armazenamento desnecessário dos dados. Também é de extrema importância que
seja feita a otimização do tamanho do buffer e o escalonamento de processos, bem como,
alocar recursos de memória, discos e processos para uma utilização mais eficiente.
5.1 Sintonização do projeto de banco de dados
De acordo com Elmasri e Navathe, “Se um dado projeto físico de banco de dados não
atinge os objetivos esperados, podemos voltar ao projeto lógico do banco de dados, fazer
ajustes no esquema lógico e remapeá-lo num novo conjunto de tabelas e índices físicos”.
(2005, p. 390).
Todo projeto de banco de dados deve ser direcionado por requisitos de
processamento e requisitos de dados, nos quais o primeiro altera-se dinamicamente, sendo
necessário o projeto responder por meio de alterações no esquema conceitual, refletindo
tais mudanças no esquema lógico e físico do projeto. Elmasri e Navathe, citam algumas
dessas alterações, (2005, p.390, 391):
•
Tabelas existentes podem ser desnormalizadas, porque certos atributos de duas ou
mais são freqüentemente necessários em conjunto;
•
Pode haver outras escolhas alternativas no projeto, para um dado conjunto de
tabelas;
•
Uma relação da forma R(K, A, B, C, D, ...), onde K é um conjunto de atributos-chave
(que está na FNBC), pode ser armazenada em múltiplas tabelas que também estão
na FNBC, replicando-se a chave K em cada tabela, como exemplo, R1 (K, A, B),
R2(K, C, D) e R3(K, ...). Dá-se o nome de partição vertical;
•
Atributo(s) de uma tabela pode(m) ser repetido(s) em outra mesmo que isso crie
redundância e uma anomalia potencial;
•
Da mesma forma que a partição vertical divide uma tabela verticalmente em
múltiplas tabelas, a partição horizontal toma fatias horizontais de uma tabela e as
armazena como tabelas distintas. Por exemplo, os dados de vendas de produtos
podem ser separados em dez tabelas baseadas em dez linhas de produtos. Cada
31
tabela possui o mesmo conjunto de colunas (atributos), porém, contém um conjunto
distinto de tabelas.
5.1.2 Sintonização de consultas
Há principalmente duas indicações pela qual a sintonização da consulta pode ser
indicada, segundo Elmasri e Navathe (2005, p. 391):
1.
Quando existem muitos acessos a disco resultantes de uma consulta;
2.
Um plano de consulta mostra que os índices relevantes não estão sendo
utilizados;
Situações típicas que indicam a necessidade de sintonização de consultas:
•
Muitos otimizadores de consulta não utilizam índices na presença de expressões
aritméticas, de comparações numéricas de atributos de diferentes tamanhos e níveis
de precisão, comparações com NULL e comparações com substrings;
•
Freqüentemente os índices não são utilizados em consultas aninhadas usando IN;
•
Algumas cláusulas DISTINCT podem ser redundantes e podem ser evitadas sem a
modificação do resultado, pois ele causa uma operação de ordenação e deve ser
evitado sempre que possível.
•
O uso desnecessário de tabelas de resultado temporário pode ser evitado por meio
da aglutinação de múltiplas consultas em uma única consulta, a menos que a relação
temporária seja necessária para algum processamento intermediário. Em algumas
situações que envolvem o uso de consultas correlacionadas, os temporários são
úteis;
•
Se for possível utilizar várias opções de condições de junção, a melhor opção é a
escolha que use um índice clustered, e evite as que contenham comparações de
cadeias de caracteres;
•
Uma particularidade dos otimizadores de consulta é que a ordem das tabelas na
cláusula FROM pode afetar o processamento de junções. Às vezes, é necessário
32
alterar a ordem de forma que a menor das relações seja varrida e a maior relação
usada como um índice adequado;
5.2 Possíveis causas para o baixo desempenho
A causa do baixo desempenho pode estar relacionada ao hardware, que inclui a rede
disponível, processador, memória RAM, entre outros, ou também nos softwares. Esses
problemas geram gargalos que interferem no bom desempenho do banco de dados.
Quando se trata de banco de dados relacional as causas de baixo desempenho
também podem estar relacionadas a(o):
a) Sistema operacional (SO), por razões de má parametrização;
b) SGBD relacional, relacionada às inadequadas configurações nas áreas de buffers,
organização do logging, alocação de arquivos, entre outros;
c) Rede, devido a impactos no tráfego em razão de processamento de dados
efetuados no servidor ou na rede;
d) Modelo físico de dados, por razão de inadequação na definição da estrutura das
tabelas e índices;
e) Aplicação, com relação a problemas na estrutura lógica efetuada pelo
programador, o que compreende a linguagem hospedeira e os comandos em SQL
SERVER.
Entretanto, segundo Picini e Schimiguel, os problemas estão relacionados pela
seguinte proporção:
•
60% correspondem ao mau uso de expressões SQL;
•
20% estão relacionados à má modelagem do BD;
•
10% referem-se à má configuração do SGDB;
•
10% referem-se à má configuração do SO;
Além disso, é importante citar que o conhecimento sobre a aplicação influencia
bastante, pois a baixa performance pode não estar ligada diretamente ao banco. Outro fator
importante é que as alterações devem ser realizadas aos poucos, divididas e analisadas
verificando os resultados um a um, pois se vários procedimentos forem modificados ao
mesmo tempo, corre-se o risco de não perceber algum erro e não conseguir repará-lo com
facilidade.
33
De acordo com Mullins (2005), “Quase 80% dos problemas de performance em banco
de dados são causados por códigos SQL mal elaborados”. Reduzir o tempo dos SQL e o
custo é importantíssimo para que uma grande parte dos problemas seja reduzida.
5.3 Aumentando a performance da aplicação através da otimização
do SQL SERVER
De acordo com Couto (2006), existem algumas observações a serem feitas para
aumentar a performance do banco de dados, como:
•
Definir corretamente o buffer do banco de dados (shared_pool, buffer chache, log
buffer, etc.), colocando os objetos grandes e muito acessados em memória para
prevenir freqüentes reloads;
•
É necessário que os arquivos de banco de dados estejam com o tamanho correto e
um local que prove um mínimo de I/O;
•
Observar os eventos que acontecem no banco relativo à locks, latches e wait e se
possível eliminá-los.
•
Monitorar e definir os parâmetros de CPU, I/O e memória de forma a melhorar o
desempenho do banco;
Como já explicado anteriormente, a otimização consiste em mostrar ao usuário a
informação com tempo e custo menores, através do caminho mais eficiente.
Couto (2006), ainda explica em seu artigo que a metodologia de tuning de SQL
envolve identificar as queries que consomem mais recursos para então otimizá-las.
Geralmente, um número pequeno de queries é responsável pela maior parte das atividades
que ocorrem no banco de dados. É essencial que se tente entender por completo a
aplicação, focando a atenção nos SQL ou tabelas onde os benefícios do tuning excederão
os custos. Devem-se observar alguns passos:
•
É preciso ter certeza de que o código esteja correto antes de otimizá-lo;
•
Garantir a escrita igual dos comandos para facilitar a reutilização;
•
Trazer apenas as informações necessárias do banco de dados;
34
•
Sempre manter atualizado as estatísticas das tabelas;
•
Identificar problemas potenciais antes de mandá-los para produção;
•
Otimizar primeiro os SQL mais críticos, não perdendo tempo otimizando códigos que
raramente são utilizados;
•
Utilizar índices, porém não criá-los em demasia. Alguns índices podem trazer um
resultado com efeito adverso no desempenho. O critério básico da escolha de
índices é a seletividade. Quando um banco de dados resolve uma consulta,
geralmente, ele precisa percorrer mais registros do que aqueles realmente
retomados pela consulta. Os registros percorridos que forem rejeitados representam
o trabalho perdido. Quanto menor for o trabalho perdido, mais perto estará da
performance ótima para resolver a consulta;
•
Construir índices a partir das restrições dos SELECTs (cláusula WHERE); As
comparações usando “<>”, “NOT”, “NULL”, “LIKE” podem invalidar o índice;
•
Evitar full table scans se o resultado pode ser recuperado via índice, a menos que a
tabela seja pequena e o custo diminua. Quando a tabela é pequena, o trabalho
envolvido em acessar o índice, pegar o endereço e acessar a tabela é maior que o
esforço de ler a tabela inteira;
•
Queries muito grandes devem ser divididas em queries menores. Lógicas complexas
de negócio no SQL devem ser evitadas;
•
Evitar usar os comandos que produzem sort como: GROUP BY, ORDER BY,
DISTINCT, etc. No sort, o banco recupera todas as informações necessárias
primeiramente, para após realizar a ordenação;
•
Os comandos “EXIST” e “NOT EXIST” geralmente possuem menor custo do que
comandos como “IN” e “NOT IN”.
•
A condição NOT deve ser transformada em uma expressão afirmativa;
•
Substituir por junções os blocos SELECT embutidos utilizando IN, =ALL, =ANY e
=SOME;
•
Se uma junção de igualdade for definida entre duas tabelas, o predicado de faixa
(condição de seleção) para o atributo de junção definido em uma tabela pode ser
repetido para a outra tabela;
35
6.
ÍNDICES NO SQL SERVER
Um índice torna rápida a recuperação de linhas de uma tabela, pois contém chaves de
uma ou mais colunas da tabela que são criadas e armazenadas em uma estrutura de
árvore. Desta maneira o SQL SERVER faz a associação dos valores de chave com as
linhas de pesquisa. Os índices podem ser:
Clustered: Através dos valores de chave é que esse tipo de índice classifica e
armazena suas linhas de dados. Por existir apenas um índice desse tipo em uma tabela, a
classificação das linhas de dados é feita em ordem única.
Quando a tabela não possui um índice clusterizado, seus dados ficam armazenados
numa estrutura denominada heap. Denomina-se heap porque os dados não têm uma ordem
lógica e são gravados nas páginas que tem espaço disponível. As páginas de dados não
são ligadas a uma lista vinculada. O espaço alocado para o heap é gerenciado pela coluna
de páginas Index Allocation Map (IAM). A movimentação pelo heap é feita pelo SQL
SERVER através das páginas IAM. Não existe vínculo entre as páginas de dados e as
linhas dentro delas.
Não Custerizado: Nesse tipo de índice a estrutura é diferente das linhas de dados,
pois possui um ponteiro que armazena o valor de chave do índice. O ponteiro de uma linha
de índice é denominado localizador de linhas.
Os dois tipos de índices podem ser exclusivos, garantindo que duas linhas não tenham
o mesmo valor que a chave do referido índice.
No momento da criação de uma tabela, quando se define restrições de Primary Key e
Unique os índices são automaticamente criados na coluna.
6.1 Estruturas de índices clusterizados
No SQL SERVER, os índices são organizados como árvores B. Pelo fato de ser
balanceada, a árvore B localiza qualquer registro, propiciando o rápido acesso aos dados
através da pesquisa de um valor-chave do índice.
36
Cada página em uma árvore B de índice é chamada de nó do índice. Os nós inferiores
são conhecidos por folha, os superiores por raiz e qualquer um que esteja entre os dois são
conhecidos como níveis intermediários. Os nós folha possuem as páginas de dados da
tabela subjacente. Já os nós raiz e intermediário, possuem páginas de índices com linhas de
índice.
Cada índice clusterizado, tem um particionamento único. Caso algum índice possua
particionamentos múltiplos, cada um terá uma estrutura de árvore B com os dados
específicos dele. Para cada particionamento usado pelo índice, os índices clusterizados tem
uma linha em sys.partions com índex_id = 1.
Os tipos de dados é que definem a estrutura de alocação para armazenar e gerenciar
o índice. Cada índice possui no mínimo uma unidade de alocação IN_ROW_DATA (linhas
de dados ou índices que contenham todos os dados, exceto dados de LOB), LOB_DATA
(dados
de
objeto
grande
armazenados
em
um
ou
mais
tipos
de
dados)
e
ROW_OVERFLOW_DATA (excesso do tamanho de linha).
O SQL SERVER possui métodos específicos para localizar a linha correspondente a
uma chave de índice clusterizado.
Figura 6.1 - Árvore B para um índice clusterizado.
Fonte: http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=1184
37
6.1.2 Estruturas de índices não clusterizados
Os índices não clusterizados possuem a mesma estrutura de árvore B que os índices
clusterizados, com algumas diferenças importantes:
•
Não existe uma ordem na classificação e no armazenamento das linhas de dados;
•
A camada de folha de um índice possui páginas de índice, diferente do índice
clusterizado que possui página de dados;
Cada linha desse índice possui o valor de chave e um ponteiro que aponta para a linha
de dados no índice clusterizado ou no heap.
É chamado de RID, o ponteiro que é criado através de um identificador do número de
página e o número da linha do arquivo.
Figura 6.2 - Árvore B para um índice não clusterizado.
Fonte: http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=1184
38
6.1.3 De que maneira o Otimizador sabe quando utilizar os
índices?
Visando sempre o melhor desempenho no momento de realizar operações, os índices
são grandes aliados em muitas instruções como SELECT, UPDATE, DELETE ou MERGE.
Um exemplo é quando uma consulta é realizada, o otimizador lê as linhas da tabela, estuda
as possibilidades de recuperação de dados e escolhe qual é o método mais eficaz, filtrando
assim as que atendem a pesquisa solicitada. Porém, todo esse trabalho do otimizador gera
várias operações de I/O e muitos recursos são exigidos.
Quando o otimizador não encontra um índice disponível, ele realiza a verificação de
tabela para que assim possa criar e projetar índices que serão apropriados. Essa é outra
importante função do Otimizador de consulta.
No SQL SERVER existe uma ferramenta que auxilia na análise e seleção de índices
mais apropriados que é chamada de “Orientador de otimização do mecanismo de banco de
dados”.
Geralmente os índices contêm poucas colunas por linha e ficam classificadas em
ordem, tornando assim, bem mais rápida a busca do que se fosse feita na tabela. Quando a
pesquisa é feita através do índice, o otimizador busca as colunas de chave e encontra o
local pelo qual estão armazenadas as linhas para aquela consulta específica.
6.2 Páginas e extends
Um arquivo de dados (.mdf ou .ndf) no SQL SERVER é armazenado em páginas
contíguas, que possuem o tamanho de 8 Kilobytes (KB). A leitura ou a gravação são feitas
em páginas de dados inteiras. A quantidade de páginas por megabytes (MB) é de 128,
sendo que a página inicia-se com um cabeçalho de 96 bytes, onde ficam armazenadas as
informações de sistema, como número, tipo, quantidade de espaço livre e o ID de alocação
do objeto da página. Em seguida, iniciam-se as linhas de dados.
39
O máximo de dados que uma linha suporta é 8.060 bytes (8KB), não incluindo os
dados armazenados em tabelas que possuem colunas varchar, nvarchar, varbinary ou
SQL_variant. Caso ocorra excesso de dados, o SQL SERVER move uma ou mais colunas
de comprimento variável para páginas na unidade chamada de ROW_OVERFLOW_DATA.
Se houver diminuição do tamanho da linha, através de uma operação subseqüente, o SQL
SERVER transportará novamente a coluna para a página de dados original.
Já as extensões, são um conjunto de oito páginas contíguas ou 64 KB e tem como
função o gerenciamento eficaz das mesmas. Sendo assim, o SQL SERVER têm 16
extensões por MB. O SQL SERVER possui dois tipos de extensões:
•
Uniformes: Possui um objeto proprietário;
•
Mistas: Podem ser compartilhadas por até oito objetos, podendo cada página
pertencer a um objeto diferente;
Geralmente, quando a tabela ou índice é novo, utiliza-se a alocação de páginas de
extensões mistas. Porém quando há um crescimento, passa-se a utilizar a alocação por
extensões uniformes.
Figura 6.3 - Árvore B padrão para um índice do SQL SERVER.
Fonte: http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=1184
6.2.1 Unidade de alocação IN_ROW_DATA
É composta por coleções de páginas de dados que são baseados em ponteiros de
página na exibição de sistema. Cada partição de tabela, índice e exibição indexada é
identificada por um ID de contêiner (container_ID).
40
6.2.2 Unidade de alocação ROW_OVERFLOW_DATA
Existe uma unidade de alocação ROW_OVERFLOW_DATA para toda partição usada
por uma tabela, índice ou exibição indexada. Possui zero página até que uma linha de
dados exceda o limite. Caso isso aconteça, o SQL SERVER move uma coluna com a
largura maior daquela linha para uma página na unidade de alocação.
6.2.3 Unidade de alocação LOB_DATA
Gerencia o armazenamento de diferentes tipos de dados, tais como text, ntext, image,
xml, varchar(max), nvarchar(max), varbinary(max) e tipos de dados Common Language
Runtime (CLR) definidos pelo usuário.
6.3 Sintonização de índices
De acordo com Pilecki, “O índice é, em essência, uma cópia menor da tabela,
contendo um subconjunto de colunas da tabela. Apenas as colunas necessárias para
responder as consultas são incluídas no índice”.
Utiliza-se a criação de índices abrangentes para ajustes nas consultas executadas
com maior freqüência. É essencial em casos em que a tabela possui várias colunas, porém
apenas algumas delas são freqüentemente referenciadas por consultas. Dessa maneira,
criando um ou mais índices abrangentes, é possível melhorar muito o desempenho das
consultas afetadas, pois elas estarão acessando um volume de dados bem menor e, assim,
incorrendo em menor I/O. Todavia, há um custo oculto de manutenção de índices adicionais
durante as operações de modificação de dados (INSERT, UPDATE e DELETE).
Às vezes torna-se necessária uma revisão para a escolha inicial de índices, pelas
seguintes razões, segundo Elmasri e Navathe, (2005, p.389, 390):
•
Devido à ausência de um índice, certas consultas podem demorar demais para
serem executadas;
41
•
Alguns índices podem não ser utilizados;
•
Certos índices podem estar causando sobrecarga excessiva, porque são baseados
em um atributo que sofre freqüentes alterações;
A maioria dos SGBDs possui um comando ou um meio de rastreamento (trace facility)
que pode ser usado para solicitar ao sistema quais operações foram realizadas e em que
ordem e quais estruturas de acesso secundário foram utilizadas, pois assim, através dessas
análises de planos de execução, é possível diagnosticar as causas dos problemas citados
acima.
Segundo Elmasri e Navathe, “O objetivo da sintonização é avaliar dinamicamente os
requisitos, os quais às vezes variam sazonalmente ou durante diferentes períodos do mês
ou da semana e reorganizar os índices para proporcionar melhor desempenho geral”. (2005,
p. 390).
42
7.
O PLANO DE EXECUÇÃO NO SQL SERVER
É através dos dados armazenados nas estatísticas das tabelas, referentes aos
registros das tabelas, que o SQL SERVER decide qual será o melhor plano de execução a
escolher. Desta maneira, é de suma importância manter as estatísticas sempre atualizadas,
pois do contrário, o otimizador não terá informações necessárias para aperfeiçoar
determinada consulta, gerando assim, um plano de execução com estimativas erradas.
Quando uma solicitação é feita e enviada ao servidor, a mesma é guiada por um plano de
execução, que se bem executado, trará o mais eficiente caminho da solicitação. O plano de
execução também auxilia na identificação qual parte do código SQL que está causando o
problema.
O plano de execução é composto por operadores que na maioria das vezes são
aplicados em certa ordem. É através do plano de execução, que se determina a ordem e
acesso das tabelas que estão envolvidas na query, quais índices que serão utilizados e
métodos para aplicá-los.
7.1 O otimizador de consulta
O otimizador do SQL gera diversos planos, mas escolhe o que apresenta melhor
performance, ou seja, o que apresenta o menor tempo para responder a consulta. Ele é
quem decide como os dados serão acessados, por meio de índices, os tipos de JOINs a
utilizar. É através de cálculos de custo, como processamento de CPU e operações de I/O,
gerados pelo plano de execução que determinará qual será o caminho mais rápido de
execução. É importante ressaltar que o custo estimado é apenas uma estimativa.
Em casos, onde é realizada uma consulta simples, o otimizador não perde tempo
tentando calcular o plano ideal, ele simplesmente aplica um plano trivial único a estes tipos
de procedimentos. Porém, se a consulta não é trivial, o otimizador realiza um custo base de
cálculo para selecionar um plano, baseado em estatísticas que são mantidas pelo SQL
SERVER. Porém, nem todas as possibilidades são avaliadas, pois o custo é muito alto e
desta forma compromete-se o ganho do desempenho. O plano de execução é determinado
através de testes com diferentes associações, reorganizando a ordem de junções, tentando
43
diferentes índices e assim sucessivamente até chegar ao que ele pensa ser o plano mais
rápido.
7.2 Plano de execução estimado e plano de execução real
Existem dois tipos de planos de execução. O primeiro, conhecido como plano de
execução estimado é o que representa a saída do otimizador. Os operadores, ou etapas,
são representativos dos otimizadores de vista do plano. O próximo, mais conhecido como
plano de execução real representa a saída da execução da consulta atual, o qual mostra o
que realmente aconteceu quando a consulta foi executada.
Geralmente, não existe diferença entre os dois planos, todavia algumas circunstâncias
causam diferenças, como:
•
Estatísticas desatualizadas, que ocorrem ao longo do tempo, quando dados são
adicionados e excluídos, fazem com que ocorram diferenças entre elas e os dados
reais;
•
Em alguns casos, como os que utilizam tabela temporária, uma vez que a consulta
não tenha sido executado, a tabela temporária também não existirá e desta maneira
o plano de estimativa não irá funcionar;
•
Em casos de requisições de consultas paralelas, quando o plano encontra
paralelismo, no qual dois planos de execução são criados.
7.2.1 Formato dos planos
O SQL SERVER oferece apenas um tipo de plano de execução, sendo três diferentes
formatos:
• Planos gráficos (Graphical plans);
• Planos de texto (Text plans);
• Planos XML (XML plans);
44
Planos gráficos: Oferecem uma maneira rápida e fácil de leitura, porém os dados
nesse tipo de plano ficam mascarados. Tanto o plano atual, como o estimado podem ser
vistos da mesma maneira.
Planos de Texto: Considerado um pouco mais difícil de ler, contudo, a informação é
encontrada imediatamente. Existem três formatos:
•
SHOWPLAN_ALL: conjunto completo de dados, que mostra o plano de execução
estimado para o plano de consulta.
•
SHOWPLAN_TEXT: Mostra apenas o plano de execução estimado. Fornece um
conjunto muito limitado de dados, que são usados com ferramentas como osql.exe.
•
STATISTICS_PROFILE: é praticamente similar ao SHOWPLAN_ALL, com exceção
que representa os dados para o plano de execução real.
Planos XML: Esses planos apresentam o mais completo conjunto de dados
disponíveis num plano, com a estrutura no formato de XML. Existem duas formas:
•
SHOWPLAN_XML: É utilizado pelo plano de estimativa, pois é gerado pelo
otimizador antes da execução.
•
STATISTICS_XML: Utilizado pelo plano de execução real.
A seguir, exemplos de Planos de Texto (TEXT plans) e Planos XML (XML plans):
45
Figura 7.1 – Exemplo de um plano de texto estimado usando os comandos SET
SHOWPLAN_ALL ON e SET SHOWPLAN_ALL OFF.
Figura 7.2 – Exemplo de um plano de texto estimado usando os comandos
SHOWPLAN_TEXT ON e SHOWPLAN_TEXT OFF.
46
Figura 7.3 – Exemplo de um plano de texto real usando os comandos SET
STATISTICS_PROFILE ON e SET STATISTICS_PROFILE OFF.
Figura 7.4 – Exemplo de um plano XML estimado usando os comandos SET
SHOWPLAN_XML e SET ON e SHOWPLAN_XML OFF.
47
Clicando no link gerado, o SQL direcionará para outra janela, na qual abrirá o plano de
execução no formato XML, conforme demonstra a figura abaixo:
Figura 7.5 – Exemplo de um plano de execução em XML.
Através da exibição desses planos é claramente possível observar que o
SHOWPLAN_ALL é mais completo, pois exibe maiores informações de maneira imediata.
7.2.2 Interpretando planos de execução gráficos
Um plano de execução deve ser lido da direita para a esquerda e de cima para baixo.
Na figura abaixo, observa-se apenas que houve uma varredura de tabelas (table scan), no
qual se produziu um conjunto de resultados, representados através do comando SELECT. A
quantidade de dados que são passados na consulta, é o fator que representa a espessura
da seta, pois quanto mais grossa a linha, maior será a quantidade de dados. É possível
saber o número de linhas representado, passando o ponteiro do mouse sobre as flechas,
confirmando assim se o número apresentado está correto. Na figura 7.6 é possível
visualizar:
48
Figura 7.6 – Exemplo de um plano de execução gráfico.
Abaixo de cada ícone exibi-se um número com uma porcentagem, que representa o
custo relativo à consulta para esse operador. Esse custo que é retornado pelo otimizador, é
o custo do tempo de execução para aquela determinada operação. No caso da consulta do
exemplo acima, o custo maior refere-se à operação “table scan”, que ocorre quando o
mecanismo de armazenamento é obrigado a ler linha por linha, retornando todas as
informações, pois nenhuma outra cláusula foi especificada, como a cláusula WHERE.
Entretanto, é importante ressaltar que como as porcentagens referem-se a razões e não
números reais, então mesmo um operador que tenha 0 % terá um pequeno custo associado.
Acima dos ícones é possível visualizar o custo de 100% que representa grande parte
da seqüência de consulta. Desta maneira, como cada consulta pode ter várias etapas, e
cada uma dessas etapas tem um custo em relação à consulta, é possível executar também
diversas consultas dentro de um lote e obter planos de execução para eles.
Passando o ponteiro do mouse sobre o ícone SELECT, observa-se os dados que são
apresentados na figura 7.7:
49
Figura 7.7 – Dados resultantes do ícone SELECT no plano de execução gráfico
•
Cached plan size ou tamanho do plano em cachê: Quantidade de memória em
cachê, que a consulta terá, demonstrado através do plano de execução. Através
desse número, é possível diagnosticar problemas de desempenho, selecionando os
planos que estão ocupando mais memória;
•
Degree of parallelism ou grau de paralelismo: Quantidade de planos de execução
gerados;
•
Estimated operator cost ou custo estimado do Operador: Custo estimado referente
ao operador, neste caso “SELECT”;
•
Estimated subtree cost ou custo estimado da Subárvore: Custo do otimizador
acumulado atribuído a esta etapa e todas as etapas anteriores. É importante
ressaltar novamente, que o plano de execução deve ser lido da direita para a
esquerda e de cima para baixo. Apesar de esse número ser insignificante no mundo
real, é uma avaliação matemática utilizado pelo otimizador.
•
Estimated numbers of rows ou número estimado de linhas: Estimativa referente ao
número de linhas da consulta.
Da mesma maneira, observam-se na figura 7.8, os dados demonstrados no ícone
Table Scan.
50
Figura 7.8 – Dados resultantes do ícone table scan.
Cada um dos diferentes operadores mostrados na figura acima terá um conjunto
distinto de dados.
Os operadores lógicos compõem o resultado dos cálculos de otimização que são feitos
quando uma consulta é executada. Os operadores físicos representam o que de fato
ocorreu. Na maioria das vezes esses operadores sempre são parecidos.
Em seguida, é possível observar as estimativas dos custos de operações de I/O, CPU,
e subárvore. A subárvore representa uma simples seção da execução, sempre analisando
da direita para a esquerda e de cima pra baixo. Todas as estimativas baseadas em
estatísticas referem-se a colunas e índices disponíveis nas tabelas. Os custos das
operações de I/O e de CPU representam o custo atribuído pelo otimizador através de
cálculos. Esses números são úteis para determinar se a maior parte do custo é de I/O, ou se
é necessário colocar uma carga na CPU.
O Custo do Operador e da subárvore são
parecidos, desde que haja apenas um operador. Para árvores mais complexas, com mais
51
operadores, o custo é acumulado individualmente para cada operador e depois adicionado
no total.
Em seguida, novamente pode-se observar a estimativa do número de Linhas.
Outra importante análise de informação, que também auxilia na solução de problemas
de desempenho, é a variável “Ordered ou Ordenada” que exibe o valor em booleano. Em
uma instrução SELECT, podem ser necessários que os dados sejam colocados em uma
determinada ordem, classificados por um determinado valor ou conjunto de valores.
Finalmente, Node ID é o número ordinal, que significa simplesmente numerado em
ordem, do próprio nó, da esquerda para a direita.
7.2.3 Facilitando a captura do plano de execução usando SQL
SERVER Profiler
Uma ferramenta poderosa existente no SQL SERVER, é o SQL Profiler, que realiza a
captura de dados sobre eventos, tais como a execução de T-SQL ou então procedimentos
armazenados, que ocorrem dentro do SQL SERVER.
Essa ferramenta mostra como o SQL SERVER resolve consultas internas fornecendo
uma interface gráfica para a funcionalidade oferecida pelo Rastreamento SQL. Com o SQL
SERVER Profiler, é possível capturar atividades geradas por uma carga de trabalho em uma
instância do SQL SERVER. Através de modelos pré-definidos, os eventos que são
capturados e exibidos podem ser definidos, e assim podendo realizar a modificação de
modelos fornecidos pelo sistema para criar os seus próprios. A carga de trabalho, que
servirá para uma futura avaliação, também pode ser capturada em uma tabela ou um
arquivo. Rastreamentos podem ser iniciados a qualquer momento a partir do SQL SERVER
Management Studio, baseado em seu contexto de conexão. O comando Rastrear Consulta
no SQL SERVER Profiler, auxilia no rastreamento da execução de instruções em uma
determinada sessão do Editor de Consulta, usando o SPID da janela de consulta como um
filtro.
Os eventos Profiler podem ser rastreados manualmente, ou através de uma interface
gráfica ou vestígios podem ser definidos através da T-SQL (ou o GUI) e automatizado para
52
executar em certos momentos e em certos períodos. Tais vestígios podem ser visualizados
na tela ou enviados para um arquivo ou uma tabela em um banco de dados.
Figura 7.9 - Exemplo de funcionamento do SQL profiler.
7.2.4 Eventos do plano de execução
Diversos eventos, como os listados abaixo, geram o rastreamento do plano de
execução:
•
Showplan
Text:
Parecido
com
o
plano
de
estimativa
que
o
evento
SHOWPLAN_TEXT gera, esse evento dispara a cada execução de uma consulta.
•
Showplan Text (unencoded): A mesma definição do anterior, porém com a diferença
que os dados são trazidos em forma de string e não como binário.
•
Showplan All: Possui o mesmo tipo de plano de execução que os anteriores,
apresentando também as mesmas dificuldades.
•
Showplan All para compilação de consulta: Esse evento possui os mesmos dados
que o Showplan All event, mas apenas dispara quando ocorre a compilação da
consulta.
53
•
Showplan Statistics Profile: Esse evento refere-se ao plano de execução real e utiliza
o comando STATISTICS PROFILE.
•
Showplan XML: É disparado a cada execução de consulta e usado para gerar o
plano de execução estimado, através do comando SHOWPLAN_XML.
•
Showplan XML para compilação de consulta: Igual ao Showplan XML acima, porém
só dispara quando alguma consulta está sendo compilada.
•
Performance Statistics: É similar ao Showplan XML para compilação de um evento
da consulta, com exceção que este evento captura métricas de desempenho e
também o plano. Este evento capta apenas a saída XML para subclasses em
determinados eventos. Ele é disparado toda vez que um plano está em cachê, é
compilado, recompilado ou é removido do cachê.
•
Showplan XML Statistics Profile: Esse evento gera o plano atual para cada consulta
executada.
7.3
Um pouco mais sobre planos gráficos
No plano de execução gráfico, são exibidos quatro tipos de operadores:
•
Operadores lógicos e físicos: Representam a execução da consulta ou a linguagem
de manipulação de dados (DML). São conhecidos como ícones azuis.
•
Operadores de paralelismo físico: Representam operações de paralelismo e também
são ícones azuis. De certa maneira, são subconjuntos dos operadores lógicos e
físicos, porém são considerados a parte, pois indicam um nível totalmente diferente
de análise do plano de execução.
•
Cursor de Operações: Possui ícones amarelos e representam transações de cursor
SQL.
•
Elementos de Linguagem: São representados por ícones verdes e representam
transações SQL de elementos de linguagem, como atribuição, declaração, If,
SELECT, While dentre outras.
54
Alguns operadores, como os de ordenação (sort), hash, match e junção de join exigem
uma quantidade variável de memória para executar e por causa disso, consultas com esses
operadores podem ter que aguardar por memória disponível antes da execução, podendo
assim afetar o desempenho. A maioria dos operadores comporta-se de duas maneiras
distintas: bloqueio e sem bloqueio. Um operador de bloqueio precisa para produzir sua
saída, obter todos os dados. Esse tipo de operador pode contribuir significativamente para
problemas de concorrência, prejudicando assim o desempenho. Já o operador sem bloqueio
recebe a entrada e ao mesmo tempo cria a saída.
Segue abaixo exemplos de simples consultas em Tabelas da Base de dados do
Adventure Works, no qual é possível observar alguns operadores que aparecem com mais
freqüência nos planos de execução:
Figura 7.10 – Operador Clustered index scan.
Os índices no SQL SERVER são armazenados em uma estrutura de árvore-B (uma
série de nós que aponta para um dos pais). Um índice clustered armazena não apenas a
estrutura essencial que é um índice regular, mas também armazena e classifica os dados,
sendo que existe apenas um índice clustered por tabela. Um clustered index scan possui
praticamente o mesmo conceito de um uma table scan. O índice percorre linha por linha
para identificar dados necessários para a consulta.
Às vezes, quando ocorre um index scan, é preciso saber se o plano de execução está
retornando mais linhas do que realmente é necessário. Desta maneira, há necessidade de
um fino ajuste na consulta utilizando a cláusula WHERE, para que assim o plano retorne
apenas as linhas que realmente são necessárias, pois caso contrário, ocorrerá o desperdício
de recursos do SQL SERVER, prejudicando o desempenho geral.
55
Figura 7.11 – Exemplo de consulta que retorna um clustered index scan
Figura 7.12 – Operador clustered index seek
Índices seek são totalmente diferentes dos índices scan, que percorrem linha a linha
para encontrar os dados que a consulta solicita. Um índice seek, clustered ou não, ocorre
quando o otimizador é capaz de localizar um índice que pode ser usado para recuperar os
dados feitos na solicitação da consulta. Sendo assim, o mecanismo de armazenamento
recebe a ordem para procurar os valores com base nas chaves do índice determinado. É
possível verificar nesse exemplo do índice seek, que a propriedade ORDERED agora é
verdadeira, indicando que os dados foram ordenados pelo otimizador.
56
Figura 7.13 – Exemplo de consulta que retorna um clustered index seek
Figura 7.14 – Operador nonclustered index seek
Como nos índices clustered, um índice nonclustered utiliza um índice para realizar a
busca de linhas a serem devolvidas. Esse tipo de índice acontece quando todos os dados se
encontram nele.
57
Figura 7.15 – Exemplo de consulta que retorna um nonclustered index seek
Figura 7.16 – Operador key lookup
58
O operador key lookup pode ser observado na figura abaixo:
Figura 7.17 – Exemplo de consulta que retorna um operador key lookup.
Conforme se observa esse plano envolve mais que uma única operação. Como dito
anteriormente, o plano deve ser lido da direita para a esquerda e de cima para baixo. A
primeira operação é relacionada a um índice seek, que não é um índice non-unique, nonclustered e non-covering. Um índice non-covering é um índice que não retorna todos os
dados necessários para uma consulta, pois não contém todas as colunas. Sendo assim, ele
força o otimizador a ler o índice cluster também, para que assim possa reunir todos os
dados solicitados e devolver a consulta.
59
Figura 7.18 – Dados resultantes do operador nonclustered index seek.
Nessa figura é possível observar as descrições de saída do índice seek como as
colunas como EmailAddress e ContactId.
60
Figura 7.19 – Dados resultantes do operador key lookup.
Observa-se na figura acima, que os valores-chave são utilizados na key lookup na
PK_Contact_ContactID índice clustered para encontrar as linhas correspondentes com a
lista de colunas de saída LastName e Phone.
A Key Lookup ou Bookmark Lookup como era chamado no SQL SERVER 2000 é visto
em tabelas com índices clustered. Esse operador demonstra que o otimizador não consegue
recuperar as linhas com uma única operação e por isso necessita de uma clustered Key (ou
linha ID) para que assim retorne as linhas correspondentes usando um índice clustered (ou
da própria tabela). O operador Key Lookup é quando temos uma tabela com um índice
clustered, e o índice non clustered busca a chave da pesquisa no outro índice.
A clustered Key indica que o desempenho da consulta pode beneficiar-se da presença
de um índice covering ou índices inclusos. A Key Lookup é sempre acompanhada da
operação de junção Nested Loop que combina os resultados das duas operações.
Figura 7.20 – Operador nested loops
61
A Nested Loop join é uma operação padrão de associação, e não indica por si só
problema de desempenho. Para que esse tipo de operação seja requisitado é preciso
combinar as linhas do Index Seek e Key Lookup. Caso um índice de cobertura esteja
disponível, a Key lookup não será necessária e o operador Nested Loops não aparecerá no
plano de execução gráfico.
Figura 7.21 – Operador sort
Quando outras cláusulas básicas são adicionadas a consulta, diferentes operadores
podem surgir. O operador Sort é muito simples. Geralmente usado para indicar quando o
otimizador de consulta classifica os dados dentro do plano de execução. Se uma cláusula
ORDER BY não especificar a ordem, a ordem padrão é ascendente.
Se esse operador não for realmente necessário, sugere-se que ele seja retirado, para
que assim diminua a sobrecarga.
Figura 7.22 – Operador table scan
Esse operador é bastante auto-explicativo. É possível verificar através de uma
varredura da tabela, as linhas que foram devolvidas, linha a linha.
62
Figura 7.23 – Exemplo de consulta que retorna um table scan.
A table scan pode ocorrer por diversos motivos, porém geralmente é porque não
existem índices úteis na tabela, sendo assim necessário o otimizador de consulta pesquisar
todas as linhas em ordem para identificar as linhas que devem ser retornadas.
Outro motivo comum pelo qual ocorre uma table scan é quando todas as linhas de
uma tabela são retornadas. Quando a maioria das linhas trazidas pelo otimizador retorna
cada uma um índice.
Em algumas vezes, na maioria em tabelas com poucos registros, o otimizador de
consulta determina que seja mais rápido realizar a varredura de cada linha do que utilizar
um índice para retornar as linhas.
Em casos onde a pesquisa é realizada em tabelas grandes e muitas linhas são
devolvidas, sendo necessário analisar e reescrever a consulta para que a mesma retorne
um número menor de linhas ou então adicionar um índice que seja apropriado para acelerar
o desempenho.
63
Figura 7.24 – Operador RID lookup
No exemplo da consulta abaixo é possível verificar a combinação entre o Index Seek e
a RID Lookup.
Figura 7.25 – Exemplo de consulta que retorna um operador RID lookup.
No resultado dessa consulta, o otimizador de consulta primeiramente executa um
Index Seek na chave primária. Enquanto o índice é útil na identificação de linhas que são
encontradas com a cláusula WHERE, todas as colunas de dados necessários não estão
presentes no índice.
64
Operadores Merge Join e Hash Match
Figura 7.26 – Operador merge join
Figura 7.27 – Operador hash match
Na consulta abaixo é possível verificar os operadores acima:
Figura 7.28 – Exemplo de consulta que retorna os operadores merge join e hash
match
Merge Join: O otimizador de consulta também pode executar uma junção MERGE,
que correspondem a linhas de tabelas de entrada devidamente ordenadas explorando a sua
ordem de classificação.
65
Hash Match: Operações Hash são a segunda operação mais cara do plano de
execução. Hashing é uma técnica de programação onde os dados são convertidos em uma
forma simbólica que torna mais fácil e rápida a procura. Por outro lado, é uma estrutura de
dados que divide todos os elementos em categorias regularizadas, permitindo o acesso
rápido aos elementos. A junção Hash Match ocorre quando o SQL SERVER une duas
tabelas, juntando linhas da menor com a maior, verificando as linhas que precisam ser
unidas e inserindo-as em uma outra tabela hash. Portanto, se ambas as tabelas são muito
grandes, um junção Hash Match pode ser muito ineficiente em comparação com outros tipos
de associações.
66
8.
ESTUDO DE CASO
8.1 O SGBD
O SGBD escolhido para realização deste estudo foi o SQL SERVER 2008.
8.1.2 Infraestrutura
•
Hardware:
Um servidor com processador Intel Core 2 duo T6600 - 2.20 GHz;
4 GB de memória RAM;
•
Software:
Abaixo segue relacionado respectivamente, o sistema operacional e a versão
correspondente ao SGBD SQL SERVER utilizados durante os testes:
•
Windows 7 Home Basic;
•
SQL SERVER 2008 R2;
8.2 Aplicação da metodologia
Os testes foram realizados a partir de consultas que sofrem alterações de acordo com
a utilização de métodos de junção diferentes, utilização ou não de índices, chaves primárias
e chaves de junção.
67
O desempenho é avaliado através do estudo dos planos de execução gerados para
cada consulta.
8.2.1 Base de dados
Para realização deste estudo de caso foi utilizada a base de dados AdventureWorks,
base esta, própria da Microsoft, contendo o tamanho de 20.10 MB.
8.2.2 Implementação das consultas
As
consultas
foram
desenvolvidas
utilizando
tabelas
do
banco
de
dados
AdventureWorks, as quais já possuem índices criados. Contudo, para complementar a
demonstração desse estudo de caso, foi criada uma nova tabela, e também seus índices
clustered e non clustered. Nessa nova tabela foram inseridos 60.346 registros.
O objetivo desse estudo de caso é demonstrar, dentre as consultas realizadas quais
apresentam diferenças com relação ao desempenho.
8.3 Testes
8.3.1 Teste 1 (subconsultas aninhadas – comandos EXISTS e
INNER JOIN)
No exemplo abaixo, uma subconsulta aninhada é executada, usando a cláusula
WHERE com o comando EXISTS.
68
a) SELECT p.ProductID, p.Name, p.ListPrice
FROM Production.Product AS p
WHERE EXISTS (SELECT * FROM Sales.SalesOrderDetail AS sod
WHERE p.ProductID = sod.ProductID )
Resultados obtidos:
•
Linhas afetadas: 266;
•
Tempos de Execução do SQL SERVER: CPU = 46 ms; tempo decorrido = 148 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido = 0
ms.
•
TotalSubtreeCost: 0,384156
Plano de execução:
Figura 8.1 – Plano de execução gerado para o teste 1a
A consulta abaixo traz as mesmas informações que a anterior, porém ao invés de
utilizar o comando EXISTS, foi utilizado o comando INNER JOIN.
b) SELECT DISTINCT p.ProductID, p.Name, p.ListPrice
FROM Production.Product AS p
INNER JOIN Sales.SalesOrderDetail sod ON p.ProductID = sod.ProductID
69
Resultados obtidos:
•
Linhas afetadas: 266;
•
Tempos de Execução do SQL SERVER: CPU = 47 ms; tempo decorrido = 115 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido = 0
ms.
•
TotalSubtreeCost: 0,384156
Plano de execução:
Figura 8.2 – Plano de execução gerado para o teste 1b
Observa-se nos casos acima, que não houve diferença relevante entre as duas
consultas. Portanto, nesses casos os comandos EXISTS e INNER JOIN possuem a mesma
funcionalidade.
8.3.2 Teste 2 (Transformando expressões NOT em expressões
afirmativas)
a) SELECT Name,ProductSubcategoryID
FROM Production.Product
WHERE ProductSubcategoryID NOT IN ( SELECT ProductSubcategoryID FROM
Production.ProductSubcategory WHERE Name = 'Mountain Bikes' )
ORDER BY ProductSubcategoryID
70
Resultados Obtidos:
•
Linhas afetadas: 263;
•
Tempos de Execução do SQL SERVER: CPU = 0 ms; tempo decorrido = 0 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 7 ms; tempo decorrido = 7
s.
•
TotalSubtreeCost: 0,0927731
Plano de execução:
Figura 8.3 – Plano de execução gerado para o teste 2a
b) SELECT Name,ProductSubcategoryID
FROM Production.Product
WHERE ProductSubcategoryID IN ( SELECT ProductSubcategoryID FROM
Production.ProductSubcategory WHERE Name <> 'Mountain Bikes' )
ORDER BY ProductSubcategoryID
Resultados obtidos:
•
Linhas afetadas: 263;
•
Tempos de Execução do SQL SERVER: CPU = 0 ms; tempo decorrido = 0 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido =
11 ms.
•
TotalSubtreeCost: 0,0412433
71
Plano de execução:
Figura 8.4 – Plano de execução gerado para o teste 2b
Nos testes acima, foi possível constatar que no item a, o qual se utilizou o comando
NOT IN, gerou um plano de execução com um número maior de operadores com relação ao
item b, apesar de fazer uso de índices para realização da consulta. Devido a isso, a consulta
possui um desempenho menor com relação ao item b, que possui um número menor de
operadores, sendo assim utilizando menos recursos do SQL SERVER.
8.3.3 Teste 3 (Usando ou não índices)
Para realização deste teste, foi criado uma nova tabela na base de dados
AdventureWorks chamada de Curso.Pessoa. Abaixo seguem os passos:
Criação da tabela Curso.Pessoa. Por padrão a PRIMAY KEY é um índice cluster.
CREATE TABLE Curso.Pessoa
( Codigo BIGINT IDENTITY(1,1) NOT NULL PRIMARY KEY,
Nome CHAR(100) NOT NULL,
Idade TINYINT NULL
)
GO
72
Inserção de dados na tabela. O comando CROSS JOIN faz um produto cartesiano na
tabela.
INSERT INTO Curso.Pessoa (Nome, Idade)
SELECT F.Fname + ' ' + L.LName, 0
FROM curso.FirstName AS F
CROSS JOIN Curso.LastName AS L
A consulta abaixo mostra apenas o resultado para os 300 primeiros registros da
tabela.
SELECT TOP 300 * FROM Curso.Pessoa
GO
Essa consulta demonstra informações dos tipos de índices existentes na tabela. Nesse
momento, o resultado trará apenas um índice clustered, que por padrão do SQL SERVER é
criado no momento que se define a primary key.
SELECT * FROM sys.indexes
WHERE Object_ID = object_id('Curso.Pessoa')
Na execução da consulta abaixo, o comando SET STATISTICS IO ON, traz
informações refentes a quantidade de atividade em disco gerada pelas intruções. Porém,
analisando o plano de execução gerado, foi possível observar que o SQL utilizou o índice
clustered. O índice clustered foi utilizado, devido a cláusula WHERE, que especifica a
condição com o Codigo, que é a chave do índice clustered.
SET STATISTICS IO ON
SELECT p.Idade FROM Curso.Pessoa p
WHERE Codigo = 20000
73
Nessa consulta, observa-se que o SQL não utilizou o índice, fazendo apenas um index
scan, isto é, faz uma varredura em toda a tabela, pois a cláusula WHERE especifica como
parâmetro o atributo Nome, que não é uma chave para o índice clustered.
a) Clustered index scan
SELECTt * FROM Curso.Pessoa
WHERE Nome = 'Carolina Silva'
GO
O resultado obtido para essa consulta a) foi:
•
Linhas afetadas: 1;
•
Tempos de execução do SQL SERVER: CPU = 31 ms; tempo decorrido = 31 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido = 1
ms.
•
TotalSubtreeCost: 0,7267
Cria-se então um índice nonclustered contendo como chave o atributo Nome, com o
comando abaixo:
CREATE NONCLUSTERED INDEX idx_Nome
ON Curso.Pessoa (Nome)
GO
Em seguida, executa-se novamente a consulta abaixo para verificar o desempenho,
pois agora o SQL fará uso do índice nonclustered, porém como a busca requer todos os
dados da tabela, então o SQL fará uso dos dois tipos de índices disponíveis, pois o
nonclustered apenas, não possui todos os campos solicitados.
b) Nonclustered index seek + Clustered index
SELECT * FROM Curso.Pessoa
WHERE Nome = 'Carolina Silva'
GO
74
Abaixo os resultados obtidos:
•
Linhas afetadas: 1;
•
Tempos de execução do SQL SERVER: CPU = 0 ms; tempo decorrido = 2 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido = 0
ms.
•
TotalSubtreeCost: 0,0065704
É possível visualizar, comparando o resultado do campo TotalSubtreeCost sem o
índice e em seguida com o índice, que houve uma melhora grande no desempenho quando
o SQL usa o índice para buscar o resultado desejado.
No teste abaixo, observa-se que o SQL fez uso apenas do índice nonclustered, pois
na SELECT foi solicitado os campos Codigo e Nome, campos estes existentes no índice
nonclustered.
c) Nonclustered Index seek
SELECT Codigo, Nome
FROM Curso.Pessoa
WHERE Nome LIKE 'Luciano%'
Resultados Obtidos:
•
Linhas afetadas: 211;
•
Tempos de execução do SQL SERVER: CPU = 0 ms; tempo decorrido = 77 ms.
•
Tempo de análise e compilação do SQL SERVER: CPU = 0 ms; tempo decorrido = 0
ms.
•
TotalSubtreeCost: 0,0057454
75
9.
ANÁLISE DOS RESULTADOS
Diante dos testes realizados, foi possível notar casos onde o desempenho não fez
diferença, e também casos em que o desempenho teve uma melhora relevante. No Teste 1,
notou-se que operações com os comandos EXISTS e INNER JOIN produziram o mesmo
resultado final. Desta maneira, não existe diferença no custo total dessas operações,
podendo usar um ou outro que a perfomance será a mesma.
Entretanto, no Teste 2, comprovou-se que operações com expressões negativas como
o NOT IN, devem ser transformadas em expressões afirmativas, pois existe uma diferença
significativa no desempenho delas. Portanto, sempre que possível, antes de executar essas
operações, é válido transformá-las em expressões afirmativas, para que não ocorra
sobrecarga.
Tabela 9.1 – Resultados obtidos através dos Testes 1 e 2.
Tempo execução no
SQL (ms)
CPU Tempo decorrido
Teste 1a Expressão
EXISTS
Teste 1b Expressão
INNER JOIN
Teste 2a Expressão
NOT IN
Teste 2b Transforman
do a
expressão
NOT em
afirmativa
Tempo análise e
compilação (ms)
Tempo decorrido
CPU
TotalSubtreeCost
46
148
0
0
0,384156
47
115
0
0
0,384156
0
0
7
7
0,0927731
0
0
0
11
0,0412433
No Teste 3, que analisa o uso ou não de índices, demonstrado na tabela abaixo, foi
possível visualizar que quando o SQL faz o uso de índices, o desempenho torna-se melhor,
com um custo total menor. É importante também fazer uma análise das consultas que são
executadas com mais freqüência, para que desta maneira seja possível criar e projetar
76
índices apropriados, para que assim a performance seja a melhor possível através da
otimização. É importante ressaltar, que mesmo tendo índices disponíveis, às vezes o SQL
não os utiliza. Isso se deve porque o SQL deduz que é mais fácil realizar uma table scan,
devido ao fato da tabela ser pequena, tendo um custo menor do que ir até o índice, buscar a
chave e devolver a consulta através dele. Abaixo segue a tabela com o resultado do Teste
3:
Tabela 9.2 – Resultados obtidos através do Teste 3.
Tempo execução no
Tempo análise e
SQL (ms)
compilação (ms)
CPU Tempo decorrido CPU Tempo decorrido
Teste 3a Clustered
index scan
Teste 3b Nonclustered
index seek +
Clustered
index
Teste 3c Nonclustered
Index seek
TotalSubtreeCost
31
31
0
1
0,7267
0
2
0
0
0,0065704
0
77
0
0
0,0057454
77
10. CONSIDERAÇÕES FINAIS
É de grande importância que desde o projeto inicial (modelagem do banco de dados),
o processo de otimização e tuning de banco de dados seja algo que se tenha certos
cuidados, devendo sempre haver um acompanhamento constante na manutenção.
Diante disso, os ajustes no banco de dados devem ser feitos de maneira adequada,
para que se possam perceber quaisquer modificações, evitando-se assim que ocorram
conseqüências que possam prejudicar a integridade do banco de dados.
É importante lembrar, que os fatores ligados ao baixo desempenho são muitos,
podendo ser desde fatos relacionados ao hardware bem como aspectos da aplicação,
estrutura e até mesmo ao software (SGBD).
Sendo assim, o estudo de caso pode ajudar e comprovar que pequenos ajustes
acarretam em grandes saltos no desempenho, porém deve-se ter cautela de modo a não
prejudicar outros aspectos do SGBD, por exemplo, fazendo uso de índices em demasia.
Enfim, é de extrema importância que os desenvolvedores tenham conhecimento
específico na estruturação das consultas, pois é a partir delas que o plano de execução será
gerado pelo otimizador de consultas, e, uma consulta mal estruturada gera um plano de
execução deficiente, acarretando em baixo desempenho, sobrecarga e nas consultas,
causando e sobrecarga de recursos.
78
REFERÊNCIAS BIBLIOGRÁFICAS
AMORIM, Fabianno N. SQL – Query Optimizer – Updates e NonClustered Index.
Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!1625.entry?sa=3936
35256>. Acesso em: 19 ago. 2010.
_______. 10 pontos que devem ser observados quanto a performance de uma
consulta Parte 1. Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!490.entry>. Acesso
em: 19 ago. 2010.
_______. 10 pontos que devem ser observados quanto a performance de uma
consulta Parte 2. Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!491.entry>. Acesso
em: 19 ago. 2010.
_______. O que é melhor? Um Index Seek ou Clustered Index Scan?. Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!693.entry>. Acesso
em: 21 ago. 2010.
_______. Operador do Dia – Bookmark Lookup. Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!1160.entry>. Acesso
em: 21 ago. 2010.
_______. SQL – Query Optimizer – Updates e NonClustered Index. Disponível em:
<http://fabianosqlserver.spaces.live.com/blog/cns!52EFF7477E74CAA6!1625.entry>. Acesso
em: 26 ago. 2010.
CARNEIRO, Alessandro P.; MOREIRA, Julinao L.; FREITAS, Andre L.C. Tuning –
Técnicas de Otimização de Banco de Dados – Um Estudo Comparativo: Mysql e
Postgresql. Disponível em: <http://www.projetos.unijui.edu.br/erbd2009/arquivo/51990.pdf>.
Acesso em: 03 mar. 2010.
79
CINTRA, João Paulo S.; CAPELLO, Renato. Otimização de Consultas de Relacionais.
Disponível em: <http://www.ic.unicamp.br/~geovane/mo410-091/Ch15-Resumo.pdf>. Acesso
em: 08 mar. 2010.
COUTO, Eder. Aumentando a performance da aplicação através da otimização de SQL.
Disponível em:
<http://imasters.uol.com.br/artigo/4055/bancodedados/aumentando_a_performance_da_apli
cacao_atraves_da_otimizacao_de_SQL/>. Acesso em: 08 mar. 2010.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4. ed. São
Paulo: Pearson, 2005. 724 p.
FRITCHEY, Grant. Dissecting SQL SERVER Execution Plans. Disponível em: <http://cid52eff7477e74caa6.skydrive.live.com/self.aspx/Publica/Art%20of%20High%20Performance%
20SQL%20Code%20by%20Grant%20Fritchey.pdf#resId/52EFF7477E74CAA6!781>.
Acesso em: 09 set. 2010.
MACHADO, Claudia. Tuning de Banco de Dados. Disponível em:
<http://linhaseletrasweb.blogspot.com/2010/03/tuning-de-bancos-de-dados.html>. Acesso
em: 01 jun. 2010.
MOREIRA, Luciano C. Porque o SQL SERVER não usa o meu índice?. Disponível em:
<http://blogs.msdn.com/b/luti/archive/2008/02/15/porque-o-sql-server-n-o-usa-o-meundice.aspx>. Acesso em: 18 ago. 2010.
MULLINS, Craig S. SQL Performance Tuning Basics. Disponível em:
<http://www.craigsmullins.com/zjdp_017.htm> Acesso em: 02 jun. 2010.
PICINI, Rodrigo; SCHIMIGUEL, Juliano. Desempenho de Banco de Dados: a Técnica de
Otimização com Tuning. Disponível em: <http://www.devmedia.com.br/post-11323Metodologia-Tuning.html>. Acesso em: 02 jun. 2010.
PILECKI, Maciej. Como otimizar o desempenho da consulta do SQL SERVER.
Disponível em: <http://technet.microsoft.com/pt-br/magazine/2007.11.sqlquery.aspx>.
Acesso em: 07 ago. 2010.
80
SILBERSCHATZ, Abraham, KORTH, Henry F., SUDARSHAN S. Sistema de bancos de
dados. 3. Ed. São Paulo: Makron, 2006. 781 p.
SOARES, Leonardo F. Boas Práticas para Otimização de Consultas a Bancos de Dados
usando SQL SERVER 2005. Disponível em:
<http://www.pdfqueen.com/html/aHR0cDovL3d3dy5zaWdhY29uc3VsdC5jb20uYnIvbWFudW
Fpcy9maWxlcy9NaWNyb3NpZ2FfRVJQL3NxbC9hcnRpZ29zcWwucGRm>. Acesso em: 08
mar. 2010.
SQL. Disponível em: <http://www.dca.fee.unicamp.br/cursos/PooJava/javadb/sql.html>
Acesso em: 02 jun. 2010.
Um Estudo sobre Técnicas de Otimização de Banco de Dados Tuning. Disponível em:
<http://www.oficinadanet.com.br/apostilas/detalhe/28/otimizacao_de_consultas_sql> Acesso
em: 16 mai. 2010.
VIEIRA, Eduardo B.; TAKANO, Leonardo M.; FORNACIARI, Lucas C. Metodologia para
Ajuste de Performance . Disponível em:
<http://www.shammas.eng.br/acad/sitesalunos0606/rpt/tun_met.html>. Acesso em: 01 jun.
Download