NOC - Netowork Operation Center

Propaganda
NOC - Netowork Operation Center
Definição:
"Network
Operational
Control"(NOC) consiste em
uma coleção de atividades
requeridas
para
manter
dinamicamente o nível de
serviço em uma rede ou
conjunto de
redes. Estas
atividades
asseguram
alta
disponibilidade de recursos
pelo rápido
reconhecimento
de problemas e degradação de
performance,
disparando
funções de
controle quando
for necessário
Atuação
Para verificar se o nível de serviço atual
corresponde ao desejado, informações são
extraidas
da
rede
para
obter
a
funcionalidade e performance em tempo
real.
As informações são extraidas continuamente
ou sob demanda e armazenadas no banco
de dados da gerencia da rede.
Atuação
Partes destes dados são submetidos à
análise e outros
dados são utilizados
para comparar o status real da rede com
aquele desejado (planejado), permitindo
verificar se alguma anomalia está
ocorrendo.
Atuação
Deve-se preparar uma série de atividades para
resolução de problemas, desde uma simples
substituição de um dispositivo defeituoso até
a execução de ferramentas mais sofisticadas
para um diagnóstico mais acurado do
problema.
O Sistema de acompanhamento de
problemas
• A utilização de um "Sistema de Registro de
problemas"("Trouble Ticket System") auxilia
o NOC no diagnóstico do problema e permite
criar
um
Banco
de
Dados(BD)
de
experiências com problemas, viabilizando a
utilização de sistemas especialistas na
solução dos problemas.
• Os TTS também agilizam o processo de
controle da rede
porque permitem uma
comunicação direta com os responsáveis
pelo NOC
"TROUBLE TICKETING SYSTEMS(TTS)"
Funções e características de um TTS
• Fazendo uma analogia com um "quadro hospitalar", o
"Registro de Problema" deve prover um histórico
completo do problema de forma que qualquer operador
possa tomar alguma iniciativa sem que para isso tenha de
consultar outro operador;
"TROUBLE TICKETING SYSTEMS(TTS)"
• Deve permitir um melhor escalonamento de
problemas
atribuindo
prioridades
aos
mesmos. Os supervisores e operadores
poderão
tomar
decisões
acerca
da
necessidade ou não de mais pessoal pela
carga corrente do "Centro de Operações de
Rede".
• Seria interessante permitir que a prioridade
dos registros mudassem de acordo com a
hora do dia ou em resposta a alarmes de
tempo
"TROUBLE TICKETING SYSTEMS(TTS)"
• Se o TTS for suficientemente integrado ao sistema de
mail então alguns registros podem ser despachados
diretamente ao responsável;
• Deve-se atribuir um "timeout" para cada registro de
problema. Caso o problema não seja resolvido em tempo,
automaticamente é acionado um alarme. A fim de se
evitar "postergação indefinida", pode-se adotar um
escalonamento baseado no tempo de espera, no tipo de
rede e na severidade do problema;
• Caso a empresa opere em mais de um Centro de
Operações de Rede, deve-se canalisar os registros ao
grupo de engenheiros, operadores ou representantes de
clientes responsáveis por aquela rede de onde provem o
registro de problema;
"TROUBLE TICKETING SYSTEMS(TTS)"
• Fornece mecanismos para a obtenção de
estatisticas tais como "Tempo médio entre
falhas" e "Tempo médio de conserto". Uma
coleta e análise apropriada de tais
estatisticas permite que se tome medidas
preventivas
a
eventuais
falhas
em
dispositivos do sistema;
Potenciais Usuários de um TTS
• Os potenciais usuários de um TTS dependerão de quão
sofisticado será o sistema de registro de problemas.
• Se este sistema tiver um mecanismo de ajuda orientado
por um sistema especialista, boa parte do registro pode
ser feita quase que automaticamente, dessa forma
qualquer usuário(ou seja, incluindo o usuário final) poderá
usufruir do sistema.
• Deve-se ressaltar também que mecanismos de segurança
são fundamentais (prover logs e passwords) para um bom
e correto funcionamento de um TTS.
• Caso o TTS nao seja tão amigável, este poderá ser
utilizado somente pelo pessoal que detenha conhecimento
mais aprofundado do sistema(administradores).
• É importante que o TTS esteja disponível ao usuário final
porque diminui a burocracia na solução de qualquer
problema.
Informações constantes em um TTS
•
•
•
•
•
•
•
•
•
•
•
•
Hora e data do início do problema;
Operador que está abrindo o registro;
Severidade do problema;
Uma linha descrevendo o problema(para
relatórios);
Máquina envolvida;
Rede envolvida;
Endereço da máquina envolvida;
Endereço da máquina destino;
Próxima ação;
Hora e data pra alarme;
Para quem este registro deveria ser enviado;
Responsável pelo registro;
uso
em
Após a resolução do problema
•
•
•
•
•
•
•
Hora e Data da resolução
Duração
Descrição sumária do que aconteceu
Componente chave afetado
Inspecionado por
Escalado para
Um "check mark" para eventuais
estatísticas
investigações
Responsabilidades do NOC
Monitoramento e Coleta de Dados
Projeto dos Displays de status de rede
Determinando o Alcance do Controle
Determinação de Problemas
Testes sob Produção
Roteamento Dinâmico e Alternativo
"Network Recovery"
Distribuição de Informação
Ativando ou Desativando a Rede e/ou seus
componentes
Interfaces com outro pessoal do Suporte à Rede
Avaliação das Ferramentas no Controle Operacional
da Rede
Monitoramento e Coleta de Dados
• Para assegurar a manutenção do perfil do
serviço
• Avaliado por:
– Tempo de Resposta;
– Disponibilidade;
– Exatidão.
Monitoramento e Coleta de Dados
Coleta contínua x Coleta sob-demanda.
A fim de atuar ao invés de somente reagir, é
necessário realizar medidas continuamente
Monitoramento e Coleta de Dados
A ocorrência da primeira informação sobre
alguma falha deve receber a maior atenção por
duas razões:
– Uma falha em um componente de rede pode
não prejudicar a operação até durante
muito tempo após a ocorrência da falha.
Quando o impacto for visível, dados sobre a
falha podem não estar mais disponíveis;
– A operação não pode ser interrompida para
"dumps"ou para esperar para que a falha
ocorra novamente.
Monitoramento e Coleta de Dados
• A coleta de dados sob-demanda pode ser útil na
investigação de problemas especiais de
performance de rede ou para diagnosticar
problemas funcionais como parte da atividade
de controle operacional
• Entretanto, ela não é adequada para
supervisionar a rede nem para propósito de
planejamento.
Monitoramento e Coleta de Dados
Em um ambiente de comunicação, as seguintes fontes
de informações podem ser utilizadas:
– Características
padrões
do
software
de
comunicação;
– Ferramentas especiais executadas sob o software
de comunicação;
– Monitores de rede;
– Monitores de aplicação;
– Logs de problemas e alertas de várias interfaces.
Controle Centralizado
• Vantagens:
– Visão global;
– Pessoal do NOC localizado em um só local;
– Reação ótima a todas as redes;
– Arquivos de registro de problemas e experiências
mantidos centralizados;
– Operador livre de sistemas remotos;
– Base para automação;
– Determinação mais rápida de problemas;
– Coordenação de mudanças;
– Implementação de padrões;
– Relatórios e estatísticas através de dados correlatos
dependentes.
Controle Centralizado
• Desvantagens:
– Muitos dados para serem filtrados;
– Overhead no processamento;
– Overhead na transmissão de dados;
– Necessidade de um canal secundário;
Controle Remoto
• Vantagens:
– Somente dados seletivos;
– Reação mais rápida na área local;
• Desvantagens:
– Overhead no "download";
– Educação e contratação de pessoal especializado
para os locais remotos;
– Instalação de múltiplas ferramentas;
– Somente otimização local;
– Problemas de sincronização.
Determinação de problemas
• Por problema se compreende um incidente
ou evento que causa um mal funcionamento
do sistema.
• Os objetivos principais são minimizar os
efeitos dos problemas e reduzir o tempo até a
restauração do estado normal.
• A determinação de problema compreende
quatro passos:
– Detecção do problema;
– Determinação do problema;
– Diagnóstico do problema;
– Resolução do problema.
Determinação de problemas
Níveis de complexidade de problemas:
Primeiro nível:
• Aqueles problemas simples que são
resolvíveis facilmente através de uma simples
consulta à base de dados do "Trouble
Ticketing System"com o auxílio de alguma
ferramenta não tão sofisticada.
• Aproximadamente 85% dos problemas podem
ser resolvidos desta forma
• O diagnóstico destes problemas é simples
Determinação de problemas
Níveis de complexidade de problemas:
• Segundo nível:
• Somente tratáveis por operadores da rede.
• Aproximadamente 10% dos problemas são
deste nível. O diagnóstico é considerável.
Determinação de problemas
Níveis de complexidade de problemas:
Terceiro nível:
• Tratáveis por especialistas em
comunicação
(software
e
hardware). Estes problemas
são geralmente de natureza
crítica e complexa e podem
requerer
envolvimento
de
especialistas
da
empresa
fornecedora do software e/ou
hardware envolvidos.
• O diagnóstico requer recursos
humanos
consideráveis
e
instrumentação apropriada.
Determinação de problemas
• A detecção do problema ocorre:
– Quando os limiares são excedidos,
mensagens são geradas e enviadas ao
console de rede apropriado alertando o
operador acerca do problema, geralmente
com uma identificação do tipo e
localização do problema;
– Através de mensagens enviadas por
clientes;
Determinação de problemas
• A determinação do problema significa poder
responder exatamente a seguinte questão:
"O que está errado e onde está o
problema na rede? "
• A determinação do problema pode ser facilitada
significativamente através da exibição de
informações tais como: se o problema é funcional,
de serviço, de processamento, "link", etc.
Diagnóstico do Problema:
• Para diagnosticar o problema,
utiliza-se informações tais como:
– "arquivos
de
experiências
anteriores"
– “arquivos com recomendações
do fornecedor do produto
(hardware / software)"
– "arquivos de inventário", etc.
• Para o diagnóstico do problema
se recomenda a utilização de um
sistema especialista, tendo como
base de dados os arquivos
citados acima e outros dados
fornecidos pelo operador.
Resolução do Problema:
• A parte final da determinação do problema é a
delegação da resolução do problema para a
manutenção técnica(incluindo serviços dos
fornecedores) ou para a análise da
performance da rede.
Testes sob Produção
• Visam verificar dinamicamente a operação correta da
rede
• Os testes poderiam incluir componentes individuais,
tais como "nós" e "links".
• Os testes podem ser executados durante a operação
normal mas eles não podem interferir na produção de
forma alguma
Tipos de testes
• Intrusivo: Circuito normal e/ou a operação do
equipamento são interrompidos
• Não-intrusivo: Testes podem ser realizados
sem interromper os serviços de rede.
Usualmente, os testes são executados em
canais secundários.
Automação dos testes
• Muitos dos testes que são implementados em
"hardware"e "software" são executados
automaticamente, sem nenhuma atenção do
operador.
• Quando uma situação específica ocorre, o
controle é passado para uma rotina de teste.
• O único meio para controlar a execução é
através da definição do "software".
Network recovery
• "Network Recovery" se torna muito
caro a menos que procedimentos
estejam definidos para restauração
rápida da rede após o reparo dos
componentes
danificados.
Após
serem executados todos os reparos,
testes são executados para verificar
funcionamento normal.
• Se os testes são satisfatórios, os
componentes reparados e/ou "links"
podem ser ligados.
Network recovery
• O controle operacional da rede é freqüentemente
tentado a ignorar responsabilidades a mais em termos
destes fatores:
– Fechamento
dos
registros
de
problemas
fornecendo comentários sobre as causas do
problema;
– Atualização do Arquivo de Experiência;
– Atualização do Arquivo do Fornecedor do produto
atingido pelo problema;
Network recovery
– Atualização do Arquivo de controle de
inventário através da inserção de
informações
adicionais
sobre
o
componente em consideração;
Network recovery
– Informar os clientes da rede acerca da
restauração da rede.
Network recovery
• É importante em favor do
gerenciamento
da
rede
assegurar que os operadores
da rede sejam propriamente
educados, motivados e não
sobrecarregados de tal forma
que
suas
únicas
preocupações
sejam
o
sintoma e sua resolução ao
invés da causa e sua
resolução.
Distribuição de Informação
• Como parte da responsabilidade da
determinação do problema, o NOC deve
manter o cliente informado sobre
condições excepcionais da rede.
• Uma vez que partes da rede estão fora de
ordem, o NOC poderia procurar pela
alternativa ótima para mensagens de
"broadcast".
• Também
é
necessário
comunicar
informações sobre alterações planejadas.
• Isto pode ser incorporado em mensagens
periódicas
Ativando ou Desativando a Rede e/ou
seus componentes
• Quando for necessário fazer
alguma manutenção na rede
que exija sua desativação
temporária, deve-se realizar
uma série de atividades que
permitam que a desativação,
reconfiguração e a ativação
ocorram de forma correta.
Ativação
• Setar dados dinâmicos em estado de
inicialização;
• Setar todas as tabelas de "links" em estado
de inicialização;
• Comparar tabela com áreas adjacentes;
• Verificar todas a linhas;
• Ativar todas as linhas;
• Verificar todas as estações da área;
• Verificar os componentes de software;
• Ativar partes do software para estado "idle".
Desativação
• Desativar
todas
as
linhas
"livres"
desocupadas;
• Desativar o software de comunicação;
• Esperar pelas linhas ocupadas;
• Desativar os componentes de software.
Reconfiguração:
•
•
•
•
Verificar/ativar todas linhas;
Verificar todas as estações do domínio;
Reconfigurar as tabelas de "links";
Ativar os "links" de acordo com as tabelas de
"links";
• Setar dados dinâmicos em estado de
inicialização;
• Ativar os componentes de software.
Interfaces com outro pessoal do
Suporte à Rede
• Devido a falta de tempo e treinamento, o NOC
freqüentemente tem de delegar problemas
para outros grupos.
• Três grupos estão envolvidos:
– Manutenção técnica
– Análise de performance e "tuning"
– Administração da Rede
Análise de performance e "tuning"
•
•
•
•
Localização de gargalos;
Investigações especiais;
Geração de software;
Realização de avaliações estatísticas com
propósitos especiais;
• Prover relatórios;
• Preparação de procedimentos operacionais
fáceis-de-serem-utilizados;
• Planejar "upgrades" de software e/ou
hardware;
Administração da Rede
•
•
•
•
Manutenção de arquivos;
Avaliação dos níveis de serviço;
Prover novos padrões;
Avaliação dos "registros de problemas" e prover a
forma para a entrada de "registros de problemas";
• Negociação dos níveis de serviço com os clientes;
• Assegurar que o NOC tem as facilidades,
treinamento e pessoal capacitado para atingir seus
propósitos;
• Relatar aos vendedores sobre as observações dos
operadores sobre a falta de simpatia dos clientes.
Avaliação das Ferramentas no Controle
Operacional da Rede
• A motivação do pessoal que trabalha do NOC é um
importante fator para que este atinja seus objetivos.
• Não é necessário delegar a responsabilidade para a
seleção do instrumento correto para o controle
operacional, mas o pessoal deveria estar envolvido nas
seguintes áreas:
– Definição de crítérios;
– Pesar os critérios;
– Avaliação dos critérios para um número gerenciável
de alternativas;
– Realização e avaliação do processo de instalação;
– Ordenação das alternativas em termos de tecnologia.
Avaliação das Ferramentas no Controle
Operacional da Rede
• Esta política de envolvimento e educação é
crítica não somente para avaliação de
ferrramentas mas também na introdução de
todo novo upgrade de software e/ou hardware
da rede.
Considerações acerca da
Implementação
• O primeiro passo consiste em realizar um "checklist"
sobre a situação atual.
• A lista seguinte fornece algumas recomendações para a
elaboração do "checklist":
– Lista de inventário de componentes:
nodos e "links"(velocidade,protocolos,etc);
– Disponibilidade de informação "on-line" a nível de
serviço;
– Metodologia de determinação de problema;
– Disponibilidade de catálogos de "what-if"
(de apoio a tomada de decisões:
do tipo o que fazer se isto ocorrer);
Download