NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente o nível de serviço em uma rede ou conjunto de redes. Estas atividades asseguram alta disponibilidade de recursos pelo rápido reconhecimento de problemas e degradação de performance, disparando funções de controle quando for necessário Atuação Para verificar se o nível de serviço atual corresponde ao desejado, informações são extraidas da rede para obter a funcionalidade e performance em tempo real. As informações são extraidas continuamente ou sob demanda e armazenadas no banco de dados da gerencia da rede. Atuação Partes destes dados são submetidos à análise e outros dados são utilizados para comparar o status real da rede com aquele desejado (planejado), permitindo verificar se alguma anomalia está ocorrendo. Atuação Deve-se preparar uma série de atividades para resolução de problemas, desde uma simples substituição de um dispositivo defeituoso até a execução de ferramentas mais sofisticadas para um diagnóstico mais acurado do problema. O Sistema de acompanhamento de problemas • A utilização de um "Sistema de Registro de problemas"("Trouble Ticket System") auxilia o NOC no diagnóstico do problema e permite criar um Banco de Dados(BD) de experiências com problemas, viabilizando a utilização de sistemas especialistas na solução dos problemas. • Os TTS também agilizam o processo de controle da rede porque permitem uma comunicação direta com os responsáveis pelo NOC "TROUBLE TICKETING SYSTEMS(TTS)" Funções e características de um TTS • Fazendo uma analogia com um "quadro hospitalar", o "Registro de Problema" deve prover um histórico completo do problema de forma que qualquer operador possa tomar alguma iniciativa sem que para isso tenha de consultar outro operador; "TROUBLE TICKETING SYSTEMS(TTS)" • Deve permitir um melhor escalonamento de problemas atribuindo prioridades aos mesmos. Os supervisores e operadores poderão tomar decisões acerca da necessidade ou não de mais pessoal pela carga corrente do "Centro de Operações de Rede". • Seria interessante permitir que a prioridade dos registros mudassem de acordo com a hora do dia ou em resposta a alarmes de tempo "TROUBLE TICKETING SYSTEMS(TTS)" • Se o TTS for suficientemente integrado ao sistema de mail então alguns registros podem ser despachados diretamente ao responsável; • Deve-se atribuir um "timeout" para cada registro de problema. Caso o problema não seja resolvido em tempo, automaticamente é acionado um alarme. A fim de se evitar "postergação indefinida", pode-se adotar um escalonamento baseado no tempo de espera, no tipo de rede e na severidade do problema; • Caso a empresa opere em mais de um Centro de Operações de Rede, deve-se canalisar os registros ao grupo de engenheiros, operadores ou representantes de clientes responsáveis por aquela rede de onde provem o registro de problema; "TROUBLE TICKETING SYSTEMS(TTS)" • Fornece mecanismos para a obtenção de estatisticas tais como "Tempo médio entre falhas" e "Tempo médio de conserto". Uma coleta e análise apropriada de tais estatisticas permite que se tome medidas preventivas a eventuais falhas em dispositivos do sistema; Potenciais Usuários de um TTS • Os potenciais usuários de um TTS dependerão de quão sofisticado será o sistema de registro de problemas. • Se este sistema tiver um mecanismo de ajuda orientado por um sistema especialista, boa parte do registro pode ser feita quase que automaticamente, dessa forma qualquer usuário(ou seja, incluindo o usuário final) poderá usufruir do sistema. • Deve-se ressaltar também que mecanismos de segurança são fundamentais (prover logs e passwords) para um bom e correto funcionamento de um TTS. • Caso o TTS nao seja tão amigável, este poderá ser utilizado somente pelo pessoal que detenha conhecimento mais aprofundado do sistema(administradores). • É importante que o TTS esteja disponível ao usuário final porque diminui a burocracia na solução de qualquer problema. Informações constantes em um TTS • • • • • • • • • • • • Hora e data do início do problema; Operador que está abrindo o registro; Severidade do problema; Uma linha descrevendo o problema(para relatórios); Máquina envolvida; Rede envolvida; Endereço da máquina envolvida; Endereço da máquina destino; Próxima ação; Hora e data pra alarme; Para quem este registro deveria ser enviado; Responsável pelo registro; uso em Após a resolução do problema • • • • • • • Hora e Data da resolução Duração Descrição sumária do que aconteceu Componente chave afetado Inspecionado por Escalado para Um "check mark" para eventuais estatísticas investigações Responsabilidades do NOC Monitoramento e Coleta de Dados Projeto dos Displays de status de rede Determinando o Alcance do Controle Determinação de Problemas Testes sob Produção Roteamento Dinâmico e Alternativo "Network Recovery" Distribuição de Informação Ativando ou Desativando a Rede e/ou seus componentes Interfaces com outro pessoal do Suporte à Rede Avaliação das Ferramentas no Controle Operacional da Rede Monitoramento e Coleta de Dados • Para assegurar a manutenção do perfil do serviço • Avaliado por: – Tempo de Resposta; – Disponibilidade; – Exatidão. Monitoramento e Coleta de Dados Coleta contínua x Coleta sob-demanda. A fim de atuar ao invés de somente reagir, é necessário realizar medidas continuamente Monitoramento e Coleta de Dados A ocorrência da primeira informação sobre alguma falha deve receber a maior atenção por duas razões: – Uma falha em um componente de rede pode não prejudicar a operação até durante muito tempo após a ocorrência da falha. Quando o impacto for visível, dados sobre a falha podem não estar mais disponíveis; – A operação não pode ser interrompida para "dumps"ou para esperar para que a falha ocorra novamente. Monitoramento e Coleta de Dados • A coleta de dados sob-demanda pode ser útil na investigação de problemas especiais de performance de rede ou para diagnosticar problemas funcionais como parte da atividade de controle operacional • Entretanto, ela não é adequada para supervisionar a rede nem para propósito de planejamento. Monitoramento e Coleta de Dados Em um ambiente de comunicação, as seguintes fontes de informações podem ser utilizadas: – Características padrões do software de comunicação; – Ferramentas especiais executadas sob o software de comunicação; – Monitores de rede; – Monitores de aplicação; – Logs de problemas e alertas de várias interfaces. Controle Centralizado • Vantagens: – Visão global; – Pessoal do NOC localizado em um só local; – Reação ótima a todas as redes; – Arquivos de registro de problemas e experiências mantidos centralizados; – Operador livre de sistemas remotos; – Base para automação; – Determinação mais rápida de problemas; – Coordenação de mudanças; – Implementação de padrões; – Relatórios e estatísticas através de dados correlatos dependentes. Controle Centralizado • Desvantagens: – Muitos dados para serem filtrados; – Overhead no processamento; – Overhead na transmissão de dados; – Necessidade de um canal secundário; Controle Remoto • Vantagens: – Somente dados seletivos; – Reação mais rápida na área local; • Desvantagens: – Overhead no "download"; – Educação e contratação de pessoal especializado para os locais remotos; – Instalação de múltiplas ferramentas; – Somente otimização local; – Problemas de sincronização. Determinação de problemas • Por problema se compreende um incidente ou evento que causa um mal funcionamento do sistema. • Os objetivos principais são minimizar os efeitos dos problemas e reduzir o tempo até a restauração do estado normal. • A determinação de problema compreende quatro passos: – Detecção do problema; – Determinação do problema; – Diagnóstico do problema; – Resolução do problema. Determinação de problemas Níveis de complexidade de problemas: Primeiro nível: • Aqueles problemas simples que são resolvíveis facilmente através de uma simples consulta à base de dados do "Trouble Ticketing System"com o auxílio de alguma ferramenta não tão sofisticada. • Aproximadamente 85% dos problemas podem ser resolvidos desta forma • O diagnóstico destes problemas é simples Determinação de problemas Níveis de complexidade de problemas: • Segundo nível: • Somente tratáveis por operadores da rede. • Aproximadamente 10% dos problemas são deste nível. O diagnóstico é considerável. Determinação de problemas Níveis de complexidade de problemas: Terceiro nível: • Tratáveis por especialistas em comunicação (software e hardware). Estes problemas são geralmente de natureza crítica e complexa e podem requerer envolvimento de especialistas da empresa fornecedora do software e/ou hardware envolvidos. • O diagnóstico requer recursos humanos consideráveis e instrumentação apropriada. Determinação de problemas • A detecção do problema ocorre: – Quando os limiares são excedidos, mensagens são geradas e enviadas ao console de rede apropriado alertando o operador acerca do problema, geralmente com uma identificação do tipo e localização do problema; – Através de mensagens enviadas por clientes; Determinação de problemas • A determinação do problema significa poder responder exatamente a seguinte questão: "O que está errado e onde está o problema na rede? " • A determinação do problema pode ser facilitada significativamente através da exibição de informações tais como: se o problema é funcional, de serviço, de processamento, "link", etc. Diagnóstico do Problema: • Para diagnosticar o problema, utiliza-se informações tais como: – "arquivos de experiências anteriores" – “arquivos com recomendações do fornecedor do produto (hardware / software)" – "arquivos de inventário", etc. • Para o diagnóstico do problema se recomenda a utilização de um sistema especialista, tendo como base de dados os arquivos citados acima e outros dados fornecidos pelo operador. Resolução do Problema: • A parte final da determinação do problema é a delegação da resolução do problema para a manutenção técnica(incluindo serviços dos fornecedores) ou para a análise da performance da rede. Testes sob Produção • Visam verificar dinamicamente a operação correta da rede • Os testes poderiam incluir componentes individuais, tais como "nós" e "links". • Os testes podem ser executados durante a operação normal mas eles não podem interferir na produção de forma alguma Tipos de testes • Intrusivo: Circuito normal e/ou a operação do equipamento são interrompidos • Não-intrusivo: Testes podem ser realizados sem interromper os serviços de rede. Usualmente, os testes são executados em canais secundários. Automação dos testes • Muitos dos testes que são implementados em "hardware"e "software" são executados automaticamente, sem nenhuma atenção do operador. • Quando uma situação específica ocorre, o controle é passado para uma rotina de teste. • O único meio para controlar a execução é através da definição do "software". Network recovery • "Network Recovery" se torna muito caro a menos que procedimentos estejam definidos para restauração rápida da rede após o reparo dos componentes danificados. Após serem executados todos os reparos, testes são executados para verificar funcionamento normal. • Se os testes são satisfatórios, os componentes reparados e/ou "links" podem ser ligados. Network recovery • O controle operacional da rede é freqüentemente tentado a ignorar responsabilidades a mais em termos destes fatores: – Fechamento dos registros de problemas fornecendo comentários sobre as causas do problema; – Atualização do Arquivo de Experiência; – Atualização do Arquivo do Fornecedor do produto atingido pelo problema; Network recovery – Atualização do Arquivo de controle de inventário através da inserção de informações adicionais sobre o componente em consideração; Network recovery – Informar os clientes da rede acerca da restauração da rede. Network recovery • É importante em favor do gerenciamento da rede assegurar que os operadores da rede sejam propriamente educados, motivados e não sobrecarregados de tal forma que suas únicas preocupações sejam o sintoma e sua resolução ao invés da causa e sua resolução. Distribuição de Informação • Como parte da responsabilidade da determinação do problema, o NOC deve manter o cliente informado sobre condições excepcionais da rede. • Uma vez que partes da rede estão fora de ordem, o NOC poderia procurar pela alternativa ótima para mensagens de "broadcast". • Também é necessário comunicar informações sobre alterações planejadas. • Isto pode ser incorporado em mensagens periódicas Ativando ou Desativando a Rede e/ou seus componentes • Quando for necessário fazer alguma manutenção na rede que exija sua desativação temporária, deve-se realizar uma série de atividades que permitam que a desativação, reconfiguração e a ativação ocorram de forma correta. Ativação • Setar dados dinâmicos em estado de inicialização; • Setar todas as tabelas de "links" em estado de inicialização; • Comparar tabela com áreas adjacentes; • Verificar todas a linhas; • Ativar todas as linhas; • Verificar todas as estações da área; • Verificar os componentes de software; • Ativar partes do software para estado "idle". Desativação • Desativar todas as linhas "livres" desocupadas; • Desativar o software de comunicação; • Esperar pelas linhas ocupadas; • Desativar os componentes de software. Reconfiguração: • • • • Verificar/ativar todas linhas; Verificar todas as estações do domínio; Reconfigurar as tabelas de "links"; Ativar os "links" de acordo com as tabelas de "links"; • Setar dados dinâmicos em estado de inicialização; • Ativar os componentes de software. Interfaces com outro pessoal do Suporte à Rede • Devido a falta de tempo e treinamento, o NOC freqüentemente tem de delegar problemas para outros grupos. • Três grupos estão envolvidos: – Manutenção técnica – Análise de performance e "tuning" – Administração da Rede Análise de performance e "tuning" • • • • Localização de gargalos; Investigações especiais; Geração de software; Realização de avaliações estatísticas com propósitos especiais; • Prover relatórios; • Preparação de procedimentos operacionais fáceis-de-serem-utilizados; • Planejar "upgrades" de software e/ou hardware; Administração da Rede • • • • Manutenção de arquivos; Avaliação dos níveis de serviço; Prover novos padrões; Avaliação dos "registros de problemas" e prover a forma para a entrada de "registros de problemas"; • Negociação dos níveis de serviço com os clientes; • Assegurar que o NOC tem as facilidades, treinamento e pessoal capacitado para atingir seus propósitos; • Relatar aos vendedores sobre as observações dos operadores sobre a falta de simpatia dos clientes. Avaliação das Ferramentas no Controle Operacional da Rede • A motivação do pessoal que trabalha do NOC é um importante fator para que este atinja seus objetivos. • Não é necessário delegar a responsabilidade para a seleção do instrumento correto para o controle operacional, mas o pessoal deveria estar envolvido nas seguintes áreas: – Definição de crítérios; – Pesar os critérios; – Avaliação dos critérios para um número gerenciável de alternativas; – Realização e avaliação do processo de instalação; – Ordenação das alternativas em termos de tecnologia. Avaliação das Ferramentas no Controle Operacional da Rede • Esta política de envolvimento e educação é crítica não somente para avaliação de ferrramentas mas também na introdução de todo novo upgrade de software e/ou hardware da rede. Considerações acerca da Implementação • O primeiro passo consiste em realizar um "checklist" sobre a situação atual. • A lista seguinte fornece algumas recomendações para a elaboração do "checklist": – Lista de inventário de componentes: nodos e "links"(velocidade,protocolos,etc); – Disponibilidade de informação "on-line" a nível de serviço; – Metodologia de determinação de problema; – Disponibilidade de catálogos de "what-if" (de apoio a tomada de decisões: do tipo o que fazer se isto ocorrer);