Falha na rede

Propaganda
Multilayer Failure Detection Method for Network
Services Based on Distributed
Components
Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi,
Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama
Department of Information Networking, Osaka University, JAPAN
Department of Computer Science and Intelligent Systems, Osaka Prefecture
University, JAPAN
Fujitsu Laboratories Limited, JAPAN
Apresentação: Adriano da Luz
Definições



Componente: É uma aplicação que pode ser usada em
conjunto com outras para fornecer um serviço
Os componentes podem ser distribuídos para aumentar a
escalabilidade do serviço oferecido
Quando um componente falha, outro com mesma função
pode substituí-lo
Proposta

Detectar falhas em uma rede baseada em componentes
distribuídos

Tipos de falhas:

Falha de software do componente

Falha de hardware do nodo

Falha na estrutura física da rede
Motivações



É estimado que 75% do tempo para a recuperação de
uma falha na camada de aplicação é gasto somente para
encontrar a falha
Recuperação de falhas na camada física é muito
demorada
É difícil fazer detecção de falhas em múltiplas camadas
Modelo
Gerência

Feita por redes overlay onde os componentes trocam
informações
Modelo


Um componente troca mensagens do tipo keep-alive com
seus vizinhos periodicamente
Quando um componente não recebe resposta de um
vizinho ele inicia o método de detecção de falhas

O nodo que invoca o método é chamado de nodo base

O nodo suspeito de falha é chamado de nodo alvo


A resposta a uma mensagem enviada a um vizinho é
chamada de response information
A verificação desta resposta é chamada de operation
check
Modelo
Cada nodo possui um ID global e conhece o ID de todos os
nodos que podem ser alcançados com 2 saltos
Funcionamento


O nodo base envia uma mensagem requisitando um
operation check em todos os componentes do nodo alvo.
Esta mensagem é enviada para a cada componente que é
vizinho aos componentes do nodo alvo. Esta mensagem
se chama Request for response message (RRM)
Um nodo que está na rota de passagem da RRM é
chamado de relay node
Funcionamento
Funcionamento
Funcionamento
Falha no componente

É detectado uma falha em um componente quando o
nodo base recebe resposta de um componente rodando no
nodo alvo mas não recebe resposta de outro componente
rodando no mesmo nodo alvo
Falha no nodo


É detectado quando não há resposta de nenhum
componente no nodo
Consequentemente não há respostas em nenhuma rota da
RRM
Falha na rede

É detectado quando as respostas em duas rotas de
RRM são contraditórias para um mesmo
componente são contraditórias
Validação do modelo

Criado uma simulação para comparar este modelo com
outros modelos já existentes
São comparados o número de mensagens trocadas em cada
modelo e a eficiência de cada modelo em redes pequenas
médias e grandes
Conclusão


Este modelo funciona apenas para casos simples.
Casos mais complexos como falhas em mais de
um nodo simultaneamente não são tratados
Em comparação com outros métodos ele
apresenta melhor escalabilidade
Download