Multilayer Failure Detection Method for Network Services Based on Distributed Components Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama Department of Information Networking, Osaka University, JAPAN Department of Computer Science and Intelligent Systems, Osaka Prefecture University, JAPAN Fujitsu Laboratories Limited, JAPAN Apresentação: Adriano da Luz Definições Componente: É uma aplicação que pode ser usada em conjunto com outras para fornecer um serviço Os componentes podem ser distribuídos para aumentar a escalabilidade do serviço oferecido Quando um componente falha, outro com mesma função pode substituí-lo Proposta Detectar falhas em uma rede baseada em componentes distribuídos Tipos de falhas: Falha de software do componente Falha de hardware do nodo Falha na estrutura física da rede Motivações É estimado que 75% do tempo para a recuperação de uma falha na camada de aplicação é gasto somente para encontrar a falha Recuperação de falhas na camada física é muito demorada É difícil fazer detecção de falhas em múltiplas camadas Modelo Gerência Feita por redes overlay onde os componentes trocam informações Modelo Um componente troca mensagens do tipo keep-alive com seus vizinhos periodicamente Quando um componente não recebe resposta de um vizinho ele inicia o método de detecção de falhas O nodo que invoca o método é chamado de nodo base O nodo suspeito de falha é chamado de nodo alvo A resposta a uma mensagem enviada a um vizinho é chamada de response information A verificação desta resposta é chamada de operation check Modelo Cada nodo possui um ID global e conhece o ID de todos os nodos que podem ser alcançados com 2 saltos Funcionamento O nodo base envia uma mensagem requisitando um operation check em todos os componentes do nodo alvo. Esta mensagem é enviada para a cada componente que é vizinho aos componentes do nodo alvo. Esta mensagem se chama Request for response message (RRM) Um nodo que está na rota de passagem da RRM é chamado de relay node Funcionamento Funcionamento Funcionamento Falha no componente É detectado uma falha em um componente quando o nodo base recebe resposta de um componente rodando no nodo alvo mas não recebe resposta de outro componente rodando no mesmo nodo alvo Falha no nodo É detectado quando não há resposta de nenhum componente no nodo Consequentemente não há respostas em nenhuma rota da RRM Falha na rede É detectado quando as respostas em duas rotas de RRM são contraditórias para um mesmo componente são contraditórias Validação do modelo Criado uma simulação para comparar este modelo com outros modelos já existentes São comparados o número de mensagens trocadas em cada modelo e a eficiência de cada modelo em redes pequenas médias e grandes Conclusão Este modelo funciona apenas para casos simples. Casos mais complexos como falhas em mais de um nodo simultaneamente não são tratados Em comparação com outros métodos ele apresenta melhor escalabilidade