Túnel IPsec funciona, mas cai por cerca de 30 segundos a cada 50 minutos

Configurei um túnel IPsec entre nossa rede do centro de dados (10.10.10.0 /24) e a rede do nosso escritório (192.168.0.0 /24) para que possamos trabalhar nos servidores usando os endereços IP internos.

Após algumas tentativas e erros nas configurações, consegui colocá-lo em funcionamento e ele funciona como esperado. No entanto, mesmo após alterar algumas configurações que ajudaram um pouco (como adicionar “Ping para Manutenção” e “Monitoramento de Qualidade”), ainda temos um problema com a conexão caindo por cerca de 25 a 45 segundos antes de restabelecer a conexão automaticamente.

Criei um script simples para rodar no meu PC durante o dia, fazendo pings do meu computador (192.168.0.10) para o gateway da rede do servidor (10.10.10.1) a cada 10 segundos, adicionando essa linha a um pinglog.

Depois de um dia rodando o script, percebi um padrão estranho: parecia acontecer aproximadamente a cada 50 minutos, em intervalos bastante precisos. Não exatamente na hora ou segundo, mas entre 47 a 55 minutos entre cada “reset”.

Não é um grande problema, mas é bem chato quando você está editando um arquivo em um servidor Linux e o terminal congela, depois reconecta, e você precisa editar tudo de novo porque não foi salvo. Também parece um setup pouco profissional se tiver cerca de 1% de indisponibilidade por hora, por padrão. Qualquer dica será muito bem-vinda!

--------------------------------------

Tentei:

  • Aumentar o “Tempo de Vida da Chave IKE” na esperança de que fosse uma renegociação acontecendo, mas isso não mudou nada.
  • Como mencionado acima, adicionando Manutenção e configurações similares; embora não tenha resolvido o problema, o tempo de inatividade agora está melhor do que antes, pois o túnel parece ser restaurado 10-30 segundos mais rápido com essas configurações.
  • Contatar nossa ISP, que configurou nosso gateway há alguns anos. Eles não identificaram problemas aparentes na configuração do túnel IPsec, infelizmente, mas tentaram atualizar o roteador para o software mais recente. Mas isso também não fez diferença.

Existem dois tempos de vida principais, um para o IKE e outro para o IPSec (ou fase 1/fase 2). Você verificou ambos? Verificou se não tem rekey configurado com base em limite de dados? Asegurou-se de que os tempos de vida estejam alinhados de ambos os lados?

Faça uma captura de pacotes e veja se você está recebendo pacotes UDP do outro lado enquanto a indisponibilidade ocorre. Isso pelo menos ajudaria a limitar o problema.

Parece que o PFS está habilitado de um lado do túnel, mas não do outro.

Verificou algum bug conhecido na versão do hardware / firmware?

Temos um ISR 1900 mais antigo que frequentemente apresenta o mesmo problema. Uma vez por ano, precisamos deletar e reaplicar a configuração de criptografia, reiniciar não resolve o problema.

Verificou os relógios? Os peers VPN precisam ter seus relógios sincronizados. Certifique-se de usar um servidor NTP, não o horário do dispositivo local.

Nas vezes que vi esse comportamento, havia um dispositivo ativo no caminho com uma tabela de estado para cada sessão de rede.
No final da validade do SA do IPSec, ele faz rekey, mas há apenas um caminho de firewall aberto em uma direção. Um lado espera o outro iniciar a tentativa de rekey, que tem o caminho aberto e permite que a sessão seja retomada.

PROBLEMA RESOLVIDO!

Alterei o Tempo de Vida da Chave da Fase 2 para 30 minutos (1800 segundos), que é menor que o intervalo de 45 a 55 minutos das interrupções. Agora, parece estar funcionando o dia todo, com apenas um ping perdido em 8 horas.

Obrigado u/j0mbie pela dica que resolveu!

E obrigado a todos que ajudaram! <3

Ideia possivelmente estúpida: está tendo dificuldade de acessar IPs do escritório durante esses 30 segundos? Ou seja, como você tem certeza de que isso é o VPN e não, por exemplo, reconvergência do STP?

Verifique suas subnets sa…