1. Lentidão na performance da rede sem fio ao se conectar via VPN GlobalProtect da PaloAlto

Tenho enfrentado um problema onde o desempenho da rede para os usuários tem sido extremamente ruim (velocidade de download de 1-1,5 Mbps) em uma conexão de uplink de ISP de 1G.
Aqui está o fluxo de tráfego subjacente e excessivo.
Subjacente:

Usuário -----(wireless)------>AP----->L2switch----->WLC----L2switch----->Firewall GW/PANW ------->SD-WAN--------->Internet.
Sobreposto:

Usuário -------(ipsec)--------->L3 GW/PANW ------->SD-WAN--------->Internet.
O usuário se conecta ao firewall PAN-OS via cliente GP. O firewall PAN-OS tem o gateway VPN configurado. Estou testando o download do mesmo arquivo sem VPN (GP desativado) - A velocidade do download está cerca de 400 Mbps, o que é bom, mas assim que ativo a VPN (GP ligado), a velocidade cai para quase 1-1,5 Mbps.

  • Para eliminar o problema de GP (VPN), tentei a mesma coisa em infraestrutura cabeada, em ambos os cenários, com VPN desligado a velocidade é próxima de 400 Mbps, porém com VPN ligado, a velocidade é cerca de 250 Mbps, o que também é bom considerando a sobrecarga de criptografia/descriptografia IPsec.
    Estou numa situação difícil onde não consigo definir exatamente o problema; se digo que o wireless é o problema, então a velocidade sem VPN é boa, então o wireless está ok, e se faço testes de VPN em infraestrutura cabeada, a VPN fornece a vazão esperada, criando um ciclo onde o problema pode estar.
    Até agora, percebi que é uma combinação de Wireless + VPN.
    Gostaria de saber se mais alguém já enfrentou esse problema ou tem sugestões.
  • Quando o AP está conectado à rede local, ele entra em contato com o controlador como esperado, pega a configuração desejada e transmite os SSIDs. O problema é que qualquer cliente que conecta ao(s) SSID(s) experimenta velocidades de banda ruins (por exemplo, 1-1,5 Mbps download).
    Verifiquei o MTU de ponta a ponta na interface, que é 1500, e configurei o MSS para 1372 para o tráfego VPN.
    Qualquer sugestão será muito bem-vinda.

De um palpite, pode ser uma questão de MTU por causa dos vários níveis de túneis que você tem. Duvido que seja seu único problema, dado o tamanho da queda, mas provavelmente faz parte dele. Você tem alguma limitação de taxa configurada nos seus túneis GP?

Um bom começo seria verificar se os túneis na rede sem fio estão conectados como ipsec ou SSL. Algo na sua rede sem fio ou nas suas políticas de segurança pode estar impedindo os túneis do GlobalProtect de se conectarem como ipsec, e eles podem estar caindo para SSL, o que certamente reduzirá a largura de banda da sua conexão.

O AP sem fio e o WLC são dispositivos Aruba.

Estou vendo uma coisa muito interessante na captura com VPN vs sem VPN.

Estou baixando um arquivo grande, então a maior parte dos dados será do servidor para o cliente. Quando estou com VPN, a captura na máquina cliente mostra que ela recebeu os dados até seq=2697, então o próximo pacote do cliente deve ser com Ack=2797 (isso informa ao servidor que o cliente recebeu os dados até 2697), contudo, o próximo pacote sucessivo na máquina cliente mostra um pacote com Ack=1349, o que significa que o cliente recebeu o pacote, mas não está ajustando o número de sequência corretamente. Não tenho certeza se isso é um problema com MAC ou com o adaptador GP.

Você configurou o MTU no agente do global protect? Eu gosto de configurar em 1320.

O MSS de 1372 pode não ser baixo o suficiente. 1372 + o cabeçalho IP + a sobrecarga de criptografia, que varia dependendo dos métodos usados, tudo precisa ficar abaixo de 1500. Tente diminuir para algo como 1300 ou até menor e veja se ajuda. Você sempre pode alterar de volta.

Tive um problema semelhante em um sonic wall, não sei se está relacionado, mas achei que deveria mencionar. Desabilitar RSC resolveu imediatamente o problema.

Disable-NetAdapterRsc -Name “adaptador”

Não tenho limitação de taxa configurada nos túneis GP.

Também suspeito de um problema de MTU, mas não consigo entender onde isso poderia estar. Tenho MTU configurado no WLC como 1500 e no RAP como 1300.

Pensava em mudar para 1200 e ver se faz diferença, baseado neste artigo https://community.arubanetworks.com/discussion/slow-ap-performance-when-connected-over-juniper-vpn (o fornecedor do VPN é diferente, mas o problema é exatamente o que estou vendo), mas de alguma forma não faz sentido por que 1200?

Outra coisa que notei é sobre o tamanho da janela.

O cliente envia a janela de tamanho 65k, MSS 1360, WS=64.

55595 → 80 [SYN] Seq=0 Win=65535 Len=0 MSS=1360 WS=64 TSval=1679540393 TSecr=0 SACK_PERM

O servidor responde com MSS 1343, janela de 14k e WS=128.

80 → 55595 [SYN, ACK] Seq=0 Ack=1 Win=14480 Len=0 MSS=1343 SACK_PERM TSval=1620644495 TSecr=1679540393 WS=128

O último Ack acontece com o cliente aumentando a janela para 131k.

Em todo fluxo TCP, o servidor nunca anuncia uma janela maior do que 15K, e o cliente sempre anuncia perto de 131k.

55595 → 80 [ACK] Seq=1 Ack=1 Win=131712 Len=0 TSval=1679540409 TSecr=1620644495

Você acredita que o tamanho da janela pode ser um problema aqui?