Un commentaire sur un article ou sur le site ? Vous voulez dire à Cyrare que vous lui vouez votre vie ? Eventuellement parler (en mal !) d'autres sites ? C'est ici.
Ce truc est en train de me rendre zinzin : y’a des fois, ça marche. Y’a des fois, ça marche pas du tout. Y’a des fois, ça marche mais ça met 30 secondes avant d’établir une connexion.
Je ne vois rien de particulier passer sur la ligne, y’a rien dans les logs
blague à part, qu'est-ce qui a changé avant l'apparition des problèmes ? Quand on a eu des problèmes chelous au boulot, c'était le nb de sessions https qui avait dépassé le nb autorisé ... mais je crois avoir vu que tu avais vérifié cela (et surtout que tu as déjà fait plusieurs reboot). Sauf si c'est un composant nouvellement installé/utilisé qui consomme un nombre anormal de ressources (et rapidement, car le problème revient rapidement après reboot).
"qu'est-ce qui a changé avant l'apparition des problèmes", c'est ce qui me fait regretter de ne pas avoir fait remonter le problème la première fois que je l'ai rencontré (je pensais que c'était le proxy/firewall de mon boulot qui foutait la merde), maintenant c'est un peu tard pour réussir à faire des corrélations avec un quelconque changement...
Y’a vraiment rien de nouveau concernant les services ou leur configuration (pas depuis un bail en tout cas, en dehors de l’entretien « courant », bannir telle IP, tweaker tel truc).
HAProxy, on peut oublier : il ne sert qu’en v4, je reproduis le souci en v6.
Je viens d’augmenter la quantité de nouvelle connexioon acceptée par la passerelle VPN (c’était à 128 ce qui est beaucoup trop peu, mais là même à 4096, ça ne change rien : le reste des composants est à 4096 de toutes manières, donc c’est pas ça le goulot d’étranglement).
Mais j’ai toujours un symptôme assez précis : je fais une capture côté passerelle, j’ai tous les paquets, mais une partie seulement (voire rien) arrive au routeur. Donc soit y’a une merde côté passerelle, soit y’a une merde côté routeur, soit y’a un truc qui filtre/rate limit entre les deux.
Bon pour le moment, je ne peux rien vous dire de plus que : insistez un peu quand vous voyez que ça peine. Je continue de creuser, mais je commence à épuiser un peu toutes les possibilités.
EDIT: j’ai coupé tout ce qui pouvait bouffer des slots de connexion en attendant de trouver mieux.
Comme je n’ai pas vraiment d’autre piste, je viens de repasser le tunnel VPN d’entrée/sortie du Dojo de UDP à TCP. S’il y a du rate limiting qqs parts, ça devrait suffire à lui mettre la misère.
Ça va avoir un impact sur les performances (je m’attends à perdre entre 10 et 15 Mbps au total), mais ça devrait permettre d’avoir qqch de plus stable si le problème est bien là.
Si le problème n’est pas là, et bien retour à la case départ et j’essaierai autre chose :/
EDIT: y’a un poil de drop et comme je m’y attendais, ça dégrade un peu les débits et les temps de réponse, mais dans l’ensemble, ça a l’air d’aller.
EDIT2 : les temps d’établissement et temps jusqu’au premier octet sont pas fous (je m’y attendais aussi), mais j’ai nettement moins de pics délirants de temps de réponse (en tout cas, de ce que j’ai testé jusqu’à présent).
Là, je suis un peu à court d'idée je dois vous avouer. Je vais tenter de changer l'encodage entre le routeur et la passerelle VPN, c'est le dernier truc qui me reste.
Ah, je ne vois pas de différence moi...
Mais ça s'est effectivement pas mal dégradé depuis une semaine je dirais... Tu as peut-être réussi à passer entre les mailles depuis ?
Est-ce que le fait que Cyrare ne rencontre pas de souci pourrait être une piste ?
EDIT: et ça change rien, donc visiblement le souci n’est pas là
Je commence vraiment à être à court d’idée… je vais retourner voir s’il n’y a pas un souci de plus haut niveau, mais là franchement, je vois de moins en moins ce qui pourrait poser problème
Le truc est une cata depuis qqs jours, donc oui, de toutes manières, ça va revenir. J’ai vraiment pas l’impression que ce soit endogène, mais il faut que je vérifie tout avant de commencer à donner des coups de matraque aux différents intermédiaires dont on dépend.
boon j’ai revu qqs trucs, y’a vraiment rien qui ressort à part le fait qu’il y a des paquets qui sont correctement encapsulés côté passerelle VPN mais qui n’arrive pas jusqu’au routeur (tu vois clairement qu’il en manque à l’arrivée). C’est donc forcément les paquets encapsulants (donc chiffrés/VPN toussa) qui se perdent qqs parts.
Est-ce que c’est une perte dû à un souci de routage chez Orange/un de ses transitaires ou chez Scaleway/un de ses transitaires, j’en ai aucune idée pour le moment. Le souci, c’est que j’ai pas vraiment la main sur le chemin, donc ça ne simplifie pas. Je vais essayer de voir si je peux lancer un mtr ou un truc du genre pendant suffisament longtemps et avec des paquets suffisament gros pour pouvoir repérer un goulot d’étranglement quelconque.
EDIT: j’ai des temps d’établissement parfois un peu long (⩾ 1s) mais dans l’ensemble, ça m’a l’air plus stable. Je teste depuis une connexion Orange fixe et une connexion Free 4G. Je vais voir si je peux lancer un httping depuis un autre point réseau pour voir.
Ça me semble nettement plus stable depuis 1 ou 2h (sans que je puisse expliquer prq). Y’a ptet un mec chez Orange qui a vu la connerie ou y’a ptet des mecs qui se sont plaints qqs parts.
EDIT: bon, y’a clairement du mieux, mais j’ai encore vu des pertes de connexions (depuis mon mobile resté en 4G d’un côté, depuis un serveur que j’ai chez OVH de l’autre).
Du coup, je pense qu’on est revenu plus ou moins à une « situation initiale » : ça merde de temps en temps, mais pas au niveau où c’était hier et avant-hier par exemple. Faut que j’arrive à bricoler un machin qui me prévienne quand ça déconne pour arriver à faire un diag précis parce que 30 consoles ouvertes avec des tcpdump qui tournent en boucle, c’est pas évident pour savoir ce qui se passe.
Je commence à soupçonner un souci de neighbor discovery ipv6 : j’ai vu plusieurs fois des paquets qui n’arrivaient que très très très tard alors que ça ne devrait pas être le cas.
[root@ks3370405 ~]# ping 2001:bc8:26c1:105::12
PING 2001:bc8:26c1:105::12(2001:bc8:26c1:105::12) 56 data bytes
64 bytes from 2001:bc8:26c1:105::12: icmp_seq=118 ttl=52 time=10.4 ms
64 bytes from 2001:bc8:26c1:105::12: icmp_seq=119 ttl=52 time=10.7 ms
64 bytes from 2001:bc8:26c1:105::12: icmp_seq=120 ttl=52 time=11.1 ms
L’adresse 2001:bc8105::12 était bien accessible depuis le réseau local, mais elle s’est retrouvée bloquée au niveau de la passerelle. Et du coup, il a fallu presque 2 minutes avant que ça ne se remette en marche.
Désactiver IPv6 en 2021, c’est une gigantesque connerie AMHA.
IPv4 a un défaut de conception assez simple : il y a théoriquement 4 milliards d’adresses IP possibles (en réalité en tourne plus autour de 3 milliards utilisables) pour presque 20 milliards de périphériques qui demandent un accès au réseau.
IPv6 résout ce problème en codant les adresses sur 128bits au lieu de 32 et permet donc d’avoir BIEN PLUS d’adresses disponibles. Donc au lieu d’avoir du NAT, du CG-NAT, des IP privées incompatibles entre elle dans tous les sens et de faire des patches dans tous les programmes pour supporter ces différents types de NAT (ce n’est pas le comportement « naturel » d’un réseau, ça ne l’a jamais été), bah on a de nouveau des connexions de bout en bout pour tous les périphériques qui souhaitent accéder au réseau.
C’est mieux pour le maintien en condition opérationnelle, c’est mieux pour la sécurité, c’est mieux pour presque tout (y’a ptet que les questions d’anonymat qui n’ont été traitées que très très tard dans la vie du protocole au final).
Et je rappelle que depuis quelques années y’a plus le choix : y’a plus d’adresses IPv4 publiques possibles (on a tout épuisé), donc de toutes manières il va falloir y passer. Et en réalité, le plus pénible, pour avoir géré un réseau IPv6 de taille très important, c’est surtout la cohabitation entre les deux (parce qu’on avait perdu l’habitude de ça depuis de nombreuses années).
Ils font ça sur des machines visibles que sur nos lans/dmz, jamais de l'Internet, sur des plages d'IP réservées à l'interne ... c'est peut-être acceptable dans ce cas si t'as pas un parc de plusieurs milliards de machines ?!?
Bon, j'avais pas mis de smiley au dessus, mais je tiens à dire que je ne partage pas forcément leur avis, mais qu'au final de mon point de vue de dév, tant qu'à la fin mon url est load-balancée comme je le souhaite et que mes utilisateurs arrivent bien sur mes serveurs frontaux, qui eux-mêmes communiquent bien avec les backends, moi ça me va même s'ils gèrent cela avec leurs pieds à coup de nattes