« Services » de nouveau en service !

Les différents services d'ARN (et une partie de ceux de LDN) ont été inaccessible durant environ 2 semaines car la machine physique était partie en service après-vente.

Le contexte

Depuis quelques temps, nous (et LDN également) éprouvions des difficultés avec le matériel hébergé, à savoir des accès disques (très) lents, ainsi qu'un problème au niveau de la carte mère (désynchronisation de l'horloge matérielle).

Concrètement, cela se traduisait par un ralentissement très important des différentes machines virtuelles (plusieurs minutes pour obtenir une connexion à un shell, des mises à jour Debian interminables, etc.).

Recherche et déboguage

Nous avons investigué plusieurs semaines durant sans réellement trouver de solution logicielle (changement de la méthode d'ordonnancement du noyau pour les accès disque via la configuration KVM par exemple, ou encore méthode de synchronisation de l'horloge système). Finalement, il a fallu intervenir physiquement et le lundi 7 juillet 2014, le serveur nommé « services » a été dé-racké.

Améliorations

Nous en avons profité pour effectuer le changement des disques dur, l'un ayant des problèmes clairement identifiés. Les nouveaux disques sont -très- nettement plus performants, ce qui nous permet de voir venir la montée en charge plus sereinement.

Fin des soucis identifiés

Concernant la carte mère défectueuse (désynchronisation de l'horloge matérielle), un retour au service après-vente a été effectué. Nous avions remarqué que le problème de désynchronisation était temporairement corrigé lors de l'arrêt de l'alimentation de la carte, ce qui fait qu'elle nous a été retournée sans changements. Nous avons donc réitéré notre demande en expliquant une seconde fois que notre problème ne se manifestait que quelques heures après le démarrage de la carte mère. Nous avons finalement obtenu un accord pour un échange. Quelques jours plus tard, nous avons réceptionné la nouvelle carte que nous nous sommes empressés de remonter. Nous avons re-racké la machine dans le datacenter le jour même (23/07).

Jusqu'à présent, aucun souci n'a été détecté, ce qui nous laisse penser que les deux problèmes sont résolus, et que nous allons donc pouvoir continuer notre progression dans le monde des fournisseurs d'accès à Internet neutre !

Nous avons fait notre maximum pour résoudre ces problèmes le plus rapidement possible, mais ceci étant dit, nous tenons à présenter nos excuses pour le dérangement occasionné, et plus particulièrement à nos adhérents utilisant les services hébergés sur cette machine.