maintenance Infiniband du 01/04/2015

Ajouté par Pierre Gay il y a plus de 3 ans

Le remplacement d'une partie du switch Infiniband défectueuse (voir #2894) va nécessiter le reboot du switch.

Ce reboot étant responsable de l'arrêt de tous les jobs MPI actif, une réservation administrative sur le scheduler est posée pour permettre l'opération, prévue le 01/04/2015.

Cette réservation interdira le démarrage des jobs dans la période de maintenance.

Veuillez nous excuser pour la gêne occasionnée.

01/04/2015: reboot effectué.
Le système Infiniband n'est cependant visiblement toujours pas stable.
Nous redémarrons la production, mais les jobs MPI risquent de rencontrer des problèmes. Si c'est votre cas, n'hésitez pas à nous en faire part avec un ticket.

Nous allons continuer de chercher la source du problème avec Clustervision. Nous vous tiendrons au courant de nos avancées.

02/04/2015: travaux clustervision (mise à jour des noyaux des nœuds et stack Infiniband)
Tout n'est pas fini. Les travaux continueront la semaine prochaine.

14/04/2015: ça ne va pas mieux. Ce matin, panne de /scratch: le switch Infiniband ne répond pas. Clustervision est alerté. (#2931)


Commentaires