panne NFS du 18/11/2013

Ajouté par Pierre Gay il y a plus de 5 ans

Depuis lundi, et suite au blocage de la semaine dernière, le système NFS FS_home est en panne.

Les données ne sont pas perdues, mais nous essayons de réparer les erreurs du filesystem.

Le cluster est éteint pendant l'opération de maintenance.

Nous vous tiendrons au courant de l'évolution de la situation.

21/11/2013: Redémarrage du cluster.
Le Filesystem a été réparé. Normalement, il ne devrait pas y avoir eu de pertes de données.

Les frontaux sont à nouveau ouverts, le scheduler accepte les jobs.

11:00 Nouvelle panne: le NFS est à nouveau tombé.
Le cluster est fermé à la connexion.
Nous relançons une réparation du filesystem pour commencer

16:00: le filesystem n'a pas d'erreur. Nous lançons un diagnostic du hardware du serveur.

22/11/2013: pas de problème hardware détecté. Nous allons faire une mise à jour des firmwares du contrôleur et du noyau linux.
Piste possible: de très gros fichiers (> 10Go) pourraient provoquent la panne.

24/11/203:
  • Firmware du contrôleur RAID, noyau du serveur NFS mis à jour
  • Clustervision et nous avons essayé de stresser le serveur avec des tests (beaucoup de clients, essais avec des fichiers volumineux). Pas de panne.
  • Le cluster est remis en production.

Commentaires