Annonces

Extinction accidentelle des nœuds - 06/12/2016

Ajouté par Pierre Gay il y a environ 2 ans

Nous avons dû redémarrer le système d'administration du cluster pour régler un problème sur le nœuds maître d'Avakas.

Ce genre d'opérations se passe d'habitude sans trop de problème, malheureusement, cette fois-ci, le système a cru à une panne du groupe froid qui pour une fois n'y était pour rien. Dès lors, le système de sécurité a automatiquement forcé l'extinction des nœuds de calcul, tuant tous les jobs qui tournaient à ce moment.

Nous redémarrons les nœuds et remettrons le cluster en production au plus tôt.

Veuillez nous excuser pour la perte de travail occasionnée.

Pierre Gay

Panne de climatisation le 29/04/2015

Ajouté par Pierre Gay il y a plus de 2 ans

A 10 heures ce matin, une panne sur le groupe froid d'Avakas (un ventilateur défectueux) a provoqué la coupure automatique des nœuds de calcul. Les jobs qui tournaient sont malheureusement perdus.

J'attends une intervention du frigoriste pour plus d'informations et avec l'espoir de redémarrer la production au plus vite.

Veuillez nous excuser pour la gêne occasionnée.

L'équipe Avakas.

02/05/2016: un ventilateur en panne. Nous espérons avoir bientôt plus d'informations sur un éventuel redémarrage

03/05/2016: Une solution temporaire a été mise en place par le frigoriste pour fonctionner en mode dégradé en attendant le remplacement du ventilateur défectueux. J'ai pu rallumer ~1000 cœurs sans mettre le feu à la salle machine (jusqu'ici). Le scheduler accepte de nouveau les jobs.

25/05/2016: Le ventilateur fautif est remplacé. Tous les nœuds ont été redémarrés et sont en production.

Orage le 08/05/2015

Ajouté par Pierre Gay il y a plus de 3 ans

Un orage a fait disjoncter le groupe froid qui climatise Avakas le 08/05/2015 vers 4 heures du matin.

Conformément à sa configuration, le cluster a brutalement coupé tous les nœuds de calcul afin d'éviter une surchauffe de la salle machine.

Tous les jobs alors en cours sont perdus.

Nous remettons progressivement les machines en fonctionnement et relancerons la production dès que possible.

Veuillez nous excuser pour la gêne occasionnée.

09/05/2015: redémarrage de la production vers 18h.

11/05/2015: à cause d'un oubli de ma part (#2979), la possibilité de soumettre de nouveaux jobs n'est rétablie que ce jour.

maintenance Infiniband du 01/04/2015

Ajouté par Pierre Gay il y a plus de 3 ans

Le remplacement d'une partie du switch Infiniband défectueuse (voir #2894) va nécessiter le reboot du switch.

Ce reboot étant responsable de l'arrêt de tous les jobs MPI actif, une réservation administrative sur le scheduler est posée pour permettre l'opération, prévue le 01/04/2015.

Cette réservation interdira le démarrage des jobs dans la période de maintenance.

Veuillez nous excuser pour la gêne occasionnée.

01/04/2015: reboot effectué.
Le système Infiniband n'est cependant visiblement toujours pas stable.
Nous redémarrons la production, mais les jobs MPI risquent de rencontrer des problèmes. Si c'est votre cas, n'hésitez pas à nous en faire part avec un ticket.

Nous allons continuer de chercher la source du problème avec Clustervision. Nous vous tiendrons au courant de nos avancées.

02/04/2015: travaux clustervision (mise à jour des noyaux des nœuds et stack Infiniband)
Tout n'est pas fini. Les travaux continueront la semaine prochaine.

14/04/2015: ça ne va pas mieux. Ce matin, panne de /scratch: le switch Infiniband ne répond pas. Clustervision est alerté. (#2931)

Arrêt des nœuds de calcul - 30/01/2015

Ajouté par Pierre Gay il y a presque 4 ans

Les nœuds de calcul ont été éteints le 30 janvier un peu avant 20 heures, provoquant la perte des jobs en cours.

Nous manquons pour l'instant d'informations, mais c'est probablement dû à une coupure d'électricité ou une panne du groupe froid lui-même.

Nous redémarrons les nœuds pour reprendre ensuite la production.

Plus d'informations à venir.

02/02/2015 il s'agit d'un problème sur le groupe froid

Une alarme "circuit 1 low pressure". La température mesurée du fluide de refroidissement a dépassé la valeur tolérée, déclenchant l'arrêt de sécurité des serveurs de calcul.

Nous avons pré&venu la maintenance.

Instabilité du cluster

Ajouté par Pierre Gay il y a presque 4 ans

Suite à la maintenance des 20-21 janvier qui s'est étendue jusqu'au 23, le cluster a des instabilités.

Notamment:
  • certains modules ont disparu (par exemple: suite Intel 12.0)
  • l'espace /scratch est par moments indisponible

Clustervision est prévenu et travaille pour régler ces problèmes.

Ces problèmes proviennent d'une mise à jour des paquets logiciels, nécessaire pour des raisons de sécurité, qui ont eu des effets indésirables. Des mises à jour des piles logicielles Infiniband pourront aussi avoir un impact sur le système FhGFS.

Si vous remarquez d'autres problèmes, n'hésitez pas à le signaler par un ticket: https://redmine.mcia.univ-bordeaux.fr/projects/cluster-avakas/issues/new

Maintenance Avakas (20/01/2015 - 21/01/2015)

Ajouté par Pierre Gay il y a environ 4 ans

Une extinction de la machine est prévue les 20 et 21 janvier 2015.

Il s'agit d'une opération de maintenance visant à:
  • mettre à jour des firmwares, notamment Infiniband pour essayer d'améliorer la stabilité du réseau (voir par exemple #2194)
  • effectuer une opération mineure sur les switchs ethernet (connexion de serveurs iRODS)

Nous avons posé une réservation administrative sur le scheduler, donc il ne devrait pas y a voir de perte de jobs. Les calculs en attente seront schédulés au redémarrage de la machine.

Problème /scratch (26/09/2014) (un commentaire)

Ajouté par Pierre Gay il y a environ 4 ans

Depuis le 24/09/2014 dans la soirée, le filesystem /scratch était bloqué. Cela a impacté tous les jobs qui l'utilisaient.

Nous l'avons remis en service à plusieurs reprises.

Il nous semble que c'est lié à des problèmes de connexion Infiniband de l'un des serveurs FhGFS.

Nous avons demandé un diagnostic plus précis aux constructeurs du réseau Infiniband et aux développeurs du système FhGFS.

Nous vous tiendrons au courant des informations que nous obtiendrons. Dans l'intervalle, des perturbations sont malheureusement à prévoir sur ce système.

29/09/2014:
Le problème semblait provenir de différentes défaillances Infiniband: la connexion d'un des serveurs FhGFS et une partie du switch provoquaient des erreurs dans les communications. Une connexion/déconnexion du serveur et le redémarrage de la partie fautive semblent avoir résolu le problème.

Panne groupe froid (15/09/2014) (2 commentaires)

Ajouté par Pierre Gay il y a environ 4 ans

Probablement suite à des coupures électriques ce weekend, le groupe froid associé à Avakas est tombé en panne.

Privé de refroidissement, le cluster a automatiquement éteint tous les nœuds de calcul pour éviter une surchauffe de la salle machine.

Nous avons contacté la maintenance du constructeur.

Nous vous tiendrons au courant de l'évolution de la situation.

15/09/2014:
La société SAITA est intervenue sur le groupe froid cet après midi. Une alarme "flow switch 1" bloquait le système. Le groupe a été redémarré, mais ce soir, l'alarme est de nouveau apparue. Le Cluster est toujours arrêté, nous attendons une nouvelle intervention pour demain.

16/9/2014:
Nouvelle intervention de la société SAIA. Le groupe froid est réparé (ballon d'expansion regonflé, fuite de gaz colmatée). Après quelques heures de surveillance et de tests, nous remettons le cluster en production.

formation nouveaux utilisateurs

Ajouté par Pierre Gay il y a plus de 4 ans

Date: 23 juin à 10 h,
Lieu: La salle de formation de la DSI bâtiment A5.
Prérequis: compte utilisateur Avakas valide.

Programme:
  • Présentation du cluster (matériel, composants)
  • Communauté Avakas
  • Environnement logiciel
  • Calculer sur la machine - utilisation du scheduler
  • Gestion des données
  • Visualsation déportée

Pour vous inscrire: https://groupes.renater.fr/reunion/foodle/Formation-utilisateurs-Avakas-2014-53733

Date limite d'inscription: 1 juin

Support de la formation : Formation-Initiale-Avakas-2014-06-23

1 2 3 4 (1-10/36)

Formats disponibles : Atom