Annonces

cluster Avakas: Extinction accidentelle des nœuds - 06/12/2016

Ajouté par Pierre Gay il y a environ 2 ans

Nous avons dû redémarrer le système d'administration du cluster pour régler un problème sur le nœuds maître d'Avakas.

Ce genre d'opérations se passe d'habitude sans trop de problème, malheureusement, cette fois-ci, le système a cru à une panne du groupe froid qui pour une fois n'y était pour rien. Dès lors, le système de sécurité a automatiquement forcé l'extinction des nœuds de calcul, tuant tous les jobs qui tournaient à ce moment.

Nous redémarrons les nœuds et remettrons le cluster en production au plus tôt.

Veuillez nous excuser pour la perte de travail occasionnée.

Pierre Gay

iRODS: Formation utilisateurs Bordeaux le 26/01/2017

Ajouté par Pierre Gay il y a environ 2 ans

La formation aura lieu le 26/01/2017 de 14h à 16h en salle de formation du bâtiment A5 (accès http://cartographie.u-bordeaux.fr/TPG_ZoomA5.html)

Le nombre de place étant limité, veuillez vous inscrire ici: https://groupes.renater.fr/reunion/foodle/formation-MCIA-iRODS-581c6

Support de présentation: mcia-irods-tutorial-2017-01-26.pdf

MCIA: Prochaine formation, 17-19 janvier 2018 : CALCUL PARALLÈLE

Ajouté par Khodor Khadra il y a environ 2 ans

Cliquez sur le lien ci-dessous pour avoir accès au catalogue des formations :
Formations

MCIA: le Mésocentre recrute

Ajouté par Pierre Gay il y a plus de 2 ans

Deux postes CDD d'ingénieurs d'administration des ressources de calcul sont proposés dans le cadre du Mésocentre de Calcul Intensif Aquitain. Ces postes sont à pourvoir pour octobre 2016.

Descriptif des postes: http://www.cue-aquitaine.fr/docs/recrutement/MCIA-2%20postes-Administrateurs%20des%20syst%C3%A8mes%20informatiques.pdf

cluster Avakas: Panne de climatisation le 29/04/2015

Ajouté par Pierre Gay il y a plus de 2 ans

A 10 heures ce matin, une panne sur le groupe froid d'Avakas (un ventilateur défectueux) a provoqué la coupure automatique des nœuds de calcul. Les jobs qui tournaient sont malheureusement perdus.

J'attends une intervention du frigoriste pour plus d'informations et avec l'espoir de redémarrer la production au plus vite.

Veuillez nous excuser pour la gêne occasionnée.

L'équipe Avakas.

02/05/2016: un ventilateur en panne. Nous espérons avoir bientôt plus d'informations sur un éventuel redémarrage

03/05/2016: Une solution temporaire a été mise en place par le frigoriste pour fonctionner en mode dégradé en attendant le remplacement du ventilateur défectueux. J'ai pu rallumer ~1000 cœurs sans mettre le feu à la salle machine (jusqu'ici). Le scheduler accepte de nouveau les jobs.

25/05/2016: Le ventilateur fautif est remplacé. Tous les nœuds ont été redémarrés et sont en production.

iRODS: formation utilisateurs à Pau 15/01/2016

Ajouté par Pierre Gay il y a presque 3 ans

La formation aura lieu :
  • Salle 30 - Bâtiment Duboué - UFR Sciences et Techniques - Campus de Pau
  • Vendredi 15 janvier 2016 de 14h00 à 16h00

Le support de la formation: mcia-irods-tutorial-2016-01-15.pdf

iRODS: Mise en production - Formation utilisateurs

Ajouté par Pierre Gay il y a environ 3 ans

Le projet MCIA-iRODS passe officiellement en production à partir d'aujourd'hui.

Afin de marquer cet événement, deux formations utilisateurs sont organisées:
  • le 30/09/2015 de 14h à 16h - Université de Bordeaux, Talence, salle de formation du bâtiment A5 (accès http://cartographie.u-bordeaux.fr/TPG_ZoomA5.html)
  • le 01/10/2015 de 14h à 16h - Université de Pau et des Pays de l'Adour, Campus de Pau, bâtiment Duboué, salle 31

Support de présentation: mcia-irods-tutorial-2015-09-30.pdf

cluster Avakas: Orage le 08/05/2015

Ajouté par Pierre Gay il y a plus de 3 ans

Un orage a fait disjoncter le groupe froid qui climatise Avakas le 08/05/2015 vers 4 heures du matin.

Conformément à sa configuration, le cluster a brutalement coupé tous les nœuds de calcul afin d'éviter une surchauffe de la salle machine.

Tous les jobs alors en cours sont perdus.

Nous remettons progressivement les machines en fonctionnement et relancerons la production dès que possible.

Veuillez nous excuser pour la gêne occasionnée.

09/05/2015: redémarrage de la production vers 18h.

11/05/2015: à cause d'un oubli de ma part (#2979), la possibilité de soumettre de nouveaux jobs n'est rétablie que ce jour.

cluster Avakas: maintenance Infiniband du 01/04/2015

Ajouté par Pierre Gay il y a plus de 3 ans

Le remplacement d'une partie du switch Infiniband défectueuse (voir #2894) va nécessiter le reboot du switch.

Ce reboot étant responsable de l'arrêt de tous les jobs MPI actif, une réservation administrative sur le scheduler est posée pour permettre l'opération, prévue le 01/04/2015.

Cette réservation interdira le démarrage des jobs dans la période de maintenance.

Veuillez nous excuser pour la gêne occasionnée.

01/04/2015: reboot effectué.
Le système Infiniband n'est cependant visiblement toujours pas stable.
Nous redémarrons la production, mais les jobs MPI risquent de rencontrer des problèmes. Si c'est votre cas, n'hésitez pas à nous en faire part avec un ticket.

Nous allons continuer de chercher la source du problème avec Clustervision. Nous vous tiendrons au courant de nos avancées.

02/04/2015: travaux clustervision (mise à jour des noyaux des nœuds et stack Infiniband)
Tout n'est pas fini. Les travaux continueront la semaine prochaine.

14/04/2015: ça ne va pas mieux. Ce matin, panne de /scratch: le switch Infiniband ne répond pas. Clustervision est alerté. (#2931)

cluster Avakas: Arrêt des nœuds de calcul - 30/01/2015

Ajouté par Pierre Gay il y a presque 4 ans

Les nœuds de calcul ont été éteints le 30 janvier un peu avant 20 heures, provoquant la perte des jobs en cours.

Nous manquons pour l'instant d'informations, mais c'est probablement dû à une coupure d'électricité ou une panne du groupe froid lui-même.

Nous redémarrons les nœuds pour reprendre ensuite la production.

Plus d'informations à venir.

02/02/2015 il s'agit d'un problème sur le groupe froid

Une alarme "circuit 1 low pressure". La température mesurée du fluide de refroidissement a dépassé la valeur tolérée, déclenchant l'arrêt de sécurité des serveurs de calcul.

Nous avons pré&venu la maintenance.

1 2 3 ... 5 (1-10/42)

Formats disponibles : Atom