Annonces

cluster Avakas: Problèmes sur /scratch [24/07/2012] (un commentaire)

Ajouté par Pierre Gay il y a plus de 6 ans

La maintenance liée à la stack Infiniband qui a eu lieu la semaine dernière les 16 et 17 n'a pas eu les effets bénéfiques escomptés.

Outre des difficultés avec les nouvelles versions de librairie MPI, le /scratch tombe à nouveau en panne régulièrement.

Les équipes de Clustervision essaient de corriger le problème. Nous vous tiendrons informés de la suite.

En attendant, le /scratch sera indisponible. Pour ceux dont les calculs le permettent, nous vous conseillons d'utiliser autant que possible sur l'espace /tmp/$PBS_JOBID des nœuds de calcul (voir à ce sujet: FS_tmp).

Si vos jobs n'impliquent que très peu d'entrées/sorties, vous pouvez aussi utiliser le /home (en restant très parcimonieux pour ne pas faire tomber à son tour ce filesystem).

Merci de votre patience.

cluster Avakas: Problèmes sur /scratch [29/06/2012] (un commentaire)

Ajouté par Pierre Gay il y a plus de 6 ans

Nous rencontrons depuis quelques jours de gros problèmes sur le système de fichiers /scratch.

Les serveurs qui constituent le filesystem FhGFS tombent en panne assez régulièrement sans qu'on sache (encore) trop pourquoi

Nous avons soumis le problème à Clustervision et attendons leur analyse.

Le /scratch doit être considéré comme très instable pendant un certain temps.

Veuillez accepter nos excuses pour ce dérangement.

Nous vous tiendrons au courant de la suite.

Suivi 02/07/2012:
Problèmes Infiniband sur les serveurs FhGFS. (?)
Maintenance /scratch prévue le 5 juillet.

cluster Avakas: Switch Infiniband à nouveau en panne

Ajouté par Pierre Gay il y a presque 7 ans

Le switch Infiniband donne à nouveau des signes de faiblesse.

L'effet sensible est que certains jobs MPI tombent en erreur. Parfois, c'est le scratch qui est en panne.

Nous avons contacté la maintenance qui a identifié le problème et attendons une solutions.

Nous vous tiendrons informés de l'avancée sur ce sujet.

Suivi: la panne est résolue (un nœud avait mis la pagaille sur le switch)

cluster Avakas: Formation initiale Avakas 11/04/2012

Ajouté par Pierre Gay il y a environ 7 ans

Nous vous proposons une formation de base à l'utilisation du cluster Avakas.

Elle aura lieu à la Direction Informatique (Université Bordeaux - 1 bâtiment A5 - salle de formation) le 11/04/2012 de 14h à 16h.

L'objectif de cette session est de présenter la machine et son utilisation de base aux nouveaux/futurs utilisateurs.

En raison d'un nombre limité de places (20), les personnes intéressées doivent s'inscrire par mail à

Les sujets abordés comprendront:

Présentation du cluster (matériel, composants)
Environnement logiciel
Calculer sur la machine - utilisation du scheduler
Gestion des données

Il est conseillé aux stagiaires de faire si nécessaire une demande préalable d'ouverture de compte sur la machine et de venir avec un ordinateur portable (optionnel).

cluster Avakas: opération de maintenance le 13/03/12

Ajouté par Pierre Gay il y a environ 7 ans

Une opération de maintenance concernant le switch Infiniband aura lieu le 13 mars dans la matinée

Une réservation administrative est posée dans le scheduler.

Aucun job ne devrait pouvoir être perturbé, mais il risque d'y avoir des difficultés d'accès au /scratch.

Suivi (13/03.2012): maintenance terminée.

cluster Avakas: Perturbations sur Avakas le 13/02/12

Ajouté par Benoit Hiroux il y a environ 7 ans

Suite a une operation de maintenance qui ne s'est pas (du tout !!!) deroulee comme prevu,
des perturbations sont a prevoir sur avakas pour aujourd'hui et jusqu'a resolution des problemes.

Vous pouvez continuer a utiliser avakas.
Nous vous informerons sur l'evolution de la situation.
Desole pour le desagrement.

cluster Avakas: Maintenance le 03/02/2012

Ajouté par Pierre Gay il y a environ 7 ans

Une opération de maintenance urgente concernant deux armoires du cluster (comprend les nœuds node133..node264 + bigmem04) aura lieu le 03 février dans l'après-midi.

Cette opération comprendra un redémarrage d'une partie de ces nœuds (133-196) et provoquera des interruptions du réseau (197-264 + bigmem04).

Afin de limiter au maximum l'impact sur la production, nous avons posé une réservation administrative qui permettra à vos nouveaux jobs de ne pas tomber sur cette partie pendant la période concernée. Malheureusement, les jobs qui sont déjà en train de tourner sur les machines redémarrées seront perdus, quant à ceux qui tournent sur les autres, ils pourront être perturbés par la coupure réseau.

Veuillez nous excuser pour la gêne occasionnée.

Suivi (06/02/2012): La maintenance est terminée et les nœuds ont été remis en production. Malheureusement, la plupart des jobs qui tournaient dessus ont été perdus. Encore toutes nos excuses.

cluster Avakas: Journée MCIA à l'UPPA le 23 janvier 2012

Ajouté par Pierre Gay il y a environ 7 ans

Le Pôle Calcul Scientifique et Traitement des Données de l'UPPA (PCSTD, http://sinum.univ-pau.fr/live/) organise le lundi 23 janvier 2012 une rencontre sur le campus palois avec les ingénieurs du Mésocentre de Calcul intensif Aquitain (MCIA, http://www.mcia.univ-bordeaux.fr/).

La matinée sera consacrée aux présentations et débats.
L'après-midi sera consacrée aux Travaux Pratiques sur l'utilisation d'Avakas.

Le support de présentation de la formation est ici: Formation initiale Avakas du 23/01/2012

cluster Avakas: /scratch de nouveau opérationnel

Ajouté par Pierre Gay il y a environ 7 ans

La maintenance du système FhGFS a eu lieu pour améliorer la stabilité du système.

Elle a consisté en le remplacement de la mémoire des 3 serveurs (passage de 24Go à 64Go de RAM par serveur).

Le système devrait maintenant être bien calibré.

cluster Avakas: maintenance /scratch

Ajouté par Pierre Gay il y a environ 7 ans

Afin d'améliorer la stabilité du scratch, nous devons planifier une maintenance des serveurs FhGFS.

Ainsi, le filesystem /scratch sera entièrement inaccessible les 25 et 26 janvier.

Cela signifie que tout job essayant d'accéder à cette partition dans cette période obtiendra une erreur...

Nous sommes désolés pour la gêne occasionnée et vous tiendrons informés du redémarrage du service.

1 2 3 4 5 (31-40/42)

Formats disponibles : Atom