Annonces

cluster Avakas: Instabilité du cluster

Ajouté par Pierre Gay il y a presque 4 ans

Suite à la maintenance des 20-21 janvier qui s'est étendue jusqu'au 23, le cluster a des instabilités.

Notamment:
  • certains modules ont disparu (par exemple: suite Intel 12.0)
  • l'espace /scratch est par moments indisponible

Clustervision est prévenu et travaille pour régler ces problèmes.

Ces problèmes proviennent d'une mise à jour des paquets logiciels, nécessaire pour des raisons de sécurité, qui ont eu des effets indésirables. Des mises à jour des piles logicielles Infiniband pourront aussi avoir un impact sur le système FhGFS.

Si vous remarquez d'autres problèmes, n'hésitez pas à le signaler par un ticket: https://redmine.mcia.univ-bordeaux.fr/projects/cluster-avakas/issues/new

cluster Avakas: Maintenance Avakas (20/01/2015 - 21/01/2015)

Ajouté par Pierre Gay il y a environ 4 ans

Une extinction de la machine est prévue les 20 et 21 janvier 2015.

Il s'agit d'une opération de maintenance visant à:
  • mettre à jour des firmwares, notamment Infiniband pour essayer d'améliorer la stabilité du réseau (voir par exemple #2194)
  • effectuer une opération mineure sur les switchs ethernet (connexion de serveurs iRODS)

Nous avons posé une réservation administrative sur le scheduler, donc il ne devrait pas y a voir de perte de jobs. Les calculs en attente seront schédulés au redémarrage de la machine.

iRODS: Tutoriel bêta testeurs 20/11/2014

Ajouté par Pierre Gay il y a environ 4 ans

Le 2 novembre 2014 de 14h à 16h au CBiB.

Supports de présentation:

cluster Avakas: Problème /scratch (26/09/2014) (un commentaire)

Ajouté par Pierre Gay il y a environ 4 ans

Depuis le 24/09/2014 dans la soirée, le filesystem /scratch était bloqué. Cela a impacté tous les jobs qui l'utilisaient.

Nous l'avons remis en service à plusieurs reprises.

Il nous semble que c'est lié à des problèmes de connexion Infiniband de l'un des serveurs FhGFS.

Nous avons demandé un diagnostic plus précis aux constructeurs du réseau Infiniband et aux développeurs du système FhGFS.

Nous vous tiendrons au courant des informations que nous obtiendrons. Dans l'intervalle, des perturbations sont malheureusement à prévoir sur ce système.

29/09/2014:
Le problème semblait provenir de différentes défaillances Infiniband: la connexion d'un des serveurs FhGFS et une partie du switch provoquaient des erreurs dans les communications. Une connexion/déconnexion du serveur et le redémarrage de la partie fautive semblent avoir résolu le problème.

cluster Avakas: Panne groupe froid (15/09/2014) (2 commentaires)

Ajouté par Pierre Gay il y a environ 4 ans

Probablement suite à des coupures électriques ce weekend, le groupe froid associé à Avakas est tombé en panne.

Privé de refroidissement, le cluster a automatiquement éteint tous les nœuds de calcul pour éviter une surchauffe de la salle machine.

Nous avons contacté la maintenance du constructeur.

Nous vous tiendrons au courant de l'évolution de la situation.

15/09/2014:
La société SAITA est intervenue sur le groupe froid cet après midi. Une alarme "flow switch 1" bloquait le système. Le groupe a été redémarré, mais ce soir, l'alarme est de nouveau apparue. Le Cluster est toujours arrêté, nous attendons une nouvelle intervention pour demain.

16/9/2014:
Nouvelle intervention de la société SAIA. Le groupe froid est réparé (ballon d'expansion regonflé, fuite de gaz colmatée). Après quelques heures de surveillance et de tests, nous remettons le cluster en production.

cluster Avakas: formation nouveaux utilisateurs

Ajouté par Pierre Gay il y a plus de 4 ans

Date: 23 juin à 10 h,
Lieu: La salle de formation de la DSI bâtiment A5.
Prérequis: compte utilisateur Avakas valide.

Programme:
  • Présentation du cluster (matériel, composants)
  • Communauté Avakas
  • Environnement logiciel
  • Calculer sur la machine - utilisation du scheduler
  • Gestion des données
  • Visualsation déportée

Pour vous inscrire: https://groupes.renater.fr/reunion/foodle/Formation-utilisateurs-Avakas-2014-53733

Date limite d'inscription: 1 juin

Support de la formation : Formation-Initiale-Avakas-2014-06-23

cluster Avakas: Coupure électrique du 13/06/2014 au 16/06/2014

Ajouté par Pierre Gay il y a plus de 4 ans

Une coupure électrique est prévue le 14 juin 214.

Nous éteindrons les machines à partir du 13 et jusqu'au 16 juin.

Une réservation a été posée sur le scheduler pour qu'aucun job ne soit tué par l'arrêt des machines.

Vous pouvez donc soumettre tous vos jobs sans vous en préoccuper.

cluster Avakas: panne NFS du 18/11/2013

Ajouté par Pierre Gay il y a environ 5 ans

Depuis lundi, et suite au blocage de la semaine dernière, le système NFS FS_home est en panne.

Les données ne sont pas perdues, mais nous essayons de réparer les erreurs du filesystem.

Le cluster est éteint pendant l'opération de maintenance.

Nous vous tiendrons au courant de l'évolution de la situation.

21/11/2013: Redémarrage du cluster.
Le Filesystem a été réparé. Normalement, il ne devrait pas y avoir eu de pertes de données.

Les frontaux sont à nouveau ouverts, le scheduler accepte les jobs.

11:00 Nouvelle panne: le NFS est à nouveau tombé.
Le cluster est fermé à la connexion.
Nous relançons une réparation du filesystem pour commencer

16:00: le filesystem n'a pas d'erreur. Nous lançons un diagnostic du hardware du serveur.

22/11/2013: pas de problème hardware détecté. Nous allons faire une mise à jour des firmwares du contrôleur et du noyau linux.
Piste possible: de très gros fichiers (> 10Go) pourraient provoquent la panne.

24/11/203:
  • Firmware du contrôleur RAID, noyau du serveur NFS mis à jour
  • Clustervision et nous avons essayé de stresser le serveur avec des tests (beaucoup de clients, essais avec des fichiers volumineux). Pas de panne.
  • Le cluster est remis en production.

cluster Avakas: maintenance chillerle 16/12/2013

Ajouté par Pierre Gay il y a environ 5 ans

Une opération de maintenance est prévue pour son remplacement le 16/12/2013.

Nous en profiterons pour faire quelques mises à jour dans les firmwares du cluster. Le cluster sera inaccessible pendant l'opération.

Profitez-en pour soumettre encore plus de jobs que d'habitude! Ils ne seront ni tués ni annulés. Ceux qui n'auront pas la possibilité de tourner avant la maintenance seront lancés après.

cluster Avakas: Présentation et formation au débogueur Totalview

Ajouté par Pierre Gay il y a environ 5 ans

Date: 10/12/2013, 14h-17h
Lieu: salle de formation - Direction Informatique Université Bordeaux1
Prérequis: aucun
Programme:
  • Présentation « Un bug, combien ça coûte ? »
    • A travers des exemples concrets et souvent édifiants, nous montrerons dans quelle mesure l’activité de débogage est cruciale.
    • Ensuite, nous examinerons quels sont les moyens et techniques que TotalView met à votre disposition pour vous aider à éradiquer ces bugs : reverse-debugger, watchpoints, détecteur de fuites ou corruption mémoire, etc…
    • Pour terminer, nous parlerons des toutes dernières technologies associées au débogage avec TotalView.
  • Session « live »: une série de TP TotalView sur ordinateur que vous effectuerez à votre rythme :
    • Navigation dans l’application, en marche avant et marche arrière (ReplayEngine)
    • Examen des processus / threads (cas d’une application parallèle)
    • Breakpoints / watchpoint
    • examen des variables
    • examen de la mémoire dynamique (corruption, fuite, etc..)

En raison d'un nombre limité de places, les personnes intéressées doivent s'inscrire par email à

1 2 3 4 5 (11-20/42)

Formats disponibles : Atom