View in

English

Quand échec est synonyme de bonne nouvelle

Le logiciel de gestion de la charge de calcul du CERN a été soumis à un test de résistance de très grande envergure en vue de répondre aux futurs besoins

|

a corridor between two walls of black computing elements with green and blue tiny lights

Un couloir de serveurs informatiques dans le centre de données principal du CERN. (Image : Anthony Grossir/CERN)

« Nous avons essayé de le faire planter... Et nous avons échoué. » Telles étaient les paroles des équipes informatiques qui ont soumis le logiciel de gestion de la charge de calcul du CERN à un test de résistance, en lui envoyant un très grand nombre de tâches à traiter afin de le faire planter. En vain. « Même s’il ne s’agissait que d’un test effectué en dehors de conditions réelles d’exploitation, les résultats obtenus sont étonnamment positifs, sachant que nous sommes seulement au début du processus de préparation du projet de LHC à haute luminosité (HL-LHC) », explique Antonio Delgado, spécialiste en informatique et responsable du test.

Les équipes informatiques ont lancé une série de tests destinés à préparer l’infrastructure informatique du CERN aux immenses quantités de données qui seront collectées par les expériences du HL-LHC. La machine, qui sera mise en service en 2030, génèrera bien plus de collisions que son prédécesseur. La luminosité passera de 125 femtobarns inverses par an, valeur actuelle produite par le LHC, à 300 femtobarns inverses par an, voire plus, avec le HL-LHC. Sachant qu’un femtobarn inverse correspond à environ 100 000 milliards de collisions (potentielles), le HL-LHC génèrera des quantités astronomiques de données qui seront traitées par l’infrastructure informatique du CERN.

Le test, réalisé en octobre, avait pour objectif de tester les limites du logiciel de gestion de la charge de calcul du CERN, à savoir le logiciel conçu pour collecter les requêtes envoyées par les physiciens et les distribuer aux différents ordinateurs. Pendant le test de résistance, le système a réussi à exécuter plus de deux millions de tâches (ou jobs dans le jargon des physiciens) simultanément sur une période de 13 heures. Environ 16 800 tâches étaient injectées dans le système chaque minute, ce qui correspond approximativement à 20 fois le débit moyen actuel. L’ensemble du système a été capable de supporter cette charge et la durée moyenne de traitement des tâches demeurait raisonnable (environ 5 minutes), et ce malgré l’ampleur de l’opération.

Le système de gestion de la charge de calcul du CERN tourne à l’aide de HTCondor, un logiciel open source développé à l’origine au Centre de calcul à haut débit (Center for High Throughput Computing) du Département des sciences informatiques de l’Université du Wisconsin à Madison, aux États-Unis. Ce système s’appuie sur deux éléments centraux : le démon collecteur et le démon négociateur, un « démon » étant un type de logiciel qui s’exécute en arrière-plan. Les deux démons collectent ensemble les requêtes envoyées par les utilisateurs pour exécuter des tâches, contrôlent les ressources de calcul disponibles dans l’ensemble correspondant, et se servent de cette information pour attribuer les tâches aux machines adaptées. « Le CERN utilise HTCondor depuis 2016 pour le traitement par lots, explique Ben Jones, responsable de l’équipe qui gère cette fonctionnalité. La proximité que nous avons entretenue avec les développeurs a aidé notre équipe ainsi que celles d'autres sites de physique des hautes énergies à adapter la technologie aux besoins des expériences. » En somme, HTCondor fournit le mécanisme de mise en file d’attente des tâches, la politique pour leur planification, le système de priorisation, le contrôle des ressources, ainsi que la gestion des ressources.

Ce test sera suivi de nombreux autres, qui seront également réalisés sur le système de stockage sur disque du CERN, destiné à conserver les vastes volumes de données produits par la communauté scientifique.