View in

English

Le stockage des données du CERN se prépare pour la troisième période d’exploitation des détecteurs

La consolidation importante de l'infrastructure de stockage de données a culminé en 2020 avec l'entrée en production du CTA, le nouveau logiciel d'archivage sur bandes du CERN

On 29 June, the CERN Tape Archive (CTA) officially entered production after 83 petabytes of ATLAS data initially stored in CASTOR were successfully migrated to CTA

Le 29 juin 2020, CTA est officiellement entré en production après que 83 pétaoctets de données ATLAS, initialement stockées dans CASTOR, y furent migrées avec succès.

Le résultat, ou le produit, du programme expérimental du CERN sont ses données : de grandes quantités de données sont produites par les détecteurs dans les expériences du LHC ainsi que dans tout le complexe des accélérateurs. Ces données sont conservées par le groupe de stockage du département IT afin de permettre leur reconstruction et analyse par les physiciens et physiciennes via la Grille mondiale de calcul du LHC (WLCG). Une copie de toutes les données de physique du CERN, soit plus de 340 pétaoctets, est conservée sur bandes magnétiques dans le Centre de calcul du CERN, également appelé le «Tier-0 » de la Grille WLCG.

Au cours des deux premières périodes d’exploitation du LHC, le logiciel utilisé pour gérer l'archivage des données de physique était CASTOR (CERN Advanced STORage), le gestionnaire de stockage avancé du CERN. Ce dernier était conçu pour gérer à la fois le stockage sur disques et sur bandes. Au cours des dix dernières années, les exigences ont évolué et un nouveau système de gestion des disques, EOS, a été développé pour le stockage immédiat, « en ligne », et l'analyse des données. Étant donné qu'EOS ne permet pas le stockage « hors ligne » et l'archivage des données, un nouveau projet d’archivage de données sur bandes, CTA (CERN Tape Archive), a été conçu pour être l’emplacement final sur bandes d'EOS. CTA est une évolution du système de bandes CASTOR qui présente l’avantage d’éviter d’avoir à maintenir un deuxième système de gestion de disques.

Au début de l’année 2020, l'équipe CTA a débuté une phase de tests dans le cadre d’une campagne de retraitement menée par ATLAS pour toutes ses données de l’exploitation 2. Au cours de cet exercice, les données brutes stockées dans le Tier-0 ou dans les centres de calcul de la Grille WLCG dits Tier-1 (qui sont des centres de calcul nationaux archivant une part proportionnelle des données du LHC) ont été rappelées afin d'être « reconstruites » en données de physique significatives qui peuvent être analysées pour détecter des signes de nouvelle physique. CTA a remplacé CASTOR dans cet exercice pour le rappel des données stockées sur bandes et a obtenu le taux d'erreur le plus bas de tous les sites, apportant ainsi la preuve de sa performance et fiabilité pour les transferts de gros volumes.

La mise en production de CTA a été retardée par les perturbations inhérentes à la pandémie de COVID-19 et le passage au télétravail, l’équipe CTA et l'équipe de gestion des données d'ATLAS devant s’adapter à de nouvelles méthodes de communication et de planification des tests. Grâce à un fort esprit de coopération au cours des travaux d’intégration et des derniers tests de mise en service, la migration des données d’ATLAS a finalement pu avoir lieu durant les deux dernières semaines de juin. Cela a impliqué le déplacement des métadonnées (les données physiques elles-mêmes ne sont pas déplacées) de 86 millions de fichiers de CASTOR vers CTA, soit la totalité des données produites par ATLAS. Après la migration des données d’ATLAS, CTA est entré officiellement en service le 29 juin 2020.

Toutes les autres expériences du CERN, des grands détecteurs du LHC aux plus petites expériences, migreront vers CTA à partir du mois d’octobre, à commencer par ALICE. Les serveurs de disques de CASTOR pourront ainsi être réutilisés à d’autres fins.

Outre la mise en production de CTA, le CERN se prépare à la troisième période d’exploitation en installant une nouvelle bibliothèque de bandes dans le Centre de calcul, et en améliorant FTS (« File Transfer Service », Service de Transfert des Documents). Ce système, qui distribue la majorité des données du LHC à travers la Grille WLCG, a bénéficié de plusieurs améliorations significatives de ses performances. FTS travaille maintenant de concert avec CTA et est utilisé par plus de 25 expériences au CERN et dans d’autres expériences scientifiques faisant un usage intensif des données.

Michael Davis

Dans le cadre de la consolidation du stockage des données, une nouvelle bibliothèque de bandes a été installée en août 2020 dans le Centre de calcul du CERN. (Video: CERN)