Le nombre de données collectées auprès des expériences du Grand collisionneur de hadrons (LHC) a atteint la barre d’un exaoctet, marquant un tournant pour le système de stockage du CERN.
Chaque seconde, le LHC fait entrer en collision des milliards de protons. Les gerbes de particules produites lors de ces collisions fournissent des informations qui permettent aux scientifiques de vérifier les prédictions du Modèle standard et chercher des signes d’une nouvelle physique.
Pour les analystes, la difficulté réside dans la quantité colossale de données générées. Un système de filtre très sélectif, appelé système de déclenchement, est utilisé pour éliminer la majeure partie des données collectées par les détecteurs. Les données restantes sont ensuite acheminées vers le centre de stockage du CERN et peuvent alors être analysées par les scientifiques.
Au cours des 15 ans d’exploitation du LHC, le CERN a collecté et archivé un exaoctet de données issues des expériences de cette machine de tous les superlatifs. À titre de comparaison, un DVD simple couche standard peut contenir jusqu’à 4,7 gigaoctets de données, soit environ deux heures de vidéo. Il faudrait donc près de 50 000 ans pour regarder un film d’un exaoctet.
Stocker et préserver ces données est essentiel, car elles peuvent être analysées longtemps après avoir collectées, parfois des dizaines d’années plus tard. La plupart des données sont stockées sur bande magnétique, ce qui constitue une méthode sûre et fiable d’archiver des données numériques, avec un bon rapport coût-efficacité. Utilisée dans les fameuses cassettes 8-pistes des années 1980, la technologie des bandes magnétiques a depuis considérablement évolué au fil des années : elle permet à présent de stocker des quantités beaucoup plus importantes de données.
« Nous avons atteint un exaoctet de données, ce qui est déjà une quantité impressionnante, mais c’est loin d’être fini, souligne Jakub Mościcki, chef du groupe Stockage et gestion de données. Cela ne représente que 10 % de tout ce que nous allons devoir archiver et traiter au cours des dix prochaines années. Autant dire que nous avons du pain sur la planche. »
Le CERN se prépare actuellement au LHC à haute luminosité, qui devrait entrer en service à la mi-2030 et génèrera dix fois plus de données que le LHC. Le Centre de données du CERN doit travailler à plein régime afin d’être prêt pour le déluge de données attendues. Mais l’expérience passée montre qu’il devrait être en mesure de relever le défi.
« Quand je suis arrivé au CERN, le Centre de données était entièrement consacré à l’archivage et au traitement des données issues du Grand collisionneur électron-positon, le prédécesseur du LHC, se rappelle Jakub Mościcki. Maintenant, toutes les données tiennent sur quelques bobines. Alors, qui sait, dans 50 ans, peut-être que nous serons capables de stocker l’exaoctet de données du LHC, actuellement réparti sur 60 000 bobines, sur un tout petit dispositif de stockage. »