Analyser un milliard de collisions de protons par seconde ou des dizaines de milliers de collisions d'ions plomb très complexes n'est pas chose simple pour une ferme de calcul traditionnelle. En vue des ultimes mises à niveau des expériences LHC l'an prochain, la demande en puissance de calcul pour le traitement des données a considérablement augmenté. Dans la mesure où elles ne pourraient pas relever les nouveaux défis qui les attendent en termes de calcul avec des unités centrales de traitement classiques (CPU), les quatre grandes expériences considèrent les unités de traitement graphique, ou processeurs graphiques (GPU).
Ces processeurs de haute efficacité, spécialisés dans le traitement des images, ont été conçus initialement pour optimiser le rendu d'images 3D. Ces deux dernières années, leur utilisation a fait l'objet d'études par les expériences LHC, la Grille de calcul mondiale pour le LHC (WLCG) et CERN openlab. L'utilisation accrue de processeurs graphiques en physique des hautes énergies augmenterait la puissance de calcul totale des systèmes informatiques limités par l'espace ou l'énergie électrique, et pourrait également améliorer l'efficacité énergétique globale.
« L'ambitieux programme d'améliorations du LHC pose un certain nombre de défis informatiques vis-à-vis desquels les processeurs graphiques ont un rôle important à jouer, avec le recours aux techniques d'apprentissage automatique », explique Enrica Porcari, à la tête du département IT du CERN. « Depuis 2020, le département IT du CERN donne accès à des plateformes GPU dans le centre de données, qui se sont avérées utiles pour un certain nombre d'applications. En outre, CERN openlab mène des études importantes sur l'utilisation des processeurs graphiques pour l'apprentissage automatique grâce à des projets de R&D menés en collaboration avec l'industrie, et le groupe Collaborations pour l'informatique scientifique apporte sa contribution pour aider à “porter” – et optimiser – le code clé des expériences. »
ALICE a fait figure de pionnier en utilisant dès 2010 les GPU pour son système de filtration des données (HLT). C'est à ce jour la seule expérience à les utiliser aussi largement. Le nouveau détecteur amélioré ALICE possède plus de 12 milliards de composants électroniques de détection qui sont lus en permanence, générant un flux de données de plus de 3,5 téraoctets par seconde. Une fois le traitement de premier niveau passé, le flux passe à 600 gigaoctets par seconde. Ces données sont analysées en ligne sur une ferme de calcul haute performance faisant intervenir 250 nœuds, équipés chacun de huit GPU et deux CPU 32 cœurs. La plupart des logiciels qui permettent, en assemblant les signaux individuels des détecteurs de particules, de reconstruire les trajectoires des particules (reconstruction d'événements) ont été adaptés pour pouvoir fonctionner avec des GPU.
En particulier, la reconstruction et la compression en ligne, à partir de GPU, des données de la Chambre à projection temporelle (TPC), plus important générateur de données, permettent à ALICE de ramener le débit à un maximum de 100 gigaoctets par seconde avant l’enregistrement des données sur le disque. Sans processeurs graphiques, il faudrait environ huit fois plus de serveurs du même type et d'autres ressources pour gérer le traitement en ligne des données issues des collisions de plomb, à un taux d'interaction de 50 kHz.
La reconstruction en ligne sur processeurs graphiques a été utilisée avec succès par ALICE lors de la collecte de données avec faisceau pilote réalisée à la fin du mois d'octobre 2021. Lorsqu'il n'y a pas de faisceau dans le LHC, la ferme de calcul en ligne est utilisée pour la reconstruction en différé. Pour tirer parti du plein potentiel des processeurs graphiques, le logiciel complet de reconstruction d'ALICE a été installé avec des processeurs graphiques et plus de 80 % du travail de reconstruction pourra s’exécuter sur ces processeurs.
Depuis 2013, les scientifiques de LHCb mènent des travaux de R&D sur l'utilisation d'architectures informatiques parallèles, en particulier des GPU, pour remplacer les parties du traitement qui se feraient normalement sur des CPU. L’aboutissement de ces travaux a pris la forme du projet Allen (traitement complet de premier niveau en temps réel effectué intégralement sur des GPU), qui permet de traiter le débit de données de l'expérience au moyen uniquement de 200 cartes graphiques environ. Allen permet à LHCb de trouver les trajectoires des particules chargées dès les premiers instants du traitement en temps réel. Il est possible ainsi de réduire d'un facteur 30 à 60 le débit de données avant que le détecteur soit aligné et étalonné et qu'une reconstruction plus complète sur CPU soit exécutée. Un système aussi compact permet également de faire des économies d'énergie notables.
À compter de 2022, l'expérience LHCb traitera en temps réel 4 téraoctets de données par seconde et sélectionnera chaque seconde 10 gigaoctets de collisions les plus intéressantes au LHC pour des analyses de physique. L'approche suivie par LHCb est unique en son genre. Au lieu de décharger le travail, l'expérience analysera chaque seconde sur les GPU les 30 millions de croisements de paquets de particules.
Outre l'amélioration du traitement sur CPU, depuis 2018, LHCb a également augmenté d'un facteur 20 l'efficacité énergétique de la reconstruction effectuée par le détecteur. Les scientifiques de LHCb attendent maintenant avec impatience d'utiliser le nouveau système avec les premières données de 2022 afin que tout le potentiel de physique du détecteur LHCb amélioré puisse s'exprimer.
CMS a elle reconstruit pour la première fois des données de collision au LHC avec des GPU lors de la collecte de données avec faisceau pilote d’octobre 2021. Durant les deux premières périodes d'exploitation du LHC, le système de déclenchement de haut niveau (HTL) de CMS a fonctionné avec une ferme de calcul classique comprenant plus de 30 000 cœurs de processeurs. Toutefois, comme l'ont montré les études pour l'amélioration de phase 2 de CMS, l'utilisation de processeurs graphiques contribuera à limiter le coût, la taille et la consommation d'énergie de la ferme de calcul pour le déclenchement de haut niveau lorsque la luminosité du LHC sera plus élevée. Pour acquérir de l'expérience avec une ferme hétérogène et l'utilisation de GPU dans un environnement de production, CMS équipera de GPU tout son système de déclenchement de haut niveau dès le début de la troisième période d'exploitation : la nouvelle ferme comprendra en tout 25 600 cœurs de processeurs CPU et 400 GPU.
La puissance de calcul supplémentaire fournie par ces GPU permettra à CMS non seulement d'améliorer la qualité de la reconstruction en ligne, mais également d'élargir le programme de physique, en réalisant l'analyse de l’inspection des données en ligne beaucoup plus rapidement qu'auparavant. Actuellement, environ 30 % du traitement HTL peut être déchargé vers les GPU : reconstruction locale au niveau des calorimètres, reconstruction locale au niveau du trajectographe à pixels, reconstruction du vertex et de la trajectoire des pixels. Le nombre d'algorithmes pouvant être exécutés sur des GPU augmentera pendant la troisième période d'exploitation, d'autres composants étant en cours de développement.
ATLAS participe à un certain nombre de projets de R&D concernant l'utilisation des GPU dans le système de déclenchement en ligne, et, plus généralement, dans l'expérience. Les GPU sont déjà utilisés dans de nombreuses analyses. Ils sont particulièrement utiles pour les applications d'apprentissage automatique où l'entraînement peut être réalisé beaucoup plus rapidement. Outre l'apprentissage automatique, les travaux de R&D d'ATLAS ont visé à améliorer l'infrastructure logicielle afin de pouvoir utiliser les GPU ou d'autres processeurs plus exotiques qui pourraient être développés d'ici quelques années. Plusieurs applications complètes, dont une simulation rapide du calorimètre, utilisent désormais également des GPU, lesquels serviront de modèles pour tester les améliorations de l'infrastructure.
« Tous ces développements se produisent dans un contexte d'évolution et de diversification sans précédent du matériel informatique. Le savoir-faire et les techniques développés par les scientifiques du CERN lorsqu'ils ont cherché comment utiliser au mieux les GPU sont une base idéale pour parvenir à maîtriser les architectures de demain et les utiliser pour accroître le plus possible le potentiel de physique des expériences actuelles et futures », souligne Vladimir Gligorov, qui dirige le projet d'analyse en temps réel de LHCb.