Le conseil de recherche pour les grands équipements scientifiques et technologiques (STFC, Science and Technology Facilities Council) offre aux organismes de recherche un espace de stockage pour leurs données numériques. Ce data center (centre de données) traite plus de 10.000 Gb (10 Tb) de données par jour. Spécialement conçu pour le stockage de données scientifiques, il est géré par l’équipe du Data services group.
L’objectif du Data services group est d’offrir une plateforme commune permettant de réduire les coûts de stockage et de traitement de ces informations. Le STFC offre ses services à de nombreux organismes de recherche britanniques ou internationaux. Parmi ses clients, deux accélérateurs de particules, très gros producteurs de données : le Diamond Light Source situé au Royaume-Uni et le Large Hadron Collider (LHC) du CERN, le plus puissant accélérateur de particules au monde, situé à la frontière franco-suisse.
Le LHC peut générer des petabits de données par seconde (1 Pbit équivaut à un million de Gbits). Pour des raisons de capacité de stockage et de traitement, la majorité de ces données, dont la valeur scientifique n’est pas assez importante, sont ensuite supprimées. Lors d’une expérience du LHC, environ 10 Tbits de données transitent du LHC au data center du STFC à travers un réseau de fibre optique spécialement dédié, qui autorise des débits jusqu’à 4 Gbits/s.
Techniquement, le fonctionnement du data center du STFC repose sur deux robots SD8500 d’Oracle Storage Tek capables de stocker chacun jusqu’à 7 Pbits de données sur des bandes magnétiques. Les robots sélectionnent automatiquement les disques sur lesquels stocker les données. Ces dernières sont ensuite catégorisées grâce au catalogue open source de métadonnées ICAT, ce qui facilite leur recherche par des équipes tierces n’ayant pas participé à la production des données. L’accès aux informations peut se faire à partir d’un grand nombre d’interfaces différentes (api, gridftp, rfio, srm, srb, web, nfs and smb/cifs).
Les contraintes pour le stockage de données scientifiques sont bien plus fortes que pour la plupart des données issues d’une entreprise. Il faut en effet être capable de sauvegarder ces données pendant un temps indéterminé et les rendre accessibles à travers des formats compréhensibles et réutilisables par tous.
La gestion des données scientifiques est un des prochains défis pour les scientifiques dont les projets de plus en plus complexes, et impliquant un grand nombre d’acteurs, font appel à une masse de données toujours plus volumineuse. C’est le cas pour les recherches sur le changement climatique par exemple. Le data center du STFC apparaît comme un instrument de pointe pour soutenir ces grands projets.
Sources :
Data services group du SFTC, - http://www.stfc.ac.uk/e-Science/org...
Computing - 26/07/11 - http://redirectix.bulletins-electro...
Auteur : Pierre Chrzanowski