Les satellites de pointe qui seront lancés au cours des deux prochaines années pour surveiller les signes vitaux de la Terre permettront de collecter d’immenses quantités de données : suivi du niveau de la mer et des courants côtiers, monitoring de la quantité d’eau douce qui s’écoule dans nos lacs et rivières, repérage de la moindre anomalie de surface, etc. Des données essentielles qui serviront à établir de meilleurs modèles climatiques et potentiellement prévenir des catastrophes. Encore faut-il être capable de traiter, stocker et analyser ce déluge d’informations…
Selon Fortune Business Insights, le marché du cloud computing atteindra plus de 791 milliards de dollars d’ici 2028. Et l’on comprend aisément pourquoi : l’explosion des datas, dans tous les domaines d’activité, nécessite des capacités de traitement et de stockage toujours plus élevées qu’une entreprise n’est pas toujours en mesure de fournir à elle seule. La plupart des ressources informatiques sont donc aujourd’hui externalisées vers des plateformes dédiées. L’Agence spatiale américaine ne fera pas exception.
Microsoft Azure, Amazon Web Services ou encore Oracle Cloud, font actuellement partie des solutions de cloud computing les plus utilisées dans le monde. Les profils affichant les compétences techniques inhérentes à ces plateformes sont aujourd’hui très recherchées, c’est pourquoi les offres de formation en la matière explosent – il est par exemple possible de suivre une formation Azure pour être certifié et prouver que l’on maîtrise pleinement la solution cloud de Microsoft, qui est utilisée aujourd’hui par de nombreuses entreprises de tous secteurs.
Un référentiel de données en constante expansion
Il semblerait que les scientifiques de la NASA doivent eux aussi se préparer à une utilisation massive du cloud. Actuellement, les archives de données scientifiques de l’Agence — qu’elle est tenue de conserver à perpétuité — sont estimées à environ 40 pétaoctets (soit 1015 octets), mais d’ici 2025, elles devraient contenir plus de 245 pétaoctets de données !
La faute aux futures missions terrestres, en particulier SWOT et NISAR, dont le lancement est prévu pour fin 2022 et début 2023 respectivement. « Il y a cinq ou six ans, on s’est rendu compte que les futures missions terrestres allaient générer un énorme volume de données et que les systèmes que nous utilisions deviendraient très vite inadaptés », explique Suresh Vannan, responsable du Physical Oceanography Distributed Active Archive Center, basé au Jet Propulsion Laboratory.
Ce centre est l’un des nombreux sites de la NASA chargés du traitement et de l’archivage des données provenant des satellites d’observation de la Terre. Actuellement, ces satellites renvoient des données brutes aux stations terrestres, où des ingénieurs se chargent de les transformer pour les rendre compréhensibles — un traitement qui augmente la taille des fichiers. Ces fichiers sont ensuite transférés sur un serveur de stockage ; quand un chercheur a besoin d’y accéder, il se connecte à ce serveur, puis télécharge les données souhaitées sur sa propre machine.
Pour les anciennes missions, qui renvoient des quantités de données relativement faibles, cette procédure ne pose pas vraiment de problème. Mais pour les missions à venir, ce ne sera plus possible. « Nous n’avons tout simplement pas l’espace de serveur physique supplémentaire au JPL avec une capacité et une flexibilité suffisantes pour prendre en charge à la fois NISAR et SWOT », a déclaré Hook Hua, architecte des systèmes de données scientifiques du JPL pour les deux missions. Sans compter que la mise en place et l’exploitation de centres de données physiques sur site sont très coûteuses.
Une nouvelle ère pour les sciences de la Terre
La mission SWOT (Surface Water and Ocean Topography) a pour objectif de surveiller le niveau des océans et des eaux de surface, ou encore d’estimer le débit des rivières ; ces données permettront notamment d’améliorer les modèles climatiques. La mission NISAR (NASA-Indian Space Research Organization Synthetic Aperture Radar) doit, quant à elle, étudier la dynamique de notre planète, les processus en cours dans les régions arctiques, puis surveiller les écosystèmes et les nappes phréatiques. Ces deux missions produiront à elles seules environ 100 téraoctets (1012 octets) de données par jour !
Ainsi, si quelqu’un souhaitait télécharger une journée de données provenant de SWOT sur son ordinateur, près d’une vingtaine d’ordinateurs portables, chacun capable de stocker un téraoctet de données, seraient nécessaires, précise la NASA. De même, si un chercheur s’avisait de télécharger l’équivalent de quatre jours de données NISAR via une connexion Internet domestique moyenne, cela prendrait environ un an !
« C’est une nouvelle ère pour les missions d’observation de la Terre, et l’énorme quantité de données qu’elles généreront nécessite une nouvelle ère pour le traitement des données », a déclaré Kevin Murphy, responsable des données scientifiques à la Direction des missions scientifiques de la NASA. L’agence américaine a donc résolument décidé de s’appuyer sur le cloud computing pour mener à bien ses différentes missions, dans le cadre de son projet Earth Science Data and Information Systems (ESDIS). Pour cela, elle a fait appel à la société Raytheon Intelligence & Space, afin de concevoir une plateforme sécurisée basée sur le cloud, connue sous le nom de Earthdata Cloud.
Le satellite Sentinel-6, lancé en novembre 2020 et dédié à la surveillance du niveau de la mer, est le premier satellite de la NASA à reposer sur ce système ; les données qu’il produit sont plus facilement accessibles pour les scientifiques. Non seulement le cloud facilite l’accès aux données, mais il permet évidemment de s’affranchir des coûts matériels liés aux supports (disques durs, baies de stockage) et à l’infrastructure. Pour Alex Gardner, membre de l’équipe NISAR, le cloud ne remplacera pas toutes les méthodes de travail sur les ensembles de données scientifiques, mais apparaît aujourd’hui comme une solution incontournable pour le domaine des sciences de la Terre. « Je m’attends à ce que, d’ici cinq à dix ans, le disque dur de mon ordinateur soit réduit à néant et que j’explore le nouveau déluge de données dans le cloud », a-t-il déclaré.