Une équipe internationale a publié, le 26 janvier dernier, les résultats de ses recherches dans Nature, portant sur l’analyse, en 11 jours seulement, de 20 millions de gigaoctets de données génétiques. Un exploit rendu possible par des superordinateurs provenant de l’infonuagique d’Amazon Web Services.
132 000 virus à ARN [constitués d’acide ribonucléique] et neuf nouvelles espèces de coronavirus mis au jour, après avoir analysé 5,7 millions d’échantillons biologiques et identifié un gène indiquant la présence de tels virus… Et, tout cela sans intelligence artificielle (IA)!
L’IA EN APPUI DE SERRATUS ?
Parmi ces échantillons se trouvent en vrac des carottes de glace dans l’Antarctique, des prélèvements effectués sur des oiseaux tropicaux de Madagascar ou encore sur des cellules expérimentales issues d’un laboratoire à Vancouver…
Depuis treize ans, les chercheurs du monde entier partagent, librement, ces millions de données à la communauté mondiale scientifique. À une différence près : jusqu’à présent, un superordinateur traditionnel pouvait réaliser le traitement d’autant d’informations dans un délai dépassant aisément une année… et les coûts générés pouvaient représenter des centaines de milliers de dollars.
« Nous pouvons maintenant rechercher des informations génétiques très rapidement dans une base de données publique, appelée Sequence Read Archive. Nous envisageons aussi d’explorer certaines applications d’intelligence artificielle (IA) pour nous aider à interpréter la très grande collection de données que nous avons générée. » – Dr Artem Babaian, responsable du projet Serratus, diplômé de l’Université de la Colombie-Britannique.
« Seulement, 24 000 dollars ont été nécessaires et seulement 11 jours pour obtenir ces résultats », précise le Dr Artem Babaian, responsable du projet Serratus et ancien étudiant de l’Université de la Colombie-Britannique (UBC). Comment un tel projet a-t-il pu voir le jour ?
SERRATUS : L’INFONUAGIQUE AIDE LA RECHERCHE MONDIALE
Le projet Serratus s’appuie sur le Cloud Innovation Centre (CIC), ou Centre d’innovation infonuagique, un partenariat public-privé (PPP) entre UBC et Amazon Web Services (AWS). Cette collaboration s’appuyant sur l’open data et l’open science [accès libre aux données] a conduit à la création d’un superordinateur sur AWS, équivalent en puissance à 22 500 CPU [puissance CPU ou capacité d’un ordinateur à manipuler des données].
Les virologues savent depuis longtemps qu’il existe un nombre gigantesque d’espèces de virus.
« Souvent, les études virologiques se spécialisent sur un type de virus particulier, et se focalisent là où le virus est censé se trouver, complète le Dr Rayan Chikhi, du G5 Sequence Bioinformatics, département Biologie computationnelle à l’ Institut Pasteur et membre du projet Serratus. Par exemple, les virus des champignons sont recherchés dans des champignons, et les virus des girafes dans les girafes. »
« Nous nous sommes posé une question très simple : “Où se situent tous les virus (à ARN) à l’échelle de la planète ?” Dans notre analyse principale, en partant des 15 000 virus à ARN connus, nous en avons découvert 130 000 de plus, soit près de 10 fois plus. » – Dr Rayan Chikhi, Institut Pasteur
MIEUX CERNER LA PROPAGATION DES VIRUS ENTRE LES ESPÈCES
De fait, les virus peuvent se nicher partout, même dans des endroits improbables… La recherche s’est beaucoup concentrée sur les virus qui affectent l’espèce humaine, mais « nous ne sommes pas la seule espèce sur une planète débordant de vie, et chaque organisme a ses propres ensembles de virus qui l’infectent », comme le rappelle le Dr Chikhi.
Ainsi, d’après ce que savent les chercheurs, le SARS-CoV-2 a transité d’une population de chauves-souris en direction de Wuhan, puis vers le monde entier. « Maintenant, nous voyons ce virus apparaître chez de nombreux mammifères différents, comme le cerf de Virginie ou le vison, indique le Dr Artem Babaian. Si nous voyons un virus similaire à d’autres virus de chauve-souris, mais qu’il infecte un porc, alors il s’est nécessairement propagé entre ces deux espèces. »
« Nous avons trouvé des millions de relations entre un virus et une espèce, poursuit ce dernier. Ce sur quoi nous travaillons actuellement est de mesurer statistiquement la vitesse à laquelle différentes familles de virus se propagent. Si nous savions approximativement quels virus sont susceptibles de se propager aux humains, à notre bétail, à nos cultures ou même aux espèces menacées, nous pourrions mieux les surveiller. »
Si, aujourd’hui, la compréhension de la diversité totale des virus sur Terre balbutie encore, l’objectif principal de l’équipe internationale, réunie au sein du projet Serratus, est de « contribuer à l’étoffer largement. »
Crédit photo : Serratus Art Expanding Virus Universe / Robert Edgar