
Les protéines sont essentielles à tous les processus cellulaires et leur structure est importante pour comprendre leur fonction et leur évolution. Les prédictions des structures protéiques basées sur les séquences ont gagné en précision et plus de 214 millions de structures prédites sont disponibles dans la base de données AlphaFold. Cependant, les étudier à cette échelle nécessite des méthodes très efficaces.
Aujourd'hui, des chercheurs de l'Institut européen de bioinformatique (EMBL-EBI), de l' Institut de biologie des systèmes moléculaires de l'ETH Zurich et de la Faculté des sciences biologiques de l'Université nationale de Séoul ont réalisé des progrès significatifs dans ce processus. Ils ont exploité la puissance de la vaste base de données d’AlphaFold sur les structures protéiques 3D prédites par l’IA, mettant en lumière leur évolution et les origines de l’immunité humaine.
La base de données AlphaFold , pierre angulaire de ce type de recherche, offre des informations structurelles générées par l’IA sur les protéines connues, complétant ainsi les données expérimentales. Même si elles ne remplacent pas les résultats expérimentaux, ces prédictions sont d’une valeur inestimable pour la communauté scientifique. Leur étude, qui vient d'être publiée dans la revue Nature , présente Foldseek Cluster , un algorithme innovant.
Cet outil a analysé efficacement 200 millions de structures protéiques dans la base de données, découvrant plus de 2 millions d’ensembles structurels uniques qui représentent une association de protéines partageant des formes 3D similaires, un tiers manquant manifestement d’annotations ou de catégorisations précédentes.

Réduire l'écart
Une compréhension approfondie des protéines dans les processus cellulaires est essentielle pour comprendre leurs fonctions et leur histoire évolutive. Bien que de grands progrès aient été réalisés dans la prédiction de telles structures basée sur les séquences, les défis informatiques ont limité la capacité d'aborder cette tâche à grande échelle. Cependant, Foldseek Cluster offrait un moyen sans précédent d’explorer le vaste domaine des protéines.
Nous avons inauguré une ère révolutionnaire en biologie structurale, grâce à des outils informatiques qui nous donnent un accès sans précédent aux complexités de l’univers des protéines. Leur algorithme a considérablement accéléré le processus, réduisant à cinq jours seulement ce qui aurait pu prendre une décennie avec les méthodes traditionnelles.
Cette puissance de calcul peut examiner efficacement des millions de structures protéiques prédites dans la base de données AlphaFold , en les regroupant selon leurs formes 3D. L’accélération de la puissance de calcul rend non seulement les tâches plus rapides ; les rend réalisables à une échelle auparavant considérée comme impossible.

La recherche se penche également sur les ramifications évolutives de ces groupes protéiques. Bien que la plupart aient des origines anciennes, 4 % semblent spécifiques à certaines espèces. Cette révélation fournit de nouvelles informations sur les phénomènes évolutifs tels que la naissance de gènes de novo, où de nouveaux gènes émergent de régions non codantes du génome. En outre, cela met en lumière de nombreuses connexions évolutives qui pourraient améliorer la compréhension des fonctions des protéines chez diverses espèces, en particulier leur rôle dans l’immunité humaine.
Pedro Beltrao , professeur associé à l'Institut de biologie des systèmes moléculaires de l'ETH Zurich, a souligné : « Ce travail va au-delà du simple fait de rendre les comparaisons plus efficaces ; Il s’agit de découvrir de nouvelles connaissances sur le parcours évolutif des protéines.
L’une des découvertes les plus intrigantes de cette étude est l’identification de similitudes structurelles entre les protéines du système immunitaire humain et celles trouvées dans les bactéries. Cela suggère la possibilité que ceux liés au système immunitaire aient d’anciennes racines évolutives partagées avec des espèces bactériennes, ce qui pourrait remodeler notre compréhension de l’immunité. Cette recherche fait non seulement progresser les connaissances actuelles, mais ouvre également la voie à de futures explorations dans les domaines énigmatiques de la fonction et de l’évolution des protéines.
* Martin Steinegger , professeur adjoint, École des sciences biologiques, Université nationale de Séoul *Photos : Getty