Un réseau neuronal aide à concevoir une toute nouvelle protéine

Une approche flexible et basée sur le langage s’avère étonnamment efficace pour résoudre des problèmes insolubles en science des matériaux.

Institut américain de physique

image : Exemples de visualisations de biomatériaux protéiques de conception, créés à l'aide d'un réseau neuronal à graphe de transformateur capable de comprendre des instructions complexes et d'analyser et de concevoir des matériaux à partir de leurs éléments de base ultimes.Voir plus

Crédit : Markus Buehler

WASHINGTON, 29 août 2023 – Grâce à leurs arrangements complexes et leurs fonctionnalités dynamiques, les protéines accomplissent une multitude de tâches biologiques en employant des arrangements uniques de blocs de construction simples où la géométrie est essentielle. Traduire cette bibliothèque presque illimitée d’arrangements dans leurs fonctions respectives pourrait permettre aux chercheurs de concevoir des protéines personnalisées pour des utilisations spécifiques.

Dans Journal of Applied Physics, d'AIP Publishing, Markus Buehler du Massachusetts Institute of Technology a combiné les réseaux neuronaux d'attention, souvent appelés transformateurs, avec des réseaux neuronaux graphiques pour mieux comprendre et concevoir des protéines. L’approche associe les atouts de l’apprentissage profond géométrique à ceux des modèles de langage non seulement pour prédire les propriétés des protéines existantes, mais également pour imaginer de nouvelles protéines que la nature n’a pas encore conçues.

"Avec cette nouvelle méthode, nous pouvons utiliser tout ce que la nature a inventé comme base de connaissances en modélisant les principes sous-jacents", a déclaré Buehler. "Le modèle recombine ces éléments de base naturels pour réaliser de nouvelles fonctions et résoudre ce type de tâches."

En raison de leurs structures complexes, de leur capacité à effectuer plusieurs tâches et de leur tendance à changer de forme une fois dissoutes, les protéines sont notoirement difficiles à modéliser. L'apprentissage automatique a démontré la capacité de traduire les forces à l'échelle nanométrique régissant le comportement des protéines en cadres de travail décrivant leur fonction. Cependant, aller dans l’autre sens – transformer une fonction souhaitée en une structure protéique – reste un défi.

Pour surmonter ce défi, le modèle de Buehler transforme les nombres, les descriptions, les tâches et d'autres éléments en symboles que ses réseaux neuronaux peuvent utiliser.

Il a d’abord entraîné son modèle pour prédire le séquençage, la solubilité et les éléments constitutifs des acides aminés de différentes protéines à partir de leurs fonctions. Il lui a ensuite appris à faire preuve de créativité et à générer de toutes nouvelles structures après avoir reçu les paramètres initiaux relatifs au fonctionnement d'une nouvelle protéine.

Cette approche lui a permis de créer des versions solides de protéines antimicrobiennes qui devaient auparavant être dissoutes dans l’eau. Dans un autre exemple, son équipe a pris une protéine de soie naturelle et l'a transformée en diverses nouvelles formes, notamment en lui donnant une forme d'hélice pour plus d'élasticité ou une structure plissée pour plus de résistance.

Le modèle a réalisé bon nombre des tâches centrales de conception de nouvelles protéines, mais Buehler a déclaré que l'approche peut intégrer encore plus d'entrées pour plus de tâches, ce qui la rend potentiellement encore plus puissante.

« L'élément de grande surprise a été que le modèle fonctionnait exceptionnellement bien, même s'il avait été développé pour pouvoir résoudre plusieurs tâches. Cela est probablement dû au fait que le modèle apprend davantage en considérant diverses tâches », a-t-il déclaré. « Ce changement signifie que plutôt que de créer des modèles spécialisés pour des tâches spécifiques, les chercheurs peuvent désormais penser largement en termes de modèles multitâches et multimodaux. »

La nature large de cette approche signifie que ce modèle peut être appliqué à de nombreux domaines en dehors de la conception des protéines.

"Bien que nous nous concentrions actuellement sur les protéines, cette méthode présente un vaste potentiel en science des matériaux", a déclaré Buehler. « Nous sommes particulièrement intéressés à explorer les comportements de défaillance des matériaux, dans le but de concevoir des matériaux présentant des modèles de défaillance spécifiques. »

###

L'article « Réseau neuronal génératif de graphes de transformateurs autorégressifs pré-entraînés appliqué à l'analyse et à la découverte de nouvelles protéines » est rédigé par Markus Buehler. Il paraîtra dans le Journal of Applied Physics le 29 août 2023 (DOI : 10.1063/5.0157367). Après cette date, il sera accessible sur https://doi.org/10.1063/5.0157367.