Ученые разрабатывают модель ИИ, которая создает белки, «не встречающиеся в природе»

Ученые разрабатывают модель ИИ, которая создает белки, «не встречающиеся в природе»
фото: EvolutionaryScale

Подобно тому как ChatGPT генерирует текст, предсказывая, какое слово с наибольшей вероятностью появится в последовательности, новая модель искусственного интеллекта (ИИ) может создавать новые белки, которые не встречаются в природе с нуля.

Ученые использовали новую модель ESM3 для создания нового флуоресцентного белка, который разделяет только 58% своей последовательности с естественными флуоресцентными белками, заявили они в исследовании, опубликованном 2 июля в базе данных препринтов bioRxiv . Представители EvolutionaryScale, компании, созданной бывшими исследователями Meta, также изложили подробности 25 июня в своем заявлении.

Исследовательская группа выпустила небольшую версию модели по некоммерческой лицензии и сделает большую версию модели доступной для коммерческих исследователей. Согласно EvolutionaryScale, технология может быть полезна в различных областях: от открытия лекарств до разработки новых химикатов для разложения пластика.

ESM3 — это большая языковая модель (LLM), похожая на GPT-4 от OpenAI, которая управляет чат-ботом ChatGPT, и ученые обучили свою самую большую версию на 2,78 миллиарда белков. Для каждого белка они извлекли информацию о последовательности (порядок аминокислотных строительных блоков, составляющих белок), структуре (трехмерная сложенная форма белка) и функции (что делает белок). Они случайным образом замаскировали части информации об этих белках и запросили ESM3 предсказать недостающие части.

Используя информацию, собранную из 771 миллиарда уникальных фрагментов информации о структуре, функции и последовательности, модель может генерировать новые белки с определенными функциями. Один из сторонников EvolutionaryScale описал это как «момент ChatGPT для биологии».

В новом исследовании ученые подвергли сомнению модель, чтобы создать новый флуоресцентный белок — вид белка, который улавливает свет и испускает его обратно на более длинной волне, заставляя его светиться новым оттенком зеленого. Эти белки важны для исследователей-биологов, которые присоединяют их к молекулам, интересные для изучения, чтобы отслеживать и визуализировать их; их открытие и разработка были удостоены Нобелевской премии по химии в 2008 году.

Модель сгенерировала 96 белков с последовательностями и структурами, которые, вероятно, будут производить флуоресценцию. Затем исследователи выбрали один с наименьшим количеством последовательностей, общих с естественными флуоресцентными белками. Хотя этот белок был в 50 раз менее ярким, чем естественные зеленые флуоресцентные белки, ESM3 сгенерировал еще одну итерацию, которая привела к новым последовательностям, увеличившим яркость, — и результатом стал зеленый флуоресцентный белок, непохожий ни на один из встречающихся в природе, названный esmGPF. Эти итерации, выполненные ИИ за считаные мгновения, заняли бы 500 миллионов лет эволюции, подсчитала команда EvolutionaryScale.

Источник: Live Science