Попробуйте это антитело здесь

 За последние несколько лет модели белкового языка (pLM) творили поразительные вещи. Они концептуально похожи на модели большого языка (LLM), которым в последнее время уделяется так много внимания, но поскольку язык белковых последовательностей менее сложен, чем естественный человеческий язык, эти методы могут получить гораздо большую популярность и гораздо быстрее.

Почему я это говорю? Если мы ограничимся обычными природными аминокислотами, это даст нам двадцать букв для составления слов. Пока что это не так уж и далеко от алфавитных человеческих языков, но это сложно, когда вы начинаете проводить аналогии со словами, предложениями и абзацами. Есть ли у нас двадцать букв-аминокислот, чтобы сформировать все возможные белковые слова, или у нас есть двадцать слов-аминокислот, чтобы сформировать все возможные белковые предложения? Эта вторая возможность намного проще, чем обработка естественного языка, даже если учесть, что лежащая в основе грамматика одновременно гораздо более гибка в мире белков. Я предполагаю, что сложность находится между буквенным и словесным масштабами, и для методов, созданных для работы с человеческим языком, это действительно облегчает работу.

Вот новый пример (открытый доступ) — применение методов pLM для создания антител. Авторы даже не строят новую модель, основанную только на последовательностях антител; скорее, они используют две существующие общие модели, которые уже были созданы путем загрузки груды природных белковых последовательностей в вычислительный бункер. Затем они берут конкретную последовательность антитела и позволяют этим моделям выбрать, какие остатки, по-видимому, будут мутировать во что-то еще и во что, учитывая то, как устроен остальной мир белков, - а затем те возможности, которые имеют более высокий рейтинг, чем те, которые имеют более высокий рейтинг, чем остальные. существующие остатки проверяются экспериментально. Считается, что это своего рода цифровое перепросмотр эволюционного давления, если мы примем существующий корпус белковых последовательностей как результат такого давления (и мы должны это сделать, я бы сказал).

Результаты впечатляют, особенно потому, что они не начинаются со случайных антител к случайным белкам. Нет, они начинаются с семи, которые уже находятся в клиническом использовании и, таким образом, уже прошли этапы оптимизации их сродства к связыванию и физических свойств. Даже несмотря на это, мутации, предложенные pLM, являются улучшением: лучшая термическая стабильность, более низкая иммуногенность и в каждом отдельном случае лучшая эффективность в анализах нейтрализации. И это после того, как для каждого случая было набрано менее 20 предложенных вариантов и после двух раундов традиционной лабораторной эволюции, что требует гораздо меньше работы, чем обычно для подобных вещей. Помните, ни одно из этих свойств не было встроено в модели (кроме тех, которые уже встроены в известную вселенную встречающихся в природе белков), и модели, конечно, вообще не содержали никакой информации о том, каковы были различные мишени этих антител.

Это весьма нервирует, учитывая, что если бы вам вручили данное антитело и сказали улучшить его, вы бы наверняка решили проблему с помощью комбинации интенсивного структурного моделирования (для сродства к антигенсвязывающей поверхности) и полуслучайной мутации (для другие свойства). Вместо этого этот метод больше похож на «ОК, мы знаем, как выглядят все остальные белки — давайте возьмем эту последовательность и сделаем ее немного более похожей на эти, что скажете?» Он находит новый способ использовать все эти миллиарды лет естественной эволюции белка и извлечь из нее действенные шаги. И похоже, что «улучшение», с нашей точки зрения, имеет широкомасштабный эффект.

Однако не впадайте в ошибку, думая, что pLM «понимают» белки или их функции — они ничего не понимают, не больше, чем AlphaFold или RosETTAFold понимают белковые структуры, а ChatGPT понимает английский язык. Все они берут (очень большую) выборку структурированной информации и генерируют ее новые версии, которые очень похожи на исходный набор данных — распознавание образов и переупорядочение. « В других случаях, когда эти типы аминокислот расположены в ряд, они имеют тенденцию образовывать подобную спираль, а затем петлеобразную часть, подобную этой», в случае AlphaFold или « В других случаях, когда люди пишут: «Куртки из спандекса, одна для «все», как правило, говорят о Дональде Фейгене, хотя в случае ChatGPT это также может быть реклама универмага. . ...ну, вот что бы сказали эти существа, если бы они могли сказать что-нибудь сами по себе.

Но на самом деле примечательно, что это работает так же хорошо, как и при разработке антител, и эти результаты убедительно свидетельствуют о том, что мы должны позволить такому программному обеспечению как можно больше направлять нас в оптимизации белка. Все эти существующие белки пытаются нам что-то сказать, и у нас наконец-то есть возможность понять, что это за сообщения.

Источник

No comments:

Post a Comment