Ю. В. Вяткин (Институт искусственного интеллекта МГУ)
Математический подход к анализу поверхностей связывания и пространств эмбеддингов для биоинженерии.
Аннотация
Современные задачи биоинженерии требуют математической строгости в моделировании молекулярных взаимодействий. Например, связывание белка DARPins с мишенями можно представить как задачу оптимизации в пространстве параметров. Множество возможных комбинаций аминокислот в 11 вариабельных позициях формирует гиперкуб размерности 11 над алфавитом из 20 аминокислот, порождая гипотетическое пространство поиска из $20^{11}$ элементов. Для минимизации вычислительной сложности требуется аналитическая оценка функции аффинности, что сводится к построению поверхностного функционала, зависящего от геометрических и физико-химических параметров аминокислот.
Параллельно, анализ белков с использованием больших языковых моделей опирается на представление молекул в виде эмбеддингов высокой размерности. Эти модели отображают аминокислотные последовательности в многомерное пространство $\mathbb{R}^d$ (например, размерности $d=1536$ в модели Ankh), где каждая точка представляет белок. Однако изучение таких пространств требует редукции размерности для анализа структурных свойств, часто искажающей исходные данные. Возникает задача исследования многообразий, вложенных в пространство эмбеддингов, которые отражают фундаментальные свойства белков. Такие подмногообразия являются нелинейными и могут быть описаны методами дифференциальной геометрии и топологического анализа. Определение и классификация этих многообразий позволяет выявлять структурные закономерности в данных и улучшать понимание работы белков.
В докладе будет представлена мотивация этих задач и предложены подходы к их математической формулировке.