Требование кода жизни: новая модель искусственного интеллекта изучает скрытый язык ДНК
Художественное представление о большой языковой модели, обученном последовательностям ДНК.Кредит: Магдалена Гонсиарц, сгенерированная с Dall-E3
ДНК содержит основополагающую информацию, необходимую для поддержания жизни.Понимание того, как эта информация хранится и организована, было одним из величайших научных проблем прошлого века.
С Grover, новой крупной языковой моделью, обученной ДНК человека, исследователи теперь могут попытаться расшифровать сложную информацию, скрытую в нашем геноме.
Разработанный командой в Биотехнологическом центре (Biotec) Дрезденского технологического университета, Гровер рассматривает ДНК человека как текст, изучая свои правила и контекст, чтобы нарисовать функциональную информацию о последовательностях ДНК.Этот новый инструмент, опубликованный в сфере интеллекта Nature Machine, может преобразовать геномику и ускорить персонализированную медицину.
С момента открытия двойной спирали ученые стремились понять информацию, закодированную в ДНК.70 лет спустя ясно, что информация, скрытая в ДНК, многослойная.Только 1–2 % генома состоит из генов, последовательностей, которые кодируют белки.
“ДНК имеет много функций, помимо кодирования белков. Некоторые последовательности регулируют гены, другие служат структурным целям, большинство последовательностей выполняют несколько функций одновременно. В настоящее время мы не понимаем смысл большинства ДНК. Когда речь идет о понимании не-Кодирующие регионы ДНК, кажется, что мы только начали царапать поверхность.
Большие языковые модели, такие как GPT, преобразовали наше понимание языка.Обученные исключительно по тексту, крупные языковые модели разработали способность использовать язык во многих контекстах.
«ДНК - это кодекс жизни. Почему бы не относиться к нему как к языку?»говорит доктор Поэтч.Поэтская команда обучила большую языковую модель на эталонном человеческом геноме.Полученный инструмент под названием Grover, или «Правила генома, полученные с помощью извлеченных представлений», может использоваться для извлечения биологического значения из ДНК.
“Гровер изучил правила ДНК. С точки зрения языка мы говорим о грамматике, синтаксисе и семантике. Для ДНК это означает изучение правил, регулирующих последовательности, порядок нуклеотидов и последовательностей, и значение последовательностейI. Как модели GPT, изучая человеческие языки, Гровер в основном научился «говорить», объясняет доктор Мелисса Санабрия, исследователь проекта.
Команда показала, что Гровер может не только точно предсказать следующие последовательности ДНК, но также может использоваться для извлечения контекстной информации, которая имеет биологическое значение, например, идентифицировать промоторы генов или сайты связывания белка на ДНК.Гровер также изучает процессы, которые обычно считаются «эпигенетическими», то есть регуляторными процессами, которые происходят поверх ДНК, а не кодируются.
«Удивительно, что, обучая Гровера только с последовательности ДНК без каких -либо аннотаций функций, мы на самом деле можем извлечь информацию о биологической функции. Для нас это показывает, что функция, включая некоторую эпигенетическую информацию, также кодируетсяВ последовательности », - говорит доктор Санабрия.
«ДНК напоминает язык. У нее есть четыре буквы, которые строят последовательности, а последовательности несут смысл. Однако, в отличие от языка, ДНК не имеет определенных слов», - говорит доктор Поэч.ДНК состоит из четырех букв (A, T, G и C) и генов, но нет предопределенных последовательностей различных длин, которые объединяются для создания генов или других значимых последовательностей.
Чтобы тренировать Гровер, команде пришлось сначала создать словарь ДНК.Они использовали трюк из алгоритмов сжатия.«Этот шаг имеет решающее значение и отличает нашу модель языка ДНК от предыдущих попыток», - говорит доктор Поэч.
«Мы проанализировали весь геном и искали комбинации букв, которые встречаются чаще всего. Мы начинали с двух букв и снова и снова переходили через ДНК, чтобы построить ее до самых распространенных комбинаций с несколькими буквами. Таким образом, вОколо 600 циклов мы фрагментировали ДНК в «слова», которые позволили Гроверу выполнять лучшее, когда дело доходит до прогнозирования следующей последовательности », - объясняет доктор Санабрия.
Гровер обещает разблокировать различные слои генетического кода.ДНК содержит ключевую информацию о том, что делает нас человеком, предрасположенности к нашей болезни и наши реакции на лечение.
«Мы считаем, что понимание правил ДНК через языковую модель поможет нам раскрыть глубины биологического значения, скрытого в ДНК, продвигая как геномику, так и персонализированную медицину», - говорит доктор Поэч.
More information: Melissa Sanabria et al, DNA language model GROVER learns sequence context in the human genome, Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00872-0
Нашли ошибку в тексте? Напишите нам.