Тестирование возможностей биологических рассуждений крупных языковых моделей
Общая производительность пяти LLMS в биологическом обследовании.Кредит: Gong et al.
Большие языковые модели (LLMS) представляют собой продвинутые алгоритмы глубокого обучения, которые могут обрабатывать письменные или произнесенные подсказки и генерировать тексты в ответ на эти подсказки.Эти модели в последнее время становятся все более популярными и в настоящее время помогают многим пользователям создавать резюме длинных документов, получать вдохновение для брендов, найти быстрые ответы на простые запросы и генерировать различные другие типы текстов.
Исследователи из Университета Джорджии недавно намеревались оценить биологические знания и навыки рассуждения различных LLM.Их статья, предварительно опубликованная на сервере ARXIV, предполагает, что модель OpenAI GPT-4 работает лучше, чем другие преобладающие LLMS на рынке по поводу проблем биологии.
«Наша недавняя публикация является свидетельством значительного влияния ИИ на биологические исследования»,-сказал Tech Xplore Чжэнлиан Лю, соавтор недавней статьи.«Это исследование родилось из -за быстрого принятия и эволюции LLM, особенно после заметного введения CHATGPT в ноябре 2022 года. Эти достижения, воспринимаемые как критические шаги к искусственному общему интеллекту (AGI), ознаменовали переход от традиционных биотехнологических подходов кМЕТОДОЛОГИЯ, СПАСИБО, АИ, в сфере биологии ».
В своем недавнем исследовании Лю и его коллеги решили лучше понять потенциальную ценность LLM в качестве инструментов для проведения исследований в области биологии.В то время как во многих прошлых исследованиях подчеркивалось полезность этих моделей в широком диапазоне доменов, их способность рассуждать о биологических данных и концепциях еще не оценивается в глубине.
«Основные цели этого документа состояли в том, чтобы оценить и сравнить возможности ведущих LLM, таких как GPT-4, GPT-3.5, PALM2, Claude2 и Sensenova, в их способности понимать и разум с помощью вопросов, связанных с биологией»,-Liuсказал.«Это было тщательно оценивалось с использованием экзамена с множественным вариантом 108 вопросов, охватывающих различные области, такие как молекулярная биология, биологические методы, метаболическая инженерия и синтетическая биология».
Лю и его коллеги планировали определить, как некоторые из наиболее известных LLMS, доступных сегодня, обрабатывают и анализируют биологическую информацию, а также оценить их способность генерировать соответствующие биологические гипотезы и решать проблемы логических рассуждений, связанных с биологией.Исследователи сравнивали производительность пяти различных LLM, используя тесты с несколькими вариантами выбора.
«Тесты с множественным выбором обычно используются для оценки LLMS, поскольку результаты тестов могут быть легко оценены/оценены/сравнены»,-пояснил Джейсон Холмс, соавтор статьи.«Для этого исследования эксперты по биологии разработали тест с множественным выбором в 108 вопросов с несколькими подкатегориями».
Холмс и их коллеги задавали LLMS каждый из вопросов в тесте, который они собрали пять раз.Каждый раз, когда был задан вопрос, они меняли, как он был сформулирован.
«Цель задавать один и тот же вопрос несколько раз для каждого LLM состояла в том, чтобы определить как среднюю производительность, так и среднее изменение ответов», - пояснил Холмс.«Мы изменяли формулировку, чтобы не случайно основывать наши результаты на оптимальной или неоптимальной формулировке инструкций, которые привели к изменению производительности. Этот подход также дает нам представление о том, как производительность будет варьироваться при использовании реального мира, где будут пользователиНе задавайте вопросы таким же образом “.
Испытания, проведенные Лю, Холмсом и их коллегами, собрали представление о потенциальной полезности различных LLM для оказания помощи исследователям биологии.В целом, их результаты показывают, что LLM хорошо реагируют на различные вопросы, связанные с биологией, а также точно связывают концепции, основанные на фундаментальной молекулярной биологии, общей молекулярной биологии, метаболической инженерии и синтетической биологии.
«Примечательно, что GPT-4 продемонстрировал превосходную производительность среди исследуемых LLM, достигнув среднего балла 90 на наших тестах с множественным выбором в пяти испытаниях, использующих различные подсказки»,-сказал Синью Гонг, соавтор статьи.
«Помимо достижения наивысшей оценки теста в целом, GPT-4 также демонстрировал большую последовательность во всех исследованиях, подчеркивая ее надежность в биологических рассуждениях по сравнению с моделями сверстников. Эти результаты подчеркивают огромную способность GPT-4 для помощи в исследованиях биологии и образованию».
Недавнее исследование этой команды исследователей может вскоре вдохновить дополнительную работу, которая еще больше исследует удобство использования LLM в области биологии.Полученные результаты показывают, что LLM могут быть полезными инструментами как для исследований, так и для образования, например, поддержки обучения студентов о биологии, создании инструментов интерактивного обучения и создания тестируемых биологических гипотез.
«По сути, наша статья представляет собой новаторские усилия по объединению возможностей продвинутого ИИ, особенно LLM, с сложной и быстро развивающейся областью биологии»,-сказал Лю.«Он отмечает новую главу в области биологических исследований, позиционируя ИИ не только как поддерживающий инструмент, но и как центральный элемент навигации и расшифровки обширного и сложного биологического ландшафта».
Будущее развитие LLM и их дальнейшее обучение биологических данных могут проложить путь для важных научных открытий, а также обеспечить создание более продвинутых образовательных инструментов.Лю, Холмс, Гонг и их коллеги в настоящее время планируют провести дальнейшие исследования в этой области.
В своих следующих работах они впервые планируют разработать стратегии для преодоления вычислительных требований и проблем, связанных с конфиденциальностью, связанными с использованием GPT-4, LLM, лежащего в основе CHATGPT.Это может быть достигнуто путем разработки LLM с открытым исходным кодом для автоматизации таких задач, как аннотация генов и спаривание фенотипа генерали.
«Мы используем дистилляцию знаний от GPT-4, создавая данные, посвященные инструкциям, для точных местных моделей, таких как модели Llama Foundation»,-сказал Zihao Wu, соавтор статьи Tech Xplore.
«Эта стратегия будет использовать возможности GPT-4, одновременно решая конфиденциальность и проблемы с затратами, что делает расширенные инструменты более доступными для биологического сообщества. Кроме того, с возможностями зрения GPT-4V, мы расширим наши исследования на мультимодальные анализы, сосредоточившись на молекулах природных лекарств.такие как противораковые агенты или адъюванты против вакцины, особенно те, у кого неизвестные биосинтетические пути ».
«Мы исследуем их химические и биосинтетические пути и потенциальные применения. Способность GPT-4V распознавать молекулярные структуры улучшит наш анализ сложных мультимодальных данных, продвигая наше понимание и применение в обнаружении и развитии лекарств в синтетической биологии».
Больше информации: Xinyu Gong et al. Оценка потенциала ведущих крупных языковых моделей в вопросах рассуждения биологии, Arxiv (2023).Doi: 10.48550/arxiv.2311.07582
© 2023 Science X Network
Нашли ошибку в тексте? Напишите нам.