4 мин. чтения
11/12/2023 10:10:01 AM

Исследование масштабирования моделей глубокого обучения для исследований химии

Article Preview Image Открытие нейронных отношений для глубоких химических моделей.A, B, над доменом модельных кандидатов (A), окончательная, сходящаяся потеря модели предсказывается только из нескольких начальных эпох обучения для крупномасштабных моделей (B).C, не оптимальные модели архитектуры и конфигурации гиперпараметрических данных идентифицируются на ранних этапах обучения, что позволяет эффективно выбирать идеальную архитектуру и гиперпараметры.Модель с лучшими гиперпараметрами затем обучается с различными модельными и размерами набора данных для обнаружения нейронных отношений.Кредит: Интеллект природы (2023).Doi: 10.1038/s42256-023-00740-3

Исследователи из Массачусетского технологического института (MIT) недавно провели исследование, исследующее поведение нейронного масштабирования крупных моделей на основе DNN, обученных генерируемым химическим составам и изучению межтомных потенциалов.Их статья, опубликованная в сфере интеллекта Nature Machine, показывает, как быстро может улучшаться производительность этих моделей, поскольку их размер и пул данных, на которых они обучены, увеличиваются.

«Документ« Законы масштабирования для моделей нервного языка »Kaplan et al., Были главным источником вдохновения для нашего исследования», - сказал Натан Фрей, один из исследователей, который проводил исследование.«Эта статья показала, что увеличение размера нейронной сети и объем данных, которые он обучен, для предсказуемых улучшений в модели.. ”

Фрей и его коллеги начали работать над этим исследовательским проектом еще в 2021 году, таким образом, до выхода известных платформ, основанных на искусственном интеллекте, Chatgpt и Dall-E 2. В то время будущее масштабирование DNNs считалось особенно актуальным для некоторых полей и и поля и иИсследования, изучающие их масштабирование в физических или жизненных науках, было мало.

Исследование исследователей исследует нейронное масштабирование двух различных типов моделей для анализа химических данных: модель большой языка (LLM) и модели на основе нейронной сети (GNN).Эти два различных типа моделей могут быть использованы для генерации химических композиций и изучения потенциалов между различными атомами в химических веществах, соответственно.

«Мы изучили два очень разных типа моделей: авторегрессивная языковая модель в стиле GPT, которую мы построили под названием« ChemGPT »и семейство GNN»,-объяснил Фрей.«Chemgpt был обучен таким же образом, как CHATGPT, но в нашем случае ChemGPT пытается предсказать следующий токен в струне, которая представляет молекулу. GNN обучаются прогнозировать энергию и силы молекулы».

Чтобы исследовать масштабируемость модели ChemGPT и GNNS, Фрей и его коллеги исследовали влияние размера модели и размера набора данных, используемого для обучения его на различных соответствующих показателях.Это позволило им получить скорость, с которой эти модели улучшаются по мере того, как они становятся больше и получают больше данных.

«Мы находим« поведение нейронного масштабирования »для химических моделей, напоминающих поведение масштабирования, наблюдаемое в LLM и моделях зрения для различных применений», - сказал Фрей.

«Мы также показали, что мы не находимся на каком -либо фундаментальном лимите для масштабирования химических моделей, поэтому еще есть много возможностей для дальнейшего изучения с большим количеством вычислительных и больших наборов данных, включающих физику в GNN через свойство, называемое« эквивалентность », имеетДраматическое влияние на повышение эффективности масштабирования, что является захватывающим результатом, потому что на самом деле довольно сложно найти алгоритмы, которые изменяют поведение масштабирования ».

В целом, выводы, собранные этой командой исследователей, проливают новый свет на потенциал двух типов моделей искусственного интеллекта для проведения химических исследований, показывая, насколько их производительность может улучшить по мере их увеличения.Эта работа может вскоре проинформировать дополнительные исследования, изучающие обещание и маржу для улучшения этих моделей, а также других методов DNN для конкретных научных приложений.

«С тех пор, как наша работа впервые появилась, уже была захватывающая последующая работа, исследующая возможности и ограничения масштабирования для химических моделей», - добавил Фрей.«Совсем недавно я также работал над генеративными моделями для дизайна белка и думать о том, как масштабирование влияет на модели биологических данных».

Больше информации: Натан С. Фрей и др., Нейронное масштабирование глубоких химических моделей, Интеллект природы (2023).Doi: 10.1038/s42256-023-00740-3

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Четкие рекомендации для синтетических данных, необходимы для обеспечения прозрачности, подотчетности и справедливости

4/14/2024 · 4 мин. чтения

Четкие рекомендации для синтетических данных, необходимы для обеспечения прозрачности, подотчетности и справедливости

DeepMind разрабатывает Safe, приложение на основе ИИ, которое может проверить LLMS на фактах

3/30/2024 · 4 мин. чтения

DeepMind разрабатывает Safe, приложение на основе ИИ, которое может проверить LLMS на фактах