3 мин. чтения
5/23/2024 11:30:01 AM

Meta представляет Chameleon, мультимодальную модель раннего слияния

Article Preview Image Chameleon представляет все методы-изображения, текст и код, как дискретные жетоны и использует единую архитектуру на основе трансформаторов, которая обучается с нуля в сквозной моде на токенах ~ 10t черно-модальных данных.В результате Хамелеон может как разум, так и генерировать произвольные смешанные документы.Текстовые жетоны представлены в зеленых, а токены изображения представлены синим цветом.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.09818

Исследователи ИИ в Meta, компания, которая владеет Facebook, Instagram, WhatsApp и многими другими продуктами, разработали и создали мультимодальную модель для конкурирования с такими, как Google Gemini.

Названный Chameleon, новая система построена на ранней архитектуре Fusion, и из -за этого она способна приходить множественные входы способами, которые невозможно с большинством других систем.

Группа, называемая командой хамелеона, написала статью, описывающую их новую модель, включая ее архитектуру и то, насколько хорошо она выполнялась во время тестирования.Он размещен на сервере Arxiv Preprint.

Мультимодальные модели ИИ, как следует из их названия, представляют собой приложения, которые могут принять более одного типа ввода во время запроса - например, пользователь может представить картину лошади, а также спрашивать, сколько ее породы выигралиКентукки Дерби.

На сегодняшний день большинство таких моделей обрабатывали такие данные, как отдельные объекты в начале обработки, а затем собрали их вместе, чтобы найти ассоциации - методика, называемую поздним фьюжн.

Такой подход был обнаружен хорошо, но имеет ограничения в отношении интеграции.Чтобы преодолеть это, команда в Meta основала свою модель на архитектуре раннего слияния.

Эта архитектура позволила команде переплетать ассоциации с самого начала.Они достигли этого путем преобразования изображений в токены, аналогичные тому, как LLMS анализирует слова.Команда также добавила возможность использовать унифицированный словарный запас токенов из разных источников, включая изображения, код или текст, и они утверждают, что это позволило применять преобразующие вычисления со смешанными типами входных данных.

Исследователи отмечают, что, в отличие от Близнецов, Хамелеон является сквозной моделью, которая сделала необходимость в декодерах изображения ненужными.Они также разработали и использовали новые типы методов обучения, чтобы позволить своей модели работать с несколькими типами токенов, которые включали двухэтапное обучение и массовый набор данных из примерно 4,4 триллиона текстов, изображений или пар токенов, а также чередующихся данных.Система обучалась с использованием 7 миллиардов, а затем 34 миллиарда параметров более 5 миллионов часов на высокоскоростном графическом процессоре.

Результат, как утверждает исследовательская группа, является моделью, которая может принимать только текст, только изображения или комбинацию как и возврата интеллектуальных ответов и ассоциаций с лучшей точностью, чем его конкуренты.

Больше информации: Chameleon: смешанный модальный фонд раннего слияния, Arxiv (2024).Doi: 10.48550/arxiv.2405.09818

© 2024 Science X Network

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Комики тестируют способность LLM писать шутки

6/22/2024 · 3 мин. чтения

Комики тестируют способность LLM писать шутки

Исследование «галлюцинирования» генеративных моделей. Достоверность искусственного интеллекта

6/21/2024 · 3 мин. чтения

Исследование «галлюцинирования» генеративных моделей. Достоверность искусственного интеллекта