3 мин. чтения
6/14/2023 7:05:00 AM

Наказания и поощрения учат ИИ агентов принимать правильные решения

В новой диссертации по математике Бьорн Линденберг показывает, как обучение с подкреплением в ИИ может быть использовано для создания эффективных стратегий автономного принятия решений в различных средах. Системы вознаграждения могут быть разработаны для усиления правильного поведения, например, для поиска оптимальных стратегий ценообразования для финансовых инструментов или управления роботами и сетевым трафиком.

Featured Image Пространства состояний S, приведенные в примере 4.2. Предоставлено: Университет Линнея

Обучение с подкреплением — это часть ИИ, где лицо, принимающее цифровые решения, известное как агент, учится принимать решения, взаимодействуя со своей средой и получая вознаграждения или наказания в зависимости от того, насколько хорошо он выполняет свои действия.

Агент получает награды и наказания в процессе обучения, действуя в среде и получая обратную связь на основе своих действий. Максимизируя вознаграждение и минимизируя наказания, ИИ постепенно учится выполнять желаемые действия и улучшать свою производительность в данной задаче.

Обучение с подкреплением обучает ИИ автономному принятию решений. Цель состоит в том, чтобы разработать алгоритмы и модели, которые помогут агенту принимать наилучшие решения. Это достигается за счет алгоритмов обучения, которые учитывают предыдущий опыт агента и улучшают его производительность с течением времени.

Существует множество приложений для обучения с подкреплением, таких как теория игр, робототехника, финансовый анализ и управление производственными процессами.

«Агент принимает решения, выбирая действие из списка вариантов, таких как перемещение шахматной фигуры или управление движением робота. Этот выбор может затем повлиять на окружающую среду и создать новую игровую ситуацию в шахматах или предоставить новые значения датчиков для робота», — говорит Бьорн Линденберг.

Новая математическая модель повышает надежность процесса обучения

В своей диссертации Линденберг разработал модель глубокого обучения с подкреплением с несколькими параллельными агентами, которая может улучшить процесс обучения и сделать его более надежным и эффективным. Он также исследовал количество итераций, то есть повторных попыток, необходимых для того, чтобы система стала стабильной и хорошо работала.

«Глубокое обучение с подкреплением развивается теми же темпами, что и другие технологии ИИ, то есть очень быстро. Во многом это связано с экспоненциально растущим аппаратным потенциалом, а это означает, что компьютеры становятся все более и более мощными, наряду с новым пониманием сетевых архитектур», — продолжает Линденберг.

Чем сложнее становятся приложения, тем более продвинутая математика и глубокое обучение необходимы для обучения с подкреплением. Эта потребность очевидна в содействии пониманию существующих проблем и открытию новых алгоритмов.

Оригинал статьи: Lindenberg, Björn, Reinforcement Learning and Dynamical Systems, Linnaeus University (2023).

DOI: 10.15626/LUD.494.2023 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Рендеринг трехмерных изображений по отражениям со зрачка при помощи NeRF

6/28/2023 · 3 мин. чтения

Рендеринг трехмерных изображений по отражениям со зрачка при помощи NeRF

Исследование устанавливает теорию сверхпараметризации в квантовых нейронных сетях

6/27/2023 · 3 мин. чтения

Исследование устанавливает теорию сверхпараметризации в квантовых нейронных сетях