Чтобы построить лучшего помощника ИИ, начните с моделирования иррационального поведения людей
Вывод на вознаграждения из ограничительно рациональных траекторий.Агент перейдет к синей звезде (а), но предпочитает двигаться к оранжевой звезде, когда оба будут доступны (б).Однако при поиске Orange Star требуется более сложная задача поиска, агент ищет синюю звезду, что указывает на то, что его поисковые способности ограничены (C).Наш предлагаемый подход автоматически позволяет бюджет, который агент использует при планировании (D).Зная этот бюджет, мы могли бы помочь этому агенту, предоставив целевой подсказку (двигаться вправо) в начале его траектории.Кредит: https://openreview.net/pdf?id=w3vshuga3j 🔗
Для создания систем ИИ, которые могут эффективно сотрудничать с людьми, это помогает иметь хорошую модель поведения человека для начала.Но люди, как правило, ведут себя неоптимально при принятии решений.
Эта иррациональность, которую особенно трудно моделировать, часто сводится к вычислительным ограничениям.Человек не может тратить десятилетия, думая об идеальном решении одной проблемы.
Исследователи из Массачусетского технологического института и Вашингтонского университета разработали способ моделирования поведения агента, будь то человеческий или машинный
Их модель может автоматически вывести вычислительные ограничения агента, увидев лишь несколько следов их предыдущих действий.Результат, так называемый «бюджет вывода» агента, может быть использован для прогнозирования будущего поведения этого агента.
В новой статье исследователи демонстрируют, как их метод может быть использован для вывода чьих -либо навигационных целей с предыдущих маршрутов и для прогнозирования последующих шагов игроков в шахматных матчах.Их техника соответствует или превосходит еще один популярный метод для моделирования этого типа принятия решений.
В конечном счете, эта работа может помочь ученым научить систем ИИ, как ведут себя люди, что может позволить этим системам лучше реагировать на своих сотрудников.Возможность понять поведение человека, а затем вывести их цели из этого поведения, может сделать помощника по искусственному искусству гораздо более полезным, говорит Атул Пол Джейкоб, аспирант по электротехнике и информатике (EECS) и ведущий автор статьи о документе.эта техника.
«Если мы знаем, что человек собирается допустить ошибку, увидев, как он вел себя раньше, агент ИИ может вмешаться и предложить лучший способ сделать это. Или агент может адаптироваться к слабостям, которые есть у его сотрудников человекаИмейте, способный моделировать человеческое поведение - это важный шаг к созданию агента ИИ, который действительно может помочь этому человеку », - говорит он.
Джейкоб написал статью с Абхишеком Гуптой, доцентом Университета Вашингтона, и старшим автором Джейкобом Андреасом, доцентом EECS и членом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).Исследование будет представлено на Международной конференции по обучению представлений (ICLR 2024), которая проводится в Вене, Австрия, 7–11 мая.
Исследователи на протяжении десятилетий создавали вычислительные модели поведения человека.Многие предыдущие подходы пытаются учитывать неоптимальное принятие решений, добавляя шум в модель.Вместо того, чтобы агент всегда выбирал правильный вариант, модель может заставить агент сделать правильный выбор в 95% случаев.
Однако эти методы могут не охватить тот факт, что люди не всегда ведут себя неоптимально одинаково.
Другие в MIT также изучали более эффективные способы планирования и вывода целей перед лицом неоптимального принятия решений.
Чтобы построить свою модель, Джейкоб и его сотрудники черпали вдохновение из предыдущих исследований шахматистов.Они заметили, что игрокам потребовалось меньше времени, чтобы думать, прежде чем действовать при совершении простых ходов, и что более сильные игроки, как правило, тратят больше времени на планирование, чем более слабые в сложных матчах.
«В конце концов, мы увидели, что глубина планирования, или как долго кто -то думает о проблеме, является действительно хорошим показателем того, как ведут себя люди», - говорит Джейкоб.
Они создали структуру, которая могла бы вывести глубину планирования агента из предыдущих действий и использовать эту информацию для моделирования процесса принятия решений агентом.
Первый шаг в их методе включает в себя запуск алгоритма в течение определенного количества времени для решения изучаемой проблемы.Например, если они изучают шахматный матч, они могут позволить алгоритму игры в шахматах работать за определенное количество шагов.В конце исследователи могут увидеть решения, которые алгоритм, принятый на каждом этапе.
Их модель сравнивает эти решения с поведением агента, решающего ту же проблему.Он согласится с решениями агента с решениями алгоритма и определит шаг, на котором агент перестал планировать.
Исходя из этого, модель может определить бюджет вывода агента, или как долго этот агент планирует эту проблему.Он может использовать бюджет вывода, чтобы предсказать, как этот агент отреагирует при решении аналогичной проблемы.
Этот метод может быть очень эффективным, потому что исследователи могут получить доступ к всему набору решений, принятых алгоритмом решения проблем, не выполняя дополнительную работу.Эта структура также может быть применена к любой проблеме, которая может быть решена с помощью конкретного класса алгоритмов.
«Для меня самым ярким было то, что этот бюджет вывода очень интерпретируется. Он говорит, что более жесткие проблемы требуют большего планирования или сильного игрока, значит планировать дольше. Когда мы впервые намереваемся сделать это, мы неПодумайте, что наш алгоритм сможет естественным образом использовать это поведение », - говорит Джейкоб.
Исследователи проверили свой подход в трех различных задачах по моделированию: вывод навигационных целей из предыдущих маршрутов, угадая чье-то коммуникативное намерение из их словесных сигналов и прогнозируя последующие шаги в шахматах человека-мужчинах.
Их метод либо соответствовал, либо превзошел популярную альтернативу в каждом эксперименте.Более того, исследователи увидели, что их модель поведения человека хорошо сочетается с показателями навыков игрока (в шахматных матчах) и сложности задачи.
Двигаясь вперед, исследователи хотят использовать этот подход для моделирования процесса планирования в других областях, таких как обучение подкреплению (метод проб и ошибок, обычно используемый в робототехнике).В долгосрочной перспективе они намерены продолжать опираться на эту работу по достижению более широкой цели разработки более эффективных сотрудников ИИ.
Больше информации: Моделирование ограничительно рациональные агенты с скрытыми бюджетами вывода.OpenReview.net/pdf?id=w3vshuga3j
Нашли ошибку в тексте? Напишите нам.