Исследовательская группа разрабатывает новую метрику для оценки компромисса по возврату рисков в неполитической оценке
Sharperatio@K, новый показатель оценки для оценок оценки вне политики, эффективно измеряет компромисс с возвратом к риску оценки политики, используемых в обучении подкрепления и контекстных бандитах, которые обычно игнорируются обычными метриками, показывают ученые в Tokyo Tech.Этот новый показатель, вдохновленный оценкой риска в управлении финансовым портфелем, обеспечивает более проницательную оценку OPE, прокладывающую путь к улучшению выбора политики.Кредит: Токийский технологический институт
В частности, в практических приложениях метод не политической оценки (OPE) используется для сначала фильтровать наиболее перспективные политики кандидатов, называемые «политиками Top-K», из автономного зарегистрированного набора данных, а затем использовать более надежные тесты реального мира, называется онлайн -тестами A/B, чтобы выбрать окончательную политику.
Чтобы оценить эффективность различных оценок OPE, исследователи в первую очередь сосредоточены на таких показателях, как ошибка среднего квадрата (MSE), RankCorr и сожаление.Тем не менее, эти методы сосредоточены исключительно на точности методов OPE, одновременно не оценивая компромисс с возвратом риска во время развертывания онлайн-политики.
В частности, MSE и RankCorr не могут дифференцировать, переоценивается ли почти оптимальная политика или плохой политики, в то время как сожаление фокусируется только на лучшей политике и упускает из виду вероятность нанесения вреда системе из-за подоптимальной политики в онлайн-A/Bтесты.
Решая эту проблему, группа исследователей из Японии, возглавляемая профессором Казухидом Накатой из Токийского технологического института, разработала новый показатель оценки для оценщиков ОП.
«Измерение риска возврата имеет решающее значение для обеспечения безопасности в чувствительных к рискам сценариям, таким как финансы. Вдохновленный принципом проектирования показателя оценки финансового риска, коэффициента SharpК выбор политики », объясняет профессор Наката.Исследование было представлено на конференции ICLR 2024.
Sharperatio@K рассматривает политики Top-K, выбранные оценщиком OPE в качестве портфеля политики, аналогично финансовым портфелям и измеряет риск, доходность и эффективность оценки на основе статистики портфеля.В этом методе портфель политики считается эффективным, когда он содержит политики, которые значительно повышают производительность (высокая доходность) без включения плохо выполняющих политики, которые негативно влияют на обучение в онлайн -тестах A/B (низкий риск).Этот метод максимизирует возврат и сводит к минимуму риск, тем самым выявляя самую безопасную и наиболее эффективную оценку.
Исследователи продемонстрировали возможности этой новой метрики посредством примеров сценариев и контрольных тестов и сравнили его с существующими метриками.
Тестирование показало, что Sharperatio@K эффективно измеряет риск, доходность и общую эффективность различных оценок в рамках различных бюджетов онлайн -оценки, в то время как существующие показатели не делают этого.Кроме того, он также учитывает переоценку и недооценку политики.Интересно, что они также обнаружили, что, хотя в некоторых сценариях это соответствует существующим показателям, лучшая ценность этих метрик не всегда приводит к лучшему значению@k.
Благодаря этим критериям исследователи также предложили несколько будущих направлений исследований для оценщиков ОПЕ, включая необходимость использования Sharperatio@K для оценки эффективности оценок ОПЕ и необходимости новых оценок и методов выбора оценки, которые учитывают компромисс для возврата риска.Кроме того, они также внедрили свою инновационную метрику в программном обеспечении с открытым исходным кодом для быстрой, точной и проницательной оценки OPE.
Подчеркивая важность исследования, профессор Наката приходит к выводу: «Наше исследование показывает, что Sharpreratio@K может определить соответствующую оценку для использования с точки зрения его эффективности в рамках различных политик поведения, обеспечивая полезную информацию для более подходящей оценки и отбора оценки в обоихисследования и практика “.
В целом, это исследование улучшает выбор политики через ОП, прокладывая путь к улучшению обучения подкреплению.
Больше информации: Haruka Kiyohara et al., Для оценки и сравнительного анализа риска-возврата обстановки оценочной оценки (2024)
Нашли ошибку в тексте? Напишите нам.