Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита

  • Сергей Владиславович Гарбарь Новгородский государственный университет им. Ярослава Мудрого
  • Sergey Garbar Новгородский государственный университет им. Ярослава Мудрого
  • Александр Валерианович Колногоров Новгородский государственный университет им. Ярослава Мудрого
  • Alexander Kolnogorov Новгородский государственный университет им. Ярослава Мудрого
Ключевые слова: задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование

Аннотация

Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.

Опубликован
2023-01-18
Как цитировать