С.В. Гарбарь, А.В. Колногоров.
Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита
// Математическая Теория Игр и ее Приложения, т. 14, в. 2. 2022. C. 3-30
Ключевые слова: задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование
Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.
Индексируется в РИНЦ, РИНЦ (WS)