implementations of algorithms for bandit problem
各アームが平均
UCBスコア
UCBスコアはヘフディングの不等式を用いて信頼区間の上限を計算する事で導出される。
履歴
UCB方策における尤度を事後分布に置き換えた物。
信頼上限(UCB)と信頼下界(LCB)それぞれのスコアを用いる。
各ステップでの最適アームのLCBスコアをUCBスコアが下回るアームを削除し、 残っているアームを引き続ける方策。
上と同様にUCB/LCBスコアを用いる。
各ステップでの最適腕