Stanford RL Forum

NUS

Optimal Clustering with Bandit Feedback

Vincent Y. F. Tan

Adaptivity and Confounding in Multi-Armed Bandit Experiments

Daniel Russo

Reinforcement Learning, Bit by Bit

Xiuyuan (Lucy) Lu

Provable Model-based Nonlinear Bandit and Reinforcement Learning

Tengyu Ma

Diffusion Asymptotics for Sequential Experiments

Kuang Xu