Stanford RL Forum

Austin

Building RLHF around psychological models of human preference

Computing and Planning with Large Generative Models

Dale Schuurmans

Challenges in Scalable Training Data Attribution

Roger Grosse

CMU

Recent Advances in Average-Reward Restless Bandits

Weina Wang

Continual Subtask Learning

Adam White