Reinforcement Learning

Provably Learning from Language Feedback, 2025 (Best paper in EXAIT@ICML 2025).
Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, and Ching-An Cheng.

Exploration Unbound, 2024.
Dilip Arumugam*, Wanqiao Xu*, and Benjamin Van Roy.

Pearl: A Production-ready Reinforcement Learning Agent, Journal of Machine Learning Research, 2024.
Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Janiel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, and Wanqiao Xu.

RLHF and IIA: Perverse Incentives, 2023 (Oral in Models of Human Feedback for AI Alignment@ICML 2024).
Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen, and Benjamin Van Roy.

Shattering the Agent-Environment Interface for Fine-Tuning Inclusive Language Models, 2023.
Wanqiao Xu, Shi Dong, Dilip Arumugam, and Benjamin Van Roy.

Posterior Sampling for Continuing Environments, RLC 2024 (Outstanding paper on the theory of RL).
Wanqiao Xu, Shi Dong, and Benjamin Van Roy.

Uniformly Conservative Exploration in Reinforcement Learning, AISTATS 2023.
Wanqiao Xu, Yecheng Jason Ma, Kan Xu, Hamsa Bastani, and Osbert Bastani.

Regret Bounds for Risk-Sensitive Reinforcement Learning, NeurIPS 2022.
*Osbert Bastani, Yecheng Jason Ma, Estelle Shen, and Wanqiao Xu.

Previous Publications in Probability and Number Theory

Distribution of Eigenvalues of Matrix Ensembles arising from Wigner and Palindromic Toeplitz Blocks, 2021.
*Keller Blackwell, Neelima Borade, Arup Bose, Charles Devlin VI, Noah Luntzlara, Renyuan Ma, Steven J. Miller, Soumendu Sundar Mukherjee, Mengxi Wang, and Wanqiao Xu.
Major Revision, Random Matrices: Theory and Applications

Gaps of Summands of the Zeckendorf Lattice, The Fibonacci Quarterly, 2020, Vol. 58 Is. 2.
*Neelima Borade, Dexter Cai, David Z. Chang, Bruce Fang, Alex Liang, Steven J. Miller, and Wanqiao Xu.

Distribution of Eigenvalues of Random Real Symmetric Block Matrices, 2019.
*Keller Blackwell, Neelima Borade, Charles Devlin VI, Noah Luntzlara, Renyuan Ma, Steven J. Miller, Mengxi Wang, and Wanqiao Xu.

*Author names in alphabetical order