15岁上大学19岁北大直博,他专注因果学习在推荐系统中的应用,已被业界用于预测及去偏任务

出生于 2002 年、15 岁考入北大、19 岁北大直博、20 岁开始发表论文,22 岁已经在在人工智能三大顶会 ICML、NeurIPS、ICLR 发表论文 20 篇,其中包含 9 篇一作论文,目前已获批 6 项国家发明专利。相关论文成果已被用于美团个性化补贴场景和华为应用商店搜索场景。同时,其作为研发主力打造的医学辨证论治智能辅助诊疗系统已在全国 30 多家医院开展落地示范应用。近日,在由北京大学主办的大学生优秀人物评选活动中,其又获得北京大学学生年度人物·2024 称号。这名 00 后便是来自北京大学前沿交叉学科研究院的 2021 级博士生李昊轩。

图片(来源:https://haoxuanli-pku.github.io/)

图片图 | 北京大学学生年度人物·2024,最右侧为李昊轩(来源:北京大学公众号)

李昊轩的个人主页显示,其出生于 2002 年。谷歌学术显示,他至少从 2022 年开始发论文。在读大学之前,李昊轩就读于北京八中超常教育实验班(即“少儿班”),在那里他用 4 年时间学完小学 6 年级到高中的所有课程。官方资料显示,该少儿班招收年龄十岁左右、具有小学四年级文化程度的智力超常儿童。

图片(来源:https://haoxuanli-pku.github.io/)

根据李昊轩在个人主页的自述,其在包含上述三个顶会在内的平台上已经累计发表 30 多篇论文,至少已有 3 篇论文被评选为 Spotlight 或 Oral。此外,他还曾获得国家自然科学基金青年科学家基金(30 万元)的资助,并担任 TOIS、TPAMI、TKDE、TKDD、TNNLS、JASA、SCIENCE CHINA Information Sciences、The Innovation 等期刊的受邀审稿人。李昊轩所在团队也非常重视和业界的合作,从其引用量较高的几篇论文来看,这些论文的共同作者中有来自 Huawei Hong Kong Theory Lab、Huawei Noah’s Ark Lab 以及网易的合作者。

图片(来源:谷歌学术)

其目前引用量第一高的论文是《因果学习在推荐系统中的机遇:基础、估计、预测和挑战》(On the Opportunity of Causal Learning in Recommendation Systems:Foundation,Estimation,Prediction and Challenges),该论文于 2022 年发表于国际人工智能联合会议(IJCAI,International Joint Conference on Artificial Intelligence)。

在他作为共同作者撰写这篇论文时,基于因果推理的推荐系统已被业界用于预测任务和去偏任务。但在当时人们尚未建立统一的因果分析框架,许多基于因果的预测研究和去偏研究也很少讨论各种偏见的因果解释以及相应因果假设的合理性。为此,李昊轩等人在该论文中提出一款因果分析框架,以便统筹和统一受因果启发的推荐方法,进而适用于推荐系统中的不同场景。在这篇论文中他和合作者还提出一种新型分类法,并采用假设角度给出了推荐系统中各种偏见的正式因果定义。另外,其还针对推荐系统中的去偏任务和预测任务加以形式化,并总结了基于统计和机器学习的因果估计方法。

图片图 | 论文《因果学习在推荐系统中的机遇:基础、估计、预测和挑战》(来源:IJCAI)

其目前引用量第二高的论文是《StableDR:针对非随机缺失数据的稳定双重稳健学习推荐》(StableDR:Stabilized Doubly Robust Learning for Recommendation on Data Missing Not at Random),该论文于 2023 年发表于国际表征学习大会(ICLR,International Conference on Learning Representations)。

这篇论文由李昊轩担任第一作者,研究中他证明推荐系统中的双重稳健(DR,doubly robust)方法并没有那么稳定。为此,他提出一种双重稳健方法并将其命名为 StableDR。同时,他还基于 StableDR 提出一种新型学习方法,该方法可以循环更新插补、倾向和预测模型,从而实现更稳定和更准确的预测。

图片图 | 论文《StableDR:针对非随机缺失数据的稳定双重稳健学习推荐》(来源:ICLR)

其目前引用量第三高的论文是《用于点击后转化率预测去偏的广义双重稳健学习框架》(A generalized doubly robust learning framework for debiasing post-click conversion rate prediction),该论文于 2022 年发表于国际数据挖掘与知识发现大会(KDD,Knowledge Discovery and Data Mining)。

这篇论文由李昊轩担任共同作者,论文中他和合作者提出一个广义学习框架,统一了现有的双重稳健方法。基于这一框架李昊轩等人提出两种新的双重稳健方法,并将其分别命名为 DR-BIAS 和 DR-MSE。其中,DR-BIAS 可以直接控制双重稳健损失的偏差,而 DR-MSE 则能平衡偏差和方差,从而实现更好的泛化性能。同时,在这篇论文中李昊轩和合作者还提出一种三级联合学习优化方法,可用于点击后转化率预测中的 DR-MSE,以及用于相应的算法训练。

图片图 | 论文《用于消除点击后转化率预测偏差的广义双重稳健学习框架》(来源:KDD)

其目前引用量第四高的论文是《TDR-CL:针对去偏推荐的有针对性的双重稳健协作学习》(TDR-CL:Targeted Doubly Robust Collaborative Learning for Debiased Recommendations),该论文于 2023 年发表于 ICLR。

这篇论文由李昊轩担任第一作者,研究中他和合作者提出一种新方法。当错误插补模型指定错误时,该方法可以同时有效减少现有双重稳健方法的偏差和方差。此外,在该论文中他和合作者还提出一种半参数协作学习方法,该方法可以将插补误差分解为参数部分和非参数部分并对它们进行协作更新,从而产生更准确的预测。

图片图 | 论文《TDR-CL:针对去偏推荐的有针对性的双重稳健协作学习》(来源:ICLR)

其目前引用量第五高的论文是《治疗效果评估的最佳运输》(Optimal transport for treatment effect estimation),该论文于 2023 年发表于神经信息处理系统大会(NeurIPS,Conference on Neural Information Processing Systems),李昊轩是共同作者之一。

在这篇论文中他和合作者提出一种名为全空间反事实回归(ESCFR,Entire Space CounterFactual Regression)的方法。基于随机最优传输框架,他和合作者还提出一个宽松的质量保持正则化器,并设计出一个近端事实结果正则化器来处理“不可观测的混淆因子”影响。

图片图 | 论文《治疗效果评估的最佳运输》(来源:NeurIPS)

除了做科研之外,李昊轩也很乐意对外分享。北京大学官网介绍其:“积极参与科普工作,参与‘平民学校科普讲座’。”2022 年至 2024 年,其先后应邀到北京工商大学、合肥工业大学、燕山大学做过因果推荐主题的报告。

图片(来源:http://ise.ysu.edu.cn/info/1073/6968.htm)

对于李昊轩的论文发表量,也有网友表达了不同看法。知乎网友“平凡”在相关帖文中阐述中国学者在人工智能顶会发表论文已是常态的同时指出:“不过 9 篇一作还是有实力的,按一半的中稿率,起码得准备 18-20 篇的草稿。”

知乎网友“爱写码的猫猫”评价称:“虽然读懂(李昊轩的论文)确实需要一定的数学门槛,但真的读懂了,会有点惊叹其构思之巧妙。大多数人不知道的是,这位 21 年左右就在因果社区非常活跃了,当时这位一直在做因果的科普和公益课程。衷心希望国内能多一些这种人才!”目前,李昊轩谷歌学术 h 指数为 13、总引用量为 550,但对于一名 22 岁的 00 后来说已经比较难得,期待未来他能产出更多的成果。

参考资料:

https://www.zhihu.com/question/7819628640

https://haoxuanli-pku.github.io/

https://www.bjnews.com.cn/detail/173510294119172.html

https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E5%85%AB%E4%B8%AD%E8%B6%85%E5%B8%B8%E6%95%99%E8%82%B2%E5%AE%9E%E9%AA%8C%E7%8F%AD/18582494?fr=aladdin

https://scholar.google.com/citations?hl=zh-CN&user=gtDqiucAAAAJ&view_op=list_works&sortby=pubdate

http://news.hfut.edu.cn/info/1020/54036.htm

http://ise.ysu.edu.cn/info/1073/6968.htm

https://www.zhihu.com/question/7819628640/answer/64574875449

https://www.zhihu.com/question/7819628640/answer/65710922531

https://arxiv.org/abs/2201.06716

https://arxiv.org/abs/2205.04701

https://arxiv.org/abs/2211.06684

https://arxiv.org/abs/2203.10258

https://arxiv.org/abs/2310.18286

排版:溪树