Post

站在 AI 风暴中心的人看见了什么 — 翁家翌 × WhynotTV Podcast #4

Notes from a 2-hour podcast with Jiayi Weng — the engineer who built OpenAI's core RLHF post-training infrastructure behind GPT-3.5, GPT-4, and GPT-5.

站在 AI 风暴中心的人看见了什么 — 翁家翌 × WhynotTV Podcast #4

原视频: 翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华 | WhynotTV Podcast #4 WhynotTV is a long-form Chinese AI tech podcast by CMU Robotics PhD student 何泰然 (Tairan He). This episode runs ~2 hours.

翁家翌 × WhynotTV Podcast #4 — ~2 hours, worth every minute

翁家翌 (Jiayi Weng) joined OpenAI in 2022 and built the core reinforcement learning post-training infrastructure behind GPT-3.5, GPT-4, and GPT-5. His name appears on every major model release because everyone at OpenAI runs his infra.

This podcast is one of the most substantive conversations I’ve heard from an OpenAI insider — technically honest, personally candid, philosophically interesting.


👦 1. 童年:提前投资未来的策略意识

翁从小数学直觉很强,但他自认不是”学得快的人”——理解新知识比别人慢,需要花两到三倍时间。他的应对策略是:既然慢,那就提前学。

  • 初中就主动去问数学老师高中课程内容
  • 初二完成大部分高中数学,初三开始学微积分
  • 核心逻辑:“我想投资自己的未来(invest in my future)”

这种”提前布局”的思维贯穿了他的整个成长路径,后来在职业选择上也反复出现。


🏆 2. 高中 OI 竞赛:福建省唯一铜牌,叩开清华大门

翁曾在数学竞赛小有成绩,但学校资源有限,最终选择放弃数学转攻 OI(信息学竞赛)——对于非北京的学生,直接裸考清华北大”几乎难如登天”。

  • 在省选中一路拼到福建省队
  • 高二凭借一道最小二分覆盖题全场最高分,拿下清华”降 60 分”录取资格
  • 坦言是”险胜”:“那年福建省队只有一块铜牌,就是我。”

高三备考期间,他仍在”偷偷写代码”,甚至在没有编译器的 iPad 上直接敲代码,练出了对程序结构的完整认知和快速定位 bug 的能力。他尤其沉迷”常数优化”——在算法竞赛中极限压缩时间和代码长度,”没什么用,但真的很有意思”。


🎓 3. 清华:开源作业、打破信息差

进入清华后,翁做了一件在当时不常见的事:把所有课程作业、笔记、上古资料都开源到 GitHub

他的逻辑:清华内部信息差严重,上届资料往往被当成”生存资源”藏着掖着。他觉得这不公平——”每个人都应该平等地拥有这些信息”。

“随便抓一个计算机的学弟,问他认不认识捐楼的人?不认识。但你们认识我,因为大家都看我作业活的。比捐楼还有用。”


🎮 4. 在清华误打误撞进了强化学习

大二时,他盲选了清华计算机系的”学术新兴计划”,模糊觉得”图像的东西挺有意思”,随手选了强化学习,结果以为是做图像,发现其实是打游戏

他也喜欢图形学,在图形学课程里投入极多,完成了全班几乎没人敢做的”16K 高清图渲染”大作业,发明了一种加速迭代收敛的算法,拿到全班仅有的两个 A+ 之一。

但最终他放弃了图形学,选择专注 RL:“搞科研不能脚踏两条船。”


🔬 5. 暑研 Bengio 组:第一次接触 Transformer,做不出来

大三暑假,他去 Mila(Yoshua Bengio 所在研究所)交流实习,恰好是 Bengio 获图灵奖后几个月。跟随一位 Postdoc 尝试做类似 MoE(混合专家模型)的项目——这是他第一次接触 Transformer 和语言建模

结果没做出来,他的总结很直白:

“要让这种东西 work,首先得有算力、有工程能力,还要能 scale up。当时就我一个人几块卡,哪怕方向对,也搞不出来。”

他还观察到,当时已经有人尝试把 RL 用于训练语言模型,但 Transformer 在 RL 中容易崩塌,没人知道怎么让它不崩——后来人们才发现,关键是环境要”纯”(纯文本输入)。


📊 6. 申请季受挫:找到自己的评价体系

申请季里,他看着身边同学纷纷进入 CMU、Stanford 发出顶会论文,而自己”什么都没有”,落差感很强。

他的导师给过一句话,让他印象深刻:

“计算机系有三大指标:论文、比赛、GitHub 三位数以上的 Star。”

这句话让他意识到,GPA 不是唯一的评价体系,还有很多”可见的价值”能让人被世界看到。

但他更进一步打破了这个框架:这些指标本身也只是 impact 的反馈形式,追求的不是数字本身,而是”对现实世界里的人有没有帮助”

在 GPA 上,他的策略很务实:”够用就行,多一分都不想花时间。会在期末前计算当前 GPA——比如 87 分是 B+,那我就很满意了。”


🌟 7. 天授 Tianshou — 从”炼丹痛苦”出发的 RL 框架

申请季和疫情交叠的那段时间,翁做了两个让他”火”的项目,第一个是天授(Tianshou)

起点是切身之痛:RL 的”炼丹”体验实在太痛苦——

“这比 CV 调参难十倍、一百倍,全靠 heuristics(启发式方法),不知道哪里出了问题。”

他看了当时最主流的 RLlib 源代码,发现几十万行、抽象极度复杂,几乎没法动手修改,干脆推倒重来。2020 年春节假期开始写,第一版两周完成

天授的核心设计哲学:极致的一致性(consistency)——简单、好改、稳定,真正抓住科研用户的需求。

后来他在 2022 年 8 月意识到:学术 RL 环境(Atari、MoJoCo 等)过度拟合,无法转化为真实问题的解决能力。于是逐步停止了天授开发,转向在 OpenAI 内部构建更有意义的 RL Infra。


🗝️ 8. tuixue online — 一个”慈善项目”

另一个项目:tuixue online,一个实时爬虫工具,用于查询美国签证预约状态。

起点:他自己急需这个工具,”于是手撸了一个轻量爬虫,不然没办法”。顺手开源,因为”很多人应该有这个需求”。

结果一开始就有一百多万点击,后来累积破千万。最终因美领馆升级系统失效,他也没再维护——但”这个短命项目完成了自己的使命”。

他把天授和 tuixue 都称作“慈善”——”完全 nonprofit,这种慈善项目让我感觉非常满足”。

他对”追求 impact”的底层逻辑,来自高三时的一个念头:

“如果人生是场游戏,结算分数就是死后还有多少人记得你的名字。你不可能对所有人都好,但可以力所能及地做一些对大家有意义的事。”


🚀 9. CMU → OpenAI:18 家公司,最终选了最前沿的那个

2020 年,他远程开始 CMU 硕士课程,因疫情在家上网课。找工作时一开始投了 18 家公司,只收到 Google 和 AutoML(陈天奇团队)的 offer

最终,他拿到英伟达、TikTok、FAIR、幻方量化(后来成为 DeepSeek)等多个 offer,并最终选了 OpenAI——

“当时 OpenAI 和 DeepMind 是强化学习做得最好的两个 lab。我想体验世界最前沿的 research 是怎么做的,而不是留在几个 PhD 手搓的小作坊式科研环境。我想学工业级科研的方法论。”


🎤 10. 和 John Schulman 的面试

进入 OpenAI 的强化学习组,由联合创始人 John Schulman 亲自面试。

面试形式:一道开放的端到端工程题,给了 3 小时,翁 2 小时写完,现场还 debug 修好了一个 bug

“Schulman 说我的 GitHub 主页很’漂亮’,他应该也认可我这个评价体系。”

John Schulman 后来离职那天:

“我难过了一整个下午,把电脑都关了。”


🎓 11. PhD vs. Master:一个关于效率的判断

翁从未认真考虑过读 PhD,他的判断很直接:

“如果想进工业界,读 PhD 其实是在浪费生命。你完全可以以 Master 为跳板,凑够 PhD 进工业界的标准。关键是想清楚差异化。”

PhD 训练你擅长:讲故事、写 paper、画图。 工业界要的是:快速迭代和系统正确性。

他引用一位 OpenAI 同事(强化学习 PhD)说过的一句话:

“教一个 researcher 如何做好 engineering,比教一个 engineer 如何做好 research 难得多。”

他的核心观点:idea is cheap,真正稀缺的是验证的效率和质量。

“每家 infrastructure 都有不同程度的 bug,谁修的 bug 多,谁的模型性能就越好。”


🔧 12. “卖铲子里最面向客户的那位”

他把自己在 OpenAI 的角色描述为:

“每发一个大的 release,每发一个大的模型,我的名字就得放上去——因为大家都在用整个 post-training infra 去训练 RLHF 的模型。”

他给自己设定了一个很清晰的职业指标:

“我要最大化我在 OpenAI Blog 上出现的次数。”

策略逻辑:做处在基础设施栈最顶端的 RL 模块——所有人都要用,所以 impact 最大化。


🤖 13. RLHF 和 Post-Training:从零构建,没有现成基线

flowchart LR
    PT["📚 预训练\n(Pre-Training)\n学会语言"]:::stage --> PO["🎯 后训练\n(Post-Training)\nRLHF 对齐"]:::stage --> CHAT["💬 ChatGPT\n有用 + 安全"]:::stage

    classDef stage fill:#4A90D9,stroke:#2c5f8a,color:#fff

什么是 Post-Training?

  • 预训练:让模型看海量文本,学会预测下一个词。赋予语言能力,但模型不”懂”你想要什么。
  • 后训练(Post-Training):在预训练基础上,用人类反馈(RLHF)或其他 RL 信号,告诉模型”这个回答更好”。让 raw capabilities → useful alignment。

直觉类比:预训练是”读万卷书”,后训练是”被人类老师批改作业”。

实际挑战:

翁在 OpenAI 内部没有现成可复用的 RLHF 基线,很多关键流程从头构建。最困难的问题是衡量标准不清晰

“你训练出很多个 checkpoint,但你不知道哪个是真的更好。”

模型可能一开始奖励信号很高,之后因 reward hacking(过度拟合奖励函数) 而性能下降。最终只能靠 human-in-the-loop:内部员工亲自交互测试、打分投票,选出最佳版本。


⚡ 14. 大模型工业级 RL Infra 的实际挑战

和 toy task(小规模仿真环境)的 RL 相比,大模型 RL 的瓶颈完全不同:

Environment瓶颈原因
Toy task (Atari/MoJoCo)环境计算环境模拟计算量大
大模型 RL模型本身采样和训练需要几百到上千秒

核心挑战:吞吐与扩展的平衡,以及对 GPU 资源的极限压榨

“RL 本质上就是 trial-and-error(试错)。你试得越快越多,成功就越近。”

OpenAI 为什么能持续做出爆款? 翁归结为两点:

  1. 单位时间迭代效率足够高 — 引入了 Barret Zoph、Liam Fedus 等前 Google 工程负责人后,系统性提升了工程效率
  2. 领导层真正懂技术 — Greg Brockman 几乎参与过公司所有基础设施模块

工作强度极高,一度因头痛被送进急诊。”基本是早上醒来开始 debug,写到晚上睡觉,一周六天。” 自那以后他强制自己每周跑两次 3000 米。


🏢 15. OpenAI 内部视角

ChatGPT 爆发时: 服务器数次被挤爆,他觉得这和做 tuixue 时一样——”说明这确实是一个值得投入精力的方向,需求是真实的”。

Sam Altman 被开除: 底层员工的反应是震惊——董事会对内部几乎没有透明度。他对 Sam 的理解是,Sam 是一个”identity(精神符号)“——你需要一个能搞钱、搞算力、搞资源的人。

DeepSeek 的警觉: DeepSeek 声称迭代很快,”确实让内部很多人警觉”,这也是 OpenAI 启动重构下一代 RL Infra 的原因之一——旧架构已用了三年多,技术债堆积。

“所有公司做大了都会变慢,看哪个’没那么差’而已。一个初创团队集中做一个方向,斜率肯定高。”


🔓 16. OpenAI 还”Open”吗?

他自称热爱开源,但对这个问题的回答很坦诚:

“你没法直接把最好的模型开源,因为公司要生存。你一开源,别人就立刻闭源压你,导致你融不到钱,没法继续实验。”

他的辩护:ChatGPT 有免费版本、语音模式体验,这可能是更有利于”造福全人类”的方式。


🤔 17. AGI 是什么?

“OpenAI 内部你抓 15 个人,可能有 20 种定义 AGI 的方法。”

他自己的定义:“如果它能完成 80%–90% 我认为有意义的任务,那它可能就是 AGI 了。”

关于 AI 取代人:

“研究员(pure researcher)可能是第一波被 AI 取代的,然后是工程师,销售等人际角色比较难替代。”

他脑中的终极 AI 应用场景:

“一个拥有无限上下文记忆能力的 AI Agent,可能才是最合适的 CEO。人类的 context 是有限的,组织臃肿就是因为 context 共享不一致——但 AI 可以解决这个管理核心问题。”


🌌 18. 宿命论与对”预测未来”的执念

翁的世界观倾向于宿命论/决定论:认为世界是确定的,时间可能是非线性的。

他最想用 AI 解决的问题:预测未来

“所有的东西都是可以被预测的,所以理论上它可以用 AI 解决的。”

但他同时认为:

“如果你真的拿到一个能预测未来的机器,对个人而言其实是一场灾难——这会导致所有价值体系的崩塌。”

他的应对方式是:“忘掉这一切” — 假装不知道世界是否确定,只专注当下的体验与选择。


💡 My Takeaways

  1. 找到自己的评价体系。 论文、比赛、GitHub star 都是”某些群体设计的”衡量标准。翁用的是:对现实世界里的人有没有帮助。这更难衡量,但更接近本质。

  2. Infra is research. “每家 infra 都有不同程度的 bug,谁修的 bug 多,谁的模型性能就越好。” 建系统的人和设计算法的人,对最终模型的影响力是一样的。

  3. Idea is cheap,验证是稀缺品。 一个在正确 infra 上快速迭代的平庸想法,会打败一个在破烂系统上慢速验证的好想法。

  4. “教 researcher 做 engineering,比教 engineer 做 research 难得多。” 在 AI 时代,工程能力是更可靠的护城河。

  5. 做工具是一种”慈善”。 最有 impact 的东西往往不是从”我要做有 impact 的事”出发,而是从”这个东西太烦了,我来修一下”出发。

  6. “够用就行”的 GPA 策略不是躺平,是资源再分配。 把从 GPA 上省出来的时间,投到比较优势更大的事情上(开源、框架、工具)。

  7. 宿命论不是消极的。 他选择”忘掉”世界可能是确定的,专注活在当下——这是一种主动选择,不是放弃。


Source: WhynotTV Podcast #4 on YouTube · Published Jan 17, 2026 · Further reading: 36kr report

Part of my AI practitioner interview notes series. Next: notes from a talk by a Deepmind researcher on scaling laws.

This post is licensed under CC BY 4.0 by the author.