站在 AI 风暴中心的人看见了什么 — 翁家翌 × WhynotTV Podcast #4

Notes from a 2-hour podcast with Jiayi Weng — the engineer who built OpenAI's core RLHF post-training infrastructure behind GPT-3.5, GPT-4, and GPT-5.

Posted Mar 19, 2026 Updated Mar 20, 2026

AI research and reinforcement learning

By YuXuan Yan

23 min read

站在 AI 风暴中心的人看见了什么 — 翁家翌 × WhynotTV Podcast #4

原视频： 翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华 | WhynotTV Podcast #4 WhynotTV is a long-form Chinese AI tech podcast by CMU Robotics PhD student 何泰然 (Tairan He). This episode runs ~2 hours.

翁家翌 × WhynotTV Podcast #4 — ~2 hours, worth every minute

翁家翌 (Jiayi Weng) joined OpenAI in 2022 and built the core reinforcement learning post-training infrastructure behind GPT-3.5, GPT-4, and GPT-5. His name appears on every major model release because everyone at OpenAI runs his infra.

This podcast is one of the most substantive conversations I’ve heard from an OpenAI insider — technically honest, personally candid, philosophically interesting.

👦 1. 童年：提前投资未来的策略意识

翁从小数学直觉很强，但他自认不是”学得快的人”——理解新知识比别人慢，需要花两到三倍时间。他的应对策略是：既然慢，那就提前学。

初中就主动去问数学老师高中课程内容
初二完成大部分高中数学，初三开始学微积分
核心逻辑：“我想投资自己的未来（invest in my future）”

这种”提前布局”的思维贯穿了他的整个成长路径，后来在职业选择上也反复出现。

🏆 2. 高中 OI 竞赛：福建省唯一铜牌，叩开清华大门

翁曾在数学竞赛小有成绩，但学校资源有限，最终选择放弃数学转攻 OI（信息学竞赛）——对于非北京的学生，直接裸考清华北大”几乎难如登天”。

在省选中一路拼到福建省队
高二凭借一道最小二分覆盖题全场最高分，拿下清华”降 60 分”录取资格
坦言是”险胜”：“那年福建省队只有一块铜牌，就是我。”

高三备考期间，他仍在”偷偷写代码”，甚至在没有编译器的 iPad 上直接敲代码，练出了对程序结构的完整认知和快速定位 bug 的能力。他尤其沉迷”常数优化”——在算法竞赛中极限压缩时间和代码长度，”没什么用，但真的很有意思”。

🎓 3. 清华：开源作业、打破信息差

进入清华后，翁做了一件在当时不常见的事：把所有课程作业、笔记、上古资料都开源到 GitHub。

他的逻辑：清华内部信息差严重，上届资料往往被当成”生存资源”藏着掖着。他觉得这不公平——”每个人都应该平等地拥有这些信息”。

“随便抓一个计算机的学弟，问他认不认识捐楼的人？不认识。但你们认识我，因为大家都看我作业活的。比捐楼还有用。”

🎮 4. 在清华误打误撞进了强化学习

大二时，他盲选了清华计算机系的”学术新兴计划”，模糊觉得”图像的东西挺有意思”，随手选了强化学习，结果以为是做图像，发现其实是打游戏。

他也喜欢图形学，在图形学课程里投入极多，完成了全班几乎没人敢做的”16K 高清图渲染”大作业，发明了一种加速迭代收敛的算法，拿到全班仅有的两个 A+ 之一。

但最终他放弃了图形学，选择专注 RL：“搞科研不能脚踏两条船。”

🔬 5. 暑研 Bengio 组：第一次接触 Transformer，做不出来

大三暑假，他去 Mila（Yoshua Bengio 所在研究所）交流实习，恰好是 Bengio 获图灵奖后几个月。跟随一位 Postdoc 尝试做类似 MoE（混合专家模型）的项目——这是他第一次接触 Transformer 和语言建模。

结果没做出来，他的总结很直白：

“要让这种东西 work，首先得有算力、有工程能力，还要能 scale up。当时就我一个人几块卡，哪怕方向对，也搞不出来。”

他还观察到，当时已经有人尝试把 RL 用于训练语言模型，但 Transformer 在 RL 中容易崩塌，没人知道怎么让它不崩——后来人们才发现，关键是环境要”纯”（纯文本输入）。

📊 6. 申请季受挫：找到自己的评价体系

申请季里，他看着身边同学纷纷进入 CMU、Stanford 发出顶会论文，而自己”什么都没有”，落差感很强。

他的导师给过一句话，让他印象深刻：

“计算机系有三大指标：论文、比赛、GitHub 三位数以上的 Star。”

这句话让他意识到，GPA 不是唯一的评价体系，还有很多”可见的价值”能让人被世界看到。

但他更进一步打破了这个框架：这些指标本身也只是 impact 的反馈形式，追求的不是数字本身，而是”对现实世界里的人有没有帮助”。

在 GPA 上，他的策略很务实：”够用就行，多一分都不想花时间。会在期末前计算当前 GPA——比如 87 分是 B+，那我就很满意了。”

🌟 7. 天授 Tianshou — 从”炼丹痛苦”出发的 RL 框架

申请季和疫情交叠的那段时间，翁做了两个让他”火”的项目，第一个是天授（Tianshou）。

起点是切身之痛：RL 的”炼丹”体验实在太痛苦——

“这比 CV 调参难十倍、一百倍，全靠 heuristics（启发式方法），不知道哪里出了问题。”

他看了当时最主流的 RLlib 源代码，发现几十万行、抽象极度复杂，几乎没法动手修改，干脆推倒重来。2020 年春节假期开始写，第一版两周完成。

天授的核心设计哲学：极致的一致性（consistency）——简单、好改、稳定，真正抓住科研用户的需求。

后来他在 2022 年 8 月意识到：学术 RL 环境（Atari、MoJoCo 等）过度拟合，无法转化为真实问题的解决能力。于是逐步停止了天授开发，转向在 OpenAI 内部构建更有意义的 RL Infra。

🗝️ 8. tuixue online — 一个”慈善项目”

另一个项目：tuixue online，一个实时爬虫工具，用于查询美国签证预约状态。

起点：他自己急需这个工具，”于是手撸了一个轻量爬虫，不然没办法”。顺手开源，因为”很多人应该有这个需求”。

结果一开始就有一百多万点击，后来累积破千万。最终因美领馆升级系统失效，他也没再维护——但”这个短命项目完成了自己的使命”。

他把天授和 tuixue 都称作“慈善”——”完全 nonprofit，这种慈善项目让我感觉非常满足”。

他对”追求 impact”的底层逻辑，来自高三时的一个念头：

“如果人生是场游戏，结算分数就是死后还有多少人记得你的名字。你不可能对所有人都好，但可以力所能及地做一些对大家有意义的事。”

🚀 9. CMU → OpenAI：18 家公司，最终选了最前沿的那个

2020 年，他远程开始 CMU 硕士课程，因疫情在家上网课。找工作时一开始投了 18 家公司，只收到 Google 和 AutoML（陈天奇团队）的 offer。

最终，他拿到英伟达、TikTok、FAIR、幻方量化（后来成为 DeepSeek）等多个 offer，并最终选了 OpenAI——

“当时 OpenAI 和 DeepMind 是强化学习做得最好的两个 lab。我想体验世界最前沿的 research 是怎么做的，而不是留在几个 PhD 手搓的小作坊式科研环境。我想学工业级科研的方法论。”

🎤 10. 和 John Schulman 的面试

进入 OpenAI 的强化学习组，由联合创始人 John Schulman 亲自面试。

面试形式：一道开放的端到端工程题，给了 3 小时，翁 2 小时写完，现场还 debug 修好了一个 bug。

“Schulman 说我的 GitHub 主页很’漂亮’，他应该也认可我这个评价体系。”

John Schulman 后来离职那天：

“我难过了一整个下午，把电脑都关了。”

🎓 11. PhD vs. Master：一个关于效率的判断

翁从未认真考虑过读 PhD，他的判断很直接：

“如果想进工业界，读 PhD 其实是在浪费生命。你完全可以以 Master 为跳板，凑够 PhD 进工业界的标准。关键是想清楚差异化。”

PhD 训练你擅长：讲故事、写 paper、画图。工业界要的是：快速迭代和系统正确性。

他引用一位 OpenAI 同事（强化学习 PhD）说过的一句话：

“教一个 researcher 如何做好 engineering，比教一个 engineer 如何做好 research 难得多。”

他的核心观点：idea is cheap，真正稀缺的是验证的效率和质量。

“每家 infrastructure 都有不同程度的 bug，谁修的 bug 多，谁的模型性能就越好。”

🔧 12. “卖铲子里最面向客户的那位”

他把自己在 OpenAI 的角色描述为：

“每发一个大的 release，每发一个大的模型，我的名字就得放上去——因为大家都在用整个 post-training infra 去训练 RLHF 的模型。”

他给自己设定了一个很清晰的职业指标：

“我要最大化我在 OpenAI Blog 上出现的次数。”

策略逻辑：做处在基础设施栈最顶端的 RL 模块——所有人都要用，所以 impact 最大化。

🤖 13. RLHF 和 Post-Training：从零构建，没有现成基线

flowchart LR
    PT["📚 预训练\n(Pre-Training)\n学会语言"]:::stage --> PO["🎯 后训练\n(Post-Training)\nRLHF 对齐"]:::stage --> CHAT["💬 ChatGPT\n有用 + 安全"]:::stage

    classDef stage fill:#4A90D9,stroke:#2c5f8a,color:#fff

什么是 Post-Training？

预训练：让模型看海量文本，学会预测下一个词。赋予语言能力，但模型不”懂”你想要什么。
后训练（Post-Training）：在预训练基础上，用人类反馈（RLHF）或其他 RL 信号，告诉模型”这个回答更好”。让 raw capabilities → useful alignment。

直觉类比：预训练是”读万卷书”，后训练是”被人类老师批改作业”。

实际挑战：

翁在 OpenAI 内部没有现成可复用的 RLHF 基线，很多关键流程从头构建。最困难的问题是衡量标准不清晰：

“你训练出很多个 checkpoint，但你不知道哪个是真的更好。”

模型可能一开始奖励信号很高，之后因 reward hacking（过度拟合奖励函数） 而性能下降。最终只能靠 human-in-the-loop：内部员工亲自交互测试、打分投票，选出最佳版本。

⚡ 14. 大模型工业级 RL Infra 的实际挑战

和 toy task（小规模仿真环境）的 RL 相比，大模型 RL 的瓶颈完全不同：

Environment	瓶颈	原因
Toy task (Atari/MoJoCo)	环境计算	环境模拟计算量大
大模型 RL	模型本身	采样和训练需要几百到上千秒

核心挑战：吞吐与扩展的平衡，以及对 GPU 资源的极限压榨。

“RL 本质上就是 trial-and-error（试错）。你试得越快越多，成功就越近。”

OpenAI 为什么能持续做出爆款？ 翁归结为两点：

单位时间迭代效率足够高 — 引入了 Barret Zoph、Liam Fedus 等前 Google 工程负责人后，系统性提升了工程效率
领导层真正懂技术 — Greg Brockman 几乎参与过公司所有基础设施模块

工作强度极高，一度因头痛被送进急诊。”基本是早上醒来开始 debug，写到晚上睡觉，一周六天。” 自那以后他强制自己每周跑两次 3000 米。

🏢 15. OpenAI 内部视角

ChatGPT 爆发时： 服务器数次被挤爆，他觉得这和做 tuixue 时一样——”说明这确实是一个值得投入精力的方向，需求是真实的”。

Sam Altman 被开除： 底层员工的反应是震惊——董事会对内部几乎没有透明度。他对 Sam 的理解是，Sam 是一个”identity（精神符号）“——你需要一个能搞钱、搞算力、搞资源的人。

DeepSeek 的警觉： DeepSeek 声称迭代很快，”确实让内部很多人警觉”，这也是 OpenAI 启动重构下一代 RL Infra 的原因之一——旧架构已用了三年多，技术债堆积。

“所有公司做大了都会变慢，看哪个’没那么差’而已。一个初创团队集中做一个方向，斜率肯定高。”

🔓 16. OpenAI 还”Open”吗？

他自称热爱开源，但对这个问题的回答很坦诚：

“你没法直接把最好的模型开源，因为公司要生存。你一开源，别人就立刻闭源压你，导致你融不到钱，没法继续实验。”

他的辩护：ChatGPT 有免费版本、语音模式体验，这可能是更有利于”造福全人类”的方式。

🤔 17. AGI 是什么？

“OpenAI 内部你抓 15 个人，可能有 20 种定义 AGI 的方法。”

他自己的定义：“如果它能完成 80%–90% 我认为有意义的任务，那它可能就是 AGI 了。”

关于 AI 取代人：

“研究员（pure researcher）可能是第一波被 AI 取代的，然后是工程师，销售等人际角色比较难替代。”

他脑中的终极 AI 应用场景：

“一个拥有无限上下文记忆能力的 AI Agent，可能才是最合适的 CEO。人类的 context 是有限的，组织臃肿就是因为 context 共享不一致——但 AI 可以解决这个管理核心问题。”

🌌 18. 宿命论与对”预测未来”的执念

翁的世界观倾向于宿命论/决定论：认为世界是确定的，时间可能是非线性的。

他最想用 AI 解决的问题：预测未来。

“所有的东西都是可以被预测的，所以理论上它可以用 AI 解决的。”

但他同时认为：

“如果你真的拿到一个能预测未来的机器，对个人而言其实是一场灾难——这会导致所有价值体系的崩塌。”

他的应对方式是：“忘掉这一切” — 假装不知道世界是否确定，只专注当下的体验与选择。

💡 My Takeaways

找到自己的评价体系。 论文、比赛、GitHub star 都是”某些群体设计的”衡量标准。翁用的是：对现实世界里的人有没有帮助。这更难衡量，但更接近本质。
Infra is research. “每家 infra 都有不同程度的 bug，谁修的 bug 多，谁的模型性能就越好。” 建系统的人和设计算法的人，对最终模型的影响力是一样的。
Idea is cheap，验证是稀缺品。 一个在正确 infra 上快速迭代的平庸想法，会打败一个在破烂系统上慢速验证的好想法。
“教 researcher 做 engineering，比教 engineer 做 research 难得多。” 在 AI 时代，工程能力是更可靠的护城河。
做工具是一种”慈善”。 最有 impact 的东西往往不是从”我要做有 impact 的事”出发，而是从”这个东西太烦了，我来修一下”出发。
“够用就行”的 GPA 策略不是躺平，是资源再分配。 把从 GPA 上省出来的时间，投到比较优势更大的事情上（开源、框架、工具）。
宿命论不是消极的。 他选择”忘掉”世界可能是确定的，专注活在当下——这是一种主动选择，不是放弃。

Source: WhynotTV Podcast #4 on YouTube · Published Jan 17, 2026 · Further reading: 36kr report

Part of my AI practitioner interview notes series. Next: notes from a talk by a Deepmind researcher on scaling laws.

AI, Notes

This post is licensed under CC BY 4.0 by the author.