Summary2 min read

张小珺Jùn｜商业访谈录
Episode 117：开源一段论文探索之旅：模型范式、Infra和数据、语言、多模态的完整变迁史
日期：2025年10月28日
主持人：张小珺
嘉宾：谢清池（美团“光年之外”产品负责人）

节目概览

本期节目是一场超长、极致丰富的AI技术史梳理。谢清池用一年读完上百篇AI顶会论文，把模型范式、基础设施（Infra）与数据、语言、多模态AI模型的完整历史脉络，结合技术人物、范式变迁和方法论，以开放和通俗的方式“开源”。内容不仅涵盖了深度学习数十载的主脉络，还着重讲述了个人学习AI的心路和方法论，同时串联了硅谷与中国前沿AI公司的现实故事。

主要内容框架

开篇破题
- 论文之路的起点、个人壁垒与工具（00:03–14:00）
- AI时代产品经理为何要读论文与历史上技术范式的差异
AI读论文的方法论与推荐工具/书目资源
- 以AI学AI的各种tips，推荐插件、视频、书籍
- 数学基础的重要性，英文内容的优先级
深度学习四大要素发展主线（模型/Infra/数据/任务）
- “模型结构与范式变迁”史（始于GPU、卷积神经网络、transformer等）
模型结构与范式演化的关键论文与重大节点
- GPU到CUDA的诞生、AlexNet开启深度学习新纪元
- NLP领域的范式迁移（Seq2Seq、Attention, Transformer 等）
- “Scaling Law”(可扩展规律）的确立与大模型爆发
- Knowledge Distillation、ResNet、AlphaGo Zero、MOE、Chain-of-Thought、LoRA、ReAct等创新
Infra和数据篇
- 大模型训练的工程基础与挑战（Zero/Deepspeed/Scaling Law/RefinedWeb/megascale 等）
语言模型脉络
- Word2Vec、BERT/GPT/BERT之争、InstructionGPT，到现代Post-training范式（如Tulu-3）
多模态AI模型的历程
- 从ImageNet到Clip、Stable Diffusion、DIT（Vision Transformer in Diffusion）等
关于技术范式与人的故事
- 科学家与巨头公司如何影响技术路径，以及范式选择背后的工程/算法对抗
好奇心、阅读之法、对行业和未来的忠告

关键内容与亮点梳理

1. 为什么产品经理要系统性读AI论文？

“了解技术边界是产品经理的底层能力。…很多时候变革从技术边界的变化开始。”
——谢清池 [00:11]

互联网时代靠“应用熟成”，AI时代靠“技术范式驱动”
AI仍处早期，不懂底层原理就无法有效利用和判断能力边界

2. AI学习的壁垒与现代工具

“最核心的障碍其实是英文…我不是来学英语的，我是来学AI的。…用‘沉浸式翻译’插件搞定。”
——谢清池 [12:44]

必修现代数学、重修线性代数和概率论
推荐 “沉浸式翻译”等AI辅助插件，双向提问AI模型（GPT/Claude/豆包等）
可视化工具（如Cloud和Artifacts）帮助理解复杂原理
强调英文原始内容优先，搭配AI实时翻译跨越壁垒

3. 推荐体系化学习资源

课程与视频推荐
- 吴恩达机器学习、李宏毅生成式AI机器学习、李沐“论文精读”、3blue1brown、网木头学科学、周米（GPU/Infra）
书籍推荐
- 动手学深度学习、LLM底层技术原理入门、深度学习中的数学
学习小贴士
- 多看英文原文；用AI辅助查阅、提问、总结

4. 四大要素发展主线：模型、Infra、数据、语言、多模态

A. 模型结构与范式的演化史

（1）GPU计算革命

从1999年Nvidia GeForce到CUDA的诞生
Brook语言抽象，催生GPU通用计算框架 [38:00左右]

（2）AlexNet与深度学习元年

“AlexNet把数据、算力、模型都scale到极致…直接引爆深度学习时代。”
——谢清池 [50:20]

成功将卷积网络+大数据集+GPU硬件结合，开启深度网络新时代

（3）NLP范式之变——从统计到深度神经网络

Seq2Seq结构与Attention机制的引入
Encoder-Decoder结构的复兴、跨学科人才联动
“为什么注意力机制work？其实没人能解释，很多结构都是工程师们‘试出来的’…这就是神的仁慈。”

——转述Noam Shazeer名言 [1:13:00]

（4）模型越大越好？Scaling Law/深度模型辅助技术

ResNet：极深网络不退化
MOE（Mixture of Experts）：只激活部分参数，推理成本大降
模型蒸馏（Distillation）：用“大拙合”，“教师模型”带“小学生模型”
COT（Chain-of-Thought）后训，Prompt工程的崛起
- “一些论文难度不大但定义了时代关键问题。找到好问题往往胜过解决难问题。”
[2:03:00]

（5）从GAN到Diffusion，再到Transformer统一宇宙

GAN（生成对抗网络）主导图像生成数年后，Diffusion模型（DDPM等）击败GAN并成为主流
Vision Transformer (ViT) & DIT：Transformer进入图像与多模态AI正轨
SORA、Stable Diffusion等，成为跨模态AI“新基建”

B. Infra与数据系统脉络

Zero/Deepspeed/megascale：从单卡到万卡超级集群
Scaling Law的确立：参数、数据、算力成就大模型
数据清洗、RefinedWeb/Line5B，数据资产的极致挖掘，影响模型的能力与安全性边界

C. 语言模型发展谱系

Word2Vec → ENCODE/DECODER → GPT（生成式预训练）→ BERT → Instruction-GPT → post-training（Tulu-3）→ Prompt/Context Engineering
OpenAI与Google/BERT背后范式对抗故事
“用多任务/复杂任务强行构造，模型就‘被迫’学习世界知识并泛化。”

[1:44:00左右]

D. 多模态技术变迁

ImageNet类标注数据集开端
Clip、StableDiffusion、DIT等主宰文图理解生成领域

5. 技术范式、团队与人物“小道消息”

“两大AI流派：硅谷（更偏infra/工程） vs. 英国牛剑（更偏算法/模型），Gemini合并时甚至‘不太服气’。”

[1:59:00]
OpenAI如何All-in scaleable LLM及其组织大刀阔斧调整
AlexNet、Cuda团队背后的人物八卦，Norm（Character AI/Fast Tokenization）、Jason Wei、Oriel、Cockley、伊利亚、Dario等科学家流变
“先进生态支撑了技术范式的胜利。工程能力强的团队往往能率先落地颠覆性能力。”

经典语录与高光时刻

1.

“最苦涩的教训：依赖自以为是的特征工程，看似暂时有效，长远看反而成为技术进步的阻碍。最终的突破来自通用方法和计算的scale。”
——转述Rich Sutton《Bitter Lesson》 [2:30:00]

2.

“如果模型work，我们就把它归结为神的仁慈。”
——Noam Shazeer名言（Transformer作者），用于解释很多模型结构没有理论解释却效果奇好 [1:13:00]

3.

“AI研究的进步是一小步一小步堆积共生的，没有哪个Node是可以跳跃前面所有工作的。”
——张小珺总结 [3:55:00]

4.

“我愿意躺平等待技术进步——了解原理后，知道很多事情可等着‘世界变好’，不必焦虑。”
——谢清池 [4:18:00]

时间轴&关键片段

00:03–14:00 个人AI论文之旅缘起与障碍
14:00–32:00 推荐工具与学习资源
32:00–1:02:00 GPU、深度学习初期变迁（Brook, AlexNet）
1:02:00–1:35:00 NLP, Attention, Transformer范式大跃迁
1:35:00–2:00:00 Scaling Law、辅助型技术（ResNet、MOE、Distillation）
2:00:00–2:20:00 Post-training (Chain-of-Thought, ReAct, LoRA)
2:20:00–2:40:00 Infra与数据集（Zero, Deepspeed, Scaling Law, RefinedWeb）
2:40:00–3:05:00 语言模型脉络（Word2Vec, BERT, GPT家族）
3:05:00–3:35:00 指令微调、后训练、行业关键论文
3:35:00–4:00:00 多模态模型发展（ImageNet, Clip, Diffusion, DIT, Stable Diffusion）
4:00:00–4:30:00 科学家/产品人如何读论文、高阶建议
4:30:00–结尾 AI行业变迁的观察、决策、技术bet、超级个体与未来趋势

谢清池心得与现实建议（结尾压轴）

“论文读懂后，读的是技术，也是AI主导的未来与组织形态……哪怕在大公司，也建议产品、工程、设计边界互融，每个人都是builder。”
[4:25:00]

用AI工具辅助自己飞速成长
要敢于承接多种角色任务，“全栈个体/超级个体”成为未来趋势
年轻人的建议：“不用焦虑，一定要用英文原文+AI翻译，坚持读论文，哪怕最开始很痛苦，未来属于善于自学和拥抱AI的人。”
“未来几个月，技术会自己进化，学会等待比焦虑更重要。”
技术趋势判断：“我们还处于个人计算早期，AGI正在消化BitLesson所说苦涩教训。”

实用“新手入门指北”

“工程/产品/设计/算法，全行业人都值得学会基本AI原理……AI不是黑盒，只要方法对，论文不再高不可攀。”

路线：英文论文→AI翻译（沉浸式插件）→吴恩达/李沐视频+补数学+查论文背后故事
以“好奇心/问题驱动法”推进，不懂就问AI大模型
年轻人建议：不仅多用AI，还该主动承担新职责、组多栈组合团队，不死守职能标签

总结

本期为近年来华语AI播客知识密度最高之一。将深度学习#关键节点、方法范式、技术生态、团队与人物、个人成长路径无缝梳理、剖析，既适合已在AI行业的前线“读者”充电，也是AI新人的入门神作。如果你只听一个AI学习与纵深史节目，这期值得全程收藏。

相关资料和PPT链接，在bilibili与shownotes同步上线

Loading summary

Transcript4 lines

[00:04]
A
我们真的是读懂诺文以后我们就可以直接去看这些研究员的分享和视频如果诺文能读懂或者能够大概读懂这些诺文是这些研究员分享能看的我们就可以直接和这些世界上最聪明的头脑进行直接交流所以发现一个好问题核心问题很关键对而且你会发现你会发现如果我们回过头来看这些好问题好像没有那么的难如果我们反过去看bitlesson它的意义在于说会在有些时刻手工特征是有用的直到算力再增长一个量级彻底把手工特征打败hello大家好欢迎收听张小骏商业访谈录我是小骏这是一档由语言及世界工作室出品的深度访谈节目我们希望和你一起从这里探索新世界今天的嘉賓是謝清池他是美團光年之外的產品負責人一個月前他找到我說他用一年多的時間自己一篇一篇的啃了上百篇的AI論文從全然不得要領到後來逐步的入門而他希望將他的這一段論文的探索之旅開源給大家也正因為他不是技術出身也許他的講解能夠更通俗的帶領我們一窺技術之美所以就这样我们有了今天这期特别的节目那秦驰先给听众朋友们打个招呼并且做一个简单的自我介绍大家好我是光年之外的谢秦驰我虽然不是技术出身但我是大学学的技术也认真本科和研究生读的卷积我毕业以后就去豆瓣做产品然后中间有9年时间一直在创业做过O2O也做过消费在20年GP来的时候我感觉到了整个技术行业发生了很大的变化然后也就开始自己去摸索和学习这行业的基础知识对我来说我很关心很多新的边界因为对于产品经营者来说产品就是在给定边界里面去求最优解很多时候边界的变化会影响产品的最优解的变化我们有些时候会更好的了解边界能够推动产品的变革有些时候我们甚至能够推动边界的变化从而推动产品的变革所以对我来说读论文是探索边界的一个方式和方法所以大概从20年23年开始我就开始想去把论文系统的读一遍想通过了解基本的原理来了解这个新的世界的一些边界同时呢我也感觉到AI是高速变化的所以也想能够通过对基础知识的了解掌握一些三到五年都不变的知识你是读了多少篇论文一共你在中间遇到过什么障碍没有我讀了20多篇不到30篇論文我自己存下來的論文有幾百多篇碰到過一些障礙吧我可以簡單分享一下其實最核心的障礙是說整個論文的閱讀首先它是一個AI领域是计算机的理论科学所以它是一个比较绘色的理论的一个学术领域我会在正式开始读中文之前体系化地把线性代数概率论和数据过程以及偏规分方程等数学基础重新用国外材料学了一遍我大学学过类似的专业课的但很多确实过了十来年也都忘了这个事情其实有蛮多的收获然後呢有一個挑戰說論文其實是英文的我剛開始其實也是直接讀英文讀英文的時候呢就會發現說我本身上不是在學習AI,我在學英語因為很多時候你熟悉的單詞在那個一篇論文裡面有不同的意義所以呢我大概花了一個禮拜的時間發現不對我不是來學英語的,我是來學AI的我就開始想辦法去解決英語這個問題我後來找到一個工具叫做那個沉浸式翻譯很多人也用過用到它以後呢最後就是本質上我現在看的論文都是AI幫我翻譯過的而且隨著AI的發展它翻譯論文的能力也在越來越強在越來越好用所以我碰到這個門檻是用AI來解決掉的然後我在整個學習過程中我在大量的使用AI來幫我學AI這裡面我覺得很有意思待會給大家分享你最早是為什麼自己就開始讀論文你周圍有這個讀論文的環境嗎你周圍讀論文的人多嗎我周圍是和我同齡的產品經理讀論文的朋友不算多但是身邊的很多人會覺得說論文是應該讀的就我天生不覺得讀論文是一個產品經理不應該做的事情對我來說因為我也是學技術的本科研究生所以對我來說寫代碼讀論文不是一個很陌生的事情做一些科研工作然後我也覺得說了解技術邊界是產品經理的一個很底層的需要及能力所以我自己不覺得讀論文是一個不應該做的事情然後身邊也有一些朋友光年還是有幾個同事是很詳盡的讀過論文的你们在互联网时代做产品经理需要读论文吗为什么互联网时代好像不太需要但是AI时代需要呢互联网时代我读过我们在豆瓣的时候做产品我们当时做社区我做个产品叫做Alpha城当年是一个很前沿的关于社区的一个探索那个时候我们会气息化的读城市规划和建筑学的论文我們通過對城市規劃以及一個城市發展的歷史脈絡來去得到一些關於社區治理的實踐的一些啟發所以那個時候我系統性的讀過國外關於城市規劃的那個論文很有名的一個大師叫楊蓋爾他對城市規劃是一個丹麥的一個教授他的論文和著作我基本上都讀過但是互联网时代没有这种技术变革性的论文需要阅读对吧对互联网时代这种技术性的论文是比较少的Google的那个时候有BigtableHadoop那樣的論文有些同事會讀但實際上確實互聯網特別是移動互聯網本質上是一種技術的應用在那個時候技術已經比較成熟了我覺得和現在還不太一樣現在AI技術其實我個人的感覺是說它還處於技術的早期這個技術還沒有那麼的成熟所以我們需要通過讀論文來了解它的邊界和去follow它的演進今天在你的带领下我们将开启一段怎么样的旅程我当时在观念内部的时候我们想给同学们分享一下怎么读论文但是确实读论文是一个比较枯燥的事情后来我找了一个角度我把论文的前因后果和历史脉络梳理一下因为我读论文的时候觉得最难的时候不是说这个单点你花时间读不懂而是不知道为什么要这么做我后来意识到就是说作者写一篇论文他本身跟我们做一个产品或者处理一个工作是一样的他也是为了解决一个问题所以他会跟你讲我的问题是什么我为什么要解决这个问题我是用什么方法解决的那當然現在時間過去很久了當時的問題是什麼以及那個歷史時期為什麼人們會碰到那些問題在逐漸的淡化很多人就找不到那些歷史背景的信息了所以我就把整個這些論文整個深度學習的歷史上比較重要的一些節點性的論文他們的當時的歷史背景找了出來給大家還原出來說那個時候的作者和科學家們碰到什麼挑戰他们想解决什么问题他们是怎么解决的这是第一个角度另外一个呢就是说还有一个人的角度我们会发现说这些著名的科学家们他也是有他的自己的学术的发展生涯的他们从很年轻的时候开始推动深度学习的发展到后面能够去引领工业界的发展那这些作者你也可以看到他们在一篇一篇论文里面也有体现所以我就把这些作者的一些信息也串了起来看上去他就很像一个封城演藝那麼一個視角我們可以看到這些作者他開始做學術開始進入工業界開始影響大家的生活他做什麼樣的工作這個很有意思的一個角度同時呢還有一個事情就是一個範式更新的一個角度就本質上我们并非从零开始发现世界我们所有的科研工作都是在原有的方式框架里面去往前走的那一个方式要发展通常有两种情况就是原有的方式碰到危机他碰到一些他解决不了的问题或者说一个支线的方式突然崛起得到非常好效果那整个心路学的领域也是在本质上它是一种新的计算方式他这个大的计算范式的变化里,它里面有很多小的范式的更新和变化,那我们也会从这个角度来跟他讲啊,这篇论文在一个范式里是一个什么样的工作,有些时候他驱动了一个范式的变迁,有些时候呢,它是某个范式里的代表性的工作。大概从这三个角度来去分享这个论文。那青池這次也準備了一個非常詳盡的PPT這個PPT我們會放在bilibili的平台上面好的那下面的時間交給青池在讀論文之前我先跟大家分享一下我們如何用AI來學習AI來應對整個讀論文過程中的一些挑戰第一個推薦的小軟件是一個練習插件叫沉浸式翻譯它是用来用AI来解决英文阅读问题的因为Transformer这个对面论文原本的初衷就是解决翻译问题的所以我们现在翻译问题大语言模型已经解决得很好了非常推荐大家去使用然后不但能够翻译英文的阅读的论文文章它还可以翻译YouTube大家看视频的时候也可以翻译字幕这是第一个推荐的工具第二个推荐的工具是AI本身不管是恰恰GBT还是cloud还是豆包AI是你身边最好的老师你去熟悉它然后学会提问它能给你很多惊喜几乎关于论文的我们不知道大部分里面的知识你都可以去问AIAI给你讲得很清楚当然了如果你担心他讲的不正确和有幻觉你可以多试几个模型这个时候你还可以分辨模型和没模型之间的差距在一些比较难的学习性的问题下好的模型和一般的模型之间的差距还是比较大的大家可以自己去试可以去感受模型的差距和它们迭代的变化另外一个就是充分利用好像cloud像artifacts这样的可视化工具我讀論文的時候還沒有這個工具,但現在呢已經有了,大家甚至有一些不太理解的原理可以告訴cloud或者告訴豆包你讓他給你做一個可視化的網頁來給你講這個事情的原理会非常的高效然后大家如果用DR那个浏览器就是我们现在AI浏览器的话你就可以一边看论文一边在里面滑词然后就直接问DR效率也非常高这两个工具是我读论文以后他们才诞生的但也非常好用然后同时给大家推荐一些体系化的学习的录书有两种内容,一种是视频,一种是书籍,我先推荐视频吧有这么几个视频教程是非常好的,建议大家最好能够都读完,都能看完一个是吴文达的机器学习和AI课程它是分开的,机器学习有机器学习的课程,AI有AI的课程然后就还是还有一个是李洪一教授的生成是AI时代下的机器学习这个大家可以读205的那个版本B站上有一个up主他拿到了李洪一教授的授权所以大家是可以在B站上看到一个很完整的李洪一教授视频的现在应该还在连载同时他也能在台大的网站上下载PPT另外一个就是AndrewKapasi的YouTube他的那个账号做的视频质量非常非常的高这个非常建议大家去读一下然后呢B站有一个李沐老师的论文精读系列那个也非常好基本上他的每一个精读系列的视频我都看过两三遍这个如果大家想精读一篇论文李沐老师挑的论文是非常合适的我们的这个论文的选择和李沐老师选的论文之间有很大的重叠所以这些论文大家如果有兴趣我们现在一页带过大家没有看得很细的话想去看更细的论文精读可以去读李老师的那个论文系列然后B站上有一个up主他其实是一个YouTube的up主叫3blue1brown这个up主是一个科普的up主他会有很好的很多数学的物理的和曾经网络的一些介绍的一些视频他做了很好的可视化它那个可视化插件后来还开源了在Github上是一个很著名的repo我非常建议大家把它上面的数学和神经网络以及transformer的那些介绍的部分都看一遍它在B站上是有视频是有中文翻译的大家有兴趣也可以看那个英文的YouTube的原版用那个曾经是翻译翻译字幕就可以了然后呢B站上还有一个up主叫网木头学科学这个up主是一个中国人的up主他会给大家讲一些他自己在学习机器学习和AI过程中碰到的问题然后他怎么解决怎么想的有一些关于学习的方法我觉得这也分享的很好然后大家如果对infra和GPU这些基础的计算设施感兴趣B站上有个up主叫周米周米是非常非常高产的一个up主他会有很多视频是介绍GPU和GPU网络的这个作者这个up主是一个华为的深层的工程师所以他的技术功底是非常深厚的讲得也非常好大家有兴趣可以去看这些是视频视频的好处是说入门的门槛比较低比较对对大家比较友好然后呢还有一个东西就是书籍书籍其实比较成体系的我给大家推荐这么几本书第一本叫一战士LLM底层技术原理入门指南这其实是一个非洲文档回头我们可以放在shownotes里这个是一个中国的中国的一个微车的一个同学写的一个指南讲的是比较深入浅出的大家可以用来作为一个入门的一个书籍同时还有一本书叫动手学深度学习我们可以看他拍touch版这本书是一开源的版本网上是能下到的他有他的官网然后是全英文的大家用那个成经式翻译翻译成中文就可以看了然后呢李牧用我们之前说的那个论文精读系列那个作者李牧本人他就是这本书的作者之一他有一个配套的中文的讲解视频这个是非常适合大家去看的还能够顺便跑一些PyTorch的模型试一下然后还有一个关于数学如果很多同学没有学过概率论新一代数这样的特别是概率论这样的数学课程的话那建议大家看一下一本书叫深度学习中的数学这本书会给你简约的介绍一下概率论我觉得读论文读到后面还是需要大家有一些数学功底的,否则有一些公式的推导会让你觉得说就很没有底气,但实际上那些公式并不复杂,特别是很多概率的公式它其实就是一个,它更多是它的符号,它的标记的一些意义,我们能够看懂它就可以了。然後還有一個小tips也就是說英文的內容質量在AI領域其實是比中文要高很多的所以大家可以多花一些時間放在英文內容上英文內容非常簡單你用那個AI幫你翻譯就可以了大部分時間大家其實可以我覺得現在這個時代大家已經可以不受到語言的阻礙了特別是文字的我覺得再過那麼一兩年語音的外語的阻礙我覺得也會不受限制了然后对然后补充一下刚才整个分享结构我们有三个视角一个视角是历史的视角既有编联体也有计算体然后我们会讲一下这个内容的背景然后当时这个行业和这个领域碰到什么样的变化或者挑战做的怎么解决这些问题的它对后面的技术路线产生什么样的影响另外一个就是范式变迁的视角我们并非从零开始发现世界而是在原有的範式框架裡前行我們在整個論文的分享中會給大家講一下原有的範式碰到什麼問題然後新的範式有什麼樣的大的變遷和躍進然後一個支線的範式怎麼走到舞台中心的然後還有一個就是人的視角這些作者他們是如何登上舞台的又在後面的進展中扮演了什麼樣的角色好我们简单的先介绍一下深度成型网络的发展深度成型网络的发展一般是随着四个要素的发展而发展的下面四个要素是第一个芯片芯片是算力的载体第二个要素是infra大家可以把infra理解为操作芯片的软件系统所以有些时候我们会把芯片和infra合称为算力然后第三个数据然后第四个是模型结构我们会从这4个方面分别按时间顺序来给大家展开这个论文的分享第一部分是模型的范式变迁我们里面会着重讲整个模型的结构的一些变化然后第二部分是infra和数据的变迁在这个部分里面会给大家分享infra和数据里这些变迁的过程中比较重要的论文然后第三个部分是语言模型的发展我们会把语言模型的发展的从一开始的论文讲到后面的论文给大家梳理一个时间脉络最后一部分是多模态的模型的发展这个跟语言模型一样我们也是拿一个时间线来给大家做梳理好我们开始第一个部分就是模型范式的变迁在开始模型范式变迁的分享的过程之前我们先给大家讲讲GPU的故事从19年开始第一颗GPU问世了第一颗GPU其实是英伟达发明的GPU是英伟达的商标1999年的时候GeForceR56上市这是第一颗能够独立处理三维图像中的几颗计算的那么一个计算单元它把这个三维计算从CPU中彻底脱离出来有了现代遗产GPU两年以后的201年GeForce3上市了这个GPU它引入了一个东西叫做可编程的顶点着色器和像素着色器也就是我们通常所说的shader大家可能玩游戏的过程中会有一个载入页面把那个载入页面的意思就是说着色器正在载入它里面的着色器就是我们现在说的shader它这个shader是干嘛呢就是说可编程的shader就允许开发者通过编写着色器来控制整个图形和图像的渲染过程这个时候你可以理解为GPU可以被编程了这个时候就会有一群人开始研究如何通过GPU编程来利用它的变形计算能力这就有了我们分享的第一篇论文这篇论文叫Brook,BrookforGPU然后我们PPT的右边右上角是论文的链接大家可以点击论文就可以看到用论文的原文论文的标题然后它的标题其实是StreamComputingonGraphicsHardware我先介绍一下论文的历史背景在204年的时候也是20多年前的时候我们发现一个现象如果以flops为含量单位人们发现GPU因为高度并行的处理结构它的计算能力在快速超越CPU并且拉大差距大家可以看一下右下角这个部分这个是Brook的作者event在应该是209年的GTC大会上的一个分享的slide我把它截下来了大家可以看到从03年开始03年的年初开始不管是英伟达的还是ATI的GPU它的计算的效率在快計算的那個flops在快速上升然後那根黑色線是奔騰的CPUCPU的算力其實沒有那麼快那就是我們當時那個背景GPU是一個算力快速增強的一個很好的一個硬件同時科學家發現就是說很多科學計算數據處理類的任務包括我們早期的神經網絡本質上是數據並行的它这种计算方式跟GPU在图形渲染的时候处理成型双方的像素或者顶点的方式是非常相似的也就是说我们确实可以尝试着用对着测器进行编程的方式来做一些计算所以当时我们就想我们能不能以及如何去利用这种GPU的计算能力把我们计算任务映射到GPU上然后让这些并行单元能够我们进行计算答案是能但还太难用了就是说给着色器进行编程虽然说着色器它也提供了一个编程语言但那个编程语言是一个非常低级的语言很接近于汇编所以它缺乏一些高级语言的便利性它没有一个很好的数据结构没有标准的函数库也没有很好的抽象所以它编程的时候非常痛苦效率很低同时呢我在一个地方写好以后我的这段代码是依赖于特定的硬件的我把它换到一个新的CPU上可能就不work了可疑性非常差这是当时历史背景那IanBuck这个人和他的老师他这个团队做了件什么事情呢他们给GPU开发了一个高级语言准确讲他们把当时给超级计算机使用的Brook语言改了一下移植到了GPU上Buck这个人后来毕业以后加入了英伟达他是CUDA的创始成员他至今仍然是负责CUDA的VP然后这个是作者他叫一座然后他的导师叫Pat他導師也非常有意思這個導師獲得過圖靈獎他憑藉他在計算機圖形學的一個2019貢年獻獲得圖靈獎他同時是PIXAR動畫工作室的創始員工之一這個人獲得過三次奧斯卡金像獎同時呢他這個我們很著名的一個BI軟件叫Tableau的一個創始人2019年的時候這家公司被Salesforce以157億美金的價格收購了這個是一個非常典型的矽谷經營橫跨產學研三界所以這兩個人是非常有意思的他們做了這個工作當時BUG還在實驗室裏面做過一件事情就把很多很多的GPU連在一起然後呢玩高清的遊戲在204年的時候他們就可以把GPU連在一起玩4K的DOOM這樣的遊戲了所以這是整個當時我們想用GPU來進行計算的一個歷史背景那這篇這篇論文做了一個什麽樣的核心工作呢本質上他做的工作就是我們現在的CUDA或者說CUDA的前身他把底层的图像硬件那些很复杂的细节进行抽象化和虚拟化其实他开创了我们现在的GPU的一些基本的计算框架他当时就把GPU抽象为一个流逝处理器然后开发者可以用更高级的Brook语言这个Brook语言是一个很接近C语言的高级语言来进行编程他编程的时候效率很高同时他有跨平台能力然后作者在论文里面还专门写一下他专门提到说我们语言写的代码和手写的GPU代码性能是相当的所以他相当于开发了一个新的语言做了抽象引入了这些我们现在大家很熟悉的数据并行的基本框架一个是流一个是核函数kernels一个是规约然后设计了一个编译器和它配套的运行时的体系最终将GPU从一个很难编程的计算单元转编成了一个可以用高级语言来进行编程和驱动的计算单元这就是后来的CUDA的诞生和这个也紧密相关这是204年然后时间过去8年8年之后的201年就开始有人来用GPU来做深度学习了这就是我们今天要分享的第二篇论文叫AlexNet这篇论文是深度学习的开端他的作者是三个人一个是Alex一个是Ilia一个是HintonAlex如果用我們現在語言Alex是一個infra達人他的核心工作是搞定GPU因為那時候雖然說已經有了Brook和Cuda的工作但那時候的Cuda還是比較難用的所以能夠把Cuda寫得很好效率很高需要專門的人當時Hinton和Ilia都搞不太定就找了Alex然後Alex這個人搞得很好就當時他的那個模型是用了兩張GPU來做一起做渲染的伊利亞大家很熟悉了是OpenEye的領導創始人和首席科學家Hinton是諾貝爾獎的獲得者整個深度學習的先驅然後他現在也是他後來跟伊利亞和Alex三個人這篇論文發表以後創立一家公司這家公司後來于凱老師還去參與他們公司的拍賣後來那公司被Google收購成了GoogleBrain的前身于凯老师在之前我们的节目里面讲过他见这三个人的印象他说对伊丽娅的印象是最差的觉得他这个人夸夸其谈然后觉得Alex这个人非常靠谱比较少言别人搞不定GPU他可以搞定是的对这三个非常非常有意思的人然后我们再说一下当时的历史背景其实是这样的就是说在201年之前李飞飞团队李飞飞老师他们团队他们创建和维护了一个很有趣的一个数据集叫imagenet它提供了一个前所未有的很大的一个图像的一个数据库这个数据库里面有140多万张标注好的图像涉及到2万多个类别然后它是按照一个wordnet的语义层次去组织好的他把这个数据库数据集做好以后呢还搞了一个竞赛就是说大家可以用他的这个数据集来进行比赛然后呢做一个图像识别的一个算法的一个比赛201年是第一届这个比赛在201年的时候应该是有13支队伍参赛当时的NEC于凯老师他们就是其中的参赛队伍之一他們是冠軍隊他們用的方法是傳統方法是一個基於特徵提取的一個很傳統的機械的方法所以我記得上次那個雲卡老師分享的時候他也說過他參加第一屆以後呢他們做到第一名他後來就沒關注了因為他已經覺得說我們已經做到把他做到頂了沒什麼好關注的所以就是這個時候就是我们说的范氏变迁在特征提取那个范氏里他们确实已经做到极致了后来则很难做得比他们更好但是在这个时代就在第三届的时候201年第一届有13支队伍比赛1年的第二届我印象中应该有7支队伍到了第三届只有6支队伍了这个比赛并没有人家想象的那么火热还是一届比一届人少对吧眼看就办不下去了眼看201年這一年發生了很大的變化我們可以看一下當時伊利亞的論文裡面引用的一些原文整個201年他說我們的機器學的範式是被手工特徵提取的方法所主導的所有的人都在這個範式下去思考問題然後那個時候楊老坤的論文還被拒過因為他的論文提到了神經網絡大家覺得神經網絡很不靠譜的一個東西然后所有人都觉得说视觉系统需要通过对任务本质的详细理解来精心的进行手工设计也就是说我们用现在话来说我们需要放很多鲜艳知识进去模型才会学到东西如果我们只通过像神经网络展示自然图像中的对象势力和它的对应名称就是相当于我们只向神经网络展示数据不提供人的抽象网络是无法学会这些知识永远无法解决图像分类这些任务的这个是当时伊利亚在中文里面写的原话同时他提到说现在我们知道出了什么问题要使深度神经网络发挥作用他们需要更多的标记数据和更多计算量也就是说整个神经网络的发展过程我们在不停的scaleAliceNet这篇文章是那个时代第一篇它同时scale了数据同时scale了计算量也同时scale了模型规模的这么一个工作他取得了一个很大的突破他scale的数据得益于当时李飞飞团队创建的数据机他scale的计算量就来自于阿拉斯这样的英法达人搞定了GPU同时也依赖于GPU这些年的发展他scale模型规模我们可以看一下他训了一个当时最大的卷迹神经网络有6250万个参数和65万个神经元在那个时代已经是一个很大的神经网络了对吧但在我们现在看来都还不到0.1B是一个0.6B的一个神经网络在我们现在看来又是非常非常小的神经网络但它确实因为它搞得足够大它得到了当时最好的结果這是他的一個最核心的貢獻,他同時scale了三個地方的核心數據計算量和模型拿到了一個範式的變遷的結果所以他其實是我如果沒記錯的話他比之前的第一名和當時的第二名的效果是好出百分之十幾個點的是一個非常明顯的節約所以因為他好事那麼多所以吸引了整個行業的關注開啟了深度學習時代當時Google關注到以後就有了余克老師他們去參與的那個拍賣那一幕然後余克老師還給一本書寫過序叫深度學習時代那本書非常強烈的建議大家去看一下那個書是很好的一個大家了解整個深度學習發展的一些歷史脈絡的一個書籍裡面有講拍賣這個故事他应该中文发音是深度学习革命啊对深度学习革命不好意思我记错了对然后于凯老师做了序确实这个就很神奇他就是里面的历史的一个参与者然后201年的时候我们的深度学习突破是从其实实际上是从视觉开始的然后后面呢我们就来到了2014年2014年的時候這篇論文叫,這是兩篇論文其實一篇叫secondtosecond一篇叫做一篇是引入attention的論文那這兩篇論文都是關於我們過去叫做NLP專業語言處理這兩篇論文的核心是要解決翻譯問題大家會發現一個一个事情就是说整个深度学习领域在那个时期其实是很分散的他们分了很多子领域图像有图像领域视频有视频的领域语言有很多子领域他们各开各做各的研究各开各的会他们之间呢往来也很少那隨著transform的誕生隨著後面的發展整個神經網的領域和AI都被統一在了一起所以我們現在會覺得說它們都是一個領域但是當時他們其實是相差很大的領域那我們現在講的就是一個叫做機器翻譯領域的兩篇論文在機器翻譯就是說我們想用計算機來做翻譯的這個領域裡面當時很主流的範式是一種基於統計的方法叫做SMT它的特点是说需要很复杂的特征工程和多个子系统来去一起工作有很多人工操作在里面这就非常像我们刚才说的ImageNet里面的那些工作我们有很多特征工程这个时候NLP领域的作者们就开始想那图形领域我们已经可以用深度学习网络用一个很大的深度学习网络来解决这些问题不需要再搞很复杂的特征工程了那是不是语言领域也可以呢那这个时候他们就做尝试所以SecondtoSecond这篇论文的作者有那么几位有Ilia然后有Aurel也有Cockley伊利亚就是之前的AlexNath那个作者也是OpenAI创始人然后这篇论文在204年的时候被这个论文是哎呀我忘记是哪个会的了被那个会评为TestofTime这个论文当时伊利亚对这篇论文有一个十周年的回顾那個回顧的那個視頻很有名叫做預訓練時代的終結也是那個時候那個之前伊利亞離開了OpenAI去開了新的公司然後呢這篇作者的二作這篇論文的二作是叫OrealOreal是一個應該是劍橋的整個歐洲那邊的學術背景出來的每一個科學家他現在是傑蒙娜預訓練的負責人庫克利是現在傑蒙娜後訓練的負責人Cokely也是GoogleBrain的创始的成员之一然后我们说一下那个为什么他当时要做这件事情我们讲SecondtoSecond和这个BahanaAttention他解决的问题都是叫对序列进行建模因为我们在做翻译的时候翻译的本质就是说我说一串中文然后翻译成一串英文它本质上是一个两个两段文字都是两段序列所以本质上它是一个把一个序列一个中文的序列转换成一个英文的序列的一个过程这个时候我们就需要对中文的序列进行建模学习中文序列之间的规律和知识然后才能够把它转成一个英文的序列我们过去的深度神经网络因为它网络结构的问题它只能输出固定的长度向量什么意思呢就是说比如说我五个字蹦进去就必须得五个字出来五个单词出来那实际上那这种结构其实没法解决翻译问题的因为中文的五个字翻译成英文大概率它不是五个词所以它需要解决一个叫做解放开我是一个序列这序列长度是可变的然后我输出也是一个序列序列长度也是可变的那就是叫序列到序列问题有很多的建模问题或者说NLP问题是序列到序列的问题其中我们的翻译是序列到序列的问题语音识别和问答其实也是序列到序列的问题所以在2014年两篇文章的工作中他们解决了序列到序列的问题同时还有一个背景是说像我们现在所熟悉的encoderdecoder结构都会有一个问题就是说我们在encoder的过程中它原序列会被编码成一个固定长度的向量这向量我们把它叫做隐藏状态这个项量的状态是有限的所以它是一个它有个瓶颈随着序列输入序列的越来越长比如说假设我翻译中文我就一句话那我的隐藏项量存在这里面有可能隐藏项量的空间是足够大存下来一句话的信息的但如果我放一大段话进去隐藏项量的空间就不足以存储所有的信息就会有些压缩或者丢失那這個時候我用隱藏向量再進行decoder翻譯出來那個英文裡面也會失去一些信息他的很多時候特點就是說序列越來越長以後這個這個模型就不認識很早以前那些詞的意思了或者不太能夠建立出很早以前那個詞和後面這個子代比如說很早以前假如我說了小張後面我中間說一大段話我後面說他那這個序列很長的時候模型就不太能夠建模他和小張之間的關係這就是我們的性能繼續下降的原因這是我當時碰到的很多問題这些问题在这两篇论文里面都得到了解决他们举的方法不太一样这两篇论文发表时间非常的非常接近他们互相有引用所以我们可以把它看作是一个时代的同样的工作然后另外一篇论文叫,另外一篇论文是那个是讲Attention的就是我们的注意力机制,对吧Transformer论文的标题叫做AttentionisallyouneedAttention,我当时,我当时读那篇论文我就想Attention是从什么时候开始的我就开始查资料我找到Attention源头就这篇论文他第一次提出了一个注意力机制所以这种注意力机制呢后来以他的姓来命名他的指导老师是耶稣华也是18年的那个图灵匠得主这两篇论文的几个核心贡献首先他们用了纯粹机器学习的方法不再需要用领域有关的知识只需要用通用的方法就能够超越之前的基于统计的翻译系统所以这相当于说我们原来的主线的方式是一个基于统计的需要手工特征的这么一个方法现在是一个纯粹的深度神经网络我只是需要去学习一堆数据往模型做足够大我学足够多数据我就能够超越过去的方法这属于说之前的一个边缘或者说比较支线的方式超出了主流方式的能力它推动了一个范式的一个更新这是它第一个核心的贡献它们两篇文章的效果都超出了当时基于统计的工作的效果它的第二个非常重要的贡献它就复兴了encoderdecoder结构然后它借助这个长短记忆网络解决了序列到序列的建模问题因为我我解决序带问题的一个方法就是说我先找到一个中间的载体也就是说我们是一个固定的隐藏状态我把它encoder在一个东西里面,再把它decoder出来,它们之间的序列长度就可以输入和输出的序列长度的关系就可以解偶,这个encodedecode结构应该是70年代到80年代就被发明出来,他们后来把这个结构重新复兴了,那这下就是我们在现在的神经网络中不管是diffusion还是transformer里面都很熟悉的那么一个结构。它的第三个核心贡献实际上是引入了注意力机制它解决了隐藏状态的性能瓶颈因为我们刚才说encoderdecoder的这个结构里面它会有一个中间状态这个中间状态因为空间过小就会带来性能问题特别是我的输入的序列比较长的时候它通过注意力机制解决了这个问题同时为transformer诞生埋下伏笔他注意力我給他簡單的分享一下他是怎麼做的他需要把他本身是把書的句子先編碼成一系列項量然後給每個書的每個詞生成一個表示然後解碼的時候再對計算時候的每個詞和當前我要生成的目標詞做一個注意力權重然後這些注意力全都會用來計算成為一個上下為向量那如果我們簡單理解就是說我們現在有一個向量能夠存儲詞和詞之間的關係這就是我們說的建模建模的本質上就是我們去尋找這些一個序列之間詞和詞的關係或者說我有一個機制能夠讓我的神經網絡可以學到它們之間的關係这个机制就是注意力,那这个,但神经网络怎么学的,是我们在整个降loss的过程中他自己去学的,我们其实不用关心他学习的过程,我们的核心是说我们给他的一个空间,这个空间让他,或者我们赋予了网络一种能力,我们让他能够去对序列之间的关系进行建模。
[44:13]
那这个时候呢它就可以既用这种建模的建模的关系那这关系就是它的上下文项量或者我们叫注意力和它原来的隐藏状态一起用来decoder去解码下一个目标词那它这个时候我解码出来的东西就能够包含更多的系列之间的关系它就能更好地解决翻译中的长序的问题因为神经网络机器那个统计方法的翻译它解决短语短句是解决的很好的它核心的挑战就是碰到长句的时候其实搞不太清楚经常就丢失了上下文这是一个它做的一个核心贡献那在這過程中我們會發現從深度學習的開始是圖像的到了語言的領域我們引入了對序列建模我們現在的所有的Transformer本身也是一個對序列進行建模的一個模型所以我们现在其实在强行的让这些图像领域的建模方法也去follow序列建模的方法所以我们后面会提到一篇就把图像用transform来处理图像的这么一篇论文它其实就是把图像强行变成序列然后再把序列用transform来做序列之间的建模和做序列之后的序列的输出上一篇论文伊利亚和Alex都是JoplinHinton的学生那这一篇伊利亚是为什么会和这两位现在的预训练和后训练负责人一起合作他们之间有什么师兄弟的关联吗上篇论文12年的时候因为他们发明AlexNetGoogle把他们的公司买了所以呢这时候IliaAlex和Hinton就都去Google上班了他们都是GoogleBrain的员工那这个时候Cockley也是GoogleBrain的员工Aurel我已经不太记得了当时他应该还在好像还在学校或者在他最早应该是在DeepMind伊利亚和科克利是Google的同事,我们都在15年整个12年和14年这两年的工作奠定了深度神经网络的基础所以呢我们过去的网络比如说我们过去的机器学习还不是深度神经网络的那大家可以理解到15年的这个时间点主要的模型都是深度的深度神经网络的模型都是那种比较大的神经网络的模型且已经没有什么就是手工特征在比较少他已经确立了一个新的范式啊他在cv领域在翻译和视频领域都有了很多产出那这个新的范式也会有新的问题就是在这个范式里面呢模型在变得越来越大模型变大也会有它的问题,模型变大就是推理成本很高,计算成本很高,部署也不太容易,同时推理是有延时的,整个工业界其实是希望有一个计算成本比较低,相对好部署,也推理比较快的模型去服务更多的用户。那这个时候我会发现说一个范式确立以后它需要发展一些辅助技术来帮助这个范式解决它所带来的新问题那我们是我们所说的帧流就是一个在模型变大的过程中发展出来的辅助技术我们后面也会分享几篇文章我去看到说有很多辅助技术在解决了模型越来越大过程中很多问题才有了我们今天看到的如此之大的一个模型因为在那个时候模型可能有0.1B就是一个很大的模型了这篇论文的作者三位Hinton,Oriel和JeffDean这是比较少有的后期Hinton是一作的论文了然后我们可以说JeffDeanJeffDean是Google的fellow也是美国国家工程院的院士这个人在Google是一个能够代表工程师的那么一个很神奇的人物在Google内部流传的很多关于JeffDean的段子这是一个工程力极强的人然后整个Google的搜索的那些核心技术是他带领团队一起来电击的他同时也是GoogleBrain的创始人之一他涉及了MapReduce这样的大数据的这些框架同时TensorFlow也是他领导开发的這是他們三個人合作的所以我們可以看到這些作者其實他們很早就認識了他們很早就認識了很多的合作然後最後去到普通公司然后这篇真流的核心贡献因为现在可能真流已经被大家所熟知了他其实就是说当时找了一个新的方法我可以把知识或者说规律从一个比较繁琐的大模型转移到一个更小的模型上同时不要不会损失很多性能那我就得到了一个大的模型中更好的那些表现同时呢也得到一个小模型里面容易计算容易部署推理比较快的那样优势它的核心方法是做两个模型一个是学生模型就是小的模型一个是教师模型相当于学生去问老师问题老师给学生答案也就是说他里面说的印标签是最终答案同时我们真正的会说在这篇论文里面定义的帧流是会把整个大模型输出的结果的概率分布都给到小模型的因為比如說我們去跟GPT聊天我們問GPT一個問題GPT其實是把他輸出的一堆結果裡面概率最大的一個結果給了我們還有很多概率很小的結果他就沒有直接輸出給我們那教师模型在教学生模型的时候会把这些软标签这些分布可能不是概率最大的那个分布结果的那些结果也会给到小模型让小模型去模拟这个网络去拟合一个模型出来同时这样可以让我们这个学生模型泛化能力更强這個是15年之後支持真流這個技術就被開創了確立了一個教師和學生的學習範式這個是我們現在非常常見的一種用小模型去學習大模型的能力的一種方法但我們現在的真流如果有些團隊GPT有時候會說他被別人真流了那就是他別人團隊去拿他的很多模型的輸出來給自己的學生模型學習了但這種針對性沒有那麼完整因為GPC是不會給外界輸出他的模型的概率分佈的所以這個時候其實我們也看見沒有那麼完整的針流也會有效果我覺得這是這陳寗網絡個的很神奇之處這裡面就很像大家如果學數學學過那個負列變化負列變化的核心思想實際上就是用很多很規則的函數因為本身講是用一個很規則的函數家族去模擬一個很復雜的函數那本質上它是一個我不停地去擬合越來越像越來越像如果我無窮擬合下去就會一模一樣的那麼一個方法那我擬合的東西是一個很簡單的東西所以它很好處理它們的數學後面數學實際上其實一樣的我覺得這也是我後來去用美國的材料去學數學的時候的一個很大收穫我上學的時候學數學學浮力變換老師其實是不會講浮力變換是什麼的他教材里面只会说负力叶变换是负力叶在处理热传导方程时候的发明的一个数学方法但如果你去看那个我应该是那个3bro3bro1bro的视频他会跟你讲当时负力叶碰到一个什么样的热传导方程他怎么解的他后面数学思想是什么我觉得这是非常有意义的这个非常推荐大家去学习好,我们来到下一篇2015年有个非常重要的工作叫WestnetWestnet我给它起的名字叫比深更深那个时候我们说我们现在说深度学习深度学习的特点就是说它的网络的层数很深很大,这个模型规模很大但是在15年的时候我们现在概念里面说模型可能越来越好但是15年是不是这样的15年的时候我们发现模型搞大到一定程度比如说我到10层以上模型不但不會變得更好反而變得更差了那個時候我們把它叫模型的退化所以我們現在所熟知的scaling的事情在當時其實是不work的那人們就在想那我怎麼能夠讓它work所以呢所以我們這個resnet的這個工作其實整個來說也是我們在讓模型變大的過程中開發的一些輔助技術模型不能变大的过程中我们一方面希望我们能够得到模型更大的收益我们把模型做大这是resnet我们也希望得到一些也希望避开一些模型变大的问题比如说我们通过征流来避开一些模型变大的问题在resnet里面我们解决的方法是说引入了一个残差我们中文把它叫残差网络引入了一个残差隱藏它以後呢我們的網絡提升一定會帶至少不會帶來模型的性能下降它徹底地解決了模型退化問題這個SNET三位這幾位作者都是中國人何凱銘老師現在是MIT的教授二座是祥宇,祥宇之前上過咱們的節目他是基督教系的co-founder和實習科學家他的三座是任少卿少卿是未來自動駕駛的負責人四座是孫健孫健他去世了去世之前是曠世的首席科學家所以這個工作是四位中國的科學家開創的當時他們在微軟亞裔醫院對他們當時都在微軟亞裔醫院這個工作的引用量應該是有接近30萬這篇論文的引用量是比Transformer的引用量更高的我們現在幾乎所有的網絡都還是殘殘網絡包括对大家熟知diffusion和transformer都常常网络然后我们可以先来看一下我下面画了我把那个论文里面的那个图直接给截下来了他其实讲得非常好大家可以看一下那个上面是x大家可以认为是一个输入下面写着relu这个东西是他输出中间是一个曾经网络层那旁边呢是一个x就是说它在输入和输出之间呢做了一个做了一个桥接那我们先不看那个桥接如果没有这个这根曲线它就是一个输入到输出的这个东西那我的模型需要去学习的就是这个左边写fs的这个长长网络这个权重或者说我要去学习这个网络那这个网络可能很复杂的那复杂网络可能没有那么好学习它引入残差做了些什么事情呢本质上它引入残差以后我学习的东西就是这个网络对x的变量你可以想象一下我原先要学习怎么把一个x直接变成y那我现在需要学习说怎么在x上做一些增加或者减少让它变成y所以后者的学习难度其实要比前者低的更容易学习,这个才是网络的核心思想,那他这个引入这个短期以后呢他也解决了T2消失和T2爆炸的问题所以他把他本来就把这个学习的目标改了,他原来是学习Fx他现在是学习Fx加上x这么一个结果的函数我们现在看来是一个很小的网络的变化但是在当时是一个对模型训练效果影响极大的那么一个操作它缓解了提速消失和爆炸问题几乎把退化问题也消解掉了所以呢使得那时候我们可以训练非常非常深就几百层甚至几千层的深型网络在此之前我们的深型网络通常的限制都几十层所以直到今天我们所属于的所有网络都开始产生网络所以这是一个非常重要的工作然后我们继续把模型的网络在变得越来越大的后面好到了2017年2017年最重要的工作当然就是transformer了它拉开了一个时代的序幕我们先介绍一下transformer的背景在Transformer這個領域因為Transformer這篇論文就是我們所有的論文都是要解決一些問題的長唐網絡要解決問題其實它解決問題是CNN的網絡問題卷集是你网络里面的问题Transformer里面它其实要解决的问题是RNN里面的问题或者说它在解决一个序列建模的问题我们通常来说在过去图像领域更多是用卷集网络因为它有像素更好直接去卷集然后在NLP领域我们更多是用RNN在翻译里面或者说序列建模领域里面之前secondtosecond和attention那两篇论文开创的范式已经成为一个主导的范式了他就典型是一个RNN网络还有一个encoder和decoder结构然后他还有一个注意力那这个时候呢RNN有一个问题就比起CNN来说RNN其实并不好做病情计算是一個天生的,是一個有時序的,要前面要後面的結果要等前面輸出的那麼一個結構某種意義上來說他就他沒有抽中硬件彩票有篇中文我沒有選進來,但很值得大家讀一讀就叫做硬件彩票Hardwarelottery他大意是說總會有些算法特別適合我們現在很主流的硬件也就是GPU那适合这种硬件的计算法就会被硬件天生的筛选下来成为主流的算法那RNN就不是一个很好的能够被GPU处理的一个算法CNN虽然很容易被GPU处理但是它有个缺点就是它很难捕捉长距离依赖因为它捕捉长距离依赖都是靠卷集合不停去卷集卷到好几层以后才能够拿到那个依赖的所以很多时候信息会丢失这是当时整个作者们碰到的问题他们就开始想对吧既然注意力机制那么好用我能不能就只要注意力机制不要别的我连RNN都不要了我只保留了encoderdecoder结构和注意力机制然后会发现在后面的整个模型演进中我们连encoder都不要了我们就只要注意力和decoder我们现在的主流模型也都是decoderonly的那他们用这个想法去做,效果非常的好,作者有8位,这8位作者当时都在Google,后来也都离开了Google,其中最有名的应该是Nome,Nome后来创立了CastleAI,Nome是一个什么样的人呢,Nome是一个用我们现在的话来讲是一个工程能力很强,同时算法能力也很强的一个人,所以他能够做大量的工程和算法的联合创新在这里面那些创始人那些作者就把诺姆教育团队拉进去给他们解决很多的问题诺姆也是很有趣的人,诺姆说过一句话他说有很多时候很多很多人去问他为什么这个模型结构是有用的为什么模型结构是这样的为什么不是那样的我觉得我刚才读中文的时候也很好奇为什么有些时候你发现他给你一个影空间那空间就是64x64的你也不知道为啥他也不解释为啥后来我就专门问过几个研究员后来发现大家其实确实也不知道为啥都是试出来的后来找到我,我找到那么一句话就是大概消解了我的疑问那么说我们不提供对模型解释为什么模型work的任何解释如果它work那我們把它歸為神的仁慈神的仁慈對神的仁慈也就是說在這個階段實際上我們對神經網絡的理解還是比較還是比較淺顯的還是比較淺的我們並不知道模型為什麼是這樣它為什麼這樣它就做work我們並不能解釋它但我們能夠已經能夠應用它這是一個非常有意思的一個點在這裡模型就是黑盒對它有很強的黑盒屬性很像天文学里面有段时期就是托勒密看星星我们只是看星星然后就他的轨迹并不知道后面的数学原理但我们也能够解释一些自然现象也能够解决我们生活中的问题所以就有了这篇论文所以论文标记非常简单attentionisallyouneed我们就只要attention会怎么样然后呢Tencent的核心是对序列关系进行建模所以如果我们只要Tencent我们是能够保留序列关系之间的我们是能够保留序列中每一个词的关系的它是有这个建模能力的但是序列是一个有顺序的东西对吧所以如果我们只有注意力机制其实是丢失了顺序的在一個語句順序裡比如說我打你和你打我是一個很不一樣的東西但他們其實如果你把順序丟掉他們是一個東西所以這個時候你需要引入一個位置信息來讓這個詞模型有能力或者說有機會去感知它的序列所以我們去看整個transformer裡面會有一個叫位置編碼位置編碼後面有一個改進叫旋轉位置編碼是我們中國人做的改進蘇聯領導的改進那也是一個被用了很多的改進嗯我们稍微简单的去解释一下这个transformer它的核心是要提高模型捕捉规律的能力所以它就这里面就是我的引号里面是引用的那个论文的原文他说模型关联来自于两个任意输入或者输出位置的输出位置的信号所需要操作数量被减少到固定数量也就是说比如说我们以一个非常简单的一只猫趴在一个垫子上的这句话作为一个例子那垫子和猫的关系如果我們後面有句話說他很可愛那這個時候我們就需要翻譯的時候我們就需要知道他到底是電子還是貓對吧那本質上就是說模型需要有能力建模這個他到底是和電子更有關係還是更和貓咪和貓更有關係那本質上如果我們直接建模如果我們直接讓這個他和貓和那個電子去做一些計算那這個計算結果就會告訴我們他們之間的關係我們現在定義這種計算是點擊他們的關係有可能這個點擊數量越大他們關係越強有可能這是一種解釋本身上我們給了一個機會讓那個他和貓和電子都能有機會去做一個點擊的計算他們之間的注意力就這個計算結果所以呢好處是說他可以直接和前面比如說貓之前的100個詞的那个东西去做计算而不需要经历过很多的过程所以朱立基的很简单就是说我是能直接计算的就像他一个窗口我们的模型不是有窗口吗上下文窗口在上下文窗口内这些词和词之间能够直接感知到对方直接计算他们之间相关关系就不像卷集我要绕好几层所以他们说这个是最直接的注意力機制是給來一個最直接的他們建模相關係序列之間序列與序列之間關係的那麼一個機制有點像說你看我們的整個序列都是token我們輸出了token我們給token一個上下文我們翻譯是輸出一個token對不對那輸出這個token他也有機會得到輸入那些所有上下文我覺得本身其實是這樣的然后呢我们还有个叫自注意力自注意力就是他自己他输那句话他自己能跟他那句话的相关系去建模刚刚我们说的猫和电子的关系就是那句话本身他并没有把输入和输出想做那个注意力关系他是输入就能够做那个就能够做自注意力我们这就不展开了他这个大家有兴趣的话可以去看那个3blue1brown的那个视频也可以去看那个往木頭學科學的視頻他們都很好簡而言之就是說他會把原始那個embedding他做一個先前映射在論文裡面他是即時降維降維以後呢和和和那个他把他把他的那个原始矩阵变成qkv啊然后呢把embedding直接映射到q然后和k计算强弱关系用点击的方法然后得到直径的缩放缩放以后做一个softmax就得到作业力权重然后呢让他和v来做一个加权求和得到一个上下稳向量嗯这个上下文项链和我们之前说的那个tension机制里面上下文项链呢本质上其实是是一个类似东西他用这个东西拼接他因为他不助力机制不有很多头吗他拼接成原来的embedded那个维度听完以后用这个来做decoderdecoding的那个过程来去解码得到一个结果嗯所以呃本质上因为他可以直接计算所以呢全职方法特别适合GPU来进行并行计算比如说我把它和猫的那个相称和它和电子那个相称是可以分开算的它们可以各算各的可以在GPU的这个单元和那个单元里面一起算它们不依赖彼此所以这个时候它就是一个抽中了硬件彩票那么一个算法特别适合GPU当然它也需要做那个绝对位置编码和mask做完以后它是一个非常适合现代的计算硬件的那么一个算法算法和硬件匹配对所以你看它是Attention這個機制讓它有很強的建模能力然後它和GPU很匹配讓它很適合在計算上做scale所以它建模能力強它可以在數據上做scale很適合GPU它就可以在計算上做scale所以這個為後面的大力出奇蹟埋下了伏筆算力數據算法對算力數據和模型對模型結構所以從Transformer開始到現在我們的主流的模型結構的變化都是非常非常小的就幾乎沒有發生什麼太大的變化是的好2017年我們現在回過頭來看實際上有三個非常重要的工作第一個工作是Transformer第二個工作是AlphaGoZero第三個工作是MOE那我们来看一下AlphaGoZero它为什么是一个很重要的工作那AlphaGoZero这篇文章啊它的标题就很有意思叫MasteraGameofGowithoutHumanKnowledge我说我掌握围棋的知识但是呢我不需要人类的知识我掌握围棋不需要人类我們說一下當時的歷史背景就是那時候的AlphaGo已經擊敗了歷史史但是它仍然是有侷限性的那個時候的AlphaGo是依賴人的它是需要人類的知識的需要人類知識有兩個層面一個層面是說我們需要從人類專家的起譜去學習去模仿人類的想法第二我需要神經網絡輸入裡面除了棋子的規則還包含了一些人類設計的特徵比如說氣、眼因為維新免稅有這些概念的它放了這些特徵那它其實不是一個我們現在我們說的它不是一個強化學習的方法它是一個有點像SFT的方法那前段時間那個RichardSutton他有篇有個視頻他也講說我們現在的語言模型也不是強化學習就是說因為我們現在語言模型還是在語言的語量庫裏面進行學習他就有點像AlphaGo在人類專家的棋譜裏面去學習這件事情其實沒有那麽的本質對人類的依賴會有兩個問題他第一個問題是如果你模仿人類那就意味著你的上限AI的上限就是人的上限AI如果你模仿人類你不太可能超越人類它會有認知瓶頸的第二個問題就是說很多時候我們想解決的很多問題如果想翻畫去解決AGI的問題的話很多問題是新問題它不存在它沒有數據就是有很多問題是人類也沒有知道不知道的問題那如果我們不解決這個問題AI就無法去探索世界無法去開拓知識邊界這個是依賴人帶來兩個很大的問題所以他们的工作就是我们让这个模型去学习维系的知识同时也不依赖人作者里面有一个有位作者叫CorinneCorinne这个作者后来是inflation的co-founderinflation后来被并购到微软了所以他现在是微软的整个AI的负责人Corinne也是我们后面讲多诺泰的时候会提到的一个双联网络的作者这也是很强的那么一个科学家这个人也是牛津那条就是整个深度学习有两个两个大本营一个是欧洲以牛津建桥为代表的后来DeepMind那家公司为代表的欧洲那个学术圈另外一派是硅谷就是伊利亚亨顿他们组建了那个Googlebrain以后硅谷有一帮人从事网络那是另外一个学术圈另外一个偏工业界的那么一个圈子所以这两个圈子后来合并在一起以后那个团队叫Gemini双子星对所以也听到很多他们的故事对吧这两帮人其实各有各的理念他们两边的人理念是不完全一样的你可以认为说google鬼谷那些会更偏infra一些更偏工程层面一些然后呢英国那边会更偏算法或者模型结构那一些互相之间其实是有些不服气的也可以体现在google在Gemini的头一年其实整合的并不是很顺利模型也没有那么好当然他们现在已经做得很好了谁赢了我不知道具體結果但現在應該Oriol還是育群聯負責人Oriol其實是歐洲那邊的像Concordia、JeffDean他們是矽谷那邊的包括永輝然後我們說一下AfroGold的核心貢獻它有兩個核心貢獻第一個核心貢獻是強化學習它純粹只用強化學習來做訓練然後呢不但效果突破同時訓練效率大幅提升如果我們去看那個原動文的話他會說他比AlphaGo立就是那個打敗李適時那個版本用了更少的卡然後呢在36個小時以後就取代超越就是說他用了更少的卡只訓了36個小時就已經比李適時那個版本更好了這是一個很大突破我既要又要我性能更強效率更高第二个事情实际上这个影响是比较深远的它最终启发了OpenAI开发thinking模式就是在testtime做scaling就是AlphaGo这个Zero这个模型它每走一步棋都会做一个思考它都会执行160次的MCTS在这个搜索在蒙德卡罗的搜索事实上如果这个模型以及像所有的夏威夷的模型不做syncing的话没有哪个威奇模型能够击败人类这是很有意思一个特点就是说如果模型不做testoncomputing的话模型能力其实并没有我们想象那么强那如果我們去看OpenAI發了O1以後有兩個視頻一個視頻是Brown其中一個作者出來分享的那個作者之前就是用強化學習打撲克強化學習大神對他他就发现说人类打不管是打德州还是下围棋都会思考他说人类思考以后会变得更强他也举了这AlphaGoZero的例子就是说下围棋的时候你也要做思考才会变得更强所以就启发他们做O1这个是一个现在我们回过头来看对现在影响很大的那么一个方法所以AlphaGoZero的核心就是强化学习的意见对他没有他他没有给这个模型任何的鲜艳知识模型只知道围棋的格子和它的规则并不知道棋谱也不知道什么叫棋什么叫眼他没有任何的那个鲜艳知识那是不是说明在这种领域就不需要预训练对是这样的什么样的领域可以不需要预训练主要做强化学习呢嗯我理解规则比较明确就是会说reward可以很清晰的表示的的領域就是說我們玩遊戲也好下棋其實是一個規則很明晰帷幄的很清晰的領域嘛他就可以做強化學習他可以從零開始他不需要任何的先驗知識也能做好我們來到2017年第三篇很重要的論文現代MOE的開端為什麼說現代MOE呢MOE其實是Hinton在90年代就提出來的你會發現說我們現在用到的很多的結構概念都是上個世紀70年代80年代90年代都不奇怪了但是呢他們因為那個時候受到算力的約束都沒有work很多工作其實給他們做掉了2017年的时候他们又参与重新发明了SMOE这时候两个作者就很有意思了一个作者就是Norm他既是一个算法很强的人也是一个工程很强的人我们在CharacterAI流传了大量的Norm自己手搓模型让CharacterAI的推理成本降得很低的故事CasualAI整个模型都是诺姆自己写的,他那个模型都只有是一个很大的点取权文件,里面既包含了infra也包含了那个算法的一些结构,所以这个是一个很强的人,然后呢他来做这个现场MOE那这个MOU的背景和当时我们说的模型变大那个趋势的那个是比较是在那个整个的内部浪潮里的我们大家意识到说模型更大特别是resnet解决掉这个深度的问题以后更大参数的模型一定能从更大规律数据中汲取出更多规律所以那个时候此概念其实已经几乎存在了但是模型变大以后呢,训练成本会增加但我们如果我们算一个商业的话,训练成本其实一次性的投入,它是可以被谈销的但是大的模型推理成本也会上升推理成本是线性的,但我每用一次就要多花一些钱大家就希望说我有没有可能有一个很大的模型,需要足够多规律,但是呢我推理的时候比较便宜這個想法就比較直接也比較顯著那我們能不能只激活一部分參數因為人腦就是分區的我們人腦是一個分區的如果我們去看每個區是各管各的我們每次思考並不會激活所有的區域所以人腦如果我們用模型的視角來看人腦是吸收的和專業化的所以如果我们能够训练一个超大参数同时是每次使用只激活小部分区域的一个模型我就能够得到一个很好的效果同时能够降低成本这是这个整个做这个工作的初衷那你會發現在深度神經網絡裏面他們需要解決的問題就是需要解決大量的訓練中的關鍵技術挑戰可能就說白了這個模型其實不太好訓MOE到現在也還是不太好訓的所以他需要能夠訓MOE的那個團隊都需要有一幫工程很強的或者infra很強的人在國內的代表其實就是DeepSyncDeepSync是一個整個工程力非常強的團隊他們是能夠有一些算法的改進是由工程團隊提出來的idea來做改進的所以他這個團隊的他可以在CUDA下面的一層工作因為CUDA是一種抽象CUDA是一種抽象同時抽象帶來的是一個便利性同時也會讓效率降低所以你如果你用CUDA的話你並不能夠把GPU的所有性能都榨出來所以CUDA其实本身是一个浪费GPU性能的那么一个软件所以当时在201年前后老黄为了强推CUDA就是让这个显卡的性能并没有上升但是呢boom成本几乎翻了一倍所以有段时间就是因为他的股票跌到地上去那是老黄非常非常难受的一段时间几乎差一点被被人恶意并购曾经出现过这样的情况但是他还坚持下来了就坚持做CUDA所以呢你当他这个CUDA没什么用嘛因为CUDA因为早期的GPU是用来玩游戏的那加了CUDA以后呢游戏性能没提升成本上升他為此堅持了大概應該堅持了10年左右的時間才看到科學領域CODA的重要的產出和效果翻盤在哪裏呢是在哪裏翻盤的呀明顯的變化其實就是201年的AlexNetAlexNet讓大家知道GPU能幹那麽重要的事情因為如果你去看那個209年或者應該是09年那個GTC的那個EMBARK做那個PPT的話那時候他們對CUDA的設想都沒有申請網絡他說GPU能幹嘛他說能夠做圖像邊緣檢測能夠做這什麼什麼識別能夠做矩陣運算沒有提AI也就是說在12年的時候英偉達對GPU的設想並不包含任何的基本上不包含我們現代以上AI的東西這是一個堅持的結果而且並不是說如果你回過頭來看並不是老黃很有遠見他看見的東西其實那個時候ATI也做了那個時候所有做GPU的廠家都做了類似CUDA的東西但確實只有因為他堅持了下來然后呢后来那几家就慢慢的就没有坚持下来以后就就就那个什么了退出市场对你如果你去看那个博客里面文章博客的赞助商里面还有ATI对所以那时候ATI也是参与这个游戏的只是没坚持住对然后我们看一下MOE对然后MOE他的论文里面就写说我们获得了超过10倍的模型容量提升同时只在计算效率上略有损失那么换言之就算我们计算效果可能没有计算成本没发生什么变化我的性能增强了10倍或者说我的同样计算性能成本只有原先的千分之一所以这次MOE会带来一个非常非常显著的成本变化所以这也是为什么DeepSake选择MOE这条路线的原因因为它的技术路线选择的时候我印象中是祥宇还是谁也提过它是成本优先的它的目标是我先优化成本因为我觉得成本在未来的AI对人类的使用中会非常重要所以我是以成本优先来去选择模型结构的它就会选MOE应该是何君贤老师讲DeepSeek论文的时候讲过这个所以你会看到OpenAI很早应该在4的时候就转向MOE了然后这个事情其实还有挑战的那个Lama转MOE就不是很成功就MOE应该是在4的时候没有训出来搞崩了包括Minimax当时选择MOE以后应该是训了三次才做成是的因为MOE还是蛮有挑战的一个模型结构好,那我們到了20年,到了20年以後呢,有一個很重要的論文,叫COT,大家都知道,SortofaTrain,這篇論文它的很有意思的地方在哪呢? 那個時候人們發現說,那個時候就過了17年,大家開始拼命的scale这个模型的模型的大小大家发现说我把模型越搞越大虽然会有很多很多很好的很好的结果但是在一些算术或者常识或者符号推理领域收益没有那么明显就是说不是所有领域在那个时候他们人们看来都有scale能落的有些领域有有些领域没有然后这是第一点第二呢就是sft啊他虽然能够解决推理的问题我可以通過SFT來得到,因為我剛才說了嘛,很多時候推理效果不好,那我可以通過SFT來讓推理效果變得更好,但是你構建那個SFT的那個推理的那個數據集呢,成本是很高的,需要很多人,甚至你要請很多博士來給你構建一個SFT數據集,那如果用傳統的future的方法呢,在推理能力上的任務效果又不好,那這個時候就開始想我怎麼解決這些問題我們現在回過頭來看很多能力其實已經蘊含在模型裡了當時人們不知道沒有把它激發出來那這篇論文是一個很典型的它把這個模型的能力激發出來了讓大家所意識到這些模型原來有那麼多能力所以這次某種意義上它是post-tune的開端大家之前在猛搞projection以为projection搞得很好以后模型能力会变强后来发现说模型可能在你projection的过程中已经变得很强了但是你没有用好你需要通过projection把它用好以后得到更多的收益所以这篇论文其实非常建议大家读一下这篇论文其实没有一点都不会说因为论文的难度几乎相当于一篇博文作者是叫杰森魏啊这是一个首先这是一个少数在OpenAI里面只有本科学历的研究员在OpenAI里面还有一些我印象中OpenAI是有一些研究员是只有高中学历的杰森魏毕业于达特茅斯是一个中国是一个华人他也是知名网红啊很善于表达然后呢非常值得大家关注他的blog和公开视频都不错他的推特也很值得关注很活跃然后他的指导老师或者说他那时候我印象中好像还在他那时候已经在Google了对他的sponsor叫DannyZhouDannyZhou是现在Gemini的Risley的负责人前段时间应该是6月份的时候他在FutureUp有个分享非常值得看他就专门讲为什么大模型有认认有能力整个斯坦福的CS25这个课程都非常值得大家去看他每年都会请很多很好的研究员来给大家做分享然后我或者说我觉得我们读论文的一个好处或者一个也很大收益就是说我们真的是读懂论文以后我们就可以直接去看这些研究员的分享和视频如果论文能读懂或者能够大概读懂这些论文是这些人有点分享能看的我们就可以直接和这些世界上最聪明头脑进行直接交流我们看COT的直接核心贡献他发现说我们只要向模型展示推导的中间步骤告诉模型你可以一步一步思考然后呢我们就可以大幅提高啊这个模型在推理任务上表现因为那时候有一个啊大模型就是在在GPT3.5时代待会有magicwords对吧就有一些很很神奇的就是你每句话你很很很神奇的prompt你在每句话里面都加一句说请你一步一步思考大家可能还在很多prompt里面还看到痕迹就能够提高模型的效果那他就是这篇论文就是展示这个他会发现说我们会发现说原来模型有那么多能力我们没有充分利用所以他就吸引整个420的重心从预训链转向后训链以至于后来Syncing模型的诞生JasonWei是O1团队的一员他对Syncing模型的诞生是有很大的影响的他后来从Google去了OpenAI然后同时有一点就是COT让大家意识到语言模型的输入是会影响输出的所以逐渐大家还开始越来越关注输入的构建所以我们开始之前有promptengineer后来有contextengineering我们越来越关注上下文的工程所以它的模型输入在越来越工程化这也是很大的那么一个趋势然后大家说去看的话就是我印象中是看一个应该跟JasonWei合作很紧密的一个韩国人的研究员的一个视频分享他就说有两种研究员一种研究员呢很擅长解决问题他能够解决很多很重要的问题另外一种研究员他很擅长找到这个时代最重要的问题是什么我覺得監測會其實屬於這種研究院你這邊問文就是你很多時候學識性其實那個難度是很低的就像一篇博文一樣但是呢他提了一個非常非常重要的問題我在這邊忘記截圖了後來給大家補上你可以如果你去看這個作者的引用量他的GoogleGoogle的引用量他的引用量就是在那個TPSIC出了R1就是O1R1出來以後大家開始很關心後訓練然後就開始瘋狂的引用他的論文他的整個論文的增長速度是非常快的去年增長速度比前年快很多然後今年和比去年大概今年到了七八月份他的論文引用量就相當於去年全年了然後去年全年引用量相當於前年的五到六倍他定义了一个时代非常重要的问题后面的人都会在他的问题后面去解决那些他定义了一个重要的问题后面他解决那些问题他这个问题本身其实你回过头来看并没有那么难难以发现强弱学习是一种学习的范式他和SFE很不一样的他就是我们说的监督学习監督學習是本身是連接主義強化學習是行為主義他們是整個機器學習裡面還挺不一樣的兩個種信仰對其實是兩種信仰然後呢COT本身上其實是是一種監督學習他是另外一個他是不同流派他是監督學習他主要影響的還是後訓練但是在AlphaGoZero那边工作里,它有两个很重要的事情,一个是它是强化学习的,从零开始强化学习的一个先驱,且拿到很好的结果,同时它也做了testandscaling,它也做了syncing,所以AlphaGoZero它也启发了syncing,它既启发强化学习也启发syncing,你可以理解为AlphaGoZero启发了DeepSeekR1的Zero,然后启发了O1因为O1是没有ZERO那个版本的R1是一个ZERO版本的就是他们就尝试做我不做SFT会怎样好我们来到201年这篇文章这篇论文叫Laura这是那个我们每天都要用的东西Laura是一个大家非常非常熟悉的概念但很少有人知道这个论文是到底用来做啥的这其实也是我们败版模型做大的过程中想解决模型变大的各种负面收益的那么一个工作大的模型有个缺点就是说他虽然说他一个是他使用的成本很高第二是说训练的时候成本也很高如果我们想想那个时候说如果我们想对大模型做一个sft我们想做一些微调去适应我们的任务你会发现说微调呢很难训当然微调肯定比模型训练好多容易多了但对很多人来说微调还是很难训的同时你想你每一个任务存储一个微调的副本也很占地方因为模型越来越大它需要存储空间就越来越大你有很多的微调的纸集的时候你的存储的地方也很占这个时候我们就会想说我们能不能我们不动这个模型本身也能做微调我们给它加点东西那我们给他比如加一个转换器,像加变压器一样,我加一个adaptlayer加一个转换器的层那这个时候加转换器的层的缺点是会引入延迟它会经过一个大模型再经过一个转换器那如果我们直接优化那个输入层呢难度就很高那就会有人想到一个方法就是叫利用这个模型的低置特征在旁边加一个同步的你可以列为一个同步的平行的一个模型这个模型可以在计算上可以跟原来模型融为一体它并不会带来新的延时而且那个模型这个同步这个模型的很小很好训我只用训这个模型就可以了那这个想法就是罗瓦诞生的初衷罗瓦这个作者叫艾伯的胡也是一个华人应该是生活在西雅图他是约翠华的学生然后他也是在微软研究院工作过后来也去了openai这个作者是有youtube账号的他自己录了一个视频给大家讲解他为什么要做laura以及lauras原理是什么你会发现说一般来而言作者来讲他的论文是讲得最好的所以大家有机会的话可以去看看这个视频我把这个链接放在后面了就讲得非常好然后罗娜是她做什么核心贡献核心贡献其实说她用一个非常简洁和高效的方法提供了一个和权量微调相当的性能所以呢她迅速成为整个微调领域最主流的方法但是有个很有意思的地方就是说她设计这个方法时候是给川普总统用的但它真正的开花落地更多的是在旧型模特里面去用现在基本上很多时候图像里面大家想选一个风格就会选一个laura所以像LoRa更多的是在Defusion裡面用然後現在我們不是說模型希望模型有記憶能力嗎對吧那有一種方法就是說我遜的時候我的模型本身是不能記憶的但我定期的拿我的那些人類的信息或者數據遜一個LoRa那個LoRa就有記憶LoRa疊加進一個模型以後讓模型有記憶所以也有人在用LoRa解決記憶的問題這也是一個分支他的做法就是说他其实就是在模型旁边做了一个特殊的两个矩阵那个矩阵能够存储一些微调的信息然后在推理的时候这个矩阵可以和原先矩阵合在一起进行部署和训练他的逻辑和原理有点像resnetresnet其实就是说我只是学习长差就是那个data那个部分增量部分那他也一样我只是我比如我模型要适应一个新的场景其实像人学一新的场景大脑觉得是不会发生变化的我只要做一些学习现在我应该只需要学些我只要学些data系的信息对吧或者说我只要改变一些data参数那他就把那个data挂在外面了像一个外挂一样我只用学习那个data所以那个data理论上讲就应该更更好学更简单更好训练OK这个是罗娜然后我们来到20年大家看到20年10月份的论文是react作者是姚昆宇之前咱们的另外一期嘉宾她不是0后不是0后吗好那我写错了她97年的OK孙宇是毕业青蛙摇班我当时看她的履历的时候我觉得很有意思我看了她很多采访你看他是一个我们一般会觉得说一个research是一个很严肃很古板的人他居然是一个吧说唱联合策的创始人对非常有意思然后呢我们看了这个时间就说这个react的论文发表其实在GPC3.5之前在chartGPC之前的整个历史背景是说Russell他們在95年提出了一個非常非常精準的agent的定義它定義的agent其實是說agent是一個能夠通過傳感器感知環境並且雌型對環境產生影響的那麼一個實體agent被定義的時候其實並沒有說我一定是大語言模型驅動的只不過語言模型發展以後很多時候我們會用語言模型來驅動agent在COT那個論文發表以後我們會發現說大模型能夠做推理如果你引導的恰當它有很好的推理能力然後但是因為它和現實世界是沒有交互的所以它可能會產生很多幻覺並且和現實世界脫節沒法去影響現實世界那REACT就做了這個工作它讓這個模型不但能夠推理在推理的同時還能夠觀察這個現實世界那我引用了那個論文裏面的原圖原來我們的大模型只能要不然就只指人只推理要不然就只觀察或只行動行動以後觀察那他就把兩個行為結合在一起我一邊想想完以後行動行動之後觀察觀察之後呢再想一遍放在一起這也是一個非常我们现在看来非常符合就是那么一个做法但在当时其实是还是很开创性的且我们会发现说在洽集必须出现之前CoTReact这些影响我们现在的上下文工程的以及syncing过程的关键概念的工作都已经出现了他們其實都是在AI火之前出現的就像順利在採訪裡面上次討論裡面說的他去解決一個別人沒有還沒有關注到的問題而不是解決一個大家都關注到很火熱的問題所以在這個時候在那個時間點上語言模型還是一個比較偏門的科學領域用語言模型來做agent就更加的偏一些他的老師他主要老師同時也是GPT-1的作者我們後面會列到所以這些問題它順序也屬於它定義了一個時代非常重要的問題所以定義這種作者都會有特點他們定義的問題會在後面的幾年得到這個世界的關注所以他們的論文的引用量的暴漲他們都是從20年開始的20年其實就是大家開始關注O1開始關注thinking開始去引用他們的論文他們就開始領導這個方式的發展所以发现一个好问题核心问题很关键对而且会发现你会发现如果我们回过头来看这些好问题好像没有那么的难对吧如果你去看什么PPO那种强化学习那些我们这次没有讲到把强化学习搞work那个论文全是公式和推理那个还挺复杂的那个是很难的但是如果从影响力来讲这些工作的影响力不会比那些工作影响力差太多我听到这里我还挺好奇的因为你也研究这些宿舍背景嘛你觉得他们学术成果比较盛产的时期通常是什么时候還是不一而足我覺得不一而足就是說多數時候還是年輕的時候多數情況下還是年輕的作者因為他沒有歷史包袱比如說順羽他讀博的時候他就開始研究他讀博的時候就有GPT了對吧他就可以用GPT來做研究了他就沒有浪費他的研究生涯如果我們以AI時代的學校來看也會有一些老師傅比如說Norm那樣的他經歷過很多時代他能夠所以他有很強的工程能力他也有很好的算法能力,但諾姆也很強諾姆應該是90年代的美國的奧塞的金牌且他的那個分數應該霸榜了十幾年吧也是一個很傳奇的人物多數情況下還是年輕的研究員然後呢也會有一些我覺得這是中國和美國不一樣的地方美國確實有一些工程師或者行業從者他們通過不斷地學習一直跟著行業的前沿這些研究員也會有個特點他們走向管理崗位以後也會花很多時間在寫代碼我覺得這是矽谷可能和中國的互聯網不太一樣的地方我去年在矽谷的時候我們也是會發現說矽谷有很多工程師他還是很handson在寫代碼的他就還能夠跟上這個技術發展就是說以這些人的聰明程度跟上其實不難我相信以現在中國的互聯網從業者的出名程度讀懂論文的人能讀懂的人肯定是多數但去讀的還是比較少就隨著大家的年齡的變化我覺得年齡越大去學新東西的機會時間就會越來越少為什麼呢為什麼他們走上管理崗位以後還會含葬自己寫代碼我覺得跟跟灣區的工程師文化有關係他們比較崇尚這個事情同時他們確實美國科技公司的管理精細度還是嚴重不如我們我們還是管得更細一些他們更多是創新驅動的管得更細不就應該自己更含糟嗎你管得更細我們管得更細是在商業上管理上管得更細和商業上管得更細並不是技術上管得更細或者說你技術上管得更細我們是通過管理的方式管理手段對他們是通過一些更底層的創新的方式就是我们一起写代码对我们就会发现说我们因为写代码其实时间是很短的很多时候是在开会讨论怎么写代码肯定比如说我们现在自己在做新的产品的时候很多时候代码是我自己写我自己写产品的前端的时候我就不需要写PRT了我也不需要画明星图了因为我自己给自己写代码我腦子裡面已經有他們的構想了我不需要中間過程中間過程其實也是一種壓縮我把我的想法壓縮成一個PRD壓縮成一個原因圖然後原因圖給設計師PRD給工程師他再解壓一遍然後再把它寫成代碼其實有損失的我覺得其實矽谷一直比較崇尚權債所以矽谷並不像我們港澳一分那麼細硅谷一直是它只有軟件工程師和硬件工程師我們還有我們有前端後端算法對吧美國其實是沒有算法工程師什麼前端工程師後端工程師這種太明顯的區分的對現在一些AI創業公司也說他們現在招人傾向宇宙全佔是的我們也希望我們有更全佔的工程師和更全佔的產品所以這也是我們為什麼在公司內部高鐵內部去推荐大家读论文和帮助大家读论文的一个原因好那我们来到对整个模型范式的模型结构的变迁的收尾是一篇很有名的这已经不是一篇论文了是一篇很有名的文章叫betalesson是那个RachelSutton写的我本来想说把这些文章做些浓缩后来发现这文章如此的精华就没有必要做浓缩我就把它翻译在后面了我先给大家看一个图这个beatlesson其实是沙顿的一个演讲稿的一个文章版这个beatlesson是有个演讲的大家在YouTube上可以搜到它他在某一年的應該他在2018年在8月份的一個演講上講了這個觀點我們看一下這個圖你看下面這個人薩登然後上面他是畫了一個摩爾定律然後這個的縱軸是以美元計價報有點小了它是一個以美元計價的算力橫軸是時間你會發現随着时间的推演以货币为计算以单位为分母的一个算力是在指数级增长的就是算力在越来越多且越来越便宜他讲了这个观点那他整个biglesson里面讲的就是他说我们从能够智能搞了70年发现利用计算的通用方法最终最为有效且优势显著他说根本原因在于摩尔定律或者说更广义的计算单位成本的持续指数级下降然后呢你可以本来说你如果你能够scale计算你就不用去做很多的人工的特征那我们什么是手工特征呢比如说我们在做图像识别的时候把标记的比如这个是什么东西是人脸什么是人眼要做人脸识别的话这东西是手工特征那在做下围棋的时候把气一演这东西是手工特征棋谱也是手工特征包括语言里面的一些也有很多手工特征那我们现在仍然保留的比如说大家在做Agent工程的时候你会发现我去年很多时候用Cursor我大概今年从我今年从五六月份开始更多用CloudCodeCursor做的很多事情就是手工特征就是在做就是我們在用一些工程的方法來解決計算的問題然後呢是不是他自己沒有模型是嗎對就是說或者說如果我們反過去看Biglesson它的意義在於說會在有些時刻手工特徵是有用的直到算力再增長一個量級讓徹底把手工特徵打敗那後面有提到你看围棋领域也有类似的他说什么叫苦涩教训他说我们按照我们自以为是的思维方式构建系统长远来看最终失败就是你看本账我们来组建一个agent的工程就是用我们的想法来给agent安排工作流对吧你在这个时候你应该去查一下资料库去找一下reg然后你那个时候应该是干嘛干嘛然後本賬模型其實自己是它是可以學會的它是可以搜索到的但是可能需要有可能需要說多的多的算力有可能這些算力要10年以後才會出現這是有可能的所以在這個時候它就會它就work它有好處對吧他說所以AI研究者試圖將知識編碼入其智能體這在短期內總是有效且令研究者個人滿足它有收益但长期会陷入平台期甚至阻碍进展而突破性进展最终来自相反路径通过搜索searching和能力搜索和学习实现计算规模扩展这种成功带来苦涩尝未被完全消化因为它战胜备受青睐的以人类为中心的研究方式这段话看起来好深刻对就是你看当时就是openline有个段子就说那个研究员吧上班前喝一杯咖啡要开始先读一遍peterlesson然后开始才开始干活然后呢那个对吧然后Saturn就觉得说你们现在的方法都不是强化学的方法都是就是我peterlesson里面说的那些问题对就那个capacity还有那个还有发了一个推嘛就说这个事情很有意思所以本身上嗯长期来看用通用的方法本质上强化学就是通用方法不依賴任何先驗指使的方法最終能夠成功但是呢會在某一個短期你做人工的工程操作手工特徵會有收益我覺得如果我們是從工業界的角度來看的話那工業就需要平衡好兩者因為對於用戶來用戶是不關心你是手工特徵還是機器學習對吧反正我用得好用就好了所以你也可以看到GPT的能力或者說Cloud的能力在越來越接近Manus就是說模型它在學習這些東西或者說你人工構建的那些路徑和方法它也是可以用模型來學到的這就是楊志玲說的一方的模型產品是对用哲英的话来说本质上如果我们往前看很长时间模型最后能够学会就t度下降是能找到我们所有的方法的所以呢只要相信t度下降就可以了我觉得Dario有一次采访的时候说过一句话他说在我们不做假设的时候t度下降比我们所有人更聪明就是AGI的想法一定是這樣的但是你如果去讀CloudCode的SystemPrompt你會發現CloudCode的SystemPrompt也有很多手工特徵它是會告訴模型說比如說你在計算六位數的加點乘數的時候你可以直接推理但是超過六位數請你使用工具請你使用Python請你使用代碼這就是一個很典型的這是一個很典型的人為在干預模型那按说如果你很很AGI的想法的话模型应该自己知道什么时候他应该用什么工具对吧什么时候应该直接心算什么时候应该用计算器人是会的对吧我把你算个数你肯定知道什么时候淘计算器出来什么时候你直接就告诉我结果不需要我告诉你不需要我跟你约束那可能现在模型还没有那么强他就需要或者某一方面那么强的时候你做手工特征就会有收益那就是沙顿说的在短期内总是有效且令研究者更能满足然后呢他说我们从这他说苦心他说我们该从这一苦涩教训中我们应该认识到通用方法的强大力量那些能够随计算力增长持续扩展的方法即便可用计算资源变得极其庞大时依然目前来看能以这种方式无限扩展的两种方法正是搜索和学习搜索是testtime就是testtime的时候的搜索就是我们说alphagoyellow的搜索然后学习是pre-train的步骤然后从这产生教训中获得第2个普遍要点是新制的实际内容极其复杂且无法简化我们应该停止寻找理解新制内容的简单途径比如说什么叫新制内容空间物体多智能体或者对称性所以你看cursor其实是一个multi-agent的system然后cloudcode其实是一个singleagent你cursor是一个multi-agent的就需要人来组织这些agentCloudCode就是模型自己组织它的关系随着模型的增强CloudCode正在变得越来越好用所以说这些都是外在世界中任意本质复杂的一部分不应该被内置因为它们的复杂性无法重建相反我们应该仅内置那些能够发现并捕捉这些复杂性的原方法什么叫原方法就说比如我们transformer用注意力来建模反正我让你模型你能够这个把猫坐在垫子上它这个它可以跟猫和垫子发生关系发生连接就可以了这是原方法他们发不发生连接什么时候发生连接怎么发生连接可以让模型自己去發現當然他們怎麼連接其實我們定義的計算我們定義的點擊所以這裡面其實也是有些人文的痕跡的至少我們定義了數學的基礎可能比如說未來它不是點擊它是一個別的東西它就會是一個新的模型結構然後他說這些方法的核心在於他們能夠找到良好的近視解但是寻找这些近世界的过程应该以我们的方法完成并非我们亲力亲为我们需要的是像我们一样有能力发现的人工智能体而非装载了我们已有发现的智能体内置我们的发现只会让理解发现过程如何实现变得更加困难所以我自己反正大概一个月会读一次吧就会觉得说就还挺振动发挥的对好那我们模型部分就到这了刚才我们其实提到了几个人包括张祥宇、于凯和顺宇可以推荐大家去听商业访谈录的102集张祥宇的访谈108集于凯的访谈和15集顺宇的访谈那我们到第二个部分这个部分会相对来说简单一些是infra和数据的变迁简单有两个原因一个原因是说英法数据对我们理解模型和如何使用模型的影响比较小二一个就是我对英法的理解或者说了解确实会少一些然后我们推荐第一篇文章叫Zello这是一个19年的一篇paper已经比较近期了Zello已经是第三代的机器学习的英法了第一代是李牧他们当时参与的参数服务器然后呢当时历史背景是这样的就是我们的模型在越来越大从参数是从亿到千亿整个19年的前后是GBT从1.2亿的参数GBT1到GBT2的15亿的参数到GBT3的1750亿的参数但是呢我发现我们参数变化那么大增长了10倍但是GPU的显存只从16G到了80G所以显存是跟不上的也就是说我们单个的计算单元的计算能力和计算的边界碰到了瓶颈一张卡已经装不下一个模型了就是那一张卡装不下模型了以后呢我就得把模型拆到好几张卡进行训练最早的时候AlexNet他们做的时候就是两张卡来放模型和做训练那现在呢Zero做的事情就是说我能够把上千张卡放到一起进行一起进行训练然后当时历史背景有一个情况是说当时的模型并行数据并行和流行病的方法呢都有些问题他们Zero这个工作解决了这个问题最后成了一个开源的框架叫DeepSpeed这框架是微软做的微软的俞教授他们做的这个工作然后他们很好的支持了OpenAI早期的模型训练OpenAI在有个时期把参数搞那么大的时候其实有点吃不住得到了微软的支持,微软给他们语音也给他们一些计算的帮助这个团队后来应该都去了应该都去了Salesforce都是去了Salesforce做他们的模型去了然後這個的核心貢獻是其實他他做了一個數據病情的框架他做了一個他在這個數據病情的框架內對訓練過程做了優化和動態管理然后它能够比较好的消除模型训练过程中的内存的冗余能够把内存的利用最大化然后让可训练的模型大小和GPU集群的总显存成正比理论上是可以无限扩展的因为过去如果你模型方法不够好的话硬化确实不好的话你加大集群并不一定能够带来训练效率的提升很多时候你加大集群以后训练效率会降低甚至会迅崩然后这个工作后来就放在deepspeed里面开源了这是一个比较著名的开源框架啊这个是yellow然后到一个我们很熟悉的一个概念叫scalinglawscalinglaw其实是两篇文章一篇叫scalinglawsforneurallanguagemodels另外一篇叫chanchilla我们可以看一下那时候的历史背景是说人们已经开始相信20年前后的时候人们已经相信说模型越大越好但是呢数据和计算资源是有边界的我们现在已经数据已经几乎耗尽了特别是语言类的数据基本耗尽了计算资源呢也不是是有成本的也不是无限扩张的因为它你把集群做到我们现在最大集群也就10万卡想做更大的数据集群呢现在还做不到那我们在这些边界下怎么分配资源以及如果我给定计算资源因为很多计算资源就意味着钱嘛那我计算间给定的时候我怎么分配参数量和数据量能够最优化我的模型效果或者最优化训练效果那OpenAI和DeepMind的团队都做了实证研究然后呢就形成了我们今天指导模型训练的Scalar我把这两个图都放在下面了上面这三张图呢是OpenAI的那篇paper的图什么意思呢我们看到这个这个Y轴这个纵轴都是叫testloss往下降随着计算量的很多是compute计算计算越来越多整个loss是往下加的那不是往是往下掉的就是效果的越来越好它里面的蓝线是不同的模不同参数量的模型大家可以不用管它然后确实也随着datasize数据集的规模越来越大它的loss也在越来越降低然后也随着参数量的越来越大loss也会降低它们之间是一个明显的对数线性关系就是我们把这个东西取对数走以后是线性的这是第一篇paper发现的特点然后第二篇paper我们可以看一下横轴是计算量中轴也是loss那他也是发现说首先我肯定是随着计算量的增加我的loss是降低的然后呢他那个上面那些彩色线是模型的规模那你会发现说同样的计算量和计算量下或者说然后切一根同样的同样的loss下参数更大的模型能够吃掉更多的计算资源且它有机会把loss降到更低我们黄色那条线是能把loss降到接近2.0的它是一个实币的模型但是你看我们紫色那条线它可能它的loss就只能降到3.5左右3.5少一点降不下去了那就是说模型比较小它降不下去所以呢这两个文章核心是他发现了语言模型训练的和loss的一个对策性关系所以我们发现说当其他两个因素不曾平静的时候经验性能和每个单独因素都存在魅力关系虽然我们这个时候他觉得什么问题呢我们可以用小数模型实验出来的数据点去预测模型扩大式的性能很多時候我們光看這個訓練曲線還沒有感覺因為很多時候我們去模型呢我們要不停的改進模型要做很多實驗我們不可能把每一個實驗都放在最大的模型規模上去做因為你看每個實驗做三個月你受不了對吧不管時間還經驗都受不了但很多時候我們只能在小規模數據上做實驗那如果我们的每个实验它的垂模垂增模型扩大都有这样的先进关系对先进关系我就能通过小模型实验去预测扩大以后的效果来做取舍对吧我要不要上这个实验的变化那它本身其實要解決這個問題我們想在小就是它想找到一個規律讓我們在小模型做的實驗可以預測放大以後的效果然後我就提前做好取捨做完取捨以後我就一次性把所有的這些取捨或者說這些改變的這些訓練的方法不管是數據還是我的模型結構還是方法還是應發的東西然後一起來做scale來做一次完整的域訓練那這個時候你這個scaleload是不是work就很重要了它第一會影響你說你三個月以後跟開盲盒一樣我花那麼多錢去開一個盲盒是不是有效果第二會不會崩模型公司特別喜歡說loss炸了loss炸了對loss炸了那你就要回到你的checkpoint它其實去年模型過程中是你可以理解為每個小時都要存一次檔的如果大家去看那个拉玛的拉玛色论文拉玛色论文训了三个月炸了几百次吧算过他大概拉玛式的训练过程中每两个小时就会炸一次就炸一次然后你就会存档都训练存档再重新训一次所以他就需要大部分时候大家训练模型的时候手机是要开机的半夜三更模型炸了你就需要起来修一下然后再那个那这个是做得不好的表现做得好的比如DeepSeek他们自己的论文里面他们的模型训练就很稳定Loss就很漂亮往下掉也没有炸然后就训练了两个月就拿到结果了中间没有坏掉那这就是他功能力很强的体现所以这次ScalableLoss其实核心在实际模型训练中是用来解决这个问题的所以大家可能如果不做训练的话就不太能想象说我们那么显著的一个law到底干嘛用不太好设想然后呢还有一个事情就是说OpenAI发现这个scalelaw以后他就建议在给定计算预算下应该训尽可能大的模型即使这意味着提前停止训练他会发现你应该尽可能去scale参数规模然后DeepMind发现一个不一样的看法就是说OpenAI的策略会导致很多模型训练不足它那个模型其实没有吃够数据量所以DeepMind认为对于计算最优的训练模型规模和训练token数应该等比例扩展你应该既扩张模型参数量也扩展数据量然后当模型参数翻倍的时候数据量也翻倍这个感觉makesense对这就是我们后面说的数据墙当你模型到了一定程度的时候你数据不够了跟不上当然了也跟OpenAI发的论文比较早它后来就不发论文有关系有可能OpenAI其实也是知道的人家只是不发了DeepMind还在发然后同时DeepMind的长期拉的模型它会证明你用更多的数据训练更小的模型比用更少的数据训更大的模型更好因为它这个时候你可以把一个小模型loss降到足够低那小模型会有好处就是说它它整个退成本是比较低的啊使用成本比较低所以你会看到现在很多小模型会进行过量的数据小模型用过量的数据和过量数据量进行训练嗯它把loss降到一个可能没有因为你看这曲线它其实是它放缓是一个先变快后变慢的过程所以很多时候呢模型会在变快到变慢那个转折点停止训练但是如果你接着训下去还是能还是能够降低loss的只不过性价比不好了那这个时候我想训个小模型那你训练的性价比不好不代表推理性价比不好对吧因为推理的时候是限制成本的所以很多人会训这样的一个更小的更就是过度训练的一个模型这个是gallonlaw好,那我们来讲讲数据我们讲这个数据叫Line5B这是一个开源社区做的一个数据集这个数据集是我们现在的DiffusionModel的基础整个基石它是一个什么样的背景呢OpenAI在201年的时候发了一个叫Clip的模型它证明了通过对比学习可以在大规模多大规模就4亿的图像在4亿的图文对称训练的座余训练能够训练出一个很好的视觉和语言的联合表示模型什么叫联合表示模型呢比如我们现在说一个词特朗普我们脑海中就会得到一个形象特朗普那个脸那一个训练的很好的模型你可以认为他在某个空间里特朗普这个词和特朗普的照片這兩個向量是很接近很接近的我們就說我們學到一個表示這個表示既包含了語言信息也包含了圖片信息如果我們找到一個世界模型這個表示應該能包含這個世界裡面各種不同的信息那這個時候呢那這個時候如果我能把特朗普的圖片和特朗普的文字的那個項量靠得很近我就能通過文字這個項量找到那個圖片因為他就在旁邊嘛對不對如果他們融合在一起他們就是一個我就能找到他那這個時候就是我能夠通過一個圖片我就通過圖片找到文字這就叫圖像識別我通過一個文字找到圖像那就是圖像文生圖因為他們是一個他們如果能連接在一起他們就能互相轉化互相轉化就對應不同的下游任務這個時候OpenAI開放了CLIP這個模型但沒有開放數據棋OpenAI那時候就開始做一些避遠的工作了所以這個作者代表開源社區認為人工AI這個領域裡面如果一直是避遠的對人類是不利的如果完全有幾個少數的工業巨頭壟斷讓他們來決定整個人類的發展方向對我們非常不好他們認為我們應該開源這個作者叫Furman是一名德國的高中物理和計算機老師你很难想象一个德国的一个老师有这样的vision这个老师是会机器学习的他给他的学生们上那个机器学习的课我看過他採訪我覺得這是AI的好處就是說我以前我只能看英語的材料我現在有AI以後我還能看德語的材料對所以你可以去看你可以搜這個人他有一個德語的應該是應該就是明鏡那個雜誌那個報紙採訪他採訪稿採訪那個媒體不是不是那就是鏡報那時候德國也很有名的德國的媒體對德國那個什麼鏡的一個媒體採訪他一看到那個採訪稿有很多他講他為什麼要做這個數據機那这个数据机怎么做的呢,它以一个开源的方式它号召了一批人,用clip,用OpenAIclip模型来过滤这个commoncore数据机commoncore是那个CMU的学校定期就爬的互联网的一个数据集它定期比如说每年会把互联网所有的数据都爬下来然后存在一个地方是对外开放的大家可以去下载然后呢它每年都存因为很多网页它会消失嘛它就失效了所以只有commoncore有过去的所有的那些存档所以这是commoncore是一个非常非常重要的现在用来训模型的一个数据集他们用clip来爬这个数据集构建了一个蓝5B,就是有5B的图文对的那么一个数据集,这个5B里面就比如说他有一张照片特朗普的照片,然后呢有一个有几个词就是特朗普,都如此类的,蓝5B是一个继imagenet以后在多模特领域影响力最大的一个数据集,多麼他ImageNet是有14個M這個是5個B大了一個數量級了然後他其實催生了AI技術領域的很多創新整個defaultmodel都在上面做的訓練我為什麼會推薦大家讀這篇論文去看他數據集呢因為只有論文裡面會講他們如何清理這些數據然後你去看他清理數據的時候你才能夠知道這個數據後面的那些小的tricks和一些原因,我们当时在做一些图像处理的时候,我包括跟一些朋友讨论到,你看我们很多时候做动模态的时候,我们会需要审查图片是不是色黄,对吧,我们其实并不需要我们模型生成一个色性图片。那你就去想为什么模型能够生成色性图片,你才能够解决怎么样它不生成色性图片。那模型生成特性圖片的來源都是因為都只有一個原因就是數據集裡面是包含的你去看萊恩5被它處理數據的時候它是把這些色情圖片Nosafeforwork的圖片它沒有做過濾它做了標記人工標記對它做人工標記它把很多圖片拔下來然後有色情圖片的那些圖片它標了Nosafeforwork但並沒有刪掉所以那你训练的时候你就可以你可以选择用那个标签和选择不用那个标签那如果你不用那个标签你可以训练你可以训练出来一个没有设定能力的那个模型我当时还跟很多研究员探讨过如果我们不用这种标签的数据来训练会怎么样你会发现如果你不用这个标签的那些数据来训练的话模型会失去对人体结构的理解能力很有意思就像你看我们之前那个國外那些雕塑它是要研究解剖學的也就是說一個好的畫家是要看過人的裸體的他才知道人的結構模型也一樣如果你在模型裡面把這個數據去掉了模型就不會了但是你要告訴他這個nosafeforwork對所以本質上我們現在所有的多模態模型多數都不會去掉這些數據進行訓練所以我們的模型就是原生有這個能力的所以他們會在模型輸出的時候把這個能力關掉而不是在模型訓練的時候把這個能力關掉因為它不能把這個模型訓練能力關掉那這些知識就是我讀到這個論文的時候才意識到的我覺得很低調的東西它論文裡面很有意思那後面怎麼處理那就另外一個領域的知識了我們後面東方大學可能會講到所以我覺得讀論文會帶來一些你讀第一手的信息就確實會有很多你讀別人加工過的話或者你去讀公眾號的文章不會有人提這種事情的這是一個非常非常小的角落它可能只對一些演員有用所以它不會被大眾傳播它會很有意思然後還有一個一篇一篇論文叫FindWeb就是叫精煉互聯網這是一個什麼樣的數據集合工作呢這是23年的工作了,這個時候GPT已經出來了大家在研究scaleandload的時候大家已經意識到說我們數據和模型要同步scale才有效果對吧那我們甚至可以用更多的數據和算力來對小模型進行過渡訓練但是那時候大家就發現說好的數據就高質量的預料庫已经掌握在大公司手里了OpenAI有能力有钱去买书去把那些技术论文,测调媒体各种各样的网页很好的洗干净拿出来我们当时人们会觉得说这种精心策划的预料库这种人工整备的预料库对训练出很强的模型是必不可少的但这种预料库很难获取又被垄断了那这篇论文的工作就向大家证明你不需要那种精心的精心处理的人工的预料库你只是拿互联网的预料库就是commoncore进行精心的清洗也可以训一个很好的模型他整個工作就是做這個他就是他就他整個論文裡面跟你講說我怎麼清洗這個commoncore得到一個大規模的高質量的數據機叫refinedweb然後拿這個數據來做訓練就可以達到甚至超過人工製造的數據機的效果他這就非常的那這個方法就非常容易scale我不再需要僱人了我只需要用計算機來幹活就可以了那我找到一個解決據強問題數的新方式然后这个如果大家对这个数据怎么清洗有兴趣的话呢可以看那个hackingfacehackingface有他有一个三部曲的文章我只看到前面两部第一个就是讲怎么清洗数据就是他有个非常长的blog文章跟你说怎么清洗数据,里面也会引用这个refineryweb整个讯息pipeline是什么样的然后他的第二部里面他就会讲说整个infra设施是什么样的我觉得那是一个非常好的,大家会看到infra的那么一个指南huggingfaceblog里面就有它然后然后来一个新的工作叫megascale这个是自己的工作204年发表的到了2022年底以後OpenAI就幾乎不發動了因為它整個東西開始進入幣源然後大家都知道OpenAI用了萬卡型去訓練大家都不知道怎麼用萬卡型去訓練因為把一萬張卡連起來還是挺有困難的大概在20到20年期間全世界應該只有三個公司有這樣的經驗一個公司是OpenAI一個公司是Google一個公司是DeepSeek就DeepSync很早他們搭螢火蟲二號的時候就是一個很大的集群他們搭了一個巨大集群他們用不完他們幹了一件事情就是那個時候大學老師和學生可以通過一些充分的學術理由去申請使用螢火蟲二號所以那個時候的DeepSync其實已經有很好的大規模的GPU集群的經驗了這是世界上很少見的只有他們知道怎麼把這些卡連起來那这个maxscale就是一个应该是第一篇市面上公开发表的把一万张卡连起来做训练的一个论文这是自己发的也不是自己他们最核心的工作他们自己也应该就是不足够好的一个planb拿出来发论文了对对最好的代理前途对对对是对那个时候就只有他们发了所以大家还是印象还比较广的你看像GPC3这样的模型它是有1750C的参数的它需要在大規模的GPU集群上做單個job的訓練就是我們說把卡連在一起不是連在一起就完了的你要連在一起把它當作一個卡來用我們把卡連在一起只是一個集群一個集群可能比如說你把一萬張卡連在一起可能這兩千卡能跑一個任務那兩千卡能跑一個任務我們現在需要說我們把一萬張卡連起來且讓這一萬張卡能夠同時跑一個任務這裡面有很多的挑戰有個挑戰是訓練效率也会挑战训练稳定性什么是训练效率呢就有可能你要弄得不好你可能一万张卡的效率还没有或者训出来的那个计算的花的时间甚至比一千张卡还要多效率降低了就是他卡越多不是越来越不是异物的一定会更好第二就是训练稳定性GPU在一万张卡这样的尺度上GPU是会坏的後來有兩種情況這張卡真的掛了物理上壞了它真的會發生一些比特翻轉就是因為有一些電池干擾它那個比特換成0變成了1它沒有壞它只是它數據壞了所以它GPU會出很多問題這個時候你就需要說我要把那個問題識別出來首先我要能夠衡量訓練這些指標然後發現指標不對我去識別問題識別完問題以後我要定位到卡然後我要把這張卡踢下去然後把一張新的卡補進來然後再訓練然後把那張壞的卡要不然就激活重新激活重啟一下重新激活要不然真的壞了就維修它需要這麼一套機制所以它本質上他們建了一套叫深度可觀察的按照深度可觀察的原則建了一套系統這個系統能夠對訓練進行監控和可視化然後診斷Infra的問題然後歸因自動化定位故障自動化恢復本上做這麼一件事情這是一個第一篇公開發表的這麼一個論文它裡面應該它也會你會發現如果我們要到這個集群規模我們的算法需要跟Infra一起做Design這是我們現在很經常說的算法Infra的Codesign會叫算法系統的Codesign甚至會有一些叫我們現在街躍他們已經在做了我記得是祥宇還是誰分享過他們會做算法和數據的codedesign以及數據和info的codedesign因為街躍在做東方太多訓練也就是說這個時候他就會需要很富的人才這個人需要懂算法也要懂工程甚至要懂數據他才能codedesign這樣團隊又很少就是比较典型的硅谷团队四项团队然后deepsix团队所以他能够在这个事情上拿到很多的收益也有可能我们从deepsix的训练来看他的30卡可能就是能够相当于meta的2万卡的效果是能达到这种水平的或者也说明硅谷在不停的砸钱的时候他们在忽视一些其实可以提高效率的一些方法那中国卡比较少嘛那中国就会更关注这个事情逼迫你创新对资源不足OK好这是我们Infra的部分那下面我们就来到语言模型的发展的部分你刚才说算法Infra空Design在DeepSeek之前的工作里有体现吗有你去看DeepSync的那個V3的論文你會發現說因為DeepSync的卡是H80嘛它的特點是那個帶寬比較窄所以呢帶寬很窄的時候如果你要做張量並行就是你要把模型傳過去他就不能傳很多對不對比如說假如我貸款只有80G假如我要傳的模型有20G我就只能傳4個卡我想傳5個卡就堵住了那這個時候呢他們做了一個很好的design他們的張量他們的並行就正好貼著H80的限制我現在有點不記得具體細節了大概是一個模型切了四張卡他就設計好,因為他的硬件就只能切四張卡,就設計好了,所以他就沒有他實現了他實現了幾乎的計算和通信的平衡就是计算不需要等通信什么意思就是说计算是我把一个数拿进来进行计算通信是我把这些数再放回去或者传给别人它设计的很好的时候我就不需要等比如说我在我计算的那段时间就可以完成传输然后传计算一结束传输也好了下一次计算再传输它能很平衡如果你这个扣定量不好的话我算完了还没传完呢我就要等对吧GPU的那个计算单元就要等传输单元那計算單元就會空置就會浪費那傳輸完傳完了以後我才能夠計算或者說傳輸單元等計算單元我這邊傳輸還在卡住傳輸已經傳完了計算還在算那我就只能等它算完我才能把這個數據放到這個計算單元裡面再進行計算所以這個做得好的話是可以的還更飽和地使用你的計算資源對更飽和地使用你的計算資源更飽和地使用你的貸款資源沒有浪費我們現在的训练里面MFU就是那个GPU的使用占那个消耗率只有50%甚至不到也就是说有50%的GPU的算力其实是被控制的没有被使用到而且50%已经接近50%已经是一个非常非常好的时间了有很多还是有很多资产资源其实被浪费的那理论上讲如果我们能够把它做10%那我们就可以少有一半的卡好,我们下面来讲语言模型的发展的部分语言模型发展的第一篇论文叫War2Vac他在做点什么事情呢就是说他用机器学习的方法将单词向量化了我们先介绍一下当时的历史背景就是在过去的人们的认知里单词是语言的最小单元我们现在已经不那么想了我们现在已经偷看了那个时候我们还认为是单词那我们觉得我们把单词的语意搞清楚对于理解句子的含义的话非常非常的重要所以呢我们那就试图说寻找单词在向量空间里面更好的表示當然這次其實我們現在回過頭來看這是一段歧途這裡面就包含了很多人的理解包含很多人的這是我們人類認識世界的方式我們靠單詞的但其實有更好的方式然後呢但是在這個時間之前大家都把單詞視為孤立的原子他們之間表示的並沒有語意聯繫還是那句話我今天用蘋果手機買了一個蘋果這個時候蘋果手機的蘋果和蘋果那個蘋果其實不是一個語意所以如果我們把它孤立的社會原則他們就只有一個意思就是蘋果這個意思如果我們有機會把他們像樣化他們可以是手機內空間裡面一個蘋果品牌和水果裡面的一個蘋果那個水果它就不是一個像樣如果我们只是苹果这些词儿,它其实就没有语义联系,它就像一个简索,索引一样,对吧?
[143:17]
它不包含语义,那整个Word2Vex想法,或者那个时候我们就希望说,让苹果这个单词包含一些语义,能够产生语义的区分,那这个过程叫embedding,不完全严谨,但是过去我们曾经想用一些神经网络的方法,試圖去捕獲語意的一個表示而且我們希望這個表示是連續的連續就意味著他們可以被我們後面講這個連續的意思他們已經找到了然後就說神經網絡來找到語意的表示之後計算複雜度很大然後呢但即便如此人們也發現單詞向量如果能找到一個表示,那個表示是一個向量的話可以顯著改進很多NLP領域的下游任務所以它具備很高研究價值什麼意思就是說如果我能把一個單詞向量化我是能改善搜索結果的就是我搜索苹果如果只是这个词进去那就插字点插词表但如果是手机那个苹果那个那个项量进去我就插手机的那个苹果我水果的苹果就插水果的苹果他插的东西是不一样的所以人们就有很强的动力去寻找一个关于单词的项量表示希望它是连续的什么叫连续呢Wordofmouth里面找到一种项量表示他会发现项链是一个你可以理解为是一个射线对吧是一个带有箭头的一个射线那項量是可以加減的那king這個項量減掉man這個詞的項量再加上woman它就離那個queen女王那個項量就很近很近這挺有意思的對吧我們這就叫連續表示他們是連續的這篇工作就找到了一種單詞連續對且包含寓意的表示它甚至还可以把比如说意大利的意大利减罗马然后呢然后在意大利的首都是罗马对吧意大利减罗马等于法国减巴黎大概这意思它就相当于会有一个项量空间那空间是说这个国家的首都可能是一个项量这个概念是一个项量那个项量是可以被减出来的意大利减到罗马法国减到巴黎他们是很接近的然后如果你得到这种项链你拿去训练你的神奇网络做神奇网络初始化或者拿去直接做一下NLP任务能够大幅改善这个任务的效果拿去做搜索是有很大的收益的所以这个工作也是当时这个作者是在搜索在Google里面做出来的他的一作叫Thomas二作就是Jeffery所以这个wordrex是我们第一次尝试用机器学习的方法把单词项量化它就是后面我们你看我们transforming里面其实有一个环节是要embeddingembedding就是我们要把一个词一个token变成一个项量那个过程叫embedding只不过我们现在的embeddingembedding什么东西都是模型自己学习的了但过去这个embedding是我们提前学好的就是wordpress提前學好的蘋果可能就有那麼幾個項量這學好就放那你拿去用就好了這個是手工標註出來的它是包含就是人類視角下的人類的視角之下的一種積極學習的結果它學習的是詞它embedding對象是它項量化對象是單詞我們現在項量化對象已經是token了然後單詞變成token又是一個過程你会发现整个token比如说GBT4这样的模型它的token的量在10万个token左右你所有的文字加在一起就只有10万个token所以token其实比文字要少的token是一个非常不包含语义很抽象的东西然后token是模型识别的颗粒度所以不是有很经典的很经典测试嘛就是说你测那个stormboard有几个r对吧模型总是测不清楚原因很简单因为模型认识是token只有人能够认识字母模型是不认识字母你训练他的时候他根本就不知道什么叫字母他是没有一个token叫r的比如说他可能有个token叫ry有个token叫store但是可能是两个token合在一起的那这个里面有那个有专门的工具网上有这样的工具你可以去把一个你的字母你的单词或者那个英文输进去他就把那个token给你算出来他就会编号我们现在过程是把单词变成tokentoken是有数的有限的然后再把token变成向量向量他们之间有什么表述是自己学会的所以有可能现在空间里面苹果就会取得更多的语义O1之前的秘密代号就是strawberry是的好我们后面再讲一篇论文现在是Google搜索的论文这是一篇这是一个偏工程性的那么一个工作它是一个第一次神经网络的大规模现场部署这篇论文的作者是吴永辉他是GoogleFellow之前也是GeminiPoaching的负责人永辉现在是字节的SEED的负责人整个字节的域群的负责人然后还有一个作者是Corkley然后还有作者是Oriel和Jeffrey所以你可以看到他们之前是一个team里面一起合作论文的是非常熟悉的然后对Transformer因为Transformer那种论文也是做翻译的Transformer在引用的时候也有引用这篇工作并且和它比较在Transformer出来之前这篇是翻译界的工业界的Sota然后他的意思背景就比较简单在过去在googletranslator新的translator之前主流的机器翻译技术是基于统计的我们刚才讲到在secondtosecond里面讲到14年之前所有的方法都基于统计的14年以后开始有神经网络的方法但是都还是学术界工业界还在用基于统计的方法實際生產環境中肯定是說大家那時候也已經意識到肯定是神經網絡方法更好但實際生產環境中基於神經網絡的NMT在準確上一度是不如基於短乙和統計的方法的它的訓練推理速度比較慢然後處理一些比較偏門的詞彙的效果不好同時也不太能夠翻譯所有語言劇中的詞彙它其實是有些短板的這篇論文的核心貢獻就是把学术界里面已经被验证是work的神经网络的范式在工业界里面走通了引领了工业场景中的翻译的范式转移也就诞生了我们现在在用的GoogleTranslate我觉得再过两年我们可能就会看到一个基于大语言模型的翻译系统现在豆包不都已经可以实现了对但是谷歌签可以的还是继续通还是继续申请网络的还不是继续用我觉得对所以但是贵便宜啊因为你现在我看我自己每每个月通过翻译调用token我以前买曾经是翻译会员的时候一个月的成本是70块钱我后来呢deepseek2.5以后我用deepseek2.5大概一个月变变成10块钱我后来用多宝的light我现在一个月翻译的token成本只用花了两三块钱了你可以看到其实在降低了然后对他构建了一个生产级的神经网络的翻译系统把这些问题都解决了然后你会发现说这个工程里面大量的采用了学术界的最新成果他用了resnet用了encoderdecoder结构用了序列对序列的建模用了作业机制他也用了低精度我们现在的激增度计算Fp8这样的计算他那时候已经开始用了数据变形模型变形都用了是工程领域的集大成者这也是永辉这个作者和这个科学家的特点永辉是从工程现象上走上来的一个科学家他工程能力很强他团队的工程能力很强他和库克利就不太一样库克利是科学家出身库克利更多是算法能力更强然後你的工程你肯定沒有那麼好所以這個是永輝在Google的代表作他就是靠這邊做的和後續的工作一路升升升後來升到VP的哦是在工業界找了一個場景對他工業有一個現成的場景他把他學術的問題那些bug都解掉了並且進行了大規模的穩定的部署所以他其實就是一個很好的體現了這個團隊很強的工程能力如果你去問他跟永輝合作過的人他都會反饋永輝是一個永輝和他團隊的工程能力很強的所以他挺適合自己的是嗎挺適合的而且就是你會發現工程能力很強的一撥人呢就不太會跟那種只會做算法不太會工程的人就很難有特別好的融合是嗎對因為他就是算法的人會覺得說你們就做實現了嘛你們就幹活了嘛那工程人會覺得說沒有我們你根本就實現不出來這個有鄙視鏈嗎我覺得這不算彼此熟練但是可能還是有些文化上不融合吧這就是我當時灣區鬼谷那個谷谷街賣的灣區和街賣的倫敦那邊的一個不融合的一個原因他們還有時差所以街賣有部份內幕的段子說街賣其實是一個對吧你看是一個失敗的名字因為雙子星嘛就沒有雙子星意味著沒有融合確實是雙子星嘛對好那我們到了2018年GBT系列的模型就來了我们先看到是GPT-1它GPT-1的论文的标题叫做improvinglanguageunderstandingbygenerativepre-training它就提出了生成式域训链的概念它也就是GPT的次要来源当时背景是说深度学习的模型在多个NLP上取得进展对吧我们说的翻译然后其实他们在那个语音识别也取得很好进展然后在在网信填空在一些判决类任务里面也取得很好进展但是呢这些模型都依赖专门的数据和专门的训练非常耗时非常耗资源然后呢这个这个模型用的使用范围是不能够扩展的而且会有些领域没有标注那这种方法还不OK那从我们现在的视角来看吧或者以那时候102来看这个事情就非常的不AGI啊这个就非常不符合审美然后呢CV领域里面一直是有迁移学习的方式的CV预训链其实是在CV领域的CV领域一直有说我来过去做预训链先学习一些通用的知识然后呢再来进行特定数据的微调来去适应一个特定的任务NLP有但不明显所以这个时候你看2018年NLP领域和CV领域都还是差挺多的各有各的方法各有各流派对吧CV领域很早就预训链了然后再微调NLP领域呢Word2Vec我们刚才说的Word2Vec其实是一种预训链但它的预训链是以embedding为核心的一种某种意义上的预训链并没有它这个embedding没有学习到语言本身的规律它只学习到单词本身的规律那大家一定会有人想我们能不能也像CV李云那样学习先学习一个通用知识然后呢只要稍作调整就能够适应不同的任务所以这篇文章的作者是AlexAlex的那个OpenAI里面很著名的一个研究员应该应该在去年的时候今年的时候也离职了然後第二個做的就是那個孫宇的導師他後來去了MIT做學術研究然後還有一個背景就是說大家如果去看伊利亞的視頻伊利亞在2015年的時候就嘗試尋找無監督學習的數學證明並且說他當時獨立發現了它所以他15年他就有一个用无监督学习通过预训链来学习数据中的规律想法然后呢18年的时候GP来了就是transform来了以后他有机会把这个想法实现所以如果我们去看伊利亚视频的话伊利亚专门会讲过说为什么RNN不好为什么transform不好他就说RNN有一个很小的状态空间那个是一个buttonnet如果NN有機會把那個瓶頸去掉他有機會跟transformer一樣好這裡面GPT-1的核心貢獻它是提出了一個NLP領域的一個新的範式就是無監督的預訓鏈加監督微調也就是GPT其實是一個新的範式之前在NLP裡面是沒有這個範式的然后他第一次用通用的数据域训练学到了语言的内在规律当然他们后面发现说我把数据量越搞越大我不但能够学到语言的内在规律我还能学到这个世界的知识我觉得这是后话那个时候他们很确定说我们用比较大的数据量是能够学到语言的规律的他们也应该相信我们是可以学到更多世界知识的现在因为我有很多学到很多知识我就可以在后期的微调中更好的泛化到下游任务里面去下游任务就是说我要解决那些问题同时它进了一个新的方式就是说它把Transformer里面的encoder去掉了它是一个decodeonly的模型结构然后它的训练loss目标是NestTokenPrediction这是NLP里面应该叫再一次再一次以NestTokenPrediction为训练目标的方式然后这个是这个范式后来成为LLM的主打范式现在说几乎所有的我们数字的语言模型都是拿这个范式来进行训练的当时其实不是的他用的数据集他用了一个书的数据集叫books. corps大概是5GB的训练资料他参数量只有0.1B我们先一先来看他这个非常小的模型他是开创一个新的范式那我們肯定會覺得說GPT-1發了發23然後呢OpenAI一路改革但其實不是的GPT-1出來以後很快就會垂了2018年Google出來一個模型叫BERT很多做心路學習的同學很熟悉這個模型就是GPT剛出來混被BERT垂了一遍BERT繼承了GPT的這個範式就是預訓練加微調同時呢它學了一個雙向表示它其實就是在學環境填空然後它就學我們一句話把中間的這些詞摳掉然後讓這個模型根據句子的前後的詞來推斷這個空的裡面是啥這個時候這個模型是能看到前面的句子也能看到後面的句子它能夠建模的信息更多所以它的学习能力在规模没有那么大时其实更强或者说在语言学习这件事情上BERT其实是更强的体现在它能用更小的模型实现更好的结果所以这个时候BERT性能更强大BERT是BERT的一个基本版是0.1B跟GBD1是差不多一样大的它的一个大的版本是0.34BBERT一发出来就是横扫了几乎所有的那个测试把榜都刷了一遍,然后GPT就已经属于不太行了然后呢他提出他通常还提出了一个nextsentence的prediction这现在已经没有人提了然后而且啊我们可以从那个Bert的作者的论文里面可以引用一个当时Bert对GPT的评价他们说原话是在OpenAI的GPT里面作者使用了一个从左到右的架构这种架构里每个token只能在transformer的自助力层中关注先前的token这种限制对于句子级的任务来说是次优的并且在将基于微调的方法应用于诸如问答之类的标记级的任务时可能非常有害因为在这种任务中从两个方向都融入创造文是至关重要的如果我们的历史停留在这个时刻那就没有OpenAI什么事了它既不是一个SOTA的模型也不是一个SOTA的方法所以实际上在GBT-3出来以前甚至是在ChartGBT出来之前BERT都是主导整个NLP领域的模型办事这个领域这个模型学的不是NextTokenPrediction它学的就是一个完全监控这个时候就体现OpenAI和Iliad信仰的时刻到了他们并没有转向BERT的方式他们选择了坚持他们自己的方式怎么办呢这两种方式的本质差异是什么他的你看啊BERT不是一个你看一下那个资料BERT是一个ENCODEDECODE的一个模型我记得是杨顺宇其实在博客里有讲过这一段他说他刚开始很快就意识到不能用Bridge进行训练因为Bridge的定义都是简单任务它在那种问答之类的这种任务上面它能够比GPT有更好的表现是的但是对于开放的问题对于更复杂的问题它的表现就不如GPT对核心是这样的就是GPT的训练方法它是一种叫做大型的影视的多任务学习如果它只是预测下一个token的话它是一種更複雜的學習方式它能夠在更複雜的任務裡面通過多種多樣的更複雜的任務學到這個世界的規律所以它開放性其實更強但是開放性更強是有前提的它需要更多的數據和更大程度規模Bot沒有那麼強開放性Bot就是一個很好的把語言進行建模的一個模型你可以理解為如果我們只是把AI限制在語言這個領域BERT仍然是一個很好表現的模型我們現在用到的很多的embedding模型都還是BERT但是TPT的好處在於說它能夠泛化到語言以外因為它進行了一個叫大型的多任務的學習它能夠學到一些規律比如說我怎麼舉例子对杨树荫你做的是agent我知道我怎么举一个大型的多任务学习如果我们让模型学习训练很多数学的数学或者编程的那些数据那它可能就只会就可能只學會了數學家庭法對吧那他如果去他如果就要學數學他要他他如果只預測數學的next下一個token那他可能就只會學會數學他他如果要預期去預測數學的下一個token他正要預測一個地理問題下一個token的時候他可能就被迫去學到關於這個世界更本質知識比如說我可以用數學的方法來計算那個行星的軌跡對吧那他如果你讓他只學數學他可能就只會學會數學那如果你讓他既預測數學的加以頭梗也要預測行星的軌跡他可能就最終會學會天體的運動的規律他把這兩個人結合在一起然後他會學到更深刻的規律這只是一種解釋這東西其實到現在為止也沒有共識如果我們去看這個領域可以去看一些JasonWei的和一些反正OpenEye的一些研究員他們會再出來分享講這件事情就講我現在特別深是今年你那個DBSIC出來的時候其實Kimi也發了1.5然後Kimi發了1.5那個模型因為DeepSake的原因沒有受到太多關注但是當時Kimi有個小哥他是那個1.5的作者他就出來說他們怎麼想到怎麼破解O1的他們看到O1已經做了然後小哥發現說O1發了以後OpenEye的人release了兩個視頻一個是我之前說的那個Brown那個視頻另外一個是一個韓國人叫那個韓國人那個人的視頻的分享的名字就叫Don'tTeachIncentivize那個韓國人叫黃鴻聰那個那個韓國人對那個還挺有名的當時那個Kimi那個小哥就找了這兩個視頻他說他把這些視頻一幀一幀地看然後突然意識到就是OpenAI在寻找一种更好的scale的方法他大概就讲了他们怎么去hackOpenAI的O1怎么做的然后这两个视频我都看了两个视频我就讲了都特别好通过teach那个分享他就会讲这是一个本身是一个大型的多动作学习我们他会逼迫语言逼迫这个模型去学会一些尽可能通用的技巧和知识因为只有通用的技巧和知识才能够解决所有问题专用领域的技巧和知识可能只能够解决一些单独领域的问题那BERT其实并没有这个特点我看嘉怡在我博客里面好像讲过这个就是当时是她读的DPC和K1.5的论文嘉怡那个我有点不太记得了就是年初DPC刚出的时候对那个时候我有听对我还是在我記得他當時講了你說的這篇paper不是paper就是這個分享對這個分享他提到對這個分享還是很值得大家去看的對所以在那個時候在2018年的時候BERT是一個更主導的方式是一個更強的東西所以當時的很多研究員和學術界工業界都轉向了BERT只有OpenAI還在堅持他們的GPT他的方式GPT1有一個問題就是预训练和微调的范式就意味着模型没有本质上去学会世界知识他是一种狭窄专家一个通用的专家他应该不需要去专门去学一个东西了专门去进行训练了他只需要被启发被引导被一些prompt他就可以适应很多下游的任务所以OpenAI猜测说有可能是因为他们数据局过于单一导致的因为GPT-1的数据机是一个书为主的数据机且数据比较小只有5个GB然后第二点就是当时OpenAI甚至伊利亚他们是非常相信在一个足够大和足够具备多样性的数据集散进行下一个token的预测也就是说这是一种无监督的多动物学习Transformers能够学到语言本身的丰富规律並且對它建模的就他們相信只要他們的數據規模足夠大模型規模足夠大Transformer有能力對語言進行建模且建得跟BERT一樣好就那個時候他挑戰就是說BERT對語言建模建得比較好所以他們訓練了一個1.5B的Transformer模型比之前的模型大了10倍不大了10倍大15倍然后他的数据他通过爬Reddit构建了一个具备多样性的网络数据集他把它叫WebText他爬Reddit的过程就是把Reddit里面点赞数量应该超过三的都留下来了点赞数量很低的去掉他爬了一个Reddit里面数量质量比较高的那么一个数据集有点像中国的百度贴吧或者他把豆瓣的评论区给爬了下来因为他认为这样的数据集有足够多的多样性比较广泛然后他把你看在这个事情上他的模型大了10倍他的数据也大了几乎10倍然后去了GPC2然后他们发现GPC2无需进行任何相关的微调或者架构修改就可以直接放好到不同的NLP任务上所以他们把它叫做zeroshort,因为零样本学习这个概念也是那个GBT-2第一次提出来的所以他这篇论文的标题叫做languagemodelunsupervisedmultitasklearners语言模型是无监督的多任务学习者他就主要講這個那我們也可以看出來我當時讀那個李默的英文經讀的時候他就講這有可能說當時OpenEye的做完這東西效果還沒有好到足以在所有領域Bert打敗Bert所以他們會找到一些他們的特點但確實就給他們很大很大正反饋他們的模型開始具備一些通用專家的特征因為他不需要微調了他們就開始往下走走到了GPT-3那這次的論文的作者就包含了Alec之前第一篇GPT-1的時候作者的Alec然後這個時候Daryl就是那個Anthropy的創始人Daryl就加入進來了然後這時候Iliad在他們甚至在這篇論文的致謝中感謝Nome有可能這幫人又去找Nome請求了一下傳統文本結構之類的那個時候Nome還在Google還沒出來好那我們到了你看GPT-2是2019年GPT-3是20年的5月份也就是他們做了這個他們做完這個模型以後就開始馬不停蹄的做GPT-3最早他們做GPT-3的時候發現很大的變化最早的時候OpenAI是一個非營利組織是很純粹非營利組織它在2019年的3月也就是說GPT-2發布後的一個月SAM推動成立了一個新的公司新的就是OpenAI有限營利的公司然後在2019年7月微軟向這個公司注資了1美金并且提供云计算支持这个时候我们去导一下你的英法论文这个时候已经具备那个deepspeed开源的那个能力了然后他的各种各样的英法工作有了成果所以你会发现从这个蛛丝马迹现象中你能感觉到他们是想scale的他们发现他们scale到GPT-2的时候他们的资源不足以支持他们scale了所以他們改了公司結構他們去拿更多錢對待更多的人GPT-1和GPT-2這兩篇論文作者的數量都很少都是6到8個作者就相當於是一個偏研究性質的工作到了GPT-3作者數量爆炸變成了40多個外星人同事就是上了很大一個這是一個團隊作戰了也擴張了不他們收縮了他們收縮方向了就是GPT-2论文作者有6位然后GPT-3论文作者31位然后加入了数据工程Infra评估等各个角色OpenAI显著在GPT-3这个事情上是增加了资源投入的他们bet了这个方向对他们把这个GPT-3视为一个大型的工程项目而不是一个研究工作的开展也就是说他们不但bet他们已经坚信这个方向了还开加资源了他为了加这个资源调整了他的组织结构有趣他们在GPT-2之后看到了什么迹象我覺得他們肯定看到什麼東西我們不知道我們去還原你看他幹完GPTR的時候他就開始挑戰組織後面他開始19年到20年期間他把很多團隊都砍了包括什麼玩魔方的玩遊戲的強化學團隊都砍了所有的人就賭一個方向砸人砸錢收拾方向就賭一個東西然後我們去看這個基本上工作裡面他們已經開始用Scalarlaw來預測和來指導模型的收放決策所以那個時候他們已經堅信所以那個時候他們已經堅信Scalarlaw他們也開始用Scalarlaw對吧所以你看那時候你能感覺到很多要素在具備然後他們開始有信心了他們一定是在GPT-2的Scaling工作中識別到一些很重要的信號開始調整組織調整策略進行了一個非常堅決的投入這是我們我們從事後的把它的行為裡面觀察到他們的調整是很堅決的是很主動的GPT-3不是一個偶然的發現GPT-1和GPT-2有點偶然的意思當時可能很多組在搞這些事情GPT-3是一個很確定的事情對姚生也說他的導師是GPT-1的作者雖然他是GPT-1的作者但是他並不很艰辛并不艰辛这个事情是我也听到了所以你看这些就非常有意思就即使在那个时候OpenAI里面也不是每个人都信的事情哪怕你是作者也不信哪怕你是个项目组里的人对然后但是有几个人信肯定是那很核心的几个人信伊利亚伊利亚肯定是信的Sam肯定也信因为他就搞钱了或者说至少伊利亚说服了Sam对吧有人性搞多少錢allin他也能說服其他人哪怕是他可能說服也好逼迫也罷他的組織能力有能力讓他集中資源投到一件事上所以我們看到GPT-3它scale了多大看一下它把整個模型規模scale了10倍數據規模scale了它的GPT它的數據規模是570GBGPT-1是一個GPT-1是18年發的參數量是1.7億有12成它的數據量是5G然後GPT-2是19年發的參數量15億大了10倍多一點成數變成48成然後數據量變成了40GGPT-320年發布1750億漲了10多倍然後成數變成96成他用了他這時候他用了commoncore就是我們說的那個FindWeb裡面用那個數據以及Line5B用那個數據它開始用那個大規模的互聯網的歷史數據以及ChromeCore進行了清洗那這個時候它就需要它為什麼需要數據團隊它需要團隊因為清洗ChromeCore是一個很細緻的工作它沒有團隊它清洗不了的或者說它就是因為它要擴展它的數據它才組成這樣團隊那它開始有評估團隊說明它需要做實驗他開始有info團隊說明他要把更多卡連在一起我們現在我好像記得當時他們用了好像用了三千卡連在一起好像是這樣的肯定是三千卡的這麼一個規模的那個級別的東西了他們有了commoncore他們放了books也放了wiki他做了一個scale然後呢他的核心的想法當時伊利亞說過他說人類並不需要大量的監督數據就能夠學習語言任務最多需要少量的實力就人不是這樣的就很多時候你看研究員他去研究AI的時候他很多時候他會退回人怎麼看包括打撲克的時候他發現人打完撲克是會思考的他還去做testtime的scaling但你又很難講這東西其實因為這是一種先驗對吧這事情雖然說解決了很多問題但看上去又沒有那麼完美的AGI但他们也是通过这样的不停往前迭代GPC2试图通过上下文学习来实现这种对语言的彻底理解且体现出潜力但整个微调但相比微调的效果还是比较差OpenEye那时候应该已经注意到了就随着Transformer的参数量提升上下文的学习能力可能会随着模型的扩大呈现出同样显著的提升这个是Skyrimlore里面说的所以你看我覺得那時候有可能ScanLoad這個工作對OpenAI的影響也是很大的讓他相信一些事情否則你很難解釋他為什麼他突然把模型放大了10倍因為他之前都放大10倍他10倍放大10倍然後這個時候OpenAI組織非常充分的工程資源它重新清洗了數據,你commoncore它現在搞不定,它現在搞定了,然後解決了大規模的GPU的並行訓練的問題,訓練了一個1750C參數的模型,驗證了SkeltonLaw,得到了很強的上下文學性能力。我們說的上下文學性,就是說它只需要通過背景信息,也通過一些context,它就能夠學會這個任務,而不需要重新訓練模型。比如说假设我们作为一个人让你去做完全填空我只要告诉你规则哪怕我用一页子的规则来告诉你完全填空怎么做你就会学会了对吧我再做一个猜谜的题目你也会学会你并不需要重新学习你只需要学习规则这个东西对于模型来说就是上下文学系然后当然了我们以后面的观点来看GPC3这个模型的训练是不充分的它的数据和参数规模没有同比例的扩张所以也导致后来OpenAI在不停的压它的参数规模然后GP3这个工作带来的一个很大的很大的范式的改变就是我们可以用只用上下文学系的方式也就是我们只需要改prompt给一些任务的描述和范例就能够引导模型执行特定的任务这个范式其实现在还在指导我们的工作只不过它现在已经进化成了contextengineering那这篇文章的作者就很多了那几个代表性作者Alex还在里面一座一直在里面然后Daryl在里面Ilya还在里面这个是GBT-3来了Alex现在还在OpenAI吗Alex已经不在了我记得是Alex走了苏门也走了姜苏门也走了这两个是比较重要的人然后到了20年有一个其实也是非常重要的工作叫instructuregpt也就是说我们那时候只是用培训的方式训了一个很强的模型gpt3和chartgpt之间的区隔有那么几步关键几步他们中间训了一堆code他们用gpt3加训了一些code的数据之后就是instructuregptgpt3如果单独使用的时候有很多新的問題就是會生成大量的不真實的有毒的,比如說就他們認為這政治不正確,有毒害的或者無助於用戶的任務的輸出然後呢指定遵循能力也很差這些問題並沒有隨著scaling改善而改善它已經從GDP1的0.1個幣scaling到scaling了1萬倍了也沒有徹底改善我們發現這些模型和人類用戶的意圖不一致沒有和人類徹底對齊GPC-3在字面完成任務上很強但無法理解用戶真正的那些意圖GPC-3是不會拒絕有害人物的然後它也不會澄清模糊的需求總而言之那個時候的模型其實不好用很强大但不好用是那个时候GDP大家的感受然后他们在20年时候做了一个非常非常重要的工作这工作的一座叫欧阳龙也是一个华人然后二座还有一个座是江苏曼江苏曼就是OpenAI里面的一个强化学习很强的人他也是PPO的作者他是第一个在语言模型领域把强化学习搞work那么一个人同时这个工作里面还有一个GPT的超级队集团队在里面参与然后你会发现这个很有意思欧阳龙应该有个弟弟叫欧阳健他弟弟同時是這個論文裏面那些contractor他這個論文他特意提了他們僱了40幾個合同工來幫他們構建他們所需要的數據他們在字線裏面還把那40個合同工的名字給列了一遍非常有意思然後他這個論文的核心工作是他提出了一個叫做基於人類反饋強化學習然後簡單來講他把TPG3做了一次SFT然後呢做了一個然後他受了一個委託的磨肉SFT的數據就是那些合同工構建的數量不大我忘了應該是大幾千這個量級然後同時他讓那個合同工給他構建了很多排序類的數據就是比如說模型輸出的他给这个结果打分打好吃好优良中差打这样的分他通过这样的方式呢他就会拿到很多优劣对因为我优良中差里面我是可以量量取数得到一个好和不好的结果的好和不好的倾向的会有一个哪个好哪个更好哪个不好一点那我就我得到C42个这样的结果这个结果的数量能够能够把这个信号的数量放大一个两个量级因为他们搞了很多这样的排序类的啊标注数据啊这种标注数据呢更容易获得也更容易扩展他们用这个构建了一个rewardmodel同时拿这个来作为一个强化学习就拿这个作为rewardmodel来作为强化学习让模型去学会人类的倾向或者意图嗯就是在会我们会有很多领域我们构建不出来或者现在我们构建不出来一个很明确的对错的那个奖励信号它就需要手工来去构建奖励信号在数学和编程领域里面我们可以构建那还有很多其他领域我们现在是无法构建的然后通过这个instructuregp这个过程模型学会了如何响应指令这个是通过sft来得到的还学会了根据人的喜好来调整他的行为生成一个更符合期望输出他们这个工作结果好到什么程度呢他发现1.3B的GBT-3在经过这种方法的调整以后在遵循指令方面比1750亿参数的GBT-3还要好也就是说模型参数量缩小10倍它都能会变得更好不好意思是缩小10倍是175B然后这个事情其实还是引起了很大的对行业很大冲击的你们会发现说我们除了单纯扩大模型以外强化优化训练方法优化这其实就是早期的potion了优化potion的方法对这个东西的提升其实非常非常大那早期只有GBT只有OpenAI这些人经历了这件事情我猜有些人发现了模型的强大的潜力這篇論文的前後,Darryl就離職了,去創業做了Anthropic,然後我覺得這是一個很成見起伏的工作,這個東西讓大家意識到AI離一個理想中的助手近了很多很多,因為GPT-3的時候你是沒法把它跟一個助手連接起來的,但是insideGPT以後它幾乎就是一個很標準的助手了所以我猜在OpenAI內部很多人已經看到這個強烈的變化了這個是GPT的序幕然後語言模型演繹還有一篇論文或者一個模型值得大家看一下叫突入3這個是背景是說大概到了你想到了204年的時候整個業界就已經意識到Posting很重要了但是呢Posting是一個比Posting還避免的事情沒有人講Posting怎麼做只有OpenAI會Posting唯一一個被公開的比較知名的工作就是剛才那個Intra-GPT那個Allen那個人工智能研究所這個Allen人工智能研究所在夏圖是那個微軟的co-founderAllen資助的所以他们推出了一个图录3,这是一个拿拉玛新的拉玛3.1来做的posechain的那么一个模型家族他在这个整个论文里面公开了他不但公开模型权重他公开了整个后续的所有的流程数据代码配方全部公开然後他會發現說他拿這個訊完以後他在結果上超過了那個比藍寶三藥訊的好比QM2.5藥好比Misture還要好也會和那個GBT的4O能夠可以比這是一個大家如果想了解這個後訓練的這個過程可以去看那麼一個材料然後呢他的作者這一作叫Nason這個人是他是一个很知名的一个substack订阅的那么一个作者他大家有兴趣的话可以看到这个通讯还是也蛮知名的一个订阅通讯OK那语言模型就是那么多我们进到多模态模型的阶段好这个图是一个概览多模态模型发展的一个概览多模块模型我们还是从李飞飞团队的那个工作开始2014年的时候安卓出出茅庐做了一个工作因为李飞飞团队其实很大程度上构建了ebnet并且影响了整个成都学习的范式所以那个时候就大家会想对吧如果圖像可以被深度學習解決那視頻是不是也可以呢視頻當然跟圖像一樣在此之前也是被手工特徵的方式所做到視頻和圖像沒差那麼大是不是可以用深度學習做就像我們傳統風格有了以後很多人會用傳統風格把所有的領域都做一遍视觉,语言,声音都做一遍,包括自动驾驶也是用全智通做了一遍那深度学习来了之后他也会想能不能把深度学习在所有领域里面都统一起来从实际角度来看,如果我们想做一个深度学习就是里面的视觉的事情视频的事情我们需要一个很大数据集搞数据集那就是李飞飞团队说很熟悉和很擅长的所以他们就搞了一个很大的视频的数据集并且设了这么一个模型我们简单介绍一下视频和图像有什么核心区别从计算角度来看视频的计算量远远比图像大因為一秒鐘的視頻至少是24幀的圖像然後這個對於模型訓練是有挑戰的同時視頻的信息的信號或者是信照比要比圖像要差一些因為你想一秒鐘視頻有24幀那一幀和第一幀和第二幀之間的信息差其實很小的所以很多的視頻的處理方法會抽幀間隔性的抽一些拿去做視頻理解那他这个工作的核心贡献是他构建了一个大数据集这是当时最大的数据集他搞了10万个YouTube的视频分类然后呢用了他用了一个imagenet预训练好的CNA模型作为学习基础你看在这个时候CV领域就有很强的预训链的这个范式在里面他先学imagenet的图像再去做迁移学习去写视频的分类然后他在里面还探讨了不同的融合方式因为整个视频的融合是因为我们要学习一个表征嘛像刚才我们说的特朗普这个词和特朗普这个图片以及特朗普这段视频我们希望能够学到一些表征那这些表征在我学的这些比如说我的文字和我这个视频是在一开始就embedding以后就在一起迅更早地融合在一起迅还是各自在各自领域迅到一定结果以后再融合是有不一样的影响的那多模特領域什麼時候融合一直是一個到現在為止也沒有收斂的一個事情有些人會希望理論上講更早的融合天花板更高我們人類是更早的融合的對吧我一說特朗普就是曾經有人做過研究就是一說特朗普就會激活多模特模型裡面關於特朗普這個圖像的很多參數是作战研究的那本身来讲人是能够一开始就能激活这些参数的那早融合一定天花板比较高但是早融合挑战很大我记得节约祥宇那边他上次应该分享过他们是希望早融合的更早去融合他也说了他第一次做更早融合之后其实应该是有很大的挑战也有些失败那他们还坚持这个方向那会有一些人在更晚去融合在比方于一个模型挂在另外一个模型上面這樣就會更容易處理現在工程上那可能效果會比較差這個時候你會發現10年前多麼大領域就要討論什麼時候融合10年以後他們還要討論這麼融合的問題說明融合還是一個很大的挑戰然後簡單介紹一下這幾個人作者AndrewKapasi他當時還是李飛老師的博士生他後來是他是OpenAI的創始成員之一後來從OpenAI離開被馬斯克挖到特斯拉去做特斯拉的AI總監因為特斯拉也是OpenAI的創始人說實話後來被踢出去了所以Andrew是做視覺出身的是他主導了在特斯拉裡面用Transformer來做視覺處理当时特斯拉的那个BEV包括它的那个那些后面的那些它应该是19年吧我忘了是18年才19年他们就很早地用transformer来做了国内国内也有团队我有点忘了是哪个团队了好像是小鹏19年时候应该也注意到了当时吴兴都好像也注意到了transformer的那个影响他们也开始用那个transformer来做视觉做纯视觉的自动驾驶方案对所以在早之前其实那个自动驾驶是用CNN做的全职工作出来以后就尝试用全职工作做包括那个对OpenAI那个占用网络就是用全职工作做的然后他后来又离开了特斯拉又到了全职OpenAI一段时间大概一年多后来又离开了对所以AndrejKvasic现在是一个是一个教育家对他在网上发很多介绍语言模型的视频讲得非常好然后李飞飞对李飞飞老师是斯坦福的教授是imageNet的主要推动者他后来还担任过谷狗云的首席科学家他现在应该做他的空间视频理解那个模型然后这个工作deepvideo这个工作呢实际上只是用深度学习做了一下视频并没有做得很好我们举个例子他留了一个bug就是他發現他這個東西看視頻和看一幀一幀的單幀的模型相比改進幅度並不大什麼意思呢就說我看一個視頻我判斷這個什麼運動和我看裡面的一幀來判斷是什麼運動它的改進幅度只是從正確率從59.3%正確率提高了60.9%只提高了1.6個點就說明說有提升但非常弱那就说明他其实并没有把这个事情做得非常的好他只是用了深度神经网络并没有做出非常好的效果来或者说他做了个图像识别以后没有显著的高于图像识别那下面一个工作就是我们说的Corinne的工作他做了一个叫双流网络那这个时候呢Corinne是牛津的牛津就是我们说的欧洲的另外一个深度学习的学习重镇AndroidCapacity的工作它解决了用深度学习做视频的挑战但是呢效果是比不上最好的受控特征模型的同时呢它的时间流的学习效果并不好就是多帧模型并没有比单帧模型好的很明显这个是当时它最大的问题那Corinne把这个模型把那视频分成两个流一个是时间流也就是說我們第一針第二針或第三針第五針這個時間流不同的切片讓模型去學這個部分同時他做了一個叫光流光流就是因為他的解的問題是一個體育類的運動的識別問題那人比如第一針和第二針我們如果做一個data做一個減法剪出來那個影子就是人挪動的那個影子就像漫畫裡面一個人在飛的一樣它就會有一個很小的影子那個東西叫光流這個裡面就包含了一些運動信息因為視頻的本質是運動的圖像所以它把運動信息給了模型所以過去模型只有能力對空間信息進行建模現在它能夠對空間裡面的運動信息進行建模我们本质上给了模型一个新的原方法就像那个BitLesson里面说的那样它有一个新的原方法那模型的模型的工具变多了那模型就学会了更好学出了更好的能力所以这个双流网络它第一次在视频理解上超过了当时最好的手工特征的模型所以你可以理解为它是这个是视频领域的AlexNet的时刻然后双流架构和融合方式成为多数视频理解的基础框架现在应该还有人在用然后它这个范式影响了后面的大量的视频的分析和深度学习的研究的范式Corinne同时也是AlphaGoZero的作者而且它是同等贡献的一作所以我们可以看到这个作者在多个跨度很大的领域都有很好的贡献好我们来到一个2014年我们来到一个图像生成能力最重要的模型当时最重要的模型干当时我们看我们现在会认为因为我们现在都是生成式模型做得很好现在我们会觉得说生成是更容易的理解更难但是过去人们不是那么想的他們過去人們傾向於認為說生成是一個比理解更難的任務因為從規律上來講我們需要先理解才能生成對吧我要理解一個人體的結構我才能把人體很好的畫出來所以大家就是如果你用人的想法去想的話一定是先理解後生成才能生成明白然後如果所以當時他們也是這麼想的有些任務比如說我們的圖像生成的任務是一個很難的任務但是呢理解任務比如說判別的任務是一個相對容易的封閉的和收斂的任務什麼叫判別呢比如說我看這張照片裡面東西是不是花比我生成一朵花會更容易一些這是當時人們對冒險的理解那就会有人想我有没有可能用一个简单的任务去模拟或者是去训练一个更困难的任务我们在数学里面一直有这样的东西用简单的东西去帮助刻画更复杂的东西从我们的数理变换到definitionmodel到这个game都有这样的特点那就会有人想尝试所以这是一个新的方式可以说是一个开天辟地的方式他把生成的任务建模成一个生成器和判别器做二人联合博弈的系统你看我们在征留的时候有两个角色一个是老师一个是学生那Gan里面也有一个是可以理解为一个是警察一个是一个是一个是叫做盗版画家盜版畫家希望說我盡可能畫一張圖騙過警察的鑒別那警察就盡可能去把這個假話和真話區分開那警察的任務就是判別的任務它是更容易做的所以我可以拿一個比那個假話作家更強一點的警察去逼著那個作家不停地成長直到有一天警察分辨不出來那個作家畫的畫是真還是假那這個時候那個作家就成功了他本身就是用这种方式用判别模型的loss来简化生成模型的训练就是他本身上他就他本身上他把判决模型变成了生成模型的loss去优化的优化方向对吧就是我优化你判决器的那个判决器的那个差这个时候是一个你現在看起來還是挺大海大海的一個思路我不再去訓練一個神經模型了我要訓練倆讓他們互相打然後最後能夠練出來更強的用一個已經解決的問題來幫助解決另外一個問題這是一個非常常見的做法作者叫Goodfellow他通常也被認為是這個主要發明者然後這個作者後來寫書他寫了那個迪布能力那本書我們中國一般叫花書他的那個深度學習那本書的封面都是花然後他是和那個約翠華和那個就在沙洲的他們一起合作的然後GAN主導了這個市場深層性的圖像文生圖的領域主導了大概有5到6年的時間14年到19年底然后呢15年的时候实际上defusion已经发明了已经被发明了它一直活在GAN的阴影下就很像当时GPT活在Bot的阴影下一样我们来看一下就是说在那个时候做的其中一个几件事情就是说机器学习里面有一些很核心的問題我把它這個摘要截出來了這個是那個論文的摘要那作者裏面他講了一個事情叫做機器學習裏面的一個核心問題在於使用高度靈活的概率分布家族來建模複雜的數據機什麽意思呢,就是我想用個簡單的東西來刻劃一個很複雜的東西本质上跟我们用三角函数来三角函数通过弗利变换来刻画一个复杂函数的方法是一样的然后呢同时我们希望保持学习采样推理和评估的分析或计算可行性就我希望这玩意很好算很好训因为三角函数是一个很好计算的函数对吧那就是很多很复杂的函数可能不好计算它甚至没有一些解析解只有数字解我需要用某种考虑方法来进行计算那我用一个很好计算也很简单的概率分布家族来去建模复杂的数据机所以他说这里他说我们开发一个方法同时实现了灵活性和可计算性那最后我们看到那个时候的很多方法的问题就是很多模型要不然它灵活性很强可计算性很差要不然它很好计算,但是刻画复杂数据就能力不够强,那个作者就希望说我们有没有可能在深度生成模型这个领域找到一个既要又要的方法,因为那个时候主要的领域的主要的范式是GAN和VAE,那VAE的好处是说训练很稳定的,但生成样本比较模糊,Gan能生成更熱烈的樣本但訓練很不穩定特別容易崩為啥呢因為他訓練兩模型兩模型之間匹配關係不好警察太強力後就直接把那個小偷摁在地上就摁死了就全部崩了所以到現在還是很難訓但他效果好所以大家就有一群人堅持改進他的易訓練性並且保持他的效果他還在不停的發展然后呢这个作者就希望找到一个更好迅的更稳定迅的同时效果也不差的一个基础模型的结构那就是我们现在所说的fusion它本质上是从那个物理的扩散过程中获得灵感的他就他本身像他先建模了一个迭代的前向扩散过程然后呢相当于他先拿一张图一张花的图逐渐的用一个方法来破坏数据分布中的结构那方法我们现在用的是高次分布可以用很多方法但高次分布高次分布就是我们所学的那个正态分布高次分布是一个像三角函数那样的一个很容易刻画的一个方法你想一个正态分布我们只用定义这根轴和定义它那个θ就可以刻画它了那一個分佈會稍微複雜點,但也不會比得太遠,因為它是一個很優雅的分佈,它還是連續的,連續就意味著可以擋,所以整個過程中是把那個花逐漸的加噪聲,然後最终变成一个白照声的图然后我们学习一个逆向的过程比如说假设我们把一朵花通过一千步加照声的过程变成了一个白照声的彻底的白照声的图那我们学习这个逆过程把数据结构恢复这个过程可以用机器学习方法来学习然后我们就可以得到一个由比如说假设我们这个逆过程也是用高速分布来刻画的那我们就可以得到一个高速分布一千步叠加出来一朵花的一个过程那这个时候呢因为它是高知分布它特别好计算那它效果它用恢复出来它效果也很好那这个时候我们就会得到一个既灵活又易于处理的生成式模型这是它的整个基本的想法然后但这个模型叫depletion在那个时候有很大的问题就是确实很好确实比较好计算但是效果非常差就和概米的比发出来就被冷落了所以这个我当时去看那个作者的blog就很有意思啊就是加西卡他说他自己说加西卡是最不知名的啊不是打括号的啊他最不知名的工作呢是发明扩散模型因为很多人会觉得说呃扩散模型是tdpm那个作者发明的其实不是是这个人发明的然后这个人后来去lansropic啊他之前在googlebrain和deepmind工作然后呢他还曾经在他這個人他的學術背景是加州大學伯克利分校的神經科學的博士學位這個人真的是學神經科學的然後他在工作博士學位之前他搞物理的他從事像火星發射探測器的工作這是一個研究背景非常複合的那麼一個作者他確實受物理過程中的啟發明了這個方法一方面被發明以後沉寂了大概5年時間直到20年才被重新點亮我們來看看把它重新拉回舞台中央的工作你看它叫DiffusingPossibilityModels這是去造的一個它直接是去造的擴散模型20年的時候生成模型主要还是由GAN主导那时候GAN的生成效果已经非常好了我们大家应该听说过一个东西叫deepfake对吧把那些明星换脸的那工作那工作就是用GAN做的那它的特点还是而且GAN的特点是它的模型很小很快GAN是一个比较小的模型训练过程不稳定啊这个问题还是有容易出现坍塌然后还有呢那个时候还有VAE效果不太好比较模糊但训练稳定那个时候20年的时候还有一个比较好的方式是自回归模型也就是我们现在又被重新捡起来的方式就是基于Transformer的方法的模型OpenAI第一个Wally也是自回归模型好处是效果还可以缺点是生成速度非常慢然后呢Diffusion是15年被提出来的因为整个效果不太好不好训,没有那么的好训基本成本很高没有引起广泛的关注然后这个就NASA猴的工作是把Diffusion从一个边缘的方式重新带回到主流了经过它的改进它的训练很稳定效果不比干差所以它就重新成为一个很好用且梭它的模型他做了什么事情呢他简化了模型设计和训练目标之前Deflection模型他是需要直接学习反向过程的那个均值和方差,他要直接去学习或者说直接去学习如何预测去照以后的图像的他要把图像直接预测出来新的這個DDPM改成了我只是預測添加到圖像中的噪聲我把噪聲去掉以後就是下一步圖像他們兩個區別看似很小但他們卻很像那個殘殺網絡我從學習一個完整的過程到學習一個過程的增量好學習很多學習過程就很穩定了同时它用来预测这个噪声的模型的骨干网络它用了unetunet本身就是一个图像里面用来做图像的边缘检测的那么一个网络很适合做噪声的这样的预测经过这两个改进以后以下一天用效果就起来了然后大家发现这东西又好逊效果又好你会发现在短短的两年里面有接近10篇非常重要的工作不停地迭代這個DeflectionModel他原來可能需要10步的降噪後來有人給他改成了10步然後他可能需要他又很他給他加了影空間那效率變得更高所以高分辨度上的時候也更快所以他現在是我們現在比較主導的範式和模型然後作者這個作者後來加入了Google他後來創立了家公司叫EdieGraham那個公司現在他的圖像生產模型還是很主流的我覺得在榜上應該是前五的大部分時間是前三然后他们的指导老师叫PeterAbil这是一个加州大学伯格利分校很著名的教授他是做机器学习和强化学习的这是一个机器人领域很强很优秀的教授他们做了一个在仓库里面捡货的机器人前段时间应该是卖掉了好我们到后面VIT在20年的時候川普已經主導了幾乎所有的NLP領域NLP領域原來是有自己的比如ACL是一個會ICRL是一個會他們就是整個NLP領域可能有那麼幾個會有不同的方式和方法有不同的山頭後來都被川普統一了现在大家都在搞transformer的东西那就会有人想我可不可以把transformer也把图像领域给统一了从图像到视频我们说的CV领域在那个时候CV领域主要还是深圳人在主导的确实有人尝试把注意力和深圳人做一些结合有点像我们之前说的secondtosecond和tension里面给那个RNN加注意力的那个方法然后呢但是这个方法呢因为他注意力是专门的一个结构他不太能够在GPU上进行有效扩展他其实对对硬件来说没有那么友好或者说就没有抽中硬件彩票然后呢在大规模的图像视频里面就经典的resnet的那个CNN架构是最好的那这个时候人们就想我怎么去图像里面用transformer对吧一方面有些人想加注意力有些人想直接用有些人在借用transformer的设计方法在构建一些新的注意力模块但是这些东西都有个缺点就对GPU不友好对GPU不友好有两个意思第一呢它计算方式不太适合GPU的并行计算第二是说在20年的时候Transformer已经发展起来了有很多针对TransformerNLP领域的库那如果CV领域的作者改了他前面的东西他就得不到这些很庞大的库的生态的支持他的训练他可能比如他对那个GPU的压榨性能就没有那么好那这也是一个问题然后我们今天讲到传统生活本质上是一个处理序列并且对其内部规律进行建模的那么一个架构但图片其实不是序列对吧图片是一个二维的东西那且文字语言领域天然是有token的而且token天然是有限的对吧不管是我们英语还是法语还是中文我们词汇量是有限的我们把token换以后token是有限的我们图像领域里面也做不到有限的token所以如果我们想用序列模型来解决图像问题我们就要解决如下几个问题第一我要把它序列化第二我怎么把它token化这个论文的作者在这个事情上做了很大的反创新然后这篇论文的顾问有个叫Jacob的他是transform论文的原作者之一因为他们还是有,他们可以理解为他们在团队里面有一个很好的人,全方位的作者给他们讲,全方位的一些原因,他们做了一个当时看上去很大,你回过头来看有很简单的一个方式创新,如果我们不能让模型适应数据,因为这个模型是处理序列的,数据是二维的,如果模型不能适应数据,那我们就让数据去适应模型,所以这篇文章的标题叫做aimageisworth16plus16words就是一个图像就是等于16x16的一个单词他怎么转换过来的他就把你看我们假设一张图一张图是xy轴的像素对不对他把这些像素直接16每16x16像素拆一块他叫一个patch拆下来直接編好號以後從左到右從上往下這麼一塊取取完以後它不就序列了嗎取完以後它就是一個序列然後給他們編上號讓這些序列之間有位置關係它就直接token化了這個時候本身來講就是很反直覺因為我们以前以理解的token还是一个跟word很相信很接近的一个概念这里面的token就已经很抽象了你很难想象这些token对吧比如我把一个画照片切成16x16的比如说10份以后这10个小小小卡片embedding以后它能够对这个全世界的很多图像进行建模我觉得就很抽象了同时呢我给他的序列观因为他们已经被打整成序列了因为他们的顺序关系只是我给他们编列号但从另外一个角度来讲模型是有机会它模型还是有一种原方法既掌握了图像的基本的信息也掌握了图像之间的位置关系的因为他掌握了位置关系位置关系可能已经人已经不太好理解了但他还是有的模型也就可以学会然后他把这些打散以后他就用和处理文字一样的transformer的那些结构去处理这些图片一模一样因为你想嘛像素也是0和1的集合对不对他就把一堆0和1直接embedding了这只不过在transformer过去的embedding里面这些embedding之前的东西是token他现在embedding是图片的0和1然后他就可以享受完整的transformer的算法和infra的生态优势他不用对transformer的这些整个生态和quota生态做任何的更改他就可以直接用他可以把规模搞得很大因为transformer那个时候已经去到千亿规模的网络了所以如果我们去看他会发现他这个很大的一方式变化当数据量他如果训的数据量不够大的时候他其实是不足够好的他这个方法只有在大量数据上进行预训练转移到小标准上的时候他才比最先进的卷积网络更好如果他的數據級不夠大他們做個比較數據級不夠大的時候他其實是比不過深恩的他的核心是說他能scale深恩scale一定沒有他強他可以scale到一個更大的天花板上去他就會比別人更強了同時因為他很完善地用了transformer那套生態他反而消耗了更少的計算資源這才突破所以呢我们去看sora那个小哥不是写过一个DIT的中文DIT里面也是这样视频是多个图像他最后也是通过某种方式把视频搞成一堆序列塞到一个序列模型里面所以你看transformer发明的时候只是为了解决翻译的问题翻译天生就是序列到序列的然後沒想到一個用來解決翻譯的問題的方法最後適應了開始適應這整個世界它是能建模圖像然後我們又回來說我們先說融合比如說我們現在要識別一個視頻我們這個錄像視頻是有文字信息也有視頻信息的那這個時候呢我就我的文字信息是可以embedding的對吧它本來就是一個詞它可以打成token並且序列化然後呢圖像信息也可以embedding那如果我們能一開始就融合在一起比如說我們在視頻裡面特朗普的那個那段視頻和特朗普這個字幕一開始建模的時候他們就能建模上關係那確實我們就能在整個視頻裡面去理解它但是這次又很抽象因為特朗普已經不是那個一段視頻了他已經被打散了有可能特朗普的眼睛和特朗普的鼻子不是在一起的這個時候模型還有能力把它識別出來你給他的模型識別的可能性他自己會去找到一個識別這個東西的方法這個是全球化做圖像產生最大的創新后面的方法都是这个逻辑如果不能让模型适应数据就让数据适应模型好我们到201年有一个OpenAI的一个工作叫clip它是对比我说一下clip什么意思我们之前的文本领域我们会对会做大量的无监督的数据来做训练然后呢取得良好效果我们能够通过无监督的数据学会数据里面的那些知识典型的结果是BERT和GBT然后呢他有很好的世界的知识且有很大的迁移能力那有没有可能在图像领域里面也进行非标注的无监督的学习因为ImageNet它其实是一个典型的标注数据机它其实有监督的数据它会有监督数据就会它的问题创建的成本很高很耗时间潜能覆盖的概念有限比如说我们世界中的概念可能是有假的,随便说一下,可能有10万个但ImageNet其实只覆盖了它就10个类它强行分类的比如说它可能ImageNet里面的猫可能就只有5种你让它只学会这5种猫你让它去看一个它没见过的分类的猫它是看不出来的同时它也不具备ZeroShot的能力如果你从AGI角度来看一个模型没有ZeroShot的能力它就不具备,它就不是通用智能那那個時候就會有人想特別是如果你看伊利亞的視角他是相信無間讀學習能夠學到這個世界的知識的那我們有沒有可能在圖像領域做無間讀學習他們就做了一個這樣的工作他在網上找了很多圖文對什麼意思呢比如說網上很多Instagram或者微博裡面的圖片微博裡面圖片和Instagram圖片天然是圖文對的他比如說我們拍一張夕陽那夕陽裡面那就是今天的夕陽好美啊有一隻鳥飛過那圖片裡面會有夕陽有晚霞會有鳥那他通過大量這樣照片這樣的圖文對的學習模型居然學會了認識什麼是西洋什麼是鳥所以這個時候你給他看那鳥照片他知道這是鳥他也知道這是什麼鳥但是他並沒有被這樣的數據訓練過他並沒有被這樣單獨的標注數據訓練過那這個是他是用對比學的方法對比學的方法首先首次用在這個視覺和語言兩個模態裡那他證明了我們可以用互聯網上的自然語言作為監督信號學習一個很強大的通用的多模態表示空間他這個時候就把鳥那個單詞的embedding和這個鳥圖片的embedding映射在一個空間裡面很近的地方了只有這種情況下他能夠識別這是鳥他把這相當於他整個他學到一個通用的表示他對他很多那這個東西呢就来了我们可以用通用表示做图的识别也可以用通用表示做文对图的生成所以我们后来defaultmodel利用到这种能力我们才有了文生图就之前的defaultmodel它只是能生图我们并不能控制它生成什么图defaultmodel有个实际是很奇怪的它能生成图片但你也不知道它会生成什么图片只知道我们能控制它然后clip模型还可以直接用于zeroshot做图像分类就是它这么学完以后它不用学标注数据它就已经比imageNet模型性能更好了最好的imageNet学出来的模型性能更好了同时经验效率也更高说明它有很好的繁华性同时它不但能够识别图像分类它还能做OCR做地理定位做动作识别等等他还是学到一个通用的表示这个作者里面一座是Alex也是GPT的一座然后看看还有哪个值得讲的作者伊利亚对伊利亚会一直在里面好我们这个时候来讲一下StableDiffusion201年这就是我们现在的Diffusion最广泛使用的模型的或者当时的definition模型有几个问题,一个问题是说很耗资源,因为我们现在对definition模型的感受是说这是一个效率很高的模型,我可能生一张图可能几秒钟就生完了,效率很高,但之前不是这样的,之前那个模型不管是训练还是推理都很耗资源,生成一张图你可以想早期生一张图可能需要一天的时间,一张明日显卡需要花一天的时间生一张图,然后当时OpenAI还有一个工作对在这个default模组之前OpenAI有一个叫Glide的工作他就做了那个纹身图的探索他把一个类似于clip这样的一个血道图纹表示对的这么一个模型放进了作为条件放到了破产模型的unet能造成预设网络中这是在unet在预设造成的时候可以被文字信息所影响从而可以让模型直接伸展符合描述的图像但整体的控制力还比较弱因为那时候整个definitive模组有两个问题第一是性能差第二是控制力弱你会发现整个Diffusion模型的改进路线几乎都是沿着这样的路线走的它的控制力差它有那controlnet对吧还有inpointoutpoint各种各样的控制方式去影响我们对模型的修改修改一个局部性能在不停的提升他做了一个工作SlavioDiffusion有一个很重要的贡献就是他引入了浅空间我们过去的扩散模型都是工作在像素空间里的什么意思呢就是说如果我是一个108x720P的一个图片那像素空间就是108x720的那么一个大的空间如果我的图像变成了4K我的空间会变得更大会带来很大的计算负担不管是训练还是推理那它引入了一个影空间在一个很低微的比如说我们把一个像素空间压缩到了一个128x128维的空间里那其实就从10多的维度10多x70的维度降到了10x10的维度里面空间就变小了那我们可以理解为说我们图像就变成了一个在一个128x128的空间里进行扩散那这个扩散就会消耗掉比之前10×7至少少两个量级的计算资源那这是一种节约计算资源的方法然后有一件事情是很神奇的这样的方法就引入空间的方法不但能够提高计算效率甚至能够提高模型的效果这件事情其实是很反直觉的我之前在学这个论文的时候我觉得很奇怪我把它降維了以後呢其實是一種壓縮為什麼壓縮以後性能還變好了呢我後來去問一些研究員就發現說本質上我是在把圖片壓縮到一個空間裡面壓縮是可以產生智能的就像費曼學習法一樣我把一篇論文讀了可能覺得自己讀懂了但是我真的去把它分享出來的時候我還是會發現有很多地方我沒有讀懂把書從後讀薄的過程就是一個學習的過程就是一個抽象的過程那反而我通過這種壓縮的這種壓力我能學到更多的這個知識的本質的信息所以模型也不例外它也可以從一個高維往低維壓縮的過程中丢掉更多的信息的噪声学到更多知识或者换一个维度来理解我们人看到一个比如说像素比较低的一朵玫瑰花的时候我们还是很容易去想象这是一朵玫瑰的你让我把那玫瑰的花的颜色和细节补充出来用手绘的方式去补充人是可以补充的那就说明画一朵玫瑰花很精致的玫瑰花并不需要那么多像素一个更低的空间的像素量就已经足够包含玫瑰的本身的所有规律了那这个时候也说明说我压到一个低位空间是可行的那这次Diffusion这是StableDiffusion做的一个非常重要的工作引入了一个潜空间在潜空间里面做计算然后再重新decoding到外面的空间像素空间中来这个时候它就可以decoding一个更大的分辨率这就解决了分辨率很高的时候计算量很大的问题它本质上是在潜空间里面学习一个表示这是stabledivision引入的第一个重要的贡献第二个它也在架构里面引入了交叉注意力让模型可以通过条件输入来控制输出过程本质上就是把clip的能力加到了模型里面来在扩散的过程中可以把clip的文本编码器接收我们的文字的prompt并且把这个接收的文字pump的编码作为条件输到潜空间里面的噪声的还原的网络里面去就是那个unet网络里面去去引导图像生成这样呢CPUDiffusion就具备了一个文生图能力过去它只是能够图生图现在是可以文生图的那两个工作下来以后我们就得到了一个可以被人类的语言控制的又高效的一个文层图的模型所以stablediffusion出来以后一下就点爆了整个AGI整个AIGC的产业链得到很大的反响它现在至今依然是一个主导的模型当然了我们现在也能看到一些新的办事变化现在的智慧规模型也开始重新回到舞台中央有可能智慧规模型能够再度超越defusion模型成为未来文程图的一个重要的参与者这就是后华了然后我们再来看一下DIT就是transformer出来以后人们开始用transformer统一了很多领域从文本到视觉到视频大家就在想在扩散模型领域我能不能用transformer来做呢我们经常说扩散模型有一个骨干网络那个网络的作用就是用来预测噪声的那个模型可不可以换成transformer这样的话有更好的建模能力这个时候就开始有人来做这个工作过去的模型是很依赖unet这种基于CNN的架构来做这样一个噪声的还原的这个架构的scaling的潜力是有限的CNN虽然说是一个可以scale的一个架构但是它scale的能力和潜力是比transformer要差一些的它全局建模能力也比较弱如果我们能够把预测噪声的骨干网络换成transformer理论上讲应该能够进一步提升模型的性能特别是我们有更大的数据集的时候那VIT的工作也显示了Transformer其实是可以用于图像领域的它是有这个潜力的也提供了一些很基础的方案那这个时候也是两个一个华人学者和一个后来SOA的创始团队的一个成员William做了这些工作他们是直接把slavediffusion里面的unet的网络换成了transformer然后能够大幅提高模型的扩展性换言之是我在扩展数据和算力的时候我能够显著的提高模型的性能但是如果我的数据和算力没有扩展那么多有可能我的模型性能还是没有那么的好这篇论文的标题也叫做scalablediffusionmodelswithtransformers标题就很直接我就是一个可以用来扩展的用transformer来扩展的一个diffusion的model我们把架构统一到transformer有什么好处呢因为现在Transformer是主导了整个深度学习的架构所以它有很多其他领域的最佳实践和训练配方可以用包括我们现在Pytorch里面有很多现成的代码和库是关于Transformer的库档里面也有很多关于Transformer的优化的方案那本质上Transformer是一个抽中了硬件彩票的一个模型架构所以如果能把扩散模型和Transformer结合在一起我们也能享受这些生态带来的可扩展性还有它的落棒性和效率同时呢统一的架构也会给跨领域的研究带来新的可能性所以这是一个二二零的工作二二零底的工作这工作在做的时候GDP是还没有来的他主要作者两位谢赛宁是一个华人然后呢当时在纽纬大学做教授后来是加入了MetaAI然后还有William他们后来和加入了OpenAI以后和另外一个作者一起生成了SORA现在SORA已经到第二代了体验已经是非常非常好了大家很多人对SORA的猜测也是说SORA是用了很多DIT的想法和能力的OK这就是我们所有的论文了谢谢大家然后小俊你看你有什么要提问的没我听你讲我的一个感受是就是以前我们经常会问Transformer之后接下来的架构创新会是什么样的但是听你讲完我意识到就是架构创新需要很强的硬件适配性可能架构创新也需要同步的硬件创新才能够实现因为你也一直在讲Transformer是抱住了硬件财票大腿是的而且有種可能性就是硬件其實先發展然後呢發展到一定程度以後它是一個很好的計算平台和系統以後那個新的算法才會應運而生它才能夠佔有硬件的這些好的這些性能那我们现在也看到一些新的科学家在探索新的计算范式包括纯算一起的计算范式那如果这些范式能够探索成功未来也是有可能诞生新的模型结构的但是截止到目前为止Transformer还是一个非常非常主导的模型结构且这个模型结构的在这些年的演变超参数的调整都很小同时它在统一江湖对他在统一江湖且在越来越统一啊在图像生成领域他可能也会未来的一两年他可能也会把Diffusion超越然後我還有另外一點感受就是AI的研究其實是一步一步帶領我們走向新世界的因為上一期就是姚順宇他也說我問他你覺得最有影響力的論文是哪個他覺得沒有就是他覺得都很重要因為就是他們其實是彼此一步一步推進的關係其實是共生的不可能說就只有一個是一個非常outstanding的工作但是其他對於其他沒有依賴他們都是互相依賴的对我觉得这也是整个科技领域创新的一个特点就是说我们并不是从零开始发现世界是一步一步去构建的所以这是为什么当时我想跟同事们分享读一些论文就能够了解深度学习的历史但事实上我后来试图说能不能找10篇论文让大家去了解整个程度学习我发现其实很困难我最后找了30多篇论文才能够把程度学习在GBTChartGBT出来之前的那个历史做一个比较好的还原而且这些论文现在看来这30多篇论文你去掉其中的好几篇你会发现这个东西就不完整了那确实是这是一个循序渐进逐渐发展有众多研究员共同推进的那么一个工作我很好奇是什么毅力让你去读几百篇论文然后做一个总结的呀你是一般是用什么样的时间来做这个事情我读论文花掉自己过去两年所有的休息时间包括出差的时候在酒店的时间以及下班所有时间和周末我觉得很大一个原因其实是好奇心就我还是很想了解这个AI的边界到底在哪里因为可能跟我做产品有关系我还是倾向于了解边界以后再去寻求最优解刚开始其实很痛苦因为刚开始的时候我并没有找到一个很成体系的框架或者脉络来进行学习所以一开始我学的是很闪点的我也曾经试图直接去读那个transformer的论文我后来发现说一个人不太可能通过直接读产生方面的论文来读懂那篇论文因为他需要的背景知识太多了所以一开始我是其实陷入一个汪洋大海里然后逐渐地去在里面去找到一些脉络所以我觉得我看那些视频都有帮助很大我通过看那些视频建立起了一个初步的脉络包括李沐老师的论文精读系列一篇一篇地看下来然後後來去讀一些書讓自己有一個比較完整的框架然後他會去思考說為什麼那些科學家會在那個時候想解決那個問題我發現這個是一個很大的問號我只是知道他們在做什麼我並不知道他們為什麼這做然後我又開始去問他們開始去問模型為什麼他們在那個時候做這些事情一步一步的把這些心理再拼起來就像我讀Attention的時候Attentionisallyouneed我就想知道Attention是從什麼時候開始的然後去網上各種找資料找到資料的時候你會對這個事情的前因後果有一個了解我覺得這種學習方法也特別適合去學習一個陌生的領域就你不但知道它是什麼還知道它為什麼從哪裡來你會發現這些研究員去寫一篇論文做一個工作跟我們做一個產品做一個工作也是一樣的他在當時是有一個很明確的目標的他有一個很明確的問題想解決他可能會碰到說過去的東西這裡不好那裡不好他希望通過一個重要的工作既要又要還要全解決你會發現一個非常出色的論文是能夠做到開創範式既要又要還要的那這會成為非常著名非常著名和非常重要的工作也會有一些研究員有很好的reading找到那個時代最重要的問題他們成為一個非常重要的問題的提出者後續很多人就follow他們的工作我覺得這些東西都是很有意思的所以一開始我讀論文的時候頭兩三個月是有很強的平台氣的感受的就是讀的沒有那麼懂雲裡霧一知半解然后呢就很痛苦,因为论文很晦涩,我经常就晚上看论文的时候,看着看着就有几次是看睡着了我印象中我只有大学考研的时候才会有这种经验但是确实如果你度过了这个平台期读懂论文以后,你会享受读论文的快乐因为读论文会让你很好地了解你现在生活中用的这些工具AI工具的原理它为什么是这样为什么会好为什么会不好它这什么东西不好用我知道原因的比如说我知道为什么我是通过了解token来知道为什么模型不太能够数字母因为模型训练时候对模型的语量的最小单元其实就不是字母跟人很不一样那你知道这边界以后你会更熟悉模型你也能把模型用的更好我发现我身边人用模型用最好的人都是研究员他们对甚至有些同学跟我讲说我问他为什么要这么用的时候他会告诉我说他认为这个方法是在训练数据级的分布里的所以他觉得这么用是可以的我后来也会用这样的方法去思考这个模型有没有这样的能力有些东西模型见没见过有没有被训练到有没有可能放话这样我自己能开发出来很多很有意思的模型的使用方式比如说过去我们有些会议的时候有纪要过去我们内部的转动模型其实那个会议纪要做得不好有很多词的识别是错误的然后也有很多的语气蛀齿后来就想因为我自己会有些重要的会议我会自己整理转动的手稿我会把它整理成组织稿我发现说很多东西虽然说他语言转录完以后是错别字但我还是能够从那个错别字叠加我的背景知识能够猜出来那个词是什么对那我在想那一个训练的很好的多模特模型也能做的这个事情我後來確實就試了一下我告訴JimmyLai我跟JimmyLai說你是一個很好的同聲傳議員然後你有很好的某個領域的背景知識請你幫我把這份轉投手稿糾正一些語言錯誤你是一段段給他還是整個給他整個給他你會發現效果非常的好好到你會覺得說我們原來那些會議的那種圖紙稿的整理工作再也不需要人了有些重要的会议我整理会议的组织稿可能需要整理一整天那这个东西就是我现在一句话我交给jamie9一分钱都不用花等上30秒就可以得到我觉得这种快乐是这种给你的反馈是非常正向的所以它是一个很纯粹的探索的快乐然后到后面的我自己去总结想给大家分享的时候其实又是一个重新学习的过程我自己这个演讲稿给内部同学分享是从三月份开始准备的大概到七月份我们想拿出来开源我自己又重新把论文读了一遍做了一个很严谨的校准把一些里面没有当时没有去核实的点都核实了一遍,论文重新读了一遍,把这个PPT重新写了一遍又是一个自己加深学习的过程所以整体来讲我觉得这个东西我读过高原期以后对我来说是一个很大正反馈就这种好奇心驱发的正反馈在激励我去往前读然后好处就是说我现在读懂论文以后我能我能去读第一手的材料去获取AI行业的发展的变化的信息同时呢我也可以直接跟研究员交流讨论问题也可以看他们的材料看他们的视频和分享那这样其实你对AI了解的信息是最新的是最一手的也是最原生态的我觉得对我们的未来工作还是有很大帮助的你获得你想知道的答案了吗现在AI技术的边界在哪我觉得我获得的一部分對有些部分我自己沒有獲得有些部分我覺得好像人類也還沒有獲得我們都沒有獲得我們還處於一個技術發展當頭的早期對這個問題很難回答你能模糊地告訴我們一下你現在大概能探索到你覺得它的邊界在哪裡我大概會知道一個模型能幹啥不能幹啥能不能解決我一個固定的任務如果它解决的不好我能猜到什么原因然后我能找到一些方法去干预如果我们有模型训练资源有SFT资源的时候我们也能够做一些纠正你可以用一些手工特征对然后我觉得很重要的一点是说对于AI和模型的了解让我觉得等待是有意义的我们之前会发现有些团队模型能力不够的时候他会很努力的去用一些手工特征做一些SFT的工作你会发现他从收集数据意识到问题收集数据做SFT做评估整个流程下来花掉三到四个月他确实能够让模型能力提升一些但是可能又过了两个月开源模型或者说公开的模型已经提升了因为他的工作可能我们现在就愿意我愿意去等我大概知道说这个问题现在解决不了但可能五个月或者六个月以后他就能解决模型能解决对模型能解决不需要我们自己手里搞很多事我们就不用去努力了我们可以等我们可以心安理得地等我是能够说服同事和老板们就不要做任何事情我们就躺平然后等待这个世界变好你会发现世界是会变好的然后它的节奏你对模型如果熟悉的话你会发现每个团队都有他自己的节奏你大概能夠知道在哪裡去等著模型的能力有限對這個時候就會有一種很踏實的感覺你不會擔心說你會被你沒有工作你沒有努力去解決問題就不會被解決你會發現問題自然會被解決我覺得這是這個時代很神奇的地方有一個例子嗎我們當時做一些看看我们当时做一些客服类的模型的时候我们当时手里并没有一个端到端的语音模型所以我们是用Pipeline来转接的你会发现说你用国外的模型模型能力是够的比如说GPT-40能力是够的但是实验你接受不了太远了然后国内的那个时候是DeepThink的V3和千问的2.5差一点点,可能80%的情况下是够的时间很OK,然后能力呢,可能20%的情况下不能覆盖然后你可以预期对吧,那可能千万和DeepSake都会在年中发一个版本那我们等个两三个月确实千万三出来以后最大的一个模型就解决了我们现在的问题我觉得现在的千万三是可以用来做一些客服类的工作的没有太大问题了,比2.5好很多且它还是一个M1的模型,其实性能还挺好的所以读了论文反而让你没有那么焦虑了对因为AI的新闻每天都有是一个日新月异的行业读论文会让我能够了解一些更长期的东西而不用担心就每天变化很大对我来说我觉得变化可能没有那么大特别是如果你能够我记得我当时看那个deepsec有个吸收注意力的那个论文那我就会知道说有一群很强的人把它努力的解决這個注意力機制的一些固有的問題我可以我可以心安理得等待再過一年我們的三峽門窗口會漲10倍甚至漲10倍然后你的reasoning的计算的成本会降低一个量级那个时候很多事情就可以做了现在我就完全可以接受我现在据此去构建产品它的不完美或者说我能够为未来构建产品因为构建产品也需要时间理想情况下来说我构建产品release的时候模型能力也ready了它是一个完美的切合可以等因为我产品也需要时间經常會有爭論就是關於模型能力到底scalinglaw到頭沒有你對這個問題的答案是什麼我比較樂觀我覺得人類總是有辦法去scaling的因為如果你去了解這行業的發展的話我們現在還有很多地方是做得很粗糙的我們只是在拼命地堆效果堆資源而且资源也还没有枯竭我们在预训链的时候觉得很多数据枯竭了但其实也没有其实你可以生成的数据也能做得很好其实也并没有完全枯竭然后testtime的computing也还有很大的空间我们也许还能找到更多的可以扩展的地方所以整个地方整个事情上我觉得我读懂以后变得很乐观因为你会发现过去更糟糕我們是從一個很糟糕很糟糕的地方走過來的在過去可能就10年前我們覺得0.1幣的模型是一個超大的模型我們現在覺得0.1幣好小所以我覺得說技術發展還是很快的還有很好的樂觀的時間我們還沒有碰到那個很明顯的天花板我們錄製這個節目的時間是國慶期間最近OpenAI有很多的新聞你能不能給我們稍微解讀一下我昨天那个我还没来得及看详细版那个SAM那个发布会我觉得首先是SORA,SORA2的效果很好且它有一个新的产品形态看上去能够对人们的使用很多人用起来了我觉得这是一个很有意思的点大家可以关注然后我会觉得说OpenAI在尝试构建一个新的操作系统我们看到它新的它能够把一个模型能够把很多应用连接起来通过MCP本质上它是它是把很多这个世界的物理世界的API连接起来了这是很不一样的我们过去的操作系统都是通过一个确定性的软件来对CPU索取算力我们现在如果我们认为GBT在往一个操作系统去发展你会发现我们只需要跟GPT对话就能够获取算力且我们不再通过一个编辑好的软件了我们通过一堆参数去操作一个物理世界的API然后获取GPT的算力我觉得这个还是一个蛮明显的变化OpenAI我个人的感受是说它来做一个下一台操作系统操作系统是一个非常大的事情这个操作系统跟过去操作系统是有很大的不一样的因为今天我们的论文跟我们之前的论文节目也不完全一样其中其实包括了一些人的故事你从他们的故事里有总结出一些定律吗我觉得那些很有成就的研究员都是去愿意愿意去bet一个不一样的事情且很多时候他们还是很坚定的我去研究GPT的发展的历程能够感觉到很强烈的伊利亚BET一些东西他可能在12年或者14年的时候他就已经相信了然后不停的去努力甚至他要等到Transformer的发明他才有机会把他的一些构想去实现我觉得这是一个很重要的事情因为整个神经网络在过去都是很边缘的在12年之前它其实是一个經歷過很多次週期且不是特別被人待見的一個行業所以我覺得他們的重要的bet和堅持還蠻重要的最後能不能給一些他在AI行業還沒有非常的資深但是想進入AI行業的這些人一些建議可能是年輕人我覺得我有三個層面的建議第一個層面是說他可以多用AI因为你会发现能把AI用好也是一个挺稀缺的技能它需要你很熟悉这个模型你经常用才会熟悉那它如果更进一步我觉得可以建议它学一些编程有一定的工程能力最好是有在生产环境里面的工程能力因为这个时代特别是想进入AI行业的人我觉得可能以后不会有那么多细的分工了我们国内分成产品经理分成设计师、交互设计、平面设计分前端工程师、后端工程师我觉得以后可能更多就是builder现在已经有国外有些公司包括我们自己团队在尝试这样的方式了他就是一个builder他为一个端到端的结果负责一个人负责一个产品吗一个人至少能够负责解决一个问题他可以用前端方式解决用后端方式解决都可以他能解决好然后我们再让专业的人去打磨所以这个同学如果他有一定的工程能力我觉得是比较好的他能够很快的把自己想法实现出来计算机语言也是一种语言有可能以后我们就可以用语言来对计算机进行更复杂的操作了所以但是即使你能够用语言来进行编程你了解编程的一些技术原理和细节对你能够把它用好我觉得还是有帮助的所以我其实在第2个层面上建议年轻的朋友学一些工程的知识因为现在的语言也比较简单了不管是python还是javascript都是比较简单的高级语言了然后第三个层面还是建议大家读读论文虽然说我也觉得我也知道读论文很难我有时候也想建议身边的很多朋友读论文也会发现说这个事情很好时间但我觉得说AI是一个很长周期的技术浪潮我们还处于技术的很早期了解这个技术的原理有机会跟它一起做更深的成长我觉得是一个挺好的事情也是有意义的事情所以我会觉得说了解原理读论文是有意义的它对算法同学有意义我觉得对工程同学也有意义对产品同学也有意义它至少能够让你了解这个新的世界是什么能够一直跟踪它的发展我觉得技術變化真的是在飛速的發展我很難想像三年或者五年以後會有什麼東西AI會對我們的生活產生什麼樣的影響以及會對我們人類的組織結構形式產生什麼樣的影響所以了解讀論文是給你自己打開一扇門你进入这扇门以后能够有一个不一样的世界,能够对这东西有更好的理解所以我觉得如果有可能读会中文是有必要的然后这些事情我至少自己实践下来发现有挑战但没有那么难所以做这个分享也是希望能够降低大家的读中文的门槛希望更多人去读它剛才說的是站在AI門口張望的人那如果對於已經在比如說大型的公司在某個職能上工作的人來說呢你有什麼建議給他們嗎因為我們剛才也提到AI時代可能更需要全站的人需要的是一個building對我的建議是說大家去承擔更多的職責就是产品同学做一些工程事情工程同学做一些产品的工作大家会更融合了解彼此的工作方法和工具以及工作的目标然后我确实觉得未来的趋势是存在所以大家在大公司里面同学可以往这方面做一些尝试但我也知道大公司里面可能分工分得很细可能会有一些挑战吧大家去猜到别人的定义以后可能会有一些挑战但我觉得这种试一下是值得的然后你会因此得到更直接的反馈因为你自己也能够做一个事情以后我觉得那种就是端着端着反馈是很直接的也能让一个人很快的收获和成长超级个体和艺人公司会成为趋势吗我不知道在一些问题上或者一些服务上看上去很小的团队也能做好了现在会比过去有更大的机会比如说我们自己团队我们希望每个人都首先是工程师然后才是产品经理才是其他岗位那这个事情过去能做的公司其实是Google那Google也只是在湾区能做到那才是一家湾区的公司但是我会觉得说在现在的条件下我们提这种要求会比当年的Google容易10倍所以我觉得确实看上去公司不需要那么大团队也能做得更好那人少了以后呢沟通成本也会降低会进一步推动人的变少所以我觉得这是有机会的我们也在尝试但是还是会有一些复杂的生意需要更多人所以我觉得公司的人的多少一方面跟技术发展和组织发展有关系二方面跟这个商业模式本身也有关系有些特别好的商业模式的公司人就是很少你去观察比如说WhatsApp你观察那个Instagram包括微信这种有网络效应的商业模式公司人都少不管在国内还是在国外它都少InstagramTelegram只有40个人能服务10亿客户但是像美团这样的公司我们就可能在现在这个阶段就很难用那么少的人去服务那么多的客户其实这里面有很多人都是OpenAI的和Google的在这些论文里面做出重要贡献的你觉得OpenAI会超越Google吗我这是个很难回答的问题但是Google比我想象的表现好就是我记得我去年在玩游戏的时候跟很多Google的朋友们聊天很多人还是没有那么有信心的但是确实他们没有信心的原因是Google的人太多了Google的人才太多了导致有一些踩脚那看上去现在Google在逐渐的梳理这件事情它有很好的人才的底蕴然後有很好的工程能力有很好的infra設施所以我覺得Google在這時代裏面是很有機會的OpenEye看上去在想做一個超級app我覺得這個是一個很不一樣的bet我覺得它如果能夠做成一個超級app它至少有機會跟Google比肩它應該它已經不只是一個lab了它做一個lab跟Google比肩会有挑战,它如果有个超级app,我觉得会很不一样,它如果有一个操作系统,会非常非常不一样。今天还属于早期。
[261:36]
对,我觉得还是行业的很早很早期,但还处于,我觉得如果比起电脑的发展来说,我们应该处于個人計算的早期甚至個人計算的前期個人計算對你想那個計算機發展從大型機到中型機到小型機然後才到PC嘛我覺得我們還處於那個很早期的階段好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界