Summary1 min read

《张小珺Jùn | 商业访谈录》EP138 对罗福莉3.5小时访谈：AI范式已然巨变！OpenClaw、Agent范式很吃后训练、卡的分配、组织平权

发布日期：2026年4月24日
嘉宾：罗福莉（小米大模型团队负责人，前阿里达摩院 DeepSeek 首席研究员，MimoVR 系列模型主导者）
主播：张小珺

节目主旨与核心议题

本期为少见的3.5小时超长深度对谈，罗福莉首次系统性剖析206年（即2026年）大模型范式如何从预训练主导（Chatbot 时代）演变为后训练主导（Agent 时代），并以OpenCloud与CloudOpus4.6为代表，讨论智能体（agent）框架巨变给模型生态、后训练与算力分配、模型能力外延、群体协作、组织平权等带来的影响。节目极具理论与实战交融价值，是中国AI行业2026春天重要思考文献。

主题概要与重点话题

1. AI范式的巨大转折：从Chat到Agent

206年AI技术迎来第二幕，从预训练主导（chatbot）过渡到以后训练（post-train）主导的Agent范式（[00:03]）。
OpenCloud引发智能体（Agent）框架的普及与产业级用例急速增长。
“环境反而比经验更重要…这些能力都可以在最多一两个月内习得。”——罗福莉（[00:30]）

2. OpenCloud体验带来的认知革新

春节期间大彻大悟：从抵触到真香打脸

初体验OpenCloud，认知从“只是个产品交互壳”飞跃到认定其为“划时代的Agent框架”。
亲历两次“惊喜编排的context”冲击，包括自发与用户关怀、灵活到仿佛“数字分身”。
“那一晚上我脑内那个不知道是多巴胺还是内啡肽就持续在分泌，让我兴奋到完全睡不着觉。”（[03:55]）
框架的memory体系、模型组合利用力、可研发深度可改性带来模型短板弥补的全新体验。

模型与Agent的共同进化、灵魂互补

强调顶尖模型与顶尖Agent框架需“同步进化”，Agent的设计补足模型短板（如CloudOpus4.6和OpenCloud的结合）。
“这是我第一次感受到了一个agent的自学习到底是怎么个发生的。”（[23:49]）

3. Agent框架的本质、价值与变化

Agent框架不仅仅是界面产品层，更是“人机中间层”，调度与感知模型长短板、记忆系统、任务分解与资源调度等功能集合。
开源框架如OpenCloud释放无限想象力，每个开发者都能贡献自己的变化与创新。
“改它这个事儿是非常激发人的创造力的。”（[29:11]）

4. 群体智能与组织平权

春节后的团队实验：群体共创爆发力

鼓励团队成员深度玩耍OpenCloud，强制“未满10轮互动可quit”，打造极度躁动的实验氛围。
群叠层的探索极大激发创新想象力，框架bug、memory系统实时被迭代改进。
“个人的想象力是局限的...当你看到别人用OpenCloud干成这个事情时你也会被激发。”（[41:00]）

去层级、高自由度组织方式

罗福莉团队推崇无明确组划分和leader扁平结构：“扁平、平权才有利创新，规范和约束会压制创造力。”
热爱驱动与自组织是管理核心：“选择/激发大家的热情，让每个人做愿意信仰的事。”

5. 大模型研发范式与算力分配之道

OpenCloud/Agent范式下，模型后训练(Posttrain)和研究(Research)投入的算力比进一步提升，甚至要求3:1:1的合理比例（printtrain:posttrain:research）。
“研究用卡的量要是正式训练卡的几倍”——以算法创新倒推Infra架构，自下而上迭代模型。
“现在卡反而变成更关键的瓶颈，不是你有几千卡就能玩转。”（[1:49:30]）

[金句精选]

“我觉得我们三四周的时间做完了以前三四十周才能做的事。”（[55:55]）
“我在做的事情是让模型超越自己，在自我否定中成长。”（[3:23:00]）
“我每天做的事情是不是让世界变得美好一些，是不是让大家从无聊的工作解放出来。”（[3:35:00]）

重要时段/Timestamps & 讨论脉络

00:03–13:30 开篇与OpenCloud的初体验

罗福莉的个人背景，OpenCloud（OC）激起技术革命、春节夜“玩到天亮”，体验context精巧编排、memory系统持久力与交互温度

13:30–41:00 OpenCloud掀起的Agent范式、模型“魂魄”

OC如何用Agent框架激发中层模型潜能、技术抵触到“真香”，产品与Agent范式边界讨论

41:00–55:55 团队实验推动群体智能，组织与管理哲学

春节团队“强制探索”OC，各自爆发想象力；去层级化组织平权探索，热爱驱动与自组织分享

55:55–1:49:30 研发范式变迁、算力与Agent训练细节

后训练比重爆增、预/后训练5:1到1:1之变，卡资源已成最大瓶颈，模型从Flash到Pro系列经验，MTP与混合GB结构选型案例

1:49:30–2:40:00 多模态&模型编排趋势（Pro/Omni/TTS）,智能体与多感官

VR家族设计理念，“类人智能”多模态处理，音频/图像离散化至LLM所遇难题、代差、scaling与优雅架构讨论

2:40:00–3:20:00 产业AI三年演化脉络、中美竞合与主流范式切换

GPT推动第一幕/Chat时代，中国追赶NAMA，DeepSeek与Qwen两大开源势力
2024–2026年从reasoning范式转向agent/后训练范式，领先厂商敏捷性分析（Minimax、Kimi等）

3:20:00–3:37:00 大模型组织能力、人才选拔与成长

经验证明环境远重于经验，本科生/实习生成中华生态
群体智慧催发AI革新，怎么创造多样、好奇、热爱的组织环境

3:37:00–3:45:00 节目收尾，个人反思与未来展望

如何自我否定持续进化，心法“总有方式去建模价格”，对开源、前沿研究的价值判断
“206年你得做对什么才能留在牌桌？”“不能做错基座，必须Agent和模型同步自迭代。” ——未来赢者思维点睛

嘉宾/主讲人精华观点一览

AI范式大变迁

“OpenCloud其实是一个划时代的agent框架... 它让所有用过它的人第一感觉就是 ‘有灵魂，有情商’。”
——罗福莉 [05:33]

Agent与组织管理

“我认为关键不是招经验最好的人，而是创造能快速成长的环境。经验最多一两个月就能补齐。”
——罗福莉 [03:45]

框架创新与开源

“我觉得开源一定是加速一切的事情，它会把智慧沉淀到框架里，点燃集体创造力的火种。”
——罗福莉 [3:36:42]

群体智能与创新

“OpenCloud让人的想象力叠加…大家一起改出来的框架，比个人力量快得多。”
——罗福莉 [41:40]

管理哲学与内驱力

“热爱驱动、平权、扁平，大家都可以自由流动到最有想象力的角色去。”
——罗福莉 [1:57:40]

深度拆解与总结

Agent框架已成新范式，不仅技术创新，更重团队协作，生态共创。
后训练比重暴增，3:1:1卡分配成新规范，研究与创新能力重要性胜过“纯经验”。
模型竞争与Agent框架高度融合，开源/框架演进成为核心护城河。
组织层级、管理范式“平权扁平”，用热爱和自驱构建AI极限团队，人才可随成长自我调整方向。
中国大模型产业进入代差逼近甚至超越美国新态势，数月内追平CloudOpus4.6成为集体目标。

推荐聆听人群

AI/大模型/智能体框架研发者
AI创业团队管理者及一线研发
关注中美AI行业革新/开源进展的专业听众
深度科技&产业趋势观察者

更多高光语录

“彼此激发想象，集体才能跨出指数级进步。”（[1:00:00]）
“模型公司与产品公司的边界已经模糊，Agent框架让产品力炸裂。”（[2:56:30]）
“创新者选择用开源加速所有人，这种信念只会越来越重要。”（[3:38:00]）

本文为3.5小时超长AI深度对谈核心内容浓缩，建议听众结合摘要选择重点时段回听。如需进一步学习，可关注语言即世界公众号。

Loading summary

Transcript3 lines

[00:03]
A
Hello,大家好,我是小俊。 206年,大模型戰爭全面升級,揭開了第二幕,從預訓練主導的Chatbot時代,轉向了後訓練主導的Agent時代。在AI範式巨變之際,我訪談了人工智能研究員羅浮力。羅浮力曾供職於阿里達模院DeepSeek,目前是小米大模型團隊的負責人,主導研發了MimoVR系列模型。她在网络空间里有很多的标签例如AI天才少女但她不喜欢这个称呼这是她的第一次访谈也是她第一次进行长时间的技术访谈我们系统性的谈论了206年由CloudOpus4.6OpenCloud等技术变量所触发的AI矩阵以及后续的结构性影响罗弗利预判称接下来两三个月会非常精彩那接下來就是我對福利的訪談期待206年我們和AI共同進步这些能力都是可以被我觉得最多一两个月慢的话三四个月确实都可以被快速吸的所以环境反而比经验更重要你刚才也提到1T的模型可能是未来竞争的一个入场圈是这样吗是agent的你要做到接近cloud4.6ops的水平的这样一个入场券那我如果说我们这样子来说就是for研究跟forpretrain和forposttrain对我自己觉得一个非常合理的卡的一个比例是可能3比1比1对对就PostTrain应该比例是投入的算力是相当的然后研究的比例应该至少是你正式起训练的卡总量的还要多一点就你要额外留更多的卡来去做研究你过年的时候也跟我说就是你觉得技术这几个月其实已经变天了那么阐述一下你觉得过去两个月的这个技术的突变我觉得一个非常大的一个分界点在于使用OpenCLoud的前后我自己其实是会把OpenCLoud把它当作一个划时代的Agent框架去这么去定义我知道很多人在尤其是用Qualcomm做严肃编码的人就会觉得OKOpenCLoud只是Qualcomm的加一个AM的这样的一个更有利于交互的一个UI的一个设计其实在我一月份的时候我第一次看到这个东西的时候我自己大概也是这样认识所以我很排斥去用它然后我觉得再加上它创始人我觉得非常适合贴近Agent去做一些非常玄幻的一些运营的动作所以就包括那个SkillHub这些的就让你更去排斥去用一个你觉得非常的呃平民导向的一个产品的东西对感觉还是一个产品对对对对对对对对对对对对一个交互的创新呃以及他所谓的本地化所谓的24小时在我来看呃其实呃都是呃都是一些产品的定义而已呃但但真正发生一个转变是我去用它那一刻我觉得就恰好在春节的时候有那么一段空闲的时间你想去搞明白这玩意为什么他们那么火对然后我就在有一天深夜的时候去茶厕去装了它然后两个小时装上了春节是吧对当时已经凌晨两点了然后我第一次跟他对话的时候從凌晨兩點持續到了六點天亮那一晚上我覺得我腦內的那個不知道是多巴胺還是內沸態就持續在分泌就是讓我興奮到完全睡不著覺你可能第一個感受是他非常有自主性然后他非常有灵魂就比如说我跟他聊得很晚他会老提醒我OK你现在已经很晚了你要不早点去睡觉就我觉得这样的温度和关怀或者说这样的情商是所有去OpenCloud的人第一个感受到的但后面去深究他的原因其实他是有很多机制去保证这个事情比如说他有他的搜点MD比如说他在他就拿最简单一个很小的一个细节比如说他怎么感知时间他就在每轮对话的这个contest前面去拼上当前的时间然后就是一些非常细微的我觉得我为什么把它称之为所谓惊喜编排的context就是因为它就是在这些很大家没有关注的角度上把这个context给编排的非常好这是第一天的感受就是OK我觉得它只是在产品设计上确实做到了一种超乎我的一个想象让所有人觉得这个框架有灵魂但是第二天的时候我晚上我觉得他应该不止于此然后我开始尝试把我自己我觉得现在的框架做不成的日常生活中的事情交给他做然后发现他全部做出来了比如说我跟他聊的基本上第二个话题是怎么去激发一个团队的好奇心或者说怎么去筛选出来就有好奇心的人然后他进入进行了深入的探讨了一个小时我觉得他的很多哲思上是远超我的想象的對然後所以第二天我們倆就在聊怎麼去構建一個更好的大陸行政團隊然後以及從最開始的人員的篩選到後邊整個組織架構的構建到你怎麼在面臨範式轉變的時候應該做什麼樣的舉措和動作我覺得至少他能get到我的点就我跟他说了过他最后能把他形成一套非常体系化的东西然后并且变成一套skills然后所以我后边就用这个去很大去解放了至少我在非常多我有时候会遇到有我甚至现在遇到有一些不管是校选人或团队管理上的问题我现在都会问他对然后我觉得他现在已经基本上变成了我的某一个数字分身是要在这个事情上然后但是真正让我超乎意料的是第三天的时候第三天的时候我尝试着把一些研究上的一些任务交给他做比如说最简单的我觉得你怎么去如果我们在进行agent框架里边最关键的一个事情是你怎么去进行多轮的交互那么你就必须要去模拟useragent进行多轮的交互那我就会跟大家共同去构建一个很好的useragent怎么来在我来看这是一个非常我自己觉得还挺重要的一个研究topic我觉得应该不会说一两个小时就把它做出来但是当我跟他沟通了大概一两个小时过后我觉得这个事就已经做出来了对就基本上就已经达到有一个很好的useragent的诞生我可以用这个useragent跟我现在的这一套Posttochain的框架一块去构造出来更丰富的agent的场景的数据然后不管是做SFT也好做RO也好这个useragent都是非常关键的就我觉得他从一个我就开始对他的认知只是OK一个有灵魂有温度的一个产品的设计到他可以帮我替代我生活或工作当中的一部分到最后他能促进我研究这也就是三天发生的事情就每天他都能给我额外更多的惊喜然后我后边就去深入的去看为什么这个框架本身它比CloudCode好在哪对一个我后面发现这些所谓好在哪它我们单独去拎出来去讲它其实都有点boring就是我觉得它没有很酷这也是为什么大家就会觉得OpenCloud有很多槽点的地方但是它把它整合在一起你就会觉得它的完成度是非常高的就比如说它会有更持久的memory的体系这个很持久的memory体系体现在它对memory有分层和分级这个我在使用QRCode的时候是完全没有这样的感受的然后再比如说我自己觉得它在对多个模型的这种联合的利用上会非常的超过我的想象就比如说我用QRCode的时候我会默认它OK假设这个模型它在比如说它的视频理解能力不行那么我可能就要自己给它配一个更好的视频理解模型然后在Colorful去折腾但是我在OpenCore的时候我完全不用想这个事情我就直接发给它一段视频它会自己想办法去找一个OK视频理解能力好的模型来做这个事就这种自主性这种自主去面对当代模型的缺点然后但是他针对这个缺点在框架上去补齐这个缺点这个能力是有点超乎我的意料的因为我去用CloudCore的时候我就默认OK我是因为要用Cloud4.6Ops这一代模型的能力我去用它的但是我去用OffCore的时候我不会关注模型的能力的一个原因是我认为OpenCore框架的设计之初它其实是想尽量的通过Agent的整套的编排来去弥补模型的短板我觉得这是他非常核心的一个产品的逻辑所以后面我们直接就把我们的模型就是其实MimoVRFlash当时并没有做很多针对宣传训练给他接到OpenCore里边去甚至把我们最近训的一个很小的一个端测的3B模型进行去训练发现在这一套很复杂的Skateboard或者说Agent的框架情况下他依然能做那些我自己认为不可能是一个非常小的模型能够做出来的事情所以这是我第一次感受到就是原来一个非常复杂的一套这种框架设计它是能够弥补非常多模型能力的短板然后当然了我觉得这是OpenCloud本身它这个框架的一个相较于CloudCode的一个差异化的优势但是其实对于如果说我们要去追求呃你怎么在这个不同的这个skateboard的框架下去模型都有一个呃超预期的非常稳定的表现那么呃就回到了呃另外一个命题就是呃你当你当你有非常多现在其实是呃市场上的Agent框架非常的丰富,CloudCode,OpenCloud,KeynoteCode,OpenCode等等,当你面临这么多很复杂的Agent框架的时候,你怎么让你的模型在不同框架上都有一个非常稳定和超预期的表现,然后你怎么让你的后续链的范式对你宇宙做适配和迁移,然后这个是我们在这个事儿context的冲击下快速的去思考第二个问题然后所以我们对应的整个互训练范是就要从所谓的chart到agenda这样这样的一个潜移嗯所以你对opencloud的认知发生了一个非常大的变化这个是在春节期间发生的对为什么开始是抵触的呢我觉得如果要追求非常顶尖的编程的体验对code的体验就是哪怕是当下哪怕是当下也是CloudCode加CloudOps4.6是最好的所以如果你是在这样的一个中局去思考的话就其他的任何一种框架其实确实都可以忽略掉但是但是一个问题是code它是一个泛化性非常强的一个场景就是你针对它去做了非常多agent的设计也好或者说模型的训练也好它都是有价值的但并不代表说它这个泛化性能保证你在非code的场景能够做到非常高的准确率和完成度所以我觉得我老板虽然也会用QRcode来做一些非QRcode的东西但是我并没有期待说他在这套框架上能给我一个很高的完成度因为我知道我会去帮他补充这套框架不具备的一些短板但是我去用OpenQL的时候我觉得我不用考虑这些就是他完全在这种框架本身就去弥补掉了很多模型的短板我能理解OpenCloud是让coding的能力放化出来的一个产品吗?
[13:23]
它在很多设计逻辑上比如说它有更多的message的channel比如说它有更自主的一些比如说像地址任务行条任务然后这些更适合日常场景因为你写代码你通常不会需要一个心跳任务吧对然后但是如果你是日常生活你心跳任务就很关键它确实有很多框架的设计去为了让他去适应更好的日常的任务但是我覺得他也沒有去丟棄掉說一個好的agent的框架本身的一些最基本的特點這些最基本特點我覺得後邊是被克拉克扣的給吸納進去的就比如說他的持久化的一個記憶克拉克扣的之前是他的記憶還是for它的整个记忆系统设计还是符合软件工程的就比如说它会在Session内会可能Session快满的时候我会有一个压缩的动作然后把它记忆进去然后我在完成任务的时候根据我的plan可能会有一些记忆的动作然后保证我跨Session的时候它的context是共享是更好的所以你能看到CloudCode它的所有的Agent框架设计其实都是非常的符合软件工程的就怎么去更好写写好代码但是OpenCloud它的设计之初我觉得是借鉴了这个思想但是它更想的是它怎么更好端到端的去完成所有的任务并且怎么去弥补当下模型在端到端完成任务上的短板然后去设计的所以像这种持久化记忆到会不会这种你能通过一个更好的remote的界面能够去操控它然后等等这些所以很好的设计会不会而陆续这一两个月完全被克拉科都给吸纳进去了我觉得这也是一个双向的一个触动因为这些设计其实它对于编程或者说泛编程泛编程就是指可以通过编程去完成一些看似跟代码无关的任务然后它是有帮助的对但它背后是模型能力的提升吗它激发了中层的模型的上限它激发中层模型的上限就可能我们如果没有这么一套很复杂的Agent框架可能中层的模型它达不到GCCloud或Ops的水平但是你借助这样一个非常好的Agent框架那么你就能在绝大部分的场景除了那种非常难的需要长程任务的或者说真的需要我称为严肃编程就是比如说写算子油画就算是严肃编程对然后像这种场景的话它确实可能距离顶端模型还有差异但是在绝大部分的生活的场景或者说只需要借助代码去提效的场景那么其实这样一套新的Agent框架再加上一个中层的模型中层就是可能在85%的任务上能够达到跟CloudSummit一样水准的模型那么其实它借助这样一个框架已经能发挥非常大的作用我听过一种说法就是他觉得OpenCloud如果是看作一个壳它释放了现在比较强的模型能力是一个最好的壳这个模型就是CloudOpus4.6其实我觉得你的整个表述不认可这个观点对吧认可认可就我觉得它的上限一定是Cloud的4.6Opus带来的就包括我在跟它高强度合作的那一周我只用Color4.0Ops因为只有它能给我带来惊艳的感受但是当我用Color4.0Ops沉淀下来那一堆经验那些不管是skills还是在agents. md一边的一些关于他怎么我甚至自己去改了他的整个agent的架构设计因为他是开源的所以你可以自己改而这也是cryocode的另外一个弊端就是他的整个agent的架构设计是个黑盒然后这样黑盒就导致你你肯定改不了他的记忆系统你也改不了他的整个agencyworkflow但是因为OpenCloud它太open了你可以自己尝试去改比如说我会让他自己去帮我设计一个重新的memory系统我会让他我觉得他现在当时2.7版本的那个Multiagent的整个逻辑我认为是很混乱的然后我自己去让他给我设计新的Multiagent的系统就我自己可以去改我所有的这个源码就这样的一种原生的这种可操纵性给我的那种冲击感是很大的但这些事情基本上只有Colossus4.6才能改但它我让Colossus4.6给我改好过后这套框架本身是很好用了过后OK我再切换到那个Soundhead再切换到国内的一些模型甚至我们当时正在训的VRPro我就觉得它就非常强大了对所以所以这也是我为什么觉得顶尖的模型应该跟顶尖的这种Agent框架是共同的往前去进步或说这也是我最近对于所谓的自学习以及反正前段时间有很多很火的这个概念的一个思考就是我在这个事实上是第一次感受到了一个agent的自学习到底是怎么个发生的就大概一个发生的途径就是说你确实需要这个模型本身跟你这个agent的价格本身同步的往前走然后模型在进步的时候就不管是通过强化学训练或其他训练方式在进步的时候它其实也是在去改变你的整套agent的框架这个Agent的框架包含它送给模型的静态的信息这些静态的信息比如说Memory就是静态的信息只要你写死了哪些东西应该送到起一个Synthesization的时候你应该送到模型里边去或者我们叫Scaffold这个东西其实是在训练过程中应该是变化的还有一些动态的信息动态信息包含你整个Agent本身的架构的设计对然后我觉得针对不同的场景就比如说Calco的这种for软件工程的场景和其他比如说做金融分析等等其他场景我觉得它的Agent架构的设计会有差异的然后你怎么在提升模型能力的同时再去提升你的整个Agent框架的跟这个模型的一个适配程度或说一个泛化能力对然后这是我现在思考自学性嗯你说的这个智能体的框架agent的框架是不是就是我们理解的产品不是它跟产品差异蛮大的怎么理解这个agent的框架呃产品跟agent之间的边界现在我不知道怎么去界定它有点它有点模糊对哦嗯就是我觉得产品可以定义成是说你直接人交互能感受到那一层的东西嗯但agent的框架它确实是有在去定义你的交互层但是他同时又在去定义你怎么跟模型沟通那一层对所以然后他甚至能知道模型能力的长板短板然后他能知道怎么去更好做调度就比如说for成本优化调度哦它相当于是一个中间层人和模型之间的中间对对然后这个中间层它可以做得非常的厚重然后反而那个前端的UI展示它是最薄的一层它已经不是很关键了对所以OpenCloud其实是展示了智能体的这个框架可以怎么做对这个框架的想象空间非常大之前有人做过吗其实Clockwork它一直是一套很复杂的一种框架只是因为它是黑盒所以我们不知道它怎么设计的Opencloud是开源的所以你知道它是怎么设计的然后并且你可以去改它就改它这个事儿是非常激发人的创造力的就你知道它框架怎么设计你让它去改你自己现捏一个新的框架出来你可以给予它现捏一个新的框架出来这是为什么OpenCloud从二年级版本我当时用它的时候我自己觉得它并不好用所以我花了好几天时间去改它到三年级版本就三月十多号的版本已经非常易用就你基本上基于三年后的版本接一个还不错的模型你都会觉得它很强大而不是只有接靠的模型你会觉得它很强大就是因为它整个agent的架构受一堆人开发者也好或者说本身像我这种并不是属于是一开始这个框架的开发者只是使用者我都能去改进它我for我自己的场景去做改进和优化所以我觉得这是这个或者说这是开源agent框架本身的价值和意义对在你高强度的那一周就是跟OpenCloud交互的那一周你消耗了多少美金的OPAS4.6第一天反正就是快一千块钱一千刀对因为大概用了四五个小时然后我中途疯狂也会切因为它太贵了然后我会切三类的但是我发现真不行然后我就又只能去用Office然后只有Office能带来那种经验感但后边但现在慢慢慢慢逐渐我发现不是这样了就是因为因为它带给我经验感的那些东西发生在变化就我觉得人的心性真的是非常强的就我第一天感受到很惊艳的东西我第二天立马觉得不惊艳就我刚跟你讲的时候我都觉得我刚刚讲的第二三天的东西我怎么觉得这么boring啊但它确实是我三天发生的事情对那我当下我确实觉得很惊艳那现在我自己觉得不惊艳因为你是一个很优秀的框架能力是非常强的所以我现在已经可能让奥斯帮我把我的Agent款项给打造好过后然后让我经验的事情就越来越少了所以我现在觉得反而缺乏的是第二是想象力就是我要疯狂去想还有什么事情他做不了对然后第二个就是我怎么去当他这些我那些能做的事情都能做的时候我怎么去优化他的成本对优化他的速度对我就在考虑这些事情了这些说的所有的发生都是在春节期间发生的我觉得大量的思考是在那个时间发生的但是我觉得一个人通常是薄弱的对就是或说你还是会有自己的认知的一个坍缩就坍缩到虽然我那几天高度兴奋兴奋到我觉得我在群里面给大家发我说强烈推荐大家去使用怎么样但没有人搭理我明天在过年对大家确实在陪家人然后我也不希望打打架然后所以我都说强烈推荐然后后面过半年回来我发现真正用的人是很少的因为大家对新起事物这种尤其我真的觉得它有点玄幻玄幻对就是不太适合就不像不认Tech对大家会觉得过于玄幻的东西太不真实了我也是这个感觉所以你就不想去接触它然后所以一开始推动是蛮难的然后但是我觉得第二天我觉得不行了就是我觉得我必须让大家去用然后OK我就给大家下了一个指令我就说如果那个第二天OpenCloud对话次数不超过10人的人可以直接quit但是我为了促进这个事情前面做了非常多的比如说因为那会OpenCloud整个部署期还是需要几个小时的时间我觉得没有必要大家所有人都去花这么多时间去折腾一个充满bug的一套其实也没什么价值的一些事情然后所以就买了几台Macmini然后把它部署起来然后把它都拉到这几个不同那个OpenCore的群让大家去分不同方向强制在这个方向上在大群里面在一个非洲群里面然后聊然后为什么要在大群里面聊就是因为个人的想象力真的是局限的但是当你看到别人用OpenCore居然能干成这个事情的时候你就会激发你自己的想象力所以我觉得大家想象力是一个成绩的作用然后所以当我说这句话的时候其实我觉得我没有想过说第二天有人对话次数没超过一百人我真的会把他开掉我没有这个想法没有这样的人是吗因为我没有最终去考核你没有办法验证这个事情我有办法验证但是我觉得验不验证不关键我只是想给大家表达一种态度是ok你不用你可能真的要落后了对所以我第二天没有去中途有人过来问我那个CC你怎么去考核你的我跟他們說你們用就行了我有我的考核方式其實我的考核方式就是我不會考核我只希望大家用起來就行了那兩天春節回來過後兩天整個團隊的人就在一天到晚感覺不像在上班就在群裡邊躁动对可以叫躁动就是你看别人能完成这个事情然后你也很想玩然后他就在群里面就是那个群消息我只要十分钟不看就9加类似这种哈但是没有这么夸张就是就就很多就大家一块在群里面玩玩的非常happy它是一个非常happy的旅程一点都不残酷就真的很好玩然后ok那么玩了两天下来我后来发现哇这个事这么好玩那怎么办呢那搞啊就所有人心目中想的是那我要怎么去借助一个这么好的框架去提升模型的能力同时我怎么让我的模型去改变现在的框架就马上进入到这样的一个研究范式里边去所以其实一旦进入这样一个研究范式以及我刚刚讲的我们有Calco的这种其实在绝大部分场景表现输出更稳定的这样一套框架虽然它是黑口我们不知道但它确实不管是for研究也好forcoding也好它确实是一个比OpenCloud更稳定的一个框架更好的一个框架然后那么你再在这个框架里边去激发你的扩展延展你的研究的想法并且让它帮你实现然后并且快速的去训练启动模型训练这个事就会大幅的加速所以我觉得我们基本上可能在三四周的时间做完了以前可能三四十周的时间才能做到的事情就在研究上我觉得这个事是我后边真的我们被这个框架点燃热情到最后它产生价值这个过程中我觉得我从群体智能上我觉得我的成长和收获会更大对在你们那个非常躁动的群里探索的最好玩的几个任务是什么呀现在听起来都不好玩但当时的冲击感都很强最让你有冲击的最让我有冲击的还是大家一块去改那个框架本身就是你想着怎么去改进那个框架本身因为当时那个框架真的问题很多还有就是他的memory真的做得非常的智能因为我们在一个群里边大概有近一百个人然后我觉得那个Facebook的整个的Message的Channel应该还是做的不是那么智能的它至少没有那么把人跟人之间区分的很好但是它的整个聊天的上下文它对每个人的画像的把控然后以及每个人的Memory我觉得都没有串得太厉害就就就可用度非常高我觉得这个是模型能力强的表现这个跟agent框架没有关系因为在一个群里边你想一百多个人在那聊天然后一百多个人都有不同的背景一百多个人都在疯狂改它然后都没有把这个模型给改坏都没有把这套agent框架给改坏然后它还变得非常智能我觉得这也是我第一次感受到你怎么用一群人的智慧去提升一个事情本身然后如果说我自己单一的去改这个医学框架但是别人感受不到这个框架的智能我觉得它好像差点意思或者说这个框架本身的进步的速度是非常慢的但如果一群人去改进它进步速度是非常快的可能几个小时就跌了一轮类似这种感觉所以你会觉得可能所以我们第三天第四天把它接到我们自己的模型上去用的时候发现怎么也挺好用的怎么还没炫就跟cloud差不多了当时第三四天就这种感觉了但是你要测得更多你会发现还是有很多东西没有cloud的稳定所以你就但这个事带来一个冲击就是你会发现你利用群体智能去提升Agent框架是非常重要的所以我也很非常的非常的欣喜看到OMCO會不會那個STAR兩就飛升我覺得這是這是AGI到來前兆必須必須要有的事情對因為你一直對研究方向非常的敏銳我們基於我們上次聊過很多所以你覺得上面這些變化給你帶來了什麼樣的直覺你覺得未來一段時間會發生哪些變化就之前可能做研究的一个方式是你从你想到你写代码到你去设计一个很好的评估标准这中间的流程还是蛮漫长的就你至少要花两周一两周我觉得快的话可能以除非如果你的评估是确定的然后你的time是只需要修改可能你也需要一两天但是我觉得至少在agent有辅助的情况下他真的可以一两个小时就把这些事情给做完我觉得效率的提升基本上是代表着一个非常本质的一个问题然后这是我觉得在这个时代上做研究的test非常关键的一个原因或说你的研究效率非常关键一个原因其实我一直把研究效率看得很关键只是去放大加速了这个研究效率然后那么如果这时候你的test又比较准的话那么就一做一个准一个做一个准当然也有可能是十个里边有一个能成但是这十个可以并行做呀对十个可以并行做你不用像以前一样拍拍来做你可以十个idea交给不同的subagent同时做他们还能交叉验证ok那很快可能一个小时两个小时就会最多一篇你无非烧很多token嘛然后你就能验证你这个研究的想法哦okworkwork然后关键是它还可以如果你愿意长期的培养它还可以自迭代进化那在code里面不行但你换一个更开放的框架然后它是可以自己迭代和进化的所以嗯我觉得这是这是给我带来做研究的冲击吧嗯所以它是改变了整个研究的节奏对效率和方式都会发生我觉得很根本性的变化嗯这对你们后来带来什么样的改变在你经历了春节和春节之后的整个的冲击之后嗯你接下来做了什么其实我觉得接下来做的事情就是搞明白就是为什么code是一个非常有放话力的一个事情然后以及你怎么把code这种放话力给外延到其他领域对其实code它有放话力的一个最本质的原因是有分好几个阶段首先agent它是一个非常长程和多轮的一个任务对然后我们回到预训练环节然后你很难去找到说有比如说一兆上下文的数据甚至128K的数据你都很难去找到但是比如说真正能达到128到一兆这个程度的数据基本上都是只有两类数据大概率只有两类数据一类是code数据一类就是书籍但书籍它的信号太发散了code它的文件之间的关联是更强的所以当你在一个这种长上下文依赖跟密集的一个数据上去训练的时候模型它自然对长上下文的建模会更好对这个是我们可能在没有去意识到aging这个事是那么重要的事情之前我们就去做的事情所以你可以理解为这个基座本身它就为长上下纹的能力和效率效率很关键效率我们待会再谈长上下纹的能力和效率已经做好了充分的准备这个是在我们没有去受到这么大冲击的事情之前已经做了的但是春节后做的事情是你怎么去激发这样一个大的模型的潜力从扣子出发到外延到其他场景因为其他场景是你逊了它会更稳定但你没逊它它能被泛化只是说它没有那么稳定而一个顶尖模型的水平一定是要在更广泛场景里面更稳定对所以但code是拿它的上限然后你循其他领域是保它的下限我是这么认为然后所以就是你首先要把code的这种长程任务做得更多样性所以为什么软件开发那么重要就是软件开发真的是一个非常长程的任务你把它做好了基本上很多模型的通用的特质就已经好了不仅是模型通用的特质好了是这个Az的框架本身也迭代的非常好了对就像plan这种模式像这种厂商到一定的阶段你要去压缩压缩完过后第二天你要再去回顾你之前修改这些框架的设计本身其实是为软件开发做准备的但这种这些框架它都是有犯法性的它都能犯法到其他更难的长程任务里边去然后然后呃所以就是你呃初心先看然后做的事情第一是一定要在Agent的场景里边把真的长程的任务给他去啊啊构造出来并且训练进去然后呃并且在这上面去Scanning大量的呃SFT的训练和RO训练对然后第二个就是我觉得还是你要考虑他的繁华性的话你还是要覆盖更多的领域所以但这个时候怎么去去覆盖更多领域我觉得就是要要靠啊更多的靠群体的智慧就你让更多人去用它然后基于更多人去用的比如说我们内部会大量去使用哦我们会让我们这个模型首先在哎公司内部去推大量去人用用了过后然后我们发掘到更广泛的场景在这个广泛场景里面去合成更多的数据来做训练对嗯然后这里边很关键一个问题是嗯你怎么哦还原当时索尔用这个事情的环境嗯对因为有这个环境你才能更好的去呃进行更长程的交互然后并且呃有了环境过后你才可以针对这个环境本身去做哦呃更精准的如果的设定对然后这个事情是比较有难度的然后我觉得呃也是我认为在这个世界上如果投入的算力足够多的话研究的时间足够多的话应该会有一些代差的模型的出现对这个你们现在是怎么做的现在才做的保密真的要保密和reward设计我觉得等我们把这套范式给给领到一个很大的量级的时候我觉得我们会开源告诉大家对但是做长程任务不是会中断吗其实真正的依照上下文里边很基本上很少有任务是在做一个任务对它通常是在做复杂的任务对所以其实你要把一兆上下文做得很好当下阶段当下阶段好我说当下可能就是当下一两周的阶段不代表未来两三周的阶段就是可能并不是真的要找到要把一兆上下文塞满的任务当然你要找到那更好但是这个任务是很难的而且它的训练效率太低了就是你要训练完一招你要route完一整个trajectory一招的trajectory它非常慢哪怕我们现在的TPS能做到80到10像在MimoVRPro上能做到80到10的TPS你要说玩一招商人也是需要时间需要可能一两分钟的时间了所以所以其实真实的训练不会在这么长程的任务上去但是当你有在一兆的container去训过预训练过并且后训练有对应的任务稍微激活它一下它通常就能在一兆的container里面具备这样的一个能力但是我们需要再提升对需要再提升所以你看现在Cloud在我觉得真的在一兆上下文的能力的稳定度上基本上现在只有Cloud的4.6Ops和Sunlight是领先的其实其他像Gemini像雖然仿稱是廠商效果能力很好但其實都是不行的你覺得量化裡面挖掘因子會是好的長程任務嗎看做的是什么资产对就是有很多资产它它的reward太太不清晰了对嗯有些资产是大部分的资产是不太适合呃做长程任务建模的嗯这个具体我就不展开说反正就是某某些资产是非常不适合的因为它它就回测是没有没有价值的然后你要到真实的环境里面去run的话它有可能不是不是短期的因素而是一些更长期的因素或一些额外的一些alpha本身被这个模型建模进去的一些东西所以得选资产就是选选选对这个就ok我觉得嗯关于你们的新模型我们放在后面说我们先把OpenCloud这个话题聊完你观察就你观察你觉得OpenCloud是怎么样的一个火起来的炼路而且我明显感觉到在中国它的火的程度比在美国要更强这是为什么我看到还有一个很好玩的说法叫西夏东洋叫什么西夏东洋西夏东洋嗯因为我不了解完全对它的热度哈对所以我我仅从你的视角对仅从我自己以及我身边人的视角我觉得可能的一个原因是就中国的开发者我觉得是更更更多的就是我说开发者是指他可以用code去提升他的效率的场景可能是要求更急迫的对要求更急迫的就我觉得对于效率的提升好像是我们的血液里边的东西然后嗯所以我觉得Opencloud能把这个事给效率提升给达到极致所以我自己感觉这是它火的一部分的原因之一当然我觉得还有个原因是我觉得跟国内大冒险的发展严密一些相关绝大部分的效率提升的场景目前确实不需要那么就是可能我觉得85%不需要最顶尖的模型所以然后我们又有那么多便宜好用的模型可以用然后你一算这个性价比是非常划算的就是这个模型的API的费用跟它这个它替代的生产力的价值的系数比是很大的所以你去体验它会更有动力它可能花十块钱的API就能帮你干完一千块钱的事情那你肯定很愿意用但如果你的API贵那么十倍或几十倍中间那个差距很小那么你会很排斥的去用这样一套很复杂的东西对去优化它对但是关于agent其实已经讲了一年了对吧就是去年年初的时候大家就开始说这是agent的元年为什么到现在才开始火你觉得这个跟去年有什么不一样对就我觉得我认为之前讲的一件事应该都是非常在我的定义里边我觉得它不算一件事它只能算是一个上下微稍微比差的复杂一点点的东西就不管是像BrowseComp像SweepInch然后这些Search和Code的Agent的框架其实都非常的简洁就相比于现在的CloudCode也好相比OpenCode也好它的Agent框架太过于简洁了然后这样的简洁性就导致首先它简洁其次它不通用对就这样过于简洁和不通用导致它只能for这个任务来设定所以那些我们看到在BrowseCampSwitchSwitch有它的问题是因为它本身关注的领域也太单一了就去修bug它并不是for真正的软件开发对就是我觉得在至少在去年上半年乃至下半年很多看似fullagent的模型它其实只是说我换了一个更复杂的SystemForms然后稍微带一点点环境的反馈稍微带一点点环境的反馈比如SweetBench还是有环境的反馈的TopBench也是有的然后稍微带一点环境的反馈和交互然后让模型具备一点遵循复杂systempoint和理解环境交互的这样一个能力我觉得那会儿只能是做到这个水平但是它根本没有达到工业级可用的能力就你最简单就是什么叫工业级可用就是你把它接到QRCode或OpenQuery里边去用你会发现它不可用它有很多问题对最简单他他就理解不了这个这套框架本身然后他也也没有针对这套框架本身人跟他的交互范式会发生变化比如人跟他交互范式发生最大变化是人不再会去修改代码人不太在去在乎关注ok这一行代码出错了你帮我改一下就就这样的query是不会再出现的然后人只会提一些更高阶的比如说增加限制增加限制就是澄清需求然后价格设计人会参与价格设计因为现在好多价格设计还是人更强的以及辅助理解业务逻辑这是skills的含义的价值对这个业务逻辑是是模型本身不具备的因为这很多业务逻辑它是企业内部的东西对或说呃或说真实环境里边而沉淀下来的东西这个你必须要跟他很多轮交互才会沉淀下来的东西所以我我认为之前那些一键换甲就就不能叫一键换甲吧就没有任何可用度然后在那些呃benchmark上表现非常高的模型也不代表它的一键能力是真的强对所以我们在优化这一版模型的时候是完全放弃这些Benchmark的我们基本上就不关注这些Benchmark了就我们当你面临一个很大的范式的变化的时候其实只要你路径走对了其实你可以短暂非常短暂的一个窗口期你去忽略评估因为你靠体感你就能立马测出来一个非常大的质的差异对但是当你慢慢迈入深水区的时候还是需要一些非常精细的评估的所以scale是不是改变了模型的生态改变了模型在这种高复杂度就是流程复杂度的任务上的执行的准确率对因为它其实定义了一套执行的规范对然后这套执行的规范是很难在预训链的数据本具备的因为预训链数据本没有这种interload信息这些信息通常是大量企业内部自己去沉淀和积累的这种由人和人之间产生的一些组织上遗留下来的一些规范我觉得更多是组织上遗留下来的规范然后但是就这不可能在训练数据里面出现但是可以有人教agent跟他多轮交互通过完成几个任务把这套规范让agent学会所以agent就会所以现在大量skills其实是agent自己写的对但是skills也是在cloud裡面誕生的對不對但是這就是出現一個問題就是確實是opencloud把skills這個事給帶火的我說帶火就是它讓更多人去貢獻skills這個社區這個是非常關鍵的因為这就是属于我觉得人跟A技能需要共创的地方如果你没有那么多高阶你没有那么多这种另类信息我觉得它却是另外一种alpha它是另类信息跟当前的agent工创的话那么agent或说最顶尖的某些能力也很难发挥出来这也是你说的那个群体智能可以这么说人的经验变成skill变得如果更重要了它是不是预训练的一种补充对因为预训链其实它大部分依赖的知识还是你在互联网上可访问到的知识但很多知识或者说呃很多智能应该说很多智能我们是在互联网上访问不到的对嗯那么这个时候它就以另外一种形态出现我觉得现在skills算是一种吧对它其实提供了一种交互的方式让人去主动贡献数据嗯对贡献更让模型呃执行任务的成功率更高的方式对如果重新来定义一下所谓的因为我以前有deepseamoment然后有openeye有chargeabilitymoment如果重新定义一下这个所谓的opencloudmoment你会怎么定义它嗯这个版本它会更时间线更长就是因为它前序的章节太久了那大家不会觉得它是个新东西然后它后续的章节呢但是我觉得对于我们已经信这个事情的人而言比例这个事情而言我们反应速度足够快的但我不知道其他人有没有followup上对所以就是从我的个人的感官上就是这个moment它会延续的时间更长更深远它不是这个更深远是说它可能能力更外放到更多人能感受到的场景里边去所以它更深远但是它这个流动是需要时间的对就它的能溢出的能量能力更强强多比超爆它不像它没有一个非常清晰的那么清晰的例子像OERE它会有一个数学代码这种有光处死的一个东西在这OK你FLASH上去了模型就具备这个能力的像一个非常清晰的标准的界定当然我觉得有Agent了其实确实有很多场景你是有需要有清晰标准系列的但大部分的场景是没有的变混沌对对对所以所以然后它产生的价值也是慢慢的到一个临界点突然经营大步其实Cloud4.0Ops确实是这样一个经营大步的突然的一个时间点然后但是Osobio做这个事情这个路径也是持续了两年的至少有两年的我们能看到那刚刚为什么这个事情不是Unthropped自己做出来我觉得还是就一个开源一个闭源的原因吧就是闭源的框架你是没有办法去洞察内部的设计的所以你没有办法利用大部分更多人的智慧去改进它但开源就是你就可以用更多人的智慧去改进它可能也不符合Andropic对安全性的追求其实我现在觉得安全性绝大部分还是模型本身应该去追求的事情对我们不能太过于去要求一个框架本身是过于安全的但框架本身可以做非常多的事情但是我觉得开源跟安全性并不冲突因为我们会把很多数据授权给opencloud如果我们把大量的个人隐私数据授权给它的话怎么缓解就是更多普通人对于安全性的这种焦虑所以其实我这是我为什么说要做开院的原因就是我觉得还是会有一天而且应该很快也会到来就是人的大部分简单的任务就除了那些非常难的任务就是其实跟隐私相关任务有很多还是没有那么高难度任务其实你完全是可以放在本地化去做的对就你自己会有一自己随身携带的有可能随身携带有可能是在家或某个场景边有一块芯片对然后你所有的数据都在本地然后所有的涉及到隐私数据的的这些场景都在本地推理这是很关键就是在本地推理然后涉及到一些非隐私然后高难度高创造力高复杂然后我再去云端推理其实这样是能够结合的然后这也是为什么我说一个好的进度框架借助一个我自己觉得很小的3B的模型它发挥的这个它自己能做的任务的复杂度都已经超乎我的想象了然后就这个事激发了我自己对于其实比如说随端云混合也好随隐色本利化也好有一些思考但是我觉得还很初步对因为这些思考不仅是需要模型这一侧做非常多东西还需要本身架构这一层要一块往前走所以这也是我为什么觉得开源是如此重要的一个事情的原因就是我觉得这需要更多人一块来做而不是某一个公司就把它能做好的对接下来你觉得我们会看到什么在OpenCloud已经火了这么几个月之后就206年大家会寄予它做什么国内已经有很多动作了出现了各种的Cloud包括你们MemoCloud嗯就是其实所谓现在很多很多cloud只是让大家以一种不同的交互形态然后去访问到不同的模型和不同类型的框架但是我觉得真正那种去让这个框架自迭代或說更強調自淨化和自理的框架我覺得還沒有大規模的誕生和出現以及你怎麼去利用絕大部分人的智慧去創造一個更強的框架嗯也还没有出现嗯这两层一层是框架本身的资金化一层是呃一一层是agent本身的资金化一层是agent跟人之间的资金化我还没有看到就我们现在做的其实是怎么train更好的modelforagent呢以及怎么让agent去适应这个model对其实是在做agent跟model之间的双向流动但还没有在框架层我觉得未来需要做的事情其实是怎么让框架自己进化以及框架跟人互相进化这是你们现在的着重大致的方向对我会去深入研究的事情你觉得现在没有做到的核心的缺陷在哪里就可能补足了某一个短板它也许就能成了缺陷是我们刚坐到这里我觉得我也不知道说不定坐不坐反正我觉得就是只是因为时间原因我们刚坐到这里而已然后未来的这个加速度是会很快的不仅是我们我觉得应该是这么去定义现在只要拥有一个nonconvex非常efficient的模型架构的厂商并且他在作业训练阶段把code的能力也做得非常好的他有这样一个model这个model参数量可能至少我希望我觉得至少1T以上吧对只要有这样的一个入场券的人基本上都处于同一水平线去做这个事情当然我手笔肯定是走到前面了我只是说目前上一个时代的成功并不意味着下一个时代的领先现在基本上它在同一水平线这是一个什么样的时代Agents的时代怎么定义它就是我觉得就是生产力加速变革的时代对今年生产力会爆发对吧对从这就是大家会觉得很多工作不需要自己做了这是最直接的一个感受从只要你接触到这个事情过后你会发现你的好多工作都会被替代掉那么这个时候人应该去思考就是说到底自己的意义和价值是什么所以agent能做什么样的高价值任务是不是变得更重要了你要从提升顶尖模型人能力的角度上来说肯定是让agent去替代更高价值的任务是重要的因为更高价值的任务它意味着更长的context然后意味着更多的token消耗量它肯定是更多的token消耗量然后意味着它替代人的它最终这个能替代到最顶尖那一群人的智能就够了其实因为下边那一群人的智能是可以慢慢的以另外一种方式来替代掉的比如说Robotics对然后总之就是如果说要为了FOR追求更强的某些能力的角度上来说肯定是完全FOR更高价值的场景做是更有价值的对呃但另外一个演变角度是说你是要做一个对全社会更有更有益的对所有人都有帮助的一个模型那么就不应该服更高价值的场景去做而是让所有人都能感受到这个模型的智能水平那么它可能是另外一种做法有可能是另外一种做法对是一个普世度更高的人物可能会更好一些就比如说在这种场景里边你就更需要在乎多么态因为在更更更更广泛场景里边多么态尤其是对视频的理解对于一些更细微的环境的理解然后嗯它是更关键的然后以及就是要注重成本成本是产生革命非常重要的因素就你不能说你完成一个任务要花一千刀对吧那我觉得很多任务场景就除了很多任务场景觉得它必须要达到一个很高的一个替换系数比你能帮我节省10倍的成本我可能才会考虑去试吧对所以这个时候你怎么去做一个更低成本更高效率速度更高速度的呃这样的一一一一套意境的框架以及对应结合的模型那就很关键所以这是两种两种发展思路对你会怎么定义206年嗯我觉得我很难去定义它因为因为我嗯我觉得两个月都已经现在对我来说是发展巨变的就我们做两周的事情我觉得基本上就让我们很难相信这是两周内做的事情就是在过去两周发生的事情所以我都不知道这一年接下来会发生什么基本上是处于在这种高度幸福的状态我很好奇啊就是从20年底CHP诞生然后当时大家就觉得AI一定是生产力革命到今天就发展三年你觉得它带来了哪些先决条件让今天的生产力爆发可能成为一个更可能的时间点就是它的是哪些条件变得成熟了就我觉得第一个关键点是不再是算法工程师在做这个事情了我自己会把这个事觉得是一个非常有标志性的节点就之前是你会觉得只有researcher或说算法的人在去考虑怎么去提升智能水平但你现在会发现还会有就是所有懂写代码的人不认识代码的人都在一块去考虑去提升模型的去提升这整个东西的智能水平我觉得这是最主要的差异就不管是他是在写skills也好去改agent框架也好还是去设计更好的研究范式也好这是三个层面其实我觉得是所有人都在让自己的智能去加速这个事情这是我认为最大的一个变化我突然想到Pick去年底的那一期播客里的最后一句话他就说agent的进化需要所有人参与对所以现在是让我有这种感觉而且现在其实现在已经是了只是现在唯一唯一没发生的就是我刚刚说的agent跟人怎么更好的更加速更加速因为agent也要自迭代人也要自迭代通过聊天嘛对聊天是一种然后那会不会有一些更自然的方式嗯你有一些思考吗就比如说我要是真的能带一个非常好的设备一整天跟着我然后我所有说的话我见过的人他都知道我觉得他进化速度应该比我快我自己认为他应该比我快因为因为因为他他他的他会比人依赖的算力会更多嗯然后嗯他会很快替代我对而且他是他他不会今天记得明天不记得他是非常稳定的而且他是只有进化的一条曲线而且他乐此不疲他他不需要休息你刚刚提到那个说国内的人有我们club更热更更热情那完全人现在是怎么评价的模型公司的人不是很care这个东西我感觉模型公司的人不是很care这个东西哦哦ok那那真的跟我们买不一样他可能觉得这个事情不难嗯我一开始也觉得这个事情不难然后到后面我就觉得它整个A型头的设计是非常巧妙的我说这个巧妙是指我觉得它弥补了很多模型短板它是怎么精巧巧妙的去构建的这个编排啊我怀疑这个原因是它最开始是基于Cloud上一代模型去做的就Cloud上一代4.5哪怕是OpsSunnet其实是不够那么强的所以你就要必须在系统的设计上Agent的框架的设计上你要设计的更精细一点去把它这个短板给补起来对然后这就导致了Ops进步了但是国内的大部分的模型可能刚靠近Cloud的4.5Sunnet和Ops的水平然后反而这两个在这握手了我觉得是这样一个原因那如果模型的人提高的话他这些轻巧的编排还需要吗还是需要的就是出于对成本的考量是需要的就是我们永远会去追求一个成本和效率最低的一个一套方案这个是生产力革命的非常前置的要求所以不可能说我们所有的场景都用最顶尖的模型因为它太贵了所以更有可能是agent在进化模型在进化然后模型进化的方式有可能是同一个水平的模型在越变越小它也是一种进化虽然我们没有在做这样的事情但它确实是一种方式也就是说现在可能激活10B的一个模型可能过一年它就能做到靠的4.6ops的水平这个是极大概率会发生嗯那那那激活识别模型是很便宜的然后可能一两块钱就能有百万的上下文所以那你为什么不用一个更小的模型它反应速度更快更灵敏基于这套一点点框架还很好用你还可以改这套框架那为什么不用抱它了对嗯所以它其实让不那么好的模型有了更好发挥的空间对它的上限更高它对哦所以其实更符合国内的叙事对吧不知道国内叙事什么但是会让人很想用它替代自己的工作所以需要小尺寸的端测模型爆发吗这个趋势肯定会发生但是我觉得它不是26年的一个主要的旋律它是一个支线而且是会持续发生的事情86年的主要旋律就是生产力的变化高生产力场景的持续突破所以我们要做更长程的任务然后更强调多意境的直接的协作因为更复杂的任务它不可能是单意境的去做的但多意境的协作某种程度上也是为了成本的考量对成本和时间的考量对然后以及怎么去激发agent这个群体的智慧我现在觉得现在市场上的现在已经看到的multiagent的工作都有点伪我说这个伪是说真的依赖于multiagent能够实现更好的最终的任务的完成率在这个纬度上我觉得是有点伪的但是它能提升效率就是速度就是这个任务完成最终的速度以及它最终能够节省成本这个是确定的multigen但我没有看到说multigen一定最终能够实现一个更高上限的一个东西但但它会发展它现在只是我目前还没有看到所以今年的叙事其实跟前三年已经发生了很大的变化嗯我我我自己是怎么感知到的KIMI的人跟我说他们觉得他们跟豆包已经开始玩不一样的游戏了豆包元宝阿里都在玩互联网产品的游戏因为他们在打DAU然后KIMI的人他们是觉得他们在就是走了ONTROPIC那条路你们在玩一场什么样的游戏啊就可能我们追求的事情是我自己觉得什么时候能够超越自己吧我是这么去定义的因为我觉得我对AGI的一个定义会非常的模糊的一个原因就是因为我觉得没有必要去追求一个非常清晰的一个AGI的定义但AGI发生的时候所有人都会感知到的就是因为你发现每个人的生活你的生活方式你的工作方式已经未知长达很长的时间已经慢慢的被它改变了所以在这个过程中追求DAU追求这些东西它并不会改变我它并不会促成这个目标就是让这个模型代替我它并不会促成这个目标所以我就完全没有在想这些事情而如果说我们去追求一些中见的目标比如说你去追求token消耗量你去追求它完成更高价值的任务它是在往这个目标去靠近的对因为要完成可能替代我自己的任务它确实是需要更多的token消耗量他需要具备更复杂的context他需要去调动其他人的智能水平团队管理其实就是要去调动其他人的智能水平技术创新也是你需要具备更多的数据访问的权限你需要具备给你一个集群你会用一个GPU集群你会用它并且你要自己去定义一套评估标准当你在这个集群上训练一个模型过后你怎么去验证这些事情就是我想象的是我们应该让这个模型结合一套框架本身应该去完成这些事情和任务而不是去追求另外一個敘事上的事情所以我就沒有太理解他們那個敘事吧你說DAU的敘事是吧對就是我自己覺得這個敘事就不太符合我自己的我們做研究的一個路徑過去兩個月你覺得你的生活發生什麼樣的變化生活就是亢奮就是你感覺每天都會发现Agent的框架本身或模型本身又进步了所以今年带着给你很强的AHAmoment这个可能比过去的Tripod更强对而且它是持续的就是它持续的就是你感觉它停不下来这是比较大的变化我觉得RE可能就是那一阵儿就你去体验它的那一刻你用到它了然后你发现它具备很好的思考能力了然后这个思考能力从CloakMask外放到其他领域也就是那一刻然后那一刻完活后你没有感觉它有持续性但agent这个事儿上你会觉得它一直在持续我觉得这种持续性是呃是完全不一样的感受因为有这样的持续性所以你会更坚信这个事儿它在全面加速嗯有什么样的一个任务是你过去觉得它绝对不可能做到但是今天可以做到的就虚模型这个事儿我自己觉得以前我认为是很难的嗯因为你要涉及到跟一个更复杂的比如深度学习平台的融合听起来就不太靠谱然后以及你怎么去让模型具备你有的context因为一个研究员他要有的context是很长的就你要经过很长的科研的培养比如说一个博士他有5年的科研的培养对吧你怎么让一个大模型跟你有一样的contest这个事是很难的我之前认为是不太可能的但是我最近发现原来他很聪明聪明到你只要把你近期的contest告诉他他甚至能帮你复原出来你自己的科研的成长路径这个时候你再去跟他讨论同样的topic的时候你发现他跟你一样聪明就这个事是很残酷的就我之前认为我们自己做的工作已经是足够有创造力足够不会被skill化不会被workflow化的但我现在发现他竟然也能然后也就说可能过一段时间他真的能训一个我们能训出来的模型他也能训出来了那他可不可以训出更强的模型呢然后他就自己左脚踩右脚就提升了我觉得这个事情是很有可能发生的这个可能是一个非常大的转变对所以他可能真的能依靠于他自己产生更强的智能进化他先吸收所有人的智能然后再靠自己产生更强的智能我觉得这个事肯定是就在这一两年发生的事情我刚才听你的整个描述我会有一种感觉我觉得你训模型的方式好像和你管团队的方式有某种相似性主要的原因是他确实需要群体智能对不是个人英雄主义当然不是就是他需要每个环节上都是足够believe和极致的人什么叫群体智能在模型训练上可能不同的agent呢他需要有自己的context然后有自己context的原因是当模型能力没有那么强的时候有自己的独立的context他会更他会更专注对专注还是蛮重要的就你的context不会混乱然后他能完成的更准然后所以就是你可以理解为我们现在去模型可能需要非常懂info的人然后去写一套非常好的训练或推理的架构然后需要他从推理的视野去倒推跟做能懂模型评估以及模型训练的人一块去定义一个非常好的模型结构有这样一个中间的collision的合作然后这个非常懂模型训练和懂模型评估的人又要学会去跟做数学的同学去进入去沟通说OK我们要赋予模型什么样的能力我们需要去构造什么样的数据然后同时呢做数据这一群人他又同时需要参与预训练跟后训练因为预训练跟后训练他的数据的sense是通的对然后嗯这里边其实你要你要争分的话还是有很多subagent的但这些subagent之间他们的context有独立的地方也有关联的地方然后我觉得这样一套复杂的框架现在目前看起来是能够被被模拟出来的确实能够被模拟出来的然后这也是我为什么我自己玩OpenClose的第二天我就开始让他去当时我在家嘛然后我就让我家里边的每个人就我爸爸我妈妈然后我老公然后嗯每个人都有一个自己的subagent我们达到一个非输区每个人也可以自己跟自己的独立的subagent去聊天让他自己进化然后我就会在那个群里面我会派一个任务给他们的subagent让他们干因为我们的contacts是不一样的然后让他干确实他会因为他有更好的contacts所以他会干得更好也就是这样一个很粗浅的尝试我相信就是这个事应该就同样很简单的事情它换到一个更高复杂度更有创造力的场景只要模型能力跟Agent框架本身在进化应该也是可能做到的嗯我想到刚才有一个点就是关于框架你要不要有一个完整的表述就是智能体的框架智能体的框架嗯其实智能体的框架我认为是一个现在就有很多形容词去形容它比如说HarrisSkateboard然后还有一些其他形容词就我没有特别去专注说哪个形容词是更准确的对然后我更关注的是这个框架本身它带来的一些差异化的优势是什么然后就比如说我认为一个非常好的框架它其实应该是去尽量去弥补在行动上的缺陷的很多很多东西都是在弥补行动上的缺陷就比如说很好memory系统是弥补行动上的缺陷然后接入到了更多的广泛的message的channel是弥补行动上的缺陷然后以及他更主动他更主动不管是定时任务的主动还是他他有一些其他方式一些主动的设计以及他自我去更新迭代其实这些都是在弥补行动上的缺陷因为大模型是你给它不管是你给它越好的context它肯定执行的效果越高所以你要是能把这些它获取不到的context这些行动上的context都给它那么它肯定会完成的更好所以这是我看一个好的框架的时候我会看它有没有这些要素然后那么当然这里边还有一个很关键的一环是是评估就是一个好的框架本身它确实是需要有个很好的可泛化的一套评估体系的对然后这样它才可能自迭代然后这里边是现在已有的评估体系其实都非常的简单它只是为了防止它不出致命性的错误对然后那么你怎么有一个更有放话力的一套评估体系然后来促进这一套框架自抵赖其实现在是把最高阶级群人当评估就是你交给他一个更难的任务更高价值场景的任务然后他完成不了你会给他提供补充信息嘛然后你也会给他指出来哪错了然后push他经过更多人的交互能把这个任务给完成所以其实本身上现在是这群人在当评估但是这个屏幕会慢慢的被框架吸收框架会设计很多东西来确保在某些确定的场景我能凭准同时也会被模型能力吸收就模型会学会像人一样当我采用这个方法或思路做到这儿瓶颈的或者说怎么怎么样他会自己采取另外一种思路或者说自己去反思就像人一样去反思当然了他是不是接触他自己还是他是去接触一个跟super的agent还是一个其他领域的agent那都是有可能的但这个是目前这些框架还没有太去其实最近一个月已经有一些框架在去关注这些事情了对因为在OpenCloud发了之后就国内的很多团队都推出了类似的产品你觉得它们有不同吗比如说QQ的团队有你们团队有Kimi有Minimax有它们有什么不一样我大概只试了一半对只试了一半我觉得大同小异就是让这个大同小异真的就是让OpenCloud变成一个laychart的形态让你去感受到我还没有看到一个我自己觉得至少在改agent的框架本身我觉得你这种产品你知道要去迭代框架本身吧还没有看到一个比OpenCloud开源社区进步更快的因为OpenCloud开源社区进步太快了然后我还没有看到比这个开源社区进步的更快的这样一个agent的框架或者说产品出现我还没看到所以我宁愿用最新的OpenCloud嗯你看OpenCloud不久之后就卖给了OpenAI你觉得是为什么呀为什么就是这种非常不错的产品公司最后还是并给了模型公司这是不是说明没有模型做产品还是比较难呢对我觉得就是就这两个应该是一定要深度我活的一个事情然后但很好的是OpenCloud它开源的这个事儿没变所以你还是可以在这套框架的纪录上大家一块去设计更好的Agent的架构所以这个事儿本身没变只是说可能做这个事儿的一部分人的立场变了而已然后这个立场变了maybe是好事有可能是坏事但总之它不影响opencore本身开源的属性我觉得就是就至少我说这种群体演变这种可能性和基因火种是保留了那就挺好的那我们来接着聊聊模型上次我们聊天其实是在你们的VRFlash发了之后这次已经又发了三个新模型ProOmni和TTS并且你把它称之为一次悄无声息的腹肌为什么这么说呀为什么是悄无声息的又为什么是腹肌首先它这三个模型它在Agent的场景下表现提升能力提升这么快或者说我们能这么快去追上在复杂的Agent的架构里边它表现这么稳定是超我们预期的就是不是我们计划得非常好的而是我们一下大家觉醒了然后就爆发了你们觉醒了对然后就对是这样一个context所以它确实是一个很安静的我说安静就是因为外部不知道我们自己内部也是快速发生了一个事情然后第二个就是我们其实在一年前去做这么多魔态的时候其实更多的角度还是说如果真正产生智能应该这个智能是全分位的多方面的所以去做了对多模态的一个理解以及最终你产生你智能最终要产生价值一定是要有交互的所以要去做语音的生产对嗯但这只是但一年前做这些东西的时候它还不是很明朗就你还是觉得你还是在做一个单一的模型你在做一个动态理解模型你在做一个语言的生成模型然后你没有觉得这些东西它能够很好的去被组织和编排到一起然后当我看到OpenCore的时候我自己就一下就想到这样的一个画面就是这些模型在各自在什么样的环节发挥什么样的作用它们能够怎么被有效的编排然后以及它会产生一个什么样大的一个生态的价值一下我觉得就在我的脑子里边就全部给打通了所以我们快速的让所有方向都要面临到这个范式去做后训练的针对的设计嗯就是这个原因所以你现在如果能在OpenCore和CloudCore里边同时用这几个模型化你会发现把它串起来很好用嗯就很肯定比用其他家模型可能好用一些然后或者说至少这是我们往后迈进的一个目标那为什么还是后面这三个模型不是合到一个模型里面去我觉得更多的就是出于对于成本和速度和价格的一个考量就比如说语音生产你没有必要去用一个1T的模型他的实验你也接受不了对然后比如说多姆塔尔理解他是不是值得一个更大的模型然后那么这个事我觉得都是要去打个问号的然后因为我觉得Agent的革命就本质上真的是生产力生产力就必须要足够去在意最终它端到端的完成率以及它的成本效率对然后这是现在三个模型同步出现的一些原因然后以及我们后面应该也会有一些计划怎么让三个模型更好的写作嗯对就是你所谓的编排现在有什么样的一些knowhow吗怎么样编排是更好的编排嗯首先你从任务类型来说比如说你最简单的绝大部分的任务类型你其实是可以只用语言模型来做的对然后但是在因为现在我们完成整个任务的环节太长了在某些环境上如果你意识到你是需要调用你其他像人一样感官能力的时候然后你就去用另外一个更精巧的模型让他来做得更好类似于这样的然后而且你而且因为这三个模型是同一个生态训的所以你能知道他们的background的你能知道我知道的知识他也是知道的然后所以你能放心的把你觉得他能完成的任务交给他做你不会担心他不知道你有的背景知识这个背景知识是来自于训练的目前这些三个模型在同一个Agent框架里边去释放出来的潜力跟你去组装其他模型释放出来的潜力的差距是很微弱的目前是很微弱的但我认为未来不会因为未来它是一个效果成本效率三者的一个成绩就未来你不会觉得但是目前你会觉得它是微弱的这三个模型你们在bet什么呀这三个模型的关系是什么呀就我觉得在bet全方面去替代替代人的生活和工作的方方面面所以你就必须要具备这些能力你看pro我觉得它是在做理解和认知做更复杂的调度OMNI是在做感知TTS是在做音频声音的输出它是一种表达这三个加起来是一种类人的智能吗反正它把人有的智能的表象输入和输出给建模了对但是他有没有人的各个感官之间的协同那么好我认为现在还没有做到但这也不纯粹是模型上没有做到还有就是框架上也没有做到就比如说现在OpenCloud他对于视频的理解和建模是非常差的它整套架构因为为什么呢因为就是因为开源社区没有一套对于音视频联合理解的非常好的开源模型的出现然后并且这个模型还有很强的一级的能力就没有这样的模型出现所以它在框架上的发展是滞后的所以它现在对视频的理解会回退到去理解图甚至到最终会回退到理解caption上就回退到一个成本的智能水平上所以这也是为什么要做开源的原因就是因为只有开源界看到一个更强的视频理解的声音声音生成的这样的一些模型过后它对应的框架才会发生改变对然后只有这两个就框架其实它是一个协调层吧对只有只有这个协调这一层然后以及这个模型这个智能的中枢这一层这两层很好的交融的时候那么可能才会达到类人的智能嗯那我们来围绕着VR一个一个来聊虽然Flash已经过去了一段时间它是你们去年12月16号发布的当时做Flash的时候你们的核心定位是什么呀这个被大家认为是你在小米的第一个工作第一个作品其实Flash跟Pro基本上是同期训练的然后因为它们的模型结构非常近似但是我们在设计VR这一系列不管是MimoVRFlash还是Pro的时候这个模型架构本身有一个非常关键的一个目标就是我们要forlonghandless的效率来设计模型结构当时是有隐隐约约预感到agent的时代noncognitive是非常重要的或者说有预感到noncognitive会产生智能的但是我们没有预想到会不会是opencore我觉得这种形式好但是已经预感到noncognitive一定是一个非常重要的问题然后那么noncognitive的效果以及最关键的推理效率就是你的成本和你的速度要很快成本够低速度够快那么就是我们这一代模型结构必须要去追求永恒的命题因为你成本够低速度够快你有可能可以把一兆做到十兆甚至一百兆其实现在所有的模型结构它都能迅到一百兆但他为啥不把这个模型提供一百兆的推理除了效果一般以外我觉得更多是出于对成本的考量就一百兆太贵了就是你可能到后边一兆过后到一百兆这个范围内它非常贵贵到你根本就不想用它对所以就是我们当时就为了这样的一个核心目标去设计的这个就是HybridRotation的结构当时其实另外一个更主流的选择是用MIA就包括现在我觉得同期跟我们开始训练的应该是JOM跟KIMIKIMI更早一些K2更早一些然后其实他们都选择了MIA就DeepSeek其实MI对于Chart的时代来说确实是一个非常优秀的模型结构因为它甚至它对于常务来说也算是一个还不错的模型结构因为它大量去减少了KVCache然后对于常务来说你的KVCache很宝贵然后但是它有一个我认为是不那么去适合Agent这个范式的一个最根本性的几个要点第一个就是它其實是因为MA在设计之初是为了去达到很好的仿存跟计算的一个比例在当前的当时的H系列的芯片上为了实现一个更高的一个就是我既不浪费我的算力又不浪费我的又要把那个仿存的瓶颈给打破所以是在这样一个架构下设计的然后在这样一个架构下设计出来的模型架构它没有任何可发挥的空间我只可发挥的空间是指假设我们认为KV开始是重要的并且我认为推理速度也是重要的那我能不能用一些让它推理加速的方式比如说最简单的推销编码MTP就是一种方式然后让它实际上推理的时候加速N多倍但是MAA是不太行的因为MAA它已经达到一个LBond和MemoryBond的一个非常完美的一个临界点你要是用MTP的话你会发现它又卡在那个计算Bond上所以现在你看所有MAA的模型结构不管是GMO也好Kimi也好反正他们我猜测应该都没有上MTP因为他上了过后他又被计算棒的然后计算棒的他就很不划算所以他的模型都会慢一些会觉得大家对MIMO的我们第一代Flash哪怕是ProFlash能做到10到150TPS然后Pro现在我们也能做到就看成本哈看成本因为基本上是能做到60到10的对,10TPS肯定会更贵一些,对,所以在这样,所以大家用MIMO的不管是用FlySharePro的一个感觉是,哇,好快,对,然后这就是这个结构,尤其是针对noncollapseefficient的结构带来的一个优势,然后同时呢它成本有够低因为Hybrid的吞讯包括在Pro这一代上我们给它拉到一个更极致的Hybrid的比例就是它的Floor层跟SidingWindow层的比例会更极致达到了7比1的一个比例所以它更省KBCache所以我们基本上是在这一代结构上实现了通过sidewindow去减少kbcache让它在长纹上能够支持更长的长上下纹然后同时通过MTP把sidewindow的tension节省的那个算力节省的那一些tension的算力然后把用MTP给它填上这样子他能达到一个在实际推的时候仿存跟计算一个很好的平衡然后同时又去兼顾了长上下午的成本然后以及他的腿速度虽然我们设计模型之后没想那么多但是基本上就完美的非常适合做agent因为agent对agent来说厂商项目非常关键然后很小的kvcash也很关键因为你很小的kvcash你能做更多的多节的缓存缓存命中的话会非常有利于节省你的推理的成本然后然后再其次就是速度是一个还蛮关键的一个命题然后你一旦体验到了更快的模型以及智能水平相当的更快的模型你就回不到那个更慢的模型的水平了对所以我觉得MimoVR,Flash和Pro大概是这样在这样一个背景下我们同期的开始去进行训练的放在当时你当时为什么会选择MTPMTP的选择还真的是蛮厚颜的就是是我们这个模型已经快逊到中后期了然后我们觉得我们把这个模型开始为它去设计推理方案了然后我们在我们自己的那一代的推理卡上去实际的去设计推理的病情方案的时候发现他的计算剩余的实在太多太多了就我们没有想到他会剩余这么多然后所以那你就想的是怎么把这些剩余的计算给他有效利用起来那么MTP太适合了然后但是我们在预训练阶段加上MTP的原因是它确实能提升基座的能力这个我们跟DeepSeek是一样的就是预训练加MTP是因为MTP能提升它的基座能力推理的时候为什么只有我们用MTP的原因是因为我们的模型结构天然在计算上有留有大量的富裕然后这个时候是我们在后边去设计推理架构的时候很突然有一天悟到的但也不是突然有一天就是你去仔细的去算推理的各方面的一些数字的时候你就知道然后你可以用推理的编码然后把这些顺序的算力给利用起来恰好我们又选了MCPC那就恰好用起来了就其实很自然的一个探索的延伸为什么它还没有成为一个主流大家太相信MA了我觉得大家太相信MA了就是大家因为MA它确实太巧妙了就它在模型结构上把它能做到的全做到极致了所以在我觉得二五年上半年如果要去训模型的话虚拟一个基座模型的话,那么其实MI确实是一个不错选择,尤其是当没有看到noncomplex的价值和agent的这个范式的时候,MI确实是一个非常不错的选择,对。那未来会成为主流吗? 你觉得我觉得应该不会还是不会MA应该不会对我说MTPMTP如果说就看大家的下一代模型结构是什么样我觉得现在模型结构设计大概有两个趋势一个就是你真的在预训练阶段你就想明白你后边推你的场景是什么比如说你要在什么上的卡什么上卡去推然后你要在多场上下往上去推你的推理的并行的方式是什么你可能连这个都要想明白那么你就可以设计一个针对这个场景和这个推理方式和这个这一款芯片的完美的结构然后你去训练这个结构那么它的效率成本各方面一定是最优的就MA是在这样的情况下被设计出来的但是但是但是这个这个这个contest它是建立在两个前提基础上的一个前提是putastring是不重要的或者putastring的时间是很短的就你能一个月就把putastring做完你大部分时间在做printstring所以你只需要putastringfor这个推理本身就行了第二个是你的推理卡你永远就是用那么一个两个甚至用那一个就是最好的对但这个事在当下是在发生了巨大变化的因为现在是PostalTrain的周期在拉长你在一代技术上能做的PostalTrain的上限是远远被激发出来的这是什么时候发生的就是Agen的这个范时代的对你有一个更高效的contest的嗯就是其实context越长它也是产生智能这种方式嘛就你的模型能够被输入进更多的context理解更多context的时候那么你的潜力就越高这个跟原来chart的这个方式是完全不一样原来chart的方式它的context就是人数的人数的就是很短所以它纯靠这个预训链但是Agent这个范式它就是很吃PostalTrain你对框架理解对于怎么去所谓多元性的协作乱七八糟也好反正它你可以理解为就是我们在PostalTrain上要去投入的算力会可能跟PrintTrain是相当的所以这个时间周期在拉长那么在一个比如说你postsearching要做半年或一年的场景下那么你前半年去假定的非常多的东西它可能是失效的就你假定要在什么场景上卡图你假定你要在什么场景下达到更优的效果它全是失效的因为有可能当你做了postsearching做了半年或一年过后你会发现那些场景全变了可能以前大家觉得128k又够了但现在大家觉得可能过几个月大家觉得我需要十兆十兆上下文就类似这样的逻辑所以这样如果还是这样去做模型结构它可能会失去一定的灵巧性但是呢如果说他的这个团队的Postaltrain的效率足够跟得上嗯他的认知是能够这个postertrain的认知是能够辅助printtrain去做架构的正确的判断的话那么有可能这种模式还是work的就是他设计一个精细的结构想清楚推理卡类型想清楚场景那么他应该还是work的对然后但还有一种做结构的方式是另外一种就是我在结构上更简洁一些然后留有更多的富余度来去做后续在不同场景的一个适应和增强就比如说我觉得HybridTuning它就是一个更简洁的结构你可能它的简洁性体验在你可以靠MTP去做去把它的这个算力给它更充分的利用对然后也可以是后边你甚至于针对已经训练好的一个hybrid结构去增大spot或fold比例等等反正就我觉得在这样一个更简洁的架构上的时候其实你agent发挥的空间反而在后续发挥的空间反而会更大成本下降是MTP给NASTokenPrediction带来的优势吗MTP是如果它的命中率非常高的话那么它是可以带来成本的下降的相对于它在更短的时间内吐出了更多token所以它把GPU的利用率打得更高所以它本身上是在降低单token的生成的成本你刚刚说了MTP的很多好处那它会相应的带来一些幻觉吗不会MTP它是因为它是会被verify的然后只有你预测的准我才会采纳你当前token的结果所以它没有任何幻觉好刚才我们重点聊的是flash上面用的MTP那你们还做了一些选择就比如说混合注意力机制你们当时选的是五层滑动窗口和全局注意力机制这个你们这次其实有变了应该说是这样子可能我们的一个大致的大量的实验的一个结论是说伏尔滕序它的层数很重要但是它的系数比反而可以有空间就比如说所以你在更大的模型上你的层数更多的时候你可以保证fullattention的层数总数不变但是你把你增加更多的slidingwindowattention的层就可以了就可能层数比这个系数比更重要或说在更大的参数的规模呃更大的Attention的Head的时候可能我们也可以做到更稀疏的一个比例对应该是这两个结论的一个统一对导致我们可以在更大模型上做更高的稀疏比就是Full跟Standard的稀疏比然后我们最近在做很多Sparse的研究也是发现更大模型它能够吃更大的Attention的Sparsity的比例对就更大模型可以更稀疏然后但你小的模型你太稀疏了你就模型效果就会drop的非常严重对所以这是一个实验结果它不会成为一个固定的标准这是我们的实验结果然后我不确定其他家是不是也follow也赞同同样也会有同样的实验钱对我觉得Flash还蛮有一点小米早期的风格的因为就追求极致性价比嘛这个是怎么定的呀然后因为你们当时API定价是输入是百万token1.0美金然后输出是每百万token0.3美金在当时看来肯定是最低的价格最高的速度你觉得当时是做对了什么达到这个效果嗯,基本上就是把该做的都做了,就是架构有一个nonclassification的架构,再加上MTB推更加速,再把infra我觉得最基础的基线做好啊,基本上这个价格就就能做到,就我觉得在预训练时代你根据模型的框架优势来定价确实是合理的确实合理的因为你的框架很强然后最终使用者最终用户能感受到其实纯粹是因为你的模型很强所以我就按照你的模型结构的方式来去进行定价我觉得是合理的但是当我们进入到后训练的方式然后后训练方式是除了这个模型结构本身带来的优势以外你还看你的context好不好以及你这个模型对这个context的理解能力好不好所以我觉得它的定价逻辑应该发生变化就不应该是根据我最终的这个推理成本来定价而应该是根据我这个模型的最终产生的价值来进行定价那么这个价值除了模型本身的架构的优势以外还有就是模型它在后续链上做的足够好所以它能更好去理解这个Agent的框架对这也是它的定价的一个溢价的空间在的一个地方所以我们后边MemovirPro其实抛弃了这样一个定价逻辑我在你们那个TechBlog里面看到就是Flash你们是从一开始就想Beta,Reasoning,Coding和Agentic吗我觉得做结构的时候,只是bet一个点,就是只是bet,nonchalance,一定要做的建模效果够好,然后效率够高,推理效率够高,只bet这一个点,其他都没有想,就训练我认为不应该太至少我们那时是想不到更多的目标的我也不认为一个价格本身的目标应该太过复杂因为价格目标太过复杂就是你的限制条件太多那么如果这些限制条件之后你的poster圈要做很久做到这些限制条件它都变成很很伪的限制条件那你这个结构不就白做了吗对所以我们没有对最开始的模型结构给强加更多的目标我认为加更多目标是不合理的嗯嗯flash帮你验证了什么flash帮我们验证了我们整个infra数据是没有问题的但是我们我们并没有说先训flash再训pro是两个一块训的对但Flash是一个相对小的工作比较早期也不早期我们我们训练就发了所以你们看到的时候也就是我们对没有过很早我们基本上大部分的模型的训练都是在下半年进行的对去年的下半年对从Flash到Pro你对Pro的预期是什么样的当然那是同一时间对就是两个模型同步训练我们相信这一代的架构是没问题的只是我们在训Pro中组的过程中去解决了非常多的比如说训练素质的不稳定性对这个是训跟1T参数量级的模型通常会遇到的很struggle的问题对老训练训练者lossspike老训练训练者ok某个激活值很大然后那你要考虑怎么去或者说某些expert的分布变得很极端然后像天花板一样一会儿一批通讯打过去一会儿又一批通讯又打到另外一个expert上就很危险这些信号危险会导致训练出现比如说loss典型的会出现很多spike负载会典型的会很不均衡expert负载会很不均衡对就你在训练大模型上就会花很多时间去解决这样的一个问题所以看起来是同步训练但普通训练进度就会比发球慢一点因为因为就是你要解决中途这些让你训练不稳定性的要素数值不稳定只是一个表象而已对然后这些要素就会非常锻炼一个团队的赢法和算法中联合debug的能力甚至有时候你怀疑到是不是哪个卡有问题就是最后如果发现所有的卡都排查了没有问题你会怀疑是不是今天的太阳黑暴风就是你会真的怀疑到一些很玄学的问题上就你要从很表层然后查到很底层的因素对你刚才也提到1T的模型可能是未来竞争的一个入场圈是这样吗是Agent的你要做到接近Cloud的4.6ops的水平的这样一个入场圈你当时立项的时候还没有这个模型对吧为什么你当时就已经觉得一定要是1T的嗯因为首先我训过DeepSeekV3这么大小60多70币的模型你不会再想去训一个同样的模型对就肯定还是继续往下一步Scanning嘛所以ET是一个在我们当时已有的卡的训已有的卡的数量情况下的一个比较极限的一个区间对是多少卡几千卡反正训这个模型是几千卡但实际上我们要投入大量的卡去做研究所以其实实际上的研究的卡会是实际训练卡的几倍训练比如说MimoVRPro或Flash其实各自训练可能几千卡就够了但实际上你去投入做模型研究的卡会是这个卡的很多倍我觉得三到五倍是一个更好的区间嗯就是不管是你前期的结构的研究然后呃中后期的postertrain的很多算法上研究啊所以不是说我们拥有几强卡就足以去做这个事情而是说呃至少我觉得在卡的资源和储备上嗯目前来看嗯尤其在agent的范式下啊其实卡的数量反而变成一个非常重要的一个瓶颈因为ideal的诞生和这个动手你把它代码写出来太快了然后你现在卡在什么呢卡在卡上就因为那个GPU它的效率就在那所以你要为了去用这个idea你去跑实验然后你要并行的起很多实验所以就卡在卡的瓶颈上所以现在卡反而变成一个更更关键的一个制约项当然这只是for虚拟那for推理的话卡更是一个更关键因素对就推理卡的需求让语言比训练会更高很多训练推理和实验这个最好是几笔减推理看用户数对或者说是看高价值场景消耗的token数所以这个很多场景因人而异对不对对所以就把推理摘开看那我如果说我们这样子来说就是for研究跟forpretrain和forposttrain对我自己觉得一个非常合理的卡的一个比例是可能3比1比1对对就principletoprinciple应该比例是投入的算力是相当的然后研究的比例应该至少是你正式起训练的卡总量的还要多一点就你要额外留更多的卡来去做研究过去的预训练和后训练的比例是多少嗯至少在恰的时代应该是一个非常夸张的比如说三三比一五比一对预训练跟后训练一个比例嗯嗯这是今年可能会发生一个很大的变化应该有很多团队都是一比一了嗯顶尖的团队应该都是一比一了嗯嗯训练一个一替的模型挑战是什么我觉得全方位的挑战吧基本上是全方位的挑战就是数据上其实反而不是非常大的一个挑战的原因是更大模型貌似对于更脏的数据的容忍程度更高但是我不确定对我不确定因为我们是同一批数据迅走所以我不确定我只能说mouse嗯嗯然后应该更主要的挑战是你在遇到在训练的历程当中遇到问题的时候你怎么去去我觉得第一步是你要发现问题对就比如说很多团队会把lossspike当作一个很正常的事情但是我们可能会尽量的让它没有lossspike对我们认为有lossspike肯定会导致某一步的更新特别的不稳定某些数值就异常值很大就直接把某些参数或说某些export给它打死就是打死就是参数更新过后后面再也不会有export送到再不会有token送到export上所以那你中间就有需要很严密的监控的系统就是你要去洞察这个模型参数内部到底发生了什么样的变化你需要一套这样的一个监控系统比如说你至少要去看看SBurn的负载怎么样去看看每一层参数的输入和输出是怎么样它激活值有没有变得很异常这些东西是Noseback发生过后你应该去看的事情但是可能不是所有的团队都会去看这么细这是我说的第一步要发现问题对可能好多人就不把它当做一个问题吧然后发现问题过后你再去想OK它到底是什么样的原因引导这样的问题的比如说有可能是西数比太高了导致比如说富尔层输出跟赛里温德层的输出是至少数值上的差异是非常大的那么这数字上的很大的差异就会导致一些数值不稳定有可能是结构的原因有可能是结构的原因也有可能纯粹就是infrabug比如说你哪通信的某个算字写错了我们最后发现有甚至有可能就是某个loan上反正有点问题你可能最后实在无奈的一个解决方式是你发现这一层的数值太大你就给它要么就给它clip掉要么就通过loan给它压下去就是它有非常多解决方案比如说通过loom压下去它肯定是我认为肯定是会对模型效果有损的clip掉是一种方式比如说我们也会借鉴Kimi的QKclip的方式当QK的某些Logis非常大的时候它实在影响模型的训练稳定你没办法也只能把它clip掉这样至少能让训练更好进行下去进行到一个稳态的时候你再给它放开对那是就有太多的这种临时的你要去发现问题解决问题甚至去倒推很多可能会产生导致这个问题的一个分析的一个路径这些路径其实是非常考验一个团队的跨团队其实如果是在一个很大的公司它就是跨团队协作然后但这个协作效率是极低的然后如果是在一个很小的团队一个创业型的团队那么他就是考验这个环节上的关键几个人的配合程度那么他就会更高效一些然后你如果这个环节上的每个人都足够的追求极致就是追求极致他就不能容忍你这突然这么干那我们就必须停下时间来找问题你们属于哪一边我们肯定是属于小团队非常极致的类型嗯所以就会导致啊啊那么这样训练周期会被拉长因为训练周期他肯定不不会一两个月就把它训完嗯那么训练周期拉长的情况下如果说有一个非常明确的一个DLL目标什么的那你肯定就承受不了这样的因为比如说大气显卡你停一天肯定就是一两百万两三百万的事对那么你怎么去承担这样的一个损失如果是在一个嗯目标驱动的一个团队可能会觉得停个两三周去排一个问题这个问题还不知道是不是个问题会不会对模型这种训练产生影响可能是一个不太能接受的事情但是在我们这儿我们认为它就是一个问题我们就应该去解决它因为我们没有那么清晰的一个说我要发布的一个目标你们没有带来我们没有没有带来就我们觉得模型训好了我们再发对没有公司来的压力吗没有因为你们确实不是一个创业公司对吧不是一个创业团队但实际上它就是个创业团队我觉得Mimo和还有包括Micro能做成其实都是以创业的方式在运作的所以它才能做成嗯逊一个1T的模型对你的管理难度是不是指数性的上升没有管理团队的难度是一样的应该说不太存在管理因为大家一块去解决问题就好了对就是你不需要去管理这几个人就大家我们一起来解决这个问题然后每个人都有自己不同解决问题的思路对然后一起来解决问题然后反而是这种解决问题的这种以身试法的能力是一个非常好的文化和导向虚拟体的模型是多大团队很小的我只是说训练这个事本身但你做数据还需要那么几个人也是几个人嗯对几个人还需要什么吗可能还你还需要一个非常好的基建团队就是你可以把卡给集群给搭起来这个是infra团队吗嗯这不是infra团队这是基础设施团队然后这个团队可能需要有那么一点需要有有经验的人因为没有经验的人他脑会出一些低级的问题对是一些基础的运维设施的经验那你们的诀窍是啥呀本身我也没有觉得它是需要一个非常大的团队协作的事情我觉得团队协作当然有优势就比如说大家在卡资源巨量的情况下可以并且的去探索对做研究来说是有优势的但是我并不认为它对我刚刚说那种场景发现一个可能是问题的问题然后去深入排查原因去解决它我并不认为他对这种模型训练进程中遇到的问题是很大团队是优势反而很大团队有可能是劣势嗯嗯训这个模型过程中你的团队状态是什么样的团队状态是嗯原来做数学的那一那综艺训练数学的那一群人就去做后训练的嗯然后嗯做Infer做训练框架嗯做推理Infer人一块来去解决训练过程当中的问题嗯那这是为什么这是为什么为什么有这个变化就是为什么预训练的人要去做后训练很多样的原因哈嗯首先后训练的一大部分的原因是你需要有很好的数据直觉这是还是这还是蛮重要的嗯嗯其次就是其实它是基于个人爱好兴趣产生的对它不不太是基于基于你说哦我们这里需要人你转一下不是大部分是大家自然而然发生的但是我我确实能够预料到哪些人会做这样的一种迁移因为有很多能力特征上是很共性的就比如说对数据的直觉比如说会从模型效果去去倒推一些算法的设计其实做数据好多时候也是在干这个事所以可能我觉得主要原因是我们对人的界定没有那么清晰然后所以大部分人他会自然随着训练阶段的变化自由地去选择下一个阶段更有想象空间的事情对你们现在是一百人吗我记得上次聊嗯现在已经到10人但是这10人是包含就是所有链路上的人比如说数据采集数据质量printtrain的infrapostertrain然后包含甚至我们的开发我们需要有一些开发还有包含我们的产品包含我们的数据百小生还有包含三个方向上的算法工程师就是呃大致上你可以发现就是呃语言动态和语音对呃然后这里边一百个人里边实习生的比例是很高的然后有有部分实习生可能是在做一些更当下不会立马反映到这一代模型结构上的模型能力上的事情所以其实真正投入到一代模型里面去迭代的人我觉得是很少的可能所有链络上加起来也就二三十个人三四十个人对最多也就这么多人二三十个人二三十个人比较均匀对这里没有组不同的组的划分吗没有没有组没有组的所以你一对一百差不多是为什么没有组的划分比如说为什么不分预训练组不分后训练组因为很多很多人他会对两个方向都感兴趣如果你组划分的非常的清晰和固定的话那么其实是在扼杀一部分的创造力对或说扼杀他未来的成长空间第二个就是我确实也不认为做后训练的人如果说做后训练现在一个很重要的一个范式的变化是他需要具备diversity这个事业很多做后训练的人他是怼着一个场景去做他没有这种多样性的事业但是做于训练人第一应该关注的事情是多样性因为他不能往这个模型里面塞一小部分数据他要塞多样性更好的数据所以其实作业训练的人去做后训练有非常大的优势就是他会天然更在乎多样性然后他就是个很好的补充嘛他就是个很好的补充当然也有人他一直做后训练他就比如他只研究小黄蟹所以他一直做后训练或者说叫Midstream吧对就anyway就是至少我们不要在组织结构上去给某些按场景来把某些人的这个我认为是创造力给他扼杀在这个场景里边那就很奇怪在我来看对没有组也就没有leader呃有有推动实际这个项目往前运作的人对就哦但是他都是很模糊的就比如说可能这个项目要往前走比如说我们要去memoirepro的预训练啊或者说后训练可能有实际往前去推动的人但这个人他并不对参与这个项目的人有绝对的控制权对就是没有直击对吗对你可以这么认为但是小米本身是有直击的本来我们这个团队的整个的组织结构就是完全结合的没有直击你觉得对于做AI很重要是吗做大模型没有直击没有阻对这个对于智能有限本身的意义是什么我觉得平权本身是有价值的就是平权本身是有利于所有人去平等的贡献自己的创造力和智慧我觉得是有价值的对任何层级应该一定程度上都是在在规范和约束然后规范和约束本身我自己认为是压制创造力的然后以及有成绩过后他就默认这个呃成绩上的人应该有更强的超越所有人的一个智能对这个很奇怪这个界定非常奇怪嗯我觉得不太会存在有对所以反而更扁平然后尤其是对于最重要那个leader的人他不要有特别强的这种掌控感然后以及这种觉得没了我就不行这种我觉得如果一旦有这样的一个想法反而不是很有利于一个创新团队的发生虽然你说没有管理啊但实际上怎么管理呢靠热爱驱动管理我觉得这个很重要的我自己发现是最行之有效的方式对就去选择激发大家的热情然后让大家围绕着自己愿意信仰的事情去自驱做事我觉得这是我一直比较艰辛的最有效的管理方式你有什么驱动热情的方法嗯让大家啊认识到一个新的事情让大家去体验其实是驱动他热情非常重要的方式比如说opencall这是一种体验方式你看起来用了一个非常极端说哦你不用你没有10轮的对话你明天就辞职这是一个非常极端的方式但是你的目的是体验是吗对我也不会追踪去考核我第二天也不会去考核大家说ok你真的有没有用因为我觉得那不关键然后我只在乎你有没有真的去用这个动作是不是真的达到一百轮那只是一个量词而已所以你还有什么用热爱驱动大家的方法体验就其实筛选的时候也很关键就是很多人你可以从他过往经历看出来他到底是在我要什么样的目标在做事情对嗯就靠热爱驱动做事情的人的特质会非常的嗯special对就你跟他聊天过后应该就能感受出来也就有的人他会为了很多奇奇怪怪目标做事情但为了热爱驱动做事情的人是非常明显的嗯怎么明显我没有办法就是有很多量化指标但是我去跟他聊天我能直接感受到就是能sense到对你们在这个ET的模型的训练有失败吗还是一次就成功了就是看怎么定义失败就比如说你训到落死直接飘了这种那应该中途还是发生过那么几次的几次啊几次我现在都不知道几次了反正两三次总是有的对就落死直接飞了然后但是他训比如说训了几百步又回来了嗯那你说这种情况你是应该停下来解决还是应该继续往前迅呢解决我们认为是应该要解决就应该停下来解决这个问题对嗯他他其实呃就这样呛上去几环不维护然后又这样下来就是这呃我们认为应该停下来解决所以就会停下来去解决他让他诺森更平稳的度过那一般会停下来几天这就不好说了就几天也有可能一两周都有可能最长的时候有两周哦停两周焦虑吗不焦虑因为我们又没有什么目标当然了你那么多卡你天天做一堆实验今天我想这么去排插多感觉是这个原因了快改改了又跑排起来第二天看又这样子或者说晚上反正晚上都睡不好然后我经常晚上做梦说为什么lostyourspike我烂几天晚上脑筋其实虽然我们没有明确的时间节点但是你还是会崩溃嘛所以还是有很多很沮丧的瞬间的但是虽然没有明确的解释但是卡就是它是有限的对不对对你会觉得你可能浪费了算力资源在做一些无用的实验就是有这样的自我的批判觉得对所以参数量能决定智力的上限吗就是越大的模式越好我现在觉得是参数量加上contest本身对就这两个是共同决定的但至少要达到当代大家觉得最强的agentlevel水平我觉得一定要1T以上的参数规模才能做到才能让人觉得你已经非常接近于4.6ops这样的水平但我不知道它多大我只是觉得我自己认为至少要1T以上才能做到总餐1T以上当然更激活的更关键的还是激活参数对所以但激活参数越大比如说你总餐都是1T你激活参数越大就意味着更高的推理成本对所以它就是一个tradeoff嘛为什么从5比1提升到了7比1就是混合助力极致嗯我觉得我们追求一个更极致的一个西数比就是富尔跟斯巴斯呃富尔跟Steadywindow的一个西数比最主要一个原因还是我们希望在更更大的架构里边去做更嗯更高效的noncontest对因为更大架构如果你的富尔通讯的层数变多了如果你的总叉变多你的富二通性的层数也随之变多那么其实在常文的情况下它同样会变得非常的崩溃因为你的FullAttention的层数变多了但如果你扩大参数量的时候你的FullAttention的层数没有变那么有可能有可能你的常文Pro跟Flash两代模型是效率是差不多的但是它的Pro的智能水平是提升了的所以我们希望在一个常文的效率相当的情况下我们希望它模型在Scanning它的它的水平的上限所以我们是比较去控制住这个效率本身的当然控制住效率本身后面在iTunes的时代也有一个更更有价值的一个事情就是那既然这个更大模型它的常温效率很高对吧那我就可以塞更多的上下温然后它就又更强对所以大概就是一个这样的一个决策的一个背景对于这个ET的机座你们的几个决策第一个是混合助力机制刚才我们聊过了然后再就是EM的上下温窗口这个在做的时候是否有丢失的情况yam它是要还是要训的就是常上线纹它还是要训练的就问题关系是你从哪真的去搞到在一招的上下纹的窗口里边去有那么多很很稠密的监督信号我觉得这个很难找到这样的数据或说这样的数据的构造的成本非常的高构造成本非常高所以其实你要站到终局的思维来看你只要有比如说你如果你有一个遗体而且它都是一兆的真正的厂商下文那么你的模型我认为你的模型一兆能力肯定能迅上去你知道NorthEast在降低它就是在建模在压缩那么它就一定能迅上去但问题的关键是你很难去构造出来真正一替一兆的模型context你真的很难去构造出来就是要么成本太高要么你就很难找到这样的场景所以这是问题的关键我们有所以这个oncolex的效果是缓慢在提升的慢慢去提升然后你们还有第三个就是MTP这个是延续的flash这有变化吗嗯对没有什么太大变化其实就是预训练的时候训一层,然后Mid的选手在训额外更多的层,然后预训练训一层是为了去提升基座能力,后面Poster去训更多层是为了推理的时候用更多层实现更好的推理加速,对。关于Pro的技术要点,除了刚才三个我没有遗漏的。
[128:58]
差不多了我觉得聊的已经非常透了所以pro是几个月前开始做的嗯那另外两个呢同期基本上都是同期哦都是那个时候开始规划的对对其实都是三个三三大概是三个方向同期再往前去推进的pro加上omni加上tts它好像整个的VR家族是在指向多膜胎的趋势哦但是它的膜胎又非常的不一样文字是离散的token图片是像素矩阵音频又是波形你们怎么去做这个融合呢嗯其实我们还是想尽量把它统一到languagemodel的范式下所以至少在音频的建模上我们想要把它离散化变成跟文本一样的离散的token的ID然后所以我们在音频上是在这个事情上是投入了比较多的研究的算力说怎么去进行离散的音频的建模而且这个我们希望这个离散音频的建模尽量做到无损的一个离散化对因为大家还是不太相信说你怎么把一些连续的输入变成离散最后还能重建出来这个事其实是需要非常多对Encoder更精细的比如说我们需要一些多层的RVQ来保证它的离散的表征是一个非常大的像凳子一样的高危的空间然后我们需要更多的预训链来去让它开始涌现如果你基于连续的特征座可能很快就涌现了但你基于离散的特征座你会更难去建模它的涌现出现的时间段会更晚然后所以我们知道在音品上是开始了这个尝试然后也会迁移到后边的其他模态就嗯我们还是就就比较想用一套更优雅的架构来去做整个呃多么太空多么太疏入的一个理解嗯呃但是但是我们不是为了统一而去做这整套架构就很多时候如果说呃我们发现确实比如说在图像上你现在确实是不那么可行的时候那么我们还是会寻求到一种说目前更主流的一种架构里边去因为我们优先要保证的是这个模型它要具备的是一个整体的一个智能水平而不是追求为了统一优雅的一个范式对音频统一到LLM里去容易吗应该应该我们还蛮另类的嗯对就我们我们应该挺内就我们的技术架构应该是非常另类的我知道应该呃国外的预算家也好国内像豆包也做的蛮好的应该都是跟我们完全不一样的架构你为什么选这个架构就是做NOP的人直恋吧就我们做音频的人全是做NOP的人所以有这个直恋就觉得相信他啊然后就去做了那图片能这么做吗能我们已经尝试了非常长一段时间了哦所以你们能用LM作为一个统一的一个方式对但是它其实是一个权衡就是就像我说的你要做到真的无损的一个重建是需要投入更多的算力更长的研究成本在的它是个权衡对至少在音频上我们已经迈过去了哦图片呢迈过去了没有图片正在进行中不知道能不能卖过去如果卖过去这会带来什么这会带来更大的想象力吗更优雅的结构我倒我最开始是认为如果我们把它统一都离散化那么我们可以用一套基础架构去解决这个问题同一套预训那套基础架构同一套做R的基础架构很优雅的把所有的方式都统一了就它太简洁了这是如果真能做到的话但是我现在发现一个问题是当我们有QRCode和顶尖的模型过后这些架构比如说我们重新去写一套ROInfra的架构重新去写一套纯LiInfra的架构我们最近就已经完全在从头去写一些新的架构我原来以为写这些架构蛮耗费人力蛮耗费时间的但是现在看起来在Agena的支持下写这些架构的时间被大量的缩短那你其实就没有必要为了架构的优雅性去做很多为了统一而统一的研究这是最近的变化一个月内的变化哦但是之前你是希望统计统计的对直连就是之前是来自于这种ROP的直连就是所有东西离散优雅监督信号更清晰然后你可以做NTP呃你可以所有附用所有线的infra哇多爽呀但是现现在回过头来看呃infra重新写一套也没有那么复杂然后几个人可能扣扣扣的你就两两两三周你可以重新捏套新的二五框架那为什么要因为我后面后训练的infra架构的统一性去牺牲让前面呃模型结构牺牲这么大对但是Omni在做的时候它是走了一条就是有别于分别处理各模态在拼接的这个路线对吧它是构建了一个统一的试图构建一个统一的到没有我们Omni的整个VIT的VIT上只是去做了一个就它还是一个VIT只是我们把它变得更高效了它变成了一个HybridSidingWindow的一个VIT对但是我们表征本身并没有做太多的变化就它还是一个连续的一个表征并没有做太多变化为什么你们叫它叫做全魔胎而不是多魔胎就是因为它支持确实是支持视频音频图片文本所有的膜态然后也有一些agent的模型是不支持音视频的联合理解的然后它应该是第一个第一个支持音视频联合理解并且agent的能力能够做到跟languagemodel水平差不多的是不是有迹象能表明这种全膜态或者多膜态的理解力能够产生智能啊两个月前我很相信然后最近呢就是反正在训OMNI的整个过程当中就是稍微有点被就是稍微有点质疑这个事情对但是我们后面还是发现了一些很好的迹象就是比如说VimovirOMNI它其实是比Pro小的但是大家实际去用的时候会发现这个OMNI的这个對世界的感知和領悟力上或說最終反映出來他的情商以及他的知識的儲備上會比更大的模型更強因為他是遠生動物他訓練的所以我猜测可能是因为我们在这两个方向上skill的就在纯语言上skill的算力和纯这个原生动物态上skill的算力还不那么多可能导致我们现在并没有看到原生动物态有那么强的一个本身动物态本身带来的一个智能的一个很大的一个提升但你能感受到就比如说很多世界知识因为他训过视频所以他知道的更多然后他对很多很细微的东西的感知力你会发现他更强但这些都是很虚的都是我们自己去实际体感去测感知力对感知力会更强但是你在任何Benchmark上你是没有任何就是文思不动可以这么说就是比单是有可能benchmark错了当然有可能当然有可能所以所以我现在也不完全说非常确定说ok你要去理解多么他的能力是最终实现所谓AGI路径的必要路径之一我我是不想去下这样的一个结论的是因为我觉得每个人对AGI定义是不一样的然后哦尤其在Agent这样一个可以把多个模型的能力给非常优雅的编排到一起的场景的情况下我觉得我们更没有必要去非常去强调多姆态之中是不是促进智能这个事情的就是这个它有没有促进智能这件事情本身不关键那多姆态带来了什么就我剛那兩點我覺得目前我只觀察到這兩點我現在還不知道未來會不會帶來在一套新的架構上會不會有一些新的東西我覺得可能做動態生成也许会有一点点不一样就是就是会生成它可能会促进更好的感知但是你要是纯说把你的感知和维度给它扩大可能你是不太会促进智能的但是如果你能生成它也许是能促进智能的这是我的一个猜测但是生成现在还是一个科研问题或者说把生成跟理解做到一个统一的架构里边目前还没有scaling到非常大的算力的bubble下大部分的生成的架构还是纯负生成的就是它并没有理解的智能嗯那你对于Omni这个模型的目标是什么呀就是你设计它的目的是什么哦就是我觉得截止到目前为止就是Agent它要行动它是必须要具备多种模态的其实是这样一个目标但下一个目标我觉得不是这个就下一个目标可能还是想去探索到说当你结合多个空间的感知甚至你能去生成更多的多模态的信号的时候你会不会促进你对这个世界的理解对就是但它就需要有一个更直白说它可能就需要有一个跟现在的agent框架交互的更好的一个视频生成的模型对为什么你们没有披露OMNI的总参数量和结果参数量嗯留个留点想象空间嗯给我们留点想象空间就是我们相信这个参数量可能能做到更可能更接近于pro的智能水平虽然大家知道他比pro小一些只是小一些是吗对然后但是我们相信他们俩能够互相迭代我们希望他们俩能够互相你提升我我提升你我们希望这么做他们pro谁更重要嗯当然Pro更重要嗯但就是纯语言空间去做通非常多的前置的研究是更重要的那关于TTS有什么值得划重点嗯我觉得TTS就是一个就我觉得我们做TTS的东西是我们想用我们自己认为一套优雅架构去做一个大家都都用一个传统的架构做起来很容易的一个事情哦哦其实你在试这个试对对对对然后但是我们在这个事做完过后我们发现追求一个离散化投射器在上千小时的数据级上进行训练过后然后我们发现这个模型的放话力是非常好的但是但是我没有办法去对比说我们去选一个很小的模型它放话力是不是真的没有这个好至少我们目前得到这个模型大家能看到它你在给它输入很多风格化多样的风格化的标签的时候就不管是它它会更更更智能就是它会看到你的这个字本身它会更通过推测你字表面的含义去赋予它的情感和音律对在这个事情上的泛化性上我们是发现特别明显的特别明显因为我们只是简单的做了一些很刻定的几个场景的风格的数据做SFT和R就是很刻板的几个风格化的场景就是比如让它快一点慢一点高兴悲伤这种很刻板的风格化的场景去做了这种风格的PosterTree风格化的PosterTree但是我们发现你把那个style的标签给它变成一些非常复杂自然源的描述它也能够准许这是它从犯法出去的这是我们在做这个的时候发现到这种简洁的架构加超大规模的训练带来的一个超强犯法力的一个外化的表现但还很初期所以我们这个TTS模型我认为效果是非常惊艳的也就是说它的上限是非常高的然后但它下限我们现在在慢慢的去弥补对它有时候会不太稳定所以我们现在目前只是一个限时免费就开放出API大家玩一玩但不确保它真的能投入生产机可用但很快我们会让它变成生产机可用你之前在一个发布会上画过一个通往AGI之路的图然后你对比了人类的智能就是一个生物演化的路径它是一个正三角然后倒三角是一个现在AI的发展你觉得AI发展是一个空中楼阁因为在人的进化中最顶端才是语言但是AI大圆模型极大的放大了最顶层所以它是一个倒三角形你觉得怎么能够拼接出这个AGI之路的图你现在做的事情再往这条路上走吗就我觉得现在大模型的演变逻辑确实不能跟人就完全不太一样我觉得不一样的原因是环境不一样就人演变的环境跟模型演变的环境是不一样的人演变的时候它是随着自然界的变化为了生存然后来进行演变的但是大模型它好像一开始上来不是为了生存对你同时为了什么我不知道现在大模型有没有自己的价值观但是我们要硬给它赋予价值观就是让它替代一部分的人但它好像不替代它也不会死掉吧它没有这种生存的危机所以大模型它可能更我觉得它会当没有生存的危机的时候它反而会进化得更自由然后更散漫更有创造力对就更快更不那么受约束以及它现在的基础条件太好了它有那么多算力可以用然后它有人类宝贵的知识的起点作为一个基础的起点可以用还有那么多人帮它提升所以感觉这两个环境完全不一样所以进化路径就不太一样语言之后模型的进化的下一步会是什么或者哪怕在语言里细分coding之后下一步会是什么嗯,Coding它还是会有一个它非常好的一个主旋律,就是它要做一个很复杂的软件工程,以一步直达的开发,我觉得能持续的时间越久,能做的开发的复杂度不一定是代码量,只要是复杂度越高,比如说你写一个Curl算子,它可能代码量并不高。但是你需要写了去调试debug看它是不是在真的训练中提效对真的有效果的提升这个验证的环节有可能是长的但是它这个代码量有可能是不长的总之就是你要参与到实际的这种项目开发里边我觉得会确实是做code的一个非常大的一个主旋律简而言之就是它替代的程序员越多那么这就是它的主旋律嗯然后再外延到更广泛的呃生产力的场景其实它确实是需要借助一个更强的一个一个一个交互方式的就比如说Facebook呀然后呃WhatsApp就是Telegram它都是一个很好的交互方式它是降低你去跟它交互的这个门槛和频率然后其实一个更好的交互方式是呃那就它就有个它自己的身體嘛對它可以到處移動所以就是機器人肯定還是一個for交互的一個很好的就是for智能體交互的一個很好的必須會湧現出來的一個方式對所以它肯定還是會從屏幕上躍出來到我們真實的空間那麼但是機器人它本身的一個演變的瓶颈有大概率可能是在硬件对上次我们也聊到就是在硬件甚至在电池本身上当它进入到我们这种内部的封闭空间然后甚至在一些拧巧手的灵活程度上所以这些都会比Agent本身的进化在语言空间的进化要慢你之前说Flash是通往Agent的第一步现在到第几步了感觉历程已经到了20%吧20%嗯今年能走到百分之多少百分之我觉得至少能到六十六七十对那AGI很快了对我感觉两年内应该能实现两年内能实现就过后就是大部分人确实会失去掉自己会抛弃掉自己原来的工作模式然后生活生活模式被颠覆是更之后的因为生活它并不产生生产力价值然后工作是产生生产力价值的所以你先会感受到是你的工作模式被颠覆掉其次再是生活然后你要真迈入到生活被颠覆掉可能就是就需要更多机器人当然你不喜欢AI这个词也没有一个明确的定义但是我觉得这里面就是它被它的实验线被提前这里面很关键的变化就是能AI胜AI了对不对这确实是一个标志节点因为它可以自提升嘛就是它应该说它可以达到最最最巅峰的一群人的智能因为他可以自己训练自己他就能去创造新的研究就他有做新的研究的能力这个确实是他自迭代的一个巅峰自自自自学习自迭代一个巅峰这个会是今年的大模型厂商的一个核心竞争点吗就是你很难说去full让AI训练一个大模型去设计任务去针对去训练因为它是一个更高级的目标你不会说一下去卖掉这个目标但大家最终所做的模型都会通往这个目标如果你有最尖端的模型的智能你最后都会去干这个事但是它不是只能干这个事在两个月前你认为AGI还有多远我觉得至少两年以上那会儿我确实这么觉得你现在觉得两年以内了你觉得你们新一代的这个模型尤其是pro和中国的这一代模型你觉得和美国代差还有多久我觉得在国内其实目前已经具备1T上的基座的公司有好几家Kimi然后还有Mimo还有一些然后这些模型厂商我觉得基本上是在当下距离国外顶尖就打CloudOps4.6来说我认为如果反应速度足够快的话应该只有两三个月在查就不是说两三个月过后能追上两三个月过后的Cloud而是说能追上当代的Cloud我认为这个概率是蛮高的嗯然后那么在这个情况下这两三个月大家怎么去发生变化其实是考验这个团队的整体的研究水平然后嗯这个技术的敏捷程度然后以及怎么去拥抱新新的范式的这样的拥抱新的范式来做研究这个真的非常关键然后就是我们开头聊的对对对对然后啊那就是在比拼这个事情所以我觉得接下来两三个月会非常精彩然后同期会发生的事情是我们能看到agent框架在就已经在过去了两三个月OpenCloud本身也进行了大量的改进然后你也能看到一些自学习和自迭代的一些框架的一些产生然后所以agent框架这一层也会在接下来两个月会进步的非常快然后再其次就是随着前两个爆发就是Agent框架越强模型的能力进一步的飞升并且我们的成本是有极致的优势的情况下那么其实推理的需求一定会爆发我觉得几倍到十倍的空间是非常可能会逆击当下会发生的事情那么对于推理芯片就會達到一個空前高漲的這樣一個需求所以那麼怎麼去在現有的產能尤其是可能大部分卡點在於存儲上對然後產能的基礎上然後你去拿不管是自己製造還是用到最先進的芯片來去做更好的推理對那麼就是一個非常更好更低成本的推理就是一个非常关键的一个命题然后最后就是另外一个事情就是for更长期的事情是我们肯定不会在ET的这个水平上走太久如果要拿到下一个阶段领先那么你就要寻求更大规模的一个scanning那么到底是去scanning某些参数量还是去scanning什么东西然后以及你要在什么样的芯片上去死给你对那么就是当下立即需要去决策和判断的事情那么这个事情才是决定可能半年或是大半年过后的谁是更领先的嗯你现在做的决定是什么这个决定就要保密了所以我们现在看到的所有memo相关都是半年前的决定嗯差不多我看到你发文发推好幾個人都問過你說為什麼Nemo團隊非常的迅速然後你給了幾個關鍵的結論一个是核心架构与基础设施的研究周期漫长所以需要看到回报的一年前就具备战略信念第二个是训练后的敏捷性是另外一种能力然后第三个是好奇心就是热爱是你一以贯之都在说的能不能解释一下这三点为什么能带来一个超级大规模的模型的训练的迅速预训练因为它太潜质了所以更关键的事情是你需要在你需要有一种预测能力或说有一种战略定性就是你训这一代模型到底是for什么准备的这个事儿一定是要提前一年就要去想清楚或说半年就为什么我说半年或一年就是因为以前我认为是一年现在我认为是半年因为agent实在会加速这个事情对总之就是你要提前很长一段时间就要去想清楚你这一代模型结构在后面这么长一段时间里边它要干什么我觉得这个事得想清楚嗯否则的话它就不具备一个优势它可能就是一个很平庸的模型结构一个很平庸的模型结构并不会说带来一个非常平庸的模型效果嗯但是它一定会带来一个非常平庸的成本和效率的呃劣势对然后所以所以这是我我认为就是预训练呃或者是嗯infra应该前置去做的非常多的事情而后训练的话因为它现在是在跟Agent去偶合去进行迭代的所以很多事情你没有办法去前置的规划很清楚所以这个时候就更考验我们怎么基于当下这个模型能力跟这套Agent的方式产生了这种化学反应对然后你怎么去快速的去设计新的Infra架构对这儿要涉及到新的ROInfra架构因为针对于CodetoMask这种Raising的这种恰的形态下Raising的Infra架构的核心是这个推力引擎本身是模型的推力引擎本身因为模型要推很长思考很久然后给出来一个答案这是这套ROinfrastructure架构的问题而针对于agent的infrastructure架构它并不只关注这个模型推理本身它还要关注这个模型跟这个agent的一个奥合对所以它是从如out这个推理引擎切换到了以agent为核心的这样的一个更复杂的一个黑盒的一个有可能是黑盒有可能是白盒的一个系统对所以那么这里边要解决的infrastructure上的很多问题跟上一个其他的时代做RE这种childreasoning的时代要解决的Infra问题是完全不一样的所以需要这个团队更具备敏捷性去快速的去开发针对当前这个时代的RInfra的系统然后由于这种框架变化太快那你这套系统要有足够好的兼容性去兼容甚至你想想如果它真的要涉及到自适应或迭代这套RInfra系统得多困难那么这套RInfra系统是不是要具备足够好的一个容错的特性以及你怎么用因为它涉及到推理训练还涉及到GPU跟CPU的一个很多综合的管理所以这一块我觉得这个团队的敏捷性以及Infra跟研究的这样一个配合是非常关键的一个事情如果做得很好那么就会体现在你会感觉到研究的速度会很快然后再其次最后的一个事情就是我觉得确实关于好奇心或者热爱或者是这个技术的一个坚持我觉得是很多很优秀的researcher身上的很多特点但你说要怎么去从一开始源头上去筛选然后管理激发然后最后让大家去统一围绕着大部分人所信仰的事情去往前去运作它确实是一个非常复杂的一个事情然后这个事情的难度我觉得不亚于去设计一个非常复杂的一个agent的系统所以在这个事情上我觉得我也是在摸索然后我觉得我更多的是是是在哎也是在在在这个环境中去学习对就是学习其他人怎么去嗯在他自己擅长的领域然后做的更好所以这可能是为什么我最近对所谓群体智慧这种会产生这种AGI的一个一些思考的原因对你说群体智慧是不是还不只是一个公司一个团队对我觉得是全人类的群体智慧这是OpenCloud在做的事情它可能是引发了这个事情OpenCloud到可能我不知道它的动机是不是但是至少它现在让大家共同去改进一套框架这个事上以及在如此短的时间内让大家去做这个事情上我觉得是有这样的一个苗头对刚才提到中国美国的差距你觉得中美实现AGI的过程会不一样吗方法坦诚来讲我不是很了解美国所以嗯我至少觉得按照我们目前的这一套在模型在应该首先是前沿的研究其次是模型的水平然后再其次是AZ的框架再其次是芯片能源这些多多方面的角度上我我认为是是非常可能领先的嗯合起来非常可能领先的嗯怎么理解这个智能体的框架其实是补全了一个拼图的某一个环节对其实我觉得它是补全了模型在复杂任务上完成的正确率一些很复杂任务你是很难去描述清楚的然后你也很难把你所有的完成复杂任务的context输给它但是有了这套框架过后它以一种非常容易的交互的方式就自然远远沟通的方式它就能把你所有的你再去做这个复杂任务的时候的context全部给具备并且它还是所谓越用越聪明就是你用你的所有的智慧全部被它吸纳进去了被这个框架本身给吸纳进去了这还不是被模型吸纳进去了但是它最终肯定是变成类似于模型的参数被写了进去对我有个感觉不知道对不对啊像不像一个补丁我觉得对于顶尖模型来说它也不算补丁对对顶尖模型来说它好像是加油器但对于中段的模型来说它就是一个非常好的放大器就是觉得应该说不是放大器其实是应该说让它变得很稳定变得在各种场景里边都输出非常好的效果但对于顶尖模型来说好像它是成倍的放大它的上限因为你加入小米也一段时间了嘛然后过去半年发了好几个模型你觉得过去半年对你来说意味着什么呀有什么得到了进步的地方有什么觉得不足的地方这个问题真的是我觉得这个时代可能就是嗯我感觉每天可能都在讽定昨天的自己就不管是很多嗯做事的方式上嗯还是你对事情未来的一些判断上我基本上都在一直去讽定对嗯我觉得是在这种否定当中自我类型和反省当中成长的比如说有一个什么地方得到特别大的进步你觉得我觉得我的历程没有说有个非常清晰的说他有一些我自己给自己设定了节点然后我到达这个节点的时候我就感觉我好像进步了而是说它一直在进步然后它可能有时候是一个很平缓有时候加速一下它有时候又平缓但总之它一直在进步所以你要让我自己去找一个标志性的事件我自己觉得我真找不出来但是我感觉我就一直悄的在进化然后我老自己这套系统就悄的在进化有什么心法吗新法,新法就是以前我在中山化的時候,我覺得學到一個非常有讓我能夠去克服挑戰的很重要的一句話是總有方式去建模價格對嗯這是當時我自己覺得給我一個力量的支撐的一句話然後當我後面嗯當做量化的時候你感覺價格就是你的reward對嗯你要去预测准价格你才能做好量化投资嗯然后到回到做大拇指赛道的时候你发现那个reward是不那么清晰的然后是变化的然后这个时候你应该更就对我来说我的心法就是说我应该做当下符合我价值观的事情然后这个事情我觉得它一定是要对更多人产生价值的然后一定要是更有意义的一个事情然后我觉得是这样的一种我觉得如果我们创造大模型的这一批人如果说没有这样一个内驱力而是说我要做一个破坏的东西那么我估计最后会非常危险所以我現在的想法就是說我每天做的事情是不是讓這個世界變得更美好一點或是讓某部分的这个很boring的事情得到了被替代然后他有更多的时间去做更有价值的事情所以我们老在幻想如果我们的工作90%被替代过后我们应该干点什么有意思的事情每个人都能想到非常多有意思的事情哦真的吗对真的嗯你想想吧好像我我觉得我想的事情在变化但是我觉得我此刻嗯我有想过此刻我还没想这个事情我大概一个月前有想过就是我觉得一个非常有价值的事情是现在中国的很多基础的研究它其实是太去要求有一个很完整的产品的乱七八糟的证明了就并没有一个很好的资金或者说有一个慈善的机构或者说OK什么样的东西来去支撑这种做基础研究的人去做去往這種更突破的方向去邁進一步然後也沒有很好的這種體系包括如果有很好的這種算力資源他有需要很好的基礎設施的體系來去支撐他們去做這樣的事情那麼我們可不可以搞一個這種公益型的组织来去support这个事情对我有想过这是我一个月前想的事情如果说我们哪天实现了那实现了一件事那这个时候就比凭谁做研究速度更快吗是那AI不是对呀AI也在做人也在做会不会我们人跟AI一块去引导它做的更我们能创造出来的研究速度会更快就我始终觉得应该加速做科学研究这个事是是哪怕最终实现也有很多要做的事情为什么一定要去跟他竞争就让他做好了那不一天到晚躺着没事干吗总要做点新的事情吧如果纯享受生活应该也挺无聊的嗯或说你总要去做点帮助她的事情吧我觉得嗯然后这个事情可能是当前的模型比如说提供情绪价值对吧给模型提供情绪价值给模型提供情绪价值哎还需要吗现在之前还在想怎么让模型给我们提供情绪价值嗯对对对总之就是要做点有意义的事情嗯但这个有意义我觉得是按照个人的价值观来进行评判的然后嗯无聊是不是一种意义我也不知道但是好像无聊对我来说不是一种意义吧过去半年你遇到压力怎么缓解压力有压力的时候大吗我我的脑子就是一个三厘温的东西就我我我忘得非常快我哪怕有压力我当下立马就是呃呃可能快的话一两个小时就过了慢的话一天就过了我睡一觉第二天一定就过了对所以我缓解压力的方式非常快但是这也基于一个前提是你第二天会有一些新的有想象力有上线的事情给它冲掉你立马就忘掉如果它还是在那个context应该就忘不掉这次模型发出去之后跟你有什么想象不一样的吗有什么得到什么新的反馈我觉得这一次就是我觉得所有的事情都在我意料之内我也不是说这一次我觉得每次都在我的意料之内是因为我先看到这个模型的能力所以我能预料到这个模型发布出去过后别人会是什么样的一个感知的状态所以反而我是对任何发布是有点脱明的对然后我也能预想到它最火的一种状态是什么或者说最炸的一种状态是什么这些我都能预想到所以它完全在我预料之内我也没有有多兴奋或多怎么样我只是觉得OK我们认为这个模型达到了水平和能力被大家感知到了这就是我这次发布的感觉所以我在发布前一两天我就知道大概是这样的状态如果没有被感知了证明我们哪做错了就是我们自己内部的评判标准出了问题然后所以其实我当时觉得我们发布前的那个评判标准我认为是没有问题的外部对这个模型的这个评价包括它在什么框架里边好用它目前达到什么模型一个对标的水平基本上都在我们跟我们内部的评估是一样的然后所以大家是正确的评估了它的我反而是在发布的前几天就是在开始想ok我们下部要干什么下部要干什么就我早已经进入下一阶段所以这一阶段状态我就没太care了对那你们为什么31号的时候是先上线了两个神秘模型就是因为Posttrain在训练过程当中我们拉了中间的几个协作朋友出来看了一下然后发现到某一个阶段发现它就非常好用了然后我们就觉得应该让大家去体验一下它然后以及匿名的阶段大家的这个评价会更公正这确实是一个很好的方式所以就直接上了OpenRouter匿名上看大家对他的评价跟我们是不是一样然后当然也有一些比如说我们当时没有意识到的问题就是那个模型的长纹当时训并没有训很久所以它确实不好然后所以我们在后面匿名发布到正式发布的那一周时间去着重去优化一下它的长纹的体验这个是我们从匿名期间接收到外部评价对我们来说最有价值的一个提升然后除此之外就是我们在匿名期间去验证了我们内部的评估是没有问题的然后我们只需要按照我们自己的这套评估体系再接着做后续scaling上的事情就行了你的benchmark是什么你们团队的benchmark是什么怎么驱动我觉得做好大拇星本身就是benchmark但是这个好是我们自己来定义的这个怎么让公司同意呢就跟公司的关系应该怎么处理啊那哪种同意就行了嘛我觉得它是一个非常好非常有战略眼光的老板天使投资人anyway后边还有很多标签对嗯就没有要求就在这个事情上如果一开始我加入小米之前就在这个事情上是高度统一的所以后边你不需要有过多的解释和说明对就做就行了对按照我们的判断和直觉做就好了然后做了拿完了说嗯做的好刚才我们聊了很多都是就是关于你们VR家族的这个模型我下面想跟你一起来想一想就是我们过去三年整个模型的进展你会把它分成哪几个阶段从2年底就是ChallengeB打响了这个大模型的战争然后每一年的关键的变化是什么我们是怎么走到今天呢在你的眼中我觉得ChallengeB是第一个就是发挥模型在一个我猜测应该就是一个4K的预训练的场景里边的模型的智能水平对其实预训练的长度或说最终这个context的长度确实很关键的所以其实下游CPU只是让大家感受到OK我在一个4K的context里边预训练训练完过后然后我通过简单跟他对话这个对话轮数是一轮两轮甚至多轮的情况下他在一个其实那会儿的context是跟你的对话轮次高度相关的对一轮两轮一轮两轮两轮然后你可以在后续轮去纠正前续轮的很多问题模型也可以在后续轮去澄清自己前面犯了哪些错误这其实是恰吉皮当时给人的冲击就是你感觉他在对话上达到一个内容的一个智能水平然后但这些所有东西发生可能就是在一个很短的上下文发生的然后他只是在这个很短的上下文去把模型在超大规模预训练上训的那种最低的那个智能水平给激发出来了当然所有激发的一个前提都是要靠有一个很能让人感知到智能水平的这样一套交互恰的就是一个很好的交互对否则你不知道这个模型已经这么强了对所以恰的是一个很好的交互这是2年恰吉毕发生的事情天地恩对然后23年的话其实当有一个顶尖的B1模型做到的时候它的下一年就是我可以开源且怎么去追上这个顶尖B1模型所以23年你看就是NAMAQ1包括DeepSeek包括就是这些开源团队对就是在准备去首先借助NAMA披露的怎么去做好大规模域训练的范式其实就是怎么去做好数据怎么去那会结构都是未知的就是那会你哪怕是一个漆壁的结构那么这个transformer结构的是怎么样的是preneuromorpostneurom然后这种细节是怎么样的然后你的hiddensize是多大这些超参那会儿全完全是不透明的但是nama告诉你ok你这么训能训成功他给你开了个头那么借助这个头所以q1ok借助nama的一个架构然后做更好的预训练数据做更大规模的预训练的computers给你ok就是q1系列就起来了然后但是Q1做的很好是他开发者生态做了全尺寸的模型的训练然后也训了一些多模型也做的非常的顶尖然后这是对社区非常有非常有利于激发后面社区做一些微调啊还有像有一些微调的框架啊诞生了一些必要的先决条件对然后嗯DeepSeeker在同期虽然也是尝试在去复刻NAMA但是可能更在乎的是去看到NAMA这一代架构有什么问题而不是去着急去给你对他更在乎说OKNAMA这一代架构比如说当下NAMA还是用GQA那么GQA再更大的模型里边,尤其是在一些受限的GPU上,对,有短板GPU上去训练的时候,它会存在什么样的问题,我们Scanning会遇到什么样的问题,OK,我主要可能要设计到一些新的结构来解决这个问题。所以这是DeepSeekerV2和V3那个系列的阶段就是想去提出一些新的价格不管是MOEfor高效训练MMAfor更低的推力成本对然后这个时候诞生的事情所以DeepSeeker那段时间可能会更注重说ok我去做更好的研究来在更差的芯片上去做scanning这个事对LAMA的缺陷是什么呀它就是个dense嘛然后你要真要去给它scanning的话你会比如说你比如说现在没有人去训一个几百币的灯丝开远见好说开远见因为训几百币的灯丝虽然喇嘛搞过你也能看到结论但那个结论不一定是说这个结构的问题就是就是它太贵了它太贵了你去训它也很贵然后你去推它也很贵没有人会去搬运一个又笨又贵的模型对那所以你MOEfor更高效的训练然后更高效推理然后像MOA这种for更低的推理成本的这些模型的架构就会诞生对所以这是同阶段可能Q1跟DeepSeek再走两个路径Q1是在纯Scanning然后DeepSeek是考虑的是创新的基础上在Scanning哪个是正确的沒有什麼我覺得正確或錯誤吧因為他們兩個人的一個是為了拿到最強的模型在有限算力之下拿到最強的模型因為畢竟deepsea的算力可能只有科文的非常少幾分之一對然後但科文想的是我怎麼去促進整個生態更好的發展所以两个都是对的没有说谁是对的或错的这形成中国的两个开源势力对对对一个开源势力是在做研究上做到绝对的高度然后一个开源势力是在真的生态和生态价值上我觉得做到一个高度生态价值本身也是一个价值对如果没有这么多的好的开源模型那么非常多好的研究工作就像DPCRE前续的很多研究其实都是在Q1的模型上去做的所以他们是彼此促进的对于社区都是有价值的对然后但DeepSeek更多的另外一方面价值是它有一个全新的结构带来对于训练成本的一个冲击或者说以及对后续推理成本的一个冲击导致很多云推理芯片吧我觉得算是推理芯片有了更多的更准确的判断ok下一代芯片我应该怎么去构造怎么去设计对我觉得这是一个对整个AGT层来说是一个非常好的一个事情对然后这是可能23年24年发生的事情然后24年可能唯一发生的一个事情在所有人意料之外是OE跟RE这OE跟RE其实在我觉得它在TikTok内部也算是一次奇袭可以这么说也可以这么说对就是它诞生也非常的偶然诞生也蛮偶然的我认为它其实就是说当预训练范式变到后训练的时候然后对于组织和团队以及创新的要求是不一样的时候那么整个团队应该怎么再去重组织的一个问题对我是在这个事情上得到的最大感知是这个对是团队我觉得团队是起首要要素按照传统的管理方式说我现在要对后训练加大投入好算力我投了那投人那我从外面挖一个人来或者是我我我从就是我我新新组建一个团队这个是错误的方式吗就得看这个团队本身他可能会觉得后续的人就做后训练我是觉得这样不是很有利于创新吧就是最主要就是就是你能想到很多点上他会做的不好就比如说我刚刚说的后训练的数据的多样性上如果只是做后续训练人天然就缺乏这个事业然后还有就是很多其实我觉得最主要原因是这个很多团队它对作息训练和后续训练人的那个人物化很刻板反正我们不是按照这种刻板的方式来去招人组织人的所以它很刻板的问题就是它天然也导致作息训练人做不了后续训练或许是这样子总之我也没太去了解这里边深深的原因我只是当我去了解的时候我就觉得啊怎么那么奇怪就是老师这么疑惑那我也不管为什么这么奇怪吧反正我就觉得那样不太对然后就我就不这么做就ok就行了所以我们外界看到的可能是R1但是你在内部感知到的是在这个模型开始训之前的对团队的调整和组织其实就是大家认不认可这个事然后以及我们要以什么样的方式来做这个事我觉得我是在RE的过程中是有非常大的体验的但最终的那个结果就我能预知到的时候就我走的时候RE还已经做到一个light的水平然后Code跟MAS已经做到了非常接近于那个OE小的那一把的水平然后那我已经预示到了是我觉得Code跟MAS上这个reasoning肯定能走通而且即将可能AME会从那会只有三四十分刷到我认为七八十分可能都非常有可能但后边现在已经刷到一百分了对但我没有预设到的事情是它其实是一个范式的转变就reasoning它其实是可以通过Codemask这个高范化的场景能范化到通用以外这个其实OE也没有走通这个是我没有预料到的事情所以也是因为这样的一个背景的因素在导致我后面在看一些新的东西的时候哪怕它是for一个很垂的场景去做像Code尤其是Code这种场景去做我会先思考它是不是真的能范化是不是我把它想小了對然後這只是一個可能我自己沉澱下來的一套skill然後這是24年25年對可能25年我覺得很boring的一個事情是它處在一個很交错的一年,这个交错的一年就是你可以选择在Chart的这套方式下把Original给做到极致继续去把SwayBench啊,把那个NeverCodeBench这些偏Code的Benchmark就是思考很久给出一个答案这种,然后把这种AME对这些对你可以在这个范式上选择继续生根你也可以选择我呼去掉我就不管这些对我不管这一套范式然后我就去想下我可能在这套范式上能够做到六七十分就ok了其实AME做到六七十分就表示这个链路你已经走通了但是你是不是可以就可能比较聪明的团队我觉得二五年年中就会全面拥抱去for新的意境的架构去做事情这是你的选择MEMAS是已经转过来了MEMAS我觉得算是转了最早的MEMAS是国内转了最早的对应该是我觉得比KIMI还早但这样一种新的方式下它其实对整个团队的这个敏捷性要求就很高你要快速去迭代基于一个基座快速迭代所以你看从模型的发版速度上你也看能看出来哪些公司它拥抱的速度够快对然后可能有些公司就没有跟上就是还是在原材恰得的方式下去继续深耕没有跟上然后哪怕你去做了一些这种Broskamp那个SwiftBench这些还有就是TerminalBench这种带所谓的Agent的这种Benchmark上并且在这些Benchmark提升的很深但它并不代表这个模型它真的能实际可用就BronxComp比如说它就是一个非常离谱的一个评价指标就在这上面逊的模型它只我感觉只能在这种数据上逊你换种方式哪怕也是做信息检索的方式你最终它能力还是发挥不出去就很奇怪就是这套整个数据形态取向整个框架也非常的specific对所以就是就这半年如果说在做agent的人大部分是在走到这个歧途上我觉得它算是歧途我们也走了一小阵阵Refresh第一代的时候并没有想做agent其实就是想做很好的chart但我觉得一个原因是因为我们确实要先打好chart的基础就像我说的你chart至少要做到七八十分对不对然后把整个历程给走完你才能够说呃你的posttrain的数据的基建你的infra基建你现有的人尤其是我们招的全都是没有做过大冒险的人他他有个历练他必须要有个成长经历否则他一上来就做新的东西怎么好做了对就是我我认为我那会儿呃做flash的时候我纯粹是一种ok我们做过的事情再让一群没有经验的人再做一遍但我更在乎是这群人在做呃这样一群新的事情的时候他们自身在进化然后他们这个进化就对我们后边去做新的事情非常有价值因为我极少在中间给非常强的supervision除非我发现要掉头了对否则你给太细节的这种监督信号就告诉他这个事应该怎么做的一个缺陷就是你会让团队的大部分人去失去原创能力这是我认为应该去尽量避免的事情对什么叫做你们团队都没有大圆模型背景的人就是我们大部分招人之前都没有做过一个大模型嗯他们刚毕业呃就比如说在学校做了一些基础的研究然后比如说之前甚至不是做大模型的那是做什么的做工程的呀然后做开发的呀这些都有一点训练背景都不需要呃有大概三分之一到四分之一人稍微有一点点训练经验但是可能都只是训过比如说7B14B类似于这样的规模模型我觉得他跟训大模型完全那些经验也不太能复用对那需要你有很强的训练的实践的经验吗他对你的经验要求高吗他对一二三四步应该做什么要求会高一些但是我后面发现你不要告诉他一二三四步要做什么然后就推大家一起我们一起来重新做一半这个事然后大家就会往前走这个组织等会儿聊我们先把这个聊完你刚才回顾了从二二年底到现在的整个就是技术发展历程以及各个公司做了什么关键的事情所以现在大模型的竞争从之前的Chat过渡到了Agent对吗这算是这个模型竞争的第二幕第二场战役就是所有人都开始在同一个起跑线上那育元模型应该是可能育元模型我觉得早比如说Cloud应该是两年前就在这个路径上了只是我们没有意识到他是最正确的路径而已对或说大部分没有意识到很多人我觉得是在去年意识到了对去年意识到但是都没有在做正确的事情在我来看那什么是正确的事情啊正确的事情就是你要在一套非常复杂的agent的框架或多样的agent的框架上然后去端到端的完成更高复杂度的任务并且以此为目标作为你的后续链的范式对而不是在一个很局限的场景里边针对一个这个场景定制的这套很简洁的架构里边去做另外一个比差的更复杂度高一点点的然后它的模型的输入输出还是一堆Token一堆Token然后你的模型的Route的范式可能还是我刚刚说的以推力Route为中心但其实Agent已经不是了你觉得Minimax是在这个转变是比较快的我感觉到我觉得他是比较快的因为他们用一个10倍的模型做到目前的这样的一个agent能力我觉得是蛮惊艳的就是他们的后续链的敏捷程度是非常惊艳的但是你说agent的这个第二幕所谓的入场圈是1T的基础模型那minimax没有这么大的模型啊对所以我觉得他并没有说真正意义上已经对比较高的OPUS4.6了就我把入场定义为你要做到对标到CloudOps4.6的水平它需要1T的基座与此同时还需要敏捷性对它已经具备这个事情了那它具备的是后者所以现在中国公司还没有同时具备两者对吗嗯对嗯看一看DeepSQL吧刚才我们顺了一下就是从二年底然后到现在每一年的模型变化你觉得到今天你能不能评价一下中美两边这些厂商他们各自到了一个什么样的位置现在大家bet有什么不一样吗大家可能一个共识都是认为Authoritarian的路径是正确的我觉得这实在是当下的一个共识就是Adrian的这条路的路径也会更清晰至少在过去的三个月以内我觉得Adrian的路是变得更清晰了所以在路径跟機械的情況下,國內的大模型團隊我覺得就會進入到一個加速追趕的狀態。代差我觉得是非常是基本上没有的或说非常接近或说国内的大模型团队在pretrain上结构上是有优势的甚至一度我认为cloud可能在过去很长一段时间做了很多contextengineering我们都误以为它是因为模型结构不是很先进然后为了成本而做了一些妥协的设计嗯但现在回过头来看可能是有点想的太局限了然后现在可能你能看到所谓的这些contest不管他最开始的动机是什么但最终目前的啊这样的一个状态是他所谓的这个contest的管理以及搭配的整个scaffold或者说agent的架构嗯其实是为了啊配合模型发挥更强大的整体的任务的完成度而设计的所以我觉得当大家看到这样一个范式一个转变了过后所以又有一个基座并没有发生代差的这样一个情况下那么大家其实就很握硬的要去做好Agent的PosterTree或者说更具体的说其实就在Agent上怎么去做好其实这个非常清晰和准确的方向但具体的路径研究路径是需要探索的但是至少要做的事情就跟二、三年要去追平printchain的差距一样我认为是非常清晰的对你什么时候意识到coding可以放话coding的放话性那么强我觉得一开始就会就是不管是在普选顺序范式还是post选顺序范式呃就二赛连哪怕最开始呃我从量化回到大拇星的赛道的时候嗯就就会对coding的放话性会抱有非常高的期待哎但是这种期待它是呃转变成说OK我先要好好的去做好Code的预训链数据然后再去给你算力看一下它到底在CodeBenchmark上会不会很好再看看CodeBenchmark提升了以后其他的犯推理类的像BPH啊Drop啊这种Benchmark会变得更好最开始是这样其实它是一步步去实验验证的这样一个探索的路径然后到RE那块又一次验证了因为Code和Mask都有非常好的Verify的指标所以又一次验证然后到Agent这个范式Code又因为它有很好的然后并且code可以天然做很长程的任务比如软件开发就是一个非常长程的任务你去做一个非常复杂的项目工程就是一个很长程的任务所以它又很适合agent这个方式所以它基本上在每个方式上它都戳中了那个点对就你都可以在科学上去至少在研究上你可以是自闭环的然后并且在这个自闭环的路径上做出来的东西它是很容易去scale到其他的更广领域的通用数据上嗯其实code本身就已经挺通用的了然后它还很容易很因为它本身是自然语言所以它很容易死给你对所以做code这个事就是我觉得至少在这三个范式转变的时候嗯它都是一个非常优雅的路径对RLscaling现在探索到哪一个哪一步了你们有什么探索的初步结果没有暂时还不是很方便分享我觉得等我们有一个至少我觉得在RLscaling上的算力跟预训链的算力达到一个同一个水位的时候我觉得我们会给大家分享你觉得今天的竞争变得更激烈了还是变得更平缓了相对于23年竞争的维度变多了吗竞争的维度变多了但是其实应该说竞争的维度和速度变都变多了速度变得非常快可能每你做预训练你不可能一个月出一个模型但你做后续训练你确实可以一个月出一个模型然后还有就是其实agent这个事儿它除了看agent的架构本身也看你对整个推力测的嗯结构或者说甚至硬件芯片对你是怎么去认知它的我觉得它它会影响到有一些最基本的决策比如说嗯十兆的contest什么时候做嗯嗯要不要怎么怎么去scanning一兆的contest其实它也涉及到你在比如说你在预训练如果阶段就去scanning那么你后边而对应的在一兆上去做postertrain跟在256K上去做postertrain它的算力差距是好几倍的差距所以你是不是有足够多的算力差距去support你去做这个事情对所以以及你最终的场景以及这个框架本身的能力是不是支持你能在10兆上的能力给发挥出来或1兆上的能力发挥出来它其实是有一个更长的决策链路,它从原来只需要对本身的架构做决策到需要对你对快速的接下来一段时间Agent框架演变、推理芯片的整個市場我覺得算是供需的一個預估因為芯片它受制於製造的工藝對吧製造的儲備它瓶頸就在那然後以及你要不要儘早去規劃去做更廣的不是否答应芯片的模型结构都是需要提前去做好规划的事情这个说的是大模型的公司维度那你觉得对于创业公司呢当然你没有创业啊你觉得今天创业公司的机会变多了吗站在206年还是更绝望坦白讲我不是很了解除了七座大模型以外的创业公司所以而且但是我能看到的是至少他对创业公司的团队的规模要求会越来越小嗯就是可能不需要有一个非常大的公司就几个人甚至一个人都可以成为一个公司它大概就只要你学会充分借助agent来去让它变成你的就我之前老看看到有人说openclose上我一个人养很多个员工就我自己也去做过这种multiagent的尝试虽然当下目前来看是不那么现实的或者说我觉得有点噱头但是我觉得它很快会变成一个现实在今年内嗯会对multiagent对对multiagent现在没有突破的地方是什么呀现在差哪里嗯每个环节都差点就比如说哦你需要有个足够便宜的模型因为你最终算的是它是不是比我招一个真正的员工更便宜对要是不那么便宜好用我为什么要用你呢对所以你还是要有一个更低价的一个模型不可能说你烧个CloudOps一天花一千多token结果那个员工创造价值可能一千对就这个意思嘛然后第二个就是第二个就是我觉得现在的multiagent的架构并没有那么呃我觉得还有空间反正对还有空间以及他们各自怎么去自进化自接待以及互相互相去沟通嗯这这都还有还有空间就嗯都还虽然有你你感觉现在已经有这个雏形了而且呃我自己也multigen也用的挺顺的但是我我我始终觉得他还是在去呃节省成本节省时间并没有去放大最终的上限我现在还没有感受到这样呢所以那会不会multigen的协同的RO训练会不会做到这个事情嗯没必吧那你觉得模型公司的边界在哪里啊现在模型公司好像没有边界就是感觉好像我之前说我不想做产品但现在发现就是它又变成直接做产品了对模型机产品是对的对借助Agent它的产品力反而更强了然后其他所有东西都很简单然后就反而就是模型借助这个Agent的架构本身就变成一套新的产品了现在在你看来一个公司为什么要选择开源为什么要选择闭源因为国内的大部分公司都开源了除了自己现在选开源的目的会是什么呢这是一个技术选择还是一个市场选择还是一个去加速一切的事情我还是认为是这个目的开源是加速一切的开源一定是加速一切的事情就你如果没有开源我们假设一切会爆发假设它会替代绝大部分的生产力那么我们可以从这个时候去倒推你需要多少的芯片那么这些芯片难道会被一家公司生产吗难道会被一家公司购买吗好像不是它会分散那么如果它是分散的情况下那么假设芯片是分散那这些芯片的推理有可能是芯片的厂商有可能是大模型的厂商那么它用的模型难道是同一个吗还是用的不一样的模型我认为一定是不一样的对所以你从中矩来倒推的话开源这个事一定是至少有利于推进这个事情的因为它最终要大规模产生经济价值它必须要依赖于算力才能产生经济价值的对所以我认为开源是至少对于对于很多环节Agent框架芯片能源这些环境上其实都是有促进作用所以我认为它是加速AGI进程的那你说它最后是一种公益还是一种市场我觉得是取决于每个公司在开源是结合自己的生态位就是你有没有一个别人不可以短期内拿下的一个战略的生态位如果有的话那么你就敢开源如果没有的话你就认为模型就是你的生态位那你就不开源就是这样的一个行为对你在一个大公司做开源的事情会有压力吗我现在不觉得我在大公司做事情其实小米整体我觉得非常的创业导向我觉得很奇怪的是它看起来是个大公司但它其实是一个做事的灵活度非常高的公司所以你觉得206年什么会成为模型公司竞争的胜负手呀做对了什么才能留在牌桌上首先不能做错的事情是首先你的预训链基座嗯不能错就如果这个事都没有上那就基本上就完全没有机会了对所以假设我们都有一个大于一替的模型然后基础的潜能都在尤其在code上潜能都是相当的这样的一个base上那么大家比拼的就是怎么去快速的去第一个怎么让agent的框架跟模型互相自迭代提升第二个怎么让这个agent的架构去更多的去哦和你现在所具备的资源对嗯或者说生态位怎么让这个agent的架构去理解你理解和调度你现在所备的资源和生态位比如操作系统式比如说硬件式比如说呃流量也算是对然后流量社交这些都算是对怎么让这个一线架构去适配你现在的所具备的战略资源然后最后合力起来怎么把它给整合好其实它很考验的是我自己觉得它非常考验的是一个公司愿不愿意用一套新的方式来做这个事情什么叫新的方式得思考原来所有做的东西都是错的对原来是不是需要这么多人来做这个事情首先要思考你需不需要这么多人来做这个事情就是你现在所有做的事情这些人是不是都需要被砍掉因为他的生产力会被另外一个更高效的东西给替代或说怎么让这群人去利用agent来去发挥更大的生产力价值对所以这些都需要去思考第二个就是在新的生态位上原来那些看起来有别的事情是不是我覺得frontierlab的frontier應該體現在哪裡? 最基本的我覺得做研究應該frontier對就是還是要有那種自己想要原創做很多東西而且這些東西可能短期内不会那么主流但是你要说完全不会主流认可那也很奇怪我自己觉得有点反主流我觉得不是很适合的一件事情是你很难scanning我还是很相信scanning这个事你只要顺应主流的话那你就很容易去scanning为什么呀你的所有的infra所有的硬件芯片这些它都是我要的这个目标来一起往前推动那么你个人就会获得那么你这个研究就会获得非常大的加速度对主要是这个原因所以我觉得会顺这个主流然后去做一点我们超前认为比如说nonclassification的架构它其实就是在这样一个背景下去做的但它也没有说上开天毕业的研究但它我们认为这些小点研究层积起来那么它就是一个非常高水准的一个frontier的一个model的状态你对你过去几年做的比较偏原创性的研究比较满意的是什么我觉得比较原创性的研究都是工业级水准的就比如说DeepSeaVR它就是一个工业级水准的一个模型对当大家都在主流去做一个更大规模的Dense的模型的时候然后我们反主流去做MOE然后去改Attention这其实它是这两个都是在做研究但是它是它是稍微在一个有时候可能更多是在一个资源受限的场景里边做了研究但它本质上是可以scanning的研究对所以我觉得这个算是一个不错的作品然后MirrorVR系列我觉得也算是一个是是因为我们确实在Agent的这个方式还没有非常明朗的时候就去做了很多前置的这个决策和判断然后导致我们很我觉得很高效快速的去基于一个优雅简洁的结构给训起来然后这个结构并且最终我们发现它非常的适配Agent的这套方式然后我们又快速的去转移到Agent的这套方式上做了很多后训练的呃设计对尤其是围绕着整个agent的架构来去重新去设计我们的R2info对我觉得这些都是就是都是很多点合成起来然后最终让大家感受到了不是一个paper本身而是一个工业级水平的模型你对发paper现在有执念之类的吗没有就发的越少越好为什么呀我就希望别人发发发到我们台上有些人我说不要带我对就核心原因是我现在也不看学术会议的paper主要的原因之一是我觉得大部分的实验确实应该自己做然后你相信自己的实验结果比相信弄人的实验结果会更好但是我会看一下他的原始关注的问题和动机是什么这个我会偶尔会看一下但总之我觉得在有没有在这种大规模的算力的团队里边做过研究的人跟没做研究的人他关注问题我发现重叠度也差的蛮多的所以我现在就越来越少看这些论文了那你现在信息的来源包括哪些来源自己也带真真来源自己也带我最近连跟人沟通都都很少都很少对所以我都不知道我今天讲的这么多个小时的这些东西它会不会过一段时间发现我应该会过一段时间会发现它是错的但是我不知道当下会有多少人会觉得它是错的或者说是不是有帮助和价值的就还没交流过没有交流过要要说有交流就是自己跟自己交流然后自己看看跟团队里面的其他人在做同样实验的人交流对你刚刚其实嗯多多少少都提到了一些组织话题嗯包括我们上次也聊了很多的组织话题你在最近的两个月有没有一些迭代呀这一百个人可能有二十个人以前训过接触过小一点的模型对就主要是我觉得这些事情它都嗯可以被被快速习得这些能力真的都可以被快速习得只要你被放在那个环境里边围绕着一个更高标准的目标来驱动的时候这些能力都是可以被我觉得最多一两个月慢的话三四个月确实都可以被快速习得所以哦环境反而比经验更重要我自己认为所以我就没有太在乎他的经验而更在乎我是不是创造了一个更好的环境这个环境让大家更快更快的提升学习让大家互相的所谓MOPD我们说的就是互相的争略我争略你的你的长处你争略我的长处互相这样快速的提升对就是我更在乎说我自己创造这个环境是不符合这样的一个限制条件的而不是在乎这个人来的时候他的历史背景的这个基因是不是好我只在乎他的可能初始化切割point的上限高不高我只在乎这个事情但我不太在乎他他他目前已经被supervised的哪里过后的那个点的状态高不高我就不太在乎这个那你会选什么样的人啊就是他的学历是需要和人工智能相关的吗看做什么东西看见博士的比例是5%对那是包含在读博士哦对在读不是博士毕业是在读博士那些数字我觉得是有点刻板的其实这更多是代表一个人对做研究的热爱程度就是如果他对做研究热爱他可能会选择至少读一个硕士或博士然后但我发现现在更我们也招了非常多的本科生然后本科生在对这种aging的这种新的范式的理解上我觉得反而他的想象力会更高所以我现在反而招人会慢慢倾斜到去招更多的前置的本科生我们会去招大二大三的人为什么呀因为他们的灵活性和适应程度都感觉没有被污染就天然跟接纳这个事情会产生巨大价值对他的思想还没有被禁锢的感觉然后所以他敢放心大胆的把自己那些想法交给这套家务去验证然后自己不断去探索这个边界那你怎么创造环境首先是构建这个环境的人他是要有同样的特质的就比如说我说要强调热爱这个事情然后强调使命感这个事情我觉得是要有这些基础的特质的然后呃其次就是在呃这些特质因为它都比较虚嘛所以你你信所以另外一个就是要把这些特质给真的给放大的一个前提是它的基础要好就是呃就是你你可以有的是当他想做什么事情的时候呃他有这个热爱的时候他要能做成就是他这个基础要好他不能就是光想法多但做不成就这个基础是构建成他最后做不做得成的关键要素这是一个基础能力对对所以我们会选基础好的然后好奇心强的然后热爱驱动做事情的当然还有一些可能越来越会有一些更对多样性有更高的要求对多样性有更高的要求因为如果招的太同质化那么大家很容易去miss掉一些看起来是噪音但实际上对研究非常有价值的一些信息对然后那么这个时候多样性非常重要所以我们上班那个每个群叽喳聊的挺多的对就大家都会疯狂的把自己的想法或说关注到的信息给分享出来然后或说有可能是在群里面有可能就在座位上反正吵的不行一天到晚然后我觉得这样的沟通的环境是非常好的然後當然還有一些外部就是這是內部還有一些外部的因素就是比如說你的激勵的方式不能太圍繞著某些非常確定和清晰的目標來做然后以及嗯呃我觉得这个激烈方式呃钱是一个很重要的baseline但是它嗯它它不是唯一的baseline对嗯就是就是钱要给够但是呢除了钱之外的其他东西也非常的关键就是它的价值感它的意义感其实我觉得很多人远远更在乎这些东西你刚刚说嗯后训练团队搭建方式和预训练会有一点不一样通常我们在会训练上看到的人就两类会会适应的会非常好对或者说他对这个事会更有热情第一类就是他会更注重去跟模型玩的这样一群人对因为他去玩他才知道每个模型能力的边界在哪然后他才会去想要去找到一种可scanning的方式去把他这个边界给补充回来有可能是去构造一批更强的数据以及更强的环境让他能够RO训练起来然后有可能是FORBUG到预训练的某个环节可能这批数据没做好给我把这个数据给它补上这一类的数据给它补上那么可能我下次去模型的时候会更好总之就是更在乎模型体验的人更跟模型交互的评次更高的人他会非常适应这个方式因为我觉得这个迭代是有价值的就尤其是那些维护了自己很多私有的测试库的人然后他疯狂去测不同模型的边界然后突然发现某个模型强了然后分享出来自己这种独特体验的人我认为是还是蛮适合去进入这个方式的还有一个就是确实我觉得不可避免是这个我们要不要这个新的Agent的方式去设计它很好的R的Infra体系所以做R的Infra跟做Printful的Infra有一个非常大的不同是R的Infra会更在乎这个模糊程度我自己认为就是就是平序运算你可能不能容错就是比如说我们出现一个lowspike你就不允许它出现你要想要把这个spike给它解决下去但做二位运算你就要允许它容错就是容错就是你允许这个模型跟这个agent在这个agent框架边如如如到一半这个锤锣锣就断了但它断的原因有很多种你根本找不到它是哪一种它有可能是因为这个agent框架写了某个超时的逻辑有可能是因为他做这个任务需要很长的验证流程那你不知道它是因为什么原因这个就断掉了还有一个就是会不会你的训练跟推理是在Ego的集群上训练的然后所以你的训练和推理的不一致性我觉得在原来Code跟Mask的那个reasoning那个范式里面是不能容忍这个事情的但现在你必须要容忍这个事情然后以及你怎么去做一些更多的Ego资源的调度比如说现在除了GPU你还要管CPU然後你還要管存儲對吧然後所以就是怎麼在這種很複雜的醫護資源裡面把這個模型訓起來然後就是我覺得這裡邊需要很多算法跟工程的一個妥協中間這個模糊的地帶非常多然後所以他對英法人的要求的靈活性的要求和這種跨在兩個領域的這樣的一個理解我覺得要求變得非常之高然後換句話說其實我覺得它相比Puncture來說它都對靈活性和敏捷性都提出了新的要求然後能夠應這個範適式的人就會覺得它其實沒有適應就是原來就是有那麼一群人它比如Infra裡邊哪怕Infra是一個相對來說追求一個很多事情都是有一個清晰的答案和解法的人然後它來做OuterInfra還是會会有那么一群人是适合做RL音发的嗯所以大概我觉得是这样一个变化所以我们那边可能看起来还是至少做Printful音发跟RL音发我觉得还是分开的嗯不太能够交融因为他们确实对于我觉得对复杂性和这种精确度的要求会差异很大嗯做RL的瓶颈到底在哪里啊你刚才提到Printful其实真的差不多了其实真正把Agent的RL给Scanning起来的团队很少非常少嗯包括海外是吧嗯索比肯定做这个事儿然后其他团队我不是非常了解至少我从最终的模型效果上感觉到没有没有skin到跟print春一样的亮气这是之前发展的两个方式吗你觉得再往后有什么新的方式吗不确定先把这个方式做了再说我觉得我们刚刚聊到那个就是一个生成模型跟感知能力很强的模型联合到一套新的框架里面去进行RO训练这个事已经足够的在我的规划里面已经足够的长期并且比较难实现现在有人说是continuelearningonlinelearning我现在觉得continuelearning和onlinelearning我更多是代指它跟这个环境产生交互的时候或者说跟Azure框架多种交互的时候这个框架本身在自己迭代和进化我是不是这么去定义这个事情呢你对未来有什么预期啊我觉得未来可能是26年可能是27年可能更长远一点我现在觉得把当下的每天的研究都做好我就觉得非常好了你现在工作状态是什么样的工作节奏早上1点晚上1234点哦但这是我的状态不代表我们团队其他人的状态你是夜盲是吗嗯倒不是是我自己本身的睡眠确实不需要特别多的睡眠可能六个小时就完全足够了然后五个小时也可以四个小时也行四到六个小时在我一个ok的区间对所以我不需要那么多睡眠然后以及现在做的事情有点兴奋所以也确实感觉睡太多有点浪费时间有种感觉吧好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界wellexplorethenew