
Loading summary
A
就有點像我最近可能看一本書就是這個TheBeginningofInfinity我其實看了好幾遍就是他說有兩句話要刻在石頭上一句話叫那個問題是不可避免的但是第二句話是說問題是可以解決也許我知道有可能這個雪山他有可能沒有盡頭我不知道就是我希望他一直沒有盡頭因為這樣的話就所謂的BeginningofInfinity就是這個意思就是他可能是一座無限的山这个是Tim天天跟我讲的就是说你觉得要用这个IO的方式去管理而不是用SFT过去年Tim也是拨风拨雾来回正当你在这个其中你的心态是什么样的你需要平衡自己心态吗哈喽大家好欢迎收听张小俊商业访谈录我是小俊这是一档由语言及世界工作室出品的深度访谈节目我们希望和你一起从这里探索新世界今天的嘉宾是月正安面的创始人兼CEO杨志霖距离他上一次来我们的节目那还是商业访谈录的第59集已经过去一年半了就在刚刚过去的7月份KimiK2模型发布引发了比较广泛的关注K2是一个基于MOE架构的开源编程和Agentic智能体式的大语言模型那今天这期节目呢我和杨志霖聊了聊K2的研发技术细节和他当下的技术认知技术判断以及在過去這一年的輿論風暴與創業起伏之中作為創始人他的心情與思考在你创业第一年结束的时候204年我们访谈报道的标题是向炎明而未知的雪山前进那现在又过了一年站在现在此刻205年7月份你最新的感受是什么样的你刚刚提到这个词我感觉都是好像过了很久已经一年多了AI一天人间一年嘛所以可能AI的一年我不知道在人间是多少天所以对感觉确实很多东西发生了很多变化但是我觉得那种感觉就是你刚说的那种雪山的感觉好像倒是差不太多的对就是可能往山顶的这个过程我们又再走了一段距离多远啊现在行进到哪里了就你现在想就确实模型的进步挺大的对吧就是你可能比如两年前这个写一篇文章都写不太明白然后现在它不光可以写很好的文章它能够连续工作几个小时让你完成一个可能很复杂的代码任务我觉得这个东西可能在两年前是很难想象所以我觉得可能就是在一个爬雪山的过程中吧然后呢你解锁了一些解锁了一些新的场景你大概知道中间这条路是什么样的但同时就在往上的过程中你可能还是观察到差不多的景象就是说你接下来的往上的过程它仍然会有很多未知的这种比如技术问题需要去需要去解决对就是所以我现在可能大概是这样的感受吧更清晰了还是更迷茫就是在这个私下都是学这个地方对我觉得肯定会有很多东西变得更清楚对就比如说可能我觉得在两年之前比如说各种强化学习的这种方式怎么去做让模型有更强的推理能力或者有更强的这种Agentic的能力我觉得在当时可能没有那么清楚当时可能更多的是说你这个模型的预训链怎么能做得更好然后当时还有可能RHF的技术在对话的体验里面做得更好但是现在我觉得会有新的一些问题可能得到了答案但同时这些新的问题它又展开可能又产生了一些新的别的问题比如说可能我们今天看到虽然你可以做这些强化学习但是你的强化学习可能最终还是依赖于一个很好的评估或者很好的验证比如说你让他去做一个数学题或者一些有testcase的编程那可能可以做得比较好但是如果让他去做一个可能更加复杂的端到端的任务有时候你并不非常容易找到这个评估或者衡量的方式所以我觉得现在的这个系统可能会产生一些新的问题就有点像我最近可能看一本书就是这个叫TheBeginningofInfinity我其實看了好幾遍然後你發現它裡面講的最重要的一個事情就是說他说有两句话要刻在石头上一句话叫问题是不可避免的但是第二句话是说问题是可以解决的然后基本上就是说你就可以认为在可能启蒙运动之前这个社会它是一个静态的社会就是大家并不追求创新就是说你可能会用很多神奇的方式去解释你观察到的现象但这些解释它可能并不是一个好的解释比如说你看到天上打雷你會覺得是雷公然後你看到冬天下雪你覺得可能是因為某個神他的心情不好所以下雪了你會有很多這種不好的解釋去闡述這些東西所以它整個社會是個靜態的社會只有非常少數的人是在真正做所謂的科學研究或者說知識的創造所以它其實會是一個靜態的結構但是如果是在啟蒙運動之後你發現這個社會它變成動態的就是你會有很多新的知識被創造出來然后这个创造过程中它就会比如说你产生了一个知识它就解决了一个问题但解决这个问题的时候你会产生新的问题你的问题是不断因为你的知识边界是在拓展那你就会遇到很多新的问题研发这个AI的过程中我觉得可能恰好就是一个这样的过程就是你解决了比如说强化学习的很多问题但你发现就面临着很多新的问题比如说评估的我刚讲的评估的这些问题或者衡量的问题驗證的問題這些問題它可能就我們需要一些新的答案大概是會是這樣的一個過程但這個也是非常有意思的一個點就是因為你一直會有新的問題可以去解決然後每次解決一個問題你的技術就是會往上再可能再攀登幾百米然後可能有一天也許我知道有可能這個雪山它有可能沒有盡頭我不知道我希望它一直沒有盡頭因為這樣的話就所谓的beginningofinfinity就是这个意思就是它可能是一座无限的山就是你一直在你一直在往上爬然后而且甚至有可能爬到一段时间之后你不一定是自己在爬而有可能是你用用AI來爬對吧就比如說你現在我們也會把就是比如用K2這個模型去做很多可能模型訓練或者說數據處理相關的工作這些東西他以前可能都是要人工寫代碼或者有些同學他不一定會寫代碼以前就做不了但是現在比如說很多數據處理或者說模型的一些分析對吧甚至包括模型的一些訓練你慢慢又都可以用這個用模型來做對所以那你可能就是可以把這個東西作為一個放大器去更好的去判斷這座山對所以我覺得會有這種感覺就是反正你的問題是會持續產生對然後你就持續去解決然後發現有新的問題那如果雪山是無盡的你追求的是什麼呢追求攀登的過程或者說你能一直越爬越高你可能原來是在山底下然後爬到A到又往上提升了一點然後你能看到的景色會不一樣然後它是一个动态可能进化的过程然后我们可能想追求的是你就是越爬越高以前我们会固化地认为终点就是AGI今天的终点已经不是AGI了是吗那AGI是什么对AGI可能是个方向就是它可能不是某一级台阶说你爬到了这级台阶就突然一夜之间达到AGI对吧而是说可能它是一个方向比如说我们今天可能在很多领域其实你有可能你可以认为它是AGI就是因为它可能做得比9%的人类可能都更好对吧然后对然后包括就是现在比如很多数学题或者说编程竞赛这些题可能我觉得按照现在提升速度你可以可能预想就是说它会很快有很多问题就可以被充分的解决但是他可能很難說我是很了解某一個時間點我就可以喊一個口號說我們在這個時間點此時此刻實現AGI雖然我們用登月來命名公司的名字但它跟登月有一個區別就是登月就是你站上月球的那一刻你號稱我就達到了但是可能AGI它就是你不斷做而且這裡面我覺得兩個層面一個是說一方面是技術是一直在提升當然另一方面就是除了技術之外我覺得技術對於人類社會的影響它可能是更長週期的事情你也可以認為它其實是AGI的一部分就有點像比如你產生了产生了蒸汽机之后你整个社会的变化它只是需要花可能几十几百年的时间去消化就是你有一些工作可能不再必要但是你会产生新的工作然后有新的方式可能人会用AI去做更每个人都会成为超人了你可以做更多的事情这个社会它的工作方式和它的运行效率可能都会发生它的变化那我們先來回望一下過去一年過去一年全球大模型在你腦海中最重要的幾件事情是什麼有哪些在人工智能範式級的變化我覺得可能有幾個重要的一個是這種強思考的推理模型基於強思考的強化學習對O1就是作為第一個做出來這樣的一個代表然後我覺得是本質上來講是它通過讓模型在這個過程中去做很多的尝试和反思我觉得可能反思是这里面的重点反思其实本质上是两种能力一种能力是提出来一个新的猜想你可以认为就是模型在解决一个问题过程中它会不断提出新的猜想然后这个猜想它会得到一个自我的验证比如说它提出这个猜想之后我到底这个猜想是对的还是错的他其实是需要具备一定的验证能力虽然你不是显示的训练一个验证模型但是他是在这个推理过程中可能隐私的去做了验证然后你可以理解成就是他把这个问题做了很多次每次猜想验证猜想验证然后最后可能就可以得到一个答案对那这个东西就是说它其实会很大程度提升模型的能力是因为你本来只能做一次你本来只能就是我直接给出一个答案那这个答案可能是对可能是错的你并没有这个过程但是你现在可以不断地提出猜想去验证那等于说你其实等价的尝试了好几次对那你就是可以把PathK可能变成Path1它本质上是一个这样的的道理就其實跟人做科研或者解題的過程也很像就是也是不斷提出新的猜想然後去驗證它是一個自由探索的過程它不是一個線性的過程實態有效的工作方式實際上還是很多時候是比較線性的你如果不考慮比如說我做並行的採樣假設我就是做串行的採樣它其實是有線性體現在就是說你每次是提出新的猜想這個猜想可能是基於你之前的猜想你已經否定過的猜想然後你提出來一個新的猜想對但它會接近更線性的過程但只是說現在你也可以把這個線性的過程去搭配到就是搭配一些可能並行的策略就是你可以比如說你同時採樣很多個然後那他就會結合可能並行和串行兩種不同的方式但是最近也有一些paper講就是說你可能串行他的上限是會更高這個可能跟我們的實驗結論有些相關對所以這個我覺得是一種方式就是但他還是一個缸中之腦就是說他並不需要跟外界交互他就是想像一個魚缸然後你把一個腦子放在裡面他跟外界是沒有聯繫的他是這個環境裡面的对他是只是在自己大脑里面想他就一直想他不需要跟外界产生任何的交互他就能解一道题但是有另外一个很重要的方式就是说现在可能基于这种多轮的agent的强化学习的方式或者说你通过这种强化学习技术训练出来这种agent的模型他的特点就是说他會跟外界做很多交互比如說可能我邊思考邊去做一些操作然後我可能做很多輪的操作我一會調用一個搜索一會使用一下瀏覽器一會可能寫幾行代碼然後我通過多輪的方式解決了一個問題他就不再是高通智囊他是跟外界有交互的所以我的下一步行為是根據通過交互得到的外界給我的反饋外界给我的这个新的状态的更新是有关系的对还有一个过程对对对然后那这两个东西它都指向了同一个东西就是都是所谓的testtimescaling就是就是你可以在测试的时候或者说在推理的时候做做更好的规模化意思就是说比如说我们之前如果在做chat或者在做对话的时候你更多的是我只是单轮的输出一个一个结果对吧我可能让你写篇文章你就写篇文章然后我再问你我再让你润色一下你又输出了几百个token他这个token数量是很少的但是不管是刚说的基于强思考的强要学习还是说这种agent强要学习它本质上都是一种去规模化在預測的時候的Token的方式對就是你不管是說我把輪數打了更多還是說在每一輪裡面我有更多的這個思考的Token它都是一種去規模化這個Token的方式使得說你能去完成更複雜的任務然後這個也伴隨著就是你的完成時間會更長可能就是你可能現在會花幾個小時的時間比如說去做一件很複雜的事情在這個過程中你可能不需要不需要人工的参与对他就可以比如把一个代码仓库克隆下来然后把它翻译成另外一种新的语言然后去调试测试然后去把所有的bug都修了然后让它能正常的运行就这样的一个工作可能是可以端到端的去直接完成它就得益于我觉得是这种测试时的规模化这两个都是我觉得都是testtimescaling的表现方式对然后可能还有一个很有意思的趋势我觉得就是说可能现在会有更多的模型公司去做这种一方的产品对就一方的这种agent产品然后我觉得这个也很有意思因为一开始更多的比如说我们如果看半年前开始的话或者说去年的就会有很多产品它是基于基础模型然后你在上面可能做一些脚手架或者去设计一些工具去更好的让模型去使用然后来搭建一个产品享受模型溢出的能力然後他本質上在做的一些事情就是說去逆向工程我認為就是去逆向工程這個模型的訓練過程就是因為模型訓練過程他也是通過各種比如說你可以認為在in-house的環境工具他的腳手架可能訓練出來的这样的一个模型但它可能没有直接开放给你那你实际上逆向出来你更接近去你和它的分布到底你用什么工具它效果会好到底用什么样的systemprompt效果会好到底用什么样的contextengineering它的效果会好是一个这样逆向的过程但是你发现就是说如果模型公司去做一方的产品它的逻辑是完全不一样的就是你不再需要逆向的过程它更多的是一个正向的做法就是我现在先把这些工具可能设计好我的contextengineering的方法都设计好然后我就在这个环境里面去训练这个模型所以你的模型天然在你的环境里面就会表现得更好对然后所以我觉得这个是两种不同的思路但可能就是第二种它的上限也许会更高就是你可以更好的去整合这个工具和整合这个模型然后你的模型有可能有些解决不好的地方你可以去调整这个工具的设计你可以把它设计得更好然后同时你又可以端到端的去做训练我觉得这个可能也是在可能开发方式上一个其实可能比较大的变量就是我能观察到的这几个可能是我感觉比较有意思让大家比较好理解其实你刚才说第一种搅手架就像minus这种方式然后第二种就是你们这样的对对当然我们现在在一方产品上的投入还不算特别多我们现在可能主要还是说做很多还是以模型作为我们的主线对但是你可以看到比如像CloudCode或者像ChargePTAgent这样的东西它其实就是一方的产品然后我觉得应该也会是一个很大的趋势所以可能后面就是看这两种东西它会怎么去配合或者说它们在这个生态里面会是在什么样的它们的边界分别在哪里说到主线你看ChargePT它設計了LE到L5其實我一直很好奇這裡面的邏輯就是LE是chatbot第二個是reasoner第三是agent為什麼有了chatbot和reasoner之後才有了agent然後為什麼後面又是創新者和組織者他們的邏輯是什麼樣子就是在邏輯模型上它的變化是什麼就是他是這個能力一步一步的依賴當然就是現在我覺得實際看起來實際看起來就是說你agent我覺得agent的上限是取決於你有很強的reasoning能力但是好像並不是說你必須比如说我们如果把这个技术发展稍微换一个顺序假设你先做出来的agent能力然后再去做现在这个狭义上的reasoning就是说你做这种LongCOT的reasoning我觉得实际上可能也是成立的也是成立的对而且你可以认为可能Cloud的路线它就是bet在这一点上就是我可能在reasoning上做的并不是那么多但是它可能在这个agent上会做得非常好因为它对应的是其实是你技术背后是两种不同的testtimescaling的方式你一种scale的是通过这种多轮的方式因为你需要跟外界交互你使用很多次工具所以它是这种多轮的交互你可以scale这个轮次另外一种是scale就是像我刚刚说的你可能其实并没有什么交互你只是一直在那思考纯粹的思考它是两种不同的我觉得是scaling的维度我觉得就是说你可以看就是说可能比如说你看Cloud很多模型它的reasoning的performance并不是非常高但是他在Agent上的Performance是很高的它其实并不一定是依赖的关系但是有一点就是说如果你想做最好的agent就是想让它解决最复杂的任务那你最终可能是需要你的reasoning能力也很强对所以它是这样的一个关系就我觉得在研发上它不是必然的顺序但是就是如果你想达到一个东西的最好你需要另外把reasoning你要达到agent最好你需要把reasoning也做到最好然后当你有了agent之后它就可以去做一些为什么是对应接下来是Innovation就我觉得这里面最关键的一个点就是你的模型到底什么时候能参与到模型的开发就比如说我们希望K2能够参与到K3的开发里面那如果你没有这个Agentic能力你其实很难做到这个事情但当你有Agentic能力之后他就可以去不管是說你提出一些新的想法還是說去做對應的實驗然後去分析實驗的結果得到一些結論然後去迭代下一版的想法或者去優化一個某一個Infra的一個性能那這個東西它是需要很強的Agentic的能力它才能做所以我覺得Innovation其實最大會產生在至少会有一个很关键的点就是看你这个模型什么时候能参与到你的模型的本身的研发里面去对然后但这个东西它跟organization就是它可能也我觉得也不一定是完全线性的关系有的东西其实也是并行的就比如说现在这个组织这个东西它也在对就是我觉得现在已经看到很多这样的趋势了就是当你有一个agent之后你就可以把它拓展成一个multi-agent的系统对你可以从一个agentfocus出来很多个不同的agent让他去做不同的事情然后他很多可以串行然后put并行然后再合并起来然后再分成几个不同的task你可能有的是去写测试有的去写文档有的去设计就是整体的这个软件的框架它可以有不同的分工然后我觉得现在已经在有这样的趋势所以它不一定是线性关系对就是你有可能两个会一起发生但是它确实是我觉得reasoning和agent相当于说对就是可能会是innovation和organization的一个前提我理解reasoner是agent的前提是因为它能够让语言通过推理在agent中得以放话对对就是如果说如果想去解决一个可能最复杂的agent的问题你肯定如果不会推理是很难对但是你假设没有推理的这种方式你还是可以一定程度上做一些agent的任务不需要推理的任务或者你不需要那麼強的推理能力你不需要說我在思考過程中輸出來幾千個token去推理一下我當前到底我應該怎麼做你也可以去通過多輪的交互方式從環境裡面得到反饋你寫一些測試然後去跑測試你也能解決一些相對比較複雜的任務所以我覺得這是為什麼現在可能你發現Cloud的模型在有一些場景它會做得更好就是因為我覺得可能你背後其實是對應了不同的技術的這個Bet但最終你是繞不開就是說最終你要做到就是你要往山頂再爬幾步的話你還是兩個都要它只是一個時間問題然後所以對應就是Organization和Innovation這兩個東西也是一樣就是你在這裡面如果你有不同的技術的Bet可能會讓你短期的路徑稍微有些区别然后这些短期路径的区别可能会有一些影响因为它毕竟你要面对的是一个动态的市场Innovation的标志是模型的自我迭代那Organization呢organization就是可能就比較簡單的思考就是它會是一個multi-agent的一個系統然後可能會從現在的agent變成我覺得現在也有很多這樣的雛型對然後當然就是說你multi-agent的系統怎麼很好的端到端的訓練然後你可能不要去過擬合到某幾種agent的類型讓它有更好的放話性我覺得有挑戰的Optimization是雪山的峰頂嗎我覺得也不是可能它真的就是沒有頂就是這幾個能力它可能隨著時間的發展它都會持續的變得更好就包括推理能力你說推理能力的上限到底是在哪裡我覺得今天也不好說雖然它你看起來是L2對吧但是你真的說做到很強很強的推理我覺得今天也還是有很大的空間所以你怎麼看L1到L5的這個分級你把它當做一個什麼樣的刻度我覺得它是就是幾個可能重要的技術milestone但是就是首先它並不一定完全是串行的關係像我們剛說的我們會預期說有一個東西它就馬上被解決掉然後你去解決下面的問題它可能是會你同時都會再提升我覺得像比如說reasoning就是你要去你真的要解決一些開放的問題或者說就是你要做很好的创新对吧你要提出来新的模型架构那你的推理能力可能又需要有更高的要求所以我是觉得可能这几个能力要持续的提升我们来复盘一下23到24年你们的关键决策是你当时2月份决定了创业然后开始融资组建团队然后到了下半年Kimi上线了然后Bapt成为本那24到25年这一年呢你的关键的几个重要的决策是什么好問題我覺得很重要的可能技術上就是說你從以預訓練和比如說SFT為重點的這樣的研發方式轉變成就是說以預訓練和強化學習為重點的這個方式然後我覺得這個其實你就需要做很多的不管是人才的储备还是说研发方式的改变对然后可能还有就是说可能从对话到agent我觉得是一个重要的反式的改变然后这个东西它会很影响我们的实际的工作方式吧我觉得这两个是可能比较重要的方向上的变化过去半年你们推出了K1.5和K2嘛这个分别对于Kimi意味着什么我觉得K.5更多的是可能是强化学习这个技术的验证就是我们对对对我们可能是也是比较早去在这个技术路线上去做投入然后可能得到一些结果看背后的技术到底怎么做就是当时我们发现说你可能不太需要太多的processreward或者这种比如valuefunction或者甚至这种就是可能在训练过程中还有一些副作用对吧就我们发现就是你可能直接用端到端的这个reward就可以把这个训练得非常好我觉得这个在早期其实可能还是并不是非常明确然后在这个过程中我们可能是积累了一些强化学习的基建还有它的这个一些算法的一些knowhowK2的主要的点我觉得是几个一个是说我们希望它是一个非常好的基础模型希望它是一个非常好的basemodel所以那如果你想有一个更好的basemodel我们就要去看现在比如说整个领域它的預訓練的瓶頸是在哪裡然後我們發現就是因為你其實高质量数据的增长确实很缓慢然后多模态的数据你又没有办法很好的去提升文本本身它那个智商你可以认为就是高质量数据它是有点接近是一个常数所以在这里面我们希望的是说我们希望把每一份的数据能够最大化的使用就所谓的这个tokenefficiency就是你希望说你你同样吃下一样多的数据你能脑子长得更多就是你能得到更多的智能会跟之前有一些思路不太一样就是说比如说你现在假设你在这个训练系统里面做很多的这个性能的优化你让他训得更快这个东西也很有价值但是训得更快本身他并不能提升智能的上限因为你的你的token还是只有这么多你训得更快你最后只是说我在更短的时间内完成这个训练但他的模型的效果并不一定会变得更好所以这个是所谓的训练效率或者说computeefficiency上的优化,这个可能之前有一些人做,然后我们现在更多的是希望说去提升它的tokenefficiency,就是把一份数据当成好几份来用,比如说,所以我们很关注的像比如说muon的优化器,没有优化器就是这个东西它很有意思就是它对tokenefficiency的提升是比较大你可以认为就是说像ADM这样的优化器可能已经用了十年然后大家一直都在用所有就是大部分的模型都会用ADM来训练但是它的tokenefficiency并不够好所以就是并不是把每个元素独立的去考虑比如说一个矩阵的参数它会就是考虑它们之间的dependency然后通过这种方式你其实是可以更好的有更好的學習效率也就是說你學同樣一份數據你能得到更多的智能比如在我們早期的實驗如果你是在ComputeOptimal的情況下你基本上會有一個兩倍的提升也就是說你學一份數據就等於別人學兩份數據等於你用Adam學兩份數據所以假設你有30T的高質量的Token那你等價就是變成你現在有60T的高質量的Token但他還是那麼多數據对但是他学了之后他的脑子会长得更快为什么因为他的学习效率高因为你的优化器更好所以他会所谓就是他会吸收的更快你都是为一样多的数据但是他就吸收的更好所以你的压缩率会长得更快你的loss会降得更快ok这个是你们原创吗? 没有优化器? 没有优化器是Keller提出来的一个东西我们在上面做了很多的优化让它能够在很大规模的这个语言模型去适配和训练比如说我们之前其实有一个Moonlight的工作就是让他能够第一次在有一定规模的语言模型下去训练然后那后来就是说我们那个在去进一步规模化的过程中发现有很多新的坑比如说你发现它的MaxLogic可能会有爆炸的问题这个其实在小规模实验上你是很难得到对但是你在大规模实验上你可能会遇到这样的问题然后可能我们就提出来一些新的比如说Clipping的方式去解它让它能够在一个非常大规模的情况下仍然能够很好的去训练这个是很重要的就是因为你的token虽然有限所以你希望每一份token能产生可能更大的价值对然后包括就是说我们也会对数据做很多的这种rephrase的操作就是因为高质量的数据你比如说你有30Ttoken但是其实里面高质量的数据可能更少对吧你可能有几十币或者几百币这样很高这样的数据但你希望它能更好的使用对所以我们就是对这些数据可能做了一些改写的操作让它能够更好的被模型吸收和有更好的泛化对我读了你们这个技术报告你们尝试以一个模型改写现有数据生成新的雨料嘛那这个具体的改写过程是什么样的改写策略是什么样这个其实你没有提如果你同一份数据学很多次它可能泛化不一定那么好对就是它可能会有一些这个會有一些顧擬核的問題對然後所以我們希望就是說你通過這個改寫讓它有一定程度的泛化改寫有一定程度的泛化對所以這個可能是一個主要的思想反正具體改寫的方式可能會有非常多種就是我們可能找到一種就是說在實驗裡面它效果比較好但我覺得這個空間也很大就是我覺得可以有非常多的研究的你怎么看待一种观点就是说改写和库中其实没用能够写出来知识说明知识本身就在里面没有新知识除非改写的时候用到其他方法这个是一个很好的问题就是可能确实跟你的改写方式也有关系理论上就是看你有没有新的商的输入经营商的输入对对对所以所以我觉得这个它对改写的方式是有一些要求对但但我觉得我们今天也不一定是就是说一定是最好的改写方式就是我觉得这里面还有很多可以去探索的空间大家回到刚刚讲的点就是我们说这个KKR这个模型我觉得一方面是希望它成为一个好的basemodel然后所以我们也会很希望去提升它的tokenefficiency这些是我们可能对应的设计包括就是去加更多的这个通过更大的吸收度去加更多的参数那它的tokenefficiency也会更高因为你参数多了之后你虽然学一样多的数据但是你也会吸收就是你会吸收的更好因为你有更大的这个對就反正你通過實驗你可以驗證它確實有更好的tokenefficiency然後所以這個是很重要然後第二個就是我們希望它是一個好的有好的Agentic的能力對強化學習或者說對於這個工具和環境的這個模擬讓它能比較好的泛化性就是我是覺得對於對於一個Agentic模型來講可能現在最大的挑戰其實是在模型的泛化上就是因為現在的IoT技術我覺得它的侷限性在於說你的你不管你的训练任务还是你的评价指标它很多时候都是单点的比如说你就训SwiftBench它提升SwiftBench然后我觉得它是一个基本上很确定的东西但是你的指标提升上去之后并不意味着你的模型的范化会变得更好对然后所以我们也尝试去可能解决一部分这种范化的问题就是我们不希望说它过拟合到某一些工具或者过拟合到某一些环境或者过拟合到某一些具体的任务上对但这些任务可能是很好的观测但是我们不希望去过你和他而且这个问题可能在agent的训练里面它更加严重就是相比于可能之前的对话模型它的好像它的这个犯话是一个更大的挑战为什么不在preach里面去选我觉得这个也是接下来我们想探索的东西对就是你有可能会有一些更多的agent能力是可以在预训练阶段去这可能提高犯话性吗也取决于你的这个取决于你的做法就是取决于比如说你的数据的分布是不是足够的广泛以及就是有没有很好的方法去评估就是我认为现在整体的评估还是还会是一个瓶颈就是就是它是阻碍你的Agent模型变得更加淡化的一个很重要的瓶颈所以你会慢慢观察到就是说你现在只是Agent能用的Benchmark不是非常多然后你在那些Benchmark上如果观察到一个分数它其实很多时候它也并不是对这个能力的反应它其实也比较片面这个其实我觉得是可能大家要去想办法解决的一个问题这里面可能有一种潜在的思路就是说我们还是用更AInative的方式去训练AI就是说可能我们希望让模型参与到更多的训练过程里面就是因为这样比如说如果你的AI能够做很好的alignmentresearch能够做很好的对齐研究理论上它可能会有更好的范化你就不仅仅只是在优化一些单点的任务我觉得这个是Agent下一步可能非常重要的一个点就是他今天可能还不像对话一样有这么好的泛滑性对这会是接下来可能雪山上的几百个台阶也有可能是这个听起来K1.5是在跟着OpenAI跑然后K2是在强跑是吗我觉得整体就是说肯定我们还是也是借鉴了很多技术上的这个方向但是在这里面我们也希望能有一些自己的创新比如说至少我们可能是公开的所有能看到的资料里面就是说第一个去使用这种非Atom的或者说基于这种舉證證交化的方式去做新的優化器然後在這麼大規模的模型上去訓練我覺得這個還是一個創新的地方然後包括可能我們一些Agent數據的做法至少在公開的查的資料裡面也是比較早去做的因為我覺得這個空間會越來越大就是很有意思就是说当你的越往上爬的时候你发现就是你的空间是在变大首先它token在变多嘛你完成同一个任务的token是在变多的所以它的问题的复杂度是变得更复杂就像刚刚讲的就是问题不可避免但是问题总可以被解决就是说你这个不可避免的问题看起来会比之前可能更多一些所以你的研究空间可能会更大对这是我现在的一些直观的一个感受吧K2是怎么理想的筹备了多长时间筹备可能比较长时间了以很多这里面很多涉及到很多技术可能我们从去年就开始在研究一个技术就比如说你像MirrorandClip这样的技术它需要经过一个比较长的周期你一开始可能就是做一些非常早期的实验然后你发现这个想法好像有一些潜力对吧就我们会有一些小的实验能够去验证这个想法的潜力到底有多好你有这个想法之后它只是到你最后能够去把它放到一个蜿蜒模型里面去训练它只要经过很长的周期你要通过不同的scaling实验去验证它的有效性然后像我说的就是可能有一些问题你只有当你scale到一定的规模之后才会发现所以整个东西这个周期其实是比较长当然就是如果你看你只看这个模型本身它这个训练从开始按下那个训练的按钮到结束那其实时间倒没有那么长就是你整体的研发其实是需要更前置做很多事情才能最后保证你这个训练是一个比较顺利的过程整体LLM这个的BAT是什么时候开始的也要做很多的積累可能像大概只是說你不同時間點的做法可能會不太一樣比如說你一開始可能並不一定非常端道端的去做但是可能你積累了一些環境和數據但你到後面可以更端道端的去做強化學習你中間需要很多基建還有很多數據的積累的過程但這個東西它肯定很難說你一兩個月做得非常好也是需要時間積累的我整體覺得那大模型或者相關的這些技術它是挺需要時間積累的就是還是要做時間朋友吧就是你要不斷積累這個東西然後它是相對我覺得技術的曲線是還是有點陡峭的就並不是說我今天想做就能把它做出來所以什麼時候立項的就首先我们可能去积累这些技术然后不是就是一年前开始积累各种技术我觉得对然后但是你说K2这个东西肯定是那就是最近几个月我们决定要去训一个这样的模型然后把哪些技术用上我觉得大概是这样的一个决策但是你不是说我今天想训这个模型ok然后我在丛林去搞很多东西那才可能就不是两三个月能解决的问题为什么立这个架当时是感到不屈我觉得也很正常因为我们就一直训练下一代模型那你无非就是决策就是说我下一代模型到底是我到底是要加入哪些技术然后你期待它是一个什么样的模型就跟现在我们也会去考虑我们K2之后下一代模型到底长什么样对吧这个是一个持续要思考的决策的问题然后你可能每次就是看现在你工具箱里面其实又多了很多新的东西那你到底要把哪些东西拿出来用就是有一个这样的过程那你們做研究和做訓練的團隊是分開的嗎他們是一個什麼樣的過程因為一年前就已經開始研究這些技術了到正式訓練就是一個團隊在做這件事情嗎對其實是一個團隊在做因為這東西它很難分開比如說你在實際訓練過程中你會遇到這個問題如果你之前都不了解你沒有辦法去解決它所以實際上這兩個並不會分開黑兔過程中有遇到什麼挑戰嗎就是我们遇到就是那个MIRROR你去训的时候它就会炸就是我们那我们那个都有画一些图在那个paper里面就是说你那个MATCHLOGIC就会涨非常高然后就是我们认为这个东西对训练的稳定性有影响你可能训久了它很多就所谓的这个内科指标不正常的话其实对模型的上限是有害的,对,然后我们就是说等于是又回过头去revisit去重新看这个问题,然后去去修复它,就因为这个东西是你在小规模实验上没有办法预测的,因为小规模上我们没法复现这个结果。 它就是不會有這個爆炸的問題,然後其他的基本還好,因為其他的我們都在小規模上做了很多實驗,然後它基本上也是可以遷移的,所以問題就不是很大,就唯一有這個是小規模上驗證不了,所以你需要在scale過程中再去臨時去解決。 那你在K2的訓練過程中最重要的幾個knowhow是什麼?
記得knowhow是寫在paper裡就是我們都很open主要的東西寫在paper裡面因為我們還是想跟更多人跟社區去分享我很好奇你會怎麼定義agent以及怎麼對agent進行分類好問題就是其實像我剛說的就是它可能是一個就是從一個鋼中之腦變成可以跟世界交互因為所謂Agent它其實就是最重要的特徵就是它可以是多輪的使用工具所以它我覺得兩個一個就是一個是多輪一個是工具多輪就是你能做很多次這是一種testtimescaling的方式然後工具就是其實你是連接這個腦跟外部世界的一個方式比如說你用手術引擎那你就可以把這個模型跟整个互联网连接起来然后你如果就是你可以写代码那你就可以把这个脑跟这个数字因为这个数字世界基本所有自动化都可以用代码描述那你就可以让它拥有这种自动化的能力所以我觉得这两个是我想象中可能这个agent的特征那你接下来就是会有更越来越多的工具当然你会有常委的一个分布就是这个模型如果翻画的好的话它就不只是使用一些常见的工具它可能可以使用非常个性化的工具比如说假设你今天要有一个就是非常具体的问题比如说你想让这个模型能够访问公司内部的一些数据库或者你个人的一些文档然后能够甚至是访问一些定制的API让它能完成某些业务的操作比如说去退票或者就是去下一个订单这种它应该是能够分化到它没有见过的工具上对然後所以我一直在想說我覺得agent現在可能最缺的其實是這種翻畫的能力但如果你有更好的翻畫的話那其實所謂的比如說之前大家在討論各種垂直的agent他可能就不一定非常需要就是因為當你這個通用的agent他能去翻畫到長尾的工具上那基本上你很多领域专有的问题当然是可以直接用这些工具去解决的你只是每次给他加不同的工具比如就像我说的你加你可能这个定制的数据库定制的API定制的这些文档的接口什么你就可以完成一个非常垂直的一个agent对他的这个普世性就會強很多然後多倫主要是你可以做testtimescaling就是你可以做很複雜的任務不只是只是做一次就像對話模型一樣我就只是出來一輪但他現在是可以做不同的事情就跟人一樣就是人每天的工作其實就是你可以認為他就是一個多轮使用工具的序列嘛本质上你是你是希望把人的这个序列给他拟合进去但你又收集不到这样的数字化数据的话那你就可以用强化学习来构造对就是他本质上是在模拟人的行为但他他也是一个很通用的他是一个对你也不能说叫模拟人对叫模拟人的行为可能不太准确就是因为他他只是一个通用的什麼叫它是通用的所以不是模擬人人也很通用對人也是通用人是一個所謂的universalconstructor就它主要目的不是去模擬人它主要目的是通用就是說它這個形式化就是這個定義本身它是通用它可以完成幾乎所有的任務對所以這個可能才是這個設計的目的就是說它跟人的做法類似這可能只是一個剛好的結果並不是說設計這個系統的目的就是设计飞机是为了能够当做一个交通工具它并不是为了像鸟一样能飞对所以我们有这个Agen的系统它更多的是通用generalpurpose的一个智能就是也是跟这个目标对齐但它刚好跟人是一样相似的刚好跟人相似的怎么提高通用性有Tesla什么方法没有对,我觉得这也是一个很难的问题,就是我觉得今天Agent的犯法有一个风险就是会陷入到可能有一些benchmark的这个玻璃盒里面,但是现在有可能缺少很好的benchmark,所以我觉得这个会是接下来的挑战,但我觉得可能有一些解法就是如果我还是觉得如果能用更多的AI去训练AI,那一定从头上缓解这个问题什么时候能做到用AI训练AI现在的瓶颈是什么现在其实已经有一部分你是可以这样做但是就是你希望他有更多的这样去做对就是现在很多还是要靠人的设计这就到Innovator那个阶段了所以这很有意思就是说它其实有可能不是线性你要用一些innovation的方式去解决你的agent问题对因为今天你的agent算话不够所以你要用innovation的方式解决它就是你要用L4的技术去解决一个L3所以我觉得L1到L5的定义有可能它真的不是线性对就是又回到刚刚说的那个点就是你没有这个很好的innovation没有用AI去训练或者AI对齐AI的方式的话他可能这个agent他就是很难做到特别好的算法比如你今天发现就是你人工定义了一些task然后你就fit那个task但是你在别的你可能看不见的task上他就有可能表现没有那么好然后但是你只fit那些task你就只刷那几个task的分其实很多时候用户或者说你在一些更OD的场景里面他的体感就是没有那么好我是觉得现在这个领域面临就是可能这个benchmark不够用或者benchmark失效然后agent的放话有问题这样的一个阶段为什么数学代码是相对容易放话的领域其实也没有就是你如果做强化学习但现在我觉得会有一样的问题就是对于这些任务然后当然就是说强化学习本身它的泛化性要比比如说做SFT要好就是因为你在这个过程中有更多的onpolicy的sample就是你从模型本身去sample它学出来的东西sample现在看起来是更好泛化而且你有服涕度就这两个东西会导致从资料中证据上来看它的犯化会好但是它的犯化还是有限度就比如说你今天就是假设在某一种类型的数学竞赛上做到9分那你别的数学问题可能会提升5个点但是它很难直接也做到9分就是你如果不做对应的RO的任务进去的话它就很难很难直接做到这样的一个分化性我是觉得也仍然有一样的问题就是你说做数学题它也仍然有一样的问题就是它是被分布所制约的一个东西就所谓就是说你还是中瓜得瓜中豆得豆但是我们希望就是现在就是我觉得整体的RL或者post-training还是需要有更多的AI来让它能够摆脱这种中瓜得瓜这样的一个情况会不会摆脱不了會不會就是提高不了防患性還是回到剛說的問題是不可避免的問題是可以被解決所以就是你每次會往前推進你犯法就是會變得更好它可能是一個它不一定有盡頭你只會有更好的犯法對於agent來說任務環境非常重要怎麼定義好的任務怎麼定義好的環境你在探索過程中有沒有什麼思考就回到剛講的就是說就是你一種方式是說我給定一個模型然後我就設計一些環境去反逆向去擬合這個模型然後那你可以就是現在你可能正向的設計假設你是一方的做你就正向的設計一些工具環境然後讓模型在這個環境裡面去提升可能很重要的還是說讓這個設計有更好的通用性就它能做很多的任務就是它不應該是說為了某一些任務去專門的設計這個工具環境然後当你的这个设计足够通用的时候然后你用模型去在这个过程中去学而不是可能反过来去拟合这个模型我觉得这样可能会是一个更好的做法我注意到一点就是一般他们觉得在任务设计上你设计一个足够有挑战的任务这样这个任务可能会做出有本质的新的方法但是你们的这个K2其实是用的一些中等难度的任务这是有什么思考吗这个会带来通用性吗会就是他那他也是一个爬山的过程就是你不能一上来就让他去证明一个就是还没有人证明过的数学问题然后他可能这个sampleefficiency就会非常非常低所以现在感觉比较好的方式就是说其实强化学习如果你搭配好的sample策略它本质上是一个影视的课程学习的机制希望他就所谓curriculumlearning就是你希望他从合适的难度开始学然后学完逐渐去提升它的难度而不是你一上来就学非常难因为那样的你的采样效率很低就基本上学到什么东西可能算力都会被浪费掉对但这个挑战还是说今天的很多任务我觉得它还是来自于比如说人类存量的数据或者说人去设计的一些任务而不是就这里面可能AInative的部分还比较少所以会带来刚刚说的繁华性的问题吧CodingAgent和通用Agent是什么关系啊Coding可能是一个比较垂直的或者说它是一个纸集然后你只要把两个工具用得足够好你就能做大部分的事情最后还是希望说能够不光只是做Coding包括现在我们去训练这个模型我们也不是说让它只能做Coding因为它的局限还是会有一些局限性Coding是相当于一个环境它是相当于人类的手对它是任务的一个子集对但它可能是很重要的一个子集它这个相对对于agent来说比较容易的任务是吗比较好验证所以比较好学习对但是它还是会有一样挑战就比如说我刚讲的这个繁华性的问题它还是会我觉得即便是codingagent它也会面临一样的挑战然后coding是很重要的一个子集是在于说就是它代表了可能数字世界的自动化你今天假设你想创建一个新的工具因为现在很多agent它的工具集合是一个固定的对然后如果你想创建一个新的工具它本质上是写一段或者一大段代码来实现或者如果你今天想做更好的比如说上下文管理或者所谓的contextengineering这东西它可能最后对应的也是一个工具这个工具可能也用代码来实现就是代码在这里面它有一个独特的位置独特的作用但是并不是说你做了CodingAgent就足够因为很多比如今天大家用有很多不是程序员的人他会用CloudCode去做很多他的任务你是一个律师或者你是一个产品经理或者你是一个设计师你也会用CloudCode去做一些事情是因为你的模型是一定程度上有一些有一些饭话它不仅只是会写代码所以你们是要做通用Age的模型并不是说要做一个coding的模型对吧我们还是希望能做通用的模型从写代码到操控整个数字之间你觉得Age还缺乏什么能力一是我觉得首先现在这些高频的工具使用也还不够好能力上还有很大的空间然后这一方面也是说现在缺少一些更好的benchmark来观测吧就是你可能SweetBench三号现在也可能马上会有saturate就是会饱和然后有很多bench它不够好不够真实的反映就是实际的用户体验然后所以我觉得高频高频工具本身会有空间然后常委的工具就是在一些可能你没有见过完全OD的怎么有更好的范化我觉得也是可能很重要需要解决的问题你自己最看重能提升agent能力的是哪几个关键能力长期来看让它的能力提升希望能用innovation这一层的一些技术去designagent这一层的能力对所以希望我觉得这个可能是很重要的一个方向Longcontext和longmemory重要吗Longcontext也很重要就是因为现在就是你很多任务你128K到256K这种context完全是解决不了你需要可能比如百万级别这样或者甚至更多但是你又需要在这个级别下你的脑子还非常好用就是他不能只是说长但是你可能脑子还得非常好用就是你的智商还得非常高对所以这个对于模型的训练是挑战是很大的就是你要让他希望你的压缩率足够高所以你的模型可能要足够大然后同时你又希望它也比较长所以就是这两个东西它是天然会存在一些冲突然后你需要可能需要更好的架构但是有一些架构可能你发现就是它在更长的context下可能效果会有提升但是你短的context有可能又不一定会有提升或者甚至会有下降所以就会有很多这种可能架构上的一些平衡的问题对但这些问题可能也会接下来逐渐被解决我觉得它是有一些解法对所以这个也很重要这个可能是一个architecture上的一个支持还有就是我觉得现在的IRL训练方式肯定也会有很大的提升空间比如说当你要训练一个很复杂的multi-agent的系统的时候那你只是用端到端的reward可能就不太够但中间的reward怎么产生是不是能摆脱一些人工的设计我觉得也会是很有意思的挑战我回看我們去年對話我有一個問題非常想問你就是你去年說開源會落後於幣源因為開源的方式跟以前不一樣以前所有人都可以貢獻到開源因為開源本身是中心化的開源的貢獻很多沒有經過算力驗證幣源會有人才聚集和資本密集是一個對市場整合所以領先者不會開源只有落後者才會這麼做但是你今天開源了对因为我们还不是绝对我们还没有做到非常就是完全的领先吗呃有一些判断上其实基本上是这样就是说你确实你的模型出来之后呃就是这个社区他能贡献一些东西比如说你在你在推理测可以可以做很多事情对吧然后你可以让这个模型有更多人免费给你serve让他就是有更多人去用然后但是确实你要贡献到模型本身的把这个模型本身变得更好还只能是你原厂自己来做当然就是说现在如果是放在这个你如果看basemodel是这样但是就是说你如果基于这个开源模型去做很多posttraining特别是agentic的posttraining的话有可能会有会产生出来一些新的机会就比如说假設你現在非常想去做一個比如說法律相關的agent然後比如說你是一個創業公司想去做這個事情那你完全可以GKR然後在你的工具集合下面你可以選出來一個specialized的agent然後他在你關注的場景下表現得非常好我觉得存在这样的机会对但它更多的是可能去赋能这个就是更多的可能下游的应用就是你可能很难说把这些东西再变成说你的主模型这个basemodel的提升这个可能还是目前还是很难我觉得大概是这样吧对我觉得这个问题可能可以动态的观察就是你们会长期选择开源吗我觉得这个是一个我们希望长期去做的事情但我们不一定是说只做开源我们会希望能够去跟社区去分享你像你刚说的技术的knowhow对吧然后我觉得这个是可以去加速就是我们往把技术再往下去提升的一个很重要的一个点就是大家可以不完全就是竞争就是你也可以有一些合作或者甚至就是说你所有开源的公司它会形成一个生态就是说你能更好把这个技术往下去推进就你这雪山可以爬得更好嘛然后raisetothetop也不一定所有东西都是开源对吧比如说假设我们现在跟某些公司有一些合作就是它不一定是说你所有东西都要开出来但是我们可能会希望能持续的去开放一些好的技术所以这是一个技术体系的信仰还是说是一个市场博弈的策略我觉得客观的说是都有就是而且可能都有好处但最终我们是希望说能通过这个东西让这个技术可能更安全更快的达到一个更好的水平开闭源的生态会怎么演进你觉得最终开源和闭源全球会剩下几家我觉得不会很多吧就是或者说整体来说但几家肯定还是会有的就是我觉得整体来说其实你如果去看过去两年我觉得这个趋势还是比较明确就是你还是这个市场会逐渐的更集中跟聚焦对跟收敛啊你可能一开始有几百个到几十个到几个我觉得几个可能是追踪一个比较稳定的数我觉得现在看起来是一个大概率的事情你们属于开源那一边的还是闭源这一边的像我刚刚说我们可能会持续的去开但是并不是所有东西一定都会完全的开我觉得选择性的是一个对吧这个很多可能我们要动态的去观察对但是我们肯定是希望能够长期去分享更多的技术为什么中国公司都开源了也不是都自己也就没开对我觉得客观的说还是就像我刚刚讲的就是说你可能有市场博弈的因素我觉得这个对社区来说是一个好事就是说然后你开源的可以互相借鉴对吧那你可以去加速做到收塔我觉得它是一个很好的方式去年你提到一个很多的词是有概率的非公实你今天有概率的非公实是什么好问题我觉得就是可能像我刚刚讲的嘛就是几个这些比较重要的技术的点比如说怎么去提升agent的范化我还是觉得可能是一个非常重要的问题然后这里面可能我们希望看能否在技术上有一些新的东西然后包括高就是包括我们去做优化器这些东西我觉得在我们做出来之前但我现在不知道是不是啊就是至少在我们做出来之前应该没有人在做这个东西所以它是一个它也是做成了一個非公司就是因為之前所有人都是用ADAM所以我覺得這個也算是一個比較重要的因為它對TokenEfficiency提升確實很大所以使得我們現在可以有一個比較好的BaseModel那這個BaseModel我們後面就可以有更多的PostTraining去把它所有的上限所有的性能去壓榨出來我覺得這些其實都是你怎麼看AI時代的產品就是你因為做Keynote做了很長時間嘛你覺得做比如說做AI時代的產品跟做移動工廠的產品會有不一樣嗎我只能说是AI的产品因为移动互联网没有做过但是就是以前就很喜欢说模型级产品对对对我觉得这个现在还是没有变化还是没有变化就是比如你在假设你现在做一个agent产品你在做的时候其实需要把模型跟工具和这个context去结合起来然后但是你发现就是在训练模型的时候你基本上已经要把这套全部搭好你才有办法训练这个模型对吧所以当你模型训完的时候你的产品已经做完了就是你在上面做一些可能交互的东西我觉得肯定也有很大的价值但是可能它是最后的这锦上添花的这一步就是你的模型的性能它已经在这个过程中然后打磨好了然后跟这些工具和环境已经有非常好的适配所以它是它是在训练之中完成的就是你训练好了之后你的产品就基本上已经做差不多了因为你去年说现在开发方式演变是让你要做一个巨大的系统就像比如说21世纪初Google做的信息检索系统那你今天对于ASI这个巨大系统你有没有什么想象有更多的想象吗就像比如说以前的搜索引擎系统或以前的推荐引擎系统但是它都是适配于不同的时代的嘛我觉得现在的系统复杂性在于你想让这个模型变成通用就是通用它会带来很多的复杂性那你一方面可以认为它是变简单了你一方面也可以认为它变复杂就简单在于说你只要把所有东西都放在同一个模型里就你不需要维护那么多模型你不需要搞一堆的这个Routing的策略对吧就是它从概念上来讲或者说有一些工程实现上来讲它是变简单的但是另外一方面就是它也会变得复杂就是你发现你如果希望它很通用那你就希望说这个模型在各种场景下它都可以工作比如说你做agent的模型你不希望它只在你的工具机下能工作你希望说别人用你这个模型它在别的工具机甚至你没有见过的工具或者说工具不同的定义不同的实现方式它都能工作这个其实就是要求是很高然后你可能比如agent里面它就现在可能会有几种不同类型的任务你不管是coding的agentsearchagent还是可能一些其他的就是你要把它放在同一个通用模型里面那它就可能会有这个会有一些打架的问题就是你可能也许你的工具定义不一样或者你的数据的pattern不一样就是你把它做成一个通用模型的过程它其实是有很多的技术挑战但是如果你不做成通用的模型呢它的它的繁华性又没有那么好你只能做一件事情。 对。 而且特别是现在就是因为你Agent它是需要很多步的完成任务嘛,即便程序员他也不仅只是写代码,或者说写代码里面他也不仅只是做Sweepbench,所以你发现就是你要做很通用的东西或者说真正可用的东西,随着你的步数变多,它对于通用性的要求是会更高。 我是觉得它的系统复杂性主要是体现在说你在训练这个模型的过程中需要让它的让它是足够通用的而不是说去拟合到某一些单点的能力上就你拟合到单点能力上你可能会benchmark分数看起来很好但是你实际上就是你的通用性可能是不够对就是我觉得这个是现在这个系统我自己能观察到比较大的挑战还有包括有个例子就是说比如你想往这个模型里面加多模态的能力对那你就需要让这个多模态能力不要去损伤它的脑子对吧而且你希望就是在多模态的模式下跟你在只是能够不损伤是吗对对就是你能不损伤已经很好了你希望在他多模态的模式下跟你这个文本模式下你希望他他能共用一个脑子对吧就是他他能在多模态的模式下也能把他文本的那个智商给激发出来而不是他就进入另外另外一部分的参数那他可能就是完全丢掉了原来他文本里面学习的部分所以就是你做一个通用的模型他就会面临这样的挑战就是当你有各种模态各种任务类型各种还有AgentReasoningChat这些东西它要全部合到一起我觉得是存在这样的一个挑战然后而且你现在不光是SFT你还要做IoIo的时候你就可能这个挑战就会进一步的加重就是这个是相比就是说你只做就是通用的Pretraining是相对比较好做的就是你只要把所有的文本就是放在一起它基本上不会有太多的问题但是你越到PostTrain后期越到Io它的这个问题会更加严重我觉得这是它的系统复杂性你看搜索引擎系统其实是构建在PC互联网之上的然后推荐引擎系统是构建在手机上就是移动互联网上你觉得新的节点在哪里这个时代AI时代这个超级节点在哪里对他肯定会跑在很多数据中心里所谓的Jensen经常说的这个AIfactory但肯定还会有很多终端我觉得终端可能还是有一些可以服用现在的有一些可能会有新的可能会带上新的交互范式肯定会Chat是一种就是你如果两年前看Chat是一种新的交互方式因为之前可能没有说人跟机器这种对话但现在可能Agent它其实也有很多新的交互方式就是比如你让他一步支持一个任务然后你又可以看一些中间的结果它其实也是一种交互方式但你那可能接下来还会有更多比如说当你有一个Multi-AgentSystem那它的交互方式会怎么样就可能你会随着能力的边界去变化然後比如你看Coding這個東西Coding一開始你有Copilot然後Copilot之後有CursorCursor之後有ClockCode你其實每一代的交互都會發生變化然後你發現這個交互它其實是隨著模型的變化而變化基本上當你有新的一代模型然後它能力提升了很多你就發現你的交互可以改了就你不再需要說我單個的人去點我要不要accept一個修改而是說我可以去多步的去执行一个AgenticCoding的任务所以你的交互会发生变化然后当然今天可能CloudCode的交互它也不是终极形态就是因为你的模型还会提升提升之后它的交互就会持续变化我觉得是一个这样的过程今天ScalingLord你觉得还没有放缓ScaleandLoad就是有數據牆我覺得這個肯定是一個客觀的事實然後就是說你突破這個數據牆你就是要提高TokenEfficiency就像我剛說的為什麼我們會去做提高TokenEfficiency的事情就是因為你肯定數據牆是存在的然後同時你要scale更多的compute到這個RL上各種各樣的RL的任務上但somehow我們現在觀察就是其實模型變好的速度並沒有在減少我覺得甚至是在加速為什麼AI產品都還沒有形成數據飛輪就是因為基於算力的scaling太強大了基於算力的scaling太強大了就是我觉得这是一方面就是说比如说你先scalepre-training然后你又scaleIELTSIELTS的scaling它的效率又比pre-training要高很多因為它是on-policy待附體度的訓練所以它的scaling的效果其實效率是更高的所以當你有很高的scaling效率的時候就是你發現你直接scale這個computescale這個Flops它帶來的提升是非常非常大所以你會顯得其他帶來的提升很小這個是一方面另一方面就是說所謂的數據飛輪它是很依賴於這個外界環境的feedback然後這個feedback它我們不希望它有太多的噪聲但現在可能somehow就是還沒有完全说这个问题做得非常好就是因为你造声就大模型的学习它对造声是比较敏感它跟可能传统的这个比如说推荐系统有点不太一样它是造声很敏感的现在看起来还是就是说基于这个FLOPS的scaling是更有效当然说这个平衡什么时候会产生变化也有可能就是说你通过新的交互去让你收集到的信号的噪声能够去减少对但是你需要就是创造一种新的交互对对对但是你这个交互要适配模型能力的发展就是你的交互不能超越模型能力你应该在大学模型能力的这个范围内去设计一个好的交互但是我觉得这个是值得尝试的只是说今天可能我看来会觉得说可能你去scale那个FLOPS那个维度或者说提升它的学习效率它还是更确定性更高而且看起来更有效的一个方法如果说像比如说眼镜姐说用户数据无法提供某些智能那好像今天就没有必要做脱锡产品了我们就一门心思提升智能就好了这个东西要看怎么看就是你可能还是要有一定量就是你得大概知道说这个我觉得这样就说你可能没有办法直接去使用一些比如说用户的反馈直接拿去训练对吧但是你有一定的用户量的好处是在于说你知道整体的这个比如说需求的分布是怎么样你大概知道就是说有哪些可能是用户用的好哪些用的不好然后你再把这个东西抽象成可能一些比如说evaluation然后去优化这个模型如果你这个模型完全没有人用那你可能都不知道往哪里去挖另外就是说也要看你这个用户的商业价值对就是因为我觉得现在其实又到了一个新的分水岭就是说你的用户其实是有可能能产生商业价值比如说你就看OpenAI它其中用户其实产生的商业价值是很大可能占了它的这个营收的比较大的比例对然后特别是现在你可能有很多agent的产品它能端上端下产生很多价值对吧所以你用户可能现在所以也要看你是什么用户对吧就是你如果普通的去闲聊问一下天气他可能不一定说有那么大商业价值但如果你是很多agent的这个专业的用户那他可能是已经本身就是一个很好的生产力的价值可能这个事情他又不完全一样了你的产品有什么新的想法没有我觉得更多还是想模型怎么做因为我觉得像我刚刚讲的就是模型训好了这个产品它就已经基本上做的差不多了模型及产品对我觉得它今天还是成立的今天还是成立就是我们还是会沿着这个方式一直在做有人会说Kimi是要从要做当然你不认可你们是中国要做中国的OpenEye以前但是有他们会这么看你们是要从做要做中国的OpenEye是不是要变成想做中国的Anthropic是有这样的一个转换吗我觉得很难这样定义吧就是因为中美它不太一样而且今天我们更多的还是得站在全球的视角去思考这个问题我觉得做中国的什么什么可能本身它是不一定非常成立我觉得还是其实简单一点就是说我们希望还是继续爬山就是对我觉得就爬山做时间的朋友然后跟community一起说去加速这个技术的推进我觉得这是我们想做的事情那我們聊聊商業模式你怎麼思考的API是好生意嗎我覺得現在就是明確的商業模式對一個API一個是說可能一方產品我覺得這兩個可能我們也都會去做一些嘗試當然我覺得今天可能最主要優先級還是繼續把模型做得更好我覺得這個還是可能首要目標但是你在把這個模型做更好過程中對比如說你在某些方面領先了那他其實確是有這個會有這個商業化的空間因為我覺得今天整體的市場規模其實漲得也很快就是可能頭部的公司有幾十億三百億美元的這個AR而且是在快速增長是吧可能每一個每一两个季度就能翻个两三倍这样的情况我觉得这个肯定我们是会动态去观察然后可能做一些尝试对但是可能最主要还是说得比如说你如果模型真的能做到比如Opus的水平然后会甚至做得更好那这个空间肯定更大所以我们会花更多时间去把效果做得更好有你们的用户说他们很喜欢Kimi但是很担心Kimi赚不到钱怎么办你们能挣到钱吗对就是你还是先投资嘛然后我觉得能不能赚到钱取决于你就是你的你的模型效果都是怎么样我现在觉得就因为我觉得这个市场它是一个其实已经一定程度上被验证的市场然后也在快速增长像我刚刚说的所以我觉得还是专注把技术做得更好然后剩下东西我觉得其实可能确定性反而是更高的开了伙你心情有什么变化吗也没有就是就是还好就是说我觉得还这个还是一个漫长的旅程嘛就是你反正要持續做下一代的模型反而還是回到剛那個刻在石頭上兩句話就是說你會產生新的問題然後你去解決它然後這個是這個可能是最有意思的部分這個旅程這個創業旅程有什麼意料之外的完全意料之外的我覺得還好就是說基本上所有的困難什麼這些我們也有預料到只是說具體是什麼困難的我覺得最有意思的點是你永遠不知道會產生什麼新的技術問題然後這些新的技術問題會怎麼樣被解決我觉得这个是最有意思的部分就是这个是你基本上很难预测的如果能预测它就不是那么创新对但我觉得这个是最有意思的就是你会永远遇到新的问题你现在生活是什么样子啊生活节奏现在就是可能睡得比较晚了几点啊不太一样对就是可能每天不一样但是反正然后但也还好就是花很多时间去看怎么把模型训练的更好所以你的时间主要投入在模型训练上呃我觉得是吧对就是单独训练这个很抽象的概念就是说我觉得我觉得里面很重要的一个是就是你的技术一些技术的战略就是我觉得这个是可能公司战略里面最重要的一部分就是你的技术战略就是你现在下一步到底是哪些要做哪些不要做因为这个技术空间很大你总是要选一些东西去重点去做去年选择的是什么比如说我觉得我们在很多东西上的bet还是有效而且比较早的比如说像去做LongCLT的IO我们是反应比较快然后去做Mule优化器然后去做更大规模的retraining然后去比如去做这个作为一个可能第一个open的agentic的模型我觉得这些可能都是一些技术的bet或者技术的决策我觉得这个东西基本上会至少决定五六成的公司的走向但你要做很好的决策还是需要很多证据支撑就是我们还得做很多实验所以你得了解很多具体的实验的结果就是到底这个东西是什么样那个怎么样跟接下来可能会怎么样发展这个东西它你不能拍脑袋就是还是得知道更多的信息我觉得这个是花很多时间然后第二个就是说可能具体的技术上这些角色里面最纠结的是哪个花时间最长思考我觉得最重要的就是说你接下来要做什么不做什么就是刚才说的那些决策里面其中哪一个是花时间最长时间思考的也还好因为我觉得这个东西它关键是一个收集数据的过程就是你做实验然后看这个实验是不是扎实然后通过这个东西结合结合就是你对这个一定的技术理解然后去判断就是很多时候其实你只要数据足够充分它的判断也是比较显然的接下来我们也在想也在做一些实验还是有很多东西可以做的我觉得至少说现在K2它的性能潜力其实还没有被完全压榨出来因为我们之前放的我觉得更接近是一个更接近是一个BaseModel这样的东西吧我觉得这样接下来我们可以加更多的PostTraining的Flops就是我觉得它的上限应该会比现在还会高很多然后肯定就是我们还会去做下一代的模型下一代的模型就是我觉得应该可以有再更多的提升吧就是BaseModel对然后但这些具体怎么做我们现在就是也会就是通过一些实验来决策也会加多模态吧对多莫泰肯定是我比较确定你刚刚一直说多莫泰其实只要不干扰智能就已经很好了是吗对他本身多莫泰但你多莫泰能力也要做好多莫泰的能力本身要做好也不容易对就是里面有很多的工作然后你怎么让他能够去借鉴这个文本的脑子而不是自己单开一个脑子就是比如说你MOE里面你experts假设你有20个expert他专门在做多模态你可能不希望这种情况出现这样的话你可能你可能水出来多模态是个傻的多模态对我们希望它是个聪明的多模态下面有什么重要的里程碑啊在技术上里程碑犯坏性maybe是一个对对我觉得是就是可能我觉得agent犯坏性是可能是最重要的最重要就是我觉得今天是一个没有完全被解决的问题你们解决了一部分了没有解决了一些对对对什么KnowhowKnowhow我们写在paper里了对对对就是你可以你可以去尽可能构造更多的多样的数据但我觉得也不只是这个嘛就是数据上的篇幅很大就我觉得还是尽量可能避免说你通过强化学习的方式但是你就只拟合到了几个任务上因为就还是像我说的就是因为Benchmark现在比较局限所以你优化Benchmark它就会导致说你的你的RL任务就会可能坍缩到几个单点上但这个其实就是我们不希望就是你犯在你没有观测的东西上它可能就掉了非常多这个我们现在也在可能希望想更多的办法去解决我觉得这个会很重要然后像刚刚说的这个longcontext的支持我觉得肯定我们也会继续看怎么做就是在它智商很高的情况下还能有更长的context我觉得这个会是一个也很重要的问题就是现在很多LongContext的架构它还是会影响你的智商但我们不希望它影响智商就是就是希望什么LongContext架构会影响智商比如说你如果做LinearAttention你纯粹的LinearAttention你可能它就是会影响智商因为这个架构会有一些Bias这个Bias可能在一些场景下效果没有那么好但这个是一定程度上也可以被解决的问题模型公司和做agent产品的公司长期来看他们的关系和边界是在哪里这个问题我也没有明确的答案就只能说今天看起来就是一方的产品有个好处就是它可以做垂直的整合因为我可以把模型放在这里面训练所以我的模型跟工具它是融为一体它不是说分开来做然后再去逆向工程但是因为有非常多的agent的空间就是我感觉一方产品不一定做得过来对吧就是所以有可能是如果能找到一些空间比如说你这个工具的实现它是需要非常多的領域的knowhow或者說你的evaluation是可能一方產品根本不會考慮的東西考慮不過來的東西那我覺得是有機會我覺得有像K2這樣的開源的模型然後就是說大家可以在上面去微調那你更容易產生出來就是也有一些可能這種specializedagent垂直agent的可能性我覺得這個可能性還是還是一定程度上可能會存在那要看你通用模型的通用到多到程度了對但是你不管多通用就是說你總還是有一些工具你要做所以你有可能你也不一定是要去做那個模型而是說你把這個工具做得非常好然後但這個工具你如果是做的太通用你可能就會就是跟一方的這個產品會overlap高級會比較大对那这个就是可能你还是做垂直整合优势更大但是如果你这个工具是一个我就是专门针对一个东西去做然后甚至我这个工具是别人做不了的比如说我我今天如果掌握了一些线下服务的入口那我这个工具就是我这个下订单或者成交这个工具是别人根本做不出来的那你也有可能是能产生一些独特的价值当然我觉得存在另外一种可能性就是说当你这个一方产品或者说你这个通用的agent它的流量或者商业模式足够成熟之后你很多这种专有的本来垄断的工具它也会愿意去接入进来因为它的整体的商业化效率会更高对但商业化效率的提升我觉得是需要一些时间的对所以那在这个时间窗口内你可能其实专有的agent也会有空间对对就是但我觉得最终就是通用的通用就是他为什么通用能工作是因为他整体的商业化效率会更高所以今天甚至包括我觉得很多内容平台你最终有可能你把内容接到这个通用agent里面你的你的你的商业化效率是会比今天更高这个是有可能但他可能要花很长时间像minus这种公司或是你的客户还是你们竞争对手在生产量来说就是我觉得还很早期就是你很难判断它到底会怎么样而且就是可能这个产品本身也会演进对所以我觉得短期内它可能更多的会是这种合作的关系是可能是大于竞争的但是未来它确实会演进所以像比如说就有点像Cloud和Cursor的关系那Cursor它可能要动态的变化它可能也得在产品策略上有些动态的调整所以他可能就需要去一方面是说能不能有一些模型的能力我的技术研发的曲线还是很陡峭的另一方面就是说他能不能有一些就是比如别人做不到的工具或者环境就是但这个我觉得都是一些现在没有办法直接回答的问题但只能说现在看起来就我觉得一方的这个整合优势是应该是存在的你形容K2是哪个风哪个山风KL本来就是一个可能是世界上最难判断的山峰刚好这个名字有点重合只是你故意选的这个名字吗当然它刚好也是KL我们也希望说首先它不是终点因为它不是最高的山峰它可能是最难的因为我觉得就是说你可能因为现在有很多范式的转变你可能从对话到这个agent然后可能你的basedmodel的scale也进一步变大就是它本身它肯定存在难度那就是所以就刚好反正跟这个好像有点关联这个结果超出你预期吗差不多吧反正就因为基本上你这个模型训的怎么样其实在过程中就已经知道了就是它并不会说好像有一些惊喜或者惊讶过程中有你的ahamoment吗也還好因為很多東西它是可以被預測的就是因為我覺得更重要的是這個預測的能力因為你訓練一次模型一是需要有週期二是需要有成本所以我們希望在早期盡可能多的就是把所有能預測的都預測到唯一的那個沒有預測到的就是剛說的那個MaxLogic的問題但那個確實沒辦法就是因為你小規模它是預測不了对其他的我觉得都是我们希望尽可能把它预测好所以你所有东西都是在都是验证清楚的情况下然后再scale那你其实scale的成功率是比较高的你怎么看张相宇说的那个NASTokenPrediction的本质缺陷你知道这个吗我不太认识他的意思是说随着模型规模扩大对话能力知识量和情商都在变强但是推理能力尤其数学的表现是先上升后平缓然后再扩大反而下降所以他觉得就是用更大的模型比如说做数学问题倾向于跳步不老实他觉得这个是NextTokenPrediction的本质缺陷对但是你可以对所以要搭配可能强化学习的scale我觉得就是确实如果你今天不做强化学习它这个模型它很难说很聪明或者像数学题这种它不一定做得非常好就是但确实我觉得更大的base它的强化学习的上限还是会更高对就是因为它的知识更多就是本质上是说去激活一个推理的范式让他能把那个知识解锁出来然后把那个对就是他上限更高但是你要搭配一个RL去激活世界模型怎么看一种说法是说做世界模型是造世界做agent是造人所以最后像我刚刚说的用AI训练AI有点这个意思就是你有一个很好的世界模型你就模拟这些东西它就适用AI训练AI的方式它的泛化就会好很多就是我觉得这个有可能是去通往更好的泛化的一种可能性你的一个投资人说第一次见你的时候你就开始讲GDP值可能长什么样你现在觉得GDP值长什么样還會有GPT-10嗎我剛才說了什麼就是他對你印象很深的原因就是因為你第一次見他你就開始說你說的不是GPT-4GPT-5長什麼樣子你說的是GPT-10長什麼樣子我不知道你說了什麼OKOK對我覺得但是我覺得我們今天其實已經好像實現了之前預想的很多東西比如說比如說你真的能完成幾個小時的這種任務觉得这个发展还是很快的对然后但我觉得整体就是你就是逐渐见更多的就是逐渐见更多的evaluation然后去突破这个翻画的过程其实我倒是觉得这个好像相对来说还是比较明确的在evaluation上面你们有获得什么认知没有我們也在探索嘛就是你剛說的世界模型你可以認為它是這裡面的一部分但是怎麼實現我覺得現在還需要更多的實驗過去你對組織有新的想法沒新的思考沒好問題我覺得現在就是我最近一直在想一個事情就是說有有几个东西它好像有点联系在一起就是如果你看我们去做科研或者说创造新知识的过程它很像一个强化学习的过程就是说有一种理论是说叫经验主义说人得到新的知识是从经验来的然后后来当然有很多观点就是认为不是这样就是其实人类在这个地球上已经存在非常非常多年但是可能你三四百年之前没有任何人说其实地球是个球就是一直在这个经验里但是你并不知道事实是什么样所以经验并不能直接给你这个知识而是你提出了这个猜想就是说你观察到一些东西然后但你提出猜想说我认为这个球可能是圆的然后我想各种办法去验证它包括现在训练这个神经网络你可能观察到你几十万个那颗指标你观察到有些那颗指标可能不太对那你就那你直接观测你并不能给你新的知识你你只是说我我提出来一个猜想他为什么会这样然后我再设计一些实验去验证他所以这个是现在可能我们觉得比较好的当然就是可能所有好的科研的方式都是这样但这几个东西好像三方是相通的就是说因为你发现就是你好像管理一个团队他也是这样的方法就是你是要用IO的方式去管理,對當然這個是Tim天天跟我講的,就是說你覺得要用這個IO的方式去管理,而不是用SFT,對當然現在你發現好的技術,你是說你做IO的時候,你其實也希望加一部分SFT,因為SFT是很好的鮮豔,就是所謂的PTXloss,然後你不希望這個模型可能飛太遠但是你又要管住自己的手就是說你不能SFT太多SFT太多這些同學就會失去主觀的能動性然後就沒有辦法創新了这个点现在反正我也在做一些实践嘛就是好像看起来有一些效果然后但是核心是掌握SFT和RL的平衡SFT就是你是直接给他就是说这个东西应该这样这样这样这样做RL就是说你给他一个从上而下RL就是给他一个奖励就是说如果做成这样那他可能是好的那可能更多时候他只是反映在目标上然后我覺得這兩個東西它可能需要一些平衡然後可能比如說以RL為主然後通過一部分的SFT去防止它飛太遠還是要有一些鮮豔去控制或者防止它遺忘掉一些東西我覺得這些好像某种程度都是连接在一起就是IO好像是一个很本质的东西就是好像你的组织在做创新那本质上也是一个IO但这个其实就是说你在IO过程中你定这个奖励或者定这个指标它并不是非常简单的一个事情就比如说如果你只是最后说我就是要把所有的benchmark做得很高那你可能就会出现很多overfitting的问题对吧就是因为你所有人都会不择手段的把那个分给弄上去但是弄完之后你发现这个模型好像还并没有变好就是有可能会出现这样的问题所以这个奖励的定义就很重要或者说这个奖励的定义也需要你很了解这个具体的细节是怎么运作的不然的话就它就会出现rewardhacking怎么定义reward这个是一个很重要的课题有什么想法呗就还是你建立更多观测指标然后尽可能不要去过你对所以就是我觉得是一定程度有效就这样你才有更好的饭话然后不会被hack对就是用IR管理团队的方式最大的问题就是你容易被hack就是你hack的那个reward然后大家看起来都各种好像结果都很好但是实际上并没有达到你最终想要的这个是它的风险然后你用SFT管理团队的风险就是大家失去创造力对所以最后你是这几个东西它一定程度的这个balance当然这个我也在学习我觉得今天肯定不是说做到很完美的情况但是可能也要逐渐去学习和理解这个事情你过去年有很低落的时刻吗我觉得还好就是更多就是有些东西会work有些东西不work会有解决一些问题会有新的问题产生就像刚刚说的所以我觉得就是不断在这个过程中我觉得只要你觉得这个东西是有意思的你就是一直想去做下去你对CEO这个身份有没有新的理解我现在最新的理解就是他怎么去把握这个IRL和SFT还有webhacking之间的平衡就是对我觉得这个可能很重要其实过去年听你也是拨风拨鼓来回震荡你在这个其中你的心态是什么样的你需要平衡自己心态吗心态就是反正做时间的朋友吧真实人的心态不会这么简单的我觉得就是你会有高点和低点像你刚刚说的对吧然后我觉得可能很重要的还是说你就喜欢做这个事情然后想把它做好所以你也不用想别的东西你就想怎么把它做好所以好像也比较简单我觉得没有什么特别复杂就是很多很多复杂性都是人为强行加上去的实际上并没有那么复杂那你对人性有多的理解呢我觉得这个东西也还是需要时间的打磨吧我觉得就是我觉得不敢说是有那么深入你只能说是在自己的这个故事里面你不断地感受说自己到底是什么样的一个人然后你希望你为什么要做这个事情对吧然后我觉得可能是不断去思考这些问题你是一个什么样的人你为什么要做这样的事情就是觉得有意思就是所以对就是我当然就是是什么有意思呢是做实验有意思做科研有意思做AI有意思尋找這個真相的過程去不斷發現新的問題解決它的這個過程那你也可以解決別的問題為什麼要解決這個問題呢對就是因為這個問題它很重要就或者說哪個問題很重要就是我覺得AI很重要就是因為這個問題我也問過Kimi他跟我說這個東西是他說這個東西是人類文明的放大器我覺得很有道理就是又回到那個thebeginningofinfinity就是你從啟蒙運動到現在人類一直在找到新的方法去突破這個知識的邊界但是可能下一個突破邊界的確實就是你得靠AI因為它是一個巨大的槓桿然後比如你今天在任何一個淺顏學科你要花幾十年的時間二三十年的時間你才能學到最淺顏的知識但是AI可能一夜之間它就能學會然後那你就往下去做新的突破就AI它會成為一個meta的science我覺得這個是这是很重要人类文明的放大器我觉得它有可能摧毁人类文明吗我觉得这点上我觉得还是就我觉得首先这个风险肯定你不能说它不存在但是我们可以有很多事情去做就是你不管是说更安全的对齐还是说就是更好的社会的机制我觉得这些东西都是比如说就是当他可以做一些事情的时候那他其实很有可能会比如说创造出来一些新的工作那我们需要有一些方法去完成这个过渡那最终就是可能这个技术的进步对我其实exactly问过Kimi这个问题就是说他说虽然有这样的一个风险但是我们可能不能放弃这个事情因为你如果放弃这个事情呢你就等于放弃了人类文明的上限就是你不知道他上限能做到什么样对就是有一点因噎废食的这种感觉但是我承认就是说我们得做很多的事情去特别是你今天其实看到很多AI能力我觉得是有点震惊的就是因为你根本半年前你都想不到现在能做到这样的程度需要做很多很多的事情而且同时我认为就是可能人的独特价值在这个过程中它还是会持续存在就人的体验人的情感这些东西它是没有办法被AI去替代所以就是可能我会有不同的活法但是不同的活法就希望是应该是能活得更好什麼樣不同的活法我之前覺得人的一生可能有幾個不同的意義對吧就是可能創造體驗和愛然後當然這個每個人不一樣這個是我對我來說但我覺得創造可能創造裡面的很大一部分也許有可能AI是可以做的我還是很享受這個過程但是你不得不承認就是說有一天你可能會有很多的創造性的工作是AI去做但是我覺得後兩條就是說可能它還是會是以人為中心但是如果他创造拿走了的话他其实把生产力拿走了所以无所谓因为人可以享受这个生产的结果就是如果我们有一个好的机制的话他需要改变社会的机制对对但他也是一个缓慢的过程他不会是说你一两年做完他可能是要一二十年逐渐的去调整你会频繁的跟Kimi聊天吗当然就我要测试模型你会跟他聊一些很深刻的话题吗有时候会或者很自我的话题有时候会比如说会聊什么除了刚才说的那些也还好就是还有一些是这个工作时间的问题你觉得今天KIMI的成功概率是增大了还是失败概率增大了相比于什么时候相比于一年前我觉得是增大了因为我们成功概率还是失败概率成功概率对对因为我觉得就是就你只要没往上爬你的成功概率都会变大因为会有一些人就不会继续爬了那你恐惧掉下去我覺得肯定會有恐懼但是恐懼很多時候它是會就是更多的可能是還是關注就是你當前這一步然後能做什麼有時候可能想這個問題是更重要的你覺得過去你有沒有走歪路肯定有就像我剛說的就是你在這個過程中會有很多很多決策有一些是技術決策有一些是比如說業務的決策我覺得很重要的是說就是一个公司在这个过程中可能去逐渐调整的能力就像比如说知识创造也是这样的一个过程就是你不可能创造出来的知识所有东西都是对的就是你会发现有的东西它也是错的但是它在一定时间内可能是对的然後但它一定時間內可能是錯的但是當它是錯了之後你你就要去做調整比如說像牛頓做的很多東西在他當時是最好的理論但是他不是完美的理論他也有錯誤對吧他在一些場景下是完全就是完全錯誤的理論你這個萬有引力需要有一些別的解釋你需要有一些這種相對論的解釋通過這個時空的扭曲去解釋我覺得是一樣就是我觉得组织的进化或者一个公司的发展它是一个动态的过程然后任何的中间点在某些时间是对的有些时间可能是错的这个也是Kimi告诉我的就是说他任何中间状态都会成为被批评的这个对象或者之类反正类似这个意思吧就是说我觉得你总是会有这个时代的局限性我感觉然后可能更重要的是说你怎么在这个过程中去我觉得一是说投入一些可能一定不变的就比如说你的人才和技术的积累然后另一些就是说在这个过程中去去适应和调整就是你能够针对不管是说就是反馈信号或者你环境的状态变化然后去做一些决策的调整我觉得这两个东西是很重要的到底做AI实在产品是不是跟互联网产品完全不一样因为互联网产品就会通过投流去扩大DAU扩大市场规模但是AI产品它很不一样就是它模型能力提高了然后提高了那个bar以后它自然就可以获客然后但是获了客也不知道用来干嘛就是所以我不知道这个怎么平衡呢对它有时候也不一定那么自然就我觉得取决于两个变量哪个大但是你确实如果你是在技术快速发展的阶段你很难说透过投流的方式去去贏得這個戰爭我覺得是很難的但它可能更多的是一個輔助的手段只是說你這個輔助手段跟你的主要的手段之間它到底什麼樣的一個配比它可能是需要動態調整的一個關係然後也取決於你現在的戰略化的進展或者說你的PMF到底有多強它可能不同時間點它是有不同的策略就是甚至这个策略也许你再过一两年你发现它又是一个好的策略我觉得也不一定就是我觉得我们是用更open的心态去看这个东西但是可能在每个时间点是我觉得最重要的看哪个是最大的变量吧我觉得这个是一个挺重要的事情OK今天最大变量依然是智能对对就是还是爬山还是爬山我一直问你各种的情绪你都说还好还好还好所以你最近一次或者最近两次吧如那次嗨是什么情境啊为啥是为什么呀我觉得他不以物喜不以己悲嘛这是这是我听你说说很难做到对对但就是说我觉得是避免一些情绪化的决策所以你会情绪化吗就可能多少肯定会因为你是一个人嘛但是就是我是说可能避免一些情绪化的决策这种落实到决策和执行上还是还是要更理性一点你最大的成长是什么呀过期一点我觉得是说认识到一个点就是说问题是不可避免的它会一直存在然后持续解决新问题我觉得最重要的可能也是最有意思的我觉得这个是一个心态上的一个变化对然后它当然它可能会改变你很多做事情的方式这是一种正面的方式是吧我不知道怎么理解但是可能差不多你今天比一年前更兴奋吗对因为我觉得有两个因素一个是说你一方面也更适应这种状态所以它会兴奋值减少但另一方面就是说你发现AI的进展很快就是你现在能力又提升了所以兴奋值又增加所以我觉得基本上可能维持在一个比较稳定的水平我问你最后几个快不快答一个全球范围内你喜欢的食物食物拉面为什么好吃一个少有人知道但必须知道的知识点我好像不太擅长回答这种问题记忆所有读过的书推荐两本必读书哦这有一本我刚刚一直在讲的对就推荐这一本心目中影响AI进程的几篇论文是什么最重要的最重要的几篇论文最重要几篇论文就是backpropagation然后可能Transformer我觉得肯定算对然后可能GPTGPT3对然后当然有一些是Buildingblock我觉得也很重要就是像比如ResNet我觉得也很重要就是它可能是这个犯法的基础然后Adam但现在可能还有Mill基于当下的认知一个最关键的Bet最关键的BAT,犯法的agent用innovation,用L4做L3最近的动物是什么不知道,我感觉我脑子已经糊了我已经把一年的话都讲了没办法,碳基酸物的局限性好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
张小珺商业访谈录|第113期 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和“站在无限的开端” 日期:2025年8月27日 嘉宾:杨植麟(月之暗面Moonshot创始人/CEO) 主持人:张小珺
本期是AI创业者杨植麟在《商业访谈录》一年多后的回访。围绕Kimi的全新K2模型发布、全球大模型前沿的技术范式变革、开源与商业边界,以及个人和组织的成长遇见的挑战,二人展开了细致的长谈。
核心议题囊括大模型技术发展、Agentic智能体的系统性变革、技术创新的哲学反思以及AI时代组织管理的全新方法论。访谈细腻真实,穿插哲学思考和大量一线实践经验,对AI创业、模型研发、行业趋势以及个人成长均有深刻洞见。
K2 发布与行业进展
哲学反思:创新的意义
技术演进视角
1. Paradigm Shift:推理与智能体漫谈
[17:50] 强监督/强化学习的新进展
[23:10] “缸中之脑”vs.“交互型Agent”
2. test-time scaling与任务复杂性
3. 一方产品&逆向工程:新一代Agent生态
黄金段落引用:
MOE架构与Token Efficiency突破
数据改写与泛化挑战
K2项目立项及团队协同
Agentic智能体定义
AI训练AI的时序创新
开源还是闭源?生态博弈
中国公司扎堆开源的实质
模型即产品:新开发范式
未来的超级节点——终端与AIfactory并行
Scaling Law与数据飞轮
商业模式与增长
个人心态变化与认知迭代
管理哲学:SFT还是RL?
[112:30] “‘用RL方式管理团队,这个奖励定义和观测很重要,太SFT会失去创新,太RL容易reward hacking。’——学会平衡是CEO最难拿捏的部分。”
[122:23] “你对CEO身份有没有新的理解?”
杨:“现在最新的理解就是怎么把握RL和SFT还有reward hacking之间的平衡,这可能很重要。”
人生与AI的意义
这期对话以深度且开放的视野复盘了全球AI大模型、Agentic智能体的演进与中国团队的创新突破。杨植麟坦诚剖析技术内幕、团队管理与个人成长,印证“站在无限的开端”,每一座AI的“雪山”都没有终点。访谈适合关注AI创业、行业趋势、模型研发、技术哲学和组织创新的听众,是2025年AI领域必听的深度长谈之一。