
Loading summary
A
Hello大家好我是小駿前面在福利和廣密的節目中我們深入地揭示了AI的進化從第一幕Chat走向了第二幕Agent可以說Agent是206年的高頻詞关于agent,我一直非常希望能够深入到技术的原理层给大家做一次有关agent的技术讲解,能够让我们一起非常清晰地了解技术的脉络。 今天我要请的是俄亥俄州立大学计算机系教授,也是创业公司Neocognition的创始人苏玉。 苏宇是少数见证过agent演化史的学者研究方向是languageagent我们从更长周期复盘了agent的技术演进史尤其是最近三年languageagent的快速进化此外苏宇也是205年斯隆研究奖的得主那接下来是我们对agent的技术综述祝大家五一假期学习快乐期待206年我们和AI共同进步这一个阶段一个很好的总结实际上是一本书叫做它也是这个AI这整个领域的一个非常重要的一本书叫做ArtificialIntelligenceAModernApproach这应该是很多很多人对AI的入门书籍也是我的AI的入门书籍chargeoffeemoment它是标志LLM这个范式的变化而opencloud这个moment它是标志着agent这种尤其是各种高度自动化的或者是这种personal的agent的这个范式的变化这些东西都是在快速的converge最后attheendoftheday大家想要的就是一个universaldigitalagent我之所以会提到就是这些boundary都在消弭其实也是跟coding有关系的hello苏老师因为最近opencloud非常热啊我很想借着这个机会来聊聊一个叫agent的综述因为你在这个领域已经非常长时间了那我们今天就来做一个技术话题的播客能不能还是请你先做一个简单的自我介绍并且讲讲你的过往的经历小君好大家好非常开心今天来这边跟大家聊一聊我叫苏玉是湖南人然后是在清华计算机读的本科之后来美国这边读的PhD后来去了OhioStateOSU当老师然后是开启了一个叫做OSUNLPGroup对于比较关注agent或者lm的人来说可能大家应该会见过比较多我们做的工作包括agent的这边尤其是在computeruseragent就是用电脑的这些agent上面我们可能做过像很多很早期的工作像minetoweb像seact然后lmplanner然后在更加广义的lm上做过像mmu就是multimodallm可能用的算是最广的benchmark然后去年的话我是搬来了硅谷这边开始了一家新的公司叫做Neocognition主要是做agent相关的research就是研究得先叠个假就是可能难以避免就会讲很多的中英混杂但会尽量就如果我知道怎么翻译的话会尽量的翻译一下在我们讲最近的这些像opencloud之前我们还是想能把这个agent聊得更纵深一点你能不能跟我们讲讲整个AIagent的一个历史它是怎么一步步发展到现在的它又是一个过去多少年的一个时间轴好的好的就agent这个事情我觉得肯定不是一个新的话题它是就贯穿AI的始终的就是从AI最开始的时候其实大家就在讨论agent的问题一个简单的定义的话觉得可以是这个样子因为agent定义它是这每个人都有自己的定义是这个真的很大的一个问题但对于我来说我觉得agent首先它应该是entity就是它是一个实体它有它的boundary而不是一个这个发散的没有boundary的东西就是它是一个有界的对吧然后呢他是需要在外界环境在某一种环境当中去工作第三个要素是他在这个环境工作并不是在那随机的游荡对吧他是要去进行叫做goaldirectedactivities就是他是有目的性的它带有目的性的去进行各种各样的活动以达成这些目的所以我觉得如果满足这三个要素的话就可以称作一个agent其实你如果想的话它这个概念它其实是对于所有的动物它都符合这个定义所以所有的动物它都是agent尤其是人它可能是有最先进的智能的这样的agent所以在AI刚开始发展的时候比如1940年到1960年那个阶段AI的鸿蒙时期所以那个时候大家想要做的就是去怎么去构建这样的人造的artificialintelligence能去模仿人的这样的agent的行为从最开始的时候其实agent它这个概念就是一直在的但它没有特别的成为显学因为大家就发现你要做一个这样的一个晚辈的agent是非常非常难的一件事情其实对于当时的技术条件来说是过度的去追求这样的一个终极的目标是没有太大意义的而且对于领域的发展是比较counterproductive比较有反效果的所以后来AI这个领域就进行了比较大的分化就分化成各种子领域最近就包括这种计算机视觉自然元处理逻辑相关的这种reasoning这些都是从那个时候分出来的当然最近又有一个叫分久必合合久必分最近所有这些领域又有一个重新归拢的趋势当然那个就是后话了但是我们可以聊一聊最早的这些agent我觉得可能应该算是叫做logicalagent就是这种基于逻辑的智能体那個大概是在1950年代到190年代是這個AI整個領域的主旋律可能大家還記得像這種專家系統你就是你有一个一定的逻辑语言比如说一介维斯逻辑然后你可以去采访各领域的专家把他们的这些知识写成逻辑语言能表达的形式然后你再有一个基于逻辑的一个叫做inferenceengine就是这种推理的引擎然后有一个新的问题来了之后你就可以去进行基于你已有的这些知识去进行逻辑的推演然后看能不能得到一个答案这个就是早年这个AI最早形态的这个能work的agent基于逻辑的agent结果大家也知道就是这个大家发现这一套方法它是有很大的局限性的这也是直接导致了当时最大的一次AIwinter就是80年代到90年代那一波AIwinter就是专家系统它不能deliver它的promise通过这个围引的话其实我们可以再谈一谈就是agent它到底要做成一件什么事情什么样是一个好的agent我觉得agent的核心问题是它生活在一个很复杂的世界里面那最复杂就是我们的现实世界我们要这个agent他要学会怎么去适应并且利用这个世界的复杂性以达成他的目的他的目的可以是像人一样是生存和繁衍也可以是可能更局部的目的比如说怎么挣钱怎么去明天能吃一顿饱饭对吧那为了达成这样的目标它需要我觉得至少两项广义上的能力我叫做一项是memory第二项是autonomy这些都是广义上它memory的或者记忆的话它包括知识的表达knowledgerepresentation包括你怎么获取知识怎么更新知识怎么遗忘知识而且知识也是广义上的它包括这种semanticknowledge就是语义的知识也包括episodicmemory就是这种我们日常记忆的memory但也可以是procedural的就是这种更加像过程性的比如说怎么学会骑自行车这样的memory但这一整块可以我们都可以叫做memory因为对于人来说他们储存的方式是没有本质区别的这些东西都是存在我们的这个叫做神经突出里面的就是人所有学到的东西它都是memory而另一块另一大块能力就是agent需要的就是autonomy就是这种自主性自动化它包括perception就是你怎么去感知这个世界包括reasoning你怎么去基于你的感知基于你有的知识去做推理包括你这个decisionmaking就是基于你的推理你怎么去做各种重要的决策然后到最后的action就你的这些决策怎么去反映到这个外界环境里面那显然这个autonomy它跟memory也是就是一体两面的关系嘛你的memory是你的autonomy的这个整个的基础那这一套框架就基本上我们可以用来去讨论所有的agent包括人humanagent那你像早期的这些基于逻辑的agent他在这两个方面都是非常受限的他的memory他的记忆他有的就只是一个有限级的一个叫做logicalstatement就这种基于逻辑的一些陈述他的这个记忆的他这个memory他这个knowledge的这个表达能力expressiveness也因此是非常受限的他就是被他的这个逻辑语言的这个表达能力给绑得住的就世界上绝大部分的东西都是没法用这些简单的逻辑来表达的虽然后来大家就尝试了各种像这种高阶逻辑模糊逻辑fuzzylogic或者是这种probabilisticlogic但那个是只解决了很少部分的问题然后他的autonomy他就他所有能做的事情就是takeaquestion然后用这种基于逻辑的这个inferenceengine去做一些推理得到一个答案这是他全部的这个autonomy那因为他的表达能力受限的话他的autonomy是非常受限的那最大的问题其实对于这个早期的这些专家系统来说后来大家发现是这个knowledgeacquisition的这个bottleneck就你要去获得这些知识太难了他当时主要就是依靠这些工程师去给这些领域专家去做采访然后想办法把这些采访的内容就是怎么能去写成这些逻辑语言的形式那个过程是非常痛苦而且非常低效并且非常这个就是能达到效果也非常有限的所以这个就是最早期的这个agent的形态60年代到80年代对到90年代吧这一个阶段一个很好的总结实际上是一本书叫做它也是这个AI这整个领域的一个非常重要的一本书叫做ArtificialIntelligenceAModernApproach这应该是很多很多人对AI的入门书籍也是我的AI的入门书籍它是StuartRusso和PeterNorvig写的第一版好像是95年的时候发布的大概就很好地總結了到那個時間為止所有的這些AI的發展其中斯托羅·盧索他其實就跟我提過就是雖然大家覺得這個好像是一本AI的書但實際上它本質上是一本關於agent的書他的書的第一章就是來講什麼是一個intelligentagent只是现在大家有点遗忘了这个事情所以Stuart他就会非常强调就是实际上这个agent它并不是一个新的概念就是整个AI领域一直是关心的这个问题OK所以这个大概就cover到了可能90到20年代大概是90年到20年那个时候其他种类的agent也开始有了比较大的发展像robotics那边就机器人那边有一些比较重要的发展然后包括这种基于neuralnetwork就是基于神经网络的机器学习的方法有了比较重要的发展比如说这个backpropagation我记得好像是不是85年的时候开始出现变得比较popular但大概是到20年之后觉得agent是有了一些比较实质的一些变化大概是分两部分一部分是比较highprofile的可能是这种neuralagent就是基于神经网络的agent尤其是在深度强化学习的literature里面就deepreinforcementlearning这个方面有很多的代表作比如说这个AlphaGo对吧然后包括各种这些主要是用来玩游戏的就是各种的游戏当时大家都试过了那些Atarigame就那些比较简单的像街机一样的游戏然后到这个像这个Dota到星际都是一些我喜欢玩的游戏到时候大家都用AI把他们给解决了一遍但你如果看就是这种deepRL的这些agent然后你从从这个memory和这个autonomy的角度来分析它们的话你会发现其实还是很受限的一般它们就是一个它的主体这些agent主体就是一个很小的一个神经网络可能几十million或者顶多到10millionparameter就是大概1亿parameter这个量级就是绝大部分都比这个要小很多在当时还是非常大在今天的标准来说就是非常非常小然后它们要做的这些网络要做的事情也非常的单一就是玩这一个游戏或者这一类的游戏那它的输入实际上就是这个游戏的画面然后输出就是在这个游戏里面你可以做的各种的各种的动作actions它的这个memory它所要学会所要存的东西也就是只是关于这个游戏的各种规则和各种perception需要的东西action需要的东西然后它的autonomy那也是非常简单你有一个画面作为输入你可能还有一点点历史这个history然后你去跑一下你的这个你是一个潜窥的神经网络feedforwardneuralnet你跑一个passforwardpass就从输入变成一个输出你再去takethataction你的环境就会发生变化然后你再去重复这个过程它其实里面就没有太多的复杂的这些perception也基本没有reasoning或者说它的reasoning推理是非常隐世的它就是在你这个神经网络的一次这个forwardpass的这个过程中它当然是做了一些推理这是一个隐世的而且这个compute非常受限的一个推理就是它对于不管多么复杂的情况它所能用到的这个计算量这个compute就是一个forwardpass对吧而人显然不是这样的就是我们对于不同的情况它的复杂度的不同我们就会我们这个推理的这个计算量显然是不同的这个是这种neuralagent就是它在这个memory这个autonomy上都是还是虽然比以前的这些logicalagent已经要强很多了但还是相对来说非常受限它的通用性有提高吗相对于logicalagent我觉得它的通用性的提高可能体现在两个方面一个方面是我们会开始有你去训练同样的一个NeuralNetwork它可以去玩不同的游戏比如说你这个Atari系列它就有可能几百个不同的游戏或者几千个它都可以去玩另一方面是你在用相同的一套方法去玩各种不同的游戏你可能用去玩Atari的这个方法这个网络的架构和去玩这个AlphaGo它的架构可能也差不太多所以这个主要是体现在这两个方面但是如果你说的泛滑性指的是像人一样就是你随便扔到一个什么样的环境里面然后他就自己就可以学会能做得很好那种泛滑性是而且是非常的这种sampleefficient就是你不需要多少的这些训练的数据量这个是deepRL另外的一大问题就是它的这个sampleefficiency至少当时来说是非常糟糕的你可能只有一个简单的游戏就要可能几百万的这个玩几百万盘才能学会为什么这个时候大家会把游戏当作一个训练agent的一个环境或者说一个boundary我没有去真的做过那种agent所以我的答案可能不一定非常的完备如果让我来猜的话我觉得可能Demis就是GoogleDeepMind的这个负责人他是对于游戏非常情有独钟的然后他也是deepRL的代表人物所以这可能有这种个人偏好的部分当然也有很多这种非常实际的一些原因比如说刚刚我们聊到这个deepRL它的sampleinefficiency的问题游戏这种高度可重复的这些虚拟的环境它就是天然就适合去解决或者至少提供一个解法就是对这个dataabundance的问题还有其他的一些原因比如说你这个就是输入输出的这个高度受限和简单性实际上也是很适合当时的这些技术的所以这个是NeuralAgent主要的发展是在20年尤其是201年之后的这段时间然后另一方面但neuralagent的这个时候它是我们说的它就是输入输出都比较的单一嘛它的scope比较小那另一方面去试着去扩大这个scope的输入输出的宽度的这个effort叫做semanticparsing中文可能叫做语义解析这个是主要是NLP就是nationalprocessing这边的人在做的它的本质上要做的事情就是把任何的人说的话能转化成一种叫做formalminirepresentation其实就是能转化成一种机器能读懂的一个语义的表达那这个例子可以是背后可以是一个知识图谱你可以是一个数据库你可以是一个网站就是各种如果用户说了一个什么东西的话你希望能把它自动的转成在这个相应的环境里面机器能够读懂的形式这个也是主要的能追溯到更早就20年以前但是主要的发展也是可能是在20年之后它其实就跟NeuralAgents就有很互补的关系Neuralagent它关注的是怎么做声就是怎么去能通过大量的data去学会说这个在这个受限的环境里面怎么把这个事情给做好而Semanticparsing关注的是怎么去做得更广而且是能去解决像这种communication包括这种语言的perceptionunderstanding这些问题其实它也涉及到这个action的问题就如果你能把这些语言转换成机器能读懂的形式的话那它也就包括就是你能去命令机器去做各种各样的事情所以它这个SemanticParsing也一定程度上是去扩大了这个Agent它的这个ActionSpace我PhD阶段主要是做SemanticParsing的所以我对那一块会比较了解而且当时其实有很多就是后来在LLM在Agent这一边其实做的有起到比较大作用的人其实这个都是SymantecPlasma出身像Percy,PercyL,就是Stanford,然后LucasZettelmeyer,就是这个在UniversityofWashington,他在Meta团队做了Roberta,包括之前在AI2做了Elmo,Elmo是在这个GPT之前的这个languagemodel,就是GPT应该是在很大程度上是受到这些工作的启发的,然后跟年轻一代,比如说港大的于涛,包括我们这边就我跟那个OSU另外的这个孙欢老师就我们这些都是做SemanticParsing出身的但现在都是在可能在LM在Agent这边有一些比较大的作用所以这个我觉得可能也许是就跟这两个问题之间有一些很深的联系也是有一些关系的对所以这个大概是到20年以前大概是这些NeuralAgent啊SemanticParsing啊就比较蓬勃发展的时期大概到20年以后然后尤其是20年就CHIGPT出来之后这个landscape就完全不一样这些新一代的agent就我个人认为是应该叫做languageagent就语言驱动的智能器就包括这个24年的时候我跟杨迪姚舜宇和那个于涛我们还专门做了一个tutorial来定义这个事情来讲为什么这个应该叫做languageagent因为这一代agent他基于LLM他最大的不同是在于他可以用language作为一个scaffold作为一个脚手架来去做他的所有事情包括他的perception就这种languageunderstanding这样使得这个人跟这个agent他交互的形式就灵活得多了然后包括用language作为reasoning就现在我可以这个就是所谓的chainofthoughts就对于不同的task我不需要用同样的这些这些computer了如果这个任务比较复杂我就可以多产生一些token那每产生一个token它都是一个forwardpass它就都是acertainamountofcompute那这实际上就达到了一个adaptivecomputing就是一个有弹性的这种自适应的推理的这样的一个效果而这个語言也是它能做這個事情的這個絞手架它是一個拐杖或者是一個工具手段對我覺得絞手架還是比較雖然這個中文聽起來比較奇怪但是還確實是一個比較貼切的一個絞手架對scaffold然後同時也包括action语言基本上是一个非常全能的一个行动去takeaction的一个媒介语言也包括这些formallanguage包括这些machinelanguage那你就基本上可以在一些digitalworld里面做各种各样的事情所以它在从autonomy的角度这个语言这个languagemodel就极大地去扩大了这个agent这个autonomy的程度那你从memory的角度就是这个大模型大语言模型的训练过程它也是一个塑造memory的过程而且是一个以语言为脚手架因为它的这个训练数据主要是语言以语言为脚手架去形成一个通过一个压缩的手段compression去形成一个对于这个世界的一个表示的过程我觉得在早年的时候大家还没有太理解这个事情还会觉得说这个languagemodel它就是比如说所谓的stochasticparent就是这种随机鹦鹉就是只是在去模仿人类的这些语言去做一些statisticalprediction但实际上现在我们越来越理解说就是它实际上在大语言模型训练的过程它是一个压缩就然后是从这个语言这些surfaceform压缩成一个minirepresentation一个对于这个世界的这个model一个representation的过程这个representation它当然也是直接驱动了刚刚我们聊到所有这些autonomy的各个方面所以这是为什么我们认为这个应该叫做languageagent因为language它的definingfeature那这个languageagent的发展那就拨来话长了就是最近我们经常说现在AI就是在weliveinacompressedtimeline就是现在每一年甚至每一个月AI的发展是以前可能你要十年才能达到的这种发展我觉得这点还挺有意思的因为它其实跟人类的或者是整个自然界的演化历史是有一些微妙的相似之处的我們大概這個地球上的生物經過了可能幾億年到十幾億年的這個演化就從最早的這個有機物開始出現違節的話但这么长的时间比如说你可能花了十亿年甚至更长的时间你才有这种真核细胞生物的出现但如果你再放到可能哺乳动物的出现就从真核细胞生物到哺乳动物中间可能又经过了十亿年哺乳动物可能是两亿年还是四亿年之前才出现但如果看这个人類的這個進化對這個像Homosapiens就Homo這個Genus就是這個金莫岡姆科鼠種這個鼠Homo這個鼠它是沒記錯的話可能是20多萬年前開始出現的然後Homosapiens它這個時間就更短就是我們這個巨人這個種時間更短本身Homosapiens它的這個進化史在整個進化史來說就已經是滄海一粟就非常小的一個階段但是Homosapiens的進化史如果你分在語言出現之前和語言出現之後這個進化的速度的話它又是一個翻天覆地的變化你想這個呈系統性的這個符號化的表達可能是十萬年前大家開始出現就我們開始會看到有一些這些洞穴裏面的各種壁畫呀包括一些有意義的宗教的符號啊可能大概那個時候開始出現然後真正呈體系的這種writtenlanguage就是書面語言可能也就五六千年的歷史但尤其是最近的五六千年实际上是这个人类整个文明大爆炸式的发展的时候对吧所以language在这里面是起到极其重要的作用回头之后我们聊到这个可能聊到一些叫世界模型到底我们需不需要语言这些的时候可以进一步的去细聊但是就是在人类的演化里面这个语言是起到一个爆炸式的加速剂的这样的一个作用而现在在agent的演化在AI的演化过程中好像又是一个类似的一个效果所以我之前23年的时候写过一篇我的第一篇博客当时我觉得就是这个有很多这些念头有点这种不吐不快的一个感觉所以当时写第一篇博客叫做languageagentsacriticalevolutionarystepforartificialintelligence就是我覺得從進化的從evolution的角度來看這可能是一個非常標誌性的一個節點我有一個問題就是語意解析和languageagent它們本質區別是什麼因為language它就是已經存續很久的一個媒介為什麼之前大家沒有想到要把它應用在AI的訓練裡呢或者agent的訓練裡呢我觉得可能这么说不是特别准确就把language用在AI或者agent的训练这个事情它是一直在发生的从某种意义上来说就naturallanguageprocessing就NLP整个领域就是要做这个事情对吧只是在LLM出来之前大家能做的事情相对来说比较有限因为那个Foundation不在那边所以比如说当时做SemanticParsing可能每次就是做某一个特定的环境比如说一系列特定的数据库或者某一个特定的知识图谱或者是某一个特定的网站大概这样子LM出现之后它相当于是提供了一个非常强的Prior就非常强的鲜艳它内置了这样的一个基于语言的世界模型使得你可以去产生这样的languageagent可以放到任何一个环境里面它可以开始至少是reasonably的去产生一些行为那个是它本质的不同对你也讲到就是过去三年的发展速度可能比过去几十年还要快你能不能讲讲languageagent在过去三年是怎么演化的好的当然我在这一段历史就有意思的工作太多了我肯定是不能去一一覆盖到但我肯定会比较bias的因为我对就是就我做的这些相关的agent工作会更了解一些就因为我做的更多还是这种像computeruseragents所以我可能会结合就我个人的一些经历来讲一讲我觉得最早这边比较有代表性的我觉得应该还是算是这个chainofthought就是COT这个paper那个大概是20年初出现的因为像刚刚我们聊到这个语言它是包括这种COT能带来这种adaptivecomputing这种adaptivereasoning这个是一个非常本质的一个不同然后我觉得顺语是做react那个是可能20年末可能10月份左右出来的那个实际上就是把COT就是给扩展到这样的一个因为COT当时做的时候主要还是一些偏这种做数学题啊这些reasoning的这些环境然后react实际上就是把COT扩展到一个有外部环境的这样更像agent的一个setting那你就是有一个外界环境然后你有一个agent每一步这个agent会去会去perceive会去感知这个环境的状态然后去做一个COT类型的一个reasoning去做一个决定下一步的action然后再去taketheaction去改变这个环境的状态所以react的本质上是这样子的就是想法很简单但实际上就影响力是还是相当深远的我觉得这也是Agent里面很多这些工作的特点就是你可能去看它的整个的技术本身会觉得这个东西好简单但在这个正确的时间点能有这个正确的insight去想到并且做出来对应的工作其实不容易的然后那个时候是我开始当老师第二年第三年的样子在OSU然后也是我们组开始从SemanticProcessing往Agent的转向的时候我们做的第一个工作叫做LLMplanner是2年底的时候就差不多是跟ChadGVT同一时间出来的应该算是最早的用LLM来做这种robotplanning就这种embodiedagentplanning的这个工作之一然后到在同一时间我们其实开始做了另外的工作就是mindtowebMy2Web应该是第一个基于LLM的webagent或者computeruseragent因为CHIGPT是20年1月发布嘛然后我们大概是在20年10月份开始做这个工作到203年初的时候去发布的但在这个之间就大概就我们可以按年份来算就是20年就还是属于这个最早的时候所以就可能有代表性的工作大概就是那几个包括那个Robotics那边还有一个叫做Secant的工作是Google那边出来的那个应该算是公认的这个LMforRobotPlanning的第一个有代表性的工作然后到23年的时候2月份有一个很重要的工作叫做ToolFormer是第一个用这个LM来做ToolUse的工作那个是Meta出来的LukeZettelmaier就是我们之前提到做SemanticParsing的老师也是这个工作的主要的Lead之一虽然agent那个时候还没有形成一个很火的概念但是这个工作当时已经产生了非常大的影响当时我人还在微软兼职当时这个paper是微软的CTOSatya在全公司穿越的一个工作就是Satya敏锐地看到了就是这个工作虽然它看起来简单但它会有非常强的这种implications尤其是对于像微软的这样的一个偏enterprise的这个business来说当这些大模型能开始用各种现成的tool的时候它的意义就完全不一样所以这是tooformer大概是23年初23年2月份的时候之后就开始出现一些早期的更像现在agent的形态的东西了比如说23年3月的时候出了一个很有名的一个开源的项目叫做AutoGPT不知道现在还有多少人记得在当时它的火爆程度就跟OpenCloud现在的火爆程度差不太多当时是很快的就冲到了10万然后现在可能是有18万的这样的一个GitHubstars就是跟这个OpenClient的GitHubstar也是没有差太远的但在那个时间这个是闻所未闻GitHub历史上就是这个star数涨得最快的repo没有之一他做的事情就很简单就是把这个LM就包成了一个agent的一个外壳然后好像看上去他就能去做任何的事情当然实际上就是他能做什么事情非常非常少大概跟OpenCloud现在可能也有一些类似那个时候还有其实像类似OTOGPT的这样的火爆的agent的repo还有其他几个比如说另外一个有代表性的好像叫做AIEngineer号称是第一个这样的全自动的AIEngineer它有意思的点是最后它是发展成了一个公司叫做Loveable是现在Vivecoding这个算是有代表性的公司之一然后时间到23年下半年的时候有意思的点是早期的这些工作全是taxbased就是只基于文本的但到23年下半年就年中的时候吧GP4OK出现了这是第一个真的能打的一个多模态的模型然后也是这个agent的全面向这种多模态转向的这个时间点当时我们是先release的mind2web那个是就是textonly的然后在GPT4出来之后我们就开始做这个多模态的或者是基于视觉的这种agent其实同期做了两个工作吧一个是MMMU是这个第一个这种multimodalLLM的benchmark现在也是算是这块最标准的benchmark然后在做MMU的同时我们开始做另外一个工作叫做Seact就是这样的Multimodal的WebAgent也是基于GPU4的那个时候GPT4甚至都没有API所以我们自己hack了一个工具就是把它的这个基于网页的这个界面给它包装成了一个API使得我们可以去做这个MMMU和Seact的这些实验反正当时还挺有意思的然后Seact之后就是这些有些computeruseragent就绝大部分应该基本都是visionbased的或者至少是hybrid同期还有几个工作比较有代表性的比如说这个CMU就GrahamNewbig他们团队做的WebArena那是23年7月份吧反正就比MindWeb可能晚一个月的样子那是也是做WebAgent但是是Mindsweb它的这个想做的更多是这个我们叫做generalistagent就是你去任何的一个网站你要它去做什么事情它都可以去帮你去做而WebArena还是稍微更传统一点它更像是那种RL的environment所以它就做了几个网站的这种fullreplica就是这种simulate的几个网站然后让这个agent在这里面去做事情这个其实也挺好的就是因为如果真的要去真的这种livewebsite上面去做你就会有各种各样的问题包括这些网站会变的问题包括这些legal的问题所以webarena其实提供了这样的一个更加可复现的一个环境所以影响力也是很大的然后到24年的时候你看早期的这些agent他都其实主要是webbased的到24年的时候开始出现就更像desktop和mobile这些环境的agent比如说宇涛他们组做的OSworld算是这里面非常有代表性的那是可能是24年三四月份的时候那主要是desktop然后同时我们没有讲太多的实际上是另外的一很重要的agent的一支就是这些codingagent你将sweetbench可能也是大概23年没记错的话可能23年下半年左右出来的然后那个是就引领了整个codingagent的发展当然我没有特别仔细的去track就那边的时间线所以可能就聊的会少一点但到24年OSworld然后包括这个比如24年下半年的时候我们做了一个比较有代表性的工作叫做UGround但实际上他这个名字比较奇怪但实际上他推的事情就是说这些agent他应该usecomputerslikehumansdo就是他应该像人一样去用电脑人的embodiment是什么样的agent就应该是什么样那人的embodiment是怎么样就每一步我们就是去做一个visualperception就我们去看一下这个当前的屏幕对吧然后再去做一些reasoning在这个屏幕上去takesomeaction而是这种pixellevel的比如说就点击这个地方或者是在那个地方去typesomething这样的一些action这个embodiment它跟之前的这个computeagent的embodiment是很不一样的因为之前的agent还是会去用像这些html就这种textbasedrepresentation那在之后在UGround之后这个你像cloudcomputeruser你像这个OpenAI的operator他们其实采用的embodiment都是像UGround一样的embodiment就是viewerperception加pixellevelactions包括现在就是最近这个cloudcowork和cloudcode他们开始出现这个支持这种desktop这个computeruser的功能或者包括cloudinbrowserinchrome他们其实都是这样的一个embodimentcloudcomputeruse其实也是那个时间点出来的大概就是2014年10月份的样子然后到205年的话像OpenAI就开始出operator包括ChaiGPTagents然后可能205年上半年在Cursor的这个影响下这个SRB也开始出来cloudcode然后到二二五年下半年的时候因为基模的coding能力的发展CloudCode开始以极其恐怖的速度大爆发尤其是如果你是在硅谷这边因为当时我刚好搬来的硅谷这边就能明显的感觉到大概是Opus4.5出来之后大家对于整个coding的感知和实践都发生了翻天覆地的变化而那个变化可能就是在那么一两个月之间就发生了就基本上已经不自己写代码了对当然这个要去defuse它要扩散到这个其他的地方就硅谷之外它还需要花一点时间但是这个速度是非常恐怖的然后你到其实opencloud出来也就是25年底1月份这样子当然它真正火爆好像是要到今年2月份的时候吧大概这个languageagent就是蜻蜓点水的一个总结一个时间线我觉得大概就是这样之前你们把languageagent又分为了webagentcomputeruseagentcodingagent是这么划分的吗但好像现在到了这个时间点大家对于codingagent的感知是最强的它的火爆的程度也是最强的我觉得是也不是早期的时候我们是有一些划分但我一直觉得这种划分是比较临时性的对你会分它是browseruse还是desktopuse还是mobileuse然后你还会分它是不是故意的它是不是基于这种图形界面的还是它是基于这个textbasedrepresentation的或者是它是codingandtooluse就coding加tooluse的但最后这些东西都是在快速的converge最后大家想要的就是一个universaldigitalagent就是一个可以在这个digitalworld里面做人能做到所有的事情甚至做得更好的这样的一个agent然后这些它是browser还是desktop还是mobile它是这个GUI还是CLI还是text这些API还是coding其实只是ameanstoanend它只是一种手段而且是一个正在这个boundary正在快速消弭的这些手段到今天你觉得它消弭到什么程度了然后以及你怎么认知coding我觉得这两个问题其实还真是很相关的就是一方面这方面不得不佩服Darryl就NCRP的CEO就是他在这一点上把握的非常准coding它是非常fundamental它就是至少对于digitalworld来说而且我觉得不仅限于digitalworld它是最根本性的fabric这个buildinglayer就是你所有东西都能用code来表达attheendoftheday另一方面是我之所以会提到这些boundary都在消弭其实也是跟coding有关系的我觉得是coding会来主导去打破这些boundary你像比如说简单来说你说故意你是要故意还是要testbase这些CLI或者是API你完全可以用coding的形式去把它们变成等价的因为你故意你本身其实就是通过coderender而来的对大概就是讲到这个程度再往深的讲当然之后如果我们想要聊故意和CLI到底有什么区别我们也可以再展开聊一聊我在想你刚才说就是你们之前做过一个tutorial把当前的agent叫做languageagent那今天它会叫codingagent那么就是今天的定义会发生变化吗呃不会首先就是programminglanguage它本身就是languagelanguage它从来不是只是说自然语言它是一切符号化的东西包括编程语言包括这些diagram就是图表化的语言包括手势这些都是language是很多所有这些基本都是自然语言的一个衍生物derivative所以language其实包括了coding作为一个language的对这个应该基本不会有意义的coding它就是叫programminglanguage所以有点像就是自然语言是人类的脚手架coding是机器的脚手架吗就是它们的表达形式它们的表达是不一样的可以这么说但最后我其实倾向于就不会去有太强的区分因为你最后所有的language它其实要达到的目的都是一样的就是一个去描述和去操纵这个世界的一种工具包括沟通的工具不管它是physicalworld还是digitalworld而且coding其实也不会仅限于digitalworld当然programminglanguage它作为一个formallanguage它当然是有它的一些独特的性质但我觉得从agent的角度来说可能这些性质它并不是一个特别本质的区别所以我一般可能不会特别刻意的去区分这两个东西孙老师你是怎么进入agent这个研究领域的呀像之前讲到这个SemanticParsing到这个Agent的这个转变对那个时代的那个转变实际上也就是我个人的研究的这个转变当然是可能因为我做SemanticParsing的这个背景所以导致就是算是可能最早去转做Agent的这个这个Research顾问之一所以做的一些比较早期的工作我觉得再往深去揪的话可能跟我个人的兴趣也是挺有关系的为什么我会去做SemanticParsing因为SemanticParsing它是一个在当时的即使是在NLP来说就NLP它当时它就也不算是这个人工智能这些子领域里面最火的方向或者显学因为那个时候可能还是ComputerVisionMachineLearning就是这种是更加显学一点但我在NLP里面我还偏偏选了SemanticParsingSemanticParsing其实在NLP我觉得当时也可以是说上是一个NicheArea就是一个比较小众的领域所以我甚至我知道就是有一些NLP的老师他会跟他的这个学生说你做什么topic都可以但不要去做SemanticParsing所以因为那个其实做的人会比较少就你就会导致一系列的问题就是可能你的paper更难被接受啊可能你这个citation也会比较少啊但是我当时还是选择做seminalprocessing因为当时有一个比较bother我的问题就是我发现好像大家在这个有点要成为电脑的或者这种digitalworld的slave叫奴隶的这种感觉你像这些软件这些网站变得越来越复杂你可能你要去甚至复杂到一个程度就是对于一般的人来说你要去上课才能去学会用一个软件就是你要去专门上这个Excel的培训班它花好几个月然后你要去甚至像更复杂的系统像这种所谓的我喜欢用的例子是那个AWSconsole就是这个AWS上面它有几百个不同的功能然后可以组成可能几千个不同的工作流然后你要去学会这个用这些东西成为一个AWSexpert他可能要花几年的时间就好像人在开始变成电脑的奴隶我觉得这个事情好像不应该是这个样子的就是我当时我PhDdefense的时候就还有一句我觉得现在想想可能有点比较中二的一个一个宣言叫做LetmachinesunderstandhumanthinkingDontlethumansthinklikemachines就是让机器去理解人的语言理解人的这个想法而不是让人去像机器一样思考但当时这个后者就是已经在持续发生的事情随着这个digitalworld进一步的这种高度的specialization的发生就高度的这些分工这些特异化就导致人要随之去变得这种特异化那产生了这样的一个很大的问题所以这是为什么我会去做SemanticProcessing那其实也是为什么在这个LM出现之后或者是在ChaiGPT出现之前为什么我会开始做这种LanguageAgent它本质上都是要去实现这样的一个目标只是现在就是你用的这些技术用的手段稍微不同刚才我们也提到现在OpenCloud非常的火爆这OpenCloud有带来什么新的范式的变化吗它有把Agent更往前推一步吗先聊这个还挺好的因为它跟我们刚刚聊的事情实际上承接的还挺相关的我觉得在就我现在回顾的话其实OpenCloudMoment它和这个ChaiGPTOpenMoment是有非常多相似的地方ChaiGPTMoment它是怎么样的它是底层的技术其实已经开始变得ready就底层的技术就LLM这个事情其实已经在ChaiGPT出来之前其实已经发展了好几年了就是从这个大概18年BERT出来到这个后来的像什么ELMO19年然后到可能GPT1可能也是19年到GPT2GPT3GPT3其实是ChaiGPT的前身了就是这个LOM其实它已经发展的比较ready了然后OpenAI在ChaiGPT做的事情是把这个底层模型去finetune了一下就让它变得更像一个chatterbot然后把这个chatterbot给直接release给这个generalpublic让他们来试它底层的技术实际上是没有太大的变化的更多是一个交互形式的变化但这个交互形式的变化反而是这个整个事情的这个导火索一样因为大家突然发现原来这个LM已经这么厉害了就是你去随便跟他说什么他好像都能似是而非的给你一个回答那一下就导致了这个所谓的Tragicmoment而这个其实当时OpenAI他们自己也是非常的surprised就是那些就是做这个单纯的研究员们也没有想到说我把这个东西变成一个ChinaBot大家就一下子这么喜欢但实际上这个XGP的成功其实导致了后来OpenAI内部的一些问题比如说Iliad它这个主导的这些FundamentalResearch和那个PingApply的这个XGP那边的一些摩擦后来可能甚至导致了这个后来这个OpenAI的这个SamUltimate的这个整个工变的这样的一个事情不过那个就是后话了那OpenCloud它其实也是类似的就agent在opencloud之前其实已经有很大的发展了就是技术上它已经是变得ready了包括coding的发展包括其他agent的这些设计范式的一些发展就大部分做agent的人去看opencloud的这个codebase的话可能会有一种nothingisnewhere这地方没有什么创新的这种感觉但实际上它是一个也是一个交互形式的一个深刻的一个变化之前大家做agent都会比较的克制因为agent这个事情它就是像能像人一样去做各种各样的事情的话那它是很危险的它是能去产生各种各样就是harmful的行为所以大家去给这些agent不管是给他们的scope还是给他的各种permission都会很小心尤其是学术界的人对吧或者是大公司的人大家都得很小心负面的影响而opencloud其实一方面是它的交互形式的变化比如说它让你可以在whatsapp这些即时通讯软件里面去跟他进行交互然后它有一个自己独立的一个环境所以它是24小时alwayson就这种形态上的变化另一方面实际上也是这个用现在大家喜欢讲的一个词就是它是YOLOit它就不管这些permission这些safety反正所有东西都给我打开然后你知道这些agent想干嘛就干嘛然后把这个release出去因为它是开源的嘛如果你是做一个避远的东西然后要这样的一些permission这样yolo的话那会出大问题的但因为它是开源的所以它实际上是这些问题会相对小一点然后大家就去给他各种各样的permission之后发现哦原来这个agent已经这么厉害了已经可以做这么多不同的事情了所以它跟chargeofthemoment在这些方面来说是非常类似的而且我相信就再过两年来看它的这个影响力可能也会是一个类似的规模就ChargeFeeMoment它是标志这个LLM这个范式的变化而OpenCloud这个Moment它是标志着Agents这种尤其是更高度自动化的或者是这种Personal的Agent的这个范式的变化它会带来什么后续反应后续反应其实现在已经非常明显虽然他这个爆火也才一两个月的时间但已经是我觉得很深刻的去改变了各个科技公司的行为包括他们的整个的技术路线你知道Anthropy这边这个CloudCode这个去各种抄OpenCloud里面的各种feature但我觉得可能抄也不准确就是没有OpenCloud我觉得CloudCode里面也会自然而然的去加上这些feature只是这个更像是一个催化剂的一个作用然后包括这个OpenAI它的整个全面的转向就是去砍掉各种各种实验性的东西然后去Focus在Agent,Focus在Productivity,Coding包括NVIDIA老黄还说这个现在每一个企业都要有一个CrossStrategy包括国内的这个各个大厂在这个方面的动作都是非常快的然后这个也势必会很快的辐射到普罗大众吧然后可能就是最近的各种一定程度上就最近看到各种裁员的新闻就是跟大家对于整个这个agent的能力的perception是我觉得是有一些很大的关系的我自己有个感觉不知道对不对啊我感觉在中国OpenCloud的火热程度要比美国更高嗯我觉得这感觉是对的当然美国这边也很火但只是它的火主要限于开发者群体或者说就是离技术离Tech比较近的这些人所以大家还是在研究怎么把这个事情可以做得更深而中国可能就属于我觉得这也是这个两边舆论的或者是这种科技辐射形式的一个一贯的一个比较明显的一个pattern的不同中国就更加出圈我觉得可能更加全民化一点对吧就是街头巷尾包括什么各地政府都开始推突然一下子都是开始聊opencloud可能就是說它的敘事是不太一樣的美國這邊仍然是一個主要是一個開源項目的這樣的一個敘事那在中國可能這個敘事已經有點我不知道可能你感觸更深一點我覺得好像已經變成了一個時代性的這樣的一個產業的機會甚至說大一點是這種個人的翻身的工具甚至可能有一種就是你如果不學就要被時代淘汰的那種憂慮的感覺是不是美国没有吗至少就是在Tech圈之外我觉得这个辐射是远远没有中国这么大的当然这个也有人会调侃说就是只要我学的慢就不用再学了这可能OpenCloud也会是那个样子我还听说就是国内会有那种家里面这个儿女就工作比较忙没有时间然后家里的老人就拿着电脑去比如说去这些event去找人去帮忙装opencloud是确实挺有意思的其实我觉得这可能跟中国的这个技术基因也是有关系的就除了这种舆论这个模式的不同就中国一向是在就前端技术的应用上就应用层它动作是很快的对吧像叫EricSchmidt就是Google的前CEO他其实专门聊过这一点就是这个是一个很有意思的洞察就美国在应用层一般就慢很多而这其实我觉得在AI时代是一个很大的优势因为现在我们面临的情况是就是基础模型它的intelligence它的智能其实已经超过了一个敏捷点就是对于很多的有用的事情来说Itsgoodenough有很多的事情以前没有人做是因为它的摩擦太高了你要去做这些事情太麻烦了然后就导致它的经济效益它这个经济账是算不过来的但现在这个AI的能力其实已经使得他们可以极大的去降低这些摩擦所以很多事情就已经超过了从不值得做变成值得做的这个预值对吧那它就有了商业价值了但我们现在缺的是有这些人有足够的洞察有足够的执行力去发现这些价值去抓住这些价值我觉得这点上我觉得可能中国是有很大的优势的当然这个过程肯定会有一些浪费比如说有些人可能先花钱去装了OpenCloud发现没什么用然后又花钱找人卸载对吧但是对于社会整体来说我觉得仍然是一个很积极的发展对但最后我觉得可能对于agent作为一个agent的一个researcher就一个研究者来说就是从这个opencloudmoment到我们刚刚讲的对社会的深刻影响要真的发生我们还是有很多工作要做的我们要让这些agent变得真正的好用容易用因为你现在用opencloud它的门槛还是很高的大部分人可能是很难从这里面找到价值的我们需要让每个有独特想法和洞察的人都能把这个真的转换成可以产生价值的agent所以我觉得这个可能说的有点大但我确实尤其是看最近各种这些裁员的新闻的时候我觉得还是很有感触的因为现在这个技术进步太快了如果我们一不小心可能确实jobdisplacement就是这种失业的速度可能会远超这个新的工作机会产生的速度那社会可能是会出现比较大的问题的所以作为agent的研究员来说我觉得我们是需要去让这些agent变得真正的好用容易用然后每个人都能去把他的想法变成实践这样其实可以是一定程度上去推动这种技术的民主化而不是说就是让这个核心的技术因为它门槛比较高所以就只能被少数的巨头去垄断这个样子所以我觉得肯定是普通人的机会当然也是AIresearcher的责任你刚才说中国一直在应用端在技术平权上可能更能代表它的技术基因那你觉得在这种大模型的产品上它依然还是需要是一个模型公司来做产品吗依然是拥有模型的公司在产品端能够更有优势对吗因为今天我们看到这种做应用的公司最后也都被模型公司给吞掉了当然是收购啊嗯这是个好问题我觉得不尽然就如果说你要做的是一个这可能跟我个人的理念有一些关系就如果你要做的是一个非常通用的一个东西就你想成为这个整个digitalworld整个电子世界的唯一入口这种通用超级通用的agent那这个东西它是更适合模型公司来做的但是我不觉得那个是唯一的机会因为这个世界是非常复杂的这个世界不是一个世界它是由可能几百万个小世界组成的每一个小世界要做到真正的产生价值它需要的是specialization需要是这样去specializetobecomeexpert成为专家级的这种agent这是可能这种大模型公司是很难做的因为他们天然会去想做平台性的东西想做统一的东西而不想去做这种需要specialize的东西这跟他们的组织架构啊跟他们的这个商业模式啊都是会有一些相冲的地方就它不是一个选择的问题就是可能就是即使他们选择去做这个可能也做不好因为它很多东西经济上来说并不是他们有比较优势的东西包括非模型厂商包括普通人都还是有很大的机会的嗯对这可能也是跟我们这个公司叫Neocognition这边的这个哲学和目标是是比较相关的那说说你的创业吧你为什么现在选择你是unleave了是吧从高校然后开始了一家新的创业公司嗯对对公司叫做NeocognitionNeo就是NEO就是Neocortex这个是新就new的意思然后我们的定位是一个AgentResearchLab就是所有跟智能体跟Agent相关的问题如果我们觉得是有意思或者是可能跟最终解决Agent这个问题有关系的话就我们可能都会有兴趣去做所以这个是比较长期的scope但短期来说中层级来说可能是更多的是关注刚刚我们提到一个关键词叫做specialization或者specializedintelligence而不是generalintelligence就不是通用智能因为现在现在AI它就是到了一个阶段是我们的通用智能很强了尤其是在digitalworld里面你让他随便给他一个什么你就给这个cloudcode你给这个progressivecomputer最近也那个不错的或者OpenCloud你随便给他一个问题然后他可能都能去自己去琢磨琢磨然后可能大概有一个百分之六七十的概率也许他能跟你做对了Right就是如果他不是一个高度专业性的问题然后他有这个必要的信息的话那其实我们现在缺的是SpecializedIntelligence就是你要去当你这种通用智能变得廉价变成这个这个标配的时候那它的differentiation实际上是来自于specialization就像我之前提到说这个世界实际上是由几百万个小世界组成的你每一个职业每一个domain每一个profession到每一个公司甚至到每一个环境比如每一个软件每一个网站它其实都是自己的一个小世界而这些世界加起来的entropy是几乎无限的就你不可能有一个asingleagent就是一个单一的一个agent或一个单一的模型它能去capture到所有的这些entropy所以你势必会有一个是有一个适应一个adaptation和一个specialization的过程那怎么去更好的去model去抓住去学会这个specialization这个过程那是我们我们研究的重点嗯你倾向于认为有哪些小世界啊你们会重点去做哪些方向呢我们比较horizontal所以就不会说就是只会去focus在某几个vertical这个样子但自然来说的话我觉得会偏enterprise一些是因为enterprise里面会对于深度对于agent的能力的深度会有更高的要求所以现在不是大家会鼓吹一个词叫做sarspocalypse就是这种软件整个软件的这个末日论的这样一个说法说这些SaaS的我觉得是也不是吧就是软件的这个估值逻辑确实是在变化的就是它的这个margin是在被迅速的压缩的这是为什么他们股价下跌这么厉害但很多软件还是有很大的存在的价值就我不觉得是我们真的会去用agent去替代或者重写所有的软件那个事情是不太会发生的当然它不代表就是软件作为这个business它还有那么大的一个model所以那个是现在主要的一个变化另一方面我觉得一方面当然是有这些AInative的公司在试着去取代这些SaaS公司软件公司但另一方面这些软件公司其实也是在非常积极的去自救就是他要去去agent化要去把它其实是本质上是想把它从因为软件它本质上是一个tool是一个工具而现在大家想要的是结果是labor是这个像AIemployee所以现在这些软件公司就是在试着转型从一个tool转成一个labormarket就是他在他的平台上以他的软件为平台可以去直接交付结果就是谁赢谁输就是AInative包括这些frontiermodelcompany会赢还是这些salescompany会赢或者是最后达成一个equilibrium这个还不好说但因为这个事情实际上也就是今年才开始发生你们最近是不是刚完成了一笔融资这个融资规模是多大呀美国市场现在好融钱吗这个是个好问题但我可以先聊聊就是我们自己我们是融了我们的SeedRun就种子轮融了四千万美金吧应该算是比较大的一个种子轮然后我觉得美国市场现在就今年初可能跟去年底又很不一样就有个人的这些limitedview就觉得融资好像呈现一个非常严重的两极分化或者马太效应就是你这个头部的这些不管融资的规模还是估值越来越大但这个onaverage这些公司是融资越来越难而头部这些越来越大这也体现在多个方面一个是这些你也看到最近很多这些Neolabs大家可能一上来就融几千万到几亿美金还有十亿美金的对十亿美金到这个Growthstage就包括OpenAI这个Antarctic他们的融资额加起来可能就占了这整个市场的融资额的Idontknow可能30%到50%包括这些VCfirms其实很多也是在两极分化他就是大家都说就是这些中间的这些VCfirms实际上是现在是会是比较struggle那你要么就变成一个megafront像A16z这样或者lightspeed然后他们有很多会去是投他growthstage要么你就变成一个boutiquefirm就高度这种vertical的一些你通过关系通过你的deepknowledge可以有一个edge的地方还挺有意思的吧好融吗过程中你们弄了几个月我记得去年七八月份才创立的公司然后到今年三月份就将近六个月应该还说还算顺利相较于大部分人来说可能我们还算比较幸运的但因为我们在这个尤其是agent方面就是做过比较多的工作反正大家还相对来说比较认可投资人现在看的是哪些看你过往的工作过往的工作是一方面当然这个过往的工作也分不同的类型比如说你如果是这个在frontierlab然后有比较长时间的核心的贡献它的这个固质逻辑又很不一样然后也看你的这个thesis到底是什么因为现在这个space太chaotic了太混乱了你要所有的故事就是阳光之下没有新鲜事你可能所有的故事大家都听过很多遍了你到底能怎么样去找到这个differentiation然后能同时这个differentiation既能让人觉得是credible而且是feasible就是你这个事情是有可能做成的然后你这个团队是这个oneofthebesttodothat同时这个做成之后还是有很大的商业价值的再然后这个OpenAI和Antarctic它轻易不能去copy的所以你会需要有很多的这些因素我相信很多投资人都问过你这个问题就是你做的事情为什么大厂不能做为什么一定要做一个创业公司去做呢也就是你说的为什么OpenAI不能copy我觉得它根本原因是在于你要做的事情有多难就以前我们因为我们组做很多的这些benchmark就是我做benchmark的时候包括比如说去那个上次那个GPT5.4release的时候可能他们用了20来个benchmark有三个可能都是我们组的学生做的就是我做benchmark的时候我就喜欢强调一点叫做constructvalidity或者叫做ecologicalvalidity就你的benchmark它evaluate的事情应该跟你最后你想要这个AIsystem达到的效果就是产生实际价值的那个事情应该要高度正相关的那如果你能保证这一点的话那你这个benchmark就会有很大的价值以及有有很长时间的这个生命周期那我觉得做公司也是一样的就是你要选择一个赛道如果这个被解决不管是被你解决还是被其他被OpenAIAnthropic解决它都会给整个人类社会带来一个根本性的变化它上限非常高如果是这样的一个赛道的话它势必就不会只有一两家玩家因为它几乎是一个无限上限的这样一个空间它就可以容纳更多的玩家像我们现在想做的事情比如说这种叫做specializedintelligence或者是这种expertagent就我们希望能把这些通用的agent能去有一套这种学习的方法可以让他去快速的specialize成为各个领域的专家那这个事情首先一非常非常难至少现在没有任何人能大报票说这个我知道该怎么解决二就是如果能真的做到的话它的这个对社会的影响它的经济价值会非常非常高所以在这些前提下那这个竞争的话它就不是那么值得担心的事情了因为它价值这么高就潜力这么大但是这个uncertainty又那么高就其实就势必会导致它会有不同的技术路线去实现这个事情而没有人能打保票说哪一个技术路线是对的也有点像这个Robotics对吧因为Robotics现在现状就之所以大家能有那么多的startup融那么多的钱那么高的估值很多甚至都完全没有任何的交付的这个情况下就因为一这个space它的想象空间非常非常大二它的uncertainty非常高没有人能打包票说不管他是做VLA也好做这个worldmodel也好做这个其他就是以硬件为主导的一些基础路线也好没有人能打包票说我这个就是对的所以就在这两个因素的这个驱动下就是大家就会去playsomecrazybets我觉得现在这个我们我们这边这个agent这边的话也是一个类似的一个情况吧你们现在选择什么样的技术路线当然现在还没法说特别多的细节但可以在一个比较highlevel聊一聊就我们刚刚其实聊到了这个一个词很多次就叫做worldmodelworldmodel它是一个非常非常重要但又非常非常广的一个概念当然现在大家提到worldmodel相信你在很多的访谈里面也聊到过这个话题但大家就肯定会倾向于是说你就是一个visionbasedmodel尤其是关于一个physicalworld的一个model然后它可以主要去做这种nextframeprediction做videoprediction或者是去做一些3Dreconstruction三维的重建或者是在这个过程中学到可能一些latentvariables像JEPA一样的model然后用这个来不是去做reconstruction而是去做planning做一些其他的prediction但它整体上来说大家都是比较visionfocused因为主要是来推这些的人也是主要以computervision的人为主嘛当然这个是很重要的工作也是现在obviously就是LIM欠缺的能力这方面的这些bet是非常值得的但另外一方面来说就worldmodel它不仅仅是限于那个样子的worldmodel我觉得是一定程度上是整个humanintelligence最重要的概念我对worldmodel的这个定义可能比大部分人都要来得要广你想象就是举个简单的例子比如说我们大学刚毕业的时候去了一个公司实习第一天开始工作完全不知道这个工作的内容是什么样的这个公司是什么样的但我可以很快的在这个learningonthejob就是在这个工作的过程中去持续的学习我学习了很多很多的内容我学习了公司的组织架构是怎么样的它表面上的这个orgchart是怎么样的包括它实际的orgchart是怎么样的到底谁说了话管事到底我做什么事情要去找谁来批准包括我这个工作需要的各种软件它是怎么用的在这个软件上做这个事情会有什么样的结果包括我要去做的各种工作流workflows包括我这个跟人与人之间的整个这个mentalmodel叫所谓theoryofmind所有的这些其实都是我的model的一部分就是你这个工作你这个公司它形成了这样的一个小世界一个microworld而我们持续学习的过程是从一个intern变成一个专家的过程就是去构建amodelofthismicroworld的过程对吧但这个model它显然不是一个videomodel但vision当然是里面很重要的一部分但显然也有更多的部分它是天然就是符号化的symbolic的甚至有一些就是非符号化也非vision的部分但他最后归根结底就是我们持续学习学到东西是这样的一个specializedworldmodel而这也是现在agent他的学习最欠缺的部分这是为什么你现在用很多的agent虽然他好像乍一用觉得非常的强大让他做一个什么事他都能做的似是而非可能60%7的概率能做对可能但30%4那个就不知道因为什么原因就失败了但是人不是这样的如果我们是真的成为了某一个事情的专家的话那我们就基本上是10%能做对这个是因为我们有这样的一个specialization的过程我们学会了对于这个工作对于这个领域的所有的这些insandouts然后在我们成为专家这个过程里面我们会变得更加的reliable做事情的成功率更高而且这个稳定性更高同时我们也会变得更加的快也会变得更加的costeffective这个恰恰是现在agent面临最大的这些挑战在它又不reliable也不efficient还特别的贵就是要消耗frontiermodel特别多tokens所以这是为什么我觉得这样的一个learningtospecializebylearningtheworldmodel是现在可能最大的机会之一我可以粗糙的理解比如说你会作为一个公司的HR作为一个公司的财务作为一个公司的法务就是做这种在公司角色中承担不一样的角色的人吗嗯可以当然这个产生这些specializedagent就是这些specializedagent本身或者叫做expertagent好了它本身不是我们的目标我们的目标是要去研究出来这一套学习的方法continuedlearning的方法使得我们可以给定任何的domain给定任何的职业给定任何的环境他可以去学出来这样的一个expertagent就现在的agent的训练方式不足以训练出来这种expertagent不足以现在agent主要有两个训练方式嘛一个是模型厂做的那个是以RL为主吧就RLposttraining包括可能会去做很多的这些sensitiveenvironmentRLgyms但你讲就RL它能做到的这种持续学习的效果和人的这种持续学习显然是天壤之别它不管是学习的速度上也好它的准确性也好它的这个学习的内容和这个范畴也好都是很不一样的然后另外一种学习的方式可能就像这个OpenCloud里面一样或者CloudCode里面就是这种Skills这些一样更学术化一点可能叫做NonParametricLearning想去一些做一些非参数化的一些学习现在主要就是以一些MDfiles为主就你这些什么SOL到MDSKILL到MD然后现在在逐渐的演变到就是到这个hardnesslevel最近会有一些工作什么metahardnessautohardness就是想用这种非符号化的学习方法去重写这些或者去提高这些hardness我一直对nonparametric是很有热情的我相信就nonparametriclearning它还有很大的空间但就是它光靠nonparametric它的这个上限也会是比较有限的我觉得照现在的这两个范式都还没有很好的去解决这个问题吧最近也有另外一个词很热就是continuelearning或者叫onlinelearning这个会是你定义的新的学习方式吗我觉得可能这个事情是这样子的continuelearning它是一个含义特别广的词不同人会有很不一样的用法但其实比如说最早的时候我们都说continuallearning的时候是一个很受限的一个用法就是说我一个模型我知道我已经学会了一些task然后现在想让他去学一些新的task新的任务我怎么能在学会新的任务的前提下不要去忘掉已有的任务那也是最经典的这个模型的里面continuallearning的setting但现在这个用法就五花八门了你的personalization是一种continuallearning你这个recursiveselfimprovement就是你怎么去用这一代的模型去更好的去develop下一代的模型包括这个opencloud那样子的也是一种continuouslearning包括RL这个posttraining也是一种continuouslearning现在用法就非常多样化了但我觉得可能对于我个人而言我更关心的是你说continuouslearning或者持续学习你到底学了什么你学习的目标是什么那对我来说现在这个研究里面的这个最大的gap就是我认为这个学习的目标应该是一个worldmodel就是你的持续学习的目的是为了去更好的学会一个广义的worldmodel所以这是可能就是把这两个很火热的词联系到一起的方式叫worldmodel和continuedlearning我觉得它们本质上是一件事情这些概念和人类智能有什么关系吗和人类智能对有非常深的关系那刚刚我们举了一个Humanintern怎么变成Expert这个过程那我们可以讲得更深入一点就是从这种神经层面从这种Neurobiological的层面这个事情到底是怎么发生的这也是其实我们公司这个名字的来源它里面最重要的就是学习对于人类来说最重要的部分是叫做Neocortex就是这种心脾层这大概占据了我们大脑的70%但Neocortex这个东西很有意思它是从进化上来说它是非常晚出现的它就是在哺乳动物里面才出现可能大概两亿多年前而且早期哺乳动物的Neocortex是非常非常小的然后可能一直到比如说大猩猩之类的容量才开始急剧的增大然后到人的时候这个就是比较登峰造极了就是这个Neocortex占这个整个大脑的比例那它这个进化时间这么短就意味着它其实就是Neocortex它到底是在做什麼? 它到底起一個什麼作用? 這個事情實際上是對於研究人腦來說可能最重要的課題但直到現在我們也沒有完全去解決這個事情但我們可以有一些有意思的hypothesis或一些theory和一些事實有一個事實是因為它進化的它是這樣的一個這麼新的一個進化就導致它其實沒有那麼長的時間去做太複雜的或者太高度特異化的事情它不像我们大脑的其他部分就是如果看其他部分什么脑干啊这些海马蹄啊这些小脑啊这些东西它都是进化的很长很长时间就远在哺乳动物之前就它们都是高度特异化的但Neocortex不是Neocortex它进化的时间短但是呢它同时要做的事情又特别多就我们所有的跟智能有关的东西我们都会去导到Neocortex对啊,从视觉、语言、听觉、逻辑推理所有这些事情,planning它就天然的会导致可能从进化来说最有效的方法就是你去找到一个generalenoughlearningmachinery然后一个结构可以去承载这样的learningmachinery然后再把它重复很多遍那这样的可能你就在演化上就不需要花太多的时间然后你在这个DNA的这个encoding上你也不需要花太多的这个space因为你DNA也没有那么大的space那从Neocortex的这个解剖结构来说它其实也确实是这样子的就你会发现虽然功能上这个Neocortex有很多的分区比如视觉区听觉区这个感知区这样子但它们从解剖结构来说都是高度相似的它都会有一个叫单元结构叫做corticalcolumn这种皮质柱你大概你這個人腦就是有一個這樣的一個皮質柱它大概分這麼幾層的這種細胞的結構這些細胞大概都是這樣的一個連接的結構然後再把這個皮質柱重複大概15萬次這個人腦大概有1萬個這樣5的皮質柱組成那好像在這個方面就解釋得通了那剩下的问题就是这个单个的皮质柱到底在做什么为什么它这样的一个相同的结构它可以去特意化成这个不同的功能它的这个结构上是怎么样的和它的这个learningmachinery是怎么样的它这个方面当然有很多theory但我觉得对于我个人来说最有意思也是最convincingtheory实际上是说这个一个quanticalcolumn它就是在学他的整个的这个结构的设计就是为学习我的model做准备的但是广义上的我的model这个方面就有一本比较新的书是JeffHawkins写的叫做AThousandBrainsofIntelligence中文可能翻译叫做千脑智能它還是一個比較新的一個theory但我覺得是在這個方面可能算是走到最遠的之一它就說這個每一個皮之柱它就是在學這個worldmodel然後你這個worldmodel它不限於這種physicalworld就包括你的所有這些語言所有這些數學系統包括這些我們人造出來各種抽象的概念什麼是民主什麼是法治這些東西它都是這個worldmodel的一部分然后每一个皮质柱里面可能有几百个这些小小的worldmodel然后这个15万个皮质柱里面它就可能每一个concept它都是在不同的皮质柱里面有多个worldmodel然后最后这些worldmodel就主导的这整个perceptionreasoning这个decisionmaking的过程当然这边我们可能没法讲得太深但这样的worldmodel这个概念对于我们人的这种持续学习中间是有非常非常深甚至可能就是同样一件事情非常深的一个联系即使我们不败就是这个JeffHawkins这个理论但是人的这个持续学习学习出来这个所谓的cognitivemaps或者conceptualframework这个事情实际上是verywellestablished但是这个是现在我们做agent或者做AI的持续学习我们还远远没有解决的事情这是为什么我们叫做Neocortex其实就我们叫NeocognitionNeo就是从Neocortex来的我前段时间跟谢赛宁也聊了一期就是worldmodel他的整体的观点都比较仿LLL嘛当然他也觉得语言需要但是他整体的观点是他觉得需要有更多的表征那你觉得worldmodel需不需要language你怎么看worldmodel和语言的关系啊ok这个是一个可以聊得非常学术的一个话题可以看看这个从什么角度切入会比较好几个角度吧第一是我觉得包括这个ChrisManning他最近其实做了一个podcast他也在聊这个问题就是我跟他在这个方面是观点是很相近的就languagevision非常重要这个在Neocortex里面这个视觉区域是最大的而且是远远大过其他地方但最后尤其是在人类社会里面你要产生价值它最大的来源还是language之前我們其實聊到過就是language它在人的這個evolution的過程裡面它起了很大的一個作用對吧就是ChrisManning有一個說法是說這個人和星星就我們的這個智能和這個civilization有這麼天翻地覆的不同但並不是因為我們比星星的這個視力或者是這個visualperception更加的敏銳對吧其实我们的视力大概率是不如大猩猩的甚至不如世界上的很多很多的动物我们的视力不是最好的听力不是最好的感知不是最好的运动能力不是最好的但我们的语言是独一无二的而这也是导致我们这些文明和这些intelligence这么不同的根本原因再讲得更深一点的话有一本书另外一本书很有意思是这个TerenceDeacon写的但这本书可能比较老了可能是190年代的它叫做TheSymbolicSpecies論證的是為什麼符號就symbols對於人這麼重要或者是對於整個homogeneous這麼重要他那本書主要想講的是從這個homogeneous的這個祖先transform到這個homogeneous這個過程是怎麼發生的他認為這個過程實際上是一個symbol就符號和人大腦coevolution的過程是我们开始先有了这种符号的这种abstractrepresentation这一反过来又去产生了进化的压力去让我们的大脑去随之产生这个相应的变化使得它能去更好的去服务去产生这种符号化的表达而这个事情它很可怕因为它是一个相当于自己开了一局新的游戏这种感觉你知道吧就是大家其他人还在那儿这个慢悠悠的进化呢就其他的物种然后突然这个Homogenus这边它开启了一个叫做symbolic的一个新赛道这个新赛道它是自循环的它产生了一个新的一个进化压力这个进化压力是更偏这种cultural的他是说OK就现在我们这个部族已经有了积攒下来的这些符号化的一些东西比如说我可以用语言用verballanguage就我一个原始人我跑到了一个很远的地方然后再发现这个地方有一些很重要的信息比如说这个地方有危险有这个大老虎然后可以回去然后告诉其他所有人不要去那个地方或者是这个地方有很好吃的食物那你们应该要记住这个地方要经常去那个地方那这个是语言就是导致它可以去跨越这种时空的界限去传递信息并且这个时空即是当下的时空就是这个空间然后包括当下的时间也是代际间的时间就你可以口口相传把这些信息都给传下去这就产生了一个很大的一个并且非常快速的一个进化压力就是如果你不能你的下一代不能去很好的去适应这个语言的环境的话你就没有那么大的生存优势你就会被淘汰那这个真的是在进化上新开了一个赛道然后导致了我们现在以路到Homosapiens的进化的快速通道所以语言它远远不是或者是以语言为代表的整个符号化的表达它远远不是说只是我作为一种communication的工具那么简单里面可能我们还能继续讲开讲讲就也有些其实在现代来说就是最近的研究上也有一些很有意思的东西比如说有一个很有名的研究是MIT的这个是叫他的lastname我有点不太记得了但他firstname是F就是他是一个这种神经学cognitivescience这边一个很有名的老师然后他做了一系列的工作就是在论证一个事情叫做thedissociationoflanguageandthought就是說你通過你可以做一些FMRI之類的一些掃描然後發現在人腦裡面就是你自然的會覺得就是語言和這個思維它是高度相關的嘛就是語言是思維的載體但他可能通過一些研究發現好像可能並不是這樣子的就是因為你像語言的話其實在人腦裡面有兩個主要的區域一个叫做VernickArea维尼克区另外一个叫做BrocasArea叫做布洛卡区就一个负责languagecomprehension一个负责languageproduction就是一个输入一个输出然后他会发现说其实即使在我们就要让一些人去做一些很复杂的这些需要reasoning的一些thoughtprocess的这些task的时候这些语言区域也并不会被点亮就并不会有很强的反应就是他這樣去論證說可能這個language他可能沒有那麼重要這個可能也是大家會用的一個argument就是language他跟這個thought他都是可以分開的但是另外一方面來說可能就是你對於這種individualthought就我自己在想一些事情它这个language可能没有那么重要因为我其实已经就我整个学习的过程人的学习的过程实际上就是把这些东西去internalize的过程去内化的过程就把它一开始需要language作为脚手架的这些知识这些内容给它内化到一些这个神经跟神经之间的直接连接就不需要通过language这是人的这个学习的一个很重要的一个过程这也是更远一点讲这实际上就是我们睡觉的时候就会做梦然后包括这个海马体在这个过程这种shorttermmemory到longtermmemory之间的转换这个过程起的关键作用里面都是很相关的所以itsokay就是这个language和thought确实是可以分开的但它不代表说在你形成就你达到这个内化的这个过程中language没有起至关重要的作用就是你在你这个人的这个学习过程中即使是做一个个体的学习过程中这个language它实际上是起了很重要的脚手架的这个作用的之后你才内化形成了这些representation另外一个方面就是如果我们跳开这个个体的层面我们考虑整个humancivilization任何你能想到的尖端的甚至非尖端的这些工业这些industry这些domain每一个都是符号化的符号化的languagediagramprogramminglanguage这些东西是现代文明存在的根基就是你任何你要去在这个现代文明里面去产生价值的东西都很难离开符号化的表达所以我之前在推特上说过一句话然后这个ChrisManning也是高度赞同的就是说这个你可能这种individualthoughtdoesntneedalanguage但是civilizationneedsalanguage所以这种可能就我们把视角放得更远一点不管是放到civilization的层面还是放到这个进化演化的层面所以这个language和这个symbolizationingeneral都是至关重要的所以你还是坚定认为语言对于不管是大语言模型还是worldmodel来说都很重要对这也是为什么我们部分原因就是为什么我们要叫做languageagent就即使之后有一天可能底层的这个模型它不是一个LLM可能是一个somekindofworldmodelinthefuture但是这样的一个以language为根本的去理解世界去做推理去跟世界交互的这个能力是我觉得是不可能消失的你们定义现在的agent叫languageagent是不是说明未来的agent它就叫agentlanguageagent可能也是一个过渡的阶段有可能但它的过渡不代表它会消失而是说它会演化到一个阶段就是大家已经习以为常这个大家已经接受就是language它就是一个就是agent应该有的一种能力一种根本的能力所以这个词就变得redundant所以我就叫它agent就好了最近有很多关于未来人际交互以及agent和computeruseagent和computer的交互方式讨论你怎么看对这个肯定是我想的比较多的一个问题因为像之前聊这个languageagent的history的时候我们也聊过就我们很多的工作其实都是在去研究这agent他到底应该怎么样去跟DigitalWorld的交互他是应该用textbased还是应该用这种visionbased这样偏GUI的还是其他的方式然后最近其实有很多的讨论就是说这个未来是GUI还是所谓的CLI就是这种命令行接口一方面我是觉得这个其实这些都只是ameanstoanend就是最后我们想要的就是一个universaldigitalagent但是我们也还是可以聊一聊就是对于这个specific问题之后会怎么发展那它可能有几个方面吧第一方面是故意会不会消失那我觉得这个答案是一个很明显的no故意不会消失因为人还需要故意因为我们整个设计整个这个进化出来它就是一个visualanimal就我们的这个我们的大脑就是它是这样的编码的itswiredthatway包括你就会看到有很多的这种HCI就是人机交互这些study就会去说出来如果你是去这么去visualize这个同样的这个事情这个人的这个大脑的这个反应速度理解速度就会快零点几秒大概是这样子所以故意他这个东西是不会消失的而且他也有很多其他就是包括做validation去wintrust去做auditing各方面的这些实际的好处另外一个方面可能就是那agent到底要不要故意那可能yes,故意willstay但是agent并不需要故意我们可能就用命令行用API就好了这里面其实可能就有几个可能延伸出去的方向第一个是从实际的角度如果是beingpragmatic那这个GUI显然是短期不会消失的短期甚至是长期是会一直需要用GUI的因为就是这种图形化接口作为这个整个digitalworld的这个叫所谓的defactointerface就是它是事实上的这个interface所以就是所有绝大部分9%的这个digitalworld里面的东西都是有已经有GUI可以通过GUI去交互的而且这个GUI它并不是只是交互它在这个整个设计的过程中它已经去encode了很多的这些相关的knowledge,constraints,businesslogic然后如果你的agent能够去很好的使用GUI的话它就可以去所谓的piggybackonalloftheseaccumulatedknowledge而不是说你再去再重新做一套CLI做一套API来去把这个重新造一遍这些轮子所以如果能做得好估计的话那才是可以immediatelyreachallcornersofhumansociety尤其是在这些比较偏longtail的这些场景因为你对于那些软件公司啊什么他们可能有这些技术能力去把他们这些东西都重写一遍变成CLI之类的但对这个longtail来说是不太可能的而且其实对于agent来说其实因为text它本身是一维的对吧它是一种一维的表示但就会有很多东西它一维的表示它就不是optimal的它不是最高效的那visual它是二维甚至更高维的所以你很多东西实际上就是用这个visual会表示尤其更复杂的东西或者更复杂的一些关系用visual表示是更加高效的这是另外一个方面然后最后我觉得可能是要算一笔就是这种经济账和这个人性的账我觉得这个也是很有意思的一个地方我不知道还有多少人记得一个可以叫做一个社会实验吧叫做SemanticWeb那个是TimBernersLee就是互联网之父他在做了这个互联网之后很快开启的一个一项新的实验就是要把整个互联网用不语这个明确的语义Semantics用的方式是一种基于逻辑的一个表达他当时做了一整套的一些表达层面的东西和推理层面的东西包括一整套新的基于一节逻辑的一个叫做descriptionlogic这种一节谓词这种描述逻辑的一套推理的方法OK一切都很美好但推了二十几年最后整个的这个adoption还是非常的低因为这是跟人性和跟这个社会怎么运转是有关系的这个社会不是那么work的不是说我出来说我就有一套新的标准它有这些好处整个世界都会去听你的然后去把他们的东西重写一遍除非是你有这个非常强的各个层面的这种motivation这些incentives但这个是很难在全世界层面存在的那你这样故意的adoption它实际上是有这样的incentive因为它是适合人的对吧因为人需要故意所以大家都采用了故意但你现在比如说我就先出来一个标准叫MCP或者我出来一个标准就是让大家都重新去写CLI然后你指望所有的行业都在未来几年去adopt这个事情这是几乎不可能的这个是人类社会它不是那么work的而且这也涉及到另外的一些像比如说现在还有那么多的这些大型银行各种关键的基础设施还是基于几十年前的globalsystem它这个事情不会变化得那么快的另外一点是其实它你可以算一笔经济账很多东西即使说你能论证说你是一个东西比如CLI它对于agent来说它是全局最优的就如果你是所有东西都能CLI化它就是会更好即使是这样它也不代表它是对于所有的局部都是最优的你在很多的地方就是它的局部最优解就是它已有的这个solutionitsgoodenough他不需要去换成CLI所以我觉得他大概我的想法是这几个方面吧所以我不觉得说就是不管是从这个故意会不会消失也好从agent要不要故意也好以及这个经济人类社会怎么运转这个人性是怎么样的也好我不觉得说这个这个CLI会全面的取代故意你觉得agent到今天为止它发展到什么阶段它的关键瓶颈是什么呀你觉得206年agent大家会核心解决的问题是什么呀是selflearning是memory还是什么其实如果就我们总结我们现在讨论的这些内容的话你会发现这些东西它都是同一个东西就是我们讨论的memory我们讨论的selflearningcontinuedlearning我们讨论的worldmodel我们讨论的specializationspecializedintelligencehowtobecomeexpertagent但如果是基于我们刚才的讨论的话其实所有这些东西都是同一件事情对吧你这个selflearning和continuelearning它是一回事然后这个worldmodel是他要学习的内容specializationandbecomingexpertagent是他要达到的结果然后他最后达成了这样的结果之后他会带来很多的好处是现在的agent那个最缺乏的东西比如说reliability就这种可靠性比如说这个speed这个速度比如说他这个costeffectiveness就是他这个成本还有其他的一些好处对所以我觉得可能这个是一个比较好的一个一个summary最后条条大路通罗马你对206年的agent发展还会有什么预期吗年初OpenCloud已经这么火了我觉得从技术上或者从这个frontier来说大家会就是这个continuouslearning对就continuouslearning,selflearning它会是这个主旋律吧然后至于continuouslearning的方式是不是像我说的这种基于wordmodel的continuouslearning那这可能是oneofthebets但可能会看到有很多不一样的bets这也是这个有意思的地方然后跟这个其实息息相关的就是整个agent的这一套技术能有多快的方式去辐射到社会的更多角落刚刚提到那些问题这种reliabilityspeedcost包括就是整体上导致他金融门槛很高包括为什么现在职业公司就包括OpenAIAnthropic都要采用这个所谓的PatentTier模式去招那么多的ForewardDeployedEngineers去驻扎到这个客户那边去帮他们BuildAgents其实都是之前提到这些问题的一个结果你觉得现在这些大厂不管是美国的大厂还是中国的大厂他们BAT的东西在Agents上有什么不一样吗他们都在BAT什么觉得曾经不太一样但现在都在高度的去统一了一方面是就Anthropic现在是一家独当然后又给大家打了个样嘛所以现在这个大家都在至少在很多方面可能是在炒作业这是今年跟去年的一个很大的不一样对吧去年还是在bet不一样的东西去年或者去年年底之前这一点是远远没有那么明朗的但我觉得还是会有一些新的bet出来像叫AnthropicOpenAIAnthropic当然现在是所有东西都要做主要是跟Productivity相关的他们都会做然后OpenAI现在也是在往这边收束Google的话其实有点看不清楚Google其实一方面好像他们模型能力挺强的然后他们又有最好的这种已有的这个生态位这个Ecosystem另一方面他们好像这个总体上的这个Adoption至少这个从绅士上来说好像又总觉得缺了一些东西所以可能里面有一些更深层次的东西我没有看清楚缺应用吧然后也有一些有意思的你像比如XAI之前老马一直在其实它是有一个computeruseragent当然现在其实computeruseragent这个范畴已经变了它已经远远不是就是只是故意的就是其实现在做CLI做这个touse这些其实都可以大家都渐渐都把它划归到computeruser的范畴了所以就computeruseragent现在慢慢变成一个就是generaldigitalagent但是老马之前实际上是在对guiagent是一个事情可能现在也是就是非常有热情的这是oneofhisbiggestbets所以他不是专门成立了一个org叫做macrohard就是这个Microsoft的翻译词其实就是要去做computeruseragent然后去取代所有的这些software去做所有的knowledgework当然应该是投入了很大的当然最近因为XAI内部的动荡反正这边应该也挺受影响的但它技术路线上来说我觉得它可能倾向于会用类似于特斯拉的路线因为特斯拉FSD它其实有一个provenpath就是一个比较偏小的模型视觉这种video为主去直接做endtoendmodeling至少是adifferentbet不知道它能不能成功goodluck但至少是一个比较有意思的bet然后也有一些其他有意思的bet比如说我知道那个JeffBezos最近在大陆也开了一个新的公司他还是又重新返回这个operator的位置他做coceo叫做ProjectPrometheus叫普罗米修斯其实他们更加低调一点但他们应该是可能融了6到7billion美金就六七十亿美金这样子然后他们可能要做的是其实也有也有很大的computeruseagent的部分当然他最后可能想做成的事情是这个是偏manufacturing这种物流啊这种基建啊这个这种工厂啊这个ingeneral因为那个是Bezos比较擅长的部分然后像国内其实也有很多这个很好的工作像这个Biden那边这个UiTors系列然后包括到后来到多宝手机是好像是叫这个名字然后情侣家那边就是做的挺多事情的包括质谱那边质谱其实做agent的是有些这种computeruseragent是开设的挺早的这种autoglm系列就我们之间可能还算是有一些渊源因为我跟唐杰唐老师也认识很多年了之前经常会去清华做报告什么的然后当时还是23年可能夏天的时候我们当时刚做完MindWeb然后就去清华讲了一下然后大家都很感兴趣然后就开始了一些agent上面的合作然后当时还一起做了一个work叫做agentbench算是agent最早的benchmark之一然后后来他们可能agent这一块也做得越来越多了但现在opencloud之后应该大家应该都有自己的cloudstrategy了吧现在的agent我觉得他的做任务的时候可靠性还是就不稳定吗特别是一些长程任务你觉得怎么能够提高他的稳定性可靠性甚至说安全对again就是我觉得这些其实都是一个modeling问题或者是一个这个能力上的问题就是因为他对这些事情不熟因为他没有学过但即使做过他也没有一个有效的方式把它给像人一样去学会成为一个partofmyexpertise所以他才会导致这些不稳定导致这些甚至是某一些安全问题因为你想一个对于人来说也是intern就更容易去犯这些安全方面的错误但你一个老师傅就不会对吧就因为我已经学会了我已经知道了做这些事情容易有安全风险做哪些事情是安全的当然security稍微有点不一样security是更加这种worstcasescenario就是它需要更专门的方法但很多safety的问题实际上是对于agent来说是归根结底是一个能力问题为什么现在越来越多的researcher都选择自己创业来继续做自己的research而不选择在学校也不选择在像openai这样的组织好问题当然这是我个人观点啊我不代表其他的这个老师从我个人来说我当时非常喜欢学校你看这个之前就是为什么我会在学校当那么多年老师那之前我是在微软有全职工作的当时的收入可能就比学校的工资要高三四倍了更别说现在的这个gap了但我还是很果断的就是去学校了因为对于我来说就没有什么需要犹豫的我是一个可能兴趣很多的人就是会有各种各样的奇怪的想法可能同时间有10个东西我想做然后我在微软或者在OpenAI其他地方那可能我也能做但我只能做一个事情或者两个事情但我想要同时做10个事情那这个学校就是这个最好的去做这些weirdideas这个相较于就是钱来说收入上来说我觉得是对我要重要的多的事情所以其实就没有什么好犹豫的其实从学校到自己创业我觉得还本质上是相同的原因就是你知道我们这一代可能有点算是算最早做agent的这拨人然后就经历了这个完整的周期是早期的时候它更像是一个proofofconcept的阶段就是早期验证的阶段那很多时候它就是你去你有一个idea你去通过精巧的低成本的方式把这个idea给证明出来了然后去授给大家然后就去产生了你的这个对整个领域的发展就是起到了比较不错的作用但到从25年我觉得开始的话我们已经步过了那个阶段了那大部分真的有意思的,尤其是agent相关的idea,它需要的资源就这资源包括这个钱上的资源,就是你要去你的GPU的资源啊你要去用大量的这些API的这个资源到你这种人上的资源就是你要有这个足够强的团队能去快速的去试错去执行它跟学校的这个基因是不太匹配的我觉得是很重要的原因吧就是为什么在这个时间点其实就有很多的老师就出来自己创业或者是去做一些别的事情你现在创业半年你自己感觉怎么样感觉还不错当然是跟学校的这个节奏和这个做事情的内容和方式是确实是根本性的不同但我这个人可能属于比较喜欢学新东西的可能这个稍微扯得有点远我最喜欢的事情是去之前我们聊过这种我的model或者conceptualframework我喜欢做的事情是去不断的去buildout我的conceptualframework可能这也是我个人的一个长处就我其实并不是说那种想事情非常快的人或者记性特别好的人但我是属于那种就是能去学很多很多的东西然后把这些东西给串起来看到他们之间的联系为什么你说学术界和创业有根本性的不同?
可能因为我们Neocognition它还是一个researchlab性质所以就相对来说还好一点但如果你是一个正常的startup的话那你的这个整个incentivestructure就是会完全不一样你要去快速地做市场的验证你要去怎么去请客户去请投资者去这个找到产品市场合适并且快速地去调整所以它本质上是一个不管它是要去一个做深做尖产生一个外置的一个过程然后你要去对付的这些人群的这个角色也是非常不一样那你在学术界的话这些constraints会少非常多吧尤其是如果你没有太大的funding上的压力就是你有足够的funding做你想做的research的话那这个你的daytoday是会非常不一样的当然我觉得还是有很多互通的地方这可能是这个有时候也许一些这种教授就是出来做startup还是会有很多这个可以迁移的一些一些技能一些skills我们经常会开玩笑说你这个assistantprofessor这个你从第一天就是manager嘛你要管你这整个lab的这个拉钱拉人这个人的成长这个工作的产出各种一系列的事情这些在某种程度上确实是跟startup去管一个startup是类似的你刚才说你属于关联性比较强的人这跟你自己的成长环境和成长经历有关系吗我觉得有但这个是可以有意思的聊一聊就我从小我是一个那种典型的就是学习好的孩子其实是相当非典型的就是属于那种会凌晨三点钟从家里偷偷溜出来去网吧玩游戏的那种人甚至网吧那个时候一般还没有开门然后会去敲网吧的后门然后这个老板睡觉的地方然后他给我开门然后让我去玩然后玩到七点再去上学的那种然后就从小就是这些玩的方面可能哪样都没耽误吧但可能有一件事情是我觉得对我印象比较大就坚持的很好的就是读书从小就非常喜欢读书读这个任何就我们家里有的书只要它是纸质的东西我就会拿起来读不管是这个历史也好甚至政治的东西也好或者故事会也好言情小说也好都喜欢读然后在读书这个过程中就会读书它本身就是一个构造世界的过程对吧就你通过文字去在脑海中构造出的那么一个一个的世界并且去构造出来这个各个世界之间的关联就那个事情是对我影响很大的当然为什么我喜欢读书这个我已经想不起来了但读书这个事情对我的学习和人格的养成我觉得是非常重要的然后这个可能也是因为这种比较奇特的成长经历吧就确实玩上面没耽误但可能学习最后也没耽误反正就从小学一路到高考啊大学啊就成绩都还挺好的我当时是高考的时候是就我可能是属于这种性格平时有点这个不是特别的一门心思的扑在学习上到需要的时候就真上的那种就是一旦遇到有一個比較明確的一個考驗在那那可能就會在我認為需要的這個時間點上開始就全力的去準備所以最後可能不管是這個中考啊還是到這個比如說當時湖南省這個自主招生那個好像是清華自主招生第一屆還是第二屆當然是應該是虽然我是一个很小的县城出身的这个教育资源其实说不上多好但当时应该是自助招生然后可能我们全校最后一共也就分了两个名额然后跟像长沙的那些名校比就差很远但我最后可能也是发挥的还挺好的就是准备的也比较充分然后可能是那个全省前几名的这个样子然后是所以就清华是相当于是有自主招生这种降30分录取那样就是最高的那一档当然其实最后没用上但他给我这个可能高考的时候就是起了很大的一个心理上的作用就好像觉得有这种backup的感觉所以这个对心态挺好的所以当时高考应该也是湖南省前十去的清华然后就拿了奖学金这个对我很重要因为这个我们家庭条件并不算特别好所以这个奖学金是这个有很大的帮助然后这个过程可能也就养成了这样的一种性格吧就是一方面是就是有事的时候可以拼另一方面是从这个人性的底色来说可能是属于那种不知道该怎么形容就我就要用我自己形容的话可能我会叫做魂不另不觉得说这些东西它会它有那么大的所谓就好像我要为因为要什么东西我就那个吃也吃不好睡也睡不好就一定要得到就很多事情我觉得就没有那么所谓然后另外一方面呢我又知道说如果我真的想要一个事情IputmymindtoitIputmyefforttoit大概率是能够做到的所以大概就这样一个奇妙的一个一个结合这样的一个觉得性格确实是对我影响非常深也体现在我整个做研究的过程啊PhD的过程啊包括做老师的这个过程甚至可能包括现在这个创业的过程里面所以创业失败了会干嘛如果创业失败了就再去换个地方做research吧嗯我听就是也做NeonLab的人说其实美国你们其实创意的安全点还挺高的对吧这可能确实是美国一个对退出方式比较多退出的方式有很多而且VC和大厂之间就有很多的关系VC可能投了你他也会想办法帮你找后路hopefully这个这个我不确定但hopefully做这个事情其实也没有太想什么后路不后路这些事情这可能也跟我这种混不定这个性格有点关系我觉得这个是在这个时间点应该做的事情是正确的事情那就做吧就也不用去想这个后路会怎么样你纠结了多久啊可以说从来没有纠结就我一直很知道就是我是会去做一个startup的因为我觉得就agent的这个事情真的要去做到一定程度之后就他的这个research和production是分不开的就比如说现在我们的一个就之前讲的这所有这些continuelearning啊这个specialization啊一个底层逻辑是我相信这个最大的learningsignal接下来这个agentlearningsignal来自于continuelearningfromdeployment你需要去这些真实环境里面去学习持续学习那你这个前提是你得有deployment你才有learning那你在学校是很难做这样的deployment的所以我一直知道就是我是会开始做agentresearch之后就是早晚会去做startup这只是时间点和技术方向的这个选择因为我们去确实做agent比较早嘛那可能很早就几年前可能我们就能出来做一个startup那可能是oneoftheveryfirstagentstartups但是我们没有去选择在那个时间点做就不说不上是纠结而是其实在一直想的一个问题就是到底什么时候做到底做什么我是到这个就我一直之前一直觉得没有ready这个从整体的这个大环境的这个技术根基没有ready到我自己的对整个这个agent的这个事情的想法也没有ready但是就可能就直到这个二五年年初年中的样子我觉得是终于看到了底层技术开始变得ready包括这些LM就各方面touse啊coding跟能力提高啊multimodal啊你到这个就我对agent这个整个事情它的现状是什么它的bottleneck到底在哪我觉得是有了一个更深刻的认知所以就出来做了这个事情基于你这么长时间的agent的研究历史你们对agent未来的发展提出几个预测好问题你觉得是技术上的预测还是这个对社会影响上的预测我觉得技术上来说我相信continuedlearning是会被解决的而且是未来几年的时间然后这会导致这个agent非常广泛的应用渗透到社会的各个角落那会根本性的改变很多行业的这种生产关系那这样的改变到底是一个可控的改变还是一个不可控的改变這實際上是我們現在每一個人的尤其是在做這些AIresearch的人的責任現在最大的一個就是大家的一個concern有些人可能會擔心所謂的existentialrisks就是這些AI它會hitsingularity它會快速地自我迭代然後遠超人類智能然後去消滅或者取代人類我覺得這個是在可預見的未來我是看不到這個可能性的因為其實那個事情它很大程度上它不是只是intelligence的問題它是更高层面的一个能力的缺失是这种所谓的innategoals这种intention这种生存压力的这个缺失至少在现在我没有看到有往AI里面注入这些这些原生的目标这些原生的intention的这个可能的方式那他们现在所有的目的都是人来赋予的但是AI确实会带来很大的实际上的对社会的影响那最大的之一可能就确实就是jobdisplacement就是这种生产力结构的变化如果你真的是AIagent能大规模地去取代人类的尤其是这些knowledgeworker的工作然后你又不能一方面不能产生足够多的新的岗位去承载displacedworkforce另一方面你又没有去产生好的這種收益分配的機制再分配的機制去給社會兜底而這個大部分收益都是由幾家比如說頭部的公司或者是這些資本去獲得的話那這個是會對社會產生極大的影響這個是我認為是真正的concern那對於AIresearcher來說我覺得我們每一個人都是有責任的那這個怎麼能去盡到自己的這個就一份力量去這可能說的稍微有點矯情但是我覺得是確實是這個一個非常真實的一個感受吧就是怎麼能去盡到自己的一份力量去防止這個事情的發生或者減少它的影響這是每個人都需要思考的問題至少从我的角度来说我觉得可能很重要的一件我们可以做的事情是怎么去democratizeaccesstofrontieragentcapabilities就是让agent这个事情尤其powerful的这种expertlevelagent这个事情变得不是门槛很高你需要有这种头部公司的那种资本那种资源才能做的事情而是说每一个人他如果有好的想法他有他的这个独特的洞察他能去有这个非常accessible的这个技术的手段去迅速把它转化成对应的agent并且去makemoneyoutofit觉得这样子的一个技术的民主化是我们需要努力的方向嗯那我最后还有几个宽快的一个全球范围内你喜欢的食物喜欢的食物火锅吧基于所有读过的书推荐两本必读书我觉得一本肯定是很明确的就是有本书叫做ABriefHistoryofIntelligence但可能现在已经有点变成这个这个每个人都会提的书了其实这本书是他在刚出的时候23年刚出的时候我就买了当时就马上读完然后去推荐给就我实验室的所有学生说你们都应该要读这本书这个是把AI和这个Evolution和这个Neuroscience结合的最好的但又最通俗易懂的书其实甚至包括这个我其实有我自己的一些research的工作都是直接受这本书的影响比如说它这个书里面有一个章节叫做MiceintheImaginarium还有一个章节叫做这种LearningbyTrialandError然后MiceintheImaginarium其实就是说这个老鼠怎么用这个想象力对这个世界建模然后来指导它的决策然后后来我们写的一个paper就叫做LLMsintheImaginarium然后是去learningtoolsthroughsimulatedtrialanderror实际上是受这个上面一些观点的直接影响第二本书的话当然我最近是比较喜欢这个AThousandBrains那本书因为这我觉得是看到的对于这个人脑到底是怎么work的一个非常大胆的一个theory虽然它这里面各种证据还非常的早期非常的粗浅但我觉得至少是因为我是很喜欢证物很喜欢读就你可能从这个访谈过程也能看出来就很喜欢去了解这些生物相关的东西的人在我基于我现在的这些阅读的话我觉得这本书的这个理论是非常合理的你心目中影响AI进程的几篇论文是哪些你說主要focus在這個近期比如說近十年的還是這個整個歷史你要整個歷史的話你看第一篇那個Neuron的那個論文好像是一九四幾年是一個不太记得他们的名字了当时他们是想用这个想用一个computationalmodel来去当时是在neuroscience那边开始有了对于这个单个neuron的一些工作机制的一些理解然后他想用一个computational的方法去capture这个过程那就直接导致后面的这个所有的这些neuralnetwork或者是整个的这种biologicallyinspired这些AI的发展所以那个我觉得是非常根本的当然像图林老爷子的这些工作就不说了你叫backpropagationHinton他们的工作虽然可能不一定是这个formulation最早的工作但毫无疑问是把它这个大众化popularize的工作当然是有非常深的影响然后到AdexNet这是这个整个NeuralNetwork的文艺复兴到这个World2Vac是2013年就AdexNet是201年World2Vac是2013年是重新把NeuralNetwork引入了languageprocessing在那个之前就是大家整个NLP对于NeuralNetwork是可以说是一个嗤之以鼻的状态当然那13年也是我就PSD就我开始做AI做这个相关的工作的时候所以对我的影响其实非常深然后你到这个18年BERT也是一个有很深远的影响的工作虽然现在因为GPT的发展所以大家对于BERT很多年轻一代可能不知道了但那个其实实际上是真正第一个大规模的work的这样的一个foundationmodelforlanguage然后是引领了整个languageprocessing这个工作范式的变化到17年transformerofcourseeveryoneknowsthat到14年attention就现在transformer它并不是这个凭空冒出来的transformer里面的这些主要的机制其实都是之前的paper来的14年attention这种selectiveattention机制是14年的两篇paper一篇这种sequencetosequencemodeling一篇是那个NYU他们那边做的这个这种做machinetranslation的从那边来的然后后来transformer这边变成了这种fullselfattention然后包括你这个transformer里面这些shortcutconnection这些residualconnection那当然是从resnet来的或者resnet它也是从之前的更早一些papers一些highwaynetwork那些来的所以这些都是connected然后你再到这个GPT系列对吧这个ChaiGPT对这个整个领域甚至是超过AI领域的这个深远的影响然后导致了整个这个产业的这个新的格局当然你像其他像chainofthought啊,twoformer啊他们都是有各自的影响吧大概就是这些我一下子想到的一下想到了好多基于你当下的认知一个关键的重要的bet是什么重要的bet那就是allthewaycontinuelearning,allthewayworldmodeling你听过我的博客没有,你听过哪些听过挺多的对尤其是以前我时间还更多一点的时候经常听的最近这时间更少一点创业之前最近赛宁的这个听过部分对七个小时确实有点长一直听了两次都没还是没有听完嗯这个之前记得有杨志霖的对吧然后有这个顺宇的然后还有一些更偏创业相关的我们的工作室叫做语言及世界工作室当你第一次听到这个名字的时候你会想一些什么呀我想这个就是thatsthetruth这个就是你就能看出来就是我对于语言对于世界这个都是thatsmybelief所以这个名字起的非常好不知道这一段你要不要录进去就是我个人的经历完全没有对大家尤其对小朋友有不良引导的意思这种玩游戏翘课或者是这种高强度的玩游戏并不是一件值得提倡的事情字幕by索兰娅✿好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
本期主题为「Agent的综述」,张小珺与苏煜教授(俄亥俄州立大学计算机系教授、Neocognition 创始人)深度梳理了AI Agent 技术的历史,尤其聚焦于 language agent 的演进、“OpenCloud Moment”现象、编码(coding)对于 Agent 的根基作用,以及不同 Agent 形态的边界消弭与社会扩散影响。两人对技术路线、产业变动、社会动力和未来预测等进行了高密度剖析。
Agent 概念的起点
“Agent肯定不是新话题,它贯穿AI始终。从最早AI发展,大家就在讨论agent,但最开始没法成为显学,因为你要造一个晚辈的agent太难了。”(苏煜 08:55)
Agent 的定义
“我的定义,agent首先是个有边界的实体,它要在某种环境中工作,并且不是随机游荡,而要去进行goal-directed activities。”(苏煜 09:15)
Agent 核心能力
“我觉得agent需要两项广义能力——memory(记忆/知识表达、获取、更新)与 autonomy(感知、推理、决策、行动),两者是一体两面。”(苏煜 12:10)
早期 Logical Agent 的局限 & AI Winter
“专家系统最大的问题是knowledge acquisition bottleneck。你要让工程师把专家知识装进逻辑,太低效了,直接导致80年代AI冬天。”(苏煜 15:42)
Deep RL与Game as Environment的历史作用
“为什么游戏被选作训练agent的boundary?游戏高度可重复、输入输出受限且简单,非常适合那时的技术。”(苏煜 33:00)
Neural Agent对通用性的提升
“你同样的network能玩不同的游戏,同样的方法论能迁移,但sample efficiency仍然很差。”(苏煜 36:45)
Semantic Parsing发展及NLP学科影响
“Semantic Parsing关注把自然语言转化为机器语义表示,也其实是扩大了agent的action space。”(苏煜 43:30)
LLM与Language Scaffold
“Language model训练是一个用语言为脚手架的compressive world modeling过程。”(苏煜 59:00)
从Human Evolution类比AI Evolution
“语言在人类进化中起爆炸式加速作用。LLM对agent的推动类似语言对Homo sapiens的意义。”(苏煜 1:02:45)
Language Agent差异性
“过去做semantic parsing是在窄环境做specific task,LLM出现后,内置强prior,让language agent能适用任意环境,自主reasonably行动。”(苏煜 1:08:00)
CoT与ReAct范式
“Chain-of-Thought带来了推理上的adaptive computing,ReAct将CoT推展到有环境的agent。”(苏煜 1:11:30)
Mind2Web、LLMPlanner等里程碑
“我们组Mind2Web是第一个用LLM的web/computer user agent。”(苏煜 1:13:40)
ToolFormer、AutoGPT、MMMU、Seact等开源爆款
“2023年AutoGPT的爆火级别,和OpenCloud现在接近。它让大家第一次感受agent开放带来的冲击。”(苏煜 1:17:00)
多模态与pixel-level agent思路
“UGround提出的像人一样embodied的agent,视觉感知+像素级操作定义了新一代agent控制电脑的标准。”(苏煜 1:22:20)
Coding是digital world的万能fabric
“Coding不仅限于digital world,是所有表达与操控digital world的基础设施。它主导打破多agent交互形态的边界。”(苏煜 1:32:10)
Agent类型的区隔/合流趋势
“早期有web agent、desktop agent、coding agent等区分,但这些都是手段,最后pursue的是universal digital agent。”(苏煜 1:35:00)
与ChatGPT Moment类比
“OpenCloud事件和ChatGPT的爆发类似,都是底层技术ready后,交互层创新触发大规模扩散。”(苏煜 1:40:25)
开放/YOLO范式革命
“OpenCloud采用YOLO策略,把所有permission都打开,赋能agent最大自由,这推动了市场和开发者的自我探索。”(苏煜 1:42:10)
产业/社会的扩散与中国科技应用曲线
“中国在应用前端的响应速度和全民化普及显著快于美国,催化AI agent的社会级渗透。”(苏煜 1:49:12)
小世界(small worlds)理论与specialization
“每个domain都是小世界,智能的差异化靠specialization,不是通用大而全。”(苏煜 1:54:16)
Agent未来的训练方法
“目前基于RL和Nonparametric Learning都不足以培养出expert agent,核心需要解决的是continuall learning+world modeling。”(苏煜 2:05:00)
World Model广义定义
“不仅仅是视觉世界建模,更是每个职业/公司/软件的深度结构。人的专业成长就是microworld modeling。”(苏煜 2:12:20)
Neocortex与学习机制
“Neocortex层负责广义learning machinery,本质是学世界模型。”(苏煜 2:24:14)
Language在世界模型构建中的角色
“Language对civilization和symbolization 是不可分割的。‘Individual thought doesn’t need language, but civilization needs language.’” (苏煜 2:36:10)
GUI/CLI的未来
“GUI不太可能消失,人对visual的需求不可替代;Agent可以无需GUI但GUI是最优工具。”(苏煜 2:54:08)
Semantic Web 社会实验反思
“标准推行不是技术问题而是社会动力和人性合力,visual UI因其对人友好而adopted,CLI不可能一统天下。”(苏煜 2:59:21)
核心与206年展望
“Memory、Self-learning、World modeling、Specialization...其实都是一回事。206年agent主线一定是continual learning。”(苏煜 3:07:55)
如何技术民主化
“最大挑战不是existential risk,而是job displacement。作为研究者,我们要让agent技术民主化,人人可用可创造agent。”(苏煜 3:20:15)
影响AI进程论文
“从1940s神经元模型,到2017 transformer、到 chained of thought 与 twoformer,都是AI进程的重要标志。”(苏煜 3:34:10)
推荐阅读
“条条大路通罗马,最终agent研发与产业落地,其实只有一条主线——self-learning、world modeling 和真正的specialization。”
— 苏煜 [3:07:55]