
Loading summary
A
我觉得在硅谷大家都觉得机器人可能是即将发生的一个最重要的变革所以所有的公司都投入巨资去传他们的机器人团队去做机器人大模型然后到最近就是你可以看GeminiRobotics第一代就是三月份的那个版本那个时候可能已经是120个人在authorlist上这次可能160到180个人我最近招人,有一个白人的美国的PhD毕业了他就跟我说,我真的希望你们team能多招点华人他还学到一个词叫牛马他说他特别喜欢自己做牛做马他是不是对这个词有什么误解hello大家好欢迎收听张小骏商业访谈录我是小骏这是一档由语言及世界工作室出品的深度访谈节目我们希望和你一起从这里探索新世界今天的嘉宾是GoogleDeepMind机器人团队的高级研究科学家兼技术负责人谭杰他的研究方向是将基础模型和深度强化学习方法应用于机器人领域中美在机器人领域呢一直存在着两种叙事市场普遍认为中国在硬件上发展的更快而美国在机器人的大脑设计上更领先那本期节目中谭杰将带我们一窥硅谷视角尤其是GoogleDeepMind视角下的机器人去世前不久他们刚发布了一个新的工作叫做GeminiRobotics1.5将AIagents带入物理世界我们也聊一聊他们的最新发现Hello谭老师先给听众朋友们打个招呼并且做一个简单的自我介绍大家好非常高兴今天能来到这里我叫谭杰然后我现在是谷歌的一个研究科学家我加入这个团队可能快十年了以前是上海教大毕业然后小时候特别喜欢打游戏然后所以读博的时候出去读了一个计算机图形学然后后来觉得就是图形学和机器人有很多相似之处你可以认为机器人就是在真实世界里做图形学或者图形学是在simulation里面做机器人然后为了使得自己的工作更有一些影响力然后你可以看得见摸得着然后后来就转了机器人开始的时候叫GoogleBrain然后加入以后就一直在这个团队里面后来和D-Mine合并以后就变成了GoogleD-Mine的RoboticsTeam這是你的第一個工作嗎? 其實不是的我在讀博之前在上海做了一個很短的startup哦那个startup就是本科硕士毕业创业对然后那个startup有点像现在的库加勒我不知道库加勒还在不在好像好久没有关心这个领域了就是做图音学嘛对然后但那个时候我觉得实际也不是很成熟然后后来我就出国读书了读完书以后我又去了一家startup是做相机的那个startup叫莱丑是光场相机不知道大家听说过没有在美国还是在美国在美国在硅谷对它是一个就是你可以先拍照后对焦而且它不是通过计算而是它采集一个光场非常复杂的一个物理原理然后使得它有使得那个相机有些特别的功能然后在那做了大概一年半以后后来就加入了Google你的研究方向是怎么发生变化的就是博士是做图形学嘛对吧就是那个时候我也在Pixar实习就是我一直做的那个叫动画动画其实有很多种做法在Pixar的时候呢Pixar有很多自己的坚持的原则比如说它从来不用动作捕捉系统它觉得所有的东西都应该是手调的对然后但是你如果是做动画的这个研究的话其实它并不是关于手条这些动画而是通过用数学的方法物理的方法看你是不是能在一个就是仿真环境里面是得一个比如说人的形态或者动物的形态能自然的行走对然后那个时候我做这个叫physicsbasedcharacteranimation后来就是坐着坐着觉得这里面有很多AI的成分就是我越来越多地用AI来解决这样的问题可能是我就是第三第四年的时候然后我觉得这个东西跟机器人太相似了然后我又觉得我不想就是自己的工作只是为了娱乐嘛为了这个游戏和影视所以我就跟我导师说我想尝试一下机器人我要用这个图音学的方法来变革整个机器人的行业变革对听上去非常的宏大对那我导师也是非常的怎么说开明嘛就是我导师叫KarenLiu我在GeorgiaTech读的博士到后来去了Stanford她现在在Stanford然后他就说那就做呗然后我们最后就是我最后一个project就是完全用图形学的方法在一个很小的人形机器人上让它能够就是倒立让它能够在不同的姿势里面坐着然后变成站起来之类的就做了一些很简单的控制那个结束以后我想去找一份教职,那个时候我觉得在美国找一份教职是. 这是哪一年? 那个是2015年然后想找一份教职,然后那时候我其实还收到了很多就是很好的学校的这个interview,比如说cornell啊什么的但那时候我就说这个我要用图形学的方法变个robotics我觉得那个时候大家是有很多很多怀疑的态度的因为我也是刚开始这个领域嘛我绝大多数的这个背景还是在科技学上所以我并没有拿到我想要的教职于是我就去硅谷工作了然后我就去先去了一个startup然后后来去了Google当时Robotics处于什么阶段啊你想用图形学变革Robotics为什么图形学是变革Robotics的一个非常好的方法因为之前来我们节目的嘉宾王赫也说过Robotics这一拨人都是图形学、计算机视觉领域冒出来的对,我就举几个例子吧,就是我是图形学领域的大家可能知道有一个非常著名的Berkley教授叫SergeiLevine就是他以前是做图形学的就是我跟他经常是在SIGGRAPH做presentation的时候就是前脚后脚可能是我先做然后他再做然后但是我们都不约而同的转了Robotics就说明这两个领域其实非常相关然后在那个时候我觉得Robotics还是处在一个就是非常rulebased大家用传统的控制方法比如有个方法叫MPCModelPredictiveControl就大家建一些物理模型然后通过一些最后化的算法然后计算运动轨迹对就是这个其实有很多很多难点就我经常跟别人说就是说以前你做这个Robotics你肯定要一个PhD否则你那个数学都搞不明白但是图音学呢它其实就是有很多就是AI的算法在里面那是图形学,因为很简单,所有东西都在电脑里,都在simulation里面所以你可以获得机器人所有你需要的信息,比如说关节,利益,各种各样的都可以于是你就可以用AI的手段来解决各种各样控制的问题然后我那时候觉得其实simulation和真实世界都是差不多的东西所以说如果它在simulation里面能够work那么它在真实世界应该也能够work在那个时候就说机器人还是很傻的,那时候有个DAPA,RoboticChallenge就是那时候有很多人性机器人去做一些比较简单的事情比如过个坡开个车拧个阀门什么的然后那个时候机器人都摔啊什么就看上去很傻但在图形学里面就是在这个simulation里面机器人能够翻跟斗能够跑步什么都能做了所以那时候我觉得两边的差距还是很明显的所以我觉得如果说我们能把simulation的东西放到真实世界里面那么机器人会有非常非常长期的进步这个就是为什么我觉得我要用Graphics的技术来变革机器人的原因这个问题其实还挺难回答的现在看肯定是正确的你在Google里发现的吗对就是我的第一篇在Google的论文叫seem2reallearningagilelocomotionforquadrupedrobotsseem2real就是从仿真到真实世界嘛然后我用的方法也完全是叫deepreinforcementlearning那个对于哪怕对于graphics也是比较新的技术然后在机器人上根本没有人用然后第一篇paper出来以后就获得了很多好评这个也是我觉得第一个就在过去十年里面第一个怎么说呢paradigmshift发生的就是用强化学习解决走路和步态的问题我給你描述一下可能十年前大家覺得最好的機器人是波森動力的機器人他們的狗叫Spot他們有人形叫Atlas然後他們能夠跑酷非常厲害但是整個學術界都不知道他們怎麼做的後來最近大家都知道他們是用NPC蛋做到了極致但是就在可能五年之後你觉得大家都能跑跑跳跳大家都能打拳跳舞比如今年你看到比如说语书啊什么他能打拳击能够跳舞然后最近玩各种上墙翻跟斗都行其实就是因为大家采用了同样一个技术叫强化学习然后seemtoreal所以其实我个人觉得我开始那篇论文其实开创了整个强化学习和sim2real在无视机器人上的应用所以现在回头来看那篇论文或者说计算机图形学的确彻彻底底地改变了机器人最近5年到10年的发展你当时用强化学习是从大圆模型里面借鉴的这个方法吗并没有因为大圆模型的兴起是可能是过去五年的事情那个强化学系可能是八年那是2018年嘛就是七八年前的事情那时候还没有大圆模型那个时候是从哪里借鉴的方法呢那个时候有个特别火的事件叫AlphaGo就是迪迈的他那个小围棋嘛然后用深度强化学习那时候有很多很多方法其中有个方法叫PPO对然后那个就是我我我利用的一个一个基础它离强化学习时间上还有点差距但是我觉得第一个就是过去十年里面第一个paradigmshift肯定是强化学习第二个paradigmshift是大VM模型对于机器人领域也是这样对吧对你们叫巨顺智能还是叫机器人巨顺智能好像是国内说的比较多的都可以其实是这样子以前当我们说inbodyAI的时候它不代表一定有硬件的本体你在simulation里面做机器人也叫inbodyAI对于我们来说就是我们不光在simulation里要做robotics我们在真实世界里要做robotics所以我更倾向于叫机器人那大圆模型出现以后对于机器人领域它带来的影响是什么样就是在大圆模型出来之前很多机器人还是在那种底层的控制就是说你怎么能够好好的走个路然后做一些什么路径规划使得你手可以在不撞到任何东西的情况下比如说抓到这个瓶子但是机器人是没有常识的,他也不懂这个语言所以你要让机器人做一件事情,你得编个程,然后他才能做一件事情但是等你有了大语言模型以后,第一他理解人类语言了所以说你要他做什么事情,你可以直接用naturallanguage跟他对话,然后做事情这个还是很重要的突破,就是任何人都可以指挥机器人做事了,这是第一件事情第二件事情呢就是commonsense就是以前大家觉得机器人好难好难就是不仅是控制问题因为机器人他没有commonsense就是你比方说你帮我做杯咖啡非常简单的一个指令其实完全不知道什么意思他也不知道应该是哪些步骤可以做一杯咖啡但是如果你就想就问Gemini或者问ChaiGPT你说如果我要做一杯咖啡有哪些步骤那么他会告诉你一步一步地列出来然后你说我可能需要更细化的步骤他可以给你列一个非常详细的plan所以說當你用大圓模型來控制機器人的時候這個機器人就有了commonsense他能理解要做一件事情他需要哪些具體的步驟而如果每個步驟都足夠簡單的話他就能一步一步地把它做完对这个就是说以前的机器人是没有大脑的就是有了大圆模型以后你可以认为他现在有了大脑和认知使得他可以做很多很复杂的事情强化学习相当于是什么呢这个就有点像大脑和小脑对大脑是思维对吧然后是推理是做计划所以说大圆模型更像大脑但是小腦是執行就是你要走路你要控制平衡你要控制你的雙手你要做手上的manipulation這個就是強化學習非常擅長的一部分所以你可能大腦小腦都需要有對我前幾週在杭州主持雲氣大會的居生智能分廠有個觀點我印象很深他們提出居生智能基座模型不應該被視作大圓模型的延伸或者分支而是一個獨立的方向他們覺得為機器人訓練的是一個獨立的機器人的基座模型機器人大腦他們在非常強烈地強調自己這個學科的獨立性你怎麼看待他們這個觀點这我觉得没有对错可言,就是大家会有自己的不一样的评点从我的角度来说我不得不承认就是现在最近几年的机器人智能的发展主要还是依赖于多模态的大模型所以它不仅仅是语言模型,但是一个多模态模型但是多模态模型它缺什么呢,就是它缺robotaction的输出多模态模型它可以输入比如说图像,它可以输入语言然后它的输出可能是文本,但它不能输出对机器人的控制于是我们经常做的事情就是拿大圆模型作为一个基底模型然后加上一些就是机器人动作的数据使得它能够输出机器人的动作使得它能够控制机器人所以从我的角度来说我做了很多工作吧还是说怎么样补全现在这个多模态模型使得它可以输出机器人的动作使得它能够控制机器人它到底是不是一个非常獨立的單獨的學科sofarnotyet我覺得未來可能當你碰到各種平靜的時候當你需要不一樣的data的format的時候當你需要可能一個更加完善的worldmodel的時候可能它會變成一個更加獨立的學科但現在我覺得絕大多數的在做VOA的在做機器人大模型的其實還是在大語言模型或者多模態語言模型上做的一些怎麼說finetuning所以三跑它还是一个延伸至今为止吧我觉得它其实并没有一个什么质的改变对它更多的是采集更多的机械数据然后扔到大猿模型里面去做不同阶段的翻车所以今天你觉得Robotics它发展到哪个阶段了你觉得我觉得它的就是progress非常快最近的一年它的这个进展让我觉得非常的但是要解决这个聚生智能或者使得机器人有真正的应用我觉得那个gap还是很大的就是的确现在你可以说你让这个机器人模型做一件事情做得非常好我觉得是可以的你其實看到很多那個網上的video包括你可能在KORO看到就是Dyna的比如折衣服的那個demo其實他做這個非常類似的或者一個比較窄的領域的操作的話他可以做得非常好這是因為強化學習大家號稱是強化學習但我覺得肯定不止強化學習因为我相信Dyna那个可能也是VOA加上强化学习的方案但是它依靠了多少VOA依靠了多少强化学习这可能只有问他们才知道了对所以如果你是做一个任务或者一系列非常接近的任务现在可以做的挺好的但是如果你要真正的generalization就是说你要真正的翻画能力你希望有一个就像人形机器人它可以做好多事情现在还差得很远现在比如说哪怕像简单Robotics这样的模型它非常强调繁华能力那么它可以做很多很多事情你可以用自然语言说你开这个水平盖子或者把这个包整好或者怎么样但是它成功率还不是很高就是如果你更多的是像非常简单的pickandplace把什么东西抓起来放到什么地方也许它成功率有百分之九十几百分之一百但是对于很多就是需要精细操作的东西比如说把这个拉链拉上这个就是非常难其实你要抓到对的地方然后往一个特定的方向拉像这个比如成功率可能就是百分之三四十所以说百分之三四十的成功率在现实生活中是不可用的对所以我觉得其实虽然我们的进展非常快但是我们的这个gap也非常的大所以我觉得还需要好几年的时间使得这个机器人能够足够的完善然后进入到各行各业来帮助我们大概如果定义成一个GPT的这种标词的话大概到了哪个时候这个其实其实很难做对应吧就是我是这么想的哈就是说现在大家看到了足够的signoflife说我们可能scaleup现在的这个trainingrecipe是会work的但是可能还需要两三年的时间使得你能够达到一个GPT-3GPT-4的这样的一个水平使得你可以真正觉得哇这东西还是真的是会有用的然后我觉得可能还需要额外的5到10年时间使得它真正的落地落地的时间更长是这样子的一般性就是说做research做研究是这样子你有个想法然后从想法到一个prototype然后那个是很快的因为你做完一个prototype你就可以写一篇论文所以那个周期可能是6个月最多一年當你寫完一篇論文到你有膽量拿出來做livedemo而不只是錄一段視頻你有膽量拿出來做livedemo那可能需要一兩年時間因為你在寫論文的時候你有很多assumption所以它可能只在一個非常小的區間內是工作的然后当你开始做LiveDemo到你要真正落地那可能是5到10年你就想自动驾驶从最开始比如在DAPARoboticsChallenge你说我可以开20几公里到后来每一个厂商都能说在一个固定的园区里面做一个Demo也許今天就算落地了吧,因為Waymo和Tesla都有自己的自家的產品嘛當中的確隔了十年,從Demo到真正落地隔十年並不是一個非常誇張的事情現在L3L4也沒有真正的應用我覺得waymo它其實是沒有它有個就是taxi的這樣一個business在舊金山它在有限區但是它可以把這個driver真正的挪掉嘛所以我覺得已經越來越近了但是這是另外一個例子嘛就是說從你有一個idea到你真正落地其實非常遙遠所以我就在想你看自動駕駛是一個這麼就是它的動作輸出是一個這麼有限的一個領域都要這麼多年那機器人就讓它一個領域一個領域的做就好了為什麼要去追求它的足夠的繁華性呢我們為什麼需要一個機器人的足夠通用的大腦來做機器人這件事情呢我們就像自動駕駛一樣就是每一個領域讓它做好每個領域的事是不是就好了这是一个很好的问题,我觉得这里面很多争论都是比较philosophical的,我的感觉就是两条途径都是有可能的,你先做非常专业化的事情,然后你在一个领域落地,versus你做一个最通用的人形機器人我覺得並沒有對錯但是這個世界的發展無關乎對錯或者是這兩條路Equally可能那最後會發生什麼呢就是可能會有一個大佬他可能是ElonMusk可能是SteveJobs就是一個Visionary的人他灌輸了一個概念這個概念是說這個人形機器人通用機器人是最終局的這個解決方案当一个大佬发话以后就会有很多follower然后就会有很多钱进来然后就会有很多talent进来然后最后就促使了其实另外就这一条路径成了真正的被解决的路径对所以说我觉得并不是说做specialized的机器人然后一个一个就是domaintosolve是错的只是可能现在因为硅谷的这个发展因为有一个大佬特别就是提倡这个方向同时呢还有一个就是大圆模型其实也就证明了如果你做specializedmodel就以前的语言模型通常都是specializedmodel对吧你做比如英语到中文的翻译它可能是一个model然后你做一个什么其他的EQA可能是另外一个model然后后来你发觉当你真正有一个generalistmodel的时候那么specialistmodel就是完全不能与其竞争对这也是另外一个例子就是为什么大家更相信就是general的机器人你刚才提到过去一年进展非常快可能超出预期它的进展快来自于哪些变量一个是VOM的发展就是比如说Gemini的发展比如说GPT的发展比如说有很多技术的变革比如说现在很多model就是叫thinkingmodel对吧它在在inferencetime它可以用很多的tokenbudget来提高你的最后答案的准确性对吧这个是一个从技术角度一个比较好的变革然后这个使得其实robotcanthinkaswell就是我们最新的GeminiRobotics7.5其实有一个比较重要的突破就是利用thinking的能力这是技术上的第二个就是從重視程度上就是我覺得在矽谷大家都覺得就是機器人可能是即將發生的一個最重要的變革所以所有的公司都投入巨資去傳他們的機器人團隊去做機器人大模型所以如果就是CEO们都重视了那么分配的资源也好算力也好就会增长所以说这个使得从另外一个角度也加速了机器人的发展第三点就是因为这个使得硅谷现在非常卷就是以前大家觉得这个96是中国传统但现在硅谷也是96现在是现在也是96对至少做AI做机器人的肯定是96为什么会96呢就是没有人想输在这场竞争里面因为所有人都希望自己的公司或自己的团队是世界第一的如果你世界第二的你团队里最优秀的人就会觉得我要去那个世界第一的团队因为在那能做成事所以要防止這個發生你就只能加速工作加倍工作使得你永遠保持在第一梯隊或者是整個行業的最前列然後使得大家花了更多的精力更多的時間在這個科研上這也是為什麼我覺得最近發展特別快的原因這是最近一年發生的變化還是最近兩三年我覺得可能是最近一年半一年半一年半到兩年的時間就是拆GDP出來之後然後又過了一段時間基本上就是在GPT出來之後大家意識到這個東西可以用在機器人上然後大家就開始非常捲你剛才說未來有兩個關鍵的就是階段一個是要先到達GPT-3的時刻然後再去落地那你覺得從現在這個節點到GPT-3中間插了哪幾波就有哪些關鍵的問題解決了可能它就到了我覺得一個最大的問題吧可能還是數據問題對就是对于你做语言模型来说数据是free的对吧就是网上已经有那么多就是语言数据然后wikipedia呀然后你可以digitalize很多的书本呀之类的互联网数据数据太太太多了而且语言相对来说也是一个就是narrowdomaincomparedtorobotics但是Robotics就是在一个非常复杂的instructionenvironment里面可以发生任何事情所以说我觉得它需要极大量的非常diverse的数据但这个数据又是现在不存在的现在有很多startup叫datafoundry他们就是通过比如说窑操的方式来collect很多数据通过simulation的方式来collect很多数据然后把这个数据卖给做做模型的厂对大厂然后所以我觉得数据还是一个从根本上制约发展的这样一个bottleneck代理模型面对的是数据墙的问题机器人领域是没有数据的问题对对对对是的一个是数据还有其他的吗我现在看到的其实最最明显就是数据我确信就是如果就现在的数据量完全没有办法saturate就是model的能力所以现在当你数据大到一定程度上我肯定会发现第二个瓶颈可能是比如说模型的architecture呀或者是其他的但是因为现在数据是如此的少所以你还没有发现到第二个瓶颈是什么那到底需要什么样的数据呢怎么定义一个好数据呢因为真实数据真实世界的数据就是太变幻莫测了对对所以需要很多很多很不一样的数据我觉得机器人领域经常大家会聊这个什么数据金字塔对这个金字塔是这样子就最底层呢就是就是非常scalable非常大量的数据这个数据可能是就是互联网上有的数据然后上面一层呢是可能是video数据而且这些video数据有可能是我们叫egocentricvideo数据就是你从人的视角看到你做事情的那种数据这种数据也非常多YouTube上其实有很多很多这样的数据这样的数据也非常容易采,因为你做事情你可能无非就是在额外戴一个眼镜或戴一个camera就能采这样的数据所以它量也非常大但是因为人和robot它的形态是很不一样的所以这个数据也不是特别的有用,至少大家还不知道怎么用它再上面可能是比如說Simulation數據這個呢其實和就是Robot的形態可能更接近了這個數據有很多比如說RobotAction的標註但是有一個叫SimtoRealGap就是你做再Simulation的數據和真實世界的物理畢竟還是不一樣的對吧它只是一個數學的簡化再上面可能就是RobotSpecific數據你通過窯槽呀或者其他方式獲得的這個機器人數據所以大家一般認為有這樣一個金字塔就是你每一個level的数据你都需要但是你需要的量不一样然后你采集不同level的数据你需要的cost也不一样但是这些数据都很重要这是你倾向于认为的观点吗我觉得是这样的观点就是底层的数据它有很多量很大量嘛但是它可能它的质量不是特别高因为它跟机器人有很大的gap但是通常大家都说在训练这个机器人模型的时候你有预训练和后训练就是pre-training和post-training在预训练的时候你可以用各种各样极大量的数据在预训练阶段它需要学会的只是一个就是intuition或者是对物理的理解它并不一定要对自我那个形态的认知或者对task对这个任务的认知但是它需要学会物理所以你只需要很大量的数据但在金字塔最顶端的时候你需要就是这个机器人它是这样一个甲爪它是这样一个构型然后你做这一个任务比如说我打开这个瓶盖它需要非常精细的就是非常高质量的数据但那个数据量可能不需要很大所以我觉得就是整个这个金字塔都非常的重要其实关于数据关于架构有很多的争论这个我们稍后再说我们先来聊聊你们最近的工作吧你们刚发布这个GeminiRobotics1.5将AIagents带入了物理世界在这个工作中你觉得最重要的发现是什么我觉得有两个比较重要的发现吧第一个发现就是我们把thinking加入了VOA模型就是以前的VOA模型它的输入是图像它的输入是语言来表达的这个任务是什么然后它的输出就是马达的角度比如说就直接对机器人的控制现在呢我们就是把叫thinkingtrace就是这个机器人是怎么想的把它也作为输出所以说比如说我要做一个task这个task说我把我的这个衣服按照颜色分类于是它得就是机器人得先想这个任务其实还挺复杂的你得想这个是红色的所以要扔到红色那一堆里面这个衣服是白色的所以要扔到白色那一堆里面所以它其实有很多很小的步骤而以前就是上一代的这个机器人模型它是没有办法想这么细致的东西做一个这么叫multi-steptask就现在的这代模型就是它能想说这个是什么颜色然后如果我知道这个是什么颜色那么下一步应该做什么所以它是输出时先是一些文本来想这个问题怎么解决然后在这个文本的基础上出一堆action然后做这件事情然后接着是继续输出一些文本来想下一步应该干什么再输出一些action就是使得一個非常複雜的需要很多步的這個一個任務它可以被分解然後這是就是非常難的任務它現在可以做了第二個好處是什麼就是說機器人可以向人表達我下一步想幹什麼為什麼我想這麼幹使得在人際交互的時候它增加了很多透明度這樣的話就不管是從安全性的角度也好從這個人際交互的角度也好它使得這個問題要使得人可能會更安心一些因為你知道這機器人是怎麼想这是一个我觉得还比较重要的突破第二个非常重要的突破呢我们叫crossembodimenttransfer什么意思呢就是说我刚刚说了就是机器人数据非常稀缺嘛尤其是你用机器人A采的数据只能学机器人A上的这个task和skill当你机器人A他可能升级以后他可能他的比如camera换了一个新的或者他mount在一个不同的位置或者我的手臂多了一个自由度每天踩data都没有用而且还有一些其他的机器人比如人形机器人或者机器人B机器人C他们因为构型不一样所以他们的就是数据是不能放在一起互用的这样就导致你其实数据量就更少了因为你对每一个单一的机器人都得单独的踩数据就在GeminiRobotics1.5我们发现就是不管你是用什么样的机器人至少我们测的那三个机器人一个是Aloha是一个非常简单的双臂的机器人一个是Biomfranca是一个更工业级的更Powerful的机器人还有一个是Uptronic的人形机器人当我们把所有的数据放在一起然后我们又开发了一个新的技术叫MotionTransfer它可以更好的利用这种CrossingVolume的数据使得在机器人A上见过的任务机器人B也能够执行舉個例子,假設你學會了開車,我從來沒有學過開車這個任務,但我也學會了開車它可以跨本體從根本上解決了一個問題,就是數據量不夠的問題因為任何機器人做的任務採集數據,被其他機器人都可以利用先说第一点就是把thinking加入VLA因为它的模态转换会比较多嘛你觉得它在不同的模态比如说文本然后包括运动不停转换过程中它会发生混乱吗怎么解决这个问题我们其实没有发现有发生混乱这个问题就是因为你在输出的时候一般性都会非常清楚地说下面我要输出的是文本然后你会有一个起始符和终止符然后你会说下面我们输出的是这个动作然后你有个起始和终止所以它们是不会混在一起在大语言模型加入thinking和在机器人里面加入thinking你觉得不同是什么样它的核心难点是什么样就是大语言模型其实它比较大对机器人模型其实没有大圆模型那么大为什么呢因为机器人模型它要很快的做influence它不能说我可以等五秒钟然后我再做下一个动作对吧所以它的influence的budget非常小就是你还是希望比如每0.5秒或者每一秒它可以做一些动作所以说它的thinking的长度和大圆模型是非常不一样的它thinking的更短一些要短很多就是大圆模型它可以为了解决一个东西它可以想20秒然后给你一个答案只要那个答案是对的一般人都很高兴但如果你交给机器人一个任务如果它每一步都要想20秒你就崩溃了所以它可能每一步想的只有0.5秒所以它们俩的budget是非常不一样它能处理的最复杂的问题会是什么呢对就是我们现在就是在VOA上的thinking还是相对比较弱的thinking因为它就像我说的它其实有很多限制所以我发觉一般性如果你是一个task只需要就是几步的分解说比如说我要sortthefruitbycolor或者sorttheclothesbycolor他可能第一步是认清楚颜色是什么第二个是认清楚在另外的几堆东西里面也对应的颜色是什么而第三步是把它放到对应的堆里面就这种比较简单的就是推理是可以的但是如果你需要他额外的再去获取信息那个是做不了的比如说我说你帮我帮我整理一下行李他可能说那整理行李的话我想知道你要去哪旅行你要去多久然后那边的天气状况是什么样他需要就是额外的获取更多的信息然后通过这所有的信息再做syncing那个在VOA的那一段是做不了所以在我们GeminiRobot1.5的时候我们其实把我们做了一个就是快慢模型的这样一个就是Division就是有一个比较慢的模型它是可以做这种非常长的thinking的然后它可以做一些决策比如说你帮我打包行李它可以去搜Googlesearch它可以搜你的calendar它可以搜weatherreport然后它可以先想20秒然后comeupwithaplan然后问你这个plan是不是合理然后到了VOA那段的时候它执行这个plan的时候它可以说我可能需要把这一堆衣服放进来就是它可以一件一件拿下来這相當於大小腦嗎小腦一般是運動控制所以它更多的是它們都是大腦但是大腦也有就是分層分層對你很多大腦的事情你是要做很多計算要做很多planning的那是比較慢的思考很多大腦的決策是instinct的那個就是比較快的思考所以你们是把它拆分成了一个ER和一个VLA两个模型ER其实叫embodiedreasoning所以它更多的是一个慢思考的过程然后VLA是它要出robotaction所以它更多是在执行端所以它是一个非常快思考的过程这是选择了一个双模型结构对吧它不是一个端到端的统一模型那你觉得这会是一个过渡的方式还是一个终极的方式我现在觉得它应该是个过渡的方式因为现在受制于很多比如说算力的限制受制于很多现在模型大小的这个限制但我觉得可能再过几年当算力不是很大问题的时候我觉得如果有一个就是unified的这个model那可能是最佳的因为你有两个模型的话你总是要界定它们之间是怎么交流的现在这个大模型小模型之间是用就语言来交流的但是语言它并不是一个怎么说呢highbandwidth的交流方式因为语言其实它会丢掉很多信息所以你希望其实是一个模型它内部不需要一个额外的这个interface来做交流对所以这样的话如果你有一个模型的话其实它当中没有这个信息的损失但同时因为现在算力的等等原因使得这个非常实现非常困难它需要特别大的算力吗因为你要做reasoning的话然后你要做比如说websearch之类的其实你是需要一个非常大的模型的对那个是就是你很难在realtime或者在每秒钟做5到10次的决策但小模型的话你可以做5到10次的决策所以当你要需要一个unifiedmodel的时候它必须非常大因为它要做reasoning现在的算力是不足以支持这样的大模型現在的快思考和慢思考分成兩個相當是兩個步驟兩個階段來完成對很大的一個原因是因為算力還不夠有沒有其他的一些原因我覺得現在主要是算力原因这个也makesense因为自动驾驶其实最后也过渡到了端到端对吧但自动驾驶其实它不需要很多planning的过程因为它planning有很多是通过传统方法比如说我有一个map当我有个map然后有A点我要去B点然后我怎么样找到一个路径这个都是用传统方法做的它并不是真正的端到端把那个什么mapping和planning都做到了就是执行的一起其實planning在自動駕駛裡面是一個分開的步驟是一個傳統方法做的就是像googlemap也好百度地圖也好然後執行的話其實對於自動駕駛它是一個非常快的因為自動駕駛它車速非常高嘛所以它做決策的速率得非常高所以自動駕駛的這個端倒端模型不會很大你們在做實驗的時候加入thinking容易出錯的環節可能是什麼我觉得有一个可能就是overfit就是当你加入thinking的时候你需要标很多它是怎么think的就是在做training之前你不是采了很多数据吗然后采数据的时候你得说我是这么想的我下一步要干什么然后这是我的动作但是如果你的这个标注它非常的单一的话就是非常容易出现overfit的状况就是过拟盒使得你只有做这样一些事情的时候他的这个thinking是makesense的如果你做一些其他你没见过的任务的时候因为他没有见过所以他的thinking会非常奇怪然后他会做完全不makesense的事情你刚才分享的第二点就是跨本体的能够运用数据这个里面有没有更多的可以跟我分享的我给你举个例子吧就是我觉得我第一次看到这个结果的时候我还是怎么说呢印象非常深刻因为我觉得这是真的一个质变就是大家说跨本体已经说了很多年了但是我觉得这个概念是有点oversell就是哪怕早期其實Google自己做了一篇paper叫RTX就是它跟比如二十幾個不同的學校不同的lab說我們收集不同的這個機器人數據我們混在一塊然後我們訓練一個大模型然後說啊我們發現了這二十幾個學校的數據放在一起是有advantage會有benefit的对但其实呢内容很难量化然后包括最近看physicalintelligence很多很多圈大模型机器人大模型他都会说我有不同的本体要把数据混在一起然后使得我们这个东西更general但这个也很难量化这次就是我们发现比如说我们有一个AlohaAloha是一个叫TabletopRobot所以说它做的事情都是在Tabletop就是在这个平面上做的事情我们所有DataCollection可能就是从这个桌面上抓一个东西放到别的地方在这个桌面上做一些比如说开瓶盖啊写字啊之类的事情它没有见过就是3D的场景它没有见过比如说在一个垂直的平面上或者一个一个橱子它有高低的地方它可以做很多事情它没有见过这样的数据所以说如果你给他一个输出然后他有高低你说你把那个上面那一档的这个书给我拿下来他是做不到的因为这个完全在他的训练数据极之外他会做的事情就是他还是在桌面上在那磨磨蹭摸一些东西虽然说那个书架是垂直的然后但是我们有另外一个机器人就是叫Biomfranca然后他做的很多数据采集都是在这个垂直的这个领域他有很多就是工具他可以从一个叫workbench上面垂直的拿下来然后把数据放在一起训练阿罗哈是从来没有见过垂直的场景的但是当你把弗兰卡能做的事情放到阿罗哈这个场景里面阿罗哈突然间也能做这样的事情怎么做到的呢就是我们有一个方法叫motiontransfer它就是说第一个是你不仅要把数据放在一块同时你在模型的architecture上模型的trainingrecipe上你要做相应的改动这个是一个已经能够放话到很多领域的一个方法吗就可能除了你们现在实验的这三个它能够有一定的放话性首先它并不代表说你先给我个新的机器人它不用任何训练就能做那些事情它不是这个意思只是说在我有训练数据的机器人里面虽然我没有见过这个task但这个task是别人见过的我就能做那个任务所以它是有一定的泛化性但它的泛化性是任务层面的泛化性并不是机器人本体上的泛化性这个能够更接近相对接近跨形体的通用智能的是一个可行的路径是吗我觉得是个可行的路径这个还挺本质的对我非常同意我觉得我们团队就是看到这个结果以后都觉得非常激动人心motiontransfer怎么做的这是一个secretsauce这个问题在core的时候我会问了很多遍但真的很难评论很多研究者會提到說就是巨聲智能藍電不一定在算法而在信號因為它缺乏像語言模型那樣清晰可以驗證的反饋你怎麼看這個問題啊然後以及你們的Robotics在系統的設計上是如何獲取和構造這種信號的呢我其實不是很理解這裡面反饋的意思就是我觉得当你有数据的时候然后你是用传统的比如说模拟学习就是imitationlearning的时候你已经有了足够的信号我并不理解说它缺信号是什么意思但是如果你说我是用强化学习但强化学习需要一个叫rewardsignal但是很多任务其实你很难写一个rewardfunction比如说我要把这盆菜放到冰箱里面这个怎么用一个数学来表达成功与否这个rewardfunction很难表达出来我是同意的这个我觉得就是得分不同情况来解释我觉得对模拟学习或者imitationlearning来说我不觉得信号是个问题但对于强化学习来说你怎么用rewardfunction来specify你的任务的确是一个很难并未解决的问题如果是rewardfunction呢你们是怎么解决这个问题的现在我觉得这个问题并没有很好的解决这个问题为什么这可以岔开讲一点为什么强化学习解决了阻尸机器人走路的问题是因为这个rewardfunction特别容易也不能说特别容易相对来说比较straightforward对就是你只要向前走了然后没有摔跤所以你可以很容易写一个数学的表达但是对于manipulation来说你有太多的不同的任务了你比如说我希望抓起一个筷子你其实很难用数学来表达数学就是expression来表达我是不是有筷子比如说我要把东西放进抽屉里你其实很难写一个数学表达就这个东西是不是在抽屉里然后有成千上万个不同的这样的任务你都要用rewardsignal来老侦察我觉得这是一个几乎不可能的事情这就是为什么强化学习在manipulation里面并没有解决的很好的原因就是這個rewardfunction非常難以specify對於你們這種跨形體遷移的任務它怎麼設計呢因為我們現在主要還是做imitation對我們並不是通過強化學習所以說只要你就是學會了就是因為你是有榜樣的嘛imitation其實是有label你有榜樣的對你只要使得你的神經網絡它的輸出和你的label盡可能接近就沒有問題就是这个你们的secret这个还有什么可以更多的分享一点点motiontransferit'sverysecret哪些因素有可能会决定这种迁移的上限对这是个很好的问题就说其实虽然我们有很多例子证明这个迁移是成功的但是我们有很多例子证明有在很多场景中这个迁移并不是非常成功我觉得两个不同的机器人它到底形态差多少是会有很大影响的比如说我是从一个单臂甲爪机器人要迁移到一个双臂人性机器人这肯定是一个非常非常难的问题所以你看我们三个机器人都是双臂的然后虽然它们构型很不一样比如说有的是六个自由度有的是七个自由度有的是更高的自由度的但是它们都是双臂的如果你是甲爪到比如说拧翘手五指拧翘手它肯定也会比甲爪到甲爪要难一些所以说就是还有一个叫embodimentgap如果那个embodimentgap非常大的话这种跨这个构型的迁移就会比较难這是一點第二點就是我們發覺在不同的embodyment上你就是收集的數據量也非常重要如果你已經收集很大量的數據那麼其實不需要那些其他的embodyment去做事情已經做得非常好了所以你其他的embodyment給你的那個正向的那個delta是會非常小的但是如果說有一些機器人比如人形機器人你要採集數據是非常困難的但是你可能在aloha上有非常非常多的數這樣個遷據移就會非常有效為什麼你們這篇論文寫的標題是將AIagents帶入物理世界你們這次在AIagent上借鑒了一些對就是說這個首先robots就是一個physicalagent我覺得對agent的定義就是說它能夠做決策然後能夠executeactions其實這篇文章就強調了一點就是說有一個非常重要的agent的feature就是它可以usetools现在就是说我们的EmbodiedReadingModel它其实可以写code它可以查阅比如说网站就是它可以用这些tools来做决策就是我们有好几个video是比如说你帮我做就是垃圾收集或垃圾分解於是根據不同的地點他可以說我是在SanFrancisco他可以搜尋GoogleMap找到你的地點然後他可以根據當地的這個法律法規決定他是應該如何的做這個垃圾的分解這些都是用這種DigitalTool的例子这使得机器人它可以比如做websearch它的knowledgebase宽广了很多它并不是只有说大模型它已经capturethecommonsense它可以通过websearch和其他的这些tools使得机器人的functionality也好它的capability也好有很大的扩展沿着GeminiRobotics一点往后发展你觉得下一步的关键突破口会是什么这个问题非常好就是其实有很多很多方向可以发展这个我们在其实在最后的一章也讲了一下就是未来的一些方向我觉得可能我们比较重视的一点就是数据就像我已经强调好多遍数据数据数据对就是我觉得摇操还是一个非常难以获取的数据就是有什么办法我们可以利用越来越少的摇操数据越来越多我们可以快速获得的数据来训练这样的大模型可能是非常重要的一步所以我們會花更多的精力比如說利用就是Simulation數據方程數據利用這個HumanVideo在YouTube上的一些數據利用甚至是現在模型生產的數據比如說View生產的一些數據這種因為你可以大量獲得所以說我覺得這是一種更精細的更有效的獲得機械人數據的方式然後如果我們能在這方面有些突破的話那我覺得解決機器人問題指日可待我們現在主要是用真實數據所以成本會很高成本非常的高國內其實在數據問題上有很多的爭論王赫就是一個仿真數據的代表派然後好像除了他以外大家還是更加傾向於依靠真實數據因為真實數據的放話性可能更好真實數據沒有seemtorealgap但是泛化性是數據的coverage導致的並不是因為它是真實數據還是虛數據範圍擬不夠大如果你從來沒有採集過在廚房燒飯的數據你就很難你的模型會燒飯所以說它是coverage問題並不是真實還是虛擬數據的問題過去幾年是不是從大圓模型裡面應用到機器人領域了很多的就是研究的思想你覺得對比一下就是機器人機座模型和大圓機座模型你覺得它的研究方式有什麼不一樣嗎我觉得还是很不一样的因为像我说的他们其实并不是两个独立的学科他们是更多的是A利用了B对所以说在比如大学模型上你有很多比如多模台我怎么训练我的预训应该怎么样我的后训练应该怎么样RL应该怎么用对吧但机器人现在对这些大语言模型的应用还是说我加一些更多的data在已经有的大语言的这个基础上增加一些新的输出所以说就做法上还是很不一样比如说很少很少有公司真正的从头开始去pre-train一个机器人的大模型为什么因為cost和data呀因為你pre-train一個大模型其實非常貴嘛你可能需要好多萬卡或者好幾個月的時間對然後同時你有沒有那麼多的機器人的數據所以基本上大家還是因為數據局限因為訓練大模型預訓練的成本所以大家基本上在一個預訓練好的大模型上加上機器人數據進行一些微調所以這就使得整個範式就非常不一樣所以其实两边有相互借鉴的点但是其实它们并不是两个平行的血科所以两个完全是一对应可以相互借鉴那所以其實我剛才說的雲集大會他的那個討論其實不成立啊就他他說我們是一個獨立的大腦至少我現在覺得他們還沒有那麼獨立也許未來當你發展到一定地步的時候當那個機器人數據足夠多的時候當機器人的大模型遇到新的瓶頸的時候他們可能會變成完全獨立的學科但是現在我覺得完全機器人大模型還是非常依賴於已有的這個大模型那這個有利於大公司,對於大公司來說它自己也有極左大陌性我是這麼覺得我們回到數據的話題國內有一個非常鮮明的仿真數據驅動派,就是王赫他的觀點跟你類似就是說僱人窯槽採集真實數據的成本非常高然後他當時給我算了一筆簡單的賬就說一個人型機器人一台最少是十萬製造成本一万台买下来用于数据采集意味着十个亿然后每台两班倒来雇人摇操四个人一个月可能就需要小几万此外还需要标注和质检每个月维护一万台机器人的成本在数亿到十亿你觉得他这个账算的对吗你刚说那些数字都说的比较快哈所以我没有仔细算但是ingeneral我是同意他的这个就是你需要摇操的话你需要有机器人成本你需要有运营成本你需要有质减成本其实这东西加起来是非常非常贵就是虽然我没有算那个账对不对就具体数字对不对但是我觉得这个东西肯定是一个不是很scalable的方式而且我会非常诧异如果终局大家是通过完全摇操的数据解决机器人的我觉得这个可能性是非常低的在这个背景之下仿真数据就是一个可行的方案是吗對但仿真現在就是什麼叫仿真現在這個定義越來越模糊了以前仿真是指物理仿真所以說大家說的仿真可能是BulletMojokoIsaacJim這些叫仿真就是他其實是在計算機裡面解物理方程然後計算運軌跡這個動叫仿真這是以前的仿真就現在因为VideoGenerationModel比如说VEO比如说SORA2它的这个新企业很多人认为仿真其实就是生成一段视频如果这个视频它看上去物理是正确的它也是一种就是新的意义上的仿真它是生成AI带来的一个新的仿真形式对而且我觉得就是不远的将来就是传统的物理模拟的仿真会慢慢地被生成式模型的仿真给取代這個生成式模型的仿真現在發展到什麼階段了剛開始對這個聽起來經濟很多它真的經濟嗎它可能不經濟因為你要生成視頻其實更貴嘛它需要算理成本但是要更多的算益成本但是你其实解决了很多问题就是比如说我要生成任意场景你在传统的仿真里面你需要有一个人建模建完模以后就像做游戏一样你需要很多designer把这个所有的场景所有的这个资产拼在一块然后我要50个家庭场景你就得一个手建了对这就非常困难但是我要50个家庭场景的视频你只要50个不同的prompt对吧你要说我要一个粉色的床加上两个床头柜另外一个你说我是有一个很大的比如白色的床就你只是输入的语言不同就可以瞬间生成两个完全不同的视频或者仿真但以前你在传统的仿真里面就得手作一个一个的把这个场景给建出来所以说到Solar2你觉得它有办事性的变化吗它也是一个革命性的变化吗就是Solar2肯定是智者飞跃就是但Solar2和Vio3我觉得就是没有太本质或者让我觉得特别惊艳的地方但有一点可能值得说一下就是在未来两三年里面或者在过去两三年里面就是这个视频生成模型的发展是非常迅速的就是我自己可能有一个比较错误的判断就是我记得可能几年前就是流浪地球的导演来一次硅谷他就问我们说这个下一个流浪地球3要上映的时候那是几年之后那个时候他那个导演这样一个工种是不是还存在或者是有很多就是电影制片的工种是不是还存在因为好像开始你只要说几句话就能生成一个小的clip然后你可以拼成一个电影那个时候我觉得啊那不可能那个可能还有好远好远才能够有真实的就是videogeneration所以我就安慰他说不急那个还有好久对我们正在努力的做但是时间没有你想象中来的那么快你当时觉得有多久我当时觉得可能203年你可以开始有一些可以应用的视频生成现在才是205年我觉得我肯定是低估了视频生成的发展速度的它里面关键的变化变量是什么为什么突然有一个质的变化有很多数据的原因有很多人才的原因它怎么准备的数据呢這我就不是很清楚了,因為我不是做視頻認證的但是他們這好像確實能幫助到你們的數據問題所以Solar2讓你們很興奮是嗎? 讓機器人領域的人我覺得所有的視頻生成模型的進展都會讓機器人領域感到非常興奮因為這就是一個新的仿真或者新的worldmodel它裡面有世界模型嗎?
世界模型的定義是如果給上前一幀然後給上這個機器人的動作你可以預測下一幀對現在所有的視頻生成模型就是絕大多數的它都不是說我可以通過輸入一個機器人的動作或者人的動作改變下一幀的結果所以現在我還不會稱之它為世界模型但是感覺從現有的就是視頻生成模型到世界模型就不是很遙遠这个很有趣就或者从另外一个角度,VEO它是一个视频生成模型但是Genie它更像一个世界模型因为Genie是你可以玩的你可以通过按键你可以改变生成的下一帧是什么样子的对吧你可以驾驶着一只龙然后你可以说我要左转右转你会看到完全不同的世界所以当你在每一帧的时候你可以有一个输入改变你的下一帧那个感觉就是世界模型但如果它是一个静态的已经生成好的几秒钟的视频那就不是世界模型這個現在誰做的最好啊在谷歌谷歌第一賣的我覺得Solid做的也不錯就是OpenAI做的也不錯還有很多很多小公司也在做真實數據和仿真數據它們可能的優劣是什麽呀怎麽彌補仿真數據的一些缺點生成極大量的仿真數據是彌補它缺點的一個很重要的手段就是仿真數據它不夠真實但是如果你在仿真的时候不断的变化它就是仿真的一些参数但是你生成几大量的数据就是从平均的意义上它可能也足够cover这个真实世界的物理了所以说有一种方法就是用怎么说呢用compute来解决这个精度问题用算力來換精度對你沒有那樣的精度但是你可以生成幾大量的數據這樣的話當你做平均的時候當你學習的時候因為數據量大嘛其實你取取了均值相當於所以說這可能就是和真實世界的物理就比較接近你剛才說的就是用視頻生成來做防针现在他的瓶颈在哪里第一个是他有很多幻觉第二是他有很多非物理的现象就是有很多人经常测这个视频生成模型就是做体操如果你是那段做体操的然后在整个过程中那个人还是两条腿是吧然后就说明这个模型还不错但很多时候这个人在做体操的时候在翻滚的过程中就不知道有多少腿会会被生成出来对就是有很多这种就是hallucination或者是非物理的现象我這個是題外話我就開始很困惑因為王赫是來過我節目他是國內非常強調仿真但是我那天去那個雲西大會的場子那裡所有的人因為王赫那個團隊當時的人走了然後剩下的人全部都不相信仿真數據的都是用真實數據的他們的邏輯是什麼呢我个人感觉是仿真数据是需要一段就是基础研究的它不是那么简单就是直接的但是真实数据就是现在已经证明你有更多的数据我的效果就会更好所以说它可能会有一个玻璃天花板虽然它加速很快因为你有数据我就可以马上看到效果的提升但是因为你最终的数据不可能无穷无尽所以它肯定有个玻璃天花板就它很快会达到它这个领域的数据墙我不知道是不是很快但是eventually它會有一個這數據牆但是如果是仿真數據的話就是你現在是因為有seemtorealgap嘛所以你可能開始的時候效果不是很好你加數據你覺得很多東西可能都在noise的範疇之內你沒有看到很明顯的提升但是一旦比如說research的突破它就沒有那個玻璃的天花板所以這是一個信仰問題很多research都是信仰問題絕大多數research都是信仰問題所以你信仰的是仿真那一派我心想的是scalabledata的那一派包括仿真數據包括人帶著camera採集的數據不是窯槽他自己採集的數據包括用視頻生成模型生成的數據就這些東西都是可以用算力來給你無窮無盡的數據的但是真實的機器人數據是需要operation需要cost需要robot就是那個我覺得就是不是一個很scalable的數據源所以不管怎麼樣只要scalable就可以對那听起来仿真数据是一个更可能scaleable的方案其实这个也可以用来解决大元模型的数据墙的问题对吧现在其实很多大元模型感觉就是经常大家会说有个吃了吐吐了吃的问题就是你先吃了internetscaleofdata然后它开始生成各种各样的新的文本新的数据然后它再吃回去然后又生成新的这也是以一种方式来解决就是data不够的难点仿真數據做出來的人多嗎在一個Robotics團隊裡面這完全看這個Robotics團隊他信仰是什麼像谷歌迪麥他有一個叫母joker的團隊他是一個非常知名的做仿真的團隊英美達也很信仿真那硅谷居然都是仿真拍的那也不是啊有谁不信我觉得其实硅谷大家都会讲着差不多的故事只是他们在他们的数据的mixture里面只是他们的仿真数据的多少问题就是大家都会不会说我孤注一掷的只用一种数据源对大家都在不断的探索那個數據反正是越多也好不管你是數據但是數據質量還是非常重要的如果那個數據質量非常差那越多的數據可能效果越差怎麼評判數據質量在這個領域在這個領域其實沒有標準評判數據質量其實大家還是researcher他可能就看著那個數據覺得那個數據太陡了不夠smooth這個數據已經踩過了其實有很多很多就是人為的評判標準他並沒有標準化这也是使得一个新兴产业叫DataFoundry我觉得特别困难的一点就是DataFoundry它采了很多数据但是我们并不能告诉它采的数据好不好所以我们拿过来用如果效果不好我们肯定说是Data没采好他们肯定说你们毛都没穿好所以这里有一个扯皮的过程原因就是DataQuality就是数据质量没有很好的定义但的确这是一个科研问题就是现在没有很好的定义如果巨聲智能機器人領域只解決一個最重要的問題就能帶來飛躍你覺得是數據問題我覺得是數據問題你怎麼看王欣欣的那句話就是她覺得大家對於數據的討論太多了忽略了架構本身的創新我覺得架構本身的創新是重要的那個GeneralRobotics1.5我說的什麼MotionTransfer這些就是它其實有很多程度是架構和算法的創新但是巧婦難為五米之炊就是如果你光創新架構也許你會在機器學習中更加efficient但是你的數據的量和coverage不夠的話那麼你的算法能力肯定是不行國內還有一個很多的討論是關於就是模型架構的一派是覺得端到端是一個統一的模型派另外一個是覺得是分層式的這是兩種不同的技術but還是最終會殊途同歸我剛聽你說我感覺是會殊途同歸的我可以再分享一个另外一个故事虽然我说了我的第一篇论文在国文论文是做强化学习但是我个人并不是特别相信虽然我在那篇论文里有很强的叫signoflife我觉得这东西可能能行但是我也碰到很多难点比如说rewardfunction怎么调然后如果这个train效果不好的话因为那时候PPO效率非常低嘛所以那个时候我在想有没有什么捷径于是我就想要不我们就把传统的控制理论和强化学习结合一下就是我底层还是传统控制理论,但是它有些参数我用强化学习来调然后其实我们团队就做这个方案做了很挺长一段时间,效果也不错,因为它就是立竿见影嘛,因为底层的东西已经差不多work了,强化学习可以立刻让它work但是整个历史的轨迹并没有朝着我想象这个方向走而是他们完全做端到端的强化学习就是stateinactionout然后这个的确几年之后成为了主流就是我觉得有的时候你为了解决一些现实中的问题或者你觉得在短期能够取得更好的效果你会有一些shortcut你会做一些就分层的模型但是至少从我过去的这个经验告诉我就是也许你直接投入最终你相信的那个端到端的大模型或unify大模型最后那个可能会胜出那你们现在投入了吗我们现在基本上都是端到端的除了短期的给你做一个proofofconcept说这个ER和比如说VLA它可以interact短期内你可以已经用这个模型了但是同时我们也是大量投入端到端的一个unified的模型VLA会是一种中级的架构吗或者VLA加RLVLA是现在我觉得效果最好的模型但是大家也在讨论就是language它可能在描述机器人尤其是非常复杂的这个行为的时候是不够的因为language像我说的它是一个有着信息损失的一种表达方式所以说大家经常说也许下一代是worldmodel因为worldmodel生成的是visual是下一帧对吧你可以看到比如说我在转笔的我在转笔的过程中我的每一个手指是怎么动的但是假设我在转笔或者用筷子的时候你要用语言来表达我下一步应该干什么那是很困难的对所以说很多其实好的这个表达方式可能是visual的所以说worldmodel在现在在硅谷是非常流行的说可能下一个下一个新的范式它是替换BLA的吗它不一定替换VLA,它可能会跟VLA共存,因为可能VLA它会变成,我不知道,创造一个新的名词,就是VL,然后可能是VA,当中那个V还是个Visual,就是你的Vision进去,你的Language进去,它可以生成下一帧的Image或者Vision,然后再基于这个可能生成下一步的Action。 现在世界模型它的关系是什么? 世界模型其實就是VLV,visionlanguagein,然後它可以生成下一幀的圖像所以你認可王欣欣說VLA加RL是一個相對傻瓜的架構嗎不傻瓜,我覺得這個做出來可厲害了這個世界模型會更好至少現在很多研究方向是朝那個方向他更符合世界物理的規律我同意還有一點就是大家可能覺得VOA看上去比較傻瓜是因為現在其實很多VOA的探索都比較熟練了就是你可以想一年前就是VOA完全不work的時候大家還有各種各樣的exploration比如說我怎麼表達這個action對吧我是用actiontoken還是用一種actionexpert還是用diffusion還是用其他方式就是很多東西就是在過去一年中一年裡面就是慢慢的怎麼說呢converge了所以大家就可能就是套用一個模式啊你就可以得到一個結果但其實我覺得整個VOA的發展其實還是需要很多很多就是talent和時間的因為我們在討論一個機器人大腦的時候國內叫巨聲智能啊他這個智的定義是什麼呀他聪明啊他知道他该干什么他能够思考他能够决策他能够行动他有一个非常确切的一个定义嘛你说巨神智能的智对他让他更灵活他是让他大脑更聪明這兩點都有就是大腦小腦都有就是剛我說的就是大腦你需要具有commonsense你需要有解決問題的能力你需要能夠根據現有的狀況給出一個很好的規劃對吧然後這是智的一個體現在小腦方面或在運動控制方面你需要能夠英文叫做dexterous就是你可以用比如五指解決很多manipulation的問題你可以用双足很敏捷的做很多比如说跑啊跳啊这种某某相关的任务所以说我觉得知识包含大脑和小脑的机器人大脑的你觉得需要增加更多的魔态吗除了刚才我们说的视觉预言动作还需要增加比如说触觉力觉嗅觉这些吗这个到底应该在大脑端还在小脑端是不一定的但是我觉得机器人的发展肯定是需要增加更多的魔态的就是现在这里有个很小的故事可以分享一下就是我的心路历程哈就是大家一直都说这个Tactilesensing就是触觉是非常重要的我也是一直相信的因为就是intuitively你每天都有这个皮肤然后感受着这个你触摸到的世界嘛对吧然后就是在Stanford有一个论文叫Aloha然后那时候我第一次看到就是人可以通过视觉,完全通过视觉然后摇操一个阿罗哈机器人做非常复杂的事情包括从皮包里面拿出一个信用卡,一个非常薄的东西然后我以为这种东西只有触觉才能做成但是阿罗哈的出现就是狠狠地打了我的脸然後我意識到其實很多東西用視覺也是可以解決的於是我又hold了這個beliefforawhile就是我覺得可能視覺對就夠了或者說視覺可以做95%的事情可能剩餘的5%才需要觸覺直到最近靈巧手開始變得越來越普及然後我開始去一些地方就是用咬槽的手段來控制那個靈巧手然後有一個例子就是靈巧手用剪刀就用剪刀是一件非常簡單的事情你把手往兩懷裏一套然後你就可以用剪刀了但那個時候他是沒有觸覺反饋的我完全通過視覺我把那個手就是那個控制的那個靈巧手的機前的手往那個剪刀那兩懷裏一套然後就開合我這邊的手但是因為我沒有觸覺,所以我不知道什麼時候開什麼時候關,因為那兩個環非常大所以有的時候你在不恰當的時間開關的時候,你只是手在那個兩環裡面動,但是並沒有控制整個剪刀的開關所以這時候讓我意識到其實如果你有靈巧手的時候,觸覺就非常重要之所以我前面覺得觸覺不重要是因為它其實受限於當時的硬件如果你只是個假爪那麼你可能遠的看到我這假爪開著關著我就能做很好的判斷但是當你有一個靈教說你有五個手指你要做很複雜的行為和任務的時候那麼觸覺感覺是必不可少所以當你覺得觸覺不重要的時候可能是當時的發展階段還沒有到加入更多舞臺肯定是的只是今天覺得它不必須是因為可能硬件的水平还不够对然后我们还得解决一些非常简单的问题但是视觉可以解决95%的问题是吗在那个甲爪时代ok那现在你的视觉能解决多少问题现在还在那个甲爪时代嘛所以我觉得在甲爪时代在所有甲爪能完成的任务里面我还是觉得视觉可能可以解决95%的问题所以视觉是最重要的一个模式视觉是对于现代已有硬件最重要的模式对马斯克说最终将通过观看YouTube视频学习执行任务他觉得纯视觉就OK了你不认可他这个观点我觉得把这两句话贴在一起讲我不知道马斯克的原话是这样子还是桑普豪经过了剪辑把两句其实可以有非常不同含义的话贴在了一块机器人看YouTube视频学会任务我觉得非常重要这个其实印证我前面一个观点说你不需要摇操你需要的是比如说video数据因为它是一个scalable的数据这个我完全没有任何异议我是非常同意这个观点的而且我以前在很多我自己的talk里有说希望有一天我们的机器人可以坐在电视机前看看Netflix看看YouTube他就学会了各种技能这个我没有任何反对意见下一句话说他可以完全通过视觉解决所有的问题这个我是不同意的而且这句话跟前面一句话是没有任何关系因为你通过视觉学习东西和通过视觉解决问题是两个不同的问题车你觉得坐驾驶还是通过纯视觉在解决问题吗自動駕駛是通過純視覺在解決問題至少Tesla選了一條純視覺的道路但是你覺得機器人不行對因為manipulation是一個非常複雜的問題然後它需要跟現實世界有反復的互動而且每一個互動的形式可能是不一樣的是的不過這也跟你怎麼定義你的機器人有關係你讓它到底是做什麼任務的當我們說的是一個通用人型機器人他有五指零巧手他能做所有人能做的任務的時候那個時候觸覺就必不可少你看現在的硬件他也沒有收斂那未來出現的硬件有沒有可能不適配今天的大腦呢這就說明crossembodiment非常重要這就說明我們做的這個研究方向還是非常重要的但是我個人還是覺得就是在未來人形機器人還會成為一個主流的形態它不會成為唯一的形態但它一定是一個主流的形態所以如果你只能beton一種embodiment我還是會beton人形就是要如果只bet一種架構的話它是端到端的如果只bet一種形態的話它是人形的對就是不要去做那些比较现实的那种分支的事因为它可能会浪费很多的时间这个其实有很多可以聊的地方就是这完全取决于你是在一个大公司做事情还是你是在做一个startup这可能也取决于你是在硅谷做事情还是你在中国做类似的问题因为我觉得每个人的就是目标是不一样的如果你的目标是说我要找我的目标或者说我个人倾向于做的事情是solveAGIinthephysicalworld所以说我会就是非常聚焦于就是最终的形态是什么样子最终的模型是什么样子所有其他的东西可能都是distraction但是如果你是一个创业公司然后资本对你的这个生存或者对你的盈利是有期待的那么你其实很难说撇开所有的我就是不盈利我就是说我要做20年以后的最终的模型于是你可能想的是我能够在短期内有一些落地然后把数据飞轮转起来然后慢慢的来把这个问题解决這個其實有一個對比可能是我不知道是不是非常恰當就是waymo和特斯拉其實採取了非常不同的策略他們都是想解決自動駕駛那waymo是就是看到最後我要L4對吧我要這個不管在什麼地方沒有人真的沒有人駕駛我連方向盤都不要所以他做的很多決策都說我怎麼樣能夠達到L4但是特斯拉就說我們不急我們反正賣車我們可以從L2L2.5一點往上做然後把那個數據飛輪轉起來Eventually我們可能也會達到L4所以我覺得這兩條路沒有對和錯我也說並不是說鼓勵大家一定要做端倒端一定要做人形只是大家在就殊途同歸嘛就用不同的方式解決同樣的問題你舉的這個例子非常有意思但是今天大家會覺得特斯拉是一個更正確的道路嗎这个很难评判这个是vimo也有非常成功的这个在旧金山或者在好几个地方就是运营的案例然后而且我觉得vimo有点特别伟大的地方是他真的把驾驶员给从车里面拿走就是我自己也是特斯拉用户嘛我觉得FSD非常非常厉害我经常用但是这个和你有勇气把驾驶员拿走我觉得是一个0-1的突破这个很有意思我们刚才其实说你个人的研究主线没有说完你在Google做了第一个强化学习的paper以后后来的发展是什么样的就是我做强化学习我就做了很长一段时间的就是不太的就locomotion之类的做了四组然后做到一个地步我觉得那个领域就非常卷了那个领域就是因为有了强化学习强化学习并不难用其实非常好用我覺得這也是一個怎麼說呢再岔開講一下就是這個從宏觀上來講就是當一個技術越來越容易用的時候那個技術很快就會普及就是說比如步態的控制那個人形機器人走路如果那個東西像我說開始是用NPCModelPredictedControl那個時候你需要一個PhD你才能真正理解那個數學然後才能解那個方程那麼這個算法或這個技術離普及就還差好遠然后那个之后就是reinforcement就是强化学习出来了强化学习呢就是我觉得现在很多高中生都可以网上当一个强化学习的这个包比如PPO然后从NBA那拿一个什么IsaacJim然后把它放在一起然后train一下deploy一下就是很多可能高中生都能做这个事情于是这个东西就说明马上会变得非常卷因为很多很多人能够进入这个领域来做贡献的确强化学习瞬间就解决了这个所有的local模式的问题同时就是在未来你可以看到就是PromptEngineering是几乎所有人都能做的因为是自然语言对吧你可以跟这个模型用各种方式使得这个模型帮你做事情所以说我觉得大语言模型的出现可能很快会解决很多很多不仅是Robotics是各个行业的问题所以说我做了一个东西做了一个阶段以后发觉就是强化学习已经普及了就是不管是在美国在中国大家都开始强化学习解决机器人布泰问题的时候因为我觉得我Ishouldmoveon去解决一个可能更难的还没有就是全民都可以解决的问题于是那个时候我就开始这是哪个呀那个可能是2012年的时候那时候我就开始做机器人大模型就是基础模型基础模型对然后那个时候就Google发了好几篇相关的论文CACAN是用语言模型让机器人有了commonsense它可以一步一步分解一个很复杂的任务然后RT1是说我们可以用一个transformer这样一个architecture吸收很多很多的数据使得它的这个performance越来越好然后RT2本来就是说我已经有一个VRM了它已经有这个InternetScaleofData的训练然后我可以加上一些就是Action的训练使得它可以借用就是所有的Internet上面的知识来做很多事情然后到后来GeminiRobotics就是有一个非常非常强大的这个基底模型基座模型Geminibytheway非常非常的强大就是我们发现就是说如果你的这个就是基础模型非常强的话那么你在加入这个actiondata的时候你就不需要那么费力而且你的泛化性啊等等方面都会变得更好我突然意识到强调机器人机座独立性的人他是创业公司所以他自己没有那个机座大地穴模型而你们在Gemini之上所以感受是不一样的非常可能就是根據你其實在做的事情你的認知也會非常不一樣就是比如說如果我跟一年以前吧或者如果我跟很多比如在學校做機器人的老師也好學生也好大家會覺得有一個泛化能力非常重要而且很難做那個叫visualgeneralization就是當你的光照變化的時候当你的布景变化颜色变化的时候那么机器人本来能做的事情可能突然间做不了了因为你可能没有收集过之类的数据但是因為我們TrainGemini嘛Gemini它有個非常強的叫VisualEncoder那個VisualEncoder已經見過全世界所有英特爾網上的數據的假設對吧就很多很多數據我們就發覺這個VisualGeneralizationcomeforfree我們不需要做任何的研究或任何的東西它的VisualGeneralization就已經特別好所以當你有一個已經非常強的這個基底模型和你還是沒有這個非常強或者你用一個開源的模型或者你從頭開始Train一個模型我覺得大家認知會是不太一樣的你也很有意思你之前創過業然後加入了大公司在大公司待了十年為什麼呀那你接下來的十年你會願意在大公司還是會願意比如說自己創業或者加入一個創業公司我覺得很多人都會有個創業夢吧我覺得小时候也没有小时候本科的时候我觉得我也年轻想闯一闯想看看这个世界什么样子想知道创业是什么样的感受然后那时候正好有些朋友有一样的志向有时候就去创业了非常锻炼人我觉得不管是从技术从你要想产品从融资从各个角度都非常锻炼人所以我我非常怎么说呢非常感激那段创业的经历吧然后现在我觉得在大公司其实是一个非常不错的选择主要原因还是现在很多事情感觉只有在大公司能做因为大公司有资源大公司有算力大公司一大批和你一样有着使命感然后非常聪明的人像这种大模型时代其实很多事情尤其是当你的这个使命是solveAsiainthephysicalworld的时候我觉得其实并没有太多其他的选择这是什么时候意识到的你什么时候会有很深刻的这种感受吗这可能是最近几年对就开始我觉得在大公司就挺好的Payswell,niceenvironment,freefood,对吧也有很多的自由去explore你想做的事情觉得不同的好吧但是这一两年当AI真的开始卷起来的时候其实你也看到很多学校老师他们要么去创业了要么在大公司兼职其实他们都是需要有更多的资源对吧更多的算力所以说如果有一个大公司他能提供给你算力资源而且领导足够重视大家有就相同的go的话我觉得是一个非常难得的机会你觉得这几年GoogleAI或者Robotics的研究文化上有没有发生过变化那我觉得这个变化是很大的因为我怎么说也算圆老级的员工了是因为我是九年前加入的可能我加入的时候正好是这个team起步的时候那个时候其实就非常的怎么说松散管理吧就是每个进来的researcher都独当一面你想做什么你就做大家给你足够的信任而且人比较少嘛所以资源分配也不是什么问题人有多少当时當時可能我加入的是10個人現在多少人? 現在150個人,只有Robotics所以10年前9年前只有10個人在研究Robotics? 在GoogleBrain而且那時候可能GoogleBrain也沒有很大,也就幾十個人會不會更懷念那個時候?
我覺得感受是不一樣的,然後那個時候Youcandowhateveryoulike感覺是非常爽的一件事情但同時你也發覺你個人的impact是非常有限的其實你就像一個verywellpaidPhD對吧或者可能verywellpaidassistantprofessor就是你有一些自主权决定要做什么研究了然后Googlepayyouwell但是你很难想象就是我能做一个非常大的惊天地泣鬼神的事情因为每个人都非常松散嘛就是我也很难聚一拨人大家做一个大的事情对然后慢慢的就是我觉得Google也意识到这一点觉得我们不想只是有一个academiclabbutverycostly所以说Google也是希望就是你们可以有更多人做类似的事情然后非常的聚焦的解决一个很大的问题所以不管是从promotion或者是从performancereview从incentive从各种各样的structure上就是谷歌想创造一个环境使得更多的人可以解决一起解决更大的事情他需要团队协作需要团队协作对然后到最近就是你可以看GeminiRobotics不管是第一代就是三月份的那个版本那个时候可能已经是120个人在authorlist上这次可能160到180个人就是说真的是需要一个很大的团队齐心协力然后有一些人是解决比如说infrastructure就是比如说datapipeline或者trainingpipeline的问题然后有些人是做research然后有些人是做比如说evaluation因为你有很多robot它要并行的做这个测试有些人是得做datacollection做maintenance就是你真的需要一个非常大的团队非常强的算力才能把这样一件事情做好那從比較分散的結構到一個能夠集團軍作戰的結構它的管理方式發生了變化嗎那變化非常大嘛就是我覺得開始的時候人比較少你會不適應嗎我觉得我是因为我一直在这样一个团队里我是随着它在不断的变化并不是说我开始在一个非常松散的团队突然间空降到一个就是集团军作战的团队如果是那样子的话我能够非常想象就是说这个会有cultureshock但是因为我在不断的随着它变化其实也在不断的就是shape这个变化所以说对我来说并没有一个不适应而且我觉得这是一个好的变化很多人會討論AI的組織是要自上而下還是自下而上,你們是什麼樣的? 我們是都有,像GeneralRobotics它是更多的自上而下就是你得確定一個方向,你得確定一個timeline你想吧,就是那麼多人他要做實驗,資源也不是無限的你也不是有什么几百万张卡是吧大家可以随便用就是还是有很多的coordination还是有很多自上而下的就是决策但同时我们也有除了generalrobotics我们还有很多其他的research那个是自下而上的因为还是researcher都很强他们都非常紧跟这个时代的潮流就是他们会想到各种各样新的方法然后想做实验所以他们会自下而上的就是和几个人一起形成一个很小的团队做这种非常快速的迭代然后failfast然后如果这东西做成了他们会想把这东西集成到比如GeminiRobotics里面使得它有更好的更大的一个impact我想到今天一反复来聊的那个secretmotiontransfer它是自上而下产生的还是自下而上产生的呀那个是自下而上产生的我们的目标是我们想解决这个databottleneck所以你细分下来会有一块就是我们需要我可以trainonthemultipleembodimentdata这个是直上而下的就是what是直上而下的我们要什么但how其实经常是直上而下的其实当很多人知道我们需要这个的时候他会有各种各样的想法说怎么做这个然后就会有很多很小的团队他们尝试不同的方法然后其实很多方法都是work很多方法其实它们甚至是compatible它们可以像搭积木一样搭在一起其实这个motiontransfer就是这样一个例子就是其实有三四个不同的团队他们有一些想法而且这个想法是你可以全部integrate到一个系统里面的然后造就了这个motiontransfer所以Google现在相信大力出奇迹吗就大力是必須的但大力不是sufficient就是有necessarycondition和sufficientcondition就是充要條件大力是必要條件如果你不scaleup我覺得就很難有奇蹟發生但是如果你光scaleup但是你不夠聰明你不夠有足夠的創新光堆比如說算力堆data我覺得是不夠的你們最捲能捲到什麼程度現在这个问题其实我最近跟很多就我回国嘛就是我知道就国内很卷所以我就想知道国内有多卷我发觉好像国内不一定比我卷就是虽然我们team都挺卷然后我将跟别人说我一周可能工作70到80个小时感觉可能比96还要更辛苦一点但这个感觉在硅谷现在在AI圈子里面已经是常态了大家一提到Google都會說它研究的文化很好它的研究的比喻很好但是同時大公司也會有大公司病吧這每個公司都有你覺得現在還強嗎大公司病肯定是存在的大公司總是在決策上你要一層一層的獲得approval大公司在很多地方都非常conservative對吧大公司總是有各種各樣的壟斷和PR的risk所以我覺得大公司總體來說還是比較conservative的然後我除了做這個研究我還有另外一個就是我要做對team負責的工作叫researchiterationspeed就是我要保證就是大家想做的東西很快能做出來但這就是你得fight這個整個大公司病如果research說我想要用這個data但是大公司说我要用这个data我需要过duediligence我要过legalcompliance我要过这个过那个那个流程非常复杂你可能需要几周的时间对你都用不上那个data就是或者说我想试一下这个新的机器人那同样就是以前在谷歌可能需要可能超过30个businessdays从你表达这个意愿到你可以把那个purchaseorder发出去所以这都非常的非常的慢我不得不跟很多Google內部的比如說離構團隊或者是Operation團隊做很多合作跟他說這個時代你是等不起的你等了30天以後你那些非常有使命感的Researcher都跑了真的就是這個時代真的是等不起或者是別人都做出來了于是我觉得自上而下GoogleDemand对Robotics还是非常重视的所以他们也开了很多Specialcase使得我们可以加速不管是采购也好实验也好数据也好就各个方面的一些叫Iterationspeed所以我想說的是大公司病原來是存在的但是如果你工作是一個非常重要非常competitive的area我覺得你還是有一定的leverage使得公司為你們團隊做出一些變化開綠燈對那你們怎麼考核Researcher这个是个非常好的问题我觉得每个团队都会有就是每个公司都会有自己的标准然后我们就一直就说impact是最重要的impact有很多很多怎么说呢方面像以前就是谷歌还在发很多论文的时候就是你的论文的数量质量citation就是一个非常重要的指标如果你这个论文发布的东西它被就是集成到产品里面然后这个产品所带来的这个价值和收益就是另外一个很重要的指标就是它会有各种各样的这样不同的axis然后综合的评价这个人的performance你们会末尾淘汰吗我们就是谷歌也是就末尾淘汰是一个非常怎么说呢非常vague的定义就是Google的确是performancereview非常rigorous然后Google对最底层的就是最底下的就是它有个bucket叫needimprovement就是说如果你的performance没有达到标准的话它会有一个plan使得你的就是manager会workwithyou使得你能够达到就是标准否则的话是会被淘汰的它可能不如就是有一些公司比如说Meta对吧它就非常clearcut它有一个比例然后这个比例之下可能就会直接淘汰了就Google可能会更耐心一点这个文化稍微更好一点就是因为每个人都有自己的priority每个人都有自己各种各样生活中的不同的状况所以说哪怕你在一个performancereview里面可能表现不是很好youwillhaveasecondchancetoproveyourself你覺得Meta對於最近矽谷的人才流動有帶來什麼變化嗎這個變化是非常大的我覺得Meta做了好幾件事情第一個是它把AI人才的價格超高了非常的高AI人才是不是真的值這麼多錢我其實不知道有很多種說法第一個是說這是供求導致的所有的大公司都希望發展AI就AIfirst所以它需要大量的有大量的需求但是AI人才供給是非常有限的尤其是最優質的AI人才的供給所以因為供給需求的關係使得這個價格非常高這是一種說法第二種說法說AI人才的確值這個價因为算力是非常贵的如果你把算力浪费了那么那个钱也是很多的不如你花钱招一些人好好利用这些算力然后创造价值因为那个价值是远大于这些人的cost这是第二种做法就是这个value是在哪里还有第三种做法就是说挖这些人和就是买类似的公司挖人还是便宜的所以说这个价格还是值的我不知道其实很难判断是不是一个人值一个亿美金但是我觉得Meta最近的一系列操作的确扰动了整个硅谷对AI人才的这个价格对你们是好事从某种程度上对我们是好事是因为整体就是水涨船高嘛就是大家的价格留住人才不是好事就是作为一个怎么说manager对吧就是我每天都得不是不是就经常得说哎他说哎他给了我一个offer多少钱啊我就得想就是你有什么招呢我觉得首先看看那个价格是不是合理啊如果那个价格不合理的话或者是会非常影响整个team的公平因为其实很难一个人别人要强特别多当然也有这种情况但是可能很多时候就是一个singlecase他在meta获得一个非常高的薪水如果是这种情况的话如果就会影响到team的公平的话就是你可能还是会从别的方式来留住这个人而不仅仅是从薪水要留住經常是能留住的我覺得其實很多人尤其最優質的人才那些被挖的人他真正care的不一定是錢他真正care的是他們相信在機器人行業很快會有一個巨大的變革如果這個變革發生Notyet如果這個變革發生他們是希望在driverseat我覺得一個有使命感的人他不會容忍說我在I'monawrongship對吧我一定要attherightship在這個發生的時候那麼就是betonmeta還是betongoogle就是在哪邊有更多的資源更多的算力更多的支持更多的talent所以你經常能留住成功對我經常可以留住人有失敗的嗎當然有失敗的哪個多當然成功的多Meta為什麼這多錢挖人? 他是著急了嗎? 我覺得這有很多因素吧我覺得Meta的確肯定是著急的因為整個AI的行業發展如此迅速可能过去一两年里面就是比如说Meta的模型并不是不在firsttier然后他们肯定也是希望自己的这个AI和大模型团队能够挤进firsttier所以其实要从头培养一个大模型团队还是非常困难的所以可能挖人是一个最直截了当的方法我有一个好奇的基础问题它一亿美金一般是有什么条件啊它是几年的一个package我不知道我很希望我知道是吧一般來說矽谷是什麼規律一般性就是大家說package的話casebycase吧就是經常可能是四年的package但在這個case上我是真的不知道所以我覺得現在其實回國還是一個非主流選擇呢我覺得我也看到很多人回國就是也不能說機器人的嗎沒有很多但是我的確看到回國的例子所以它是如果你從數量角度來說它的確不是一個主流選擇在Robotics領域華人有多少還是挺多的像你們Team呢就是我加入GoogleBrain的時候我好像是唯一的華人對那當然是九年以前了然後這幾年就是AI和Robotics融合越來越多然後AI界華人其實很多CV界華人也是很多的然后像我们team可能百分之五六十是华人为什么华人在这一波浪潮里面这么多人他是有什么背景原因吗AI有很多是数学我觉得华人数学比较好华人特别吃苦耐劳就是他们又talent又能吃苦我觉得然后所以他们特别容易取得成绩我觉得这可能是主要原因以前就是在AI之前大家会说硅谷大公司里面华人做的管理层面很少你觉得AI是不是会改变这个现状我觉得会的以前也会抱怨说华人在海外不团结但我其实我在美国十五六年了我并没有感觉到华人不团结的问题然后还有以前说是印度人就是印度人其实他是有一些优势的就是我的确能很清楚的看到在美国的高层里面印度人的比例是占比更高更高但的确印度人的表达能力更好就是他们可能很多印度人英语是母语而且很多印度人尤其是就是可能家境比较好就是环境条件比较好印度人他受到的教育就是在表达能力上还是要强于中国的传统教育的而且印度人可能更外向更愿意speakup所以这个在西方文化中非常重要但是你觉得华人在这一步里面会改变这个格局我覺得肯定是會改變的我覺得華人其實更刻苦更talented就是很多華人他也在不斷的adapt這種西方的文化或者西方的一些規則所以我覺得毫無疑問華人會在這個哪怕在矽谷的大公司佔據越來越重要的位置你覺得現在有跡象來看苗頭了沒有我觉得其实有很多华人高管,最近回字节的永辉也是在Google的华人高管其实有很多华人高管,一个很有意思的例子我最近招人,然后有一个白人美国的PhD毕业了然后他在考虑是不是要签我们,然后我就跟他聊了一下然後他就跟我說我真的希望你們team能多招點華人我說為什麼呀我覺得這不是diversity就是非常不diverse嗎他說他有很多華人的collaborator他跟很多華人合作他覺得真的做AI做機器人的華人非常的努力而且非常的productive然後他說他還學到一個詞叫牛馬对他说他特别喜欢自己做牛做马对他他自己也对然后他说他是不是对这个词有什么误解可能是他他可能这个词在他心目中就是刻苦努力的象征对然后他觉得啊很多华人都说自己是牛马然后他自己也想当牛马然后他说对他就希望乒乓琳能可以有更多的华人录了没录了他是不是见到你才这么说的但我知道,我看他以前的論文也好,他的確有很多華人的合作夥伴有意思回到機器人領域,你覺得未來五年十年我們可以看到什麼樣的世界我覺得未來兩三年我們應該會看到一個就像你說的GPT時刻在這個時刻人們會真實的意識到這個robotsarecoming就是generousrobotsarecoming我覺得那個時候會有更多的錢,就機器人領域會更熱,會有更多的錢投入機器人領域,那是可能未來的兩三年。 然後我覺得未來的五年之內就是機器人會在這種有放話能力的機器人會更快地落地,它會開始在各種產業裡面發揮它的作用。
我觉得在家庭里面广泛的落地需要更长的时间所以开始的落地可能还是偏传统领域比如制造呀比如说物流或者是超市等等但是它也不再是以前的传统的自动化的那种就是一成不变的动作他们有些放话能力可以做更多的事情我覺得在十年的這個長度週期裏面我覺得機器人開始廣泛的進入家庭然後他的確可以開始為人們的每天的生活做出非常多的貢獻如果機器人擁有了智力他到底是機器人還是人呢那人工智能是人工還是智能這個可能不是特別重要我覺得很多東西它更多的智力只是一個統計規律上的結果所以我覺得至少用現在的方法做人工智能做機器人它可能還是更接近於機器你這次回國你有什麼感受中國發展真快从哪些角度就是生活非常便捷就是我回国不是你好久没回国了非常经常对我可能是二三年年底回来一次然后covid之前回来了一次我可能平均两三年三四年回来一次然后每次回来都觉得有巨大的变化因为长期没有在国内生活就是完全没有意识到就是生活有多么便捷就是不管你要买早餐什么的就是每团一下就好了然后出门啊什么都非常然後我待在了上海然後來北京然後覺得大城市就是上海的其實發展也很快就是有很多以前我是上海長大的嘛以前可能大家知道就是外灘陸家嘴就幾個很局域型的區域比如說黃埔區然後這是第一次去徐匯濱江就是感覺有很多新的這個發展新的商圈感覺特別高級然後生活就是說有很多展有很多的秀我覺得生活肯定比在矽谷要豐富多彩的多那跟國內據稱智能機器人領域的人交流呢你覺得中美有什麼不一樣這是一個很好的問題就是我聽到的就是第一點就是中國的硬件發展特別快這個我也是在美國能夠非常明顯的看到的语书也好智源也好星海图也好就是很多很多这个硬件公司像雨后春笋般的为全世界提供着便宜又优质的机器人硬件从AI的角度来说我觉得中国发展也非常的快但我同时也听说就是中国的大环境和这个文化和硅谷还是不太一样的就是在硅谷大家会有一个信念就是哪怕你并没有做出什么初期的结果只要大家相信一个东西大家还是愿意花时间花精力花钱上去做的这个时间能有多长这个时间可以很长十年比如说十年我听说哈就是在在国内就是大家会相对追求比较短期的目标就是你在短期内要落地要盈利要看到快速的不断的发展否则的话就是你可能不会受到很大的重视或者得到足够的资源但是我觉得这个在大模型时代你真的需要烧很多钱你才能看到结果就是很多时候你要看到3M来比如在Robotics上你需要几万小时的数据如果你只有几百小时的数据其实你都无法验证ScalingLaw但是很多可能國內的不管是企業家投資人也好他們希望說我先給你一點錢然後你踩十幾個小數據你給我看結果不錯然後再給你繼續投資或者投算力但是可能那開始初期的這些錢是遠不夠的所以說真的有的時候在技術上需要一個信仰我覺得馬斯克是一個很好的例子馬斯克說我們要做什麼的時候絕大多數人是不信的但好在它做成了很多事情可能也使得就是在硅谷大家愿意相信一个看上去非常ambitious非常不着边际的信仰大家愿意相信愿意投钱使得促成了很多硅谷就是让人难以想象的这个快速的发展但是也会有一种观点说就是硬件的发展还是在国内这我同意那对于你们要做机器人来说当然你们是现在是做的是大脑啊那如果要做一个机器人本体的话怎么办不考虑就是地缘政治的关系的话那我觉得我相信肯定是中美应该更好的合作就是比如说很多智能的发展可能在美国会有更快的发展但是比如说供应链硬件制造本体甚至一些控制我觉得在国内其实做得相当好了如果中美能够有更好的这个合作我觉得对全人类来说可能是一个尤其机器人领域是一个非常重要的非常重要的理想杯吧我突然在想Google这条路可能类比于自动驾驶它可能更像微木这条路那像国内这些公司因为它有硬件它可以大量採取数据是不是更像特斯拉的路线你可以这么说我觉得本质的区别是特斯拉的车是有用的所以说它是有数据飞轮的现在虽然中国很多企业有着更好的硬件它可以采数据但是这个硬件还没有达到一个BAR时的它是有用的所以数据飞轮装不起来所以说它其实很难跟特斯拉类比特斯拉解决一个更简单的问题非常好的垂直场景对你现在看到这种类似的垂直场景没有在机器人上但是自動駕駛也是一種機器人我只能從我熟悉的這些創業公司來講就是比如說Coro上讓人非常驚艷的就是Dyna的demo我覺得是一個還挺不錯的垂直領域至少在美國吧就是人力成本比較高在不管是收拾衣物還是折餐巾還是各種這樣的垂直領域其實cost還是挺大的然後這些柔性什麼布料啊這種的manipulation傳統來說是非常難的因為你很難寫一個controller或者一個傳統規劃算法來做好它這的確是需要AI的價值的所以我覺得Diana她找到了一個AI能夠增加value取代傳統算法同時那個vertical的確有一定的量和需求找到了一個就是那個交集上的一個點總體來說我覺得要找到那個交集還是挺難的但這不是你想做的事情對吧翻译的这个场景当如果你的那个实现了就是那个通用的机器人的大脑实现了他会覆盖这个命运會的是會的對的我覺得當一個Journalist真正成形的話就是Specialist其實很難生存的因為我一個機器人其實可以做你的事情但我還可以做10個其他不同的事情那極端一點的話你的那個事情能覆蓋掉托斯拉做的這個事情嗎因為他也是某種程度的機器人嘛如果當你的機器人如果通用的話那自動駕駛這個垂類機器人是不是就失效了呢當然這個很極端當我有一個人型機器人它能夠像人一樣或超越人的智能的話那麼的確我不需要車來自動駕駛了我可以有個機器人它來做自動駕駛你相信這個嗎我覺得這個沒有必要但是這是可以取代的就是從效用上不一定需要它對但是你想想就是未來如果你反正買一個這樣的機器人對吧然後你有兩種選擇去買車一個是帶自動駕駛功能的它要更貴一個是不帶自動駕駛功能的但是你知道你家裡買的那個人型機器人它是可以幫你做自動駕駛也許你就不需要再去買那個有自動駕駛功能的車了但雖然我覺得這個場景不一定會實現就像你說的非常極端但是我覺得就是當一個generalist真的進入這個世界的時候我覺得specialist很多specialist都很難生存這generalist多少年能進入世界就像我刚刚说的,两到三年应该有足够的突破然后五到十年是他能真正落地的一个时间线你觉得他能有多gender呢? 他能通过到所有任务吗? 我觉得不太可能啊我以前就是在硅谷跟大家交流的時候我說機器人的發展有這麼幾個階段第一個階段我叫它就是Automation這個其實已經實現了就是你在這個車廠就是所有東西都是機器人的但是你都是編程的對吧它都是固定的這個規則固定的第二個呢我叫它就說TeleoperateRobot就是這個機器人呢它的硬件是很完善的但它沒有大腦但是你可以通过这个摇操的方式让它做很多很多的事情这个现在基本上你也可以看到特斯拉比如在很多场景里面它是摇操的但是你有时候分不出来它是摇操的还是自主的就说明它的机身硬件已经非常完善了第三块呢就是他是一个generalist但他不是特别的general他能做一个narrowdomain的事情其实可能self-driving就是其中一个场景他是智能的自动的但是他不是做所有的事情下一个就是真正的generalist他可以开始做家庭里所有的事情他可能跟人一样capable这个时候可能就是人形机器人在家庭落地的时候最后一个stage叫superhuman就是因为强化学习,因为机器人它可能有碳基生物所没有的一些存储,然后powerdensity之类的它可能在很多领域会超越人类的智能和体能那可能是最后一个stage我们需要担心人类的安全问题吗? 需要虽然还挺远的我觉得但是我们应该时时刻刻记住就是这个AIsafety和机器人safety它们不是儿戏当AI它能够自我迭代的时候或者机器人能够自我迭代的时候我觉得人类是面临生存问题的我们要提前做一些什么呢我覺得像GoogleDemand在做所有的AI模型的時候包括做機器人模型的時候它都有一個叫responsibilityandsafetyconsole它就會審查你所有的可能對社會的影響和它的safety的consequence然後他會給你很多很多的guideline然後同時在我們team其實有很多做robotsafety的研究包括AIsafety的研究所以就是說你就得beaware就是你知道這個他的就是後果可能很嚴重所以在每一個發展的周期每一個發展的stage你得做相應的研究我覺得在worstcasescenario如果你的機器人的能力超越了我們對AI安全的理解的時候你應該停下機器人能力的發展然後讓AIsafety或機器人safetycatchup然後再齊頭並進地做這兩方面的研究過去這兩年的發展你有覺得在你訓練機器人的過程中有什麼出乎你意料的沒有那個太多了我覺得就是一年前我觉得机器人还挺傻的就是我记得一年前我们想做一个Christmasdemo就是拿一个那个圣诞节的袜子然后抓起来然后塞一点礼物进去然后那时候我觉得机器人连袜子都抓不起来然後比如說今年那個機器人已經可以做很多很多很多事情了就是我們在Coro做了一個demo然後我並其實我那時候並不在但是我就是就同事跟我講就是有一個MSR的researcher他拿了一個box那個box上有很多很多什麼按鈕呀插的那个什么像耳机线一样插耳机线那种东西然后有很多这个slider或者是knob然后当然这个东西机器人肯定完全没有见过因为是他自己可能带来的一个设备然后他就给了我们25个task这个25个task比如说把这个按钮按下去或者是把这个左边第二个开关打开这些也是肯定在trainingdata里没有的然后我听说就是这个机器人做了10个就完成了10个这个从以前来讲是不可思议的因为泛化性一直是机器人非常难以解决的问题虽然就是说这个模型并没有完美地完成所有25个task但是完成10个我觉得这个在六個月前是不可想像的所以發展的非常快我聽說能幹活的機器人現在是一片荒漠我基本上同意吧能幹活的機器人現在是一片荒漠聽說你日常生活是一個很瀟灑的人你平時會幹嘛我平常會幹各種各樣的事情我比較喜歡出去旅遊然後我比較喜歡種花玩赛车对我有时候会去练练赛车后来发觉在真实赛道练赛车太贵了在家里买了一个很好的模拟器练赛车那你还是worklifebalance的我还练钢琴对怎么说呢人总是需要一些爱好然后总是需要一些解压的手段否则我觉得工作压力还是很大的工作时长也很长压力也很大所以我觉得工作之余还是会花一点时间我还有两个爸他们年龄差距也特别大大娃12岁我开始教她一些编程机器人的东西特别有意思然后小娃五个月特别可爱所以说工作之余还是有很多非常有意思的事情你会在训机器人和带娃的过程中感觉到两者有什么本质的不同吗非常相似的就是其实爸爸的学习基本上就是两种学习方式嘛,一个是强化学习,他就是不断地探索,然后他获得一定的reward,然后reinforce他这个做一些事情的能力第二个就是imitation,他看着爸妈做什么,看着他身边的小伙伴们做什么,然后慢慢地学习就這兩個是非常相似的然後經常我會做一些類比嘛就說啊我們這個機器人it'sliketwoyearsold就是你可以因為我再隨著這個小朋友的這個發展他開始慢慢的有了視力有了視力以後他開始慢慢的學會就抓取慢慢的可以就是做起來然後可以開始走入Locomotion其實很多東西和這個AI的發展是非常相似的只是somehow我覺得manipulation但是對於機器人來說人類學習中的數據是什麼呀就是你視覺看到的東西和你觸覺摸到的東西和你聽到的東西我們天然就在這個真實世界裡我们在不断地获取数据,然后我们有个大脑它可以存储很多数据它可以distill这些信息,然后strengthen一些神经元之间的连接所以这个整个学习过程和机器学习是非常像的所以机器人真的到现在像几岁的小孩我觉得你说如果是locomotion的话那我覺得機器人已經比我好了,比我強了前不久北京有一個機器人奧運會就是機器人運動會我覺得就是余述的那個人形你跑得比我快那個從就是零敲鎖的manipulation來說先不說零敲鎖了就說假抓我覺得他可能就真的像兩三歲的小孩他抓的不是很穩但是他能夠大概的理解你要他幹什麼然後followtheinstruction然後他可能嘗試幾次他能做對就是可能兩歲的小孩的水平但如果是零敲鎖的來說我覺得从整个人来说呢? 就是一个完整的人来说他像几岁这是一个很奇怪的问题因为他的就是走路和行动能力感觉已经超越成年人了但他抓取大脑的能力可能还是像一个小孩所以整体我不知道你怎么算是他发展的非常的不同步不均衡对对因为我觉得在这个步态啊行走呀locomotion上就是强化学习就是在过去五年里面基本上解决了这个问题但是在就是手的控制和manipulation上我们并没有找到一个很好的解决方案当人和机器人共存的世界出现以后你觉得人和机器人的本质区别会是什么你能接受你的小孩以后跟机器人谈恋爱吗这是一个我没有仔细思考过的问题我觉得它们的区别还是很明显的这个问题得仔细思考一下我并没有一个很好的答案就是说它们的区别是什么因為這其實跟機器人是不是真正有意識是相關的那意識又是什麼呢對這是一個哲學問題現在的機器人對我來說或者現在的機器學對我來說只是從大數據裡面找到一個統計規律然後這我覺得和人的意識還是非常不一樣的但是意識究竟是什麼從什麼時候開始你可以判斷說機器人有了意識这个我并没有更好的答案所以所有问题我想说的是就是我觉得绝大多数的人尤其是不是在机器人行业里的人对机器人的发展是overestimate的因为大家习惯于就是说把最好的结果拿出来拍一个video尽管这个video它不是很具有这个不是很representative它可能只是代表了我拍了十遍里面最好的那个结果但当观众看到这个video的时候觉得这就是机器人已经有的能力了所以大家可能觉得明年我就能買一個人形機器人在家給我服務了我覺得可能投資人會稍微清醒一點但是投資人也是經常overestimate整個行業的發展的所以我想說的是我個人雖然非常的非常的exciting覺得這是一個非常好的時機和時代但是我覺得我們還是要保持冷靜去真正理解機器人現在的狀況我覺得雖然整個科技的發展在加速但是離機器人應用的這個gap還是比較大的所以我覺得還需要等待一段時間使得機器人真正的落地這好像會不會有巨大的泡沫這可能會有巨大的泡沫这个取决于就是到底机器人发展有多快这是第一点对因为也许在未来两年中它持续加速对吧第二个是大家有没有找到落地的场景就像大家开始找落地场景一年以前我觉得是不可能落地的就是这种AI机器人在短期内但现在大家似乎找到了一些可能可以落地的方向如果这些速度持续加快然后落地持续发生的话可能它不是个泡沫但是大家可能覺得就是這個機器人進入他們的生活,就是人型機器人進入他們的生活,我覺得那個還挺遙遠的一個時代可能會有幾個最重要的需要被定義的問題,你覺得機器人領域最重要的幾個被定義的問題會是什麼樣這是個很好的問題,其實我真的希望機器人領域有這樣的問題但是機器人是一個非常怎麼說化學科複雜的就是它是很多很多一系列問題疊加而成的一個綜合性問題而不是說如果我解決一個問題機器人就突然間能夠work如果你一定要說有一個問題就是如何能夠獲得高質量的數據這是可能我們現在第一個急待解決的問題是是我自己看精神診斷行業的時候就感覺跟AI行業還是很不一樣的因為我覺得AI還是有一個明確的主線的但是機器人好像是這裏一點那裏那一點都還沒有解決完都還沒有解決都才剛開始好像對我同意這我說的就是說其實機器人行業還挺遙遠的大家不要就是高估了現在機器人的能力然後低估了機器人能夠實現的時間最後幾個快問快答一個全球範圍內你喜歡的食物你说吃的吗?
我有太多喜欢吃的了我是个吃客,吃货你推一个硅谷的餐厅给大家吧就是你特别喜欢吃的硅谷有一个,就在我家边上,叫PinksBistro就那家是一个云南菜我觉得在硅谷云南菜挺少的所以我特别喜欢一个全球范围内你喜欢的地点? 上海基于所有读过的书推荐两本必读书有一本书叫StartwithWhy我觉得那本书彻底地改变了我communication的skill第二个叫好像我记不起其完整的确切的名字就是SevenHabitsofHighlyEffectivePeople很多人推荐过这本书你心目中影响机器人进程的几条论文那很多论文都是我们team的论文啊我觉得像我说的我的第一篇论文SeemtoRealLearningAgileLocomotionforQuadrupedRobots是一篇非常重要的强化学习的论文后面的就是一系列就是RobotTransformer系列的论文RT1,RT2,RTX包括GeminiRobotics这些都是非常重要的论文基于你当下的认知一个关键的重要的BET是什么一个重要的bet是机器人领域的吗都可以我觉得对机器人领域重要的bet就是你得相信syntheticdata的价值我觉得光靠realdata是解决不了机器人的好了今天的节目就是这样这里是商业访谈路是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
日期:2025年11月28日
嘉宾:谭捷(Google DeepMind Robotics 高级研究科学家、技术负责人)
主持:张小珺
时长:约125分钟
本期访谈聚焦机器人领域的前沿进展,围绕谷歌 DeepMind Robotics 团队核心成员谭捷的个人经历与主导研究,深度解读机器人跨本体、世界模型、数据采集和通用大脑(如 Gemini Robotics 1.5)等热点话题。节目穿插硅谷与中国机器人研发的差异比较,产业哲学争鸣,以及研究路径选择,呈现机器人从“只能做傻事”向“真正有用的繁华智能体”进发当前阶段的瓶颈与突破。
本集访谈以丰富的一线实践和深度哲思,清晰勾勒了机器人“迈向类人智能”过程中的科学壁垒、范式选择以及由数据和工程决定的阶梯性进展。节目覆盖了从 foundational modeling 到系统落地,从全球协作到硅谷文化,以及技术信仰与路径赌注之间的关系,是理解当前机器人行业真实脉冲与战略焦点的上佳窗口。