
Loading summary
A
哈喽大家好我是小俊206年除了嘉宾访谈我们也很希望推出一些由内部人士带来的产业单击那今天就是这样的一次尝试我们知道数据算力算法是驱动人工智能的三驾马车今天这期节目我们邀请我们的返场嘉宾光轮智能的创始人兼CEO谢晨试图通过一集节目来完整的聊聊这其中的一驾马车数据问题我们尝试来做一个数据的产业综述大圆模型的数据遇到的是撞墙的难题机器人的数据则处在一片荒漠之中数据产业究竟是如何运转的一些人正在探索的仿真数据数据金字塔又将如何改变产业的格局呢那接下来就是我对谢晨的访谈如果大家对更多的产业话题感兴趣欢迎在评论区里留言期待我们在206年和AI共同进步从你的视角告诉我们谁变得更激进了我觉得自己肯定是更激进了我觉得阿里我觉得OpenAI我觉得DMind也绝对更激进了对我觉得英伟达我觉得也更激进了这就是五家角逐机器人大脑的团队对其实某种层面上我认为π也应该属于这一类其实最有效的数据是先失败再成功的数据我觉得就是说到了终局可能整体上来讲就跟马斯克说的咱们人可能就在一个仿真里头HelloSteve先给观众朋友们打个招呼谢谢小俊的邀请我叫Steve中文名叫谢晨我是光轮智能的创始人CEOSteve其实之前来过我们的播客节目但是因为我们今天是第一次录视频播客所以还是请Steve先给我们做个自我介绍并且讲讲过往的经历我最早是在北大物理读的本科然后去哥伦比亚大学的商学院读了一个量化金融的博士然后与很多我觉得在科技圈尤其是在巨声圈创业的leader不一样我其实刚毕业了以后的经历有一些复杂我其实在电商做过动态定价的AI算法的负责人電商哪家公司? 其實當時叫摘刀康它是一個希望去顛覆亞馬遜的一家新興的創業的公司然後很迅速的去融了很多錢最後其實被沃爾瑪收購了當然在這個之後其實我還做過產品經理就也負責過產品所以其實我一直是在算法以及落地之間就在去思考我的下一步直到2018年的時候我特別幸運去了矽谷加入了Cruise那是当时可能最领先的或者最领先的V2的两家一家是Vimo一家是Cruise的L4的自动驾驶公司去Cruise去负责自动驾驶的仿真那这也是我第一次在整个行业真正的去验证了仿真以及合成数据他们并不是一个玩具他们真正可以有效的去支持到算法的演进在這個之後我去了英偉達在英偉達負責自動駕駛訪真其實也就是在英偉達的時間也就是201年我剛加入我就發現了一個可能很顛覆我的一個認知我發現在英偉達他們就是在車端的芯片Orin最大的客戶不是Wemo和Cruise而是魏小李那这个给我的一个很大的一个震撼让我意识到可能自动驾驶的下一代不会在美国不会在硅谷而会在中国那我必须要回国所以其实刚刚加入英伟达六个月的时间我就携家带口回国加入了蔚来到蔚来去负责他的自动驾驶仿真在这儿我也特别感谢我的太太她当时给我很大的一个支持就拋棄了可能在美國的很多的工作朋友經歷然後和我一塊回國那當然就是說回國了以後我在未來真正的去從一個主機廠的角度去實踐這個方針把它搭建成了一套的這個數據閉環可以支持到比方說自動駕駛算法的合成數據訓練以及大規模的評測和落地當然這個時候我也產生了很多的一個思考就是說仿真它到底只是一個加速器的一個作用是一個錦上添花的一個作用還是說它是一個更加偏第一性的它是一個更加偏一個前提條件我那個時候就越來越感覺到自動駕駛可能仿真更多的是一個加速器而對於機器人巨身智能它可能更會是一個先決條件有了這個思考了以後特別是趕上了大模型的演進那麼在203年我和我的聯創閻海波一起決定成立光輪智能其實出發點就是希望用仿真用合成數據來加速機器人這個產業為什麼你剛畢業的工作經歷會相對其他人更雜一些你當時在尋找什麼很好的問題我覺得其實我個人也在尋找就是說我能夠對哪一個行業對哪一件事能夠產生最大的一個貢獻這可能不是一個錦上添花而是說我真正可以成為一個前提條件來真正改變一個行業那我其實本科是學物理的物理其實很難我剛加入北大物理的時候是年級10名我可能花了三年的時間每天晚上可能兩點鐘睡覺包括寒暑假都沒有回過家都在學校最後可能是進了年級前五這個經歷給我的感受就是說第一確實是通過努力你確實是可以去做得更好但是第二的話其實天賦還是最關鍵的那我觉得我可能还是缺少了对于物理的天赋后来去金融也是看到了当时可能从物理从数学走得最好的这些同学可能都去了金融这个行业但是真正去读了博士了以后才发现这个行业其实开始欠缺了一些创新且对这个社会可能没有太大的一个从我角度来讲真正的一个贡献那我希望更加投身到一个科技行业那麼去了科技行業了以後其實我也是在尋找我最有價值的地方我認為從產品端來講的話我特別希望去做一件事真正能讓它有效的去落地就是給用戶來提升價值但是其實做了一段時間又發現這件事可能缺少了一些技術的難度一些實質的挑戰不夠顛覆性所以確實是抱著這些的想法我在不斷的去尋找那當然我覺得我最幸運的就是可能從18年開始我真正的找到了我覺得最有意義的事情且我認為它可能能夠成為一個產品能夠成為一個商業模式那這個就是仿真我記得我好像見過你的某一個師兄弟應該也是北大物理系的然後他說你是很少見的在北大物理系讀了本科然後很快就去哥倫比亞讀商學院的你覺得你的特質跟你的同齡人有什麼不一樣我觉得我的特质的话就是说我可能希望做一件事要不然就不做要做就能夠做到最好這個最好是一個可能在國際上能夠做到第一名第二名或者說除了我之外就沒有人能夠做得更好這樣一個級別另外就是說我覺得還有一個特質就是我比較希望去找一個區分度去哥倫比亞大學商學院其實一方面是因為我的學習各方面可能確實是比較好但是其实最主要的原因是我想清了我不适合做物理那我其实觉得在那个时间点和我的同龄人比的话我觉得可能我的思考会更多一些因为我不断的在去找就是说我在哪一个方面可能能够有真正的一个优势能够与别人不一样你找到了吗我認為其實當時是沒有找到那我認為現在我找到了其實我沒有講的是我在本科的時候也創過業我在博士的時候也創過業我在本科其實經歷更加複雜一些在大三的時候到了年紀前五了以後我就開始放飛了因為我覺得這個成績足夠我來去出國申請一個名校那後面的成績就沒有那麼關鍵了那這個時候我就在想那我缺失的是什麼我缺失的可能是真正的這種社團的體驗国际的经历因为我可能寒窗苦读了三年的时间而我的同学们可能就都有各种各样的不一样的经历所以我就当时就申请去哥伦比亚大学去交换了一年那在那一年其實是給我感受很深當時是金融危機08年的時候確實也是感受到了很多不一樣的這個世界學到了很有意思的課程交了很多的朋友同時也讓我看到像我這樣的人很希望去有這種在本科出國的經歷那很有可能北大清華很多這種高校的同學們他們也都希望有這樣一個經歷能夠在本科的時候更好的就感受一個這世界找到他們下一步的方向所以我當時就組織了這樣一個學習團交流團那麼等於是在北大的時候當時就辦了幾次帶了很多的同學們當時出國到美國包括其實在博士的時候我當時也有點閒不住也創了個業那在博士的時候當時就是我養了一隻狗牠的名字叫土豆牠是一個特別可愛的一隻八哥在牠三個月的時候被查出來有這個心臟病讓我就很傷心由於對牠的這個愛然後也由於就是說跟很多的狗友去交流我發現可能一方面為了土豆一方面為了狗友這個社區可能需要一個應用移動應用來幫助大家更好的去維繫大家之間的關係也讓大家更好的去維繫他們跟狗這樣的一個連接所以我當時就下載了很多的APP可能下載了有50多個APP在我的手機上然後一個一個的去嘗試自學設計自學寫代碼然後把這個APP給開發出來第一次科技創業第一次科技創業對然後做了一個狗友的應用當時這個狗友應用其實還在北美是排名可能是前三的狗友的社交應用基本上都是5分的這個review其實還是比較火的但是我覺得一個問題就是我當時其實沒有去思考商業模式所以做完了以後其實也很難去商業化其實當時有幾個矽谷的VC希望給我這個投資但是當時我也接近博士的畢業我想了想覺得還是算了因為可能這個確實也不是我一生希望去追求的一個方向同時我覺得沒有一個商業模式我也不希望去拿投資人的錢去浪費他們的錢也浪費自己的時間所以我後來就把這個公司給關掉了做了多長時間這個公司? 這個公司大概做了三年的時間三年到博士畢業到博士畢業你前面工作經歷非常的雜是不是因為你一直在pass很多事情你發現很多事情其實不適合自己沒錯其實我覺得不同的人不一樣我舉一個例子我覺得可能巴菲特和朗朗他們很幸運一方面我覺得他們很棒他們能力很強一方面他們很幸運他們可能在十歲的時候就找到了他們擅長什麼对吧可能巴菲特在10岁的时候发现他特别喜欢股票他也擅长投资朗朗可能在10岁的时候发现他擅长弹钢琴我觉得我其实花了很多的时间发现自己不擅长什么我必须得去通过试错才能知道自己不擅长什么但是我可能就没有那么幸运我可能花了很长的时间才真正发现自己擅长什么擅长的是我認為我擅長的是基於一個更加顛覆性的技術科技打造一個產品並且用這個產品去真正的支撐一個產業我覺得這個是我擅長的為什麼你最後選擇在仿真這個領域算是深耕吧而且很快從去了英偉達只有6個月然後就加入了蔚來其實你後面換的其實也挺快的就是在每個公司工作時間都不久是的我觉得首先是我相信仿真的魔力这个其实是我当时去Cruise的时候发现的在我去领导Cruise的仿真之前实话实说仿真是一个玩具或者说它更多的是Cruise给投资人展示的一个demotool那么它其实是用这个游戏引擎用比較傳統的這套的技術美術去打造了看起來很真的一個世界—車然後用它去生成了很大量的數據但是這個數據其實算法的團隊比方說當時感知的團隊並沒有辦法有效的去用到它或者说其实用了以后其实效果训练出来的模型的效果是降低的而不是升高的其实CO也标卷的一个人他叫Cal他标卷的一个人他拉我过来就是希望让我去解决这个问题当时给我的时间可能是三个月的时间那当时其实压力也比较大第一步其实我可能跟别人不一样就是说我的背景比较复杂一些我既有物理的背景我有量化我还有AI的背景所以我第一步做的事其实不是去提升仿真而是去评价仿真得到了一套评价的准则了以后第二步才真正的用生成式AI以及仿真的一个结合真正的去提升它同时与算法有效的去迭代真正的去把这个数据喂到了算法了以后真正看到了一个提升这个点是我真正的看到的一个很特殊的一个时间点它让我真正的相信了这件事那當然我當時為什麼去英偉達是因為當然一方面就是說英偉達、老黃他們確實看到了我在自動駕駛仿真做得不錯那他們確實在找這樣一個負責人但是第二就是說從我的角度其實我也在不斷地給自己拋反力也在challenge自己就是憑什麼我就認為我是仿真做的最好的因為其實當時那個階段Waymo有Waymo自己的做法Cruise有Cruise自己的做法整個行業還沒有完全收斂所以也很難說誰對錯那我覺得英偉達他的優勢就是他作為一個供應商那我認為我應該從一個我認為我已經具備了L4的這個角度了我再去Waymo可能意義不大但是我如果去一個供應商我能夠從供應商的角度去看應該怎麼去做仿真那時候英偉達多大? 21年的時候那個時候可能一萬人但是它的自動駕駛團隊已經發展了幾年的時間了其實英偉達在自動駕駛上投入還是比較高的那個時候從Cruise跳槽到英偉達是一個主流選擇嗎? 其实当时我觉得很多人还没有看懂英伟达实话实说我当时也没有那么看懂直到我进入了英伟达我才看懂它現在後悔離職嗎?
沒有後悔離職對但是就是說我確實當時在英偉達內部的時候當時真正讓我感覺到英偉達是一家極其硬科技的公司我當時記得我跟我太太說我說其實不要小看英偉達它不是一個遊戲卡的公司它不只是一個GPU的公司它是一個加速計算的平台的公司它是一個全站的一個公司這個是我當時真正在內部的時候看到的那当然就是说我觉得在英伟达其实让我看到了从供应商角度应该如何去做仿真但是我为什么去未来一方面我觉得是回国另外一方面呢我觉得我希望从一个客户角度从一个因为如果说我认为将来最大的仿真的需求會是來自於主機廠因為他們都會自研自己的自動駕駛那麼我應該從一個主機廠角度真正看應該如何去利用仿真同時我覺得我也很難去回答我自己另外一個問題就是為什麼這件事一定要出來做是不是在裡頭做就夠了所以我覺得我需要從多方的視角真正讓我自己真正的理解透這件事真正在外部做有這麼一個機會你說仿真不是玩具那仿真是什麼呢? 這是一個很好的問題實話是說我最早的時候我一直管仿真叫時間機器假如說沒有仿真可能自動駕駛要花15年的時間有了仿真沒準5年的時間可以達到我認為它是一個加速器為什麼這說因為自動駕駛最主要的數據來源還是來自於真實世界來自於車開回來的數據它的數據好採集它的数据很好采集它其实本质上来讲是一个被动的因为都是买了车的司机对吧然后开回来的数据它其实更加希望通过仿真做的是两件事一件事是补充一些边角的场景就是俗称的cornercase那麼可能是路上的一些比較偶發的事件還有一個是用仿真去做一些評測因為在仿真裡頭可以有更好的一個重複性那麼可以重複的去驗證他們算法的有效性做回歸的測試但是我當時的想法是仿真難道只可以作為一個時間機器嗎? 有沒有可能它對於AI對於後面AI的發展会类似于英伟达的卡一样没有英伟达AI就不会发展而不是说有了它它只会发展得更快那在这个时间点上呢我就开始去看机器人这个产业当时其实我觉得在英伟达给我的触动很大的一件事就是我当时有机会跟詹森當時有機會跟英偉達的可能Omniverse的幾個leader有比較深入的交流那我當時感受到其實英偉達在下一盤大棋他其實真正側重的是機器人的方針那這件事他把它做成了一套平台因为他特别相信通过合成数据通过仿真这个是唯一的路径来真正的让机器人将来可以部署到世界各地我当时其实也越来越认为这个确实是后面的一个大趋势在这样一个阶段我认为就是说我真正应该出来去创业做的不是一个自动驾驶的仿真合成数据而是去真正作为整个机器人产业的数据的这个基建整個機器人產業的數據的引擎為什麼要在外面做? 為什麼不是在某一家公司做? 為什麼這些機器人公司不是自己來做這件事情?
怎麼說呢? 其實我也是花了很長的時間去理解我覺得在這兒其實更多的還是要去想這件事的難度它的市場的機會以及我覺得可以與比方說這個行業的一些公司去類比比如說像ScaleAI這樣的公司去類比我認為當這個市場的機會足夠大它的难度相对的大在这样的一个情况的时候我认为在外部做其实有更大的一个优势为什么因为其实你可以招到更好的更优秀的人才举一个例子就是在Cruise可能最好的算法的人才很难给到仿真团队他一定会给到感知的团队或者当时的预测的团队对吧那么在vmo可能最好的数据的人才并不见得会给到数据的基建团队可能会给到设法团队而在scaleAI對吧它會吸引到全世界最優秀的算法的人才和數據的人才來為它去打造一套數據的飛輪我覺得一樣的道理就是我認為其實只要這件事足夠的難這件事它的商業的機會足夠的大我認為它就應該在外面做除非就是說這件事可能比方說如果它只是一個自動駕駛的仿真對吧我覺得確實有可能這件事並不值得完完全全在外面去做這件事其实我们今天这个节目是想聊一个很专业相对neat但是也很本质的一个话题就是数据因为现在不管是大语言模型还是巨神智能还是Robotics都非常关切数据问题不过两边的阶段可能是不一样的大语言模型遇到的是数据撞墙了没有更多的数据了互联网数据都已经吃完了那对于Robotics来说数据仍然是一片荒漠那在你看来你觉得数据问题有多重要它是本质问题吗数据的问题其实我认为它对于AI是一个本质的问题我觉得如果从第一线的原理上去思考的话我其实认为数据可能应该跟人的教育的行业去类比就是数据对于模型或者数据对于智能我觉得有点类似于教育的行业对于人的学习数据约等于教育我认为数据对于智能是极其关键的因为我认为数据对于智能就要类似于咱们人去获取知识来不断地去自我提升我认为知识对于人的智能是极其关键的第一性的需求所以同理我认为数据对智能是至关重要的一件事你会怎么定义数据我覺得我可能更多的是從AI數據發展的不同階段來幫助咱們去想一下怎麼去定義AI數據這件事我認為最早的這個數據更多的類似於是在最早的機器視覺的這個階段那當時李飛教授去定義了ImageNet那這個時候的數據更多的是一個數據集對吧它是一個靜態的包括圖片包括相對的真值標註的一個數據集这个是最早的一个阶段它是一个静态数据级的一个阶段那么我觉得与人的教育类比的话它其实可能更多的是一个偏一次性的填鸭式的一个教育比方说一次性的买了一些教材提供给了一些同学们去学习在后面的时候其实我觉得就到了scaleAI真正的去工业化数据的生产这件事这个时候我觉得数据可能更多的是一个基于大规模的工厂式的流程包括后面的工艺对吧把它相对高时效性的大规模的保證質量的去生產出來所以它更多的是一個工廠的生產大規模數據的一個流程在這個時候我覺得有點類似於是一個偏量販式的教育再往後其實就到了我覺得大語言模型的時代大語言模型的時代我認為數據由於可能預訓練已經把整個互聯網的數據都給用夠了那麼數據的重點開始轉移到後訓練以及評價這個階段那麼更多的是基於越來越多的高階的這些人比如說能力很強的工程師物理學家數學的金牌律師醫生那麼基於他們一方面來說去出題然後提供評價標準二基於這些題就以及考核這個大模型的這些反饋發現相應的問題又針對這些問題去給他們更多的信息給他們更多的經驗傳授幫助他們去提升在這個時候我覺得數據就更加類似於是比方說教育的這個更加高階的一个阶段就是这个诗者所以传道授业解惑那是一个老师根据你的这个因材施教根据你的能力根据你的这个阶段基于一些对你的评价发现了一些问题并且基于这些问题给你足够的有经验的传授反馈来帮助你去提升所以我认为这个其实是数据的一个演变当然我认为从巨深来讲的话它的数据又更加的复杂比如说在大语言模型的时候数据可能是更多的是在数字的世界那么基于从评价的角度出发给到这个模型更多的反馈而巨深其实我认为来讲可能更多的会在物理的世界無論是在真實的物理的世界還是在仿真的物理世界基於評價基於信號提供更有效的經驗的傳授以及反饋對那麼這個我認為可能是數據發展的不同的階段那麼從這個角度來講我覺得數據可能更多的應該被定義為它是一個能夠幫助你去學習的信號以及相應的這些經驗的傳授所以它從一個靜態的數據可能慢慢的變成一個教育的系統對那我覺得這個其實也很有意思比如說我還記得最早的時候在自動駕駛當時其實數據的團隊他們提供的數據集其實是沒有什麼反饋的沒有什麼反饋的比如說可能更多是算法團隊提出了一些需求對吧然後數據的團隊去交付然後算法團隊後面再提出更多的需求對吧那麼咱們去看現在的很多的數據標註業自動駕駛的數據標註業我覺得還是在這樣一個階段對吧其實這些數據的廠商公司或者說內部的團隊他們其實對算法的狀態是沒有了解的他們更多的是被動性的去接受算法提出的需求並且提供相應的數據的交付但是咱们再去看比如说大元模型这个产业那当然一个是scale当然后面的比方说像McQuarrie像Surge那他们更多的是找了更多高阶的人去给他的模型的客户的算法提出了更多的评价通过这些评价去给这些他们的客户提供反馈並且基於這些反饋針對性的提出了更多刺激了更多的數據的需求又幫助這些客戶提供了更多的這些數據的需求來幫助他們的算法去提升這樣的一個閉環那在這個階段其實數據商是對這個客戶的算法我覺得是很了如指掌的因為其實真正的評價方變成了數據商对所以我觉得这个其实就很像学生和老师的关系对吧比方说如果是一个量范式的教育那么可能老师对学生可能并没有太多的了解他只不过是一个填鸭式的一个教育而对于一个更加高级的比方说大学的教授或者是比方说物理奥赛班的这个老师与学生的关系那他们可能是更加有针对性的指导我认为数据其实在朝有针对性的指导这个方向去演进我们经常会在行业里听到几句话一个叫数据标注一个是有多少人工就有多少数据你们给大家形象化的解释一下这两句话背后所蕴含的工作量就是它的工作具体包含哪些事情它是一个怎么样的工作流程我想說數據其實也在演變它可能從最早的數據標註到現在的可能是更多的數據的採集我在這我可能舉一些例子比如說從數據標註業來講的話比如說最早的ScaleAI去提供自動駕駛的數據它可能是拿到了客戶的比方說它的各種傳感器的信息那他可能做了更多的清洗的工作更做了更多的切片的工作在這個基礎上他可能有自己的一套工具鏈那當然可能還更多的是一個人為主的一個流程去基於這些工具鏈基於它的一些規範流程比如說這裡畫個框這個是自行車那個是行人包括可能更加時序性的這些數據把它們標註出來然後可能經過層的標註再往後發展可能是首先先是自動化的標註其次是人在環的質檢這樣最終把數據生產出來這個可能是一個比較傳統的自動駕駛的算法標註這樣一個產業它需要多少人力?
它需要很大的一個人力包括現在其實我覺得自動駕駛的標注行業其實還是當然我覺得它從客戶端已經有很多的自動化的算法了但是其實咱們比方說去看整個產業可能有很多的基地可能很多的省市都有很多的標注基地每個基地可能就有成千上萬人在做這個標注行業所以整個市場上我估計可能會有我不知道我估计可能会有十万人几十万人在做人工标注这件事情这么多人对是很多的人当然就是说这个我实话说我认为还是在上一代的数据它更多的是基于一套规范准则让人去基于这套准则去提供标注信息但是我认为下一代的数据其实人在这里头提供的是经验的传授我举一个例子比方说大圆模型的这个数据无论是McQuarrie还是Surge这个可能是湾区的两个现在比较新兴的数据商那么他们是为大圆模型提供后训练以及评测的数据那包括比如說RLHF就是包括不斷的去與這個模型去交互給他們去提供反饋以及他們去出很多的題又給一些答案來讓這個客戶的這個算法一方面去評價他們一方面讓他們去用更好的RL的finding去提升自己那在這個時候其實這些人都是很有經驗的人或者說很貴的人你可以看他們的時薪都是在10美金以上的時薪那他們提供的更多的是一個原始的數據他們提供的不是一個標註並不是說在已有的數據上他們在提供一層標註而是說他們直接的去給這個數據去提供反饋或者說直接去生成新的數據舉個例子举一个例子比如说就是一个问题你对AI的数据的看法是怎么样的对吧那么可能算法先生成了自己的看法比如说可能GPT先生成了自己的看法那么如果这里头有一个数据的专家那么他可能就会根据这个GPT的这个看法给他提供相应的反馈对吧同时他可能还会去出更多的题更多的老师的角色哎没错他是一个老师的角色他会出更多的题同时他可能还会提供更多答案包括比如說舉一個例子像編程你可能有十種方式能夠把這段程序給它編出來哪一個是好的哪一個是壞的哪一個是模棱兩可的這些都要相應的給它提煉出來給到算法所以這個時候就跟之前的數據就很不一樣之前的數據比如說自動駕駛或者說最傳統的機器視覺的數據可能你需要提供的都是正確的信息對吧就完美的正確的信息這是最好的但是其實在現在的這個數據比方說大圓模型或者巨身其實沒有嚴格的正確也沒有嚴格的完美每個人可能他的回答都是不一樣的對吧但是可能這些不同人的這些的分佈這些多樣性以及它的裡頭的這些邏輯的關係以及甚至是的一些錯誤的數據都會是極其有價值的我举一个例子就是我们服务巨深客户的这个数据最早的时候可能包括我们的客户也是全球最顶尖的巨深的大脑的公司他们可能给我们的需求就是你要提供完全正确的完美的基于仿真这个机器人去执行一个长程的任务比方说做一个pizza從冰箱裡頭把這個餅拿出來然後往上面去放各種各樣的調料以及各種各樣的水果蔬菜肉起司等等的最好把它放到烤箱裡頭去按鍵你要把它完美的做出來這一個長程的任務是一個有效的數據但是後來我們的客戶包括我們一塊通過迭代發現其实最有效的数据是先失败再成功的数据比如说我在里头我可能要放一片蘑菇但是我拿出来蘑菇我切片了以后我没有抓牢这个蘑菇掉到桌子上了我再把它捡起来再放回到这个披萨上这个数据我们管它可能叫复样本或者叫纠正的数据这个数据往往是更有效的所以其实当模型的泛化能力提升了以后它更可以从错误中去学习这些认知回来它更接近于人的学习过程没错它更接近于人的学习过程前段时间我们有一个播客聊过一个观点就是广密说他们认真花时间研究了给frontierlab硅谷那些frontierlab做数据标注的公司最大的提感是如果模型数据分布里面没有这类数据这类任务就是不成功的只有压缩过这类数据可能才会成功所以今天的模型还是一个巨大的压缩器所以他提出说数据及模型模型及应用你认可这个观点吗就是说所有的数据都应该是训练到模型里压缩过的我認為就是說在這其實廣秘提到了一個很好的一個我覺得現在現階段的一個問題就是模型的泛化能力還是不夠的怎麼去定義泛化能力我覺得就是英文叫zeroshort中文其實就是零樣本的能力零樣本的學習的這個能力就是我沒有給你看過這個樣本沒有見過對沒有見過但是你能夠把它做出來對吧比如說假如說你的這個機器人的訓練裡頭並沒有見過做披薩的視頻但你可能見過比方說切菜的你可能見過做漢堡的但是給你做披薩的這個任務你能不能給它做出來這個是零樣本的能力現在我認為從巨身的角度來講的話零樣本的能力還是比較欠缺的那在这样一个情况下确实你需要什么样的任务的执行率你就需要去补充什么样任务的数据在现阶段是我认为这个是合理的但是我认为就是说数据及模型这个观点我认为在长期我认为可能它不是一个本质的一个观点因为我认为本质上来讲模型的架构还是需要去提升的我認為一個模型如果不具備架構上如果不具備零樣本放化的能力那我認為這個模型它不是一個真正通往通用智能的一個模型那我再舉一個例子其實人的算法也是不一樣的舉一個例子可能普通人的學習的算法和馬斯克的學習的算法也是不一樣的馬斯克的學習的方式可能是更多的是從第一項原理出發基於他可能比較廣博的知識以及據他的實踐去迅速的去遷移新的知識出來幫助他去更好的理解這個事物我認為他的模型可能會比普通人的模型要更加的有效很多对那么在我看来就是说智能其实现在一方面我认为肯定是需要更多的有效的高质量的数据但是另外一方面我觉得还是在模型上需要更多的提升所以这里讲的是架构和算法的问题本质上还是还不够聪明本質上還是它不夠聰明我認為就是泛化性還是需要算法的架構來帶的當然就是說存在一個scalingoutmoment就是時間點就是說可能你的數據量必須得堆到一定很大的一個數據量才能夠看到它的泛化性的出現就是足夠聰明了就足夠聰明了對其實我們現在也服務了可能全世界最大的幾個大模型的團隊那麼通過我們跟他們的合作我們其實是發現在巨身這兒我認為就是說zerosout的能力就是零樣本的這個能力我認為已經逐步的開始出來了對所以我認為在這的話其實我還是比較樂觀的在哪些場景會出現這種領樣本的趨勢對我覺得可能倒不是場景倒是團隊我大概說一下我的看到的一個不同點可能比方說在6個月以前我們的大模型的客戶和我們的機器人的客戶他們可能對於數據的需求無論是從量從他們的具體的定義角度來講都是比較相近的但是可能最近這6個月可能發生了質的變化那麼我發現大模型的客戶他們可能最關注的現在就是領養品的能力那他們怎麼去他們相信的是什麼他們相信的是scalingup他們相信的是用一個足夠有效的算法用足夠多的高質量的數據可能這個數據更多是一個本體無關的仿真以及人類數據基於仿真的評測大規模的評測來幫助他們去實現一個相對簡單的本體比如說機械幣都不是這個都不是輪式底盤的機器人或者是這個比方說這個足式的機器人就是機械臂加轉是否可以實現足夠有效的零樣本的遷移的能力這個是大模型團隊大模型團隊為什麼要去做這個硬件相關的事情他們其實恰恰是因為不想做硬件相關的事情所以他們選擇的是最簡單的機械臂比如說你要是去做人形或者要去做這個輪式其實會複雜很多因為你要去有很大的維護的工作且每一個本體其實都有很大的一個調適大模型團隊用機械臂用來做什麼呀? 其實現在最主要的這幾個大模型團隊都在做巨身的VLA大模型團隊也在做VLA大模型團隊也在做VLA不是只有巨聲智能或者是自動駕駛團隊在做VLA不是對這個其實是我覺得最關鍵的一個點就是咱們去看比如說DMind就是堪捷對吧比如說這個英偉達比如說這個OpenAI他們做VLA想通往哪裡我认为他们肯定是最高优的关注在通用的智能这一块他们的底层逻辑就是要做巨身的大脑那这个首先一定要有放话性对吧不见得这个大脑的能力那么强比如说我一定要是一个灵巧手可以去上一个螺丝钉但是我应该是能够做出来一个大脑它比方说在10种10种不同的任务上训练了以后去另外有五個任務沒有見過他可以去做另外五個任務這個我認為是大模型團隊他們對這塊的一個關注點他們關注的是靈樣本的放化的能力對而另外一方面從機器人客戶來講的話他們其實越來越多的去努力到具體的場景在這個上面他們很關注到自己的本體本體的複雜性可能是有輪式可能是有足式可能有手手上可能還有傳感器那麼他們可能很關注在是否可以把這一些具體的任務給它執行好給它落地好所以這兩位客戶他們其實從最早的時候關注點可能比較類似但是現在其實關注的點其實很分化包括再舉一個例子比如說大模型團隊他們可能首先關注的是這些最容易獲取到的數據比方說家居的比方說其他的一些商超等等之類的場景可能一些工廠來幫助他們去提升這些氾化性的認知對吧而這個機器人的客戶可能他們有具體的就落地的路徑他們可能有的是去酒店有的去不同的工廠的這些車間輛的工廠的車間那他們有的可能比方說是去沙漠去換太陽能板那他們更多關注的是在具體的業務場景的這些數據我稍微有一個認知缺口就是大模型團隊這些做VLA的團隊和大模型團隊做LLM團隊應該是兩個團隊對吧? 他們之間是什麼樣的協作關係?
其實不同的公司不一樣那往往是兩個不同的團隊但是其實他們是一個我認為合作極其緊密的團隊其實在這我覺得可能會包括大模型的大圓模型的團隊大模型的世界模型的團隊還有大模型的VLA的團隊那麼那么他们其实是一个我觉得极其共生协作的一个关系比如说VOA其实往往会用到一个基础的模型如果说你的公司已经是全世界前五的大模型的能力那么就完全可以用自己的基础模型去做对吧如果没有呢如果没有我觉得比较困难一些所以其实从我们角度来讲的话我们可能合作的这些公司數據量最大的往往都是同時具備大圓模型的團隊世界模型的團隊還有VIA團隊這樣的團隊來做的這件事如果沒有的話他肯定就會用其他的比方說可能會用千問或者可能會用其他的這些開源的模型當然這是其一第二就是說他們對於數據的理解我認為是及其到位的比如说不只是纯粹正确的数据也包括纠错的数据就是错误了以后再改正的数据这个认知其实很多都是从大圆模型来的對其實因為它更加像人另外就是說對於數據量是否可以接受對於數據的即可程度也是遠不一樣的因為如果說你已經見過了很大量的一個需求你對於這件事的數據量的預期會很高而如果說這個團隊之前它的所使用的數據量比較小那它也很難一下子去開一個很高的一個數據量的口子它的budget是完全不一樣的第三个点我其实认为是一个infrastructure就是它的这些训练的基础设施我觉得卡是很相关的一个点以及就是RL就是强化学习的这套的基础设施是很相关的一个点我举一个例子可能机器人公司几千张卡已经很多了但是大模型团队可能都是大几万张卡所以这个是一个至少一个数量级的提升另外就是強化學習的基礎設施這件事其實很難自言很難自言很難為了巨深的模型去做一道強化學習的大規模的並行的基礎設施而這些大模型團隊往往自己都已經有最好的這套基礎設施可以拿來即用它只不過是從大圓模型的這個場景遷移到了去微調VLA而已所以LM大语言模型的团队是在做我们所谓的那个通用的大脑没错VLA团队是在做这个机器人大脑但是它大概率不是从头开始训的它是基于了那个大语言模型的大脑没错那世界模型团队呢这是新出现的吗其实我们也看到我们的一些客户他们可能在用他们的世界模型或者说他们希望将来用这个世界模型来作为一个基座模型来做后面的BLA因为我觉得世界模型其实有了更多的对于物理世界的预测理解能力而基于这个再加上相应的actionheight那么就可以做出来更优质的VLA其实我认为世界模型和VLA是一个很有意思的相互共生的关系世界模型可以作为基座给到VLAVLA其实又作为一个落地給到世界模型箱的反饋這個是很關鍵的一件事那我舉一個例子如果我認為一件事它的評判標準會越來越接近可能這兩件事將來就會是一件事那比如說我認為在巨聲可能現在最棒的評測集叫BehaviourBehaviour是李飛教授做的這套基於仿真為巨聲打造的一套这个评测级它都是比较难的长程的这些任务以及这些很难去采集的这些数据去做到的那么我个人也很有幸就是在这个12月份的这个NIPS的一个峰会来帮助这个今年就是第一次BehaviorChallenge来颁奖那麼我發現一個很有意思的一個情況就是其實去打這個behavior榜的這個團隊也有世界模型的團隊那他們其實就是基於他們底座的世界模型基於這個actionhead對吧然後就也去上了這個榜也做得也很好这个是一个另外一个我觉得很有意思的一个公司叫Enact它其实也是基于behavior这套的评价体系本质上来讲是评价VOA的评价体系做了一套去评价世界模型的评价体系这个也是李飞飞团队做的所以你可以看同样的一个benchmark它又可以去作为评价VLA的标准又可以去作为评价世界模型的标准那如果评价系统越来越一致很有可能将来这两件事会越来越我觉得会越来越相关那世界模型替代的不是VLA世界模型替代的其实是大跃模型吗我認為世界模型可能更多的會是在雲端的一個大腦而VLA我覺得它會是在端側的一個大腦我覺得這個可能是一個在長線它們也會是一個共生的一個關係那大約模型呢? 我認為大圓模型本質上來講大圓模型在數字世界已經具備了一定的世界模型的能力但是它其實缺乏對物理世界的理解我認為世界模型是有物理世界的理解能力以及預測能力的而我認為巨深的VLA可能更多的是需要在物理世界有更加精確的有效的以及高效的一個行動力所以我認為這三者可能還是不太一樣但是這三者可能後面的訓練的基礎設施它的底層的這個基座會越來越趨同底層的基座會越來越趨同它可能會成為一個統一的非常大的大腦對所以可能未來世界模型是那個雲端大腦VLA是那個端側的大腦然後數字世界可能有個大腦就是大約模型的大腦對聽起來現在是有兩股勢力一個是做大腦的公司一個是做本體的公司一類是做大腦公司一類是做本體的公司你觉得这两类公司哪个会成为一个在这个游戏版图上更重要的一股势力? 我认为可能长线都会比较重要但是我大概说一下我的一个观察这个观察就是数据闭环这件事或者数据引擎这件事就是特斯拉其实发明了数据引擎DataEngine这个概念它更多的是因为它要去落地它的FSD自动驾驶的这套系统它可能当时已经具备了有上百万辆车在路上可以全天候的基于司机对吧基于这些用户去开回来的数据去训练他们的云端的大脑又基于他的云端的大脑的不断的提升去部署到端测更好的自动驾驶的能力进而形成了一个数据飞轮这套数据引擎就特斯拉的数据引擎它的底层逻辑其实本质上来讲是一个本体相关的底层逻辑就是自动驾驶商或者说OEM它因为在全世界部署了最多的自己的车它就可以从自己的车上收回来最多的数据又寄这些数据可以训练最好的大脑所以这些OEM他们自己就是最大的大脑商对吧? 但是我认为对于巨身来讲这个逻辑可能会被颠覆为什么呢? 因为从巨身来讲这个世界上并不具备比方说上百万台的机器人部署在端側然後在自動化的執行各種各樣的任務或者說在端側有人去窯槽他們去執行各種各樣的任務如果有人去窯槽的話帶來的成本又過高這個也不是一個可規模化的一個路徑在這樣一個情況下我認為它一定整個數據的架構會去符合數據金塔那就是最小的數據量會使基於在端測真實部署的機器人去採集回來的數據真機數據沒錯那麼中間的這部分的數據量會是基於仿真去生成的數據而下面的這個數據會是比如說互聯網或者是人的第一類視角的數據那下面這兩類數據仿真和人的第一人稱視角的數據他們的特點是什麼?
他們都不需要基於本體不需要基於一個硬件的本體就可以回來數據且他們的規模化能力要遠高於這個真實的機器人的部署那這樣就會發生一件什麼事呢? 我覺得這樣就會發生就是說最多的巨深的數據一定不是本體上提供的對吧那在這樣一個前提下我認為特斯拉的數據閉環再巨深就不成立了相當於就是說不會存在一個本體上它自己是最廣泛應用的本體同時它又可以做全世界最好的大腦我覺得這件事底層就不太會成立那我再舉一個例子來佐證這件事特斯拉他们是在做机器人对吧就是Optimus他在做机器人但是Optimus的大脑其实是安排给XAI去提供的对吧而并不是让特斯拉自己去提供一样的一个道理一定会是一个大模型商去做这件大脑那在这样一个情况下我觉得大模型商他们会是利用更多的本体无关的数据去训练这个大脑而本體商可能更會是利用大模型商提供的大腦去做微調、部署以及落地那在這樣一個情況下我覺得可能還會有兩類不同的公司會接觸進來一類就是數據商那我認為數據商其實它也經歷了不同的演變從最早的可能在靜態數據集的時候它和客戶可能純粹的是一個就是甲方乙方的關係到scaleAI、Surge、Macquar和客户可能更多是类似于一个partnership的一个关系到后面我觉得需要基于数据商去提供评测又基于评测去提供更多的反馈又基于这些反馈去去刺激客户的需求拿到更多的数据又基于这些数据训练更好的模型然后这样再基于数据商去跑更多的评测因此我认为就是数据商和大模型的廠商會越來越多的形成一個共生的關係因為大模型商需要數據商給他們更加有效的評測更加有效的數據而數據商又需要基於大模型商給他們提供基於模型更好的數據驗證反饋來幫助他們去迭代自己的數據的生產線路所以這兩邊我覺得會是一個共生的關係所以我覺得數據商在裡頭會很關鍵還有一個我認為就是場景商這個往往是被大家忽視的場景商或者就是場景公司場景公司比如說OEM它就是一個場景公司它自己就具備很多的機器人需要去落地的場景在它的車間在它的工廠包括比如說醫療的集團它有很多的自己的場景需要去部署到機器人包括農業的公司等等就算是工業這就是巨大的一個機會所以我認為這些不同的場景級的公司它們都有大規模部署落地機器人的需求我們其實現在服務的客戶可能有很大的一個比例已經開始是這些場景級的客戶那在這樣一個情況下我覺得會是四者的一個相互的協作第一個是大模型商對吧那麼他們更多的是會基於本體無關的就是數據商提供的數據不斷的去衝刺scalingout放話然後提供大腦把大腦提供給本體公司本體公司可能再基於更多的場景和數據去落地到場景上而場景公司他們也有更大的一個自主權因為其實他們可以選擇A硬件公司的硬件也可以選擇B硬件公司的硬件甚至他們自己有很強的一個自研能力他們也可以自己開發硬件比如說我認為可能很多的OEM都會開發自己的機器人因為他們對量產對質量的管控對這個硬件的穩定性對成本的控制可能有更好的一個理解他們也可以基於大模型的這個大腦的能力去給自己的場景直接去落地所以我認為後面可能是這四者的一個聯繫說回我們剛才講的那個李廣明那個觀點你覺得不能說數據及模型那從長遠來看你覺得什麼及模型我认为还是要回到第一性原理看看人是如何去学习的我觉得可能系统性的学习的能力我觉得这个底层应该是一个模型本质上来讲我觉得大模型我们不能说是知识级模型对我觉得不能说是知识级模型我觉得应该是一个不断提升的系统级能力因为其实每一次系统级能力的提升可能也会带来对于数据的新的需求我舉一個例子小孩的學習可能看一些畫本就夠了但是馬斯克或者是比方說巴菲特的學習可能就有更加針對性的高階的這些知識以及這些信號相當於有一絲教可能對當然就是說我認為這個絲教它不應該是以人為中心的它應該是以系統為中心的只有這樣才可以提供足夠規模化的絲教就足夠規模化的言傳身教我們播客其實一方面聊過很多大圓模型的嘉賓一方面也聊過很多Robotics領域的嘉賓你覺得這兩個領域今天面對的數據問題不同是什麽他們的階段分別到了什麽階段我認為這個兩者還是挺不一樣的那我覺得從大圓模型角度來講的話他們的預訓練的數據是足夠的因為本質上來講是整個互聯網的數據對所以這塊是很多的那他們面臨的其實更多的是一個後訓練以及評測的一個問題那麼後訓練和評測本質上來講就有點類似於是沿傳深教那需要找越來越高階的老師給他們提供這些沿傳深教那其實這些老師往往在不同的行業裏對吧比如說可能是最好的工程師可能是數學的金牌可能是最好的律師可能是最好的醫生而且越來越多的言傳身教會變為就是說出題比方说可能普通的老师是在通过自己的示范来教育学生而越来越好的老师可能是去问越来越难的问题来激励这个学生自己去寻找答案所以我认为本质上来讲这个是大圆模型他们在面临的数据的问题是找越来越好的人又基于他们可能去出越来越难的题基于这些题以及基于这些信号这些更多的经验的传授来去不断的去提升模型的能力而对于巨身来讲的话我觉得它现在的问题可能在两端第一端就是在预训链其实现在缺乏了足够的预训链的数据这个预训链数据我觉得需要有物理的世界无论是真实的物理的世界还是仿真的物理世界以及它所需要去交互的这些的资产比如说电脑比如说咱们在这的咖啡杯等等之类同时它需要有这些经验的传授比如说人或者是一个机器人在这该如何去操作不同的物体与这个物理的世界如何去交互以及在这相应的语言的定义还有就是相应的评价标准这个知识在哪里是好的在哪里是不好的然後給到相應的這些學習的信號這個我認識很關鍵的一個預訓練的一個需求在這兒其實我覺得現在整個行業還是缺乏最規模化的預訓練的數據來幫助整個巨身來達到一個經過預訓練了以後一個基座模型的一個基礎能力這個我覺得是極其關鍵的一個缺失第二个的话我觉得就是评价能力这个点其实我觉得很多人可能没有想到比如说自动驾驶或者大猿模型为什么它们的模型提升会那么快自动驾驶本质上来讲是因为它的评价是免费的怎麼說這件事呢? 因為自動駕駛的評價是通過它在端側部署的叫ShadowMode就是中文叫影子模式那其實就是把它的算法部署在車端在它的仿真世界裡頭去跑線的算法它並不去做相應的真正的執行但是會把它所輸出的信號和開車的司機所操作的信號去做對比當遇到了一些不同的地方的時候把這個作為一個反饋拿回來因为比方说如果说这个人是一个老师的话那当学生和老师有一定的差异的时候很有可能这个时候是学生做错的时候所以这个是一个极其便宜廉价或者免费的一个信号拿回来来帮助自动驾驶来评价他们相应的情况以及这个信号也包括相应的示范对吧也包括相应的经验告诉他们当你这错了以后老师是怎么做的人是怎么做的来让你去基于更多的模仿的学习去提升自己我认为大圆模型其实也有这样一个影子模式这个影子模式就是当这些大元模型已经上线了以后与用户的交互对吧其实比方说咱们在用GPT用不同的大元模型的时候咱们也给它不同的反馈这些反馈其实也是一个免费的影子模式来帮助他们去告诉他们哪里好哪里不好给他们一些示范帮助他们去提升这也是一个免费的评价而对于巨身来讲的话现在并不具备这样一个大规模的评价的能力那我认为这个一定要基于仿真去提供在巨身在机器人它不具備一個在真實世界去提供影子模式的一個基礎那它唯一可以的這件事就是基於仿真去規模化評價並拿到更多的信號又把這些信號給到巨身的大腦讓他們不斷地去提升所以我認為評價這兒其實也是巨身模型他們對於數據的一個核心的趨勢所以机器人的数据收集问题比大圆模型可能是结构性的难对我觉得要难很多可能是几个数量结的难如果足够多的数据是10分你觉得大圆模型今天的数据能到多少分你觉得机器人的数据能到多少分我其实觉得可能很难去定义这个10分我举一个例子其实人的学习是无止境的所以从人的角度来讲你其实可以看越有能力的人他可能学习能力更强他其实每天涉猎的数据会更多而不是更少对当然就是说我觉得如果从一个概念上来看的话我觉得可能大圆模型在预训练可能已经到底了我觉得他们可能更多的是在后训练和评测我其实觉得在后训练和评测我认为大圆模型可能还有很长的一个路要走我估计可能大圆模型现在可能到了60分但是真正的要往上去提升我觉得还有很大的一个空间就是在后训练和评测的阶段那我认为对于巨身来讲的话假设10万个机器人所回来的数据是一个起点这个起点可能都不是10分是一个60分我觉得现在都没有1万台机器人無論是在真實或者仿真或者是人類的數據能夠去提供這類的數據對吧所以我認為其實如果從這個角度來講可能0.6分都不到這個其實給大家一個直觀的感受但我覺得今天大猿模型的數據問題隨著它從Chatbot走到了Agent的階段其實Agent方面也會更加的缺乏數據因為AI是沒有見過真實人類工作的所以它也需要找大量的人類專家在基於真實的工作環境去收集數據你覺得Agent今天遇到的數據問題是不是跟Robotics還有點像对我觉得这个点特别好我觉得其实机器人就是在物理世界的agent而这个大语言模型的agent其实是在数字世界的agent其实我觉得他们遇到的问题其实很像首先他们需要一个环境其次就是说他们需要相应的经验传授另外他们也需要相应的评价或者评价的这些信号来帮助他们去提升咱们可以去看到就是说对于大元模型的agent其实现在有一个很关键的一个针对他们的数据产品叫LLINF就是服务强化学习的环境这个环境本质上是一个虚拟的环境但它不是一个比方说物理仿真的环境它更多的是一个数字世界的环境比如说可能是一个虚拟的滴滴网站虚拟的京东的网站虚拟的一个购物网站虚拟的一个编程网站虛擬的一個編程的環境來幫助他們能夠在這個裡頭去不斷地基於一些定好的這些的成功的指標這些定義以及這些考題不斷地基於強化學習去finding自己不斷地去試錯也不斷地去提升自己這個其實是我覺得agent在這個數字世界他們現在所需要的最主要的這個數據的產品那對於這個据深来讲的话其实刚才如我所说其实现在还没有到真正的agent阶段对吧现在其实还是在一个预训链以及在一个评测阶段就这两头的问题是最大的一就是没有足够的预训链能够让这个模型达到一个相对基础的一个能力一个是没有足够好的规模化的评价可以帮助这些大模型商不断的去衡量他们的基础能力不断的提升在这我再说一个细节就是为什么BehaviourChallenge就李飞飞的BehaviourChallenge这件事这么重要因为其他的这些学术级的Benchmark其实我们的这些客户最棒的这些大模型商他们都已经把他们的Benchmark给打爆了就是巨深的這個Benchmark其實比較容易都被打爆了那其實足夠難的是BehaviourBehaviour10道題可能現在最高的分數成功率是26%所以还有一段路要走当然就是说这个更多是一个学术级而对于比方说industry那么他们需要的是更加大规模的高质量的behavior来帮他们去挑战他们就模型的基础能力那当然在这个两个点的基础上其实后训练就会变得很关键就是当预训练的基础能力达到一个相对的标准了以后后训练通过强化学习做后训练就会变得足够的重要那么我们也看到我们的一些客户在跟我们在基于仿真去做后训练的强化学习的finetune这件事那本质上来讲这件事就和数字世界的大圆模型的agent很像那数字世界的大圆模型在一个虚拟的网页端对吧虚拟的编程端去不断的试错来做finetune而这个物理世界的agent本质上来讲在仿真的环境里头去基于定义好的这些的成功的指标标准以及大规模的场景他们在不断的去试错在fighting自己那只不过就是说这件事我觉得相对于预训练和评测来说现在可能还是一个次优的一个问题其实刚才我们对于整个数据行业做了一个mapping那这是横向的我也想来聊聊纵向的就是数据这个产业它在人工智能的这个领域里面它是一个分支吗它在这个生态里面大概占据一个什么样的位置啊我们来聊聊这个数据产业的前世今生我覺得數據的產業的發展其實和每一次模型的學習的範式的發展其實有很相關的關係比如說我可以把它定義為最早的時候數據產業可能起始點是李飛的ImageNet它既是一個訓練級它也是一個評測級它服務的更多的是機器視覺它提供的是這些照片以及相應的這些真值的標註它更多的是一個靜態的一個數據級它给到的都是正确的答案所以在这个时候我觉得数据产业更多的类似于一个填鸭式的教育产业那再往后呢就是到了这个自动驾驶那scale呢我觉得可能真正的开创了一个工业级的数据产业就是从最早的静态的这个可能很难去控制时间比方说imagesat确实是有几年的时间去开发出来的而scale呢可能真正的可以去工业化的工厂级的对吧大规模的人力运营去管控质量管控效率管控交付时间线来去交付这些数据那这个呢我觉得可能更多是偏一个量范式的一个教育行业再往后呢我觉得到了这个就是大圆模型的这个数据产业这个时候我觉得就是說它的核心的邏輯發生了變化從最早的時候可能是用戶提出需求你來交付對吧然後一個偏工廠型的但還是相對粗放型的一個交付變成了一個可能更加的是一個評測驅動型就是幫助客戶發現問題然後去刺激新的需求然後針對性的交付所以這個時候其實比如說從scale給自己的定義來講的話可能從這個時候他自己就開始叫成了datafoundry那就類似於是學習台積電的晶圓廠這樣一個模式本質上還是一個工廠但是他有更多的流程更多的規範更多的knowhow更多的process這些是他的secretsauce對吧但是呢我認為就是說再往後啊我認為的發展呢其實就會更加的不一樣為什麼呢因為我覺得在这个时候就是说在大猿模型RIHF评价的时候它还是一个以人为重心比方说McQuarrieSurge也是一样都是以越来越优秀的人为重心去提供反馈去提供更多的经验的传授我认为对于巨身来讲的话它所需要的数据量要远远大于大猿模型所需要的数据量那在这个时候我很难去想象比方说10倍的Scale,Core,Search他們可能已經在全球有大幾十萬人可能一百萬人這樣一個規模一千倍這個規模去提供數據我認為這個是一件很難去規模化也很難高效的一件事情所以我認為在這個時候一定會發生一個轉變就是以人為中心變成以系統為中心這個系統是一個引擎它基於可能在端測的不同的人它基於它的仿真它的這個工程的能力去放大這些人的信號這些人的經驗讓他們來有效的去支持到巨身模型的這個演進而且我覺得這件事也一定是一個以評測驅動而不是以這個比方說就是訓練驅動的一件事情所以我覺得這個可能是一個數據產業我認為可能一步一步的一個演變剛才我們講到就是標數據的人或者說收集數據的人他的時薪大幅的提升人數有減少嗎? 人數其實沒有減少对这个其实很有意思的一件事其实我最早的时候也想了很多这块的问题就是说是否有一天要不然就是算法的学习的效率大大的提升对吧要不然就是这个人就是模型的能力越来越高就会越来越不需要顶尖的人的认知但是到目前为止其实还没有我觉得这个点上很像最早的时候DeepSeek出来对吧然后大家说这个testtimescaling这件事一旦出来了以后很有可能预训练或者整体上对英伟达的卡的需求量就会大大的降低但是其实大家发现当Testamscaling出来了以后刺激了更多的AI应用的需求AIagents的需求到反向的增加了英伟达卡的需求我觉得很有可能是这样我觉得一个比较直觉的一件事就是可能越有能力的人他越愛學習他其實每天讀的書的量不是減少而是增加我覺得很有可能後面會是這樣一個情況當然他會增加到一個階段就是說舉一個例子可能AI的模型能力太強了到最後的時候可能這個世界上他已經達到了一個諾貝爾獎的水平那已經沒有幾個人可以教他了那在這個時候我認為他需要做的就是自我的不斷的提升就跟人一樣有AI訓練AI沒錯我認為它其實會很像人就是說人可能在小的時候可能更多的是看很多的畫本有老師的言傳身教到後面的時候可能更多是自我的不斷的提升或者說我覺得有很多的這個人他並不是去與別人去對比他是與自己去對比我每天今天能夠比昨天進步多少我覺得一樣道理我覺得AI也會到這個階段那在这个阶段它真正需要的是什么我觉得它可能需要的是一个环境一個成功的標準不斷更新的成功的標準對吧然後基於自己的經驗然後基於RL幫助自己不斷的去提升我覺得它會達到這個階段而這個階段其實也是我認為對於仿真對於合成數據很關鍵的一個階段因為這個時候它永遠需要物理的環境它永遠需要評價的指標這個我覺得會變成它可能到那個時候最需要的事情它需要的是學校老師考試這是這個階段他下一個階段可能就是自我學習沒錯對那他永遠需要一個環境一個背景一個環境以及相應的這些成功的定義這個數據的產業它催生哪些關鍵的人和公司首先我觉得李飞飞是真正的定义了AI数据这件事我觉得她的贡献是极高的那在这个之后我觉得真正工业化我觉得这个scaleAI我觉得是真正的去引领了工业化的AI数据的浪潮而且我觉得她其实引领了两次第一次是自动驾驶他创业的阶段其实当时真正整个行业规模化的AI数据的需求就是在自动驾驶他把它作为了一套流程化的产线工厂来真正可以可靠的交付自动驾驶的标注的数据以及后面可能在21年2年的时候进入到了GPT2进入到了RLHF那么来最早的去服务到了大模型的数据尤其是后训练和评测的数据基于评测驱动的数据这个产业我觉得这个是极其关键的当然可能还有一些在评测驱动的数据后来去演变的比如说像SURGE像MOQUER我觉得这个都是相同的一类的公司你剛才也提到對於Robotics來說仿真非常的重要你覺得仿真到底在這個行業裡扮演一個什麼樣的角色? 你覺得它是一個加速器加速的工具還是一個更底層的東西?
對我覺得這個問題很好其實這個也是我覺得我從業以來就是做仿真以來我就一直在思考的一件事對我可以很肯定的說我認為仿真對於機器人它是一個必備條件没有仿真这件事肯定做不成那我的出发点我觉得更多是在几块第一就是说刚才咱们提到了数据闭环这个概念我认为就是说机器人的数据闭环和自动驾驶会完全不一样因为机器人没有这么多真正的机器在端测在部署又基于人的示范去拿回来大规模的这些的数据那它必須要基於仿真才能夠採回來足夠規模化的數據所以它是一個必須項第二我覺得另外一個我覺得極其的一個必須項就比方說在數據這兒我覺得一個是仿真還有一個是人類的數據我覺得這兩個會是本體無關數據的主要來源而對於評測來說我其實想不到除了仿真之外任何一種來源我认为大规模我提的不是一个小规模的评测比方说小规模的评测我可以在实验室级别或者在一个场景我去建立一些的样机十台二十台去做一些的算法的推理评测我觉得这是可以的但是我不可能比方说在如果我要去落地家居场景我同事在一千个家庭甚至可能更多的家庭比方說去評價比方說成千上萬個不同的這個任務隨時拿回來信號同時我可以重複性的去測量比如說我可能就是每天我的算法都有演進那我能不能每天都測量多遍來去真正的讓我可以更精確的知道每一版算法的這個演進這個我認為唯一的方案只有通過仿真對當然另外一個我覺得很有意思的一個觀察就是我們服務的客戶其實我們最早的時候服務的客戶都是這種強的仿真的believer他就是相信合成數據就是相信仿真他用我們的合成數據去訓練他們的大腦當時會有一些可能最頂級的frontierlab最頂級的大模型團隊他們就是真實流派的他們絕對不願意去嘗試任何的仿真但是其實咱們再看我們過去的可能三個月的時間過去的三個月時間基本上他們都成為我們的客戶來規模化評測這件事是你們找他們還是他們找你們他們來找我們對所以這個是一個又誰啊這就不方便說了對但是這個我覺得是一個很有意思的一個信號就是實話說當時最早的時候我是主動的給他們發了很多的郵件那他們說我知道你們是仿真最棒的如果我要做仿真我一定會來找你但是我現在可能還沒有到這個時間點但是可能過去的三個月都來找了我們他們共同遇到的問題是什麼? 他們沒有辦法去規模化他們的評測了這個是他們的核心的問題就是他們認為他們的算法已經做得足夠好了他們之前都是通過真機數據之前都是通過真機數據或者通過一些仿真的評測機就是這些學數據的benchmark去打但是在真正industry其實沒有太大的一個意義因為它們太簡單了它們不夠規模化比如說可能我們有一些去落地家庭場景的這些大腦的團隊他們可能疊衣服他們可能做家務已經做得很好了那他們希望就是說能夠有一千個不同的家居的場景可以隨時的去評價他們包括這些最關鍵不是場景而是這些任務以及這些評價標準可以幫助他們去隨時的去評價他們自己這個是他們不可能通過真機去獲得的听上去想要做大脑的那一波人可能是最早拥抱仿真的对吗没错然后那些就是一开始是从一个场景里走出来的公司可能是比如说是叠衣服或者是在商超里让他们有一个做什么事情的机器人的公司是比较慢拥抱仿真的当他们需要放话的时候他需要仿真是这个意思吗我認為就是說仿真也有兩種比方說比較傳統的就是這種支持的RL這種仿真那比方說可能全身的就是叫fullbodycontrol或者localmotion就是說如何讓一個人形機器人更有效的去行走讓它能夠站得比較穩讓它可以去做一些全身控制的任務這個時候可能這些機器人公司會去很擁抱仿真他們其實是最早用仿真的一批只不過這塊的仿真的需求量比較小它可能在一台本地的機器上去跑RL就可以實現跑強化學就可以實現而不是一個大規模的一個需求而我認為對於大規模的需求就會如你所說更多的是這類大模型商大腦公司他們需要去泛化他們需要去規模化他們的數據或者規模化他們的評測那在這兩個點上他一定會被至少一個點卡住那他一定會用防震所以他們是最早擁抱那批人沒錯那你剛才說近三個月開始出現變化的應該是在垂直場景做機器人的公司是吧也不是就是說大模型團隊其實也會分為就是一上來就是堅定的仿真派的團隊也會有一些就是最早的時候就是真機派我就相信真機的數據但是可能到了一定階段他會發現我壓根走不通這件事那我一定要仿真所以我认为就是说过去三个月我们最多的增长我觉得第一是基本上可能所有大模型团队以及他们的世界模型团队在这可能一个公司可能不只是一个团队在跟我们合作可能有VLA的团队有世界模型团队都在跟我们合作因为其实某种层面上可能有很多VLA团队他们可能在基于世界模型的基座对吧那到这个时候没准世界模型团队用我们可能能够用的更好对那可能VOA用我们的评测世界模型用我们的数据这个是一个我们可能看到的很多的一个现象这三个团队对数据的需求不一样吗不太一样比如说可能世界模型团队并不见得一定要需要去有那么强行动的数据对那它一定要更好的物理的这种限制对吧这种这种光定然后它需要有这种可以帮助他们可以更好的去预测在物理世界下一件事情的发生但是他并不见得一定要有第一人视角或者第一个机器人的视角在里头去与物体去交互的数据而VOA可能更多的是一个行动派他必须得有这种行动的数据可能是他自己的本体可能是其他的本体跨本体甚至是人的行动的数据所以这个我觉得还会有一些的区别但是整体上就是说从评价角度来讲他们可能也都很需要仿真因为他们需要在这些足够物理真实的环境中能够要不然去确认他们的预测能力足够准确要不然他们的行动能力可以实现这些不同的任务你知道中國也有很多就是要做機器人大腦的不管是大公司也好還是創業公司也好我跟他們交流下來我直觀上感覺好像仿真派要小於真機派因為他們普遍給出的理由是因為真機數據好放話仿真數據不好放話你覺得為什麼會出現這個象為什麼在中國的機器人團隊仿真派似乎不多我認為其實幾個點第一就是說我認為就這類公司本質上來講他們還是機器人公司的機器人公司我覺得咱們去看他們的商業模式它的底層還是要去賣本體所以如果他要是一個仿真派我覺得他就很難去來convince他的客戶去買他們的本體為什麼他們的客戶其實很多的就是我覺得國內很多的這個真機派的這個商業模式還是去賣一個素材中心我買過來用你的機器人來採集數據來採集數據然後來不斷的去提升所以他需要相信真機數據才能賣本體對就是否則我認為就是說它其實我覺得本質上來講還是一個屁股決定腦袋的事情我覺得它需要去真正的提倡一個真機派才能夠更有效的去把這些基於真機素材這樣的一個商業模式去跑通那當然其實提到真機素材我認為真機素材一定是需要的我並不否認真機素材而且我認為現在的量也是需要的我認為它再增長10倍可能這個量也是必須的但是關鍵就看它會增長到什麼一個階段我覺得根據數偵查其實最小的量應該是真機的實操的機器人的本體的數據真機數據沒錯它的成本最貴它的成本最贵但是最关键的是它最难规模化它都不是成本的事比如说你怎么去进入到不同的场景很快速的去规模化这件事这个是很难的一件事你如何去换新的场景很多我觉得大部分的真机的素材现在如果你去他们的素材中心你会看到他们也在用仿真怎么去理解他在用现实世界的仿真他拿的是一个假的香蕉他拿的是一个假的苹果它並不是拿的是一個真的香蕉一個真的蘋果它的場景可能變換很小可能都是在桌面級或者說一些宜家的這種方式的搭建它很難像仿真一樣去規模化到可能更加廣闊的多變的足夠物理真實的這些場景的應用对所以我觉得这个是一个我觉得就核心的一个不同点另外其实从我们的角度我认为就是说真机派真正在做预训练级的大模型其实我也听了就是谈及的那一期我比较同意谈就谈及的看法就是说我觉得可能不太合理就是说纯粹的做一个巨身的大模型它一定是基于一个基座的对吧在这个时候我认为更应该是一个大模型公司来去基于他们基座的能力再基于更多的数据先是预训练再是后训练来做出更好的BLA来所以我觉得从这个点上我觉得可能机器人公司可能也没有多少机器人公司真正在做这件事就真正在做一个预训练级的一个大模型所以他需要的数据可能就没有那么多他需要的数据没有那么多谭杰说的一个观点我印象很深因为我也是跟他说就是国内政绩派会说政绩数据有更好的放话性他说仿真数据带来的是seemtoreal的问题不是放话的问题放话的问题应该通过生成极大量的仿真数据来解决对你同意他这个观点吗我是同意的說到這裡我們定義一下仿真吧因為仿真的定義現在也是模糊的以前可能是說的是物理仿真現在也把一部分的視頻生成認為是仿真你怎麼定義仿真我其實還是希望更加嚴格的去定義一下那麼我認為仿真的話我認為它更多的是需要在一個足夠物理準確的一個環境中可以可複現的就以及可以可修正的去產生相應的行動並且觀測到其結果我認為這個才需要是一個仿真那我當然解釋一下就是說物理準確就是說它的環境以及你所交互的這些物體我認為它們需要足夠的與真實世界的物理去對標那這個對標不只是一個看起來像不只是一個在幾何上像它的可能摩擦力它的可能更多的这些物理参数也要足够的去对齐这是第一第二可复现就是说假如说我去跑10遍仿真我有一个足够高的一个系数不见得一定是10可能是9599我的这个结果是相同的我觉得这个是很关键的一件事另外一个就是说当我去在我相同的环境相同的起始点改变我的行动我可以看到可能这个所改变的这个结果我觉得这几个点都是足够需要的那咱们再看一下视频模型那視頻模型我認為就是說它可能更多的是一個對下一針的一個預測它可以看到一些我覺得世界的變換對吧但是一它可能很難去複現它可能很難去複現那如果很難去複現我就很難去做大規模的可靠的評測第二就是說它沒有行動它很難有足夠準確的行動那這個點我也很難去要不然就做評測要不然就產生數據对第三就是当我改变了一些在初始状态的条件的时候它是否可以产生其他的这些行动这个也是很难的一件事所以我觉得普遍的视频模型现在还不能称之为仿真当然我认为世界模型是有机会真正的成为仿真的一类的世界模型成为仿真的一类对那么怎么去理解这件事就是说我认为世界模型它的底层其实是一个生成模型所以它的优势是可以更加广泛的生成相对真实没有我觉得没有仿真的物理真实但是相对真实这样的对于世界的预测甚至是我认为后面接住了机器人对于这个下一步的这个本体的行动我觉得这个是可行的就这件事在未来的可能一段时间是可行的对但是就是说我认为仿真和世界模型我認為他們並不是一個誰會取代誰的一個關係我認為他們兩者更多的會是一個共生的一個關係怎麼去理解這件事比如說我們其實服務的客戶裡頭可能有一個很大比例都是世界模型的客戶那其實世界模型的客戶他們為了他們的預測能力逐步地去提升就物理的grounding能力逐步地去提升他需要有更好的物理的數據來幫助他們去提升對吧他需要有更加真實的物理他需要有更加貼近人的行為的行動來幫助他們去提升所以在這兒的話其實仿真會去幫助他們另外一方面其实由于世界模型它可能具备更好的一个生成能力所以它又可以帮助仿真的数据帮助的仿真的结果去做更好的一个分化或者说用仿真基于世界模型去做更好的一个光定两者结合有更加准确的生成式的一个输出那从我们的角度我们可能过去几个月我们和我们的世界模型的客户可能越来越多的形成了一个共生的一个关系共生的一个关系就是说他们在用我们的数据我们在用他们的模型两者一块能够把这件事做的更大我觉得这个可能是一个后面就是说仿真世界模型他们两者相互的一个关系我听起来仿真是世界模型一种手段我觉得其实很难说谁是谁的一个手段我觉得仿真并不是世界模型的一个子集或者世界模型也不是仿真的一个子集我觉得他们俩可能应该是共同去达到更大的一件事情这件事就是为了智能去提供更好的学习的能力现在这三个团队哪个团队跟你们合作最多? 世界模型、VLA和LLM? 我觉得世界模型和VLA合作更多是因为你们做的是robotic相关的数据对吧没错因为我们更多的还是关注在一个物理的环境里头一个行动的经验以及相应的这些的评价的准则在这儿我觉得我们做的相对比较少的是比方说一个数字化的环境就是LLM就这一些世界模型和VIA會相互吞併嗎我覺得他們其實在短期是一個很共生我覺得就是相互依賴的一個關係我覺得將來我覺得有可能在有一天兩者可能會合而為一但是其實本質上來講我覺得可能在很長的一段時間我覺得他們兩者都是相互依賴的一個關係我们能不能把Robotics这个行业对标以前的智能驾驶来想因为以前在自动驾驶Waymo和特斯拉之争也延续了很长时间今天的这些Robotics大脑公司似乎都在走Waymo那条路但是今天来看好像特斯拉成为了一个更主流的路线当然Waymo也做得很好你是怎么看待这个问题的以及你觉得机器人领域的Waymo和特斯拉是谁你为什么觉得现在可能大脑公司更像Waymo这条路因为他们轻本体收集很多的数据感觉机器人公司更像特斯拉理解你的意思我可能观察到的情况我先说一下我觉得可能这件事会跟自动驾驶很不一样我人可能不见得会follow特斯拉或者followvimo我觉得这个原因刚才我提到的它的底层的数据逻辑如果底层的数据逻辑是基于一个基于本体的数据闭环作为90%以上的数据量那么我认为他一定会follow要不然就是特斯拉要不然就是微模的逻辑那么我觉得他们是在一个相对更垂直的场景里在做这个事情没错相对更垂直的场景且他们的智能相对有限就是我觉得自动驾驶的智能还是相对有限的它更多是一个端测的模型对吗端测的模型然后它的任务其实比较单一对吧就是把车开好了对比如说它遇到这样一个杯子它的反应就是我要避开它但是在机器人领域它需要根据这个杯子是什么材质它是一个多大的杯子然后来决定它的手的力度所以它的复杂系数要更高沒錯就是它的場景更加單一它的唯一的物理就是這個車和地面的物理它不希望去撞到任何的東西所以就是說我認為它的智能水平會低一些當然我認為有兩種方式去解決自動駕駛問題一種方式就是不是VLA就是直接VAVA是VLA的下一代嗎? 我覺得不是VA我覺得就更多是行動輸出我覺得它其實更多是因為我在端測上可能算力沒有那麼大且有可能這件事所需要的智能是相對有限的且我有足夠的數據了以後我可以基於模仿學習就是把這個模型壓到就是更加貼近於這個司機的行為上就夠了對吧那很有可能VA有可能就是這件事的終局這是有可能的一件事但是還有一種方式就是說我做一個更加通用的VA我再讓他去開車這件事一定也是可行的將來對吧所以我的意思就是說自動駕駛這件事我覺得它的一個我其實沒有太想清楚的一個點就是會不會有兩條路線都能通一條路線就是由於它的智能上限沒有那麼高因此我VA就通了還有一條路徑就是我做了一個VA它也能做但是這個VA有可能它還能做其他的事我覺得這兩條路徑有可能都是成的沒有了語言在VLA裡面沒有語言你覺得它的智能水平肯定是會降低它的智能水平會大大的降低當然這個我覺得是從智能的角度從學習範式的角度去討論另外一方面我覺得從數據的角度一樣就是說可能自動駕駛本質上來講還是去用模仿學習最大量的模仿學習少量的強化學習去把它的智能拱出來它所需要的數據更多的還是本體相關的車直接開回來的數據而对于巨身来讲的话一定是走的是本体无关的数据的路线本体相关的这些数据的量真正的机器人在端测落地的量会相对来说很少在这样一个情况下的话我觉得可能就是最后出来的就是说就不太会存在特斯拉因为如果真是特斯拉的话如果真是特斯拉模式的话它的大脑其实可能不是特斯拉做的可能是XAI做的所以我的意思就是說我覺得在這可能有…它可以是一個大公司的兩個團隊啊它其實是兩個不同的公司對吧所以我覺得可能就是說最後可能會有三種模式Wemo模式現在的特斯拉特斯拉公司內部的模式還有一種模式是馬斯克體系內的模式就是它一個是做本體的公司一個是做這個大腦的公司對吧那麼這個如果說咱們放到這個其他公司裡頭去那可能就是DMI做的一個大腦對吧然後可能就本體上用這個大腦去落地我覺得很有可能是這條路線除了馬斯克和Google你覺得還有誰能支持這件事情都做你的意思就是自動駕駛和這個巨神智能對吧不是大腦和機器人大脑和机器人我觉得美国可能比较少一些我觉得国内的话我觉得小米我觉得就有可能对但是整体上来讲我觉得这件事还是比较难的一件事小鹏和理想呢就是他们从他们的现在的站位是一个智能驾驶车企我认为这件事它的底层还是卡的数量因为本质上来讲如果要做这件事就有点类似于就是说你的前提就是你需要有世界模型的团队和能力你可能已经有一个全世界可能最好的世界模型了然后又基于这个同时再去做VOA这件事我觉得它的卡的数量可能会比较高我们可能在服务的客户的卡可能都是大几万张現在這個級別在做這件事但我覺得就國內的這些OEM還是有很大機會的創業公司呢創業公司我覺得很難去做大腦我覺得不太我從我的角度我覺得不太合理去做大腦這件事你看智能駕駛的智能水平你覺得不夠高相對於統一的大腦來說那有沒有可能機器人是這樣一個一個垂淚場景去解決我就基於某一個垂淚場景收集很多的真機數據然後把這個場景訓好就像今天的智能駕駛一樣這可能會不會是一個更快的路徑統一的大腦會不會太遠了對我覺得一定會存在這個路徑其實這個路徑在我看來更加像Wemo這個路徑向威猛對因為我覺得它其實更多的是在一個偏限定的就是非分化的一個區域對吧?
然後把一件事給它做好我還記得就是我當時剛加入Cruise的時候我們的重心就是在舊金山去落地自動駕駛落完了以后再去想第二个城市所以其实我认为这种方式就很像当年的VemoCruise它要花很长的时间在第一个场景完全落地落完了以后它去泛化这件事扩大场景的适配性可能会比较难對其實你看現在我覺得Wemo確實是做得很好但是我覺得特斯拉可能在這Scalability就是在規模性上可能會做得更好很多對所以在我看來就是說我覺得如果從這樣一個方式從一個相對垂日的場景去做首先這個場景可能會分為就是一兩個特定的場景先把它做好然後再把這個場景的其他的特定場景給做通這個就要花很長的一個時間在這個之後再去平行的到其他場景這件事我覺得可能就要傷筋動骨因為它的整個的模型的架構數據各方面可能都是不一樣的對這樣的話我覺得有點類似於是當年的自動就是我認為這塊也會有成功的案例比如說自動駕駛其實你看現在在國內我覺得做得很好的比方說有礦山的自動駕駛它就關注在一個垂域它把這個垂域完全的坐後在這個垂域它有比較好的一個商業模式以及相應的一個壁壘那我認為這個是一個很成功的一個案例對那當然這個案例我覺得就是說它可能很難去侵略到其他的場景去所以你不認可我說的現在大腦公司像vimo然後機器人公司像特斯拉的這個判斷對吧對我認為大腦公司的話應該更像openeye後面對我覺得自動駕駛本質上來講它還是一個沒有那麼高智能的事我認為就是說咱們要去看巨身的話要同時去對標大圓模型和自動駕駛我覺得巨身可能是兩者的一個結合這個行業有特斯拉嗎? 有巨身領域的特斯拉嗎? 我覺得可能Figure是希望成為巨神領域的特斯拉對吧它有它自己的這個硬件它在規模化的去量產它在落地同時它也在做自己的大腦但是還很遠因為它這個場景實在是太模糊了對我覺得難度還是很高的我覺得現在我越來越多的觀察就是我覺得我可能會更早的看到大模型的这个放话能力的产生而我認為就是說可能很多人低估了在一個垂浴場景落地的難度以及一旦落地了以後再去遷移到其他垂浴放化性就會更難對因為我是實在在的經歷過Cruise威莫當時自動駕駛的這一波那麼我覺得就是說首先在一個垂浴場景比如在舊金山去落地其實已經很難了這個問題那当然就是一旦好了以后你再到其他的这些城市其实每一个城市你可能都要有更多的数据去采集去训练以及去大規模的去評測來真正保證你在這個城市能夠足夠安全的去落地這件事它不是一個很繁華性強的事倒是比方說特斯拉它可能它一開始就開始收集數據沒錯對它是一個就更加廣泛的一個數據的採集真正能夠把這事給做通但機器人可能這麼廣泛數據採集的場景更難一些所以一定要依賴仿真你的邏輯是這樣仿真和人類數據依賴本體無關的數據對我認為這件事會極其關鍵就是如果沒有這件事如果沒有巨聲的金字塔的下面的仿真和人類數據我認為就是巨聲這件事的通用智能就出不來說到這個數據金字塔我們來聊聊這個金字塔的構成以及它對於每一類數據的收集上有什麼濃厚對數據金字塔其實是這個飛的學生就是朱一可教授他提出的一個概念那它本質上來講就是去分析巨身智能的數據跟自動駕駛不一樣它最多的肯定不是基於自己的本體產生的數據因為沒有足夠規模化的本體的數據那更多的要依賴於仿真和互联网以及人类数据那么金塔包括三块最上面的是这个真实的本体采集的数据也就是咱们现在可能最多的看到的真实机器人的摇操作的数据这个数据一定是最准确的最好用的但是這個數據的問題是它很難去規模化它很難去規模化機器人很難去規模化場景中間層是仿真產生的數據對仿真產生的數據它的優勢就是說它的規模化能夠做得很好當然它也會遇到SIM2的問題那当然其实现在由于客户都是大模型那他们在预训练阶段会用很大量的仿真的数据以及真实的数据其实这个模型的通用的能力会变得很强其实seemtoreal就是仿真和真实gap的问题变得越来越小对这个是中间的仿真的数据再往下就是互联网的数据还有人类的视频的数据人类的视频的数据其实更多的是人的第一人视角的数据可能是人戴着眼镜然后去采集的数据那咱们其实去看过去的几个月的时间我觉得在本体无关的数据仿真和人类的数据我觉得产生了一个质的突破我其实认为现在已经达到了一个scalingout就是巨深的一个数据的一个scalingout为什么这么时候去说呢咱们去看一个是我觉得李飞飞的这个behaviorchallenge包括这个英伟达的Groot这个模型用到了大量的仿真的数据证明了它的有效性另外呢就是说Generalist他用了27万小时的污名假转的这个数据污名假转其实本质上来讲也是人兩個手就拿著這個夾爪去採集的數據它其實也是人類數據的一種那它更多的是一個比較簡單的一個夾爪形態那再往後其實就是手指形態的數據沒錯那他們已經證明就是說這27萬小時數據在模型上看到了Skinning了对那么我觉得由于这几个点其实从我们的实在的观察上从我们的客户给我们带来的需求上过去几个月可能是一个质的一个飞跃就是对于这个数据量的这个需求是一个可能极大的一个增加让我们可能原来的时候是一个我们就是我们需要去刺激需求到现在我们可能是要去规模化我们的团队来真正的交付客户的需求这样一个阶段对那当然就是说在这我可能再分享一些更多的想法我覺得金字塔其實並不是一個很單純的就是三層就是真實數據、仿真數據然後這個人類數據它其實每一個階段就是每一層都要去細分我举一个例子从仿真数据层可能最往上这一层可能是一个人去驱动的仿真数据因为它从ROI角度很贴近于真实数据层对吧它的优势是它不需要去基于机器人的本体对吧那它另外就是说它还是用人这样能够采集到最高质量的数据但是它的问题就是它的规模化能力相对来说欠缺对吧那往下其实就更多是一个算法驱动的模型驱动的自动化采集层那这个可能人的技术就相对来说很少那它能够保证的是它的规模化但是它的质量就不会比上层更高对吧那咱们再往下去看就是说人类数据层也一样可能也会包括比如说被动采集的人类数据层就是说人可能戴着一些眼镜对吧然后没有很好的一个质量管控测试拿到了很多的人的第一人视角的数据也会包括可能主动采集的这个数据层可能有更加高质量的硬件更加高质量的这个流程的管控但是它的规模性会差一些我觉得这个可能是一个数据精彩的一个构成對當然還有另外一個點就是說我其實某種層面上覺得樹津塔給人的一種印象是它是一個很獨立的狀態就是真實仿真互聯網人類是一個相對比較獨立的一個概念從我們的實踐中我越來越認為樹津塔可能會是一個以仿真為中心的一個閉環以仿真為中心是中間那層对就怎么去理解这件事就是说如果真要把仿真的评测做好因为评测这件事必须要基于仿真去规模化那它必须要拿来最大量的足够真实的场景物理的世界人的这些的轨迹经验同时还有我觉得很关键的评价的标准就是不同任务的评价的标准这件事在仿真中闭门造车是很难出来的其实需要去拿到更多的真实的数据对所以这个其实也是为什么我们现在开始去做人类数据的原因人類數據就是人類的視頻的數據你剛才說的是以人類為第一視角的數據沒錯以人類為第一視角為什麼要第一視角? 因為其實咱們可以把人機器人我覺得大模型很關注的一個能力就是跨本體的能力如果從這個角度來講的話人是不是也是一個機器人? 對所以本質上來講這種訓練範式它其實就是把人當成一個機器人把它的數據拿回來對進去一塊去訓練另外還有一個點就是說相當於把人當車了對把人當車了沒錯就完全是這個意思另外如果這樣沒準將來機器人也越來越像人因為它越像人它的這個本體和人的這個差距就會越小所以我覺得這個是人的第一人視角的數據的一個核心的一個點那當然就是說這個數據回來了以後其實可以基於RealtoSim的很多的這個算法仿真的能力把這個世界拿回來把它所交互的這些物理拿回來以及把它們的很多的任務以及評價標準拿回來又把這些真正的加入到仿真裡頭去來擴充仿真的規模化對吧另外一個就是這個是一個從真實到仿真的一個環從仿真到真實就是說仿真做完了以后一定需要在真实世界去落地那么Cintro如何去解决一方面来讲是在预训链加入更多的仿真一方面其实是把它和真实世界做更好的对标对吧其实所以就是说真实的谣操作的数据真实谣操作的评测和仿真的对标就会变得尤为重要对吧不只是在训练端的对标同时还有在评测端的对标来真正的可以让Sim2Real不止可以服务训练也可以服务评测所以从这个角度来讲的话我认为可能数据金塔一方面它是一个金塔它是一个分层的金塔另外一方面我认为它可能是以仿真为中心的以评测驱动为中心的数据的一个闭环所以你觉得哪些数据是被高估了哪些数据是被低估了对首先我认为真实的機器人的數據肯定是被高估了我認為其實咱們從過去幾個月真正行業的發展來看我覺得其實大多數人都已經看到了這個點就是可能原來就是真機派的這些的公司或大模型團隊其實現在我認為大規模地去採購仿真的数据仿真的评测或者是人类的数据所以我觉得第一它肯定是被高估了第二我觉得仿真还是在被低估为什么因为我觉得大家已经看到了一些仿真数据這樣的一個能力但是我認為仿真的評測我認為其實真正看到它的沒有那麼多人我覺得大模型團隊是完全看到了為什麼?
因為他們在關注的是大規模的評測沒有仿真他就沒有辦法做大規模評測而我認為很多的機器人公司可能現在還是在開始去看到這個階段為什麼? 因為它的規模還沒有那麼大那当它的规模越来越大它需要去处理的任务数量、任务种类、开放场景越来越多它就会越来越感觉到这个痛点它是绕不开仿真这件事的另外我觉得人类的数据其实相对来说也是被低估的我认为其实人类的数据也是极其关键的一件事当然我认为它是要去从我们角度我认为它可以帮助我们真正的去完善和补充增强我们以仿真为中心的这条环智能眼鏡聽起來非常有用智能眼鏡就相當於是車就是所有人都出去給機器人收集數據去了是的我很同意這個點我認為其實人類數據它的一個問題就是它其實沒有什麼壁壘那麼我看到很多人在做人類數據的硬件但是其實本質上來講人類數據它的底層就是要讓人戴上消費級的硬件去采集数据一定是要眼睛看吗第一视角一定要眼睛看比如说我看有硬件公司做一个像ploud它做录音笔像比如说还有公司做了一个胸前的这种明白这种是人类第一视角数据吗从第一性原理上来讲你越贴近人的视角是越好的对就是说其实你的一个硬件如果比方说定在头上定在头顶上或者放在胸口你其实你的视角跟人的眼睛的视角都有一定的差距的所以本質上來講這個都會產生一定的問題為什麼一定要是眼睛? 我覺得可能更多的是從一個第一性原理就是說人就是這麼工作的對那麼這個其實也是我覺得看到的很多的真正的需求我覺得都是朝這個方向去走的對那你從這個角度去看的話其實到最後的時候一定需要的是一個最佳規模化的我覺得消費級別的足够舒适的可穿戴来真正的服务人类数据的我觉得端测的硬件怎么让人愿意大规模戴上眼镜如果不是近视或者像我这样我是近视但是我就想戴隐形我觉得理想状态下人就喜欢戴这个眼镜而不是人為了數據去戴這個眼鏡我覺得這個可能才是真正人類數據需要去達到的這個點我舉一個例子比如說Meta的RayBan的這個眼鏡對吧他們其實就改變他們的思路他們最早的時候可能是希望做這個遊戲眼鏡對吧然後做得很炫但是看起來不夠好看那我覺得Meta的RayBan的眼鏡我覺得它特別特別聰明的一個點就是它首先這是一個很酷的眼鏡看上去很好的眼鏡其次它有一個AI的助手可以跟你去對話吧它有一個攝像頭我認為這種的可穿戴可能在長線是最有用的就是這個可穿戴是一個大家都已經有的東西而不是一個你需要去買給大家東西所以這些公司首先需要設計一個足夠有吸引力的眼鏡讓我們都心甘情願的戴上然後他再利用我們去給他機器人收集數據是这个道理但是你如果顺这个角度去想的话我觉得就是说前提就是一定要基于一个消费级的就相当于就是说我认为人类数据的公司不应该做自己的硬件如果因為它的這個硬件很難達到一個消費級消費級我指的可能是一個百萬甚至更大的一個出貨量大家都喜愛這個眼鏡所以我認為它應該是一個基於已有的消費級的硬件或者說這個硬件如果沒出來有一個消費級的硬件的公司做了一個爆款出來大家都帶上了這個是一個真正的一個爆點那他為什麼要把數據給這個機器人訓練大黨的公司我认为在这的话它会有一个不同的硬件其实都有相应的SDK、API、APP对吧所以其实你是可以去设计这样的一个采集流程的我们都知道算力很贵因为我们说驱动人工智能三驾马车是算力、算法和数据算力非常贵数据贵吗? 想要买比如说仿真数据或者人类第一视角的数据大概是一个什么样的金额数据其实我认为在越来越贵这个是很有意思的一个点就是说可能很多的人认为数据应该越来越便宜我其实觉得这个就是本质上来讲就是数据不同的就刚才我提到的就数据不同的阶段可能从一个静态的数据集或者是一个量范集的一个数据到一个提供反馈的数据它的给算法带来的价值是完全不一样的因此它所可以去拿到的这个价格也是完全不同的对那当然就是说我认为就是说咱们去从预训练后训练还有评测角度去看的话我认为可能预训的数据应该是最便宜的且它应该是一个相对的标品对吧因为我觉得不太可能有一家公司自己去支付了所有预训练级的费用它應該是一個平攤對吧比如說可能全世界有五家大模型公司去平攤了這份預訓練的這部分的數據的成本而且大家也都願意去平攤因為這個應該是一個相對幫助大家提升一個相對通用的能力基礎的能力最關鍵的這些反饋驅動的這些的提升還是在後訓練和評測而後訓練和評測可能是一個更加針對性的這個數據那它更多是一個評測驅動來給到足夠的信號以及相對這些的經驗的傳授那它的這個數據的價值和價格會更高很多大概多少錢? 其實這個不太好說就是說現在可能比方說從一個數據角度來講可能一小時從幾十人民幣到上千人民幣可能都會有但是它呢是指就是標數據的專家是嗎?
消極數據的專家就是不止就是它包括了比方說這個數據我覺得它巨深的數據我覺得它包括了三要素第一是它包括了一個物理的場景無論是真實的還是仿真的它一定要有一個場景第二就是說它包括了這些經驗的軌跡以及這些經驗的傳授經驗的傳授就包括了這些語言的標註第三呢就是说它包括了这些评价的指标比如说这个是成功这个是失败它可能会标的更加精细比如说behavior的这个数据集可能我做一个pizza可能是一个很长程的任务我里头可能有的这个比較小的這個任務我可能先失敗了比如說我可能先放一個蘑菇我先失敗了我第二次就成功了這個都會標出來這些在一起結構化它是一個數據一小時這樣的一個比方說就是做披薩的數據可能會賣到比方說從幾十人民幣到幾千人民幣不懂現在這個是一個我覺得現在整個行業還是一個比較發散的一個階段那當然了就是說我們很關注的是高質量的數據因為在這其實低質量數據沒有任何意義高質量的數據我覺得其實是在一個幾百人民幣到上千人民幣這樣的一個階段什麼是高質量的數據? 高質量的數據我認為就是幾個點一就是說物理的這個場景它足夠的多樣化它的交互足够的真实且它足够的符合真实的物理的场景第二的话就是说这个轨迹的这个记录足够的专业对然后比方说做一个披萨对吧它是足够流畅它可能有失误但是失误里头它有一个修正其实这类的数据会更贵其实就很反直觉就是大家可能认为一个完美的做披萨的一个食品可能会最贵但其实不是其实你如果中间比方说掉了几粒这个菜然后给它捡回来再重新把它给做好它会更贵其实我觉得有点类似于人的学习人的经验对吧失败了以后再成功的经验往往是最宝贵的然后第三就是说我觉得它的这些评价指标以及它的这些标注足够的这些准确尤其是这些长程的任务其实在这块是很难的一件事它需要很大规模的自動化的模型驅動的算法來真正的幫它去精細化的做好包括可能如果說是人類數據的話手全身的這些的tracking這些的真實度這些的準確性是極其關鍵的一件事情比如說什麼樣的數據是好數據比如說電影的數據會是好數據嗎? 遊戲的數據會是好數據嗎? 就是我們這些日常見到的哪些視頻可能會是一個好數據我覺得其實遊戲的數據我覺得電影的數據都會有用的但是只不過就是說咱們從數據金塔角度來講的話數據金塔其實我覺得一個點告訴大家就是任何的數據都會是有用的但更多的考慮的是一個RI就是成本收益比對那麼我舉一個例子就是說电影的数据视频的数据很有可能是能够帮助模型提升的但是它的问题就是我可能我的处理成本也会比较高且我模型提升的点数会相对比较低一些所以可能就是说我去消耗了大量的算力去处理的这些数据然后去压缩的这些数据但是在智能上我的体现相对来说会差一些我认为其实从一个RI角度来讲的话我觉得最高的还是一个基於仿真可能有人在還但是是算法驅動去採集的數據或者是一個人類的一個數據我覺得這兩個可能是目前我看到的在預訓練階段我覺得RI最高的數據為什麼電影的數據遊戲的數據處理難度很高我覺得它一方面它會有一些比方說你可能會有增加更多的標注另外它的問題就是說它還不是一個3D的信息它本質上是一個2D的信息那遊戲有可能是3D但是遊戲它可能就是說它有點太crossdomain就是它可能是一個跟這個真實世界太不一樣的一個場景它的物理其實是不真實的對吧所以它有一個別的世界觀沒錯但是這類數據其實對於世界模型是有用的比如說其實很多的世界模型的團隊就用了大量的遊戲就是玩遊戲的數據他們有相應的這些的團隊在買相應的這些遊戲的版權然後用他們的agents下樓去打然後把數據給拿過來訓練他們的世界模型但是這件事怎麼說它是有用的但它的效用性到底多高沒有那麼高從一個我覺得提供數據的角度來講應該追求的是一個高ROI價值的客戶的需求就是說數據金塔我覺得很大其實在裡頭並不需要每一個都去服務但是可能服務的應該是最高價值鏈的東西那你們內部會有很多的數據給他不同的定價嗎? 會有對但是這樣整體上來講其實沒有那麼的複雜我們可能整體上來講更多的是兩類一類是預訓練對吧一類是評測的數據這兩個其實是現在大家最缺乏的數據因為很多人叫你們叫DataFactory就是數字的工廠你們帶我們走進這個數字的工廠內部你們的工作流程是什麼樣大概人員是什麼樣構成的就比如說剛才我們說數據標注的人這是一個職業嗎對我覺得問題很好我覺得首先可能我們可能更像是一個DataEngine或者說我更希望把它定位成一個DataEngine你覺得DataFactory是一個舊定義對DataFactory我覺得它是一個有點偏工廠它是一個流水線缺乏新的技術缺乏新的系統且它不是一個反饋驅動的它不是一個評測反饋驅動的我們認為DataEngine是一個反饋驅動的一个学习的一个引擎那么他们更多是基于一个系统以工程、以系统能力利用到端测的这个人去帮助他们去生成的数据那在这样一个情况下就是说我举一个例子其实可能大家看到的是我们生产的数据但是其实我们的内核是一个权占我們首先為了去打造這個物理足夠真實的世界我們需要用到仿真這個仿真我們需要去構建足夠真實的物理的世界以及這些可交互的這些足夠真實的物理的資產這個其實底層是很難的一件事打造比方說鋼體的這些資產是比較簡單的但打造非鋼體比方說打造这个线缆其实我们服务的很多工业化的场景需要线缆插拔的场景这个是很难的一件事那它需要底层的自演的物理的解算器是一个非钢铁的解算器以及仿真的資產的codesign就是鏈條來真正幫助他們去產生同時的話這裡頭的物理該怎麼辦?
這裡頭的物理需要從真實的世界物理來所以我們其實有一個物理的測量工廠這個測量的工廠基於足够自动化的机械币等等之类的工具链来自动化的去与这个世界上的不同的真实的物理的资产去做交互把他们的力学信息拿回来又把它相对自动化的去放到这个仿真的资产和这个世界头去所以这些都是我们为了去生产一个仿真的足够真实的物理的世界和可交互的物理的世界所做出的這個就是就所做出的這個系統在這個基礎上那我剛才提到就是說有兩類這個仿真的這個數據一類是一個以人為驅動的那它的優勢就是說它的這個數據的質量是最高的它提供的是最好的示範那它的問題就是說它規模化能力相對欠缺一些那在這個路徑上我們有很優質的這些的搖操作的工具鏈有點類似你看到人在去搖操作一個真實世界的機器人我們有人在搖操作仿真世界的機器人不同形態的機器人甚至我們自己定義的機器人它可能跟每個機器人都不一樣但是它是一個足夠標準化的一個形體來去採集各種各樣的機器人的本體的數據示范的数据来拿回来同时我们也基于这条的路径去训练出来了足够好的自动化的这个算法可以基于这套算法去自动化的在这个方向去做采集偶尔需要人为的介入对吧所以这个是一个更加规模化的一个数据产生的这个管线在这两个基础上再往后就是这个标注可能就是说它有更多的一级的标注在这用到了很多大模型的能力以及最後可能有一個人在環的一個質檢來真正保證這個數據它是在它的質量上是足夠高的對所以這個可能是一個我們真正產生數據的一個基礎那當然就是說剛才我也提到了評測也是需要被規模化的所以你可以理解評測其實也是一條數據管線那它其實點就是說它會其實基於我們基於人去就是基于人去采集的这条的这个链路这套的这个端测的这些硬件以及云上的这些自动化的这些算法拿回来这些数据然后呢再去做realtosim那可能包括这个把视频里头的这些物理给重建把视频里头这些任务相对自动化的去提取出来以及这些评价标准提取出来把这些放入到我们仿真的这个资产場景、世界以及這個任務的定義頭去讓它更加規模化的去產生一套就評測的這套的數據鏈來讓它去服務我們的客戶你剛一直在說評測數據非常的重要那你們怎麼做的對我認為評測的數據它的最大的難點就是一它需要很有挑戰二它需要很可規模化就是要難又要可規模化沒錯這個是很難的我舉一個例子可能比方說很多的機器人公司他們在做demo那他們可能比方說疊衣服對吧等等那他們可能更多是在一個相對固定的一個場景去做相對單一的任務但是對於大模型的分化能力可能他們需要就是說真正的在很大規模的場景裡頭去可能千级别至少这样的场景里去可能有很大规模的任务这个任务可能是一个千甚至是万规模这样的一个任务然后有相对的这些的成功的定义来帮助他们真正的去评价那这个时候我觉得第一就是说如何去打造这些平行的世界這些平行的世界的相應的這些物理這些其實剛才我已經簡單講過就是對於仿真對於這個真實到仿仿真這樣一個產線那比較難的是它裡頭的這些任務以及这些评价标准这些我们是从真实世界来的我认为这个是极其关键的一件事就是说如果仿真的评价与真实世界的评价去脱离那这件事就算可以规模化它也没有办法真正的产生实质的价值另外一个点就是说可能大家认为我们是一个以仿真为中心的公司所以我们只做仿真其实不是这样我们还有一套真实评测的基建比方说我们有真实的机器人然后我们有就真实的这些就评价的算法这些场景他们的目的不是为了去服务我们的客户去评价他们的机器人在真实场景而他们目的是为了去与我们的仿真的更大规模的这套的工具链这套产线以及这些评测的难题去对标比如說我們用相同的算法在仿真裡頭和在真實裡頭我們是否可以看到一個相關性的對應這個是很關鍵的一件事我覺得只有把這些給做好才真正的能夠把以仿真為中心的規模化的仿真的評測給做好你有多少人? 整個團隊我們現在可能全職的更多的是工程技術方向的就有可能一百來個同學大概是這樣我不太認為AI會自己為自己完全就生成數據然後就服務自己這件事底層邏輯是不通的因為它就更像是一個用動機所以本質上來講我覺得一個核心是一你是否拿到了足夠準確的世界对吧以及足够准确的任务二你需要有人在这里头的一个经验的示范这个是一个核心的能够帮助模型去提升的一个认知那当然就是说我觉得很关键的一个点就是你如何去放大这个示范对吧如果你是以一个以人为中心的数据公司那你可能需要的是我认为可能需要是千万到亿这个量级的人最终才能把这件事给做成因为这块需要的量太大了但是如果你是以仿真为中心以系统为中心的那你其实在这有一个放大效应因为你是通过技术去放大人产生的这套的经验那我认为这块可能需要的量会小10倍左右上次我記得譚傑說就是DataFactory遇到一個問題就是你們採集了很多數據但是比如說給他提供數據了以後就是像給這種大腦公司提供了數據以後他也不能告訴你們這個數據好不好然後最後就會出現扯皮就是數據公司說是你們模型沒訊號然後模型公司說是你們數據採的不行就是一個扯皮的過程你怎麼看這個問題怎麼辦对我认为这是一个客观存在的问题但是其实我想举一个例子就是咱们去看scaleAI和OpenAI在GPTR其实是一样的一个阶段这个阶段其实就是说大家其实在共同的找寻这个数据的配方它其实大方向已经相对比较明确了比如说仿真比如说人类数据比如说仿真的评测但是它在细节上可能会有一些区别我举一个例子比如说我们就实时在遇到最早的时候可能客户给我们的需求是要完美的数据后面可能更加希望是复样本或者就是纠错的数据另外就是说可能需要更加分布广的数据比如说你去拿一个瓶子可能希望的是拿瓶子的方式是不一样的而不是每次都拿同样类似的一个方向一个位置对吧这些都是一个我觉得逐步迭代的一个认知我认为在这其实最关键的就是跟可能整个业内最领先的客户去协作起来去共生起来我觉得这个是最关键的一件事另外呢其实就是说我们其实也遇到了一些就之前可能也会有人去问就是说如果一个数据公司它不是做大脑的它不是做本体的那么它可能认知对于数据的认知赶不上一个本体公司一个大脑公司对于数据的认知我觉得其实从我们实践下来我认为倒不是这样就为什么呢就是说其实真正这个世界上能够对数据尤其是大规模的预训练级的数据产生认知的团队极少无比可能也就五個左右我們可能基本上跟他們都是一個合作關係我認為就是說在這兒最關鍵的是和最核心的客戶產生一個相對共生的一個協作的一個關係哪五個就這塊可能就不太細說但是就可能你可以想像就是最大的彈幕型公司最關鍵的彈幕型公司那麼他們往往都會有自己的巨神的團隊那在這兒我覺得就是說很核心的一個點就是兩邊是否可以同步的去迭代就迭代相互的认知这是一个很关键的事其实某种层面上我们得到很多不同客户给我们的认知同时我们也给我们的客户提供了更多的一个认知我觉得这是极其需要的我再举一个例子其实数据金塔这件事它是需要被验证的就是数据金塔是一个概念但是它到底哪一层的数据是最有效的配比是如何的这个是需要被验证的我们其实可能和其中的大概两个公司左右都在不断的去演进对于数据金卡的迭代这个是很关键的一件事那当然就是说你要去验证数据金卡你需要多少张卡可能得几万张卡才真正能够有效的去验证数据卡所以我认为其实在这一些核心的人这是极其关键的应该怎么配怎么配比我認為就是說可能就不能說太細但是就是說我認為其實就是越來越偏本體無關層這個是就首先是一定的一件事另外就是說我們可能得到更多的一個認知就是不只是一個在預訓練階段包括就是預訓練之後的後訓練從R階段該怎麼去做這件事該怎麼去微調多少利用仿真多少利用真實以及後面的評測該如何去構建我覺得它是一個整體的一個體系化的一個認知準備數據非常的關鍵能不能給大家一些你們的關鍵的一些secret分享一下對我覺得可能就是說一些就是比較偏反直覺的認知我覺得還是回到就是說什麼樣的數據是好的數據這個點上其實我覺得它越來越像人的學習就是它越來越不像最早的自動駕駛最早的機器視覺最早自動駕駛機器視覺就是完美的数据是最好的它有一个标准答案的我觉得现在的数据可能越来越没有一个标准答案那这个时候能够我觉得从第一性原理上能够帮助人去学习的数据我覺得它可能是最好的數據就是它是一個比方說讓你看到了一些錯誤能讓你從錯誤中去學習的數據我覺得這個是一個很關鍵另外就是說可能人從小的時候長大他可能就是說你就是看一個老師就給你講題你可能不見得是最好的效果可能你把每一個同學都給當成自己的老師一道題可能有不同的做法然後從這個足夠的分佈中去得到自己的這個結論可能是更好的我覺得這些可能是我覺得它的secretsource就是它是和人的這個學習是越來越共通所以其實我越來越覺得我們可能做的是一個教育公司AI的教育公司對我認為終局的數據公司可能跟教育公司是長得很像的那你覺得AI和教育人的不同是什麼目前來看我覺得現在巨神可能還是沒有那麼智能對吧所以就是說現在其實還是有不少的是一個示範就還是有一些讓他去伺機應變或者他去模仿學習對吧但是我認為就是說越往後可能你越需要去挑戰他另外就是說就我覺得在這兒其實本身來講巨聲這件事它還是一個要與物理世界去交互的一件事所以這個教育可能和咱們的平常的這種書本的教育還是不太一樣的它需要有更多的物理的示範和物理的交互因為你跟國內外的各個不管是大腦的公司還是機器人本體的公司還是大模型的公司應該都很熟能不能給大家做一個就是關於中美機器人團隊是怎麼做數據的mapping沒問題他們都是什麼的信仰派就是因為我跟他們很熟所以我可能不能太細說我覺得我可以去相應的去歸類就是說我覺得有一個就是大模型派大模型派我覺得可能越來越多的就是大廠的大模型團隊我覺得他們可能出發點可能最早的時候可能不太一樣但是可能越來越趨同趨同就是說他們需要的是這個領樣本的泛化的能力你說的是大宇元模型團隊還是哪個團隊? 大廠的VLA團隊大廠的世界模型團隊我覺得大概是這兩個團隊吧我覺得他們需要的是這個領養本的分化能力我覺得這個是一個極其極其Zeroshot對Zeroshot能力我覺得這個是他們最看重的他們倒沒有那麼看重本體的複雜度他們最關鍵希望的是能夠用相對簡單的標準化的本體但是能夠去驗證他們規模化的技術上的能力我覺得這個是他們特別相信數據他們也特別相信本體無關的數據相信仿真相信仿真的評測相信人類數據因為這個走的是大圓模型的邏輯沒錯同時就是說他們其實在Infra上他們會更早的去嘗試做RL做大規模的RL這件事但是重點可能是在仿真這個是我們可能看到的一個核心的大模型團隊的一個趨勢這裡我插一嘴正是因為這些大廠當然它資金很雄厚它的infra能力也非常的強但是它同時有大圓模型也有VLA和世界模型就是做機器人的方向在当下肯定会把资源倾向倾斜给大鱼游模型的团队对吧它不会倾斜给机器人团队吧所以会不会反而出现在大厂这个资源其实在机器人团队能留到机器人团队的资源没有想象中那么多你说这点很好但是就是说我觉得这个其实是一个可能三到六个月前的真实的现象或者说其实在今年以前我觉得看到的情况其实大厂是基本上没有下场的比如說openeye可能沒有下場對吧可能自己也沒有下場就沒有下場seriously去大規模去做這件事對但是在今年開始了以後我認為可能核心就是說大模型這裡相對來說可能趨勢相對確定了一些有一定的手可以騰出來了然後這些就開始去做到了機器人VLA從你的視角告訴我們誰變得更激進了我觉得自己肯定是更激进了我觉得阿里我觉得OpenEye我觉得DMind也绝对更激进了对我觉得英伟达我觉得也更激进了这就是五家角逐机器人大脑的团队我覺得還會有其他對其實某種層面上我認為派也應該屬於這一類但它是創業公司對它是創業公司但是我認為它可能咱們去定義它可能更多偏一個frontierlab而不是一個機器人公司對吧那麼我覺得它也算是這一類就是它在真正的大規模的去訓練自己的模型就這個是一個我覺得大模型對吧那咱們再去看機器人我覺得機器人的話可能最早的時候全都是真實拍的現在我覺得有一些是開始去follow仿真仿真評測我覺得這是掉頭了還有一些同時也在follow這個人類的數據那比如說這個以generalist為首對吧同時比方說Sunday他用他的那個污名的甲卷其實也是人類數據的一種那国内的一些可能也是有follow人类数据的对所以我觉得就是说机器人公司其实也在分化可能我觉得底层是这个机器人公司是否是一个很大的一个商业模式是一个素材还是说它的商业模式就是去做大脑智能我觉得它在这会有一定的分化就是它的这个数据的这个品类上会有一定的分化做大脑智能好像不能成为商业模式吧现阶段我觉得大脑智能就是说它去把机器人部署到真正的长线所去去执行长线的任务而不是去做一个素材的素材厂我觉得现在可能很多的机器人公司其实底层做的是一个素材厂其实我个人比较看好语书语书其实我觉得它还是一个更加偏本体的一个模式如果说咱们去认为可能本體無關的數據導致可能大廠的大模型真正成為最後的大腦那我覺得語述的區分度是最鮮明的它就是堅定的把它的本體做好对所以我倒认为就是语初可能后面她的定位很清晰她也不和她的比方说就是她也不和大脑公司去竞争我觉得他们是一个很务实而且知道自己哪里有优势知道自己哪里不希望去发展的一个公司就我觉得知道自己的这个boundary就边界我觉得很关键那他在这个生态里面会扮演一个什么角色这样的本地公司我覺得它會是一個核心的本體硬件商可能比如說後面如果說這些大廠的大腦公司大廠的大腦團隊他們希望去在場景去落地他們大腦他們很有可能會高調的去看語數和語數合作對吧因為我覺得語數已經被證明它是一個足夠穩定的可量產的對吧可量產的除了語數以外你還看好那些我认为智原其实我觉得商业化走的是很好的因为我觉得他们可能从Day1就想得很清楚这件事如果说他要去体系化做的话他就要把上下游完全打通同时我认为其实巨深可能某种层面上现在还应该是一个供给驱动的市场就是你先把這個量給做出來真正的去驅動整個行業的提升整個驅動整個供應鏈的提升我覺得在這兒它是想得很清楚的我覺得它的量產各方面是做得很好的你覺得這個行業當然今天特別早如果一定要說終局的話你覺得它會形成一個什麼樣的形態? 機器人大腦會是霸權的嗎? 會是一家壟斷的嗎?
我觉得可能会像现在大模型行业对吧? 大家以前以为OpenAI能够一击垄断今天好像不行对因为我认为底层还是数据闭环对吧? 如果说这个数据闭环是掌握在一个本体上它有规模化自己最大的本体去落地的场景拿回来最多的数据他有訓練自己最大的大腦那這件事可能確實會形成一個霸權我舉一個例子特斯拉就是這樣一個霸權對吧他們在自動駕駛我覺得是做得是很好的那當然國內的我覺得OEM比方說像理想小鵬未來等等我覺得做的都很好對那當然如果說在這兒它如果是一個本体五官的一个数据模式那它必须要和数据商去进行共生的一个演化那这个时候我觉得可能大模型厂商很难单独的形成一个霸权所以我认为在最后可能更多的是一个生态系统这块有最好的电脑公司有最好的数据公司有最好的机器人的本体公司三者的一个强合作来真正的让这个长径公司真正的把这些机器人给落地进去当然可能会有一些长径公司自己就是最好的硬件公司我觉得这是完全可能的现在看好像美国那边大脑发展的更快中国这边本体发展的更快这会产生什么后续的影响你的中國團隊對於機器人大腦會追回來嗎? 從我的判斷因為我們其實服務的客戶足夠多我認為很有可能會去追回來我舉個例子千萬其實是現在可能最好的開源的大模型所以我認為國內的大模型的能力我認為是極高的且他們在這我覺得做的決心是足夠高的他们的基建我觉得是足够好的同时我觉得这块的人才密度也是足够高的我觉得更多的是因为由于可能国内的大厂之前的时候可能重心还是在大模型大元模型他一定要把这些事给争下来我觉得现在这件事他们已经开始把他们的资源开始去放到巨深这块了所以我认为可能咱们可以看到不少这块的一个提升为什么过去三到六个月他们开始往巨声上转资源他们看到什么迹象其实我觉得还不是过去三到六个月可能是過去的我覺得就小一年的時間對我認為可能更多的是一就是說大模型這邊我覺得可能相對趨勢比較明確了所以他們有精力往這邊投了二的話我認為可能確實也是看到了就是說咱們現在就是我這有一個核心邏輯就是你到底是本體相關的數據還是本體無關的數據如果这件数据一定是本体来的我觉得大模型商是很难完全介入的对吧那他最好的方式就是跟一个本体商去合作对吧那如果这个数据的核心是本体无关的数据那我觉得这就是妥妥的大模型公司的聚会对所以我觉得这个是一个可能整个行业我觉得逐步开始想清楚的一件事谁会是Robotics领域的OpenAI我觉得首先OpenAI可能也還會是RoboticsOpenAI因為他們其實Robotics團隊其實還是很強的一個團隊我覺得一定不能小覷我覺得DMind我覺得絕對可能還是大模型的DMind對我覺得他們是一個極其的穩我覺得極其優秀的團隊對我覺得英偉達我覺得是很有希望的我覺得是很有希望的因為我覺得英偉達對物理AI是極其重視的我覺得Jim的團隊我覺得明宇的團隊我覺得都是足夠強的團隊而且资源我觉得是给够的团队我觉得在国内的话我觉得可能自己也我觉得可能阿里的千万从我角度我觉得可能都是极其优秀的你不看好马斯克我觉得XAI是有机会的但是马斯克其实他现在的focus是他的本体的硬件他其实我觉得一个是XAI可能现在还是在一个大模型对吧他还是要把重心在把大模型给做好他那场仗没有打赢对没错所以这个是他可能XAI最关键的事而他既然有一个本体优势我觉得这个优势是别人没有的优势就是他本体的硬件优势他一定要把它发挥到极致所以我覺得這個是特斯拉現在這個機器人的重心所以我覺得這兩個其實現在兩邊還沒有完完全全的匯到一起去你覺得機器人大腦現在的路線有分歧嗎? 它收斂了沒有?
我並不認為完全收斂我認為就是說其實就是剛才咱們提到的這個模型機數據這件事我認為可能就是說機器人大腦的架構可能这件事还并没有完完全全的收敛当然我觉得在已有的架构上已经有一些scalingout的端倪是基于非本体就是本体无关的数据仿真和人类数据去产生的当然就是说这个大脑架构是否可以进一步的去演化它该如何更有效的去利用到世界模型等等我觉得这个还是一个研究问题就在这我觉得还有一定的研究问题需要被解决我們現在有很多的新詞包括世界模型包括空間智能然後包括物理世界的AI這些都在講一個事情還是相似的事情給大家解釋一下這些新的概念對我覺得它們其實還不太一樣我覺得物理世界的AI可能更多的指的是能夠在物理世界去行動的這些的模型那麼我認為可能主要包括自動駕駛和巨神智能這個我覺得是一個對物理AI的一個定義那當然就是說我覺得空間智能的話我覺得它其實更多的還是關注在這個就是3D的這個空間視覺然後是否可以去有效的不只是重建更多是生成3D的空间以及基于它去进行相应的一些预测我觉得世界模型可能更多的是你对物理世界有足够好的一个理解能力以及一个预测能力但是可能你欠缺对它的一个行动能力我觉得大概是这样的一个区别我们今天因为主要的话题是数据你觉得如果在数据里面只解决一个最关键的问题它就能实现大幅的跃升你觉得会是什么问题我觉得如果是巨深的话我觉得可能现在最关键的问题是评测就是评测的规模化我觉得这个是最核心的问题为什么这么说呢因为其实我觉得现在本体无关的数据的预训链的通路和scalinglaw就已经出现了那我认为在评测上其实现在是一个卡口就这块是一个真正的卡口就是如果这个解决不了我认为大家很难去衡量自己智能的提升这个是一个核心对那在这我觉得就是刚才如我所说我觉得可能一定要去把真正的仿真的规模化的评测给它打造好我觉得这块会是一个所有人都需要的一个能力那如果是大约模型呢它数据问题应该解决最关键的一个问题是什么大猿模型我其实认为可能也是在评测和这个后续链端那它其实很多现在agent可能需要的是一个是更好的一个评价能力那么其实现在遇到的一个问题是什么呢就是说魔高一尺道高一丈就是当你模型能力提升了以后你需要更加牛的人去提供更加好的反饋或者去制定更加难的考题就更加有效的评测指标所以我觉得这个其实是现在可能大学模型遇到的最大的问题它其实是它本质来讲是卷越来越高阶的评价指标你觉得到哪一天数据问题会彻底不重要了我其实最早就是我认为会有一天数据问题不重要可能是比方说15年可能20年可能会有一天数据不是一个问题但是我现在越来越思考就是说我就从第一线原理去思考人你说人什么时候不愿意去读书了或者人什么时候不愿意去学习了我其实觉得人可能越优秀越希望去提升自己他只不会变成就是说从向别人学习变成与自己去对标与自己的昨天去对标与自己今天早上去对标对吧他会更加饥渴的去摄取到更多的知识但这些知识可能有的时候可能书本已经不够了那他可能需要去在真實的世界去實踐去遇到了一些挫折然後拿到一些反饋來不斷的激勵自己更好地去提升所以我其實認為可能智能越強我現在的觀點跟之前我覺得其實有些變化我現在觀點是我認為智能越強其實它對於知識的積可程度會越高對於數據的積可程度會越高但他可能就不想向外學習他可能是自我學習是的我極同意我覺得就是說到了終局可能整體上來講就跟馬斯克說的咱們人可能就在一個仿真裡頭就是他可能就是在自己的這個咱們給他設定的一些仿真的環境裡頭去基於他自己去設定的一些成功指標他不斷的去訓練他自己的內功我覺得可能會有那麼一天當AI開始向AI學習那DataFactory是不是就消失了我同意這個點就說我認為DataFactory它不是一個低性的一個需求對吧我認為知識或者說人類對於學習的渴求它是一個低性的一個需求對那麼我認為DataFactory它還是一個偏量範式的大規模的一個產生量範式的相對標準化知識的一個路徑我認為這個路徑可能很快就會不需要了那你們不就消失了我們不是DataFactory我們我認為還是一個以系統驅動的以系統為中心的以評測為中心的通過幫助客戶的模型發現問題並且基於這些有效的反饋和經驗幫助他們去提升的一套的能力對吧這套能力包括示範也包括仿真的這些環境到終局的時候很有可能所有的人都不用我的數據但都用我的方針的環境在裡頭去用RL不斷的去修煉內功我覺得可能會有那麼一天AI會不會不需要這個你覺得AI需要嗎如果它足夠強大它需要一個教育系統嗎我覺得到最後可能不是一個教育系統可能是一個環境对吧这个环境就是说有点类似于就是说人在这个社会上他去学习他总需要一个环境无论是一个比方说偏数字的一个环境或者偏物理的一个环境他都要在这样一个场景下去自我去提升对吧这个场景这个环境其实本质上来讲可能是我们终局去提供给我们客户的那就有点类似于咱们去看大元模型的学习其实现在有很多的就比方说scale等等给他们提供的是一个叫RLINF刚才我提到就是一个服务强化学习的一个环境对吧那么让这个模型在里头自己的去修炼内功我认为这个是一个可能最终极的一个需求你说像爱因斯坦这样的人的环境是什么爱因斯坦我觉得他是可能有很多的是在他的大腦裡頭去構建了很多的思考前提首先它可能有一些它對於物理的基礎的認知然後基於這些基礎的認知基於這些基礎的定理它去構建了很多的思考實驗思考實驗某種層面上咱們可以給它理解為仿真它其實很多的廣義相對論狹義相對論它可能都是它自己的大腦裡頭的思考實驗去试错去想出来的那么本质上来讲我认为如何去构造这样一个思考实验你可能需要一些物理你需要一些grounding就是一些限制条件对吧你需要足够多的这些环境来帮助他在里头去进行足够多的就是我觉得可能大规模的实验你覺得仿真是你就是我們開始聊到那個你一直想尋找但是以前沒有找到現在找到的那個方向嗎對我覺得仿真是這個因為我認為仿真是真正能夠去解決巨深數據問題的基石或者說我認為仿真是整個巨深智能它對於學習所需要的前提條件當然我覺得單獨是仿真當然我覺得單獨仿真可能並沒有辦法完全解決這個問題我認為它需要是一個剛才我提到的一個金字塔它是以仿真为中心但并不是以仿真为一的一套系统能力好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界字幕由Amara. org社群提供
嘉宾:谢晨 (光轮智能创始人兼CEO)
主播:张小珺
时间:2026年3月30日
主题:数据产综述——数据在AI大模型、机器人、世界模型、数据金字塔、定价、产业分工等领域里的角色、机制、瓶颈与未来,“数据是新时代的石油”。
本期张小珺与返场嘉宾、光轮智能创始人谢晨开展了一场2小时+的深度对谈,全面梳理“数据”在AI、机器人和整个智能系统赛道的意义与变迁。节目聚焦“数据作为新时代石油”的产业结构变化,细致剖析了AI大模型和机器人领域数据供给、定价、评测机制,以及数据金字塔、仿真环境和世界模型等新范式,呈现出中国与海外在数据-智能产业版图上的纵深差异。
金句
AI数据本质定义的演变
新型数据工作:高价专家与结构化数据
金句
金句
数据金字塔三层:
新三极协同:大模型商—数据商—本体公司—场景商
行业架构推演:本体相关 vs. 本体无关数据,两类公司利益分野。
数据行业的进化链:
定价标准:
数据工厂/引擎工艺:
金句
金句结尾
如需更精细主题索引或单独高亮某段对话,请补充需求!