
Loading summary
A
你做這件事情比大部分人都早你覺得是為什麼? 我覺得有幸運的部分就是說我PhD做的第一個事情其實就是基於語言模型去做agent你只有有個differentbet你才能夠超越之前的霸主對吧就是說我覺得如果openAI一直做強化學習那可能也很難超過diplomat我導師他是GBT-1的第二作者他當時對這個事情就有點懷疑很有意思的一點是說傳統上大家認為發生的事情是比如我大廠先做出來一個東西然後創業公司就可以開始抄比如說我做出來拆GPT那我可以去抄拆GPT或者去做一個類似的事情但現在來看似乎反過來事情也是可以成立的如果你成為了伯克希爾的CEO未來要拿出50億美金Allocate到AGA這個行業你會怎麼去Allocate這筆錢既能體現回報也能體現對人類的貢獻就是BetOn有DifferentSuperApp的產品形態有不同的交易方式如果你不相信這一點的話那這個世界就變得很灰暗那只有OpenApp或者Antropic有機會但是如果你相信這一點的話就會有很多新的機會Hello大家好,欢迎收听张小军商业访谈录,我是小军。 这是一档由语言及世界工作室出品的深度访谈节目,我们希望和你一起从这里探索新世界。 今天的嘉宾,我们很开心邀请了OpenAI的研究员姚舜宇。 205年4月,姚舜宇发布了一篇很有名的博文《TheSecondHalf》,宣告AI主线程的游戏已经进入了下半场,这之后我们与他进行了一场博客对谈。
姚盛宇畢業於清華和普利斯頓大學開始智能體的研究非常早在博士期間他意識到了語言可能是人類發明的最接近本質的工具於是轉向了語言智能體的研究至今已經六年他有許多有代表性的工作我們的談話從個體出發共同探索由人、組織AI人與機器的交互所抵達的這個世界智能的邊界以及人類與機器的全景前不久我刚刚创立了一家新的内容工作室—语言及世界工作室顺于很意外的从另外一个角度帮我回答了我们工作室创立的初心为什么我们相信语言是这个世界的本质奥秘它的表达是语言是人为了实现放话而发明出来的工具这一点比其他东西更本质Hello順宇先給聽眾朋友們打個招呼大家好我叫姚順宇然後現在在OpenAI做research今天我們嘉賓是OpenAI研究員姚順宇他的研究方向是agent最近剛寫了一篇非常有名的博文TheSecondHalf告訴大家AI的遊戲已經進入了下半場那這次節目我們第一次也嘗試由兩位主持人除了我還有大家也很熟悉的廣密廣密你也來給大家打個招呼吧大家好我是廣密至于我看了你的很多资料和你自己写的文字我从你的文章语言里整体能读到一种反叛精神所以我对你这个人很感兴趣能不能先给大家做一个自我介绍就是聊聊你的过往的经历你说反叛精神对啊這很有意思因為我感覺我是個非常乖的學生我感覺從小到大就是按部就班的學習就是我本科從合肥考到清華然後讀搖班然後在搖班大家都會告訴你就是去美國讀PhD然後我就去美國讀PhD然後我在普林斯頓讀PhD然後通過PhD之後感覺很自然的就是OpenAI是做research最好的地方然後就加入了OpenAI感覺就是我這個前28年的人生非常的非常的這個乖你是15到19在清華藥班19到24在普林斯頓24年畢業進的OpenAI對吧你之前學的應該不是AI就是在本科的時候你是怎麼進入AI領域然後繼而又進入了Agent這個領域的對就是搖擺的傳統是偏理論計算機科學但是可能我還是有反叛精神的吧我當時覺得重要的問題可能已經被解決了就是如果你去把一個比如圖算法的複雜度從n的2.83次方降到n的2.8次方這個事情已經對實際沒有什麼意義了然後我是16年的時候在李劍老師的一門課上面看到了一個multimodalword2vec的一個demo就是說當時有一個比如說你可以有一個word2vec有一個非常驚艷的example就是說一個國王的embedding減去一個man的embedding再加上一個queen的embedding可以等於一個比如woman的embedding就這個事情我當時覺得非常神奇然後這個事情可以做成比如一個圖片一個比如說一個國王圖片的embedding減去man的embedding再加上queen的embedding我當時覺得非常驚艷但是當時其實清華或者起碼搖班沒有什麼做deeplearning的老師或者資源然後18年的時候搖班有一個傳統就是每個人都要去海外做一學期的這個research然後我去FIT然後跟的是吳嘉俊學長然後從那裡才真正開始系統性的做deeplearning然後當時我做其實更多是computervision但是我當時覺得好像Vision你很難實現一個General的AI然後Intuition就是說感覺Language是更重要或者更Central的一個東西然後後來進了PhD之後就開始做Language那怎麼進入Agent呀對這個事情其實我覺得也是有些基本巧合吧就是我的導師他之前有一些research就是說我怎麼能在一個簡單的語言遊戲裡面去做一個這agent這個可能是16年17年時候的工作就是說你用一個非常簡陋的RNN然後在一個非常小的文字遊戲裡面你可以做一些這種動態的interaction你學著學著就知道比如過橋之後就可以比如說去河的對岸就類似於這樣非常簡單的事情我進入GradSchool之後其實我是被這個ComputerVision錄取的但是我當時已經不想做ComputerVision了然後我就去找做Language的人聊天然後我就遇到我現在的導師Karthik然後我們就在Brainstorm有什麼idea然後我就說現在這個語言模型GPD2已經變得比你們當時要強很多了那他現在玩遊戲是不是也會變得更強然後他說maybethat'sagoodidea然後我們就開始做這個事情了然後從那開始就已經一直在做agent做了已經有六年了你覺得agent或者說language最吸引你的是什麼我覺得是它的generality就是任何事情你都可以用語言去表示或者說絕大多數事情你可以用語言去表示我覺得很吸引我的一點就是說我當時我覺得隱約有intuition就是說你最終比如你要實現一個AGI當然當時大家沒有人提AGI但如果你要去實現一個非常generalsystem那你需要去build一個agent如果回看AI的歷史的話從1960年代開始大家一開始的想法就是想去做一個Agent這個野心非常ambitious對吧就是說我們想用一個Summer去解決Vision想用另一個Summer去解決Language然後我們把這些東西拼在一起我們去做一個Agent然後他就比人聰明了包括你去看圖靈一開始的想法就是說大家都會想去很自然的想要去build一個人或是build一個Agent但是這個事情太難了所以我覺得逐漸的AI就變得非常碎片化然後大家研究的問題也越來越小對吧就是說有些人去研究我怎麼去解決比如說Vision的這一小部分問題或者去解決Language的這一小部分問題或者更細一步Translation的這一小部分問題最後就變得越來越細分越來越vertical但是我覺得15年以後實際上Scalingout誕生包括很多這個ResearchBreakthrough誕生歷史的大勢就是說我們應該從這種VerticalThinking重新回到一個更General的Thinking然後去試圖構建一個更通用的這個系統當你進入到Agent系統做研究的時候你意識到最重要的幾個事情就是當你要把語言模型讓它行動起來有一些收穫吧我覺得我第一年最大的收穫就是說要用GBT不要用BERT然後這裡解釋一下就可能現在已經很多人不知道什麼是BERT了就是當時最火的語言這個領域最火的模型叫做BERT然後他的想法就是說我去學一個表示就是說我有一句話然後我可以通過某種方式學到這句話的一個表示然後我可以通過這個表示做很多下游的任務比如說去做一些比如說單選題或者去做一些這種基於選擇的任務然後當時我覺得可能95%的人在做BERT然後可能只有5%的人在做GPT然後這也是因為當時自然語言處理的主要的任務都是一些比如我有一句話然後這句話是積極的還是不積極的比如說我很討厭這個電影那這是一個負面的負面的句子就是做一些非常簡單的這種事情那在這種事情上Bird確實效果更好但是你會發現如果你要做一個Agent那你需要的不只是選擇能力而是去自由產生新的動作的能力當然如果你在玩圍棋或者你在玩視頻遊戲的話你的選擇是很有限的比如你在玩這個瑪利奧兄弟那他可能就上下左右但是你如果去玩一个基于语言的游戏那你的动作是自由的比如说我在这个游戏里面我可以用这个剑杀这个怪兽或者我可以去第三个房间或者我可以用我的金色的钥匙打开第一个房间的门这个事情是Bert永远做不到的所以我发现这个事情之后我就再也没有用过Bert我觉得第二个能力就是说任务或者环境非常重要當你有一個非常差的任務的時候你永遠不可能學到非常好的東西從某種程度來說當時有很多人在做現在來看很簡單的任務比如說這個句子是正面的還是負面的或者說我怎麼去判斷比如說A這句話能不能導致B這句話是不是成立當時這些任務看上去很難但是其實現在看上去非常簡單我覺得首先你要找一個足夠有挑戰的任務然後這個任務能夠做出有本質的新的方法然後實際上當時你想去做agent或者想做語言的agent沒有什麼選擇就是可能你只能去做比如這些文字遊戲比如說Zork是一個非常經典的文字遊戲就是說你在一個基於文字的世界裡面就有點像一個互動的腳本一樣就是說你可以去往下走往上走你可以去各個房間你可以去做各種各樣的事情但是你會發現這個環境還有很多缺陷就是說你能學到的東西是侷限在這個環境裡了就這個環境還是不夠大而且你如果要用RL去學這個環境的話那就會像用RL學傳統的視頻遊戲一樣就是說你可以把這個遊戲打通關但它對於其他任何的任務沒有任何的遷移作用對吧你可以把握一下特別好但它對世界上任何其他事情沒有任何價值那我覺得就是可能我們需要一個更好的環境你博士期間其實做了很多工作而且很多知名度也很高包括這種languageagent有react有reflection還有思維術然後包括digitalautomation數字自動化等等等等就是這些研究的跨度大嗎他們之間的共識性問題是什麼你是怎麼按照你的興趣點一步一步的去做他們的延伸的我覺得從我的角度是一個非常自然的過程就是當我意識到就是環境有問題的時候實際上我覺得我第一個比較重要的工作就是WebShop我覺得首先我們要解決一個環境問題因為如果沒有一個好的任務或者環境那我把這個遊戲刷得再高其實我覺得沒有意義其實2015年的時候就有一個非常好的工作叫WorldofBits當時的idea就是說我們應該把電腦或者互聯網作為一個環境這個環境比比遊戲更exciting對但是當時由於各種技術的侷限性就這個東西沒有做得特別好然後21年的時候就是我和導師在討論就是說現在可能是一個很自然的重新做這個事情的時候當然當時我覺得技術還也還沒有成熟就是當時大多數人還是在研究比如說這個A能不能導致B或者翻譯或者我能不能從這個文章中回答問題當時想去做互聯網的agent還是我覺得技術還沒有完全成熟但是可能正因為技術沒有成熟所以是一個好的時候開始做了然後做到20年我們做的就是webshop這個environment然後20年的時候就是GBD3包括後來chainofthought的出現我覺得是帶來了新的方法上的機會然後我們做了react我現在還是覺得我可能我自己最喜歡的工作還是React之後的話就是基於這兩個線就是很自然的去做更多的方法還有Task但我覺得可能我的研究就是一方面是怎麼去做一些有價值的然後更基於現實世界的任務和環境另一方面就是說怎麼去做一些簡單並且通用的方法React提出它有標誌一個範式的變化嗎我觉得这个事情需要可能比如十年后或者五年后再去看很多时候一个东西刚提出的时候是很难看出来的当时的学术圈还是不太能接受就是说我去做一个prompting然后去把它作为一个research就是传统意义上你需要去提出一些fancy的就是你需要提出一些数学公式你需要去训练一个模型你需要去證明你做了很多理論或者做了很多工程上的事情但是如果你只是去比如說使用一個模型感覺這個太軟了不過我覺得從某種程度上來說當時最有價值的事情就是去研究怎麼去使用模型因為如果你是想去那個模型那實際上你是落後OpenAI或者落後這些公司好幾年了對吧然後你做的事情很有可能幾年前別人已經發現了那如果你想要做一些不一樣的事情那可能怎麼去使用模型是更有價值的為什麼你做這件事情比大部分人都早你覺得是為什麼我覺得有幸運的部分就是說我PHD做的第一個事情其實就是基於語言模型去做agent然後這個事情我覺得當時做的人很少因為這個事情我覺得可能太難了或者說不是一個被不是一個共識類的事情就是當時共識類的事情就是說我去做這個問答或者我去做翻譯或者我去做一些已經被已經被這個社區接受的一些任務就是說我覺得我一直有這個非共識吧就是說我想要去做做agent然後另一個點就是說我我我一直想做簡單並且通用的東西就我不想做一個很複雜但是只能在一個領域奏效的東西就比如說當時有很多人就是說我去做比如問答我會設計很複雜的架構然後把這些retrieval就是說我怎麼把這些上下文放到你的模型裡面去做很多東西但是你最後發現這事情可能只能做一個任務我覺得我一直還是想做簡單又通用的東西然後這個事情我覺得傳統意義上是很難被接受的大家已經習慣了就是說AI就是說你把問題不停的細分然後你去做很多細分的這些方法就大家可能並沒有想要去做一個很簡單很通用的事情或者認為這個事情是可能的在比如說20年之前或者今天我們的話題是Agent和強化學習這也是你現在的研究方向我們很好奇你會怎麼定義Agent這是一個很好的問題我覺得這個事情是基於你的context就是基於你的討論的背景的從歷史的角度來說我覺得從自然語言處理的角度來說Agent是相對於比如說一個產生文章或者產生對話的系統而言我能夠去和外界進行交互比如說使用計算器或者使用互聯網或者使用這些tool我覺得從自然語言處理的角度來說Agent其實就是我不僅能夠產生新的文章或者新的思考我還能夠和外界進行交互但是從AI的更大的背景來說Agent是一個非常古老的概念就是說任何你可以去做自我決策和環境交互然後這個optimizereward就是讓他的這個獎勵變大的這樣的系統就都是agent從這個角度來說今天的agent這個詞的這個含義可能更多的是說我怎麼基於像語言模型這樣大模型能夠去做自我決策的這樣的agent系統而不是傳統的比如說單純基於規則或者基於在一個領域做強化學習所獲得的這樣的agent因為Agent這個詞在不同的年代有很多不同的形式對吧你也可以說AlphaGo是一個Agent你也可以說Wemo是一個Agent你可以說這個Robot是一個Agent我覺得這個詞很基於你的情境你提出這個語言Agent它和其他之前的傳統的Agent它的本質區別是什麼呢為什麼語言Agent更本質呢我覺得本質區別是可以推理因為推理才可以泛化就舉個簡單的例子就是我覺得我做react的一個很強的motivation就是說我做完com就是我的第一個工作之後就是我在思考一個事情就是說為什麼我可以一下子就去玩一個新的遊戲但是現在這些系統或者AI需要比如說幾十萬步或者幾萬步或者幾百萬步的訓練你才能去做這個事情然後然後我就發現好像是因為我可以思考對吧就是說我看到一個全新的環境我會思考就是說這個燈是黑的那可能有危險然後基於這個常識可能會有怪獸那可能我現在最重要的事情是要點亮燈然後基於之前的上下文燈在我後面那我應該先向後走那如果我沒有這樣的一個思考能力我直接從這樣一個複雜的這個語言直接去直接去預測我要去往後走這個事情很難就是沒有推理是做不到的所以我覺得最大的區別就是說語言模型提供了一個足夠強的鮮豔這個使得你可以推理而推理又可以在不同環境間泛化所以它核心是推理能力進而能泛化因為你研究agent和智能體非常早就是從你的視角agent它到底是一個什麼樣的演變歷史它是怎麼一步步發展到今天的對我可以說一下我自己的理解但是可能並不完整或者是有一些錯誤就是我覺得最早的AI就是我們被稱為goodoldfashionAI或者說叫符號主義其實想法就很簡單就是說我注重的是推理然後我推理的方式就是說我是怎麼想的我就把這些規則設計出來然後讓這個AI也這麼做就是說如果我的這個溫度高於30度那這個空調就應該降溫就是基於這樣的規則的這樣的AI然後這個事情其實是可以造出來很多最早的智能體了對就是包括最早的robot最早的證明數學定理的包括很多其他的系統都是這樣創造出來但是很快比如說1980年的大家發現這東西是有瓶頸的就是你不管寫多少規則你還是很難涵蓋這個世界上所有可能發生的情況當時就是符號主義演變到極致就是說我們要去做專家系統或者做很多我們去找很多專家我們把這世界上所有可能的規則全部寫下來那我們是不是就有AGI或者說有一個非常通用的有用的系統但最後發現好像你不管寫多少規則還是有很多特殊情況你處理不了而且你寫的這些規則也只能在這一個任務上面管用對吧比如說你寫了一個怎麼去診斷這個心臟病的這樣一個系統那你寫了很多很多規則但是你還是沒有辦法去涵蓋所有可能出現的情況因為人是一個就是他會說任何事情你沒有辦法去處理然後你寫了這樣一個心臟病的系統你沒有辦法去處理比如說肺病那這個事情就導致了第一次這個AI的寒冬然後我們有NeuralNetwork有了神經網絡然後我覺得第二波就是Agent的興起就是DeepReinforcementLearning就是深度強化學習標誌性的實踐就比如說DeepMind去做這些視頻遊戲去做AlphaGo然後包括我們有些OpenAI玩機器手或者Dota或者這樣的一些遊戲然後這個的核心就是說我有一個可以無窮次玩的這樣一個虛擬的環境然後我有一個獎勵然後我有一個非常通用的這個網絡架構然後我就去像黑盒一樣就是去學怎麼去把這個reward去improve然後它就變強然後這個事情我覺得取得了很多成功就是我覺得可能最有名的事情是AlphaGo但是我覺得還是有同樣的問題就是說你去做任何一個環境你需要去做很多環境specific的工程就是說我去做DOTA那我需要做很多基於這個環境的比如說hyperparametertuning或者工程或者很多其他東西但是可能最大的問題還是他沒有辦法泛化你去學了一個圍棋的agent你沒有辦法去玩其他遊戲你去學了任何一個環境你沒有辦法去泛化到另一個環境那這個事情肯定很不好對吧而且如果你的所有能solve的環境都是這些虛擬的環境或者說可以無窮次玩的像遊戲一樣的環境那你沒有辦法找到很好的真實世界的應用我覺得可能第三波的Agent就是從大語言模型開始我們發現它可以去做推理然後基於推理你實際上是去可以做一些新的環境比如說Coding比如說互聯網比如說各種各樣的數字環境然後這些數字環境有很大的特點就是它大多數情況下是基於語言的然後是需要推理的所以我覺得就是這一次Agent主要的其實區別就有兩方面一方面是方法上我們使用預言模型使用推理去構建了很多處理各種各樣問題的這樣Agent但另一方面就是說Agent的環境也發生了一個進化就是從最早的就是這個符號主義的譬如證明數學定理到下圍棋玩遊戲到今天我們去做互聯網去做Coding去做Computer去做這些真實世界的數字環境所以我覺得是有兩條線大家可能往往會看到方法的這條線但是會忽視了就是任務的這條線但我覺得這兩條線其實是相輔相成我其實一直有一個很基礎的疑問就是OpenAI有一個五個分級我們都很熟從聊天機器人level1到推理者level2到代理者agentlevel3然後再到創新者和組織者這個是level4和level5那這五個分級它內在邏輯是什麼為什麼是先有聊天機器人推理者然後再有了agent對我覺得這個事情的邏輯是首先你要有一個語言的顯眼知識然後基於語言的先驗知識可能你能做出來最早的應用其實就是對話機器人然後基於語言的這個先驗知識下一步你需要能夠推理就是我們說Step2就是Reasoner當你有了很好的語言先驗知識和推理能力之後實際上你才能去做各種各樣的Agent或者說能翻話的Agent然後我覺得很明顯的就是今天Agent最重要的幾個進步的方向一個就是說能讓他有自己的reward能讓他自己探索另一個是說multi-agent能夠讓他形成組織我覺得這兩個事情我覺得可能是正交的或者說是可以平行發展的我覺得就是說誰是level4誰是level5我覺得這個我不確定但是我覺得這兩個事情是很顯然下一步需要做的所以从level2到level3就是你做的这一步训模型到用模型这其实是一个很重要的一个跨越或者说从单纯做推理到把推理应用到做agent去和环境交互agent你目前有哪些主流的架构啊这个形成共识了吗我觉得我的感觉是其实百分之大多数时候大家就是用类似于react的架构就是说能够去推理然後你可以去產生一個action就是這是一個最簡單的事情但是again我覺得最簡單的事情可能還是work的最好的然後我覺得可能基於特定的任務你會有很多就是workflow或者更specific的方法但是我覺得最通用的方法還是類似於react這樣的方法廣秘你說你自己最看重提升agent能力的是哪幾個關鍵能力之前有人提context甚至non-context的reasoning或者說工具調用或者指令遵循你剛才一直在提reasoning如果提升agent能力你自己最看重哪幾個能力我覺得這是一個很好的問題然後我覺得現在沒有一個特別好的就是能力的taxonomy或者說這種劃分系統或者說每個人有自己的一個劃分系統就比如可能一個人會劃分比如說這個基於工具的能力比如說我的coding能力我的上網的能力我的使用計算機的能力我覺得是一種劃分方法我覺得另一種劃分方法就比如說我的我的這個處理多模態的能力我的處理長context的能力然後我的reasoning能力我覺得這兩種劃分都是有道理的對然後可能對於現在來說我覺得可能我最看重的是處理context的能力或者說memory的能力然後基於它去做lifelonglearning或者onlinelearning的能力你剛才一直在提到環境你感覺code代碼是一個實現AGI最重要的一個環境嗎可以做多輪的R這個反饋也是B環的也是那個可以驗證的那你感覺這個如果在這個環境搭Agent是不是會更快對我覺得毫無疑問這是最重要的環境之一我覺得Coding就有點像人的手一樣對吧就是說它是某種程度上來說AI最重要的affordance就是對於物理世界來說人的affordance我不知道這個詞用中文怎麼翻譯但是就是對於人來說最重要的affordance就是說我要製造出手能夠使用的工具對吧比如錘子比如說這個筆比如說這個筷子對吧但是對於對於AI或者digital的agent來說可能最重要的affordance就是code因為其他的affordance其實都是給人定義的比如說你的這個網頁或者你的小說或者別的東西其實都是給人定義的只有code是一個很自然的是給機器定義的東西然後我其實是可能2年就當時我就很拉本一件事情就是說很顯然的就是做coding的agent是最重要的事情那為什麼沒有人做然後我們當時做了一個work叫intercode就是當時所有的人都在做比如說我有一個任務我有一個codingtask然後我產生一段code然後我去evaluate但我們就說那你為什麼不把這個執行的結果返回給這個模型你去做多輪的這種agent的task然後把它變成一個環境而不是一個單純的任務然後基於這個我們後來又做了Switchbench然後Switchagent但有的時候我覺得很有意思的一點就是說很顯然一個東西非常非常重要但是有時候就是沒有人做所以說比如說你是一個研究員你覺得你做的事情很重要但是沒有任何人覺得重要在做可能並不是壞事可能就是很重要但是沒有人做这里有个很强的非共识有的人觉得code可能是这一轮技术革命最大的一个价值体现但也有人觉得可以泛化到更多的任务里面在整个电脑手机数字世界中都可以实现agent操作人能做的95%的任务你觉得从code到整个数字世界这一步的跨越或者它的泛化你是有信心的吗我觉得就是從更廣義的角度來說你可以認為比如API也是code的一部分對吧就是任何基於code的這種接口都是就是code的環境的一部分對吧然後我覺得有個非常經典的就是debate一個辯論就是說那最終的這個AGI它是一個基於API的或者基於code的這樣一個還是基於GUI或者基於就是對人定義的這些環境的一個東西還是說它是一個一個mix我覺得這個事情就有點像當然就是首先一點就是說很多事情它可能並沒有一個API對吧現在它只有一個frontend它只有一個前端然後你可以去為它造API那就有點像是說你想要改造你的你的車能夠適應所有路還是說你想要改造你的路去適應現在這些車對吧然後當然我覺得可能最終的結果是meetinthemiddle就是兩邊都會做而且可能這個事情沒有那麼難就是說現在來看讓一個agent既能夠使用code又可以去使用人的這些就是screenshot或者frontend可能兩者都做也沒有那麼難那從這個角度來說去讓agent或者讓這輛車能夠開在所有的路上的難度是低於人力去改造所有的路讓它能變成API接口的難度那從這個角度來說我覺得coding肯定是很重要但是如果去做GUI或者做其他東西也沒有那麼難那可能最終的agent就什麼都做我還想再問一個泛化的問題因為我讀你最新的文章我印象最深的是你提到這個終於泛化了就是是真的泛化嗎因為你剛才也提到有很多鮮豔的知識已經train到model裡頭了對吧那有什麼跡象能讓你感覺到是真的泛化了而不是他那個trainingdata裡面就既有包含這些數據了對,我覺得是有可能就是說如果你的pre-training已經包含了所有事情那RL只是激發出來這些所有的skill使我想起可能是伊利亞還是誰說了一句話就是說Maybetheultimategeneralization就是說你去overfitthereality就是如果你能把剩下的所有事情都幹了那你再討論它是overfit還是generalize就不重要了但我覺得Again,就是它還是generalized的而且我覺得原因就是它能夠reason就是說當你可以在一個環境學到一些如何去思考的這個技能並且這個思考的技能能夠遷移到新的環境我覺得這個是我說它泛化的本質原因從之前的之前可能你學到更多是比如我下圍棋我對這個環境或者對這個遊戲有了很強的理解但是我怎麼去用一個像語言一樣通用的方式去思考在這個方面並沒有犯法我覺得這個是可能本質原因而不是說我學會了上網我學會了寫代碼然後只能夠做世界上很多事情了我還想再插一個小問題有可能我們很快就看到了最強的軟件工程師甚至到207年我們看到了能操作人類電腦手機上幾乎所有的任務和指令的通用的agent你對這一天的這個幻想是一個什麼樣的? 過於樂觀嗎? 還是比較合理的? 我覺得這個事情現在還沒有welldefined就還沒有被很好的定義就是說從某種程度來說現在的這些模型它它寫代碼的能力已經比世界上幾乎所有人要強或者說它的數學推理或者邏輯推理能力從某種程度來說已經比世界上大多數人要強了但是當你要說他能不能很好的使用這些環境的時候還是要基於就是說你要讓他去做什麼任務然後這個任務是不是一個能夠被合理定義的任務我覺得很多時候人或者說人類最難的問題不是說去推理而是去獲得這個context或者說獲得這個背景或者說我不知道怎麼翻譯就是說很多時候我覺得現在模型的bottleneck不是說我缺少這個推理能力或者說我缺少這個寫代碼或者使用前端的能力而是說它缺少一個完整的context然後這個事情我覺得我不知道是不是這個intelligence的問題還是一個產品問題還是一個別的什麼問題但是如果你要讓AI實現價值那你需要去解決這個問題你在4月的博文TheSecondHalf就这篇博文在4月份引起了很大的反响你是怎么想到TheSecondHalf这个关键的idea当时受到什么启发吗好问题是这样的就是说我首先是被邀请去Stanford就是那门课去给一个给一个talk然后我就去思考那我能讲什么呢然后很显然我也不能讲很多很技术性的东西那我就只能讲一些比较哲学的东西那能講什麼呢然後然後就想到這個事情對然後我覺得是就是我在OpenAI工作半年包括之前research的一個感悟就是說大家往往看重的是比如序模型或者方法或者別的東西但是現在我覺得Bottleneck已經轉移到了就是怎麼去定義好的任務怎麼去定義好的環境你覺得現在是那個轉折點嗎從上半場到下半場從某種角度來說我覺得主線在從上半場變成下半場我說的主線就是說基於語言的智能體當然你可以說比如audio或者multimodal或者robot還有很多沒有解決的方法的問題對吧但是我覺得從語言開始然後定義推理定義agent這條線上面我覺得我們已經有了一個終於有了一個很general的方法並且這個方法是可以泛化的那這個事情就帶來一個很本質的區別就是說我們之前是就有點像我有很多怪獸那我需要去為了不同怪獸去造各種各樣的武器去來打這些怪獸現在我有一個通用的武器了就我有把機關槍那現在我要思考的問題是我要朝哪裡去開槍就是我現在其實不用再去考慮那麼多方法的問題了因為已經有一個非常通用的方法了那我可能需要更多考慮的問題是我要用這個方法去解決什麼問題順宇就是怎麼設定任務怎麼定義問題這個你在探索過程中有什麼思考嗎可以分享對我覺得不同的人有不同的flavor有不同的偏好對然後我是從很早開始就是有這樣一個偏好就是說我想定義一個reward這個reward是基于结果而不是过程的而且它是一个基于规则或者说能够很清晰的算出来而不是基于人的偏好或者模型的这个偏好或者一些非常黑暗的东西的然後就是我們做webshop這個工作的時候其實當時最困難的一點就是說我怎麼去定義reward實際上我認為做任何的RLtask的最難的部分其實是怎麼定義reward對吧因為你永遠可以把亞馬遜或者把Facebook就你可以做各種各樣的環境就這個事情工程上非常難但是這個東西總是可以做的最難的部分是我怎麼去設計任務然後讓這個任務既有難度有真實的價值又有一個很好的reward而且這個reward又不是很noisy它是一個基於規則或者是白盒的reward而不是一個黑盒的reward然後我覺得事實後來證明就是說這個是現在的RL就是成功的關鍵就是說像Math和Coding這樣的任務它最重要的一點就是說首先它是基於結果而不是基於過程第二是说我有一个非常清晰的基于规则的reward而不是基于奇怪的人或者模型偏好的reward对吧就是说答案是3那它就是3你只要最终这个答案它是3那它就是对的它不是3它就是错的如果你去做任何其他的设计好像都会出现hacking就是如果你基于过程去定义reward那你可能会出现hacking如果你去优化人的偏好或者说机器的偏好那你也會出現hacking那你可能會產生一個非常優美的代碼但是它可能不解決問題然後我做其他的這些task我覺得也是這樣的failure就比如switch包括一些其他的像callee或者其他各種各樣的任務我覺得就是一點是基於結果而不是過程第二點是百合的基於規則而不是基於人或者模型偏好的因为OpenAI它对产品有五个分级嘛那如果是基于Agent就是基于任务的定义来给有可能的产品做一些分级嘛随着模型能力的溢出当我们要用模型能力的时候那Agent可以怎么做一个分级呢在你脑海中有这样的一个框架没有我现在感觉倾向于会有不同的类型的应用会有不同的挑战然後這些挑戰可能是正交的或者說沒有很難說誰比誰更難或者誰比誰更簡單就是從某種角度來說人類也有這樣的問題對吧就比如說洛克菲勒和愛因斯坦誰更厲害這個事情是很難很難去定義對吧就成為一個大公司的CEO和成為一個數學家誰哪件事情更難我覺得這個事情是是他可能是不同的難或者不同的挑戰但是對於agent來說還有另外一點就是說可能對於人來說一個很簡單或者很難的事情對於agent他可能並沒有這樣的簡單和難的區分就比如說可能對於人來說做一個客服比作為一個軟件工程師要簡單很多對吧他工資也少很多然後需要的文憑或者需要的各種各樣資歷也少很多那現在反而做軟件工程是比做客服我覺得更簡單的事情因為做軟件工程你有一個更好的環境有一個更清晰的reward然後你有更多數據或者各種各樣的原因你想要去做一個非常robust或reliable的客服實際上是有這個reliability的challenge所以我覺得我們可以把人類的各種各樣的工作分成很多各種各樣的category但是人本身就有很多不同aspect的challenge然後對於機器來說或者對AI來說人的這些challenge的相對難易可能也不完全反映到AI上那什麼樣的任務整體來說更適合agent做什麼樣的任務比如說適合人和agent一起做然後什麼樣的任務適合人做就是我覺得從非常高級的角度來說我覺得有不同的劃分任務的方法我覺得從一個劃分方法來說有一些任務更注重可靠性或者有些任務更注重creativity就是說做客服你重要的是比如說10次裡面你需要9次或者以上不要出錯如果你只有85次讓用戶開心了你有15次沒有讓用戶開心那你可能就被炒魷魚了那就是說我覺得一個任務就是說你做簡單的事情但是把它做得非常的reliable另一個任務可能是比如說我要去證明黎曼猜想或者我要去寫一個很難的代碼或者我要去創作文學劇本對吧就是說我可以試一百次我只要有一次做得特別好那我就成功然後這兩類任務我覺得需要挑戰是不一樣我覺得還有另一個劃分就是說你是去做我覺得任務的深度和廣度就是說你可以去做一個比如說我cursor其實是一個非常短的loop比如我把這個文件改一下可能我三秒鐘就做好了有些事情我可能需要30分鐘或者三個小時或者三天從這個維度來說就是說我需要的是就是長期記憶或者longtermmemory的這個能力然後從任務的廣度來說比如說我要去解決這一個bugVersus我要從頭搭建比如Windows這樣的一個repo那我會有廣度的區別一個人能做的事情和一個公司能做的事情和一個team能做的事情從這個角度來說我覺得我們需要multi-agentresearch從reliability到creativity哪個任務是agent目前更好定義的它的顺序和步骤应该是什么样的我觉得其实我们是可以平行的做很多不同的事情的而且其实有一个非常简单的就是设计设计metric的方法比如说做coding我们有个非常传统上有一个metric叫做PathAtK意思是说你做了比如說你同樣一個代碼寫了K次你起碼成功一次的概率是多少那你可以想像就是說當你這個K越來越大的時候你的成功概率會越來越大然後你會發現很多時候CodingResearch會ReportPassat10就是說我同樣一個任務我跑10次我起碼成功一次的概率是多少但是我們去年發了一個Research叫做Talbent它的想法就是說實際上對於另一類任務比如說客服你需要是和它正好鏡面相反的metric我們把它定義為叫做pass-head-case就是head就是一個就是密次的那樣一個符號就是說你做case永遠成功的概率是多少或者說起碼失敗一次的概率是多少就是說我覺得從某種程度來說有些任務我們需要去optimizepassatk有些任務我們需要去optimizepassatk但是往往我們現在更重視的是successrate,whichispassat1或者是我們重視passat10對於coding我們對於簡單任務的robustness並不是特別重視而這個事情的原因我覺得是因為大家做AI還是沒有還是在做一些Benchmark就大家還是在做我做一些任務而沒有說我要去做一些實際的應用但如果你要接受這個Message轉變之後那我覺得很自然就有些應用它就是需要Robustness那我就是需要去OptimizeRobustness現在我覺得還沒有意識到這件事情但我覺得如果大家意識到這個事情這個事情是會有很大進步其實創業公司很擔心模型能力的溢出會把創業公司做的agent吞掉長期看像chrysler這樣的公司你覺得它的壁壘是什麼呢就你覺得哪些agent是模型公司必然一定會做的哪些事情是有創業公司機會的就它這個邊界你覺得可能在哪裡我覺得創業公司應該擔心的事情是模型沒有溢出能力那這樣的話你就真的什麼都做不了了我覺得有溢出能力是個非常好的事情這就意味著你有機會然後我覺得創業公司最大的機會就是說我能夠設計不同的interface或者說人和數字世界交互的方式就是說ChaiGBT或者這些所有的做模型的公司其實都在做類似ChaiGBT的產品然後ChaiGBT的本質就是說你是在像和人交互一樣去進行和這個數字世界的交互你的chatbot有一個對面有個像人一樣的東西然後你和他聊天或者你給他佈置任務或者你讓他去幫你做deepresearch或者讓你幫他做寫代碼但它的交互方式是一個像人一樣的交互方式或者是像助手一樣交互方式如果你能夠用模型通用的能力但是創造不同的交互方式那你就能創造巨大的機會我覺得本質上來說Cursor就是說我創造了一種新的交互方式對吧就是說它不是一個像人一樣交互的方式而是一個像copilot或者說是一個新的交互方式我寫這個代碼的時候它能給你提示一些東西或者我能幫你這個edit一些東西但是沒有人和人是這樣交互的對吧這也是它的價值所在我覺得最終可能模型的能力是會比是會產生Beyond的ChatGPT這種交互方式的SuperApp的那這種情況下創業公司最大的機會就是說我能探索新的交互方式並且我能夠有模型溢出的能力這兩者缺一不可如果你做的是這個舊的interface然後你利用這些新的模型那你很容易被XGBT取代如果你的交互方式很像XGBT那你有什麼理由不被XGBT取代如果你做新的交互方式但模型沒有繼續變好沒有新的溢出能力那你也很難做所以對於創業公司來說最好的機會就是說你做新的交互方式但是模型不停地有新的溢出能力讓你能夠賦能這些新的交互方式XGBT也可以跟進這個新的交互方式對但是我覺得擁有一個superapp其實對於公司是雙刃劍對吧因為當你已經有了一個交互方式的時候你會必然的形成路徑依賴就像20年Google它有無限多的資源和錢有transformer有最好的research但他可能最自然的想法是我怎麼用這些東西提升我的搜索引擎當你有像ChaiGBT這樣一個superapp的時候那很自然你的research就會centeraround這個superapp會centeraround這個交互方式你會去探索新的產品但是即使是大廠或者即使是谷歌即使是OpenAI你大部分資源還是會圍繞你的superapp這樣的交互方式我覺得這是創業公司的機會你剛才提到交互方式今天還是人跟code交互人跟text交互那人跟agent未來是怎麼交互的呢你感覺超級助理那種HER那種屬於一個正確的交互方式嗎如果這種交互方式work有沒有機會變成今天的形態呢HER其實是不是類似於一個還是一個assistant的形態但是只不過它有語音而不是文字對吧我覺得這是一個很顯然很有價值的型態對吧因為人和人交互已經幾千年幾萬年幾百萬年這是一個對人來說最自然的型態那這肯定是最顯然的superapp但是這個生態位我覺得ChaiGBT是站住的或者說很顯然這些模型公司一開始做的事情就是這個那我覺得不顯然的事情是我能不能基於不像人的交互方式對吧我覺得Cursor是個很好的例子然後從某種程度來說Google是個很好的例子對吧就是他當時這是個很新的方法就沒有人見過很奇怪對然後Yahoo從某種程度來說是一個更像謊言的對吧是一個更讓人熟悉的交互方式但谷歌是一個更讓人不熟悉的交互方式我覺得Assistant或者Her或者和人一样的交互方式是一个很显然的最重要的交互方式之一但是我觉得肯定还是会有足够多的机会有新的交互方式产生你脑海里有没有一些新的交互方式就是非Chagpity现在在探索的心态也非传统的互联网的交互方式在你脑海里有吗? 我觉得Canvas是一个好的尝试吧就是说你可以基於現在一個任務去再現生成一個最符合這個情境和你的個性和這個任務的一個前端然後你可以讓這個東西對不同的事情做得很不一樣我覺得這是一個很顯然值得探索的方向顯然也很難感覺應用公司的數據飛輪對他們非常重要嗎或者說在什麼環境下才能形成我感覺chatbot就是偏好數據好像沒什麼數據飛輪那code可能有思考過程的數據那思考過程的數據是代表一類能力的數據那這個可能是有用的像canvas也好artifacts可能是有思考過程的數據的那這裡能有機會形成很強的數據飛輪效應嗎我覺得大多數公司還沒有形成數據飛輪大多數公司還是依賴於模型在變好然後使用模型變好的這個溢出的能力然後如果你要有數據飛輪首先你要能夠自己去模型並且你能夠通過交互有一個很好的reward我覺得就是你要有一個好的reward使得你能夠把好的數據和不好的數據分開我覺得現在可能比較成功的案例就是midjourney對吧就是說我有個非常清晰的reward就是說人更喜歡哪張圖然後這個reward和我的應用是align的就是說我這個reward做得更好那我這個公司就是更成功然後這個模型就是更好一切東西都是對齊的然後有了這樣的一個情況下我又能自己去模型我可以去做數據緋聞然後你做這個事情又必須比較比較不主線因為如果很主線的話我也可以通過pre-training或者RL或者一些別的方式去把這個能力給提上去對吧然後我可以通過泛化我可以通過別的方式所以現在我覺得對於大陸公司好像並沒有形成飛輪如果你是Curso的CEO你會去做pre-training的事情嗎是個好問題我覺得我肯定會去訓練模型或者去嘗試訓練模型但是做不做pre-training我覺得我覺得coding是一個非常主線的任務就是所有的現在大廠他都會把自己的模型的coding做好所以所有的pretraining還有posttraining各種各樣的事情他都會考慮到這一點那在這個情況下來說你要不要做它可能取决于首先就是这些币源的这些模型做的有多好其次是开源模型做的有多好然后这中间有多少gap然后你能够填满填补多少这样的gap对吧那可能但当然比如如果你有很多钱你那你有很多资源那你想把这个事情做了那我觉得也是合理的对围绕agent你脑海里的一个树的结构是什么样子的如果是基於FoundationModel然後基於Risner然後往上漲這個Agent的整個的生態數你在腦海裡是一個什麼樣的結構我覺得就是有兩個方向吧一個方向是就是Fundamental的Research會怎麼演變或者說這個方法會怎麼演變我覺得另一個是應用或者說它的交互方式會有什麼樣的演變然後從某種程度上來說他們之間肯定是有觀念但是我覺得會需要不同的人探索不同的方面然後比如Chris他就是我並沒有在產品或者fundamentalresearch上做創新但是我做交互方式的創新對然後我覺得在fundamentalresearch上我自己覺得比較重要的就是一個是一個是memory一個是intrinsicreward還有一個事情是multi-agent就是說我怎麼我怎麼能夠讓一個Agent這個事情我覺得也和OpenAI就是接下來說的這個Innovator和Organization很像其實就是你做一個Innovator那首先你需要一個Long-TermMemory比如說我華爾斯我研究費爾曼定理研究比如說20年那我需要一個Long-TermMemory我需要一個這長期記憶但是即使是長期記憶還不夠你需要有一個內在的獎勵對吧因為直到你證明的那一刻你是沒有任何外在獎勵對吧你也沒有獲獎你也沒有做任何事情沒有人給你任何反饋你需要自己給自己一個反饋那這個事情是所有創新者最重要的事情無論你是藝術家還是科學家還是文學家還是任何創作者對吧另一方面我覺得作為組織你需要解決的就是說agent和agent之間怎麼協作怎麼讓multiagentscale然後我覺得從某種程度來說現在的agent可能就像一個普通大學生做一個數字化的實習生可能這是第三階或者我們說AGI可能就是一個普通比如一般大學生能夠在電腦上能做的事情的一個能力但是人類社會的邊界就是說這當然是80%或者90%的人那人類社會邊界或者說我們最崇拜什麼樣的人呢那一方面就是這些創新的人對吧愛因斯坦或者高根或者梵高或者貝多芬能創造新的東西的人另一部分就是我能創造新的組織或者偉大的組織的人對吧就像ElonMusk或者SteveJobs那我覺得很自然就是這兩個事情很重要離你說的實現這個願景我感覺中間還有幾個關鍵的東西要突破的你比如說長期記憶你感覺長期記憶是一個短期可以預期突破的問題嗎也許吧當然也取決於多短期但是我覺得我覺得必然會突破的就是一個事情當它足夠有價值總會有突破的就是如果你對技術樂觀的話這個你要展開講一講這個是從contextnon-context下手是在模型的架構本身發生一些變化我不知道我能share多少但是我的belief是說就是我在博客裡面提到的utility的問題就是說為什麼我們現在這個模型的能力推理這麼強考試這麼強玩遊戲這麼強但他還沒有創造足夠的經濟價值其實可能根本的原因就是它沒有這些context然後在人類社會裡面比較tricky的一點就是說當然我們寫下來很多東西我們用文字用googledoc用notion我們記錄下很多東西但是有很多context永遠只是在人大腦裡面這個基於分佈式的這樣一個維護的對吧就比如說你老闆跟你的一些這個行為習慣或者一些很難用語言總結下來的東西這些context它存在人的腦海裡人永遠沒有辦法把這些東西全部寫下來這就導致人是不可或缺的因為只有人有這種能力就是說進入這樣一個環境然後去獲得這樣一個context對吧就是說如果這個問題解決了那我覺得可能utility問題就可以很大程度解決了對吧因為這世界上大多數人並不是這個SteveJobs或者也並不是Einstein他可能只是一個普通人他數學推理能力或者whatever也沒有O3強但是他能夠去managecontext比如說他去了這個公司七天之後他除了這些文字上看到的東西之外他腦子裡面有一些積累下來的context然後這個context使你比O3有優勢因為O3沒有這些context你有這些context雖然你沒有O3聰明但你有這些context所以你做得比O3好你剛才提到一個很關鍵的就是模型或者agent要有一個內生的獎勵系統那今天是不是好像還沒有那如果要賦予他一個內生的獎勵系統是不是我持續自主學習的過程當中我就可以改動我的一些模型的權重那就變得更加的聰明你感覺離這一步還有多遠我不知道我覺得會有這一天但是很難預測什麼時候當然就是說當然他自我提升的方法也許是改變自己的權重也許是有一個基於語言的長期記憶也許是一個基於embedding或者其他東西的長期記憶但是它會自我提升但是具體是什麼方式什麼時候我覺得這還有不確定性內生獎勵你要講嗎就像我剛說的嘛就是說很多創新者對吧就是他為什麼能夠在沒有外在機率的情況下去做很多事情他是有一個自己內在的這個然後這個事情其實我覺得AI或者Neuroscience已經研究了很久很多年從某種程度上來說嬰兒是有這樣的一個基於好奇心或者這個自我的獎勵對吧就是你會發現很多嬰兒他會玩這些玩具他會用嘴咬咬這樣一個東西或者或者幹別的那你說他獲得什麼獎勵了嗎他也沒有升職加薪他也沒有獲得錢他沒有這些外在激勵他就是好奇對吧他他就是說如果我做這個事情那我會有什麼樣的感覺這個感覺如果是新的那我我可以學習對吧就是他獲得安全感對就是說好奇心或者掌控感或者安全感就是有一些這樣的內在的motivation使得他做這些事情對吧否則的話你很難從一個理性的角度解釋他為什麼會做這些事情對但是很有意思的是我覺得當人長大了之後他有了一個就當你是嬰兒的時候你其實是一個基於視覺基於物理基於物理世界的對世界的一個理解對吧就是說你學習的是怎麼把你的這些觸覺聽視和你的運用骨骼的這些各種能力給結合起來對吧但當你長大之後你有了一個基於語言或者基於推理或者基於文字的對世界的一個理解就這個世界是怎麼運作的我怎麼才能開一個公司我怎麼才能升職我怎麼才能做各種各樣的事情你在玩的不是一個物理遊戲而是一個文字遊戲那在這個文字遊戲裡面你當然也有這樣的內在激勵但好像又很不一樣我覺得這是現在的一個挑戰就是說傳統的AI它比如說你去玩迷宮或者你去玩一些這個機器人的仿真它可以定義出來一些比如基於世界模型或者基於各種各樣人嬰兒時候的這些motivation這樣的內在激勵但當你在玩一個文字遊戲的時候你怎麼去做一個內在激勵這似乎又變得很不一樣了在你研究人工智能的過程中你有對人不管是思考還是任何有更深的認知嗎你怎麼看人和人工智能他們的同與不同最大的感觸就是我意識到人之所以能見到Light是因為能推理我覺得這個可能是最重要的最重要的這個takeaway然後我覺得這個事情很有意思因為我我18年的時候在MIT我在JoshTellebaum的實驗室就是他是一個認知科學的大佬然後我學了很多認知科學然後認知科學或者計算認知科學它的一個核心的故事就是說我應該就我們現在這些AI雖然有很多進展但是它有很多問題對吧然後我們要去看看人是怎麼人有哪些優勢然後人是怎麼去做這些事情的為什麼人能對吧把這個事情做得更好比如人能夠從幾個樣本中泛化但是機器不能那為什麼我們要從人身上尋找這些方法然後去把它應用到AI上那後來我的認知是你會發現在Work的這些AI系統它還是會和人很不一樣就是ScalingLaw或者RL或者很多東西它和人學習方法就是很不一樣那我覺得可能一個更好的從人身上接近的方法是你去思考人能做什麼而機器現在不能做這是一個客觀的事情但是你找到這個問題之後你可以基於第一性原理去思考怎麼去解決這個問題你不一定要去依賴於人怎麼解決這個問題而解決這個問題就比如說人我覺得他現在能做的事情比如說我能經營一家公司我能夠工作七天或者當個實習生當三個月然後我能積累這個公司的contacts我雖然可能不是很聰明我是一個二本的或者一本的畢業的學生但我可以做很多現在AI做不了的事情這是個客觀存在的事實那怎麼解決這個問題可能認知科學或者神經科學會告訴你人老有這樣的這個海馬體或者episodicmemory或者有這樣的架構那樣的東西但我覺得你可能不需要去完全照抄這樣的事情你可以去從第一性原理設計notmemory要怎麼設計所以我覺得從人身上可以借鑒的是有哪些事情人是能做或者機器做不了這是一個很robust很客觀的事情但至於就是說人是怎麼能做這些事情以及我們要多少程度上借鑒這樣的一個方法這是一個我覺得更主觀或者更knowledge的問題因為一方面神經科學或認知科學它也沒有說百分之百解決這些問題它只是說我提供了這樣的猜想另一方面是即使它是一個被confirm的事情比如說人人的視覺其實是個相對被研究的更深刻或者更透徹的事情對吧人有六層的這樣的這個cortex然後它每一層有各種各樣的結構那我覺得你可以學到的takeaway是說我需要去做這樣一個newnetwork但我並不需要去照抄就是說它有各種各樣的細節如果在設計agent的時候需要讓它越來越像人嗎again我覺得是一個utilityproblem就是說我覺得很多問題不像人更有價值比如下圍棋或者開車可能大多數人開車方向並不好可能基於這個規則有更好的開車方式但有些東西像人更好那你就應該思考怎麼去補充空缺怎麼去填補這個空缺那下圍棋或者打遊戲我基於RL我可以學到和人不一樣並且比人更好的方式那我就不應該像人但是在一個公司打工然後和老闆搞好關係然後去完成各種各樣的任務那這個世界人就是比AI現在做得更好那我們就應該試圖更像人你怎麼思考人和agent未來的關係要給agent發身份證嗎我覺得這是個交互方式的問題就是說很有可能未來有很多agent但他長得並不像人或者你和他交互的方式並不像人他可能是個平台或者是一個或者是個頁面或者是一個遊戲或者是一個別的東西那你可能就不會把他擬人化對吧但當然我覺得肯定會有很多擬人化的這樣的agent如果agent他有了長期記憶他是不是就是你的朋友了他是你的朋友了那人跟agent就平等了是不是我們就要給他發身份證了發身份證的目的是什麼就是他作為一個獨立個體跟我們共存了嗎我覺得會有可能吧就是很顯然一個很有價值的我覺得這些事情最終還是會從utility出發對吧就是說一個事情如果有價值那他可能就會產生比如說那人可能很多人很孤獨他需要一個朋友那這個技術他能夠創造這樣一個體驗那擬人化就是一個很合理的存在的未來對吧但當然他去做一個平台他去做一個推薦他去做一個遊戲他可能這個技術會有很多不同的交互方式讓你感覺他不像一個人或者你根本感覺不到有什麼區別那在這個情況上你不會把它擬人化所以我覺得還是會基於這個事情的經濟價值你提到經濟價值就是你覺得AIagent跟crypto會有未來結合的地方嗎你比如說crypto這一套智能合約跟agent結合未來一個agent幫我完成了某個任務他有一個公允的價值的計量然後任務完成後那就按照智能合約的約定就分配這個經濟利益了那其實這樣是有機會探索出來一個叫valuebased的商業模式的只是說今天可能咱們還不太能衡量這個任務的客觀供應價值到底多少對我對Crypto了解不多但是我覺得可能一個核心的問題是就這個技術的演變它會變得更中心化還是去中心化然後我覺得兩邊都有它的argument對吧就中心化就是說那很顯然現在這種新的supercompany比如說OpenAI或者Antropic它有可能比如會變成1trillion,10trillion,10trillion那它可能會佔據絕大多數的資源它會佔據絕大多數的compute它能創造這個superapp或是superplatform它會有巨大的這個中心化的優勢那去中心化的argument就是說我每個人的個體是負能的對吧就是現在之所以人和人有這麼大差距有各種各樣的信息差認知差各種各樣的智能差那如果智能變得非常便宜就像電一樣那從某種程度上來說它也能給大多數人一個賦能其實我覺得這個事情還是挺有意思的然後我最近的思考是這樣的就是說我的感覺是人類社會是一個網絡然後它其實是有兩個重要的性質一個性質是說它的中心化程度或者說它資源分配的集中性讓我們發現就是說可能原始社會它是一個非常平均的它逐漸隨著技術發展它越來越中心化或者說你可以說二八定律或者說馬太效應或者whatever對吧但是有另一個維度就是說你創業成功或者從一個網絡邊緣到中心的這個可能性或者速度能有多快我覺得從某種程度上來說過去幾百年發生的事情是這樣的就是說首先這個網絡變得更中心化了對吧就是說貧富差距變得更大了或者二八定律馬賽效應但另一方面其實窮人的或者貧民的機會可能是更多了對吧如果在古代比如門閥制度九品忠貞制或者歐洲的這個貴族制度那你可能農民就永遠是農民或者或者印度的種姓制度對吧你有階級固化似乎技術發展的趨勢是兩者都會加劇對吧就是說一方面中心化會加劇因為效率是一個根本性的原因但另一方面可能創造新的東西的機會起碼目前為止還是越來越多但是不好说就是说社会是未来的趋势对吧有可能就还是会延续这样的趋势但是也不一定你在你的博文里面提到OpenEye的几次尝试我觉得很有意思最初的计划是构建GYM一个用于各种游戏的标准强化学习的环境然后是WorldofBeast和Universe的项目但这也没有奏效直到GPT-2和GPT-3出现了才发现缺失的是经验知识这个过程OpenEye的几次尝试能不能给我们详细讲一讲这也是一个探索的过程這是我自己的總結和揣測我覺得就是OpenAI是一個非常是個比較bottomup的公司它最初的可能七八年就像是一個researchlab有各種各樣的想法然後有各種各樣的嘗試可能每個人想法都是不一樣的但是客觀上來說一開始是focuson強化學習的因為當時最火的事情就是這個對吧DeepMind它就可能2015年剛成立的時候就當時AI最火的公司是DeepMindDeepMind最成功的東西就是強化學習然後在GPT之前可能AlphaGo就是最成功的AI項目對吧那很自然的就是你要去做強化學習然後你只有有個differentbet你才能夠超越之前的霸主我覺得如果OpenAI一直做強化學習那可能也很難超過DeepMind即使你做得很好或者有些任務你做得比DeepMind更好但是講強化學習大家只會想起DeepMind所以從某種程度來說你想要超越之前的這個霸主你就要有個differentbet然後turnsoutGPT是這樣的一個differentbet然後但當然這個事情其實還是一個很非共識的事情就是我可以講一個故事就我導師他是GBT-1的第二作者對然後他在openair待了一年然後去普林當教授了然後他當時對這個事情就有點懷疑就他說這個當時結果也不是特別好那些榜单上你也不是分数最高的然后你划了很多卡或者做这个东西然后当时其实也有SkippingLaw17年刚出来就让伊利亚就跟我导师说Carsick你看这个预言已经被我们解决了现在我们只需要SkipUp这个东西就结束了但即使你是在OpenAI即使你在这个环境即使你是GBT的作者你可能還是沒有形成共識所以這個事情我覺得就是說你做了一個非常當時反共識的事情當然現在這個事情已經是共識了那我覺得就你需要去尋找下一個反共識的事情也許剛才就是你導師說的那個話之後有人有feedback嗎我說實話可能當時OpenAI可能絕大多數人也不認為Scale-upGPT是最好的方向或者說是最promising的方向我覺得這個是有可能的就每個人都在做不同的事情對吧有些人在做Robotics有些人在做這個或者那個我覺得可能伊利亞最大的貢獻就是雖然他不是做GPT-1或者做這些具體技術的人但他是就是號召我們要allin這個方向的人我覺得從某種程度來說Daryl也是他最大的貢獻也不是說我提出某個具體的技術而是說我做一個創業公司我敢賭就是說我敢賭就這一個事情然後我把錢都砸進去了所以有人願意去做GPT-3是特別關鍵的像Daryl也好TomBrown也好他們敢於把GPT-3做出來其實讓人看到了更大的希望淡化了對但當然這個事情的好處就是說你並不需要所有人達成共識對吧你只要有足夠多人達成共識你就可以做這個事情你覺得接下來幾年中還會有更多的GPT-3的moment我覺得就是會有新的ScalingDimension出現對吧就是說如果你有lotofmemory那你的testtimecomputer會用新的方式scale如果你有了multi-agent那你的testtimecomputer又有另一個新的維度去scale我覺得會有新的scaledimension出現但是當你有很多scaledimension之後怎麼去選擇怎麼去基於某一個應用去選擇不同scale的這個比重我覺得會是一個很有意思的問題剛才那個問題就是內部之前沒有形成共識嗎後來強化學習在什麼時候變得特別重要對於歐巴哈內部來說我覺得強化學習一直都很重要就是說即使我們在做GBT的時候就江書曼他們還是會有人在做RL他並不是一個說我做了GBT之後我就把RL全部扔掉的事情而是可能說我公司80%或者70%的資源做這個事情然後我其他一些別的東西還在做然後我覺得這個事情其實也很重要的對吧因為後來證明就是說ChaiGB的成功RL也是很重要的就是如果沒有RHF沒有這些alignment的技術那它也沒有辦法形成一個產品所以歷史並不是說我走了這條路然後我把這條路徹底拋棄走到另一條路然後我再返回來再走另一條路而是更soft的對吧就是說我在做很多事情然後這個事情很promising所以我把它下了更大的賭注但有些其他東西我還在接著做你有一句非常highlevel的總結就是語言通過智能體中的推理實踐的放話它的放話是一個已經被證實的事情還是一種推斷就是說為什麼為什麼語言非常獨特或者非常好就是因為它是人和人或者說人在這個世界上完成各種各樣事情的一個工具從某種程度來說語言也是一個人類發明的工具就像火或者像饼一样但它之所以特殊就是因为它是一个帮助你解决任何事情的一个有通用或者范化性的工具当你学会了这门工具之后你就可以去做很多新的任务比如你学会了攀岩对吧但它可能不能帮你去做很多新的任务但你学会了语言之后它几乎总是能帮你去做新的任务因為你可以和人交流可以學習可以去思考可以去推理從某種程度上來說20年以前大家很多時候沒有把這事情想清楚就大家認為我們有語音有文字有圖像有視頻有這些東西它其實都是一些它其實都是一些數據嘛對吧那可能也沒什麼區別我覺得可能最大的區別就是說語言是一個人為了實現泛化而發明出來的一個工具然後這個世界比其他東西更本質這說的是語言能讓他具有泛化能力那強化學習終於具備了泛化能力它是一種推斷還是一種結論我覺得是可以說是我個人觀點但是我覺得其實有很多人在討論這個事情就是泛化與否當然是一個spectrum它是一個它是一個相對的東西對吧就是不是一個零和一的絕對的事情但是我覺得我之所以這麼說是因為在此之前如果你去在一個環境上訓練你只能做這一個環境但是現在你在一個環境上訓練你可以去做更多環境我覺得這是最本質的區別你可以deep-seek就是說你可以在deep-seek大家說它的這個比較有意思的結果就是說你在mass和coding上做RL但你可能在創意寫作上也變得更強我覺得這個是一個本質的區別AlphaGo它只能下圍棋它不能下象棋但是你現在比如你學的數學你可以去做創意寫作我覺得這是一個本質的區別你覺得你訓練打這一類遊戲強了它可以泛化到打其他遊戲都很強嗎你比如說打dota很強了他是不是打所有的遊戲都很強我覺得不好說對吧就是說即使是推理他在不同環境下他的犯法可能也不一樣比如說可能這些基於邏輯的推理他可能從數學到coding的遷移會更容易然後基於比如人情世故的推理他可能在這個另一些task上遷移的更好但我覺得可能重要的事情是說你現在終於有一個可能的singlemodel可以去做所有task了就之前我們認為這個事情是不太可能的但我覺得現在是有可能的就是說你可以同時在很多首先你可以在很多不同的任務上去做RL並且它能夠去transfer到更多任務但當然就是說你如果只考慮task和task之間那它肯定遷移的程度是和它的task的性質有關係代碼和數學之所以能容易泛化你有想過背後的原因嗎是因為他們有思考過程嗎我覺得只是因為它是最早開始做的事情而它最早開始做是因為它比較簡單就是說它有一個很好的reward然後它不需要一個環境它就是reasoning那現在來看可能很多其他事情也是可以泛化的只是我們一開始做的是這個事情所以大家現在對這個事情討論比較多有一個agent的創業者想問你agent如何scaleup因為現在的瓶頸主要是算力agent的token用量非常的可怕單個用戶的消耗可能是chatbot的50到10倍再疊加幾百萬用戶所以你覺得agent怎麼scaleup我覺得可能最重要的點是要找到一個好的應用我覺得cost本身不是問題是你的cost不justify你的performance或者你的value就如果這個很有value的事情我花了50刀但我可以給我賺10刀那不是一個問題我覺得可能現在來說最重要的事情是找到有價值的應用然後cost我覺得總會降低了對吧就這個模型的能力會提升cost會降低但是找到好的應用有價值的應用是最本質的當然不同的應用就是說你去做的方式可能也不一样对吧就是可能你去做一简单的任务那我可以去训练这个模型我去做一个小模型我可以让它我可以让它就是更快更便宜更针对这个task那我如果做一个像更难的比如我去做投资或者去做这个deepresearch那我可能需要一个大的大的这个model那我可能有不同的方法去平衡这个cost和这个但是我覺得最重要的事情是先找到一個東西有value那這個事情找到之後cost總會有辦法下降你感覺agent的創業者他的背景裡頭一定要有research出身的人嗎這個有什麼優勢或劣勢嗎我覺得不好說我覺得還是挺看人的就是我覺得很難把人分成research和非research兩類然後這兩類有很強的區別我覺得人和人之間還是區別很大的然後我覺得可能最重要的一點還是找到這個value就大家把它稱為productmarketfit或者稱為產品的sense或者什麼都好就是我覺得找到這個value是最重要的就是技術只是一個手段目前來說最重要的是解決問題找到好的問題然後可能反而你有很强的research背景或者自然语言处理或者别的这些背景反而是个坏事因为你会太直敛于这个技术你会拿着这个锤子去找钉子对吧现在来看最成功的这些应用创业者似乎都不是比如说做NLP或者AI的东西吧我感觉比如Cursor它是四个本科生當然Propensity好像創業者是一個是一個是個是個researcher對吧就是我覺得這還是挺看人的就是和你們做過research可能關係沒有那麼強相關你怎麼看MynasJamesPark這些產品和他們的fondue我我試過Mynas但我還沒有試過JamesPark對我覺得我覺得Mynas還是挺有意思的對我覺得給我一些還是給我一些啟發我覺得他們產品sense很好就他們有打磨產品的基因吧我覺得對這個產品應該是OpenAI的主線上的產品吧UOC基於Minus我再講一點我覺得很有意思的一點是傳統上大家認為發生的事情是比如我大廠先做出來一個東西然後創業公司就可以開始抄比如說我做出來拆GPT那我可以去抄拆GPT或者去做一個類似的事情但現在來看似乎反過來也是可以成立的就是說可以先小廠做一個事情他創造出來一個交互的創新或者產品的創新那做模型的公司也可以去借鑒或者應用對吧就是我覺得這點還是挺有意思的就是說很多時候大家會說這個模型做得越來越好了感覺就是給這個創業公司做嫁衣了對吧因為你創造這個很好的模型你如果沒有自己運用特別好的話那這些創業公司就已經用好了但可以反過來說比如如果你創造了一個非常好的交易方式但是你沒有能力把它的這個模型能力或底層能力做特別好那大公司也可以反過來借鑒你的交互方式然後再加上他的模型能力把這個事情做得也特別好所以可能這個世界是個相互潮的關係而不是一個單向潮的關係我個人的觀點如果你是Manus的創始人CEO你今天要走向垂直方向嗎我覺得Manus的一個價值就是說他給人一個非常general的通用的感覺但我覺得有一個非常通用的感覺或者交互方式的agent和你有一些killerapp是不矛盾的就是我覺得一個比較理想的情況是你有一個非常通用的交互方式這個交互方式的上限或者想像力可以足夠大比如說Cursor雖然它就它是個IDE對吧就是說如果它只做IDE的話它顯示空間是有上限的就在IDE裡面但如果你做一個非常general的通用的產品型態比如Mindless它顯示空間上限是很高的但是我覺得必不矛盾的事情是你能有一些每個階段的killerapp比如說它做PPT特別好或者做deepresearch特別好或者這個東西做特別好就有點像我覺得很多偉大的產品都是這樣,iPhone它是一個讓人非常通用的產品形態但它一開始或者iPad它都有些killerapp支持它有這個momentum有這個增長的趨勢或者說包括XGBT包括微信我覺得很多偉大的產品都是這樣足夠通用或者簡單或者第一性的這樣的交互方式它有很多想像空間但是你去維護它或者這個路徑設計的時候你能有各種各樣的應用能夠使它能夠不停的增長你覺得DeepSeek在過年這一波之後對於你們對於矽谷的AIResearcher有什麼帶來什麼變化嗎敘事上的變化我覺得從OpenAI角度來說我覺得大家好像討論有幾點一點是說ChainofThought的這個review就是說顯示這樣的一個長的思維鏈似乎是一個很重要的事情就是它是一個產品形態上的突破就是說很多時候就是這個世界就是像有很多技術的技術的積累已經到了就像一個洪水打到這個閘口你需要一個這時刻讓這個東西發展讓普通人讓大多數人能夠感受到這個技術我們會說有iPhonemoment有ChaiGPTmoment然後可能有DeepSyncmoment這個moment可能就是說有一個非常大的交互方式的衝擊然後我覺得ChaiGPT之所以ChaiGPTmoment因為它的交互方式是一個非常新的非常讓人感到magical的這樣一個事情然後我覺得Partly這個DeepSync之所以非常火是因為它的長思維鏈給人一種新的交互方式或者新的magical的體驗當然我覺得DeepSync成功是一個非常複雜的有很多原因的事情但我覺得這是一點我覺得另一點就是重新思考開源就是Sam他在推特上也講了很多就是說這事情OpenAI就忽視了但這個事情仔細想想看是有價值的然後可能應該做的我們就是默認的會認為就是開源會落後幣源很多對吧因為這個事情就是說不像Linux像操作系統一樣就是說我有10個人我可以每個人出一份力我就可以使這個東西變得非常好它有非常好的分佈的性質就是感覺造這個模型更像是我有20個特別厲害的人然後我有很多很多錢我只需要20個很強的人把這個事情做好就行我需要一個非常特殊的組織非常特殊的資源集中非常特殊的人那這種情況下開源可能就傳統的開源的優勢並不大然後包括像Facebook可能開源做得沒有那麼好在美國可能大家就習慣性的忽視了這個事情從某種程度來說做好開源是一個很nontrivial的事情因為首先你要有足夠多資源你要有很強的人你要有很好的組織文化然後你還要有商業上的justification那當然最好的情況就是你是個慈善家你有幾百億然後你就去做這個事情造福世界那這個事情是小改革的事件但是小改革的事件發生了就有這樣一個人做了這樣一個事情我覺得這個事情還是值得反思的我覺得我也會思考吧就是說DeepSake我覺得有很多包括組織架構包括它的工程的包括基礎設施的我覺得有很多值得稱道的地方一個AI研究員想問你啊他說他對agent的想像是有限的所以希望你能暢一暢一下以及你說你的終極理想是打造一個世界上最強的agent我看你之前說過你覺得他會是什麼樣的我什麼時候說過你是在一個智原的訪談裡說過智原社區OK對我覺得就是傳統上或者說大多數人對agent的想像就是一個一個模型對吧就像這世界上最聰明的人一樣然後它擁有所有知識擁有所有能力它比我們都聰明它是個最強的智能體我現在的感覺可能是不同的交互方式下有不同的好的定義或者說有不同的強的邊界可能最終智能的邊界是由不同的交互方式決定的而不是一個singlemodel決定的從這個角度來說我覺得顯然空間非常大其實現在大家只想到做助手這件事情像這個事情很明顯有很大的想像空間有很大的進步空間那還有很多沒有誕生的交互方式那就像一開始互聯網剛誕生的時候可能最早的superapp就是說我把mail升級成email對吧然後我把這個甚至就Amazon已經是個非常創新的東西了對吧那我覺得現在就有點像那個時候吧就是說我們的想像力還是被以往的交互方式所限制了那這個東西我覺得很顯然會創造很多種新的交互方式來改變我們的這個世界你覺得最強的agent應該是什麼樣還是沒想好我覺得對於不同的任務和交互方式會需要不同的agent的系統或者系統去解決我現在的感覺是這樣就是很多很大程度上這個模型是可以也許是可以share的但是如果你討論這樣的一個系統的話我覺得它會就像你問這個世界上最強的互聯網站或者最強的互聯網是什麼互聯網的網站或者公司是什麼這事情很難回答因為它是一個multifaceted它是有很多不同面的事情我覺得AI也是有可能變成這樣就可能OpenAI會成為一個鼓狗它會成為這個新的世界裡面很重要的一環但是我覺得並不代表這個世界就會被這樣一個單極的東西壟斷我覺得這樣的話那這個世界就會變得很灰暗大多數人就沒有什麼價值了你对未来的agent生态的构想会是什么样的现在我觉得有点就当年大家都在创业做app的那个时候可能1年12年那个时候如果再往后推几年你觉得会是什么样这个世界我觉得很难说对吧但是我觉得肯定会有很多不同的交互方式创造出来不同的系统就是说OpenAI像OpenAI这样的公司它肯定会想继续推进這樣一個中心化的助手一樣的系統然後有更多的環境有更強的能力去做更多事情那我覺得也會有不同的生態系統然後有不同的交互方式然後可能會訓練完全不同的模型可能甚至從pre-training開始需要的能力或者很多東西是不一樣的就比如說那也許另一種交互方式就是我想造一個我的朋友那我的朋友可能不需要數學這麼強或者物理這麼強或者說他他數學這麼強就反而有點假了對吧那他可能也不是記憶特別好他可能也會出錯他有感情他有他也不是特別rational那可能造這個東西也是有價值的那可能會有人做這個事情那那可能那可能做這個事情你又很難去說他和TrackGPT哪個更強對吧因為它是不同的應用它有不同的價值那也許有可能會有比如說一個agent組成的社會就是說如果你認為中心化的極限是contextlimitation的話或者這麼說為什麼這個世界上有很多人有價值並不是因為他的數學能力或者口徑能力比別人強是因為他有一些自己的信息這個信息是他有別人沒有的比如說有很多中間商他本質上他就是擁有這個信息差擁有這個信息差的人他還是會想去去維持自己的這個權利或者維持自己的這個資源那也許這樣的人他會發明出來一個更multi-agent或者更disputed的network比如說也許在交易的世界裡面這個信息是很重要的那每個人他可能只擁有信息的一小部分那這種情況下可能又會有新的不同的這個形態他可能是一個multi-agent就每個人我們有一個自己的agent然後agent之間我和一百萬個人交換信息或者去做交易或者去達成某些事情那我覺得fundamental就是說現在非常強的巨頭非常強的這些節點它是有motivation去繼續把這事情變得更中心化的但是不在這個中心化以外的這個力量它也是有motivation去做一些非中心化的事情對我覺得這個世界可能不會是一方超過另一方我覺得兩方都會有自己的力量都會有自己的兩種力量在博弈很有意思啊在你腦海中的未來的世界還不是單極的也不是中心化的Again就是我說的就是可能會它變得更中心化和它變得更diverse並不矛盾對吧就我覺得剛我們之前提到就是歷史的這個演變有兩個因素一個是它的中心化程度或者貧富差距的拉大另一個方面是我完成階級跨越或者我去從一個邊緣到中心的這樣一個速度或者可能性但可能另一個第三個性質就是說這個網絡本身diversity或者它的複雜程度或者它的多樣性那這個事情歷史上來說也是越來越好的對吧就是說雖然世界上最大的公司對這個世界的經濟的支配變得越來越強但世界上的產業總是越來越多這樣的事情可以同時存在更關鍵的就是大模型技術沒有壟斷性矽谷的頭三四家好像都能追到一定的水平如果歐派有壟斷性那是比較可怕的我覺得暫時沒有壟斷性但是如果你能找到一個產品形態在那裡面就是研究的優勢能夠轉化成商業優勢那就會產生壁壘我覺得可能現在對於XGP來說可能一個比較好的事情是Memory我覺得這是一個可能產生壁壘的地方因為如果沒有Memory那其實就是大家在拼誰的模型更強但有了Memory之後我拼的不僅是誰的模型更強用哪個更多哪個年薪更強我在這裡面有了更多積累的context他能夠給我更好的體驗之後那我就會有這個年薪那可能是一種研究優勢方式商業優勢的方式現在CHPT它會出現灰色提示詞說記憶更新嗎這個更新到底是什麼呀這就是你說的增加年薪那種方式我其實最近沒有怎麼用memory這個feature但是好像最近就做了一些提升我懷疑就是它產生或者使用記憶的方式變得更好就包括可能它能夠更有效地從很多的用戶的對話中提煉出來或者說Retrieve就搜索出來更相關的東西這個我不是特別了解細節但是我覺得Intuitively它是一個可能會產生連性或者壁壘的一個東西你覺得mcp本質也是memory嗎因為我的很多的context在我很多的個人軟件企業軟件裡頭那mcp本質也是hack我的context的一種方法我覺得從某種程度上來說是的就是說從某種程度上來說這個世界有一個memoryhierarchy就從一個agent角度但是這個memoryhierarchy最外層永遠是環境就有點像你考慮一個電腦對吧它有個memoryhierarchy就是我從CPU的這個緩存到到內存到到這個硬盤但是最外層的memory永遠是這個外部世界的環境對吧就說比如我插一個U盤拔一個U盤或者我把一個東西上傳到互聯網上或者我我就是做一個音樂把它變成一個光盤然後把它給外部世界永遠是MemoryHierarchy的最後面一層這個是我前年冬天我讀了一本就是馮諾伊曼死前寫的最後一本書叫做TheBrainandtheComputer我覺得他寫的最讓我印象深刻的一句話就是說Essentially,environmentisalways我覺得這個事情還是挺哲學的對於人來說就是說你有你的memoryhierarchy你有你的workingmemory你有你的longtermmemory在腦子裡面但可能最外層的其實是比如你的筆記本你的googledoc你的notion這些事情相當於是你的最longtermmemory或者說你的最外層的memoryhierarchy的部分你覺得LongContext跟LongTermMemory是一個什麼樣的關系我覺得LongContext是一個實現LongTermMemory的方式就是說如果你能實現一億或者一千億或者無限長的Context那它是實現LongTermMemory的一種方式它是一種和人人區別很大的方式但是這是有可能的對吧就是說這是一種可能的方式當然我覺得會有很多不同的方式不好說哪一種是最好或者說最合適現在業界實現LongContext有Linear的方式Sparse的方式或者Hybrid你有傾向嗎我不想對方法進行評論但我想對Evaluation和Task進行評論起碼去年為止大家主要還在做的就是一些所謂的LongRangeArena就是說Heyinthehaystack就是說我有一個非常長的東西然後我在中間插入一句話比如姚舜宇現在在OpenAI然後我去問你這個問題我不想對方法進行評論但我想對這個任務進行評論我覺得這是一個necessary但是不是sufficient的一個task就是你能完成這個task是一個這longtermmemorywork的前置條件但它遠還沒有到一個充分條件我覺得它是個必要條件但是我覺得現在大家有點陷入這個必要條件中而沒有創造更多就是更難或者更有價值的東西我覺得這是一個問題當你沒有這樣一個很好的評估的方式的時候我覺得就很難討論各種方式的好壞你在文章也說了忽視任務的本身的定義和評估標準的重要性那你覺得應該怎麼去定義和評估呢比如說我們怎麼去衡量一個agent你會有哪些北極星的指標還是要思考怎麼去創造更多現實世界的價值對然後當然這個事情在不同的領域在不同的應用下會有非常不同的任務設計有非常不同的方法有非常不同的各種各樣的東西但是我覺得一個大的趨勢就是說我們應該去更多思考實際價值而不是這些被定義出來的類似於考試或者遊戲的東西因為我們發現一旦你可以定義考試或者一個遊戲那離它被解決也不遠了真實世界之所以很難被解決就是因為它不是一個被定義或者被遊戲或者考試一個很大的很大的一個特徵就是說它被設計的時候它就已經有了一個非常好設計好的reward或者一個非常設計好的答案當你已經有一個非常好的設計好的reward或者一個非常設計好的答案的時候那你現在因為有了這個generalrecipe有了這樣一個方法通用的方法那離它被解決也不遠了但真實世界之所以很難被解決就是因為它沒有一個標準答案它沒有一個標準的rewardfunction很多時候人做很多事情他也沒有辦法去有一個rationalreward但是人還是它是開放的對那我覺得現在主要的問題是這個而不是說我有一個well-definedreward我有一個well-defined這個answer我怎麼去找到它這個事情通過RL就已經可以做了你覺得我們未來還需要更多的推翻各種的基本的設定嗎我覺得需要吧就是從某種程度上來說人類一直在做這個事情不是嗎就是最重要的事情往往就是推翻最基本的假設可能我現在最關注的就一個假設就是說一個東西的評估是基於比如說50個任務這50個任務你分別跑50次然後你把這些平行的這些數據加在一起變成你的一個reward但這個我覺得是和人完全不一樣對吧就是說人你在公司上班重要的是你比如一天三十天一年之後變得有多好而不是說我在一百個平行宇宙把你放到這個公司第一天你能做得多好我覺得這是一個基本假設的區別你感覺在競賽環境下和實戰環境下的區別是什麼因為也有一種說法說有些模型公司他會在競賽環境下的benchmark很高但是實戰不太行有的模型公司就在實戰環境下就比較好一些我覺得就是我們需要去更多的考慮一個東西的實際價值因為大家發現就我覺得我寫這個博客的另一個Motivation就是說大家發現刷榜實在太容易了就是你總有辦法把這個榜刷得很高但這樣的話有些東西的實際價值高有些東西價值很低那這是一個問題那我覺得我們就需要有更好的評估方式你覺得Agent會迎來大爆發嗎這幾年我覺得會我覺得就是說我們2025年或者204年才終於有了這樣一個通用的方法去做agent就是之前很多東西還不ready對吧就是你要有很強的語言先驗你要有推理你要有強化學習然後我覺得這東西才剛被unlock才剛被解鎖有很多很多可以做的事情你覺得好的AI產品經理應該長什麼樣我覺得好的AI產品經理可能就是一個好的產品經理並且可以第一心思考因為AI是個變化很快的事情但是我覺得可能不變的事情是相對更不變的事情是人或者人性或者人的需求我覺得這可能是變化反而更慢的事情那我覺得就是說你能找到一個好的需求然後你能從第一原理反推就是說把這事情做成那我需要去應用什麼樣的技術我覺得這個事情是比較重要的你聽蕭紅的播客你有什麼感覺嗎我覺得挺有意思的我印象最深刻的是就是他說就是VC是一個非常貴的融資方式不是在你不好的時候而是在你好的時候我覺得這句話說的挺有意思我覺得他有很多就是挺不一樣的這個思考問題的角度我覺得就是AIResearcher所以我覺得對我來說挺新鮮或者挺有意思你會考慮創業嗎我覺得OpenAI可能大多數人都會考慮創業因為現在是一個非常exciting的時候而且現在已經有很多open-end人出去創業了那我需要去做更有挑戰的事情那很自然就會去創業但我覺得還是應該找到一個好的事情我還是喜歡把事情想得清楚一點再去做你對未來12到24個月agent領域的有可能發生的有什麼預測我覺得首先可能這些模型公司的chatbot系統會演化成一個很自然的agent它會是很自然的過渡就是說可能默認的比如說Grok或者ChatGPT或者AntropicCloud它默認的這樣的交互方式就會是一個identity的交互方式我覺得Chat可能還會保留或者作為一個子集但是我覺得Agent會成為一個很顯然更重要的交互方式然後我覺得會有新的類似Cursor的產品出現Cursor是在Coding和IDE的環境下作為一個Copilot但我覺得會有機會做一些新的環境或者更大的環境下的copilot然後這兩種大的交互方式是互補的或者說不一樣的證交的就一個是比如說我有一個基於模型的然後可能是一個remote的virtualmachine或者一個environment然後在裡面做很多事情然後另一邊是有很多既有的環境比如說既有的這些軟件或者既有的這些如果我們想推動agent的能力變得更強是要在哪裏做工作呢?
是在protein做工作呢? RO做工作呢?
如果我是一個應用創業者那我這兩個東西是做不了的最多嘗試一些端到端的RO的一些過程對吧對我覺得可能最重要的事情還是想清楚價值就想清楚你的應用的價值是什麼就是你的痛點是什麼你要解決的問題是什麼然後我覺得可能雖然你可能不能做pre-training或者不能做training但是我覺得可能更有價值的點是一個是agent和數字世界的交互的環境是什麼樣的就它是基於MCP還是API還是一些別的東西另一個是人和這個agent交互的方式是什麼樣的這兩個事情是你可以去做並且它需要很多設計需要很多infra需要很多工程需要很多各種各樣的東西它我覺得現在做得還遠不夠好還有很多進步的空間我覺得可能還有另一個很重要的事情就是說怎麼去構建一個生態系統或者怎麼去構建记得user的intention或者用户的context或者intention然后我觉得这个事情还有很多可以做的空间你刚才提到了agent的infra相关的那如果说两年后agent已经大爆发了巨量的agents在这个数字世界运行那你感觉agent需要重新帮他设计一套新的数字化系统吗agent需要的虚拟机电脑浏览器搜索的API身份认证经济系统等等等等这套infra是为agent设计的而不是完全为人设计的我個人感覺可能兩年以來這個世界可能還不會變得這麼分布式可能還是會更偏中心化就是說會有一些superapp就比如說現在當然AI有很多創業公司對吧但是做得好的就是那麼幾家對吧就是我覺得可能兩年內還是會有一些superapp然後這些superapp會有各自的infra有各自的這些environment或者交互方式就是兩個事情都可以做到極致吧就一個是基於用戶Local的這些DigitalEnvironment比如說我有一個手機我有一個電腦我有一個軟件我已經在這了我怎麼把它去擴充怎麼把它變得更好另一個事情是從頭創造新的Environment比如說我做DeepResearch或者我做Operator我實際上創造一個新的Environment我覺得這兩個事情都還有很多可做的空間兩年後呢我覺得沒有人能看到兩年以後這個世界就是變化很大我覺得你能有一些像科幻一樣的這個預測或者想法或者你的圖景但是很難說我覺得沒有人可以預測兩年以後發生什麼你在OpenAI的一個好處是不是你可以知道有哪些事情是它的主賽道就是它一定會做的然後有哪些事情可能是創業公司的機會你會有這樣的感知嗎我覺得就是每個公司一旦它有它的superapp之後它的所有事情會圍繞它的superapp就是當你比如說有XGBT之後那你訓練模型的方式包括組織架構包括很多事情都會圍繞這個XGBT去重構對吧我覺得如果你做一個和XGBT型態很不一樣的東西還是會有機會的Bytheway為什麼你的文章叫secondhalf為什麼現在是中場呢因為我覺得就是從方法論上我們剛剛就是實現了一個基點一樣的時刻就是說我們終於有一個非常通用的方法就可以去解決各種各樣的事情如果你問一個十年前的AIresearcher他會認為比如說去做翻譯和去玩遊戲和用電腦去訂票和去做這個數學是完全不同的事情他需要的方法完全不同他需要的這個人完全不同他是完全不同的社區對吧他們開完全不同的會有完全不同的paper是沒有關係的這些事情但現在終於這些事情都用一個方法可以解決了這是一個本質性的方法論上的極點事件你是放在一個更長的人工智能的歷史裡面來說的並不是說就這一兩年的一個事我覺得是的天下大事就是分久必合喝久必分對吧我覺得就是大家已經分得太久了一個做回答問題的Researcher和一個做寫代碼的Researcher他可能五年前完全沒有任何溝通因為這兩個事情完全不一樣現在這個事情可能就一個事情了就非常不恰當的比喻就有點像物理裡面就比如說牛頓力學突然被提出來就是人們發現這個世界其實是可以用一個統一的方法去理解的現在感覺就是我們意識到這個世界上很多問題是可以用一個統一的方法去解決的那我覺得這是一個本質的不一樣的事情之前有很多偉大的事情是在為這個事情做鋪墊我覺得Transformer是個很偉大的事情Persuasion也是個很偉大的事情有很多很偉大的事情但是這些很偉大的事情最後導致了這樣的一個事件的發生就像紐頓之前有很多很偉大的事情為他做鋪墊就是說開普勒甚至壓力是多的就有各種各樣的事情都很偉大但是他們最終導致了紐頓力學誕生這樣一個我覺得物理裡面可以說既典型的事件對吧你覺得Protonin是為強化學習做鋪墊還是為Agent做鋪墊就Agent是我們想要實現的事情對吧然後Protonin和RL都是實現這個東西需要的技術的一部分但當然你也可以說pre-training為RL做的鋪墊因為如果沒有pre-training你很難在這些基於文字的環境裡面去做RL我覺得這是一個很longtrivial的事情因為傳統上RL的人並不careaboutprior他並不careaboutpre-training或者先驗知識就是他認為我有一個環境我有rewardit'samatteroftimeit'samatterofsamplesthatIcansolvetheenvironment就是說我可以理論上證明就即使是一個比如互聯網即使我沒有這個pre-training我只要有足夠多的sample我還是可以去用暴力解決這個問題就只要你把reward定義足夠好並且我的training和testreward是samedistribution但可能就是說這個的sample量或者它可能需要學比如10到30次方年可能就它永遠學不會就在宇宙年齡的意義上來說那從這個事情上來說我覺得pre-training它為了這些基於語言的而要去奠定的基礎沒有這個事情理論上來說你還是可以做但是實際上你做不了你覺得科技公司應該重新開啟pre-training的趨勢嗎這是上一次廣秘的博客裡面一個很重要的觀點就是一個非共識應該重新重視pre-training這裡面有一個cost和value的取捨這個事情之所以現在做的人很少是因為它的cost非常大但它好像带来的additionalvalue并没有那么大因为我可以用这些开源模型或者API我好像并没有一个就好像是一个一边倒的局势对吧就是我cost也非常大但我又没有什么特别大的价值的新增因为你做完pre-train你还要去做post-train你还要去做很多事情你才能把这个pre-train价值体现出来但是我觉得如果有一天就像我说的就是说这个世界有很多不同的superapp有很多不同的交互方式它需要完全不同的模型能力或者不同的模型然後這些東西的價值足夠justifypertaining的cost那我覺得它就會合理我覺得是一個value和cost的關系你剛才提到分久必合合久必分你感覺pertaining跟R未來的關系會怎麼樣就是會不會更多的鮮豔知識會放到pertaining裡頭呢我的一個不成熟的想法是可能會有不同的應用需要不同型態的agent讓它可能構造的方式是不一樣的對吧比如說假設我只要下圍棋那我就直接做alphago就行了我不需要做任何事情如果我有個非常垂直的錘類這東西價值足夠大然後我有很多數據我可以形成幣環那我也許就主要是RL的主要基於RL的一個東西就可以work從某種程度來說我覺得像Google的ads或者TikTok的推薦從某種程度來說就有點像類似於這樣一個系統我找到一個足夠封閉的環境我就是做類似於RO的事情我就可以帶來足夠多價值那這個事情是合理的但可能這個世界上很多常委的事情它需要generalization它需要去搭建一個像人一樣的東西就是說你雖然不是什麼都知道但是你可以學你可以通過在線學習你可以去進入一個新的公司然後適應這個環境去做一些新的事情那在這個地方可能Pretraining的重要性會更高因為你需要更多的泛化性所以我覺得可能基於不同的應用會有不同的技術路線但是我覺得技術路線畢竟是個工具嘛就是你只要你的value大於你的cost就是我覺得技術的選擇是flexible沒有說一定會哪種技術路線會勝出我覺得只要經濟上它合理它就是有可能性如果你是一個全球超大互聯網或科技公司的CEO而今天這個公司還沒有自己的模型沒有好的research的文化甚至沒有好的AI戰略你作為CEO你會怎麼做我覺得我會首先我肯定會學習的對吧就是說我會想學習這個事情到底是什麼因為如果你作為CEO你不懂這個事情那所有事情都很難就我覺得很多時候一個公司它的bottleneck就是說CEO對這個事情的理解程度如果你不理解這個然後你說我去找一些很好的人我去做一些事情那你可能會被他們忽悠的我覺得首先你自己要學習然後我覺得還是要從創造新的價值來思考問題因為畢竟你不是技術專家你是一個公司的CEO然後你有一些場景你有一些資源你有一些優勢然後我覺得從第一性原理上來說就是一個新的技術產生了那你需要思考的是怎麼用這些新的技術和你現在的資源去創造新的價值就當然你可以試圖去做一個和現在業務完全不一樣然後價值非常大的東西比如XGBT但是可能對大多數即使是很有錢很厲害的公司來說這個事情並不makesense首先自己要學習這個技術然後第二是我覺得你要去思考就是能創造什麼新的價值如果你成為了伯克希爾的CEO未來要拿出50億美金allocate到AGA這個行業你會怎麼去allocate這筆錢既能體現回報也能體現對人類的貢獻這是個很好的問題然後這取決於就是說你有多少經歷或者有多少的資源分配的這個顆粒度當然我覺得現在像Open,Etrobit這些模型層的公司是會有價值的我覺得是會有更大價值的大概率來說我覺得其實還有一類很有價值的事情是能夠積累usercontext或能構建特殊的environment這樣的一個公司就因為最終我覺得AI或者AGI是個系統的話它需要有intelligence它需要有環境它還是需要有user的context或者對user的understanding那現在可能我覺得有很多userdata或者有很多usercontext的公司就有點像發明車之前的煤炭煤礦可能當時煤礦已經有發明汽車之前的石油公司對吧當時可能也許也有一些小的應用或者怎麼樣但是我覺得現在大家對於這個東西的應用還沒有足夠大可能會有一些機會然後從這個層面來說我覺得微信或者像這些大的平台它還是一個很好的一手難攻的好的平台因為它積攢大量的contacts然後如果intelligence它是一個可以逐漸民主化逐漸變得便宜逐漸變得普及的一個東西的話那擁有這樣的平台擁有這樣的一個environment擁有這樣一個context可能會是一個很強的壁壘所以它可能還是一個很好的投資我覺得今天順宇當了很多公司的CEO我再問一個如果你是微信的老闆你會怎麼在微信裡做agent我覺得我可能會不急我可能先觀望觀望就是我好像沒有理由要急然後我會觀察我會學習我會學習AI然後我會我會觀察就是有沒有什麼新的交互方式很有意思但是我覺得我不會急著去做很多事情因為我是一個我有易守難攻的地方我為什麼要急著進攻可能比較危險的事情是一個顛覆性的顛覆性的創新對吧就可能我覺得真正危險不是說一個類似於微信的東西打敗了微信而是一個很不一樣的東西打敗了微信就有點像微信打敗了QQ一樣QQ可能當時擔心的並不是一個類似QQ的東西打敗了QQ而是一個很不一樣的產品去打敗了這個東西我覺得可能我覺得需要對顛覆性的創新有所警惕但如果是就是這些Incremental的創新就是這種小的創新那我覺得你早做晚做可能區別沒有那麼大就也不用太擔心因為所有人都說微信卡位好但今天微信還沒有很激進的投入那如果未來multiagents這些longtermmemory這些問題解決了但這個agents系統不長在微信上那是比較恐怖其實原有的網絡不一定有價值就我覺得這取決於人的這個網絡人類的這個網絡會變成什麼樣子就是說你會有更多的agent朋友還是有更多的人類朋友或者你有更多的Agent的這個職業上的交互還是有更多人類的職業上交互因為微信上你既有朋友也有比如我要買個東西或者我要諮詢一個東西或者我要律師或者就這些基於職業的交互那我覺得這取決於就是說這個人類的網絡會變成什麼樣但我覺得總會有一個這樣的網絡然後基於這個網絡肯定會需要有基礎設施需要有平台怎么保证AGI实现之后的安全问题因为微信过去还是一个比较负责任比较安全的那如果未来power很强了很多坏人来做坏事了甚至颠覆人类了那安全问题长期会怎么解决要有AI宪法我觉得安全是个很复杂的问题就是当每个人说安全的时候其他可能想的事情也不一样我的看法是這樣的就是說我覺得現在大家對安全的主要分歧就是說像商業公司一樣正常的就是重視安全是不是足夠的還是說你需要有更大的安全的責任對吧因為比如對XGP來說如果他不安全他把你的東西刪了或者他那他這個產品就失敗了他沒有商業價值所以就即使為了商業價值他也會去重視很多安全對吧就每個產品都是這樣就它會基於自己的產品和商業它自然而然會重視安全因為一個東西如果不安全那它根本就不是個好產品人們不會用它它沒有價值但我覺得現在主要的大家對這個東西的分歧是你需不需要產品以外的或者說更意識形態上的這種安全或者說但這個事情我覺得大家還沒有完全的定義清楚然後我覺得前者是容易解決了就是如果你有一個好的應用然後你有一個你總是會有辦法去解決安全問題的我相信因為一旦一個東西有足夠大價值那總會有人需要解決這個安全問題因為如果解決這個安全問題是帶來價值的一個必要條件然後這東西價值有足夠大那我覺得它總是會被解決了但我覺得至於第二者我覺得會有很大的不確定性我覺得我很難評價你個人會擔心AGI實現之後的安全問題嗎我會擔心但是我覺得現在可能最大的問題是AGI還沒有實現或者說我們還沒有創造足夠的價值就我覺得一個東西如果還沒有創造足夠的價值就擔心它是不是太厲害或者太強大或者太普及了我覺得好像不是特別makesense就是如果我們還沒有想清楚對怎麼把這個東西變得有價值那我們把它變得很安全好像沒有意義因為它如果沒有價值它很安全似乎也沒有意義從機器原理的角度來說模型到底會不會產生意識我覺得意識是一個沒有被很好定義的東西但是我覺得也許當你能夠处理足够复杂的context并且你有足够大的autonomous或者decisionmaking的power那客观上你可能就产生意识了对吧就之所以我们认为我们有意识是因为我们在一个自己认为很高的频率在处理信息在不停的处理信息做决策然后脑子里面闪过各种各样的想法然后我可以选择做很多不同的事情让它会有不同的后果那是不是客觀上來說如果一個系統能做到這些它就可以被定義為有意識了我覺得這事情還沒有被很好的定義你說現在要定義任務定義問題你現在思考的比較多的幾個非常重要的問題是什麼我其實對很多問題都很感興趣但是我不可能做所有問題但我會試圖和很多有意思的人聊天然後試圖去理解有什麼事情在發生你最近思考比較多的問題有什麼呀你最近有什麼頓悟時刻嗎比如說過去一年我覺得一個insight就是說可能這個世界會有很多就這個技術可能是比現在的產品平台更通用的就可能會有更多superapp出現我覺得這個事情是有機會的我覺得還有很多小的頓悟吧但是我覺得大的頓悟可能就是說這個世界可能會有更多交互方式上的創新帶來新的superapp這個世界研究的邊界可能不是一個一家機構定義的而是可能不同的superapp共同定義的你的文章真的是基於deepresearch基於你的演講稿寫的嗎是的但是我我就是那個introduction我基本上就是改的比較小但是可能後面有一些段落我基本上就擅照從小對因為我覺得這個東西它解決的問題是一個initialization的問題就是說它給了你一個初始化然後這個初始化如果能夠讓你進入一個新流那你其實自己重新寫一遍也不是很難了但是我覺得重要的是它能初始化你的這個mindflow初始化你的新流但如果你能進入一個新流你其實重新寫和改沒有區別或者可能重新寫會更快你重新寫了多久可能兩個小時吧你作為AIresearcher其實在博士期間的很多工作就已經獲得了很多的關注嘛你覺得為什麼呀你覺得你做對了什麼呢我想做的事情就是就两条线就是说一个是简单通用的方法另一个是跟不同的有实际价值的任务然后这些任务往往就是如何在真实的数字世界创造新的价值因为传统的任务就是要不然就是在虚假的数字世界比如游戏或者考试里面创造任务或者是在物理世界创造价值那我覺得可能真實的數字世界比如電腦或者Coding或者Web是一個處女地就是一個巨大的寶藏然後我恰好挖掘了一些東西然後這個GBD3的產生或者這些模型的產生推進的產生又有一個機會就是能做一些簡單通用的方法但是我覺得也是有一些時代的就是恰好有這樣的一些機會然後恰好這些東西我覺得是對AI最重要的事情就是一方面是簡單通用的方法一方面是更好的任務環境然後我覺得需要就是想的足夠大膽或者通用如果你在做個上限很低的任務那你就算把它解決了又能怎麼樣我覺得需要做一些現在看來很難的任務並且我覺得可能另一個很重要的點是要去看很多東西的交界處就是說如果你只做R或者只做如果你只做強化學習或者你只做自然語言處理或者你只做一個就是學科的內部的東西那我覺得可能會很難我覺得React之所以當時能做出來是因為就我們當時選了一些自然語言處理的task我們也選了一些遊戲的任務就你需要把自然語言處理和強化學習的邊界給打通但我覺得可能很多人他會陷入一個社區或者陷入一個學科內部這樣的話就更難去做一些跟同用的東西React當時在做的過程中有積累什麼knowhow嗎有遇到什麼坎嗎我覺得最難的是尋找任務就是我覺得所有我做的任務就是方法性的我做所有方法其實我覺得最難的事情都是找任務因為我覺得很顯然就是說有一天這樣的一個事情會變得非常有價值對吧就是一個智能體既能夠推理又可以做動作但我覺得真正難的點是在當時的環境下比如你當時只有一個GPT-3或者一個POM然后你又没有你怎么去找一些它任务能够去证明这个东西有promisinginitialsignal能有好的这个价值然后这个东西我觉得其实试了很久包括我觉得做treeofthought最难的一点也是你怎么去把这样的一个belief寻找一个任务或者寻找一个环境去通过实验结果表达出来你现在能定义的最激进的一个任务可能会是什么样我先我前面一個這問題我可以先補充一點就是因為我覺得我的經歷可能比較特殊因為大多數好的方法提出是因為它有一個特定的任務然後這個特定的任務恰好激發出來一個非常通用的方法比如說PPO可能一開始是做一個特定的事情或者Transformer一開始是做一個特定的事情比如我覺得就是Attention的一類工作其實是受翻譯這件事情的影響很深就如果當時那個時間點你恰好在做翻譯然後那你就很有可能就做出偉大的東西因為恰好那個時候如果注意機制最適合研究它的任務就是一個翻譯一樣的事情因為它需要自然的對這個序列的不同地方進行關注然後這個關注可能不是現行的然後它需要一個類似Transformer這樣的一個方法所以大多數時候人們發現偉大的方法是因為你有一個任務你要解決它然後恰好這個事情足夠通用但我覺得就我的經歷比較特殊是因為很多時候我是先腦子裡面想到一個東西我覺得它很通用很好但是我需要去找一些任務去證明它很通用很好或者未來會很有價值它可能現在還沒有足夠多價值但是你需要現在先找一些簡單的任務去證明它有價值我覺得這個事情是很難的就像创业需要有productmarketfit一样就是做research需要一个methodtaskfit这个事情是最难的你得先改想那你那个最激进的想定一个任务会是什么样呢通用任务我觉得现在这个时代可能再激进也不叫激进就是我觉得anythingispossible我毕业前我可能想的比较多的事情是怎么去创造一个爱因斯坦或者怎么去创造一个科学家因為我覺得當時我還是一個比較academia的就比較學術圈的一個人就是說你在普林斯頓你自然你的偶像是馮多伊曼是愛因斯坦那很自然我覺得能想到就是說最有意思的task就是說我能不能發現下一個相對論我能不能發現下一個這偉大的科學理論我覺得這個事情毫無疑問能夠標誌人類AGI或者ASI實現了對吧就是如果AI發現了大一統理論我覺得到了矽谷到了加州之後就是進入了公司之後我覺得就是人類的組織也是很有意思的事情然後我覺得如果能夠創造一家新的公司能夠創造一個完全零Dollar的基於Agent的公司我覺得是很有意思的事情就創造經濟價值也很難它和發明相對論是不一樣的為什麼是人類的組織也很有意思而不是人類的產品很有意思產品當然很有意思但是很有意思的是很多組織的方式能夠它就像一個generalmethod像一個通用方法一樣它能夠去幫助創造很多不一樣的偉大的東西比如說股份制或者這樣的一些機制設計或者一些組織架構它就像一個非常通用的AI方法一樣它導致了很多不一樣的偉大的東西出現我覺得這個事情本身也很有意思為什麼在我們剛才說的那個OpenEye的五個分級到最後他是組織者我其實一開始我是認為Innovator和Organization是一個跟證交或者並列或者我當時在群裡問了一個問題為什麼比如說當一個大公司的CEO和當一個科學家到底哪一個更難我覺得這個不好說對吧而且你可能實現的Research的路徑是有區別的我觉得都很重要我就不用太纠结谁是第四级谁是第五级我觉得都很重要我觉得都很重要但是我不觉得就是说一定要先实现哪一个才能实现另一个我觉得可以同时去探索对在你的成长路上你觉得你的自己的mindset跟你同龄人差不多吗还是不一样我觉得有一样的地方也有不一样的地方就是我觉得其实我的路径还是挺按部就班的就是我也沒有跳級我也沒有就大環境下大家都去美國賭博了我也去美國賭博了然後感覺沒有做什麼很很很很很surprising的事情但是我覺得我對一個東西的價值或者taste有自己的看法就是我覺得一個東西我覺得就是說大家往往會傾向於去做一個確定性比較高的事情或者說就包括做research包括做公司包括做任何事情但這個我覺得恰好是這個時代我覺得可能你去做上限更高的事情是更好的因為有一個巨大的機會對如果沒有一個這樣巨大的機會那可能最佳的路徑可能就是去做incremental的事情去做確定性強的事情然後一步一步積累但是恰好有一個就上限非常高的事情那如果你敢想或者你膽子特別大或者你想像力很豐富那就會有好的事情發生我覺得在你成長路上對你啟發大的是什麼是書是電影是音樂形成了你這間Mindset我覺得看書還是挺有幫助的我是一個喜歡看雜書的人就我什麼書都看我覺得這個還是挺有幫助的就我什麼電影都看然後什麼樣的地方都想去就是我感覺我從小是一個比較比較general的人就我想試圖變得很通用就是我想試圖去了解很多不同的學科然後去做很多不同的事情但後來我就發現一個人即使再聰明再有經歷他能理解的知識或者能做的事情也只是人類社會記得的知識的很小一部分那可能更好的一個事情就是說你去創造一個比你更通用更簡短的事情我覺得我好像一直有一個對這種通用性的一種執念或者追求通用性能帶來什麼呢通用性意味著什麼呢因為它可以足夠簡單我不知道但是我覺得我從小就是想學習很多不同的學科就是我覺得都很有意思就是很多就是我在搖擺很多同學我覺得他們是那種很deep很focus的東西對吧就是說我就做競賽我就把這個事情做到極致我就不停的刷題我把我做到世界金牌但我覺得我好像不是那種性格我是那種我會看很多數學但我也會看很多歷史我會看很多各種各樣亂七八糟的東西你會刷競賽嗎我也搞了競賽但是我沒有我的本科同學那麼厲害我最後是心理學拿了全國銀牌你還是清華的說唱社聯合創始人對吧我昨天去翻了一下你的網易云音樂你的那個歌被你找到了看來你有deepresearch的能力你最喜歡的說唱的star是誰啊interesting我有很多喜歡的說唱歌手我覺得說唱很有意思就是因為每個人風格都很不一樣然後沒有一個文無第一,武無第二的感覺就是說每個人都有自己很獨特的東西所以它能體現很多價值我覺得這點是很多人喜歡說唱的原因你有自己的個性你有自己的flow你有自己的生活的思考你可以創造出來不一樣的東西它不一定是最好的東西但它是不一樣的東西我覺得這點是很吸引人的它跟你虛擬AI有什麼相似的地方呢它跟你做AI挺有意思的我記得GPT-3剛出來的時候就大家都覺得很厲害嘛然後我當時想到第一個做的事情就是說看看能不能深深押韻地說上歌詞並且有內容性我發現這事情還是很難似乎今天还是很难就是也许说明说唱歌手是一个被人们低估的工作为什么难呢因为就是填词啊他这不就是predictnexttoken要做的事情吗我觉得首先一个东西好听或者flow好或者就是听上去舒服是一个很难被量化的reward但我觉得然后独特的flow或者对吧这个事情是很难量化的reward很多時候一個東西比如這個節奏或者這個flow或者這個style它出現太多了那它就不好了就獨特反而是好的這個事情是很難被量化的reward我覺得第二點就是說真正偉大的說唱歌手他有他很多獨特的對生活的思考我覺得這一點好像似乎AI還做不到因為他們還沒有生活有可能能有比語言讓智能更通用的東西嗎我覺得不同的在一個特定的領域肯定會有比語言更好的表示比如說在圍棋裡面你用自然語言思考可能就不是最優的方法但我覺得語言誕生它不是為了處理某個特定任務的效率或者交流它為的是能夠打通所有任務或者打通人的這些認知能力然後形成一個通用的這樣的一個表示所以它並不是為了某個特定的任務的最優而優化往往就是說你會發現它在某個特定任務上它有很多種餘性但是它整體上是一個通用的東西然後當然就是說就像我們可以創造一個新的語言一樣那AI當然也可以創造一個新的語言它可能效率更高或者怎麼樣但是我覺得可能最終大概率就是英語或者基於英語還是會成為一個主流的語言因為人類已經有一個這樣很強的prior有很強的先驗知識而且人有這樣的價值的取向或者motivation他有這個動機會想讓機器的語言和人更像這樣我們可以更好地去理解它控制它監控它改變它操控它那似乎它是一個很自然的選擇你的內心驅動力是什麼你的願景是什麼你十年後想成為誰呢我覺得我還是想用一個非常俗的話來說就是你希望你對這個世界創造一些不同我覺得如果能探索新的根本性的研究是一種創造不同的方式或者你能創造一種完全不同的新的產品形態在大家如果都在做同樣的事情的時候你做一些不一樣的事情我覺得這個會比較有意思我覺得比如說你現在去做一家類似於XAI或者我再去做一個類似於Chatbot或Assistant這樣的一個AI公司我覺得還是很有可能賺很多錢,商業上很成功但是比如說如果我做一個形態很不一樣的東西但是失敗了但是我覺得我起碼探索了一種不一樣的東西我覺得會更有意思吧我想對上一點進行一個補充就是我覺得我導師對我影響最深或者影響最深的一句話就是說我們會討論比如說學術圈很經常發生的一個事情就是說你有一個想法然後別人做那你就會很煩然後他又會說如果你從人類全局的角度來說那如果這個事情很多人都能做然後那別人做可能是不是也沒有什麼區別對這個社會或者對這個整體來說似乎沒有什麼變化當然我記得就是說我有提到這件事情然後有人說這個非常假因為最終你會發現沒有什麼事情是不可替代的相對論即使沒有被提出也會有人提出沒有什麼事情是你死了或者你不在另一個人不能提出的但是我覺得這個話還是有道理的如果你很清楚的能看到別人就在做這個事情或者別人就在類似於做這樣的事情你可以選擇去和他捲我覺得如果你要和他去捲你認為你會更有效率或者你能把這個事情做得更好我覺得這也是合理的或者你去做一些不一樣的事情去探索我覺得就是最終你要對這個社會產生價值然後但這個世代我覺得很幸運的一點就是說這個技術非常通用這個技術非常偉大我覺得有足夠多探索的空間那我覺得比如說coding是一個非常顯然大家都在做的事情那也許我的價值就是說我把這個最初始的initialsignal給展示出來那如果別人能做我覺得別人做也是ok的然後另一點我覺得可能就是說你想要讓自己的生活變得更有趣或者更有意思或者更快樂那你就去做一些讓自己喜歡的事情但這個事情就很難用語言解釋就是一個taste的或者是一個preference的問題你會對agent的創業者有什麼建議嗎我覺得這個我已經說了很多遍可能有點老套但是我覺得就是想清楚你的價值是什麼然後我覺得技術是個工具然後當然理解技術理解技術的趨勢很重要但是我覺得就是創造價值是最重要的就是或者想清楚你為你的用戶帶來什麼樣的增強價值這是最重要的你最近堅持了你自己的taste做了一件bet是什麼希望你們能看到吧就是I'mdoingsomething那我最後幾個快問快答一個全球範圍內你喜歡的食物我喜歡椰子一個全球範圍內你喜歡的地點我很喜歡伊斯坦布爾一個少有人知道但是必須知道的知識點我挺建議大家去看智能簡史這本書的我覺得有很多很有意思的知識點比如說為什麼大多數動物都是左右兩側對稱並且有一個有一個像嘴一樣的食物入口有一個像高門一樣的食物的出口然後為什麼氣體是同一個口而食物和水是兩個口這個事情很有意思它是有些本質原因的什麼本質原因比如說你會發現如果你要去做Navigation你要在這個世界中移動左右對稱的結構是最優的你發現世界上所有交通工具都是左右對稱的因為你可以一個方向進行前進後退另一個方向向左轉向右轉就是它和車和飛機是左右對稱的結構是類似的然後至於食物和這個氣體還有別的原因經你所有讀過的書推薦兩本必讀書我覺得智能解釋這本書很有意思我去年讀了我覺得很有意思然後我會推薦各種各樣的自傳我覺得傳記很有意思就好像是你在讀別人的生活一樣在體驗別人的生活你心目中影響AI進程的幾篇論文我覺得有很多吧如果是罪呢我覺得沒有罪就是這些東西都是一個積累的過程然後backprop然後transformerGPT我覺得是一個記得的過程我覺得沒有一個是做不到的工作基於你當下的認知一個最關鍵的重要的BAT是什麼呀就是BAT上有differentsuperapp的產品形態有不同的交互方式如果你不相信這一點的話那這個世界就變得很灰暗那只有OpenAI或者Antropic有機會但是如果你相信這一點的話就會有很多新的機會你的NBTI是什麼我想說INFP但我不太確定我不太記得這些字母的意思你之前聽過我們的博客沒有啊我就聽了你和小紅的那一期的前半部分我覺得還挺有意思的好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
嘉宾:姚顺宇(OpenAI研究员,Agent领域核心专家)
主题:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界
日期:2025年9月11日
时长:约3小时
本期为深度“马拉松式”访谈。张小珺与OpenAI知名Agent研究员姚顺宇,围绕“AI Agent的发展与边界”,深入讨论自然语言智能体(Agent)六年探索收获、人机关系的新模型、AI泛化前景、Agent商业化生态边界,以及对未来多极世界的哲学思辨。访谈充满一线前沿认知、方法论反思与具体案例穿插,会为关注AI、科技创业与人机共生的人士,提供极高信息密度的洞见。
“语言模型天然适合建Agent,因为人类发明语言本就是为了表达、泛化和协作。AGI不是靠解一道又一道小题实现的。”——姚顺宇【15:45】
“语言模型天然适合建agent,因为人类发明语言本就是为了表达、泛化和协作。AGI不是靠解一道又一道小题实现的。”
— 姚顺宇(15:45)
“没有好的环境,再复杂的模型只是刷榜,没有现实意义。”
— 姚顺宇(43:12)
“最终你有机会,是因为你用通用的模型创造了新的交互方式。”
(107:45)
“人能见到光,是因为能推理(reasoning)。”
— 姚顺宇(94:55)
“未来不会是单极中心化的,大模型不会一统天下。更多丰富生态和多样应用会涌现。”
— 姚顺宇(130:16)
“AI产品经理的核心是好产品经理+第一性原理能力,人性才是最慢变量。”
— 姚顺宇(115:31)
“想清楚你的价值,技术只是工具。创造价值才是第一位。”
— 姚顺宇(结尾,140:10)
姚顺宇用六年一线实验、产品与思考,梳理了从Symbolic AI、RL、LLM到新一代Reasoning Agent的历史进化。Agent的本质突破是方法的简明高效与现实世界环境/任务的融合,泛化核心依靠推理与长时记忆,而非某个单一技术。
对行业创业者最大的建议:“想清楚你的价值,不要只抱着技术找问题。真正的创新是用通用的方法和模型,结合具体有价值的新‘场’,去创造意想不到的产品形式和生态。”
最后寄语
“AI世界绝不会只有一个超级App或者中心化答案,大量新的多样化系统和交互必将涌现。下半场才刚刚开始。”
本期适合科技行业、AI/NLP创业者、产品经理和对AI社会影响有深度兴趣的听众。每一位关注Agent未来和“人-机”大变革的人,都应当收藏反复聆听。
(注:本摘要按结构与主线议题梳理,删去片头广告与寒暄,保留访谈密度与原话风格。引用或观点均有时间索引,可快速定位原录音。)