
Loading summary
A
Hello大家好我是小峻今天這期節目我們來到了美國紐約此時正是中國的春節紐約剛下過了一場大雪這是近幾年以來紐約最冷的一個冬天街道上還有許多沒有花開的冰雪但是今天這場對話讓我感受到了一種冰凍解封後的人間煙火氣息今天坐在我对面的是华人青年科学家谢赛宁他刚刚和图灵奖得主杨立坤一起踏上了创业的旅程他们的NeolabAMI刚刚完成了第一笔超大规模的融资目前团队规模为25人谢赛宁一直告诉我他不是那个天选之子他是普通的那一个那接下来就是我对谢赛宁的访谈伊利亚给我打电话就我什么都没说我就把我朋友聚了他们发给我一个offer然后说我不去抱歉但是有爱的同时一定就有恨就是他是一体两面我今天早上我们在纽约就是布鲁克林派空镜我觉得这里我很喜欢这里就因为我住在时代广场那边我觉得那边还是一个非常刻板印象的纽约但是好像来到这里就是一个充满了艺术气息和生活气息的纽约是这样我觉得DUMBO这边当然非常艺术对吧很多电影里面我之前有个韩国电影叫《过往人生》里面他们里面拍你可能也看到了《旋转木马》然后那边的DUMBO大桥是吧哦时代广场只有游客才会去真正的纽约人是不会去的但其实NYU附近其实也很好那边叫GreenwichVillage然后那边也是一个村然后那边也很有生活气息你为什么会来纽约做学术呀这好像不是一个很多人的选择倒也不是吧但是歷史比較長的確實是各種原因吧我覺得當然也是因為我確實比較嚮往這個城市嚮往這個城市裏面的很多的元素它的一些人然後包括NYU其實也是然後當然主要的原因還是因為Young然後像AI的這些efforts對吧NYU確實做得很不錯但另一方面NYU還有很強的電影學院對然后我喜欢的很多导演像什么MartinScorsese啊包括最近赵婷啊什么都身外有的毕业生所以也是partlythereason吧也是一些原因对我这个我昨天跟你说我觉得我来美国现在多少年了13年过来然后13年左右了我这个后训练现在有点崩所以中英夹杂的问题对观众朋友们不好意思我尽量解释多多见谅多多見諒多多見諒嗯我好像沒有在任何地方找到你的一個播客或者一個訪談所以這是你第一次做一個播客或者訪談嗎第一次做播客第一次做播客第一次做訪談對你可能能找到很多我出去在各種conference會議上面的演講做演講這些很多為什麼你之前這麼多年都沒有上過一個播客或者做一個訪談呀我覺得嗯我不知道我覺得我更適合做一個聽眾我很喜歡Podcast對我經常聽很多的Podcast我的SpotifyYouTube每天上班下班然後睡覺前平時沒事都會聽一些Podcast對然後我覺得我也挺有表達的慾望的或者說我私下裡跟朋友也會聊很多東西我跟學生我覺得平時抓大家一起聊天我覺得也很開心但是Podcast這件事情對我也不知道可能是因為沒有人邀請我吧應該不會其實有一些吧但是我覺得還是可能也是因為比較愛人吧我覺得很多時候對覺得不知道哪些話應該說哪些話值得說哪些話大家願意聽但我現在我覺得慢慢對年齡大了之後也還好擁有了這個不被人喜歡的勇氣我其实在网上看了你的很多很多的信息但是我发现所有人对你的描写都是从上海交大的ACM班开始的那我也很好奇在那之前的谢赞宁是什么样的呀你能不能从以你对这个世界拥有最早的记忆片段为开端来给我们讲一讲你的童年和成长OK你看这就是为什么不想做podcast因为确实没准备过或者说你得让我回忆回忆從最早的記憶片段當然就是我覺得從小時候開始吧可能四五歲的時候我媽帶著我去四處旅遊這可能就是一開始的記憶哦在哪裡旅遊各種地方對因為她也做一些生意然後四處跑全國各處跑對吧我記得印象很深對吧這種在上海的這種初印象然後去四川啊然後這些就是能想像的各種旅遊景點吧但是如果非要深巴這個家庭情況就是我爸是一個純粹的死宅從來不出門但是他最愛看的事情就是看書所以我家裡反正有一個書房吧然後幾面牆都是書所以我小時候基本上就處在這種狀態之中要麼就在外面跑被我媽帶著到外面旅遊要麼就在家裡面翻一些有的沒的能看的不能看的書都看一看然後我覺得這是一開始的童年然後到了後來確實我覺得我們這一代人的成長經歷還蠻不一樣的因为我觉得当然不知道我觉得现在的孩子可能在这种AI的时代也会有同样的感受吧但我那时候我大概9岁的时候有自己的第一台电脑然后那时候开始不用来干正事的吧也是一盒一盒的买游戏然后打游戏然后后来有了互联网然后第一次感觉到这种信息爆炸所以那时候第一次知道什么叫做内容然後那時候就會覺得自己突然有了更多的表達力因為你看書還是單向的這種學習的過程雖然也是很開闊的但到網上當初有這些BBS然後你可以上網去發表意見我還記得有這種新浪博客現在可能都沒有了但我寫了很多很多的博客是嗎關於各種各樣的亂七八糟的話題現在肯定回頭看過去都會很好笑最受歡迎的一篇文章是什麼呀很多吧我記得有點為復興詞強說愁的感覺吧可能那時候包括QQ空間對吧就是大家總會有一個想要有一個平台去表達自己然後到後面其實還有更多的這種新興的媒介出現包括有博客然後有微博對吧但那時候其實不是微博是範否我不知道聽沒聽說過是網星對吧然後那時候我也是範否的眾多用戶啊上面反正我現在還能動錄但是實在是不忍直視有時候看了看我想要不要趕緊刪掉最後想一下還是留在那兒吧讓它變成這個互聯網記憶的一部分但是我覺得那時候我覺得這種互聯網的爆炸式的增長讓我變成了一個對很多事情都很感興趣的人我覺得是這樣所以你爸爸媽媽你媽是做生意的你們是一個商人家庭嗎也不是也不是對反正我爸爸基本上也是他他是本科學心理學的他也之前從事一些教育工作後來也在一些這種電視台上的傳媒工作可能跟你是同行對所以他小時候我的記憶對他的記憶是他扛著攝像機到處跑哦这个有趣对对对但我家里确实没有人是学纯理工的哦这也让你的性格我觉得还有一部分是蛮文艺的可能吧但是但我觉得我一想说的还是在这种非常轻松的家庭环境成长起来确实让我的自己的这个世界模型我觉得我自己對他我還是覺得蠻proudof的蠻驕傲的因為我覺得我會或者說你剛問為什麼會來紐約我覺得這也是其中的一部分我覺得我可能會希望自己或者希望身邊的人都更加openminded的去看待這個世界吧你是學習成績一直很好嗎因為你是保送到交大ACM班的完全不是的我是從高中對我覺得這件事情是這樣就是說你可以看我現在身邊有很多很多的朋友大家其實都是Aclass一路走上來的最好的高中對吧然後最好的本科參加競賽最好的本科然後最好的PhD然後結束了之後去比如師大教書就有一個非常清晰的主線對吧然後我也很崇敬他們我完全不是這樣我是一個最多是一個Bclass的這樣一個trajectory而且很多我的這些決策其實還是蠻玄學的因為我覺得我並沒有刻意的在某種這優際主義的這種setting下框架下面去努力追求一些事情很多時候其實還是挺隨機的然後可能也是這個沒辦法這個智商不夠但是確實比如說像保送的時候對吧這個也是很偶然然後反正有兩個這種心理學跟數學的競賽的獎然後這時候恰好交大有這麼一個計劃就是說可以提前進校就是想收割一些同學然後讓大家不要去高考其實我當初還是蠻順著高考的框架去培養其實我本身應該是要去參加高考的所以當初還糾結了很長一段時間學校老師都會說這個不行啊你怎麼能臨陣脫逃呢你看你的成績也很好對吧你當然應該衝一衝清華北大然後我的內心想法是交大挺好我覺得我去上海待過我覺得我跟這個城市跟這個學校都氣質相投並且我就是想學計算機然後我覺得交大那個時候計算機也很不錯我也聽說過有ACM這樣的一個計劃雖然那時候這個選拔的過程其實是要到你提前進校進去之後有一個夏令營之類的這樣一個program對吧然後你進行一些測試然後才能進入到這個班級裡面對但這裡面有很多很有趣的事情發生當然首先話又說回來我覺得我還是蠻怎麼說呢就讓我再選一次的話我完全不會後悔對我覺得提前進校的那個暑假是我這人生中的高光時刻為什麼因為那兩個月啥也沒幹就在寢室裡面打遊戲這為什麼是高光時刻因為這輩子在之後再也沒有出現過這樣的時刻了當然打什麼遊戲啊很多啊打dota啊什麼的就是宿舍裡面就是那種我在高中時候從互聯網上看到的那種大學生活你知道嗎就是有好好學習的一部分但也有一些這些找尋自己然後在這種漫無天日的虛度時光的這樣的一個經歷所以現在您的人生高光時刻是在虛度時光是嗎在情勢裡可以这么认为你很有意思呀你一直在说你不是成绩最好的那些人但是你也很顺呀你似乎也是成绩最好的那一批为什么你对你自己心里的认知是我的成绩其实是一半呢我其實就是說我看跟誰比對吧跟那些最頂尖的競賽選手像我剛描述的這課非常順利的這個對吧搖班大神然後四大PhD四大教授來比那我真的是遠不如但另一方面我覺得我還蠻感恩我所有這段經歷的因為我會覺得就接下往後講的話其實我覺得還蠻有意思的比如說在我去交大的時候其實交大也不一定是一個在計算機方面人工智能方面一個特別特別領先的這樣一個學校对吧然后到现在比如像A3班已经变成了一个当然这跟我没什么关系但我的学弟学妹们包括我的学长们对吧不管是做创业还是在做学术然后在各个地方发光发热然后并且我们有一个很强的这样一个校友的网络大家联系在一起然后做事情我覺得我覺得還是是一個向上的這樣一個trajectory吧向上的一個軌跡再到後來這裡面還有一個很有很有意思的事情我想提一下就是我們A3班會面試然後面試的過程會有這種老教授當初是這個沈恩紹教授面試我們這個面試其實不是問你一些technical的問題他會問你你喜歡讀什麼書然后我觉得这件事情是冥冥注定有一些缘分因为我当初非常着急差点答不上来然后我跟他说我其实很喜欢看那本书也是我最近刚看完那本书是这本书叫WhatisMathematics就是什么是数学然後沈靜韶老師就接著就問說那這本書的作者是誰要考考我然後我有點懵對然後你這個對吧一個高中生人家這個外國人的名我也記不住想了想最終還是打出來了是這個RichardPerron就是理查德·科勞然後沈老師就說對你一定要記住這個名字因為這是相當於20世紀最偉大的一名數學家為什麼這件事情讓我覺得冥冥之中自有天意或者有一些巧合在這裡面是因為現在NYU我在的這個系這個院就是科朗數學科學研究所就是RichardCron拿鏟子挖的第一勺土他建起來的這個系所以我覺得還蠻有意思的對吧然後到後面申請其實也是一樣我覺得或者從另外一個角度來說這件事吧我覺得好像這個世界總是不想讓我去做我想做的事情但是我偏偏要做我想做的事情比如說本科的時候我一開始就對計算機視覺或者說對人工智能產生了一些興趣那时候也是刚开始就是在A3班大家会在大二开始进行这种科研实习然后会到这个学校里面的不同实验室里面去然后我去的这个实验室就是一个做神经科学加AI的这样一个实验室叫做BCMI然后书架上放着很多很多关于意识、关于大脑、关于图像然后关于我们怎么样对真实世界产生认知这样的书我看了之后觉得太有意思了然後後來在這個過程中我還認識了我的一個學長這個學長是侯曉迪然後他也是叮嚀大名他之前也創業現在也在創業然後我每每跟他聊起來他總會說這個世界變了但我們都沒變我們特指我跟他因為我覺得我們每次聊的東西就像我們十幾年前聊的東西一模一樣那時候他是這個學校的一個傳奇然後他幹了兩件傳奇的事第一件傳奇的事是他作為一個本科生發表了一篇CVPR的論文然後這個論文裡面是一個非常精巧的算法一共只有七行代碼解決了一個很重要的問題然後發表了一篇論文現在CVPR已經每年接受可能幾千篇論文對吧好幾萬篇投稿所以現在你像我們要招本科生然後大家人手都三篇四篇五篇CVPR已經不算什麼了但在那個時候在大陸的學校能發表這樣一個頂會的工作其實是非常非常困難的非常罕見非常罕見然後如果是一個本科生發表這樣的工作聞所未聞所以真的是每一個人都非常非常佩服他但是他又做第二件非常厲害的事情是他帶領一個team撰寫了一個東西叫做交大生存手冊交大學生生存手冊這還是一個team寫的應該是他主筆我不知道後面應該有一個團隊跟他一起然后这个东西现在网上还有存档我觉得欢迎大家线下可以去看一下这个手册里面讲了什么东西然后有些话我前两天又回头又重温了一下我觉得非常有意思他讲的事情是什么就是讲说人为什么要学习中国的教育体制大学的模式到底哪里错了你应该把时间花在什么样的地方上去達到你想要的人生或者說他也指導大家說怎麼樣做研究做研究的目的是什麼做研究的目的不是要灌水發論文而是真的對這種無限的未知的探索類似這樣的事情當然裡面也會教大家什麼怎麼樣逃課啊怎麼樣完成作業比較快速的方式完成一些作業對是一個這種小冊子我也去讀了一下他說如果一個人把政策評分作為自己的至高追求那麼他就是這個政策的犧牲品嗯我完全同意對我覺得這些事情現在回想起來可能前一幕話真的影響了我對很多事情的認知他在發表這個的時候你大幾啊大一大二吧大一大二對大一大二你就認識他了是嗎那時候他已經申請成功然後去了加州理工讀PhD所以我跟他是在因為他也是這個實驗室畢業的所以我跟他相當於在網上溝通侯孝迪當初是在這個加州理工然後就已經讀PhD了他也申請到了很好的學校然後我們都非常非常羨慕在那個時候然後我跟他還是會在當初是在Googlechat上然後跟他聊很多很多的話然後他真的是也是給了我很多很多的建議吧對現在還記得有什麼建議啊沒有更多的時候在網上課在聊的時候更多是聊research對到底應該做什麼事情跟他講一講我自己的迷茫然後怎麼樣能夠發出來一篇論文吧大概向他取取經對然後那時候但那個時候我覺得通過小迪然後通過我看的這些書已經基本上確定了我覺得我這輩子就想做這個事我觉得这件事情太有意思了计算机视觉那时候其实并没有这样一个名字在那或者说慢慢开始有计算机视觉这样一个terminology但其实之前对吧然后大家去处理图像或者view的信息已经很长时间了比如大家会做所谓的imageprocessing就是图像处理更多的是从这种WE的major开始的对然後計算機視覺可能是慢慢變得更加更加popular對然後也就是我開始學習這些之後的這些知識的時候吧它開始變得越來越popular對然後我說這個世界總不想讓我做這件事情是因為在交大一三班的時候其實還有另外一個特點是這個班裡的每個學生在大三的時候都要出去實習一次现在其实也蛮常规的但其实在当时还是就是这个班的主要的这个发起人叫于勇老师他的一个创举所以那时候大部分人就是A3班会跟这个MicrosoftResearchAsian就是亚运院有这么一个合作的一个项目所以会把我们的很多学生送过去然后做一个大概六个月的这样一个实习對所以我的當初的就是如果我什麼都不做的話我就會去亞元院實習雖然也很好但那時候其實沒有一個做視覺的組願意接受A3班的本科生去實習為什麼呀我不知道可能是因為當初你像馬一老師啊孫建老師都在那邊凱明的時候應該也在那邊了然後我覺得他們可能不喜歡有太多的這些啥也不懂的本科生過來參與這些事情他們那個時候非常的人才濟濟是的没错但我们真的是什么也不懂对吧我觉得我现在也慢慢能理解但那时候有一个选择就是还是去MSRA但是就不要做什么跟视觉相关的这些research了然后于老师也跟我说说其实你们本科生现在最重要的还是有一段研究的经历学会怎么样做研究具体做什么样的方向不是很重要对但我覺得不行我覺得我沒辦法接受我去做一個完全不一樣的一個方向我希望對這個領域了解的更多我希望能夠踏踏實的做一些事情然後希望有朝一日能像小迪一師兄一樣能夠發一篇CVPR的論文小迪那時候就已經是你的偶像了是嗎有點他是很多人的偶像在加拿大的時候然後所以我就開始琢磨這個事情怎麼辦然後就開始發郵件所以聯繫了新加坡的NUS新加坡國立大學的顏水成老師的實驗室這件事情是完全我自己聯繫的也沒有告訴于老師然後等到敲定說我可以有這麼一個時期的機會然後他那邊已經有一些補貼然後說什麼時間什麼樣的這些架構已經都比較完善了然後我就去找余老師我說余老師我實在是不想去亞眼院我想去新加坡的學校的這個組去做我想做的研究余老師沉默了幾秒鐘可能我猜我不知道我還沒有問過他這個問題但我猜他心裡的想法是這個學生怎麼這刺頭因為在老師的心中亞元院是一個更好的選擇是的是的一是一個更好的選擇二是我覺得也是能夠讓大家都能把大家聚合在一起我覺得一是當然也方便管理了第二也會有一些更多的這種synergy大家還是可以互相交流然後那你去一個新的地方這件事情到底意味著什麼這個地方到底靠不靠譜你要做的事情靠不靠譜這件事情可能是不可控的你糾結過嗎我没有解决但于老师我觉得我也非常appreciate他就是他反正沉默了几秒最后说好你去吧对然后我就去了但是这件事情发生了之后像水城这个组AOS的这个实验室变成了我学弟学妹之后的一个可选择的一个position对所以我觉得對所以我覺得我還是想要take一些主觀能動性吧我覺得takeinitiative然後去做我自己想做的事情在當時還非常早期就是和圖像相關的人工智能到底吸引你的是什麼呀它為什麼吸引了你呢讓你做出了很多不一樣的選擇因為我覺得我感受這個世界的方式就是通過視覺我會想我小時候可能也比較無聊吧我就會想欸人有這麼多對吧感官如果非要讓我讓我去掉一個的話我會去掉哪個我覺得也許我聽不見也許我沒法說話也許我沒有觸覺沒有嗅覺我會過得很悲慘但可能還可以接受但如果我沒有了視覺那我不能看動畫片了我也不能看電影我也不能打遊戲了我似乎喪失了一個人的獨立性然後我覺得當然這件事情這些最開始的想法和後來我看到的一些書裏面講的事情我覺得也蠻不謀而合的吧因為你想想視覺信號其實佔了人的大腦這個P層看你怎麼說的吧就主要的視覺區域可能有30%佔整個大腦但整個大腦在看到這個圖像的時候激活的部分可能要佔到70%所以其實我們所有的人都是視覺動物然後這件事情對我是這麼覺得的我也是一個視覺動物我也很喜歡看一些東西生物也是不只是人不只是人對你說的非常非常對所有的動物其實不完全是這樣因為其實在530個百萬年前其實地球上這些生物是沒有眼睛的大家都在這種深海裡面生活暗無天日對吧大家都在深海裏面然後光打不進來然後突然有一天有一些生物能夠發展出來他們的視覺了雖然還是很弱只能看到一點渺茫的這個信號對吧但這時候他們就很厲害了他們就能看到自己想要捕食的對象在哪我就可以很快的游過去然後把他吃掉他還能躲避天敵有人要過來要抓我了我立刻逃跑一旦視覺誕生了其他的生物在進化的過程中又不得不演化出更強的視覺因為如果你不有更強的視覺的話你就會被吃掉所以就展開了一場軍備競賽所以這是所謂的韓武紀大爆發所謂的CambrianEra就是說地球上在這個韓武紀之前可能只有屈指可數的這些物種但是過了航母機之後突然大爆炸式的多了幾十萬種這物種一個leadingtheory一個理論其實是說這種大爆炸的來源其實就是因為大家在視覺層面展開了這種軍備競賽是的所以你說的完全對我覺得這其實不是一個人特有的事情我覺得所有的動物其實也是這樣然後所以我對這件事情還是蠻感興趣的而且你知道視覺這件事情其實也不只是一個感官有一種說法是其實眼睛是唯一一個它是大腦的一部分但它是唯一一個暴露在真實世界裡面的大腦部分因為其他的大腦部分都藏在我們的頭骨背後所以這樣想的話其實解決視覺不是要解決視覺本身而是要解決智能本身對所以一切我覺得都是能串起來的從你還沒有進入大一的正式上學之前那個在宿舍裡躲著打遊戲虛度時光的你然後到你找到了計算機視覺的這個人生的主線這中間發生了什麼呀其實也沒發生什麼其實很多時候我覺得都來源於偶然吧就像我如果當初也許沒看這本書然後我可能也不會走上這條路但有時候我覺得這也是一種必然我現在還是蠻相信其實每個人都有自己的命運或者說我有時候跟學生說你不要想著說你不做這件事別人就會把這件事做了你要想如果你不做這件事這件事在這世界上永遠不會發生這個什麼意思呢就是說就是說你現在在做一個researchtopic對吧然後你做了這件事情你是怎麼樣一步一步到達這個端點的這件事情完全取決於你自己之前的個人的人生的經驗成長的背景可能是你看過的一本書可能是你跟一些人的一段對話可能就是你的基因就是跟別人不一樣對吧我覺得每個體在這個世界上都是很獨立的每個人都是這個世界的一個變量每個人都是這個世界的一個變量然後有可能誰說的準呢有可能你就是這個世界上最重要的那個變量這是你的世界觀我覺得是我樂觀的一面吧你在新加坡果粒有獲得你想獲得的東西嗎我覺得有首先是我交了很多很好的朋友之後我可以慢慢展開但我認識了比如說其實當初帶我的主要的這個我的mentor是馮嘉石他當初是這個PhD學生对然后他带着我然后做了一些工作我们发表了一篇也不是顶讳很不幸本科还是没能发出一篇CVPR但发表了一篇还不错的这个BMVC的paper对是一个没那么顶讳的计算机视觉的这样一个论文所以我觉得还是有很大很大的收获我第一次知道了research是怎么回事对吧真正写过一篇paper跟没写这篇paper我觉得还是差别还是很大那是你關於CV的第一篇paper是的是的但你可以認為這是一個關於CV的paper但其實跟CV也沒有什麼關係它的唯一的一個application是這個人臉識別對它更像是一個機器學習的論文吧但那時候也很正常所有在學CV或者說研究CV的人都在做類似的事情所謂的這些這種ManifoldClustering相關的東西對但是也就是在那個時間點上那是201年2013年201年對吧所以剛好也是Alexthatmoment所以我也是在那個時間點上知道了這件事對吧然後對然後知道了imagenet知道了深度學習所以我覺得那其實是一個原點那是我剛開始做research然後學會怎麼樣做research的一個原點也是整個深度學習的一個原點這是你的大三大三對這個時候大學就快結束了所以你其實在本科期間就已經找到了你的主線我覺得是的嗯那你當時的那一生獎勵機制是什麼呢其實我覺得還是好奇心吧對就是我覺得我想要知道為什麽對然後或者說這可能也是我的一個自己的一個解釋吧我覺得我也不知道我的intrinsicmotivation到底是什麽但是嗯我希望了解更多东西我希望了解关于这个领域的更多的事情我希望跟这个领域的最顶尖的这一部分学生也好研究员也好老师也好有更深入的交流所以这也是为什么之后决定还是想要出国想要申请我觉得也是Probably是这个原因這裡我想多插一個小問題你也肯定有很多清華搖班的朋友也有很多清華搖班的朋友來過我的節目是的我想知道清華搖班你覺得跟交大的ACM班最大的差別會是什麼呀在培養上我觉得可能A3班没那么卷吧一个差别是again这件事情其实还是于老师的一个设计他我觉得是一个挺伟大的一个教育家我可以这么去说像我们当初其实我们的课程设计上会有很多看起来还是蛮奇怪的这些设定比如说我们有一门课程于老师其实很自豪的就是说叫做学子讲坛这个学子讲坛是什么呢就是说大家要到这个课上然后花可能45分钟到一个小时去做一个presentation给一个talk然后这个talk不能是跟学习有关的它可以是关于这世界上任何事情的但不能学习无关系對所以有人會講哲學有人會講歷史有人會講社會有人會講很多很多很有趣的東西大家也可以講科學對然後我覺得我覺得這可能是一個培養機制的不同當然我也沒去過搖擺所以我也不清楚但我覺得大家還是在一個相對來說比較寬鬆並且比較強調通識的這種設定下往前走你給我的感覺是你好像不是一個喜歡過度競爭的人我覺得我不懼怕競爭但是我覺得確實我不喜歡過度競爭並且我覺得過度的競爭一定也不利於創新這個當然不是說ACM班沒有競爭其實有很強的競爭你在這個競爭中是優勝者嗎沒有被淘汰出去但其實也不能叫淘汰了其實是大家覺得自己適合還是不適合然後選擇繼續留在這還是出去你本科大概排第幾一共可能有三四十個人可能排十幾名這樣吧沒有特別卷自己沒有特別卷自己你有想過要成為ACM班的比如說第一名第二名嗎這是你的追求嗎我成為不了對真的成為不了因為我們有很強的這些競賽背景的學生然後或者說這個評價的標準其實我覺得也是多元化的其實不好講誰是第一名第二名或者說如果只看GPA的話那我確實做不到對而且我對這件事情可能也是受了生存手冊的啟發我覺得我也不是那麼在意所以你從那個時候就開始非常追隨自己的興趣是的對我就追隨我的興趣並且我會想方設法促成這件事情尤其在申請的時候也是一樣剛才的一個例子是你去了新加坡古麗而沒有去微軟亞元院對申請的時候其實這裡面還有另外一個故事就是當初差點失血但也沒有失血就是還是有一些offer但是也是沒有一個我想去的做計算機視覺的老師的offer這件事情讓我非常非常的沮喪然後一度我會想好吧那我可以去做一些關於推薦系統的研究一些更加機器學系的研究直到到最後然後我就開始瘋狂的跟大家寫郵件就是套辭郵件然後這個圖哲文老師圖教授然後回覆了我但這件事情已經非常非常晚了因為你知道大家申請PhD一般都是要4月15號就截止了對吧我其實4月才收到了這個回覆你最想去的老師是誰啊在那個時候那时候其实做计算机视觉的老师不多对吧然后我觉得涂老师当然是一个我非常非常敬佩的一位老师所以我觉得他也是我的一个topchoice对然后当然了还会有很多你当然说像在斯坦福伯克利对吧MIT都会有很多这些计算机视觉的先驱但那时候这个超过我的能力范围之内对所以我跟陶老師發這個郵件然後他就回覆了我然後我還非常記得非常清楚因為有時差嘛所以陶老師說我們要不要打個電話你什麼時候有時間我說我任何時候都有時間然後所以我半夜三點在宿舍的樓下跟陶老師打了這麼一個電話告訴他為什麼我覺得我想做這件事我之前做了哪些事并且我觉得我为什么很欣赏你的research我觉得我们可以一起工作一起公事对所以后来涂老师就把我捞起来了非常非常幸运最后几天最后几天把我捞起来了到后面还有转折因为我一开始这个涂书恩教授其实是在这个UCLA对所以我拿的offer也是UCLA的offer然後我辦好了簽證準備要入學然後之前大概一個星期托老師說這個不好意思我要跳槽了我在UCLA因為種原因不想待下去了不想在這繼續待著了我要去另外一個地方我要去哪我現在我也不能告訴你我也不知道對因為他當初也在面試真的對然後他跟我說你有幾個選擇一是可以留在UCLA然後把你交給其他的老師託管然後也可以等一等看看我這邊工作的情況然後有可能如果去到一個你願意來的學校的話你可以跟我一起來所以你等了嗎還是你馬上說我就選擇你我基本上就是說我馬上說我就選擇你了你不在意學校是嗎我覺得我不在意學校並且我覺得這些事情都很有意思因為當初其實你如果看UCSD的話可能感覺什麼綜合排名什麼都不如什麼UCLA現在完全不是這樣了如果你看這個CSRanking啊或者說從AI的這種招人啊然後學生啊包括這種師資的儲備AI的这种力量来看我觉得UCSD都已经是前几名的这种级别了在当初完全不是这样在当初而且我其实还一直很想合作一个老师叫SergeBlanchi他刚刚决定也要跳槽离开UCSD所以我覺得一切都很絕望我要去的地方似乎排名也沒那麼高然後獅子也在外流但我想一想說這個都不matter都不重要重要的事情是我跟誰在做什麼事情然後這件事情是不是我想做的事情我覺得拋開所有這些噪音這是我唯一一刻想要去關心的事情這個很有趣對所以這件事情發生了好幾次的我剛說在交大其實也是一個向上的trajectory然後去UCSD其實也是當然我不是說這件事情跟我有任何關係我覺得跟我沒有任何關係但3號我覺得我能看到一個地方或者甚至一個人他的upside的potential就是說他的潛力然後我也願意跟這些地方一起成長我覺得這是我體會比較深的一個事情你多久知道屠老師去的是UCSD可能隔了幾個月吧可能隔了一兩個月你當時有擔憂過嗎當然有擔憂過了因為屠老師其實是一個非常謙虛能力極強但又非常謙虛的一個人所以他總會給我打預防針的說那我要去的學校有可能排名會比較靠後你要考慮一下你怎麼說我有点不太记得我说了什么但again对我来说这件事情可能不那么重要而且那时候还没有到要做选择的时候对吧那我为什么要为了没有发生的事情而提前忧虑呢所以没有想太多有其他人做这样的选择吗在涂老师沟通的学生中应该基本上没有我是他在UCSD招的第一个学生那我觉得光凭这一点涂老师应该非常喜欢你我覺得這個都是對我覺得也是他救了我吧確實是當然這個也不只是一開始饒了我再到後面做research在PhD的過程中我覺得他也是真的幫到了我對我之前像在新加坡實習啊什麼的你可以認為我們在做一些research但事實上可以說還是小打小鬧對有一個人在你的旁邊教你做事這種感受還是不一樣的陶老師是那種坐在你的顯示器旁邊跟你一行一行代碼往後去對的這樣一個老師而且他也經常我覺得很驕傲的會跟我們說這些事情並且我覺得他也非常值得這樣的驕傲就是說他發了幾篇其實對後面的這個計算機視覺有重要影響的工作都是他獨立單個作者完成的工作然後這些工作没有什么像现在一样大家用PyTorch有这么多这些开源的社区有这么多的这些库你可以调用对吧有GPU在他那个时候什么都没有他要从底层开始写起比如说他要做图像分割这样一个task他要从头写起大概有5万行的这样一个代码他还把这个代码发给我看过那这个包含了最底层的这些包括一些distributedtraining一系列的这些东西全都是C写的對無網絡代碼我覺得一方面我覺得我很幸運不需要經歷這些但另一方面我覺得其實他們這一輩的在美國的這些scientist這些professor真的是令人敬佩如果沒有他們的話也沒有我們的今天他們其實是闖出了一條路本來這條路是不存在像我說的對吧發一篇CVPR這件事情其實是非常非常困難的事情並且有某個圈子有某個固定的圈子對然後我覺得要靠屠老師要靠其實他的老闆對吧朱松淳教授然後包括後來像菲菲啊等等菲菲老師然後大家把這條路趟出來讓我們才有路可走我看到有個小紅說評論現在您在國內表現平平平凡無奇到了美國一鳴驚人這變量到底是什麼呢首先我覺得沒有在國內平平無奇吧我不接受然後在美國也沒有一鳴驚人我也不接受我覺得好像我做的這些事情還是一個蠻smooth的一個很平滑的一個過程或者說我覺得這也是我希望我作為一個研究人員這種科學從業者吧我希望能夠處在的一個位置就是說這件事情不是一瞬間的荷爾蒙或者腎上腺素的爆發這件事情可能是一個終其一生的一個建設一種很寧靜的一個過程我是希望自己能處在這樣的狀態我說這樣的狀態是因為我知道很多人就是這樣的狀態這些我最寵敬的這些researcher他們就是這樣的狀態他們沒有說怎麼有這種一鳴驚人的或者至少他們的做事情的方式不是或者做事情的目的不是為了一鳴驚人我覺得是這樣是為了什麼是為了還是把問題想清楚你博士期間的工作是怎麼展開的呀博士期間的工作也很有意思對博士期間的工作我覺得也是靠這個托老師手把手帶對但我們有第一篇論文Bytheway我在博士期間也不是一個成功的博士的學生按現在的這種standard來看我一共發了可能應該有五六篇頂會的paper吧這個是什麼水平我不知道在那個時代應該還行吧是能找到頂尖實驗室工作的水平現在可能已經是對現在我的很多學生要比我當初要發的多的多的多的paper然後工作質量也好得多但是anyway就是一開始的話我覺得我們做了一個工作叫做DeeplySupervisedNets對這個工作其實是我跟另外一個更高年級的博士生一起合作完成的然後這個時候這是2013、4年的時候然后这时候是深度学习终于开始爆发但我觉得这也是一个很有趣的时间点因为其实有很多人不接受这件事尤其很多做计算机视觉老师的人都不接受这件事就大家觉得深度学习還是一個煉金術還是一個黑盒子大家更相信傳統的機器學習的理論相信SVM或者相信一些貝耶斯學派的一些理論能夠及時的轉身去做深度學習研究這件事情現在看起來開著這個歷史的後視鏡都是一個nobrainer就是你不需要做這樣的選擇你就應該這麼去做但在当时要做出这样的选择,我觉得是需要一些勇气的。 所以Tor老师其实是,这也是我另外一个非常敬佩他,并且我深深地受到这件事情影响的这么一个事情,那就是说他其实是很及时地做了这个转身。 所以这个DPSuperSNets就是在这个时代我们第一个DeepLearning的一个工作。 所以這件事情的事情也很簡單這件事情就是說我們怎麼樣你所有這些神經網絡在之前都是只是一個所謂的singlestrand都是一個長的鏈條然後有你的輸入然後得到你的輸出對吧然后现在DPSuplexNets就是说你现在其实可以有multiplebranches就是说你的一个神经网络其实可以有多个出口你在不同的出口上你都可以施加一个监督信号这样的话一个最直接的一个好处就是说你可以不只从最远端的这个信号做backpropagation回到之前的early的这个layers反向传播你不需要从最远端做反向传播一路到最头你其实可以从中间的一个节点做反向传播这样可以解决一部分这种梯度消失的问题然后这件事情其实跟后来比如大家做ResNet其实也有点神似其实就是或者说在那个时代大家其实都想要解决这样的问题那DBSupriseNets就是一个要解决这个问题的一个方式其實這件事情雖然很遠了這已經12年前了但我覺得research就是這樣12年之後其實我們現在的一些論文又再次用到了同樣的這樣的設計有時候甚至是我們都沒有意識到我覺得這個很有意思但我們先不說12年以後我第二篇論文其實是叫做HolisticEdgeDetection就是一個做邊緣檢測的工作HED我覺得我對這篇工作其實也蠻驕傲的因為這件事情說白了把一個research問題解決了既是一種幸運也是一種不幸就是幸運的是說這篇論文是一個不錯的論文不幸的事情是當這個問題已經解決了之後那後面沒人做所以也沒有人去Cite你的論文了所以少了很多Citation但是但這個工作其實本質上就是一個DeeplySurprisedNextDSN在一個圖像或者說邊緣檢測但其實是一個全局的這種我們叫做PixelLabeling就是說像素級別的這種標註的這樣Task上面的一個實現對然後這件事情也打開了我很多的思路因為我會發現原來一個神經網絡它的每一層其實是有它隱含的這個結構跟信息在這的你的一個神奇網絡Again不只有輸入跟輸出你的中間會有很多的這些信息它代表了這個世界的一個所謂的Hierarchical就是層次化的一個結構對於邊緣寫冊來說它代表了就是說你的初級的這些層輸出的這些邊緣就是更加所謂course更加粗糙的這些邊緣對吧然後越往上你的邊緣也就更細緻所以你最後可以把所有的這些邊緣融合到一起得到一個最貼近於人的認知下的這種邊緣的這樣的一個輸出的結果我觉得这件事情其实是也让我对深度学习有了新的认知它是一个很有趣很有趣的东西你可以认为它是一个blackbox但这个blackbox的每一个部分你又能把它打开接入一些新的灵感然后达到一些新的目标我觉得这件事情对我启发很大然後這個paper當初對我的人生影響也很大是因為它是發表在ICCV然後也得到了一個獎這是這個馬爾獎就是其實最佳論文獎的提名還不是最佳論文獎只是一個提名但其實這個對於馬爾獎來說就是它評選兩個論文了就是相當於馬爾獎的馬爾獎提名是兩個獎項所以这件事情让我觉得你要说什么一鸣惊人我当初确实觉得你看我也是年少成名了现在当然我们有很多这种中国学生也在这种世界的舞台上得的这些bestpaper可太多对吧但当初对我来说走上那个舞台或者那个讲台然后去给这个awardpresentation去给这个talk我觉得对我的触动是很大我會覺得哇我的這個人生開始了對吧然後我會不斷的努力我會有越來越多的bestpaper很不幸這是我最後一次拿bestpaper這誰是博記啊博二吧直到現在前兩天春節大家發短信還是說祝你新年快樂BestPaper多多我說已經過去十年每個人都這麼祝我了再也沒有得到你還想要嗎好問題我覺得這件事情對我來說也沒有那麼重要一方面是我知道了這個流程我知道其實我得沒得一篇bestpaper可能不代表這篇工作的好壞我也知道了當初我得的那篇bestpaperhonorablemention其實多半也是運氣這是一個巨大的隨機過程一个论文重与不重然后能不能得什么样的奖我觉得这件事情非常非常随机然后如果一件事情这么随机的话它不应该是一个researcher应该关注的事情所以你到了博尔感觉到人生终于开始了对然后人生终于开始了然后立刻现实就把我打翻在地里了倒也没有那么夸张了就是说我觉得这也是另外一个我读PhD的时候哎呀又要感恩陀老师就是他其实又是一个非常非常openminded让我们去探索各种各样不同方向的一个人所以我在PhD的时候一共实习了五次我觉得即使在今天看起来虽然跟学校跟industry已经合作这么广泛的情况下我觉得也是挺难以想象你为什么想去实习我就想走出去去看看可能就像我小时候去旅游是一样我想知道在这个世界不同的地方不同的组织有什么样的事情在发生有哪些人在做哪些事情我想知道这一切而且一方面我跟你說對吧我一直想做人工智能或者想做計算機視覺但另一方面我也會問自己WhatifImwrong對吧Whatif就是萬一呢對吧萬一這世界上會有另外一個更有趣的事情發生那怎麼辦對所以我覺得這也是另外一個我的一個Motivation你去了NECLab去了Adobe去了Meta去了GoogleResearch和DeepMind對感謝背景調查對是的是的是的是這五個地方然後其實前四個都在灣區了所以我其實那段時間其實還是蠻開心的就是每年我有一輛自己的破車然後每年夏天我要把我自己的宿舍轉租出去開著我的車一路從南家開到北家8小時的路程有時候會跟有一兩次會跟朋友一起大部分時候是我自己在路上我这件事情还蛮酷的所有的身家就在我的车里两个行李箱然后不带走任何一切因为我这个房子我也没了我回来我要再重新找房子居无定所这种流浪式的研究员的生活我还蛮开心的这五家里面你最喜欢谁我觉得各有各的特点像这五家里面就是所以我最近也跟学生说我有很多学生然后他们实习其实没有做出来什么好的工作然后我就跟他们说我就会拿我自己举例子我说我做了五次实习一半都没做出来什么东西然后这个实习周期有多长一般都是三个月到六个月對所以我大概一年一半的時間在學校一半的時間在灣區當然第一半的時候在倫敦對然後我覺得沒有什麼喜歡不喜歡我會盡量的去diversify就是我會希望我去的每一個地方都不一樣對我希望它是一個更多元的經歷所以NECLab它當然是我第一個去的地方然後我覺得在那裡我也發了一篇CVPR的論文然後那邊有很多很好的小夥伴主要還是華人居多然後大家中午下班了就一起去Cupertino去吃飯這是我對它的印象我非常非常喜歡這個集體然後非常喜歡大家做研究的態度然後我也發表了一篇我自己的論文所以我覺得我非常高興這段經歷NEClab當年應該也是深度學習的聚集地于凱博士也在那裏待過是呀是呀是呀嗯是的是的當然它有兩個分部一個在Princeton一個在這個Cupertino所有做vision做media相關的人都在灣區然後所有做跟這種傳統的機器學習相關工作的人都在都都集中在這個Princeton這邊對的然後後面可以有些可以跳過但是反正在Adobe我就沒做出來原因是Adobe是一個非常非常Artistic有這種藝術家氣質的公司Makessense然後我在那時候在三藩然後然後做一些跟Design相關跟這種Crosssourcing就是說你要在互聯網上去寫一些這種MechanicalTurk就是一些互聯網的這種用户feedback的这种系统吧对吧然后一些用户反馈系统然后用它来指导一些机器学习跟这种计算机视觉的一些任务比如说segmentation这件事情我就没做好我还对我的mentor心怀愧疚当然他们也都很友善但這也是一次讓我體會到其實itsokay沒有做出來什麼東西其實也不是theendoftheworld對吧也不是世界末日但那段時間其實還是蠻消沉的然後這段消沉期其實一直持續到了我去META實習在學校裡好像也沒有做出來什麼有趣的工作然後到了META之後然後實習只有可能三個月的時間我在前兩個月基本上也我在explore一些東西在探索一些東西也是跟這種神經網絡的架構相關的一些東西但也沒探索出來什麼東西什麼名堂然後突然一個轉機發生了這個凱明加入了Fair在那個時候所以這大概是我實習的一半的時候何凱明老師然後加入了Fair然後成為了一個Fulltime的研究員所以那是我第一次跟凱明共事那是我第一次三叉學習然後那時候也建立了一些深厚的友情吧我覺得因為那時候他第一次來美國他第一次他有很多第一次是在是在這個Fair的時候發生的對吧他那時候也不會開車第一次來美國也人生地不熟我要開著車帶著他出去吃飯然後送他回家有時候但他後來也會自己學車然後他也不會用Linux這件事情也很有意思因為在微軟的時候他們都用他們只能用Windows來編程所以我要教凱明怎麼樣用這些cluster怎麼樣用Linux但你會發現是坎明不是沒有原因的然後我覺得像他身上真的是有這種可以叫他光環或者我可以叫他某種這種現實扭曲引力場吧這其實是SteveJobs的說法就是說SteveJobs這周圍的人受到他的這個影響都會覺得現實發生了扭曲對吧有些本來完全做不到的事情現在慢慢竟然可以做到了我覺得凱明也是有這樣的魔力的對然後所以這是我第一次看到說一個真正頂尖的研究員是怎麼樣做research的你那個時候實習期只剩一個月了你們為什麼能夠建立起深厚的友誼啊我觉得一是生活上的交流第二是他为什么选择你呢他为什么跟你交流呢因为我在那边是一个intern然后我的manager就把我委托给凯明了因为反正我做的也很不好也没做出啥东西然后凯明来了说凯明你来带一带吧你参与参与讨论吧对所以那时候还剩了一个月的时间然后凯明就说要不我们来一起参加一下这个imagechallenge对就打这个比赛然後我說好呀那我們來打打這個比賽吧因為凱明在微軟的時候他做出他這些工作就是靠打ImageNet的比賽對吧然後一步一步打起來的說吧然後所以我們也來去玩ImageNet這個挑戰然後在這個過程中我們就發現我們之前想到的一些思路其實是一個reasonable的思路其實是一個很好的思路然後其實這個idea我propose給凱明凱明他的魔力在於他能把所有很普通的東西變成一個金字班之前的這個idea所以我們做了這個restnext的工作然後這個也是我們參加imageNet的challenge的一個solution一個submittedsolution然後我們當初得了第二名没得第一名但我觉得我们其实是应该是第一名因为第一名的solution是一个就是ensemble的solution就是把一些之前的算法做模型融合融合起来的一个一个solution对然后我们其实是一个全新的框架对然后然后那个时候呃对我觉得ResNext想要讲述的事情也是在涉及到我们怎么样去通过一个去更改我神经网络的架构去学到一个更加scalable对吧可以扩展化的这样一个representation这样一个表征这件事情其实也非常好玩因为这件事情idea非常非常简单它就是说原来比如说我的resnet只是一个串行的网络对吧只有一层一层一层的这样的这样的conflayers现在我可以平行的扩展成好几个不同的groups每一个group里面有单独的自己的一个小网络相当于你是网络在一个大的网络里面又平行的分布着很多小的网络这件事情为什么有意思因为按现在的话来说这件事情就是MOE所以我們當初在至少在image. 上面已經看到了某種scalingbehavior就是說當你的group的數目越多你的這種神經網絡也就越稀疏然後你的神經網絡越稀疏你的寬度越大但你就能夠在同樣的這種flops這種計算量下然後得到更好的結果它又收斂得更快然後你最後的結果也會變得更好我觉得这件事情跟现在大家在MOEExplore的东西也是不谋而合的这个工作算不算凯明ResNet的衍生呀是的是的所以为什么叫ResNets的凯明说对这个是SysResNet所以他这个X既是Next既是下一代的ResNet也是给了我的一些credit凱明是一個很會取名的人對給paper取名的人後面很多這些論文其實都是他幫我們取名的他會把人的名字藏進去是嗎倒也不會不是每次都會這樣做只是說是一個巧思吧我覺得這也是他的researchtaste的一部分他為什麼要把你藏進去不知道我覺得可能也是我其實不知道我沒有問過他你們那個時候已經共事多久了你的實習期有延長嗎這都是在那一個月裡面發生的就是在一個月裡面發生這樣的事情不計其數我很多很好的工作其實都是同樣的節奏就是一開始怎麼做都做不出來然後到最後突然一瞬間有靈感的迸發然後把這件事情收斂就是research從來不是一個線性的發展或者說一個線性發展的research永遠不是好的research對然後我們很多的工作其實都是非線性的我之後可以再跟你講一些其他的story對反正這時候是跟凱明然後我就結束了然後就這段時期也就結束了但是你們友誼保持下來了是嗎我覺得是的對然後去玩了Meta這個又是一個有成果的一份事蹟我覺得是一份有成果的事蹟在Google呢在Google我覺得做的也也還不錯因為我開始去了解一些視頻是怎麼玩的這些時期都跟我之前做的東西都不一樣每段時期跟我之前做過的topic都不一樣所以導致我最後的畢業的論文其實表面上其實是很散的但我還是能找到一個方式把他們串起來然後串起來的方式我等下告訴你但總之是在Google的時候我去研究了一下這些視頻的這種神經網絡的這種架構跟訓練的流程到底應該是怎麼樣我覺得收穫也蠻大的我有一個疑惑因為你既然在Meta跟凱明合作得很好然後他又是一個鼎鼎大名的AI的Researcher你為什麼不留下來繼續跟他合作我覺得很多人可能會這麼選擇你為什麼要接著去其他地方去游覽了呢這其實是凱明的建議凱明會建議每一個人去不同的地方實習這樣才能夠去有最大化的收穫對所以像我們當初我啊包括王小龍啊大家其實都是實習了一次然後之後我們當然都願意留下來但凱明說你們去其他地方看看吧也許會有不一樣的收穫但是你博士畢業以後回到了Meta是的對我覺得還有就是在Google時期完了之後緊接著又去了DeepMind時期我覺得那段經歷其實是對我啟發是很大的DeepMind那時候還不屬於Google還沒有收購是嗎不不收購但是是兩個不同的Organization因為它只在倫敦對所以那段時間我去在做一些REL相關的Research然後原因是我真的不知道這件事是怎麼玩的然後我想去看一看然後做的也很痛苦而且倫敦的冬天那段時間是冬天好冷倫敦的冬天也很冷我還非常記得非常清楚我要從倫敦的地鐵下來工作到很晚晚上可能十點十一點然後凜冽的寒風然後夾雜著雨打到我臉上然後衣服帽子都擋都擋不住一步一步回到我那個蝸居的小屋臨時的宿舍其實還是蠻辛苦的但那段時間對我的我覺得啟發也很大第一讓我覺得我好像不是很喜歡做IL相關的research或者說我不喜歡做機器人相關的research因為其實當初IL其實就是在這種虛擬的環境裡面模擬環境裡面去做一些embodiedagent的task但是我覺得我更多的收穫其實是來源於我對DeepMind這樣一個組織的認知是在那個時候build起來的我覺得哇這個地方好不一樣啊跟我去的所有地方都不同他们会有一个很不一样的管理模式比如说他们会有很多这些PM去协调不同的researchteam之间的这种运作他们会有这种不同的workinggroup大家还是会有很多bottomup的idea自下而上的这种idea但是它没有一种topdown的管理的模式并且它也是一个层级化的管理模式一开始纯粹探索性质的这些idea然后大家可以有自己的一个小的group去做一些earlystudy然後立刻就會進入一些如果一旦一個東西成形立刻就會進入一個更加topdown更有組織性的這樣的一個管理的模式下我覺得這件事情非常非常有趣然後現在回想起來對吧我之前在推特上也跟大家說就是Demis跟很多intern也都見面然後大家組織了一個meeting然後Demis就跟大家說或者說其實是有人問他這個問題就是說DMine的使命到底是什麼這個公司你們到底最後想成為一個什麼樣的公司Demis的回答是DMine最後會成為一個能拿MultipleNobelPrizes的公司能獲得多個這要劃重點多個諾貝爾獎的公司我觉得我们当初都说哇这个也太ambitious了是不是有点天方夜谭只是在做AI而已但現在我們看到他們已經至少實現了一步我覺得真的是非常非常敬佩其實AlphaFold整個的team就是在我實習的那個過程中逐漸衍生起來的我其實能看到哪些人在做這些事情然後一開始也有一些intern在參與這個過程然後一步一步他是怎麼樣從一個探索性的這樣一個idea逐漸變成一個有組織講究execution一步一步能夠去達到最後徹底改變這樣世界的這樣一個項目的這樣過程組織問題我們稍後會著重的來聊我在想你是不是時機太多所以你後面沒有bestpaper了我覺得有可能是這樣或者說我覺得我做的東西可能太多太雜實習是從博給開始的就是第一年開始第一年開始所以這兩個一直是交織的一直是交織的對所以我覺得你說的很對其實我的時間線其實是被打亂的對吧確實會失去一些注意力但我覺得這也是一個我自己的設計所以說回回來就是說怎麼把這些事情串起來呢我覺得我的博士的論文題目是大概就是說一些結構化的先驗用這些先驗來指導我們怎樣能學到一個更好的深度學習的表徵然後這件事情again已经过了很多很多年了但我发现我现在在做的事情还是这件事然后并且这个1月还是12月开会的时候然后然后有一个workshop他们这个workshoptitle就是说representationlearningwithstructuralprior大概就是用结构化鲜艳和表征大概类似这样的一个topic然后我再给了一个talk过去然后我再我talk最后我就说其实过去的12年你们这个workshop的topic虽然现在还是frontier我们在讨论它的时候有了一些不同的意义但是这个也是我当初一开始想要study的问题也是我现在觉得还是没有完全解决的问题对所以一方面我觉得我的这个读PhD期间时间线有点支离破碎原因是我在不同的地方在做不同的事情但另一方面这也是如果你想要去涉及的东西是表征学习这个topic的话這也是不可避免的原因是它就像種一棵樹一樣你的表徵其實是你這個樹的樹根這個樹長起來之後它得要有不同的枝芽對吧這每一枝其實就是一個不同的我們叫做downstream的這種application就是一個新的應用所以我做过图像识别然后图像分割边缘检测视频识别动作识别对吧然后包括甚至后期有一些这种embodiedRL相关的task在所有做这些事情的时候我看到的这些问题他们都是这些数值上的一个分叉他们不是根对吧我觉得有可能你说的对我没考虑过这个问题我会不会有更多bestpaper但我希望还是能够更多的种这棵树然后我希望能够扎更深的根而不是去在这个branches上面走得更远对然后我觉得again我觉得这件事情是deeplearning的核心就是我们说这个表征学习representationlearning这件事情基本等加于deeplearning给大家解释一下什么是表征学习好问题对这件事情我觉得之所以我很喜欢说我是一个做表征学习的人是因为这件事情还是蛮难定义的从数学上来讲你可以认为表征学习就是说你有一个data对吧x然后你现在要把它map到一个space去然后现在这个space可能会具有一些性质这些性质可能这些好的性质可能会更容易让你在下游的任务上面取得更好的结果对吧然后所以你要学的这个从從初始的這種數據再到具有良好性質的空間的映射的這個函數這就是所謂的表徵學習然後這個函數也不是只是一個簡單的映射它有可能是一個hierarchical層級化的一個映射然後我們現在當然這件事情可以用不同的方式實現那現在主流的實現的方式當然就是用一個非線性的神經網絡來實現這個函數所以我觉得这是一个定义但我刚说我会愿意说我自己是做一个representationlearning的人是因为我觉得这是一个永恒的抬头就因为这个领域发展太快了很多时候我们做很多的事情包括我举一个例子吧这个可能是一个非常negative的example就是以前其实在我什么时候可能PhD刚毕业的时候有个东西非常非常火叫NAS叫NeuralArchitectureSearch就是叫做神经架构这个检索吧我不知道应该怎么翻译就是NeuralArchitectureSearch这个领域里面很多的共识就是说这样一个topic耽误了整个领域大概两年的时间这是一个错误的方向大家在这个错误的方向上面发了几千篇论文但最后没有任何的收获然后所以为什么我说表征学习是一个很好的这样一个title呢或者说我愿意跟所有人说我是一个做表征学习的人是因为这是一个fundamental的问题如果你现在说我是做一个neuralarchitecturesearch的人那這件事情就很麻煩有可能過了兩年之後你就立刻得要改行你就要把自己網站上說我的research方向是NewYorkTimesSearch把這句話刪掉替換成下一個更fancy或者說更不一樣的一個term它不是一個永恆的主題它不是一個永恆的主題Representation是一個永恆的主題是一個最fundamental的主題也是一個還沒有被解決的主題嗯所以PhD可能讲的有点长了但是但还要说就是说我觉得PhD的时候其实也也遭受了更多的挫折包括比如说我们一开始DeeplysuppressedNAS这个论文这件事情也是一开始我们投了NeurIPS得了一个挺高的分数大概是86还是怎么样87的一个分数最后还是被拒稿了然後這件事情對我來說也是一個打擊我發現原來發表一篇論文這麼難即使得到了很好的評價但還是因為一些很離譜的原因然後被拒稿離譜是什麼離譜原因是因為我們當初我們的裡面有一個數學公式它應該是平方沒有一個typo把這個平方向落在那了沒有寫純粹是一個typo非常容易fix但PC說就是這種programchair就是負責這種會議的人就會說這件事情導致你的數學上不成立是一個錯誤然後這件事情rebuttal的時候就是說你在反駁review的時候review沒有看到所以很不幸你没有办法被fix那现在我们只能拒稿现在看起来已经不可想象了就是因为第一现在可能大家也不会去检查论文里的公式了第二我觉得大家也相对来说更加宽容了在那个时候其实大家会非常非常抠这些细节对但没关系反正我们就投了这个AIstats另外一个会议机器学习的会议然后这个论文去年得了他们的testoftimeaward就是一個時間檢驗獎所以我覺得這麼久對因為所有的時間檢驗獎都是說你要評價十年以後的在十年以後的這個節點評價十年前所有發表的paper裡面哪一篇論文影響力最大對這個領域影響最大所以我覺得我突然又釋懷了我覺得確實做研究是一個長期的過程然後所以這也是為什麼我跟很多學生也會說這件事情然後我覺得其實不要在乎每一個時刻你的成敗吧我覺得或者說從數學角度來描述的話就是說不要在乎一個PointEstimate就是你不要在這個時間軸上在每一個點估計你做得好還是不好因為所有的評價它到最後都會是一個積分你需要時間的積累到最後你看所有你之前做過的所有的事情累加到一起它決定了你是不是一個好的researcher但是在那一刻你還是會很沮喪的很沮喪對非常非常沮喪你在那一刻很難想到十年後的事情很難想到十年後的事情你在博士畢業的時候對自己的人生是抱著什麼樣的期待呀因為你也發了一些很好的論文你也有過五次實習經歷了你覺得你自己是應該往科研方向走還是往產業走你有做這個選擇嗎我覺得那時候一直都不是很自信那時候我都沒有去想過找教職因為我覺得我不配因為你為什麼在每一刻都覺得我不配我覺得現在好一點但是可能這個有點誇張了也沒有覺得真的不配吧但只是覺得比起我的那些peer他們在這個既定的軌道上面像我說的一步一步通向這個很好的教職這條路線我覺得我不在這條路線上或者說你剛說的這件事情也很有道理如果你最後真的路線是要找一個教職的話至少在當初那個時間點上你不應該去五個地方做五個實習做五個不同的項目這件事情非常不利於找教職因為如果你想找教職的話你留在何凱明的那個團隊裡面你可能會能發更多的paper然後你有更多的結果在那個時間段他可能能夠更加順暢的通往一個確定的目的我不知道是不是一個確定的目的我覺得還是挺玄學的所有這些決策都是說我只考慮的事情是我應該去做哪裡做我最想做的事情最好是跟我最想要共事的人一起共事我覺得其實這個想法其實非常非常單純所以在當初找工作也是其實我就是也四處都在找吧各個大廠其實也有不少offer對然後我之前也講過我當初面試OpenAI的經歷其實還是蠻酷的反正在一個小黑屋裏面關了五六個小時做一道題目出來的時候天都黑了對我覺得我對那個體驗也比較奇妙感覺也比較奇妙但那時候其實做我心裏面誰是面試官在OpenAI張書曼對我看到你在直播上寫過這個經歷對吧不在直播都是在推特上面在X上面對直播轉了那就是是的是的是的對他當初的這個面試題是一張A4紙他是手寫的鉛筆手寫的一行一行的這個面試題我覺得這件事情對我也是一個很大的觸動我覺得太有意思了這個地方很有意思然後最後其實對當然也有offer了但是最後沒有去OpenAI沒有去OpenAI這就是這個時間線開始對量子力學開始發生了一些變化那時候是2018年所以如果我去OpenAI可能我做的事情你現在是LLM的一員哦Maybe我覺得可能不會對我不知道我不知道會發生什麼但那時候其實想都沒想那時候我就想去Fair如果Fair給我這個offer我一定會去你想去Fair的原因是凱明對凱明、Peter、RossGershick就是所謂的當初的計算機視覺的三駕馬車他們都不是那種很senior的比如說大學的教授或是怎麽樣都是這種中青年吧大概的研究員但就是最頂尖的三個人對他們在那然後他們做的研究就是最頂尖的計算機視覺研究所以對我來說沒有什麽好選的所以當初還挺好玩的就是這個伊利亚给我打电话我什么都没说我就把offer给拒了他们发给我一个offer然后说我不去抱歉伊利亚打电话说什么非常生气然后他问我说你为什么不讨论一下就把这个offer拒了是我们给的钱不够吗多少钱記不太清了其實非常非常低可能幾十萬吧當初的那個pay都是一個頂尖的PhD的學生在208年能拿到的這個工資大概是可能40到50萬左右對美金然後現在已經至少翻個三倍但是anyway然後那個時候openenergy也是這個level沒有什麼問題對但是伊利亞很生氣我也只能搪塞兩句跟他說不能去他生氣會說什麼呢其實也沒有就只是語氣非常嚴厲吧他為什麼要決定打這個電話我不知道說明他確實對招人很用心他沒有被拒絕過我不覺得是這樣在2018年的時候我覺得他應該經常被拒絕因為那時候的菲爾呃不止在微刃我觉得在很多方面对于最顶尖的PhD毕业生来说我觉得都是一个比OpenAI更有确定性更open然后更像一个学术环境的这样一个机构我觉得至少在那个时间点上我身边的所有人如果有这样的选择的话除非他们是确实要做一些OpenAI已经在做的很擅长的这些事情我觉得大家还是会倾向于Fair的你是很順暢地拿到了Ferry的offer嗎?
也沒有那麼順暢啦我覺得也挺對一路都很坎坷你當時拒絕了OpenHire是因為你拿到offer是的是的是的對但在Fair的時候你像我給了一個talk這個talk我當初也沒有任何經驗我覺得所有人在我那個階段好像找工作都蠻有經驗的就我啥也不知道然後給了一個talk本來allocate的時間是一個小時那正常大家應該是講45分鐘到50分鐘然後有10分鐘提問然后我讲了半个小时讲完了然后大家面面相觑不知道该怎么办当然我觉得会有很多下面的researcher给了我很大的面子然后提了很多的问题所以把时间三炮撑到了45分钟然后不至于那么尴尬然后后来凯明跟我讲说大家觉得这件事情第一很不常规怎么能这么快就讲完第二觉得要不以后面试都这样算了半小时讲个talk也挺好省省大家的时间所以有很多時候我覺得我做的這些事情都沒有做到盡善盡美你為什麼那麼快講完了你為什麼不遵守它的規則我不知道有這個規則哦沒有讀我不知道有這個規則你像現在比如因為這個規則其實是一個droptop的規則就是沒有人告訴我這個規則對大家說有這麼一個1點開始有一個top但其實這是一個既定的規則因為在學術界的面試就是這樣然後FAIR在當初其實是一個學術機構它其實是一個大學它的運作的模式其實就是PI帶著一些小年輕不管是intern也好還是一些新入職的同學們也好然後一起做事情並且當初我加入FAIR的時候我可能是我不知道是前幾個可能這個陳欣蕾可能是第一個可能是第二個就是這種FreshPhDgraduate能夠加入Fair一開始他們不招這種NewPhDgraduate的如果只是一個PhD畢業生他們不願意要他們只會招這些像凱明一樣已經做得很不錯的這種研究員所以我也是比較幸運我覺得Fair對確實是那個時候的聖殿了然後所以我覺得我也沒有糾結太多的其他的可能性然後伊利亞這件事情再多插一句我一共就跟伊利亞打過兩次電話這是第一次第二次可以之後再聊也是她是24年7月的時候她SSI剛成立然後她跟我發郵件說願不願意來一起工作你又拒絕了她對這次為什麼呢這次是因為我剛在NIU開始我的工作然後我覺得好幾點吧我跟大家聊的時候我們主要討論的topic這次不是工資什麼的都沒有聊這些事情主要討論的問題是怎麼樣給未來的人工智能給予愛的能力給予愛的能力對討論哲學當然我最後問她了一句話我說你對多麼泰這件事情怎麼看你对计算机视觉这件事情或者你对general的这种感知的模型你怎么看伊利亚的说法是他觉得这件事情已经解决的很不错了所以我觉得可能SSI有自己的基于预言的这样一个路线然后这条路线至少在现在为止不是我想要去设计的路线這是你們底層的分歧就是到底是LLM還是視覺對我覺得之後可以再細聊但是我並不覺得這是一個分歧我覺得這是一個有機體然後大家只是在不同的地方在不同的時間在做不同的事情而已我一直喜歡說一句話是兄弟爬山各自努力大家在各個地方做各自的事情我覺得沒有任何問題不是要拼的你死我活的狀態LM跟我想做的事情不冲突并且没有LM最近的这些发展可能也没有现在计算机视觉现在的这种状态你们那个话题怎么赋予人工智能爱的能力有结论吗结论就是这件事情很重要为什么呀因为如果没有的话我们面临的是一个非常不确定非常危险的未来但是有爱的同时一定就有恨就是他是一体两面他不可能只有爱当他学会了爱的时候他一定会他一定知道他的反面是什么对我完全同意你说的这件事情就上升到哲学命题了但我觉得或者我想反问一句吧就是为什么大家会对自己的孩子会对人这么信任然後對AI這個新的這樣的一個智能的實體會這麼擔心或者恐懼呢我覺得這一年我沒有答案對但我覺得會有技術上的一些可以去把控的地方就我們可以通過技術的手段讓AI能在未來變得更加可信變得更加安全變得更加controllable可以控制然後其實這件事情側面也是為什麼要做世界模型他為什麼想要找你不知道可能他reachout了一千個人一萬個人吧我猜對我们那天在一起等餐厅排队的时候其实我们在纽约的街头一起走了走我们的话题很自然的就延展到了那些对你非常重要影响过你的人就是刚才在你的分享里面其实人这个因素占据你的很多选择的非常大的比重为什么人对你来说很重要而且你的那个自己的个人简介里面也清楚地写出来了哪些合作者对你来说很重要这个非常少见为什么人对你来说这么关键這件事情少見嗎我覺得一點也不少見我覺得這就是一個在學術圈裡面大家的一個行為的模式吧我覺得大家會有這種組織起來這種社交網絡然後這些人決定了你的認知因為他們可能是你的學生他們可能是你的老師對吧但是不是說老師就一定教導學生有時候也是學生反過來教導老師的所有這些事情都能成立所以它是一個巨大的一個graph然後人與人之間全都會被聯繫到一起然後我覺得這也是為什麼research或者science這件事情特別奇妙的一點因為我覺得很多時候人與人的這種這種彼此的信任彼此的欣賞彼此的這種感受吧我覺得不是通過比如大家非要生活在一起然後做朋友這樣建立起來的很多時候其實是通過scientificdiscovery這種research的部分建立起來的人與人的關係我覺得這件事情其實是非常有意思的比如說對我很深印象的人那我可能了解他們的個人當然我也會嘗試去了解他們的個人對吧但這個對我來說不重要我似乎在透過他們的論文了解他們的想法然後我覺得這才是research的意義就我覺得research的意義不是為了發論文我不認為發論文是這件事情的一個目的完全不是這樣目的應該是目的是什麼呢是對人的有利嗎我覺得凱明跟我說這個目的是其實它的本質的意思是要把這個把knowledgeshare出去就是你發的論文的目的不是給別人看的是為了讓別人看到這個論文之後別人有事情做就是你发表一篇论文别人understand了一些其中的内容然后大家会觉得我自己的视野被打开了就是对别人有帮助对能够inspire别人或者说能够启蒙别人这个是research的目的我觉得这是research的目的或者说一个更浪漫的说法其实是说这句话是这个哈娜阿伦特说的然后她说我不在乎什么impact我不在乎影响力这件事因为其实在research圈子里面大家会说我们发paper的目的是创造某种impact对吧其实在我字典里面我其实是有点对impact这个词是有抵触的抵触有一点抵触为什么呀你抵触它的是什么Again就是说这个阿伦特他说的说法是说他说他觉得impact这个词是一个过于aggressive过于男性化的一个词对他来说他做这些事情的目的不是创造impact而是为了理解本身他觉得如果能够理解到一个事情这件事情的感觉是很奇妙的如果你能把你理解到的东西写下来不管是一篇文章一篇论文也好传播出去那你就能够有可能让这世界上更多的人对这样的一个问题有跟你一样的这种理解然後這件事情會一步一步的傳導下去形成一個很大程度上的某種共鳴然後阿倫特的說法是他會在這之中找到一個家人的感覺他會覺得自己理解了一件事情告訴別人讓別人能夠被理解說明這些人也一定程度上理解了我但我覺得人作為這個社會上的生物是需要被理解的他把影響力這個詞用了一種非常柔軟的方式表達了出來是在謀求理解我覺得是你更贊同這個說法我覺得很贊同他因為我覺得對我覺得創造impact這件事情沒有問題他特別以我為中心我要創造impact對以我為中心並且是對你說非常對我要創造這個impact我要改變這個世界但這個世界的人同意我這樣改變它嗎或者說這個世界上很多的災難其實是因為大家要創造impact要去改造這個世界所帶來的對我覺得這件事情我會傾向於統一這種更柔軟的表述我覺得如果能讓在這個世界上的所有的人因為我們做的研究能夠對問題多了一層新的認識多了一層新的了解那這個地球上的智能總量就會被提上去但地球上智能總量提升這件事情永遠不是一件錯誤的事它永遠是一個對世界來說有利的事不管是impact也好還是被更多的人理解也好你希望被更多的人認識和記住嗎你對這種fame是有需求的嗎我當然沒有這個需求了你沒有這個需求但我覺得我沒有這個需求真的嗎或者說我站在我現在這個角度我其實是這個某種虛假的fame的一個受害者原因是現在大家會把我們的一些論文放到小紅書上去議論然後其實這件事情沒有一個或者說大家說所謂什麼三大會然後要宣傳工作對吧我從來沒有一次要求過任何一家這樣的媒體去做這樣的宣傳然後我跟我的學生說你們千萬不要去什麼去小紅書啊去什麼知乎去宣傳自己的工作你可以去解釋你的工作你可以去評論你的工作沒有問題不要去宣傳自己的工作為什麼在X上是可以的呢我覺得X上面更多的還是看怎麼叫做宣傳吧我覺得我更focus的東西還是說把這件事情稍微擬煉總結然後告訴大家是怎麼回事更有點像吸引大家去看我的這個工作我覺得這件事情沒有問題但我說的宣傳更像是你說的fame這件事情因為我真的很不能接受的事情是大家現在會說某某某團隊發表了什麼什麼工作會強化那個人的某個人的團隊會強化這個人對如果有小編們聽到這件事情的話希望大家以後能夠不去說這件事不能寫現在你團隊上不要把我的照片放在上面不要把我的名字放在上面我們需要更加鼓勵年輕人真正做出這個工作的人讓他們有更多的visibility對吧那大家可能會覺得你是一座maybe對如果我是一座的工作沒問題啊但我不是一座對吧我只是這個團隊的負責人然後很多這些工作都是學生做的對那應該叫什麼呢不叫謝讚頂團隊就事論事就好講這件事情解決了什麼問題然後它為什麼重要我覺得就夠了對但我覺得這件事情你不討厭被別人拿出來當靶子是嗎對啊因為我覺得這件事情會增加增加很多的風險吧我覺得對那你來講那些影響過你的人吧其實剛才我們已經講過幾個人了凱明吐教授還有嗎是我覺得對吧這個是在費爾那其實可以順著費爾往下講那就是說費爾結束之後那我就來NYU了我覺得這又是一個decisionmakingpoint費爾也待了四年呆了四年整对是的是的也是起起伏伏对我刚刚说我很多去的地方其实都跟这个地方共同成长可能菲尔是一个例外我去的时候是他的顶选是高点可能是高点对然后现在对也很可惜吧现在在那里发生的事情但我覺得因為我跳船跳得比較早所以我也不是在他這個谷底的時候才離開對我覺得我也是看到了一些跡象對OK然後但是對然後我覺得如果說影響我的人的話那在這個過程中去NYU的時候我覺得這又是一個蠻玄學的一個決策的過程對吧然後那個時候其实决定去纽约我刚刚其实也说了是因为可能我会比较喜欢这个城市然后但我觉得另外一个很重要的事情也是因为Yang在这儿YangKun在这儿为什么他在这儿你愿意去你们在Ferris公示过他會他經常會說他有recruit我就是招了我三次對吧然後第一次是在Fair但那時候是因為他是這個Fair的總的負責人他是這個Fair的director我沒有跟他直接的共事對但也當然也受到了他的影響或者長期以來有交流嗎有交流有聊過對但沒有直接的合作過然後去NYU是第二次第三次我們可以之後再聊然後在NYU這段經歷也是我覺得為什麼他在這非常重要也是因為我覺得他是一個非常有vision的這樣一個人所以对我觉得还是很多很直觉的这种决定比如说NYO的教学楼我们叫做CenterofDataScience是所谓的这种数据科学中心这件事情其实是亚洋牵头在过去十几年之前就设立了这样一个组织对它独立于比如说传统的计算机系或者数学系之外它是一个新的这样一个department所以我們有一棟新樓然後第一次我踏入這個樓的時候我就覺得感覺很好因為完全都是玻璃門對之後有空的話可以帶你過去看看它都是玻璃門所有東西都非常非常open學生有點像公司但是然後配色又很好我剛一直說我是一個視覺動物就這個裡面有這種暖色調的然後橙色的這樣一個floor然後有各種沙發然後大家雖然很混亂有各種各樣的機器人在地上跑來跑去然後有各種各樣的學生在這個沙發那個沙發然後坐著學習然後沒有任何隱私毫無隱私可言所有的教授的辦公室的玻璃門看得清清楚楚裡面發生的事情但我覺得這個很有趣這個環境很有趣現在其實越來越多的美國的學校開始有這樣的effort就是說我們希望有一個這種interdisciplinary就是跨學科的這種中心通常來講就是說這種AI的這種中心然後通過它來吸引人才通過它來把不同的院系組織到一起因為AI確實承擔了一個這種中間層的這樣一個身份和位置連接大家連接所有人不管你是做科學的做物理做化學然後做數學做統計商學院然後包括當然計算機科學我覺得AI是一個很好的中間的節點但一樣的遠見在於他十幾年前就把這件事情已經establish起來了所以我覺得他是蠻visionary的一個人對然後所以NYU在AI的佈局上面也很好所以其實Again我覺得計算機系不是它的這個學校的強項但是它有很多AI的人才儲備對它匯集了很多很厲害很厲害的AI的這種facultyLeCun是你選擇NYU的一個原因這也是我覺得有很多很多原因她是其中之一因為她需要面試我然後她需要最後拍板對或者說是她選擇了我重要的人還有其他人嗎我覺得還有啊比如說在NYU的這個時間然後我還跟很多其他的老師也有合作然後對我影響我覺得很大的一個人也是可能菲菲老師吧對我覺得李菲菲老師他寫的那本書大家一定要看一看對就是他的自傳然後我也讀過但是我覺得跟他深入交流下來我覺得我的收穫又更大對然後或者說有時候我會跟他說我遇到我面臨的這個困境和challenge然後飛老師會很語重心長的告訴我他過去的一些故事然後這些事情其實對我是一個極大的安慰比如說什麼樣的故事具體的事情可能就不方便講了但是總之是他一路成長起來其實也不是一帆風順他也是有需要踏遍很多的荊棘然後一步一步克服很多的障礙然後到現在站在這種世界的舞台上變成一個華人驕傲或者說變成整個這種research領域計算機視覺的一個北極星讓大家能夠看到他想的事情然後能夠在某種意義上制定一些新的這種路線吧我覺得這件事情對他對我的影響都非常非常大然後我覺得菲威爾老師最厉害的点在于他是一个能够定义问题的人就这件事情其实也不是一个很直观的事情就是说其实大家说这个飞飞老师最厉害的成就就是BuildImageNet这个Dataset但事实上这个不只是一个Dataset这个不只是一个数据集大家可能很難想像可能在過去這個時間點對吧然後比如201年或者201年的時候圖像分類不是一個明確的問題就是把這個問題定義清楚遠比Build這樣一個數據體要強得多得多要重要得多得多然后我觉得飞飞老师就是说set了这个agenda把这个问题定义清楚使得接下来deeplearning可以有一个playground有这样一个平台可以去施展拳脚我觉得这件事情是他最厉害的地方也是我一直想要学习的地方對所以我跟他做了有兩篇工作一篇是ThinkingSpace然後這篇論文主要也是在涉及到這種多默態的語言模型裡面怎麼樣去解決更好的解決這種空間智能的問題然後最近我們又有一篇paper叫CambrianS然後這個論文也是涉及到事情是說在視頻裡面我們怎麼樣去定義問題到底哪些問題才是重要的我覺得這一部分跟他的合作也幫我拓展了我研究的邊界菲菲老師是怎麼跟你熟識的呀都是很機緣巧合的機會吧他有一次來紐約出差然後我們就一起吃了次飯然後跟我講了很多很多東西對然後後來他經常會來紐約然後因為他也在創業嘛然後我們會經常一起聚一聚然後聊一聊對大概是這樣然後平時我們會在research上面會有一些meeting我有一個好奇我想可能也是很多人對你的好奇就是你是怎麼樣從一個非常年輕的開始做學術的研究者然後慢慢的能夠和這些AI業內赫赫有名的人走到一起並且站到一起的也就是說你是怎麼走進AI的核心的呀我還是不覺得我在AI的核心或者走進AI的核心吧因為你剛才說的這些人肯定很多人都很想跟他們合作是嗎當然是了對我覺得而且你看你們都是一些機緣巧合可能凱明是剛過去你作為intern讓他打開了自己然後飛老師是你們也就是吃了一頓飯你是怎麼讓他們打開自己的呢我覺得這件事情很難刻意的做到或者說這件事情也有點玄學我會覺得你可以叫它某種吸引力法則或者說你可以認為大家想法一致的人最终都会聚合在一起虽然你可能有无数的小西但最后可能都会汇聚到一条河流上我觉得比如说我上述列举的所有的人他都至少是做vision的或者说或者即使包括Young他可以认为是做generalAI但他出发点对吧也是做这种数字的识别这件事情也是一个视觉的问题对我觉得大家的這個根基還是非常非常非常非常吻合的所以我覺得我真的沒有刻意讓這些事情發生或者說我覺得也不需要很刻意讓這些事情發生吧大家只是基於這些research的問題然後對這些問題的理解然後一起合作我覺得我會這麼認為定這個問題就是從外部看我覺得你是一個很有目標然後很有邏輯的人但是剛才通過我們聊我發現你是一個選擇上還蠻無序的人對吧對我覺得有一點無序但我覺得這也是一個所謂的bydesign的過程就是我覺得我選擇這樣的無序我覺得用這個很老套的說法就是followyourheart對吧但我覺得其實很多時候對沒辦法就或是說我的很多選擇沒辦法真的優化一個結果我覺得這是無序性的來源那在這個麼無序的選擇之中你能把你的這個所有的研究的歷程串成一條線啊刚才其实我们已经讲了几个工作了是的我觉得我们可以一点一点去讲吧我觉得确实一个好处是我也没那么多paper所以也许可以比较容易的去串一串然后我觉得确实我觉得不能说是这个草蛇灰线吧但也确实有一条线在背后对指导着我一直做这件事情或者说其实说这些论文之前我想说其实计算机视觉发展了这么长时间我有很多朋友其实大家开始慢慢去探索新的方向比如说去做一些Robotics然后做3D的视觉我其實也在嘗試向外擴展邊界但回過頭來會發現這條主線上我覺得這條主線對我來說就是表徵學習這件事情上有太多的問題沒有解決所以我希望停留在這條主線上往前拓展我們所做的事情所以我覺得這一切的起點可能如果往前述的話當然是涉及到deeplearning涉及到deepneuralnetwork這些architecture的design我覺得這一部分當然跟你的表徵學習是有關的然後這也是我覺得在過去大家努力的一個方向吧也不只是我對吧然後所有的人大家都在做這件事情怎麼樣去design一個更好的architecture使得我們能夠去學到更好的表徵使得我們能去解決更好的解決問題對吧然後再到後面其實我覺得事情就會發生一些變化我們就發現其實Architecture本身不一定是最重要的它一定很重要但它不一定是最重要或者說它不是事情的全部所以至少有好幾件不同的事情會交織在一起對吧architecture是一個事情就是你的架構是一回事然後你的數據也很重要然後還有就是你的objective你的目標也很重要對吧我覺得架構決定了你用什麼來訓練我們可以想像這件事情是你有一個巨大的引擎然後那你可能引擎的這個硬件其實就是一個neuralnetwork的架構但是你只有這樣一個引擎的架構其實是沒有用的你沒有油你沒辦法發動它對吧所以有數據層面跟有這種objective層面這種目標函數層面的這種考慮然後所以我之後的這些research其實也是按這條主線對表徵學習的主線圍繞著架構數據objective往前走然後那其實在FER的過程中我覺得FER這個正式工作fulltime工作的這個過程中我覺得一個核心是我跟凱明一起然後凱明在立的一些這種自監督學習的這樣的工作对然后其实again现在大家会说这个scaling是一个是一个是已经是一个buzzword就everybodytalkingaboutscaling对吧但其实第一个人真正有人跟我说我们要做scalable这样的model就我们需要把模型做的大大大啊这是凯明的原话大大大哦对啊是是凯明告诉我的对哪一年告诉你呢呃就是大概可能18年19年這個時間對然後所以他從一開始對這件事情的認定就是說我們一定需要把模型變得更大把數據變得更大這樣就能夠得到一個啊就能推演到一個更好的結果我覺得我覺得凱明很早很早之前就有這樣的一個vision嗯所以我們也在這條路上有一些努力吧所以我覺得一開始大家討論自建中學習包括YannLeCun他是一個bigadvocate就是說他是非常在乎自建中學習他有經典的蛋糕的analogy這個比喻底層是你的蛋糕的body這部分必須是selfsupervisedlearning在上面你可以有一個supericelearning對吧這一部分是它的icingonthecake就是你蛋糕上的這些奶油吧然後再往上有一個rainforestlearning它只是cherryontop它只是最上面的一點櫻桃這個蛋糕上面的每一層其實都很重要但是它沒有主次之分如果你沒有蛋糕的這個底座你是沒辦法只靠這上面的一個cherry能夠通向這個智能的對,所以因為我們在Fair,因為我們做Vision所以其實我們很早就在關注這件事情但這一部分research進程是這樣就是說大概在15年16年的時候大家已經開始知道自監督學習其實是Vision的一個未來所以那时候大家会设计各种各样的我们叫做pretaxtask或者说它是一种代理的这种objective代理的目标就是一些代理任务吧就是说什么是自监督学系呢就是说我现在没有一个label直接给你对吧不像ImageNet一样我有一千个classes那我可以直接去训练一个supervisedclassifier然后通过这种方式拿到这个representation在过去的时代其实大家做的都是这件事通过一千个classlabelbytheway这一千个class里面有两百个狗的不同的种类即使这样这是为什么ImageNet这么强对吧即使是这样的分布它还是能让我们的神经网络学到很好的表征我觉得这件事情非常非常厉害但是大家也能看到这件事情的局限性一旦你所有的事情都只是supericelearning很多东西你是没办法去刻画的因为他学到的东西比如我们现在坐在这里我们看有这些椅子对吧然后我们现在有大量的这些图片有不同的椅子有些椅子可能比较正常是在我们这种studio里的椅子有可能是在家里的椅子有可能是一些这种设计师的椅子或者说是一个avocadochair一个长得像牛油果的椅子那對於監督學習來說你需要把所有的這一切映射到一個Label這個Label就叫做椅子所以你的Network其實要學的這個映射其實是非常非常困難的而且它是無窮的映射它是無窮的映射所以它只能要麼去Memorize要麼去記憶背誦下你見過的所有的椅子你背給它所有的椅子要么就通过一些我们叫做spiritscorrelation就是一些假的一些相关性来告诉你是一个椅子比如说他也许没有看这把椅子但是看的是椅子背后的背景然后或者说他觉得所有的椅子都会在一个桌子旁边所以他基于这个来有一个决策的分界然后说这是一把椅子但这件事情不是我们想要的我们想要做的事情是从这种非常diverse的viralknowledge里面viralobservation里面去能够有某种commonsense有某种这种直觉直觉对或者说某种常理对所以这是一开始大家为什么想要做所谓的softsuppliedlearning和unsuppliedlearning一个常见的过去的误解是因为是说我们要做unsuppliedlearning是因为给这些数据打标签这件事情太难了太贵了我们需要雇人需要去打Label花錢花時間我們不想這樣做但這只是其中一個很小很小的問題大的問題是在做計算機視覺的人看來很早之前大家都知道只通過這條路徑是沒辦法給予AI系統這種commonsense的所以156年的时候大家非常非常有创造力那段时间其实还是一个蛮有创造力的时代大家会设计出来各种各样乱七八糟的任务这些任务比如说你把一张图转个90度或者转180度或者转270度你不给这些图一个标签但因为你设计了怎么转这些图然后这些图以及它所旋转的角度可以形成一个validprotecttask你就能够去预测这些被转过去的图到底转了多少度这就变成了一个所谓的一个代理的任务类似的代理的任务还有包括给一张图然后我们把它变成一个灰度的图把它的颜色全去掉但是我要通过一个神经网络去重构我原来这个颜色相当于从一个灰度图怎么去predict怎么去预测每一个object的颜色到底应该是怎么样然后还有类似的例子数不胜数比如说还有另外一个最后一个例子再举一个例子所谓的contextencoder就是说我现在把图中间挖到一块把它变白我现在怎么样去训练一个神经网络然后去把这部分的空给它填进去所有这些pretexttask的依據都是說我們現在覺得人其實這件事情是可以做的人之所以能做這件事情人之所以知道你這張圖片到底是轉了90度還是180度你這張圖片上面的一隻蝴蝶一個房屋到底是什麼顏色或者你可以去預測中間缺失一塊的信息這些事情是因為人有基於對於這個物理世界的某種認知他有這個commonsense所以他就能夠去猜出來這些被cropped的這些信號被已經損失掉的信號應該以什麼樣的方式被重構出來被遮掩的信號對但當初的問題是百花齊放有各種各樣的paper然後但是沒有一個能打的所有的结果都其实很差都比imageNet的这种pretraining要差大概可能15到20个百分点所以大家在make一些progress大家在一步一步往前走但是这个距离imageNet能够通过这种supervisedlearning在largescale这种data上面学到的这种有label的情况下学到这种representation还是差的太多太多所以我們當初做了一件事情然後這個跟凱瑩一起做然後這個架構叫做MomentumContrast動量對比學習对动量这中文名字听起来都很有趣对是的是的当然对比学习其实我觉得其实不用深究它里面具体的这些技术细节因为现在看起来已经很多东西已经不重要了但它总之它是第一个把这种叫做对比学习的这样的一个框架把它真正做work的一篇论文然後什麼是對比學習呢也很簡單就是說我們現在在這個表徵的空間裡面有不同的點這些點可能是同樣的一個object有可能是完全不一樣的object比如說我有好幾張關於這個椅子的圖片然後也有一些可能是桌子的圖片或者是一隻貓狗狗的圖片这些图片都不一样但在这个空间里面我们能够去度量它们的距离或者说我们知道这些所有的不同的椅子它的这种图片应该离得更近它的representation应该离得更近但是一个椅子跟一只猫它们的距离应该更远所以這就是一個對比學習的一個基本的一個邏輯然後這件事情其實也不新這件事情其實也已經做了很多很多年了然後bytheway這件事情初期的一些論文其實還是楊武空第一個跟他的學生一起做到的很有意思當然在解決的問題不直接是representationlearning的問題而是一些metriclearning的問題一些一些度量學習的問題但是没关系在这个大概是2019年的时候我觉得我们又赋予了这个对比学习一些新的意义当然这件事情也不是這個橫空出世其實在之前整個領域已經慢慢在往這個方向去拓展比如說有一篇paper叫做CPC還有一篇paper叫MemoryBank這兩篇paper已經是在朝這個方向就是通過對比學習來做自監督學習這條路線上已經走了幾步然後這時候就不得不佩服凱明的本事了我覺得這也是一個時間點讓我覺得一個頂尖的研究員或者說我覺得不能說頂尖的研究員吧我覺得凱明在我心裏面就是最牛逼的研究員然後他到底平時是怎麽做事情的我覺得有好幾點吧我覺得也許我們可以簡單聊一聊我覺得他是有某種極致的專注力然後這個專注力能夠讓他有某種心流叫做這種mindflow對吧他能夠沉浸在這個問題上不需要考慮這個世界上發生的所有的其他事情然後我覺得這件事情我特別特別佩服然後另外一件事情是他專注會怎麼體現呢我覺得他專注體現在他每天除了這一個問題之外不會想其他任何的東西他會抓著跟他一起合作的人去聊這件事也會抓著其他人去聊這件事反正就是這件事情是一個他思維的這樣一個主體然後他大部分的這種mentalcycle都會被allocate到這一個具體的問題上這個是很難的我覺得非常非常難因為念頭很多時候自己很難控制是的这个跟世界模型也有关系念头很难控制这个话说的好但凯明其实是一个非常有这种决策能力然后能够专注的人其实我觉得有好几点吧我觉得一个popularresearcher他们都或多或少需要这样的能力他们需要有足够多的专注力他们需要有足够好的这种research的品位这个怎么定义我们等一下可以聊然後他們還需要能夠有一定的堅守就你不能說只是隨波逐流然後去做別人感興趣的事情然後當然你還需要有很強的這種工程的能力researchthescience包括你看文獻的時候你知道哪些事情重要哪些事情不重要這個很重要對你也知道就這件事情其實也是一個學術界其實蠻莫名其妙的地方就是大家你要會畫重點對主要的原因也是因為大家不講重點有時候要麼是大家不會講重點要麼是大家有時候不願意講重點要麼是有時候大家其實沒有意識到重點是什麼但凱明的能力在於他能夠把這些重點抽絲剝繭然後提取出來然後告訴你然後建立這種在這種高緯度的抽象空間中的這種聯繫我覺得非常非常厲害對所以很多時候其實凱明的每一個idea不是坐在這個backoftheroom對吧然後在家裡面拍腦袋想出來的然後其實是基於不斷的探索基於大量的閱讀然後基於大量的思考一點一點衍生出來的然後這件事情其實我覺得真的是非常深刻的影響了我做研究的方式以及我現在跟我的學生說大家應該做研究的方式是應該增加輸入增加輸入並且我覺得這裡面其實是有一個範式存在的就這裡面範式這也是凱明教育我的對吧他就說其實這些所有的idea你不能坐在那想因為如果你要想出來一個idea这个idea一定不是一个好的idea这个idea无非有几种可能性第一种可能性你比世界上所有的人都聪明所以你想出来一个特别厉害的idea其他人什么人都想不出来但我觉得这件事情概率极小所以更大两个可能性是第一在你想这个idea的同时这世界上一百个人一千个人一万个人在想同样的idea所以你要面临跟他们竞争你的手速可能不一定比他们快第二个可能性这是一个非常差的idea别人已经试了很多次了不成功那你可能也没必要去试下来所以我觉得凯明对我的最大影响是他教会我怎么样找到一个researchidea嗯怎么找我觉得这是一个求索的过程所以现在我有新学生进来我会跟大家说一个research的周期当然我希望它会更长一些了但是在现在的这种竞争的环境下面可能最多有6个月时间也就是说从6个月一开始你要开始想一下idea然后再到后面你要把这个idea写成paperpublish出来这个整个的周期大概是6个月然后这个流程是怎么样的呢是你需要有一个general的方向你得知道你要干嘛你也不能完全什么也不知道然后就说我要做research也不行这件事情可以通过跟你的老师一起去聊然后或者说跟你的peers对吧你的周围的同学一起去讨论或者你自己通过你自己的阅读有一些general的这种direction这种方向性的认知对吧然后但是一定要给自己足夠多的時間跟空間去explore然後這個explore這種探索期我覺得至少要有一個一到兩個月的時間探索期應該做什麼呀探索期好問題探索期做什麼事情呢不能坐在那想問題你要探索的事情就是說我現在要不斷的去hack一些東西就是你要真的像一个hacker一样去playwith去玩一些东西就把research当作一个游戏当作一个玩具去玩这个东西比如涉及到比如你可以去推一推公式你可以去读更多的论文可以找一些联系当然可能更重要的事情还是要动手去做事去写代码然后但是你写代码的时候要注意的是你写的代码不是一开始你的出发的这个idea或者这个direction而是一个探索的过程所以你写的代码可能是简简单单reproduce一个baseline对吧拿一个别人的paper在做的事情然后现在我们把它重现一遍然后还有可能是在这个baseline的基础上去有一些某种拓展然後這一面最重要的事情是要找到一個信號就是說你現在還是你剛說的有點像所有這個決策的過程其實是一個蠻無序的一個探索的過程它是一個我們叫做隨機梯度下降對吧這是一個所有機器學習的基石但它同樣applyto這個research本身以及我們的人生就是大家在追求這個最終目的的過程其實都在進行一個stochasticgradientdescent的一個過程然後我覺得research的部分也是一樣對你來說對research最重要的事情不是从A点通到B点比如A是一个ideaB是一个paper而是这个过程中你到底能找到什么样的signal你的gradient你的梯度到底在哪对所以这个这个凯明的说法是这个梯度本身这件事情才是你真正的idea的来源就是當你經過不斷的探索你試了很多東西有可能不成功有可能成功Bytheway不一定是一個成功的實驗才能給你這個提督有時候一個錯誤的實驗會給你更大的提督對吧就是說你只要最怕的事情是你不知道往哪走所以一个好的结果一个坏的结果都是好的结果对于researcher来说一个surprise一个令人惊讶的这样一个observation永远是对一个researcher来说最最幸福的事情你观测到的东西你看到的某些意外所以他说就是经过这样的探索之后在这个过程中你发现的这些idea才是真正属于你的idea一開始你想的這個idea不是你的idea這個東西不屬於你探索中的idea才是屬於你的idea然後research過程就是找尋屬於你自己的這個idea的這個過程但這個詞你要看到它是屬於這個東西真的是你自己的就是上天給了你一個靈感注入了你的腦袋裡對一方面上天給你了一個靈感另一方面他又是基於大量的實證跟實踐得到的對吧他這裡面沒有freelance有可能你真的是一個天才或者說你真的極端走運上帝握著你的手寫下了這個公式有可能發生大部分時候大部分的進展甚至大部分對這個領域產生很多影響的工作我覺得還是一步一步發生的總能夠追根溯源找到它的起點所以我也跟學生說其實最差的research是什麼樣的research就是一開始你定义好的一个问题你说这是我的idea最后你发了一篇论文这个论文的idea跟你一开始想的idea完全一致你没有遇到任何的障碍你没有遇到任何的困难它为什么是最差的因为这件事情说明你的这个idea是一个boringidea你发表论文也是一个boringpaper对我觉得这件事情我这么多年观察下来确实非常非常准确对所以我觉得这件事情也是为什么要跟学生说呢就是因为大家其实有时候没办法接受这个事实大家总会觉得我一开始应该想到一个小妙招然后我现在实现它把它做work发一篇paper我成功了我moveon去做下一件事情但这件事情能够给个人的积累其实是非常非常有限的探索的過程其實非常難很多人不會探索而且這是為什麼所有這些論文在我看來都是非線性的這個非線性體現在兩點第一點是你六個月的時間然後到第五個月的時候比如說我剛像跟你說這個restnext的這個story對吧一方面大家聽起來哇你最後一個月的時間重新改方向把這件事情做好那這個時間週期這麼短你竟然能做成這件事情好像聽起來很不可思議但你知道這件事情發生的太多了之後我發現這件事情真的是有跡可循的你經常是這樣我經常是這樣或者說我最好的工作都是這樣發生的那你前五個月怎麼保持自己的心態那就沒辦法你得要接受這個事實你得要能夠告訴自己這是一個常態化的研究的過程那前五個月你會想到換一個方向嗎我可能去選那個BoringIdea我覺得會方向而且換方向這件事情非常非常重要就是你一定要學會pivot因為我剛說最差的工作是你一開始的idea就是這個idea最後的pivot也是這個idea最好的工作是你在這個過程中已經彎繞然後跳來跳去走了很多很長的路才走到這個節點這條路雖然非常崎嶇但你總能從最後的終點一步一步找尋回最開始的起點最後才能把它連成線但是你在過程中是不行的是的你在過程中我覺得你在過程中因為你不知道嘛你無法預測未來對所以這永遠是一個探索的過程所以我覺得有兩個月這樣的探索逐漸形成一個idea然後逐漸去拓展然後去scaleup對吧然後把時間補充分這個東西可能再花個兩到三個月的時間到最後把paper寫出來然後花一兩個月的時間這是一個已經是一個非常非常順利的一個research的流程然後我覺得這件事情Again我覺得在現在這個時代面臨著很多的challenge大家會受到各種各樣的壓力對吧我覺得現在的競爭壓力太大了然後我覺得會讓大家覺得一定要追趕最前沿的東西然後把事情儘早的做完搶佔先機把坑佔住對但回过头来说我觉得就像我刚刚说的我觉得菲菲老师最厉害的地方是因为她是一个能够定义问题的人如果失去了定义问题的能力基本上也丧失了很多创新的能力基本上也丧失了做research的能力而且这件事情我觉得我刚刚说research的非线性这是时间上但从结果上来讲其实也是非线性的就是说这个事其实是MIT的教授BillFreeman他有一个非常经典的这样一个plot就是一个illustration这样一个插画他经常做talk的时候会讲就这个插画有一个横轴一个纵轴横轴的起点是一个很差的工作一个还不错的工作一个非常好的工作一个非常非常厉害的工作这是他的横轴它的纵轴是对你的整个职业生涯的影响这篇论文对你职业生涯的影响所以你可以猜一下这个curve到底应该是怎么样的对吧它不是一个linear的curve它不是说一个很差的工作就对你比如职业影响可能很差然后到最好的工作或者说比较好的工作已经给你很不错的这个回报然后一点一点往上是一个线性的过程那不是线性的它是说基本上你一個很差的工作其實也不會怎麼傷害到你沒人會注意還不錯的工作也沒人注意能給你帶來的收穫也很小但是有時候你做出來一篇非常好的工作特別厲害的工作每個人都知道的工作你的這個impact對吧我好像說我不喜歡impact這個詞到頂點了這個東西以下就會衝到頂點對吧所以說我們經常說學術界裡面大家衡量的是所謂的代表作或者說另外一個說法是說大家optimize的目標不是一個average不是你所有之前的工作的一個平均而你optimize的東西是你的工作的一個max就是它的上級最高點我覺得這件事情也體現出來research這個遊戲的一個非線性的特徵所以最高點是好還是不好當然好啊就是說你這輩子只需要成功一次就好然後這件事情其實我之前CEO的時候給了這個talk我叫Research這個無線遊戲對吧這件事情大家反響還是蠻強烈的其實我覺得很少給這種nontechnical的talk因為這個東西更多的是一些哲思跟一些總結吧Research經驗的總結對然後但裡面其實也包含了我上面講的所有這一切因為你想其實research這個職業一個researcher這個職業它的本質到底是什麼它不是一個下棋的棋手它也不是一個現在冬奧會的一個運動員因為對於一個棋手和一個運動員來說你最後的成就取決於你最差的一步Tosomeextent你要保證你的每一步你的動作得要標準你如果中間出了一點差錯對吧你下棋中間出了一點小錯落子錯了一次就輸了你就輸了對吧所以這是一個遊戲在這個過程中總有贏家總有輸家但Researcher更像一個發明家說你這輩子真的只需要成功一次就夠了如果你足夠信任你可以成功幾次兩次吧但你不需要成功一百次兩次就到頂點了是嗎我覺得是的所以我覺得這件事情其實挺好玩的所以我覺得整個這領域慢慢往前走我覺得也需要反思吧我覺得現在原来的学术界其实它的社会责任也好或者说它在整个这个research的这个landscape下面定位也好都是制定这个游戏规则的人都是制定接下来我们去哪的人对吧现在完全不这样现在制定这个去哪的人是是OpenAI是可能是Google或者是Meta或者其他各个大厂对对吧他们是有限游戏的他們彼此之間是有限遊戲但導致他們把學術界也帶成了一個有限遊戲的這種決策的這樣一個鏈條對吧所以你就會看到很多時候大廠發一個工作不管叫它什麼O系列也好GPT什麼系列也好Nanobanana系列也好一個特定的這樣一個工作一個產品的Launch緊接著學術界的所有人都會蜂擁而至然後說我們怎麼樣在這個範式下面用這項叫PeanutsofResources就像花生米一樣少的這種資源然後嘗試去追趕追趕Whatsthepoint對吧就是確實有這種追趕或者說可能大家也不相信自己能大家可能也對你說的對就可能也追趕不了所以就變成了某種某種意義上的付現或者在它上面通過一個我覺得這樣的research的過程其實是非常非常痛苦的因為我還有一件事情沒說是因為我在NYU的最近兩年其實我還在Google兼職做parttime然後這件事情持續了在NanoBanana團隊對在NanoBanana團隊然後就是戰略AI裡面的團隊然後這件事情持續了兩年所以不知道當講不當講我可以有時候跟一些朋友說我之所以去Google做這個工作原因是我想看看Google大家在做什麼這樣我就知道我在學術界不做什麼哦就是我要知道你們在做什麼所以我不做什麼因為如果你在做這件事情的話我為什麼要跟你一起做呢makesense啊因為他有更多的資源啊他有更多的資源沒有必要再跟他捲了是的是的是的所以這也是一個指導我們對這個我不想太跌溫啊bytheway這個disclaimer這些我所有的東西只是基於我在NYU一個不那麼成功的這樣一個經驗的一些分享完全不代表這個世界research的多元性跟複雜性而且回過頭來,橫向我們還可以說我覺得有些paper我確實想跟大家分享一下但回過頭來說我覺得我並沒有做出一篇我認為真的有價值的工作你說這句話就是為了告訴大家我還沒有到最高點我還沒有到達那個max你說的對我還年輕還可以再努力努力但確實是這樣因為我在想這個問題我想可能有大概20篇左右吧20、3篇paper然後深遠的影響了整個深度學習跟AI的進程那這個世界有20篇paper或者25篇paper吧那我一片都沒有我還有什麼理由不繼續努力繼續做下去呢我覺得這是一個目標DIT不算嗎我覺得算0.25吧或者說DIT更像是在這個Research的边界的切线上面往前push了一小步这件事情不是我们做也会有其他人做它没有completechange属于你对它没有完全属于我你说对对是的是的对但这些或者说我觉得DiffusionModel当然算对吧包括可能DDPM算对然后我不知道我們也許可以列舉一下我覺得這個可能還蠻有意思的我覺得LeNet算我可能數不全啊我們隨便數一數就是影響過AI進程的論文對吧對或者說我覺得在我看起來這件事情是能真正稱得上代表作或者說我差的还很远的这些工作对吧然后我觉得LeNet当然算AlexNet当然算然后ImageNet当然算RestNet当然算这个RCN或者FastRCN这个Detection的部分当然算这个凯明已经好几次然后还有什么然后Transformer当然算Tensionisallyouneed当然算GPT3当然算BERT当然算,我觉得CLIP也算,VIT我觉得也算,对,VisionTransformer我觉得也算,还有GAN我觉得也算對數不全大概是這些level吧包括3D裡面包括NerfGaussianSplotting我覺得都是算都會算對所以各個領域吧都有他們的這些工作這些工作的意義在於大家本來是漸進式的通向一個方向突然有这样的一个论文横空出世彻底改变了我们刚刚说这个StochasticGradientDescent的过程所以你看它的收敛的曲线有一个drop这是我定义的这件事情然后我觉得那假设这个慢慢的历史长河是说这条曲线还在继续往前对吧有一次一次的这种让大家不管是跳出之前的LocalOptimal还是进入下一个阶段这样的这种论文的出现但是我觉得还差得很远这条路还远远没有收敛我觉得之后还有很多事情可以走我希望我觉得不需要是我自己我希望至少我能够参与到这件事情上对我希望假设有下一次的revolution我希望回过头来对吧我说可能不是创造某种impact但是是因为我个人的经历我身边的这些合作的模式然后我自己的认知我自己的思考然后我能够理解一些东西然后我理解了这些东西能够somehow对这些这个世界的或者AI的发展有一定的影响吧我觉得这件事情是我现在很关注的事情要不然是不是没有这个希望了下一个revolution我覺得完全不是沒有希望或者我會說LM終將凋零不對不對LM永不會死但終將凋零老兵不死終將凋零為什麼終將凋零theywontdietheywilljustfadeaway就是說這個東西一定會有它的價值它是一個很好的工具我現在會天天使用LM但它不是我們構建一個universal一個通用智能系統的基石它不是這個世界模型的這種大廈的地基世界模型我們稍後再聊你的工作你還要展開嗎我就再講一講有時間嗎有有有你都已經說沒有達到max了是是是對因為這樣說起來好像這些工作也沒有什麼好聊的了但我覺得還是有一些意義的因為就像我剛說這個nonlinearresearch對吧在一篇論文裡面我們會先做一些事情然後逐漸的然後有一些儲備然後在最後一個月裡面然後找到一個新的方向然後deliver最後的結果我覺得當我看我之前所有的這些工作的時候我心裡面也會有這種感覺就我現在還處在一開始迷茫的探索期但是也知道也許今年也許明年也許突然靈魂開竅然後就能做出來一些更有意義的工作但我覺得這裡面的根基在於像我剛說的它得要能夠串起來一條線或者說它其實不是一條線它是一個graph它是有不同的節點不同節點跟節點之間每個節點是一篇論文它們之間都有彼此的聯繫你后续发的论文都会受到前面所有这些论文的影响所以后面比如说contrastivelearning这件事情作为就是说我们第一次在视觉的这些task上面看到MOCO这样的工作尤其我们有V1V2V3对吧然后在V3我们用transformer然后我们去skillup其实已经比imagenet能得到的representation在各种各样的task上面都要好很多了這件事情對我們來說其實是一個重大的驚喜然後其實那個時候在那個時間點上我會覺得哇一切又是欣欣向榮我們的問題基本上可以找到答案那我們找到了一個方式資深讀學期可以work接下來我們只需要skillup我們現在做的事情那就是一個無比光明的未來但又很不幸這件事情也沒有發生對吧但在這個之前我們又有另外一篇paper也是Moco跟MAEbytheway都是凱明lead的項目其實大家說這個什麼叫做一個lead一個項目我覺得凱明也真的瘦出來這個leadership就是說他真的承擔了百分之八十九十的一作加這個lastauthor就是末作這種通訊作者的這個職責他需要自己寫Base案需要自己跑很多很多的實驗需要最後把Paper寫完去講這個Story去Present所有這些事情基本上是凱明一個人單槍匹馬然後做到的那其他人呢其他人我們當然也有參與也做出了貢獻但我只是說這件事情是凱明主導的一個路線我們我們在這加快了這個事情的進度可能會讓結果也變好了很多但不影響這件事情的實質所以這是凱明到現在比如說前兩天他還跟我說他非常enjoy這種IC的work就是individualcontributor就是個人貢獻者的這樣的一個身份他並不enjoy說管理一個大的團隊讓大家一起只是做一個manager來指導方向他不喜歡這樣的事情他現在管多少人他也有很多很多人他現在有很多本科生啊來visit他對然後他現在也做很多很多很好的工作所以我其實不相信他我跟他說你其實也是一個很好的manager至少我雖然你沒有真的manage我但是只要我在你的身邊我就能感受到對自己做事情的效率我就覺得我自己變聰明了我觉得我如果想要有一个manager的话我希望得要有这样一个manager对吧他能够empower身边的人去变得更好对我觉得这是可能所以MAE反正就是说contrastlearning这条路我们走了走发现它不能skillup所以我们想要换一个方向那我们又回过头来去用了一个更简单的方式就是某种去噪的autoencoder就是这种自编码器就是maskautoencoder这个方法就更简单了反正大家可以回去看favor但是总之是通过把一些image作为一些corruption的方式然后再去重建这些noisy的image或者corruptedimagemaskedimage的方式去学representation这件事情跟contrastlearningfundamentally不一样但它的结果也很好对虽然他会有很不一样的特点比如说他不会去explicit去model这种某种invariance这种不变性导致他做这种linearprobing的时候结果会稍差跟做Antoinefinetuning这是两种不同的测试这种representation的方式对的时候效果又会好很多总之他们有不同的性质他们学出来representation也长得也不一样對然後這些事情到後面也會有很深遠的影響我們可以再聊但是這是MAE然後那時候我們又覺得哇MAE好厲害MAE至少能拿個bestpaper吧後來也拿不了MAEskillup就能解決所有的問題吧後來發現也不skillup其實我聽你跟祥宇之前是聊過這件事情因為他其實也關注過資金融學習然後他其實也講了很多為什麼資金融學習不能skillup的一些原因其實我就不贅述了歡迎大家回去重聽節目但是總之是當初其實是有點这种大起大落吧大家一方面得到很好的结果但另一方面这些paper又只是一个paper我们从来没有能够真的deliver出来一个实际的对吧然后像GPT一样能够通向一个完全不一样的scalable的未来的这样一个范式对我觉得这件事情所以到那个时候就有点告一段落当然那时候我还做了一些其他的工作比如说我把自监督学习可以说是第一次拓展到了比如3D的领域在PointCloud上面也做了一些工作对这些叫做PointContrast但这些工作可能更多的就是说证明了RepresentationLearning这件事情不只是一个ImageDomain的问题它是一个很普世的一個方法或者說一個方法論它不只在image上面成立它也在3D的空間到後面很多人去試各種樣的medicalimaging還有包括這種robotics這種task各種抖鳴它都成立所以這件事情我不認為它是一個失敗因為它確實在影響很多很多不同的就是超越我們現在關注的比如說計算機視覺本身的領域但另一方面它也仍然沒有達到像LM的這樣的這種影響力所以做完了這些事情之後又做什麼呢對好像又開始回到了探索期了這些都是在費爾實驗室都是在費爾在做的你在那個階段待了四年待了四年這時候費爾這個週期就結束了嗎沒有結束還早還早這可能是前面的一到兩年時間吧還有一個很好玩的事情是在這個吹一吹凱明這個當初其實資源永遠是一個問題GPU總是不夠的然後當初Fairmakeadecision是說我們試一試這個TPU這個東西好不好玩Google一直在用然後他們也全面轉型使用TPU所以我们买了大概50张这个TPU的这个芯片不是买就是租吧就是在googlecloud上面然后一开始是为了做languagemodel人准备的然后大家去玩了一玩后来发现哎呀太难用了实在是不好用凱明上來說我來所以他真的是單槍匹馬從頭到尾在TPU上面build了一整套infrastructure使得我們能去做之後的一系列的這些工作包括MOCO包括MAE包括後面的DIT都是在上面在TPU上發生的所以這件事情對我來說也是一個很重要的一個guidance吧就是怎麼總結呢就是公欲善其事必先利其器然後凱明教我的一件事情是說你的research的上限其實取決於你baseline的好壞就如果你的baseline很差的話你可能很容易自欺欺人你是做不出来什么东西的你如果没有花足够大的心思去在baselinelevel上面去把这个system搭建好把工程也做到极致你是没有一个平台让你去做真正的探索因为你可能会发现一个有趣的有價值的一個信號但有可能這個信號完全是錯的原因是因為你的baseline對吧你的基準本身就不夠好所以這件事情也蠻反直覺的因為大家總說我的baseline要是差一點那我能受出來的這個performancegain就會多一點那我可能更容易發paper對吧但是其實凱明不這樣想他會想我們怎麼樣把baseline做到高到不能再高這時候在這個基礎上我們做出了新的事情那是groundbreaking的事情那是真正的breakthrough對吧你在一個弱的baseline下面做的任何的提升可能只是一篇灌水的paper而已所以這件事情我覺得對我來說也是一個啟發包括他們做detection的時候這一部分工作我沒有參與還在讀PhD但所有的這些FastRCNN或MaskRCNN然後這些FocalLoss等等一系列工作吧这些工作都是因为他们包括Ross包括凯明包括吴玉新他们做了大量的工作去搭建这个infra然后去build这样一个codebase使得baseline这些方法的baseline就已经远超于这些所有的乱七八糟CVPR的paper就我們的備戰已經比你強了那我再往上走一步那我當然要比你走得更遠所以我覺得我也是一直有這樣一個方法論在這的我覺得我會比較重視這種我覺得我不想叫它工程吧因為它還不完全是這種这种只是这个cobased的这种事情它不是一个在产品公司里面打造一个cobased这样的一个关系它更是一个research的breakthrough的脚手架你的脚手架如果不稳你什么都做不出来所以這件事情也影響到我們現在做遊戲這東西但anyway就是說凱明在搭這個腳手架的方面其實真的也是非常非常厲害我覺得你好幸運因為你很早就有人告訴你很多正確的做法所以其實在很多事情上你少走了很多彎路对我觉得我非常幸运但我也希望就是但我觉得很多东西真的是一方面是commonsense但像你说的一方面对于一个学生来说这件事情可能不那么obvious不那么显然像这个脚手架现在我们在Fair的时候会有一个这样的runningjoke吧其实有点开玩笑性质就是说大家进到Fair实习的第一课你猜猜是什么第一課是要用一個工具你猜這個工具是啥不知道這個工具是excel表格這件事情也很有趣就是大家我們會有一整套這樣的trackexperiments當然了這件事情有可能有點過時因為現在可能又會有更好的有飛鼠有很多更好的工具但那个时候我们会精细的去构建这样一个template这个template就是一个excel所以有时候我们有点像文职人员我每天做research过程中不是满屏幕的代码我们在写一些什么fancy的东西而是盯着这个spreadsheet这个excel的表格然后去看每一行它到底代表什么这一面关于research部分就是说你怎么设计这个表格你怎么能保证你的每一个实验都能给你像我刚刚说这个梯度对吧因为你总会有可能有两个极端一个极端是你做的实验做的太少了所以你的信号不明确你啥也不知道另一个极端是我完全不care我在做什麼實驗我就瞎跑實驗對吧我有這麼多資源我就maximize我的資源然後就run所有的job然後把所有的結果全都dump到就是直接放到這個表格裡然後我就覺得心滿意足我覺得我research已經做完了這兩種情況都是一個比較差的學生的research的一個pattern但當初其實通過看凱明怎麼樣去build這樣的一個spreadsheet我就有學到特別多對因為其實你就會要去make一些決策這些決策就是說我到底應該關注哪些metric我到底應該記錄哪些內容哪些column哪些列然后还有就是说我到底应该有哪些行我到底有哪些实验的结果应该放到这个表格里面哪些实验的结果我可能就不放了或者说我隐藏起来因为你放进去的这一行是需要跟其他的这个表格里面的其他的行发生关系的然后这种对照式的对比这个是research流程这个东西again再次给了你一个这种梯度的信号然後這件事情其實有時候是非常微妙的因為它並不是說你的結果越好你就一定是通向正確的道路就是还是说你看你哪一个对照能给你最大的信息量比如说举个简单例子如果你做了一个实验这个实验给你了这个差了比如说你的performance掉了10个点对吧这时候如果你是一个悲观的你就会说这个实验废了完全不成功那要不就算了但如果你是有这种发法论的人你会觉得这个方向可以掉10个点那我往这个方向的反方向去设计我的算法那是不是我就可以涨很多点因为你最害怕的事情是它的performance停留在原地不好也不差对吧它不好不差就没有信号沒有信號對吧一個negative的信號的反方向就是一個正向的信號一個positive的結果的正方向也是一個好的信號所以這件事情也是一個非常非常有趣的事情然後還有一件事情凱明用這個表格經常告訴我的事情也是說你要學會做預測在你跑每一個實驗的時候你要預測這個實驗的結果應該是怎麼樣為什麼呀因為你要猜你想的對還是不對如果你想對了說明你前面的這個思維鏈條是可以往前繼續延伸往前繼續推的如果你想錯了again這也是一個surprise對吧也是一樣的也給了你一個信號那你就會懷疑說我為什麼想的不對吧我哪裡想錯了我可以嘗試去解釋背後的原因然後或者我可以去重新去審視我自己的思路這些東西都是有價值有意義的信號這個可能說的有點具體了但是確實這些事情這個很有啟發會對很多人很有啟發因為他們可能沒有你幸運不能在他身邊工作是但凱明其實他也是我說的好像凱明是一個這種無所不能的機器研究機器其實他不是他也是一個很真誠很有趣的人他是有生活的人嗎他的生活很乾淨很純粹但是我跟他一起工作的幾年時間裡我也跟他一起打了幾年遊戲打什麼遊戲他是這個魔獸世界的中式玩家然后我们一起那时候会打卢石卢石传说是一个棋牌式的这么一个游戏也是对战的我跟他有时候会一起联机然后打几盘游戏然后我有时候上线发现凯明也挂在上面打游戏你们会一起打多长时间沒有一起打很久對但只是平時線下會討論遊戲就先一般是比如我們討論一個小時或者兩個小時吧前一個小時討論research後一個小時討論遊戲什麼呢就是說這個我遇到的你最近玩得怎麼樣然後我給你講一下我上次對這個12連勝然後發生了什麼就類似這樣的事情挺無聊的挺好玩的事情從打遊戲身上能學到什麼research的方法嗎倒也没有但是发现凯明游戏的也比我打得好他天梯爬的也比我高我就觉得这个没办法各个维度上被碾压然后我觉得确实凯明也是一个满有趣的就是他会对如果你是真的是跟他一起工作的话他会很愿意跟你去交流很多东西然后并且这些东西包含我刚刚说的这些research的方法论也包含一些有些虚无缥缈或者说很broad的这些内容他最喜欢聊的东西其实是进化生物学他本身学物理的还有物理然後包括量子然後還有包括哲學他一直勸我們的事情是說那個賽琳你們在美國讀博士你們的title可都是PhD啊是DoctorofPhilosophy是哲學博士但為什麼你們培養出來的人一點哲學都不懂呢嗯靈魂拷問哦他不是在美國讀的他不是啊他在香港對然後這個也不只是美國香港應該也是PhD就是PhD只是變成一個代號但他說你們一定要多讀點哲學然後所以哎呀這件事情也是挺好玩的事就是他給這個其實每個人或者至少給我吧然後一開始入職的時候給我一本書然後這本書是不是教你怎麼做research的這本書是《金剛經》我是不是透露的過多了《金剛經》跟research的關係是什麼我覺得這個涉及到researchtaste的問題對這個也是我很想問你的因為研究圓圈現在我覺得說最多的詞就是researchtaste一些人在說你的時候就會說你是researchtaste好的人那什麼是researchtaste呢什麼來決定它呢我覺得你看你用這麼一個很高大上的詞對吧然後還要用英文來說明這些東西很難很難被定義他真的是一個內法的研究審美對然後我覺得包含我其實上述所說的所有的這些事對具體怎麼做事情我覺得這些事情都包含在之內但也涉及到一些更高級的這種哲學部分的這種考量我覺得像凱敏送過我金黃金我覺得他因為金剛經裡面說所有事情如夢幻如泡影然後其中一句話也是凡所有相皆是虛妄若見諸相非相即見如來然後這件事情扯遠一點其實跟西方的哲學裡面的某些觀點其實也蠻像的比如康德去講所謂的物字體然後到比如舒本華講作為意志跟表象的這種世界其實大家想要表達的事情我不懂哲學我也不想高談闊論以我粗鄙的這種認知我覺得他們想討論的事情都是說你看到的東西不是這個事情的本體你看到的世界也不是實質所以當你看一篇論文的時候重要的事情是打破這個論文給你的一個幻想去追問一下這個論文背後到底隱含著什麼樣的一個實質性的東西然後我覺得ResearchTaste的來源就在於大家能不能真的拋開所有的這些虛無的像然後去一直去通往這個真理的道路一直去求索我覺得凱明這件事情做的是最好的所以這件事情如果你想得長遠一點就是說我到底應該用什麼樣的方式指導我怎麼樣去選擇一個題目到底做什麼樣的事情然后这件事情又会涉及到你在做research的过程中具体每一步该做什么我觉得所有事情都是一致的然后我觉得researchtest不够好的一个问题在于可能大家会沉迷于这个项这个项可能是一个paperacceptance可能是外界像你说的某种fame可能是因为你可以很快的去把这件事情做出来你能够得到的这种意识的这种称赞和这种追捧对我觉得对于凯文来说这件事情完全completelyoutofhiskindofworldmodel对他完全不care我觉得对但你要问我具体researchtaste有如下ABCD几点这件事情就比较难讲了这件事情因为涉及到的东西也很多因为其实research本身就像我说也是一个创意流程也是一个写作的过程对吧從你的寫作的,bytheway,凱明也是寫作能力最強的人他也非常鼓勵我們說一定要早點開始寫作這件事情非常非常不幸,到我現在都已經一把年紀了還是做不好凱明所有的論文都是在deadline前一個月做完的只要在fair的時候是這樣的就是当其他人都还在为了deadline通宵奋战然后获得巨大的满足感的时候凯明你知道吗就是那种闲云野鹤然后一个月把事情已经做完了然后开始把它一遍一遍的polish然后观察着你们去赶deadline吧我是以一个非常chill的方式然后把这件事情做到尽善尽美它是一個月前全部做完就paper要寫完不是說這個結果得到是paper全部寫完這是一個已經publishable的一個不錯的工作那這是這意味著它是要在什麼時候開始寫那就是提前兩個月開始寫它只用寫一個月一個月很長了對當然它後面還會繼續寫在登案之前的這一個月會polish每一個表格就是每個字吧每個標點符號比如說這件事情也影響到我比如說我現在就有這種OCD對吧就這種應該怎麼說強迫症對然後也是凱明時期帶給我的就是說你的一行論文不能有一行有小於60%的文字站出來什麼意思就是說如果你有一行你有大半行是空的這個看起來不好看你要把這一行佔滿或者佔的大概有百分之六七成滿這樣你paper看起來才比較優雅或者uniform所以這也是我們現在每一篇paper最後我都會讓大家所有學生你們好好看你如果有一個什麼trailingword你現在如果大家不注意的話你會有一個詞然後單獨佔一行在一個地方很難看的而且凱敏想這件事情的時候的想法是說這個paper不是給你自己看這個paper是給別人看的所以你要在乎的是別人的觀感你怎麼樣能夠paper只是一個載體我怎麼樣通過這樣一個knowledge的載體使得大家可以比較順暢的get到你自己的想要表達的內核它這個溝通介面要賞心悅目你總結的好好溝通介面要賞心悅目所以保證你配備也不能太難看對吧然後你這個細節要做好所以所有這一切你可以認為它也是某種researchtest但我覺得這件事情其實是一個general的對於生活或者對於這宇宙一切的某種審美我覺得這件事情在我看來都是相通的對吧然後這也是為什麼我們很在意我們自己的論文怎麼樣能夠比較unique就是比較有自己的這種獨特性然後我們可以有自己的網頁的設計我們會自己錄一些視頻就是有很多人會拍拍錄視頻是呀對但是有很多人覺得為什麼你們要搞這些事情這些事情跟這個research一點關係都沒有這難道不是一個destruction嗎為什麼你要花額外的精力去polish這些東西你是不是就為了炒作營銷啊我希望大家不這麼覺得吧因為我覺得有你自己的一個風格這件事情其實是非常重要的嗯然后这也是为什么我们所有的paper都会用一套这种模板然后我们会有一些自己的设计然后间接的我也希望把一些我的testagain我不能完全保证他们都很好但是3号至少跟我的学生一起讨论吧然后大家可以一起去把这件事情至少一起能够去构思一起去想一想对我觉得这件事情也是在我看起来这个大的这个researchtest中间的一部分嗯它包含了很多很具體的小的細節非常非常多的細節但我覺得這也是為什麼做research很有趣的點我昨天跟你說過我這個從小的夢想其實是當個導演从小的梦想没有从小什么时候破灭了很快就破灭了很不幸但是但我还是会看很多电影吧然后但是我觉得到后来我发现research的过程跟拍电影过程其实没什么不一样為什麼呢因為電影也需要發現一個主題它也是經過探索我有一個我想要拍的故事它也不應該是我站在此刻我就覺得我這個故事就是這樣了然後我直線通往彼岸也不應該是這樣的你也應該去拍電影我覺得有很好的直覺對就是是的exactly對吧最差的電影就是說我是個流水帳的吧我有這個我有A中間沒有什麼衝突然後通往B然後事情結束了我就放給你一個好的電影其實是說或者說為什麽我們寫paper的時候大家說他講的故事講得很好雖然這件事情可能甚至有點narrativeStorytellingStorytelling對吧電影是一個storytelling的過程有一本書其實我之前還跟學生推薦我學習凱明跟大家推薦一些不搭嘎的書我跟大家推薦一本書叫做就叫Story是麥姬的這本書這本書其實是這是新聞學所有人都要讀的書真的嗎OKIsee對因為它裡面講對吧你真正的這個故事本身不是人物的背景而是人物在特定時候的選擇這件事情帶來了衝突然后带来了对这个世界的变化推进剧情的发展我觉得paperexactly就是这样你写的这个paper本身technique当然重要这个knowledge当然也很重要但是也许更加重要的点是你到底是怎么到达这儿的你到底中间做了哪些决策你的decision到底是howdidyoumakethedecision為什麼這個decision很重要為什麼讀者讀了這個decisionmaking的過程之後也許他們自己也會受到啟發也許他們自己也能去做一個完全不一樣的事情但somehow又能跟我們present的這個東西串起來我覺得這件事情不就是拍電影嗎已經把research進化到了藝術的層面哎呀不是這個Pig說了嘛他不喜歡藝術家我覺得我完全不是我其實沒有什麼藝術的見解也沒有什麼藝術的修養更沒有什麼藝術的能力但我還是覺得這世界上的每一個人不管你是不是經歷過這樣的訓練有一些非常非常common的非常非常個人化比如說這個MartinScorsese說的最有創意的東西其實是最個人化我覺得每個人都太不一樣了你怎麼樣在做research的過程中也能發掘出來你心裡面的那團火你自己不一樣的地方然後用它來指導你的researchtaste我覺得這件事情才是在我看起來一個scientific的道路上面很重要的一環其實人在選擇自己偏好或者相信自己偏好這件事情上是非常難的因為大多數人都願意走一條就是我們一起走的路因為它更安全就包括你說的做research的探索的過程也是一種就是更加願意相信自己某種偏好的一個過程對我覺得這件事情是這樣而且這件事情對research來說還蠻重要的还是有点玄学但是其实这个也是在A3班然后于老师在我们本科的时候跟我们说过一句话他说不是因为看见所以相信是因为相信所以看见如果你不相信這件事情的話你可能完全看不到這件事情按你設想的方式去發生我覺得不能太玄學但是就這一面Research還是一個科學的過程然後每一次的decision得要基于事实不能完全只是因为你相信一件事情然后你就往那走对这件事情肯定是错的但是somehow还是有一点这个的成分就是大家还是有某种自己的属于自己的这种精神的力量其实能够去改变你在study的问题或者你在看待这些问题的方式我要拉回来我们飘出去了飘出去太远了对你說research是就是更重要的是你怎麼做決定的那你這個做研究的這個歷程你剛才還是沒有講完就是後面的決定是怎麼做下去的其他可能可以比較快講一下因為其實有了現在鋪墊很多事情也蠻好講的因為其實很多時候我覺得我覺得有很多點來指導怎麼做事情吧第一是可能要有某種質疑精神這件事情我觉得应该不用讲吧但是有时候在现在的这种竞争的环境下大家可能会慢慢放弃这种竞争对有点难然后还有就是说我觉得还是要我在我那个无线游戏的talk里面讲你是你自己的天才希望你自己能够去做一个不一样的事情Bedifferent这件事情我觉得也是一个很highlevel的一个指导的一个原则所以往後說那像我跟我當初的這個實習生劉壯他現在也是一個很強的這個researcher他現在是普林斯頓的一個教授了然後我們一起做一個工作叫confnext這件事情可以看到跟這個resnext也是一個映照然後這個paper的title非常ambitious叫做aconflightforthe20s就是20年代的这个卷积神经网络可以猜一下这个名字谁取的凯明对其他人也不敢取这种名字又有X然后凯明取了这个名字然后我觉得我们做出来但这个paper其实很简单就是说大家认为在VIT里面就是VisionTransformer里面最重要的东西是SelfAttention但我们质疑这件事情到底是不是真的然后通过这样的质疑我们去铺叠这样的实验然后最后发现其实这件事情没有想象那么简单Selfattention可能是最不重要的一环整个的这些globalarchitecturedesign以及这些宏观跟微观design才是决定这个performance的一个更加至关重要的地方所以这件事情我觉得对也是当初跟刘庄一起当然还有其他的同事一起我觉得我们能够去提出这样的问题有所质疑然后刘庄做了大量大量的实验把这件事情最后梳理清楚对吧然后我们有这样一个figure有这样一个plot在paper里面就是说我们现在怎么样从一步一步从一个卷积申请网络通向一个这种层次化的这种transformer架构它每一步哪些实验重要哪些实验不重要对吧就是一系列的applicationstudy然后这个图现在也变成这个paper我觉得还不错就是它可能也配得上题目就是在此之后也没有人设计卷迹实际网络架构了基本上然後還有就是這個配圖現在變成了一個經典的配圖所以在各種各樣的Paper裡面都能找到它的痕跡這個圖也是我當初花了很長時間手搓出來的然後這件事情對我的啟發也很大我覺得對吧其實大家是知道因為這個圖本身它在講關於這個Paper裡面的一些邏輯但它所涵盖的这种怎么样去精细的做application并且控制变量的这样的一个方法这件事情是可以被应用在很多很多不同的paper不管你的topic是什么的对所以我觉得这件事情也很好玩然后后来可能可以谈一下比如DIT的吧然后但这个paper也是这个paper又是一个这就到NYU了没有这个也是Fair是Fair最后一个工作然后费尔那个时候已经开始有一些cultureshift因为那时候Chachabitty刚出来OpenEye然后Dima也做得也非常好OpenEye作为一个新兴的这样的research的力量然后其实做了很多在费尔大家想都不敢想即使想了也做不到的事情然後大家就開始在思考這個組織模式上到底出了什麼問題是不是要進行大的改革其實已經進行了很多次這個reward這也是一個trigger是說為什麼我覺得當初已經不是一個好的事件我繼續留在Fair了已經開始下滑了倒也不是下滑只是說大家的focus已經不在research上面了大家會有開這種好幾個小時幾個小時的這種researchalignment的meeting就是這種對接的這種會議對期會議然後這個會議的唯一的topic就是說我們到底應該做啥但這樣的會議這個持續了比如說好幾個星期的時間還是沒有辦法確定因為沒有人會知道自己要做什麼因為這件事情是完全反我剛說的這個research的正常的這種bottomup的邏輯的對吧現在變成是說我們要坐在一起討論我們接下來一年兩年的時間應該做一個什麼樣的researchproject這件事情在我或者在凱明或者在很多研究員的心裡看起來都是反research对所以那时候也受到了很多的影响吧比如说当初我在做这个DIT的时候Diffusion也是刚刚起步啊还没有人Fair还没有一个人在做DiffusionModel相关的研究啊但我觉得哎这个东西好像很有趣我觉得应该去尝试尝试然後BillPeebles他是我當初招的一個intern他現在是SAR的Head也在SAR的這種各種生成的視頻裡面他也是主角他是一個非常非常sharp或者在我看來是一個我覺得完美的PhD學生吧就是在各個方向至少是六邊形戰士的這樣一個學生对但anyway当初我们起点其实不是要做diffusionmodel也不是要做DIT在前两个月的探索完全也是集中在表征学习这件事上就是说我们想看一看你一个diffusionmodel学到了这个表征到底跟一个正常的supervisedlearning或者说一个softsupervisedlearning学到的表征到底有什么不一样其實後續在這個方向還有很多很多的工作但我們開始的這個做了一段時間的感受就是說這個東西好像也還行也就那樣它能學到一個不錯一個生成模型能學到一個不錯的表徵但這個表徵要比你的自監督學習的表徵要差得多得多就完全不能打所以我們就放棄了但是在這個過程中到了最後一個月的時候我們發現這個東西的前提是說因為DIT我們需要在這個表徵的level去跟比如說VITbased這種表徵的系統要做一個對比所以那個時候是我們為什麼我們不用UNET要用VIT來做這個DiffusionModel這個是出發點對吧然後後來我們發現這件事情在表徵的這個角度好像沒有什麼太大的價值但是好像我们的这个新的architecture它确实更加efficient然后确实更加scalable比unet要更稳定并且从代码的角度我会非常care这些事情就从你的代码的角度我们叫它这种minimaldescriptionlength就是说你代码其实还是很重要的你是能体现出来一些事情的如果你的代码的长度很短就能够去达到同样的目的那你这个方法typically会优于一个比如说写了好几千行代码一个非常非常庞大的系统即使它也能做同样的事情但你的前一种这种更elegant的solution更simple的solution一定是更好我觉得这也是某种意义上的researchtaste所以我们发现这件事情又简单又能work又scalable然后又efficient那好像這件事情才是應該我們去pursuethedirection所以也是提前一個月然後去做這件事然後那時候也要競爭很多的資源大家就說你做這個事情幹什麼我們現在要把資源集中到一起然後我們要做一些更有意義的更大的project雖然againnobodyknows所以要有這種對齊會議裡面討論但是但至少diffusionmodel不會是在這個criticalpath中的一個重要的就在這個核心路徑上的重要的一員所以大家會有很多的反對但我觉得我能看到这件事情其实是一个很重要的事情因为我觉得这件事情从架构我做架构做这么长时间我觉得这是Diffusion架构的未来它不是DiffusionModel全部像我说的Data架构还有Objective都是很重要的但是在架构上这件事情是绕不过去的一环所以这是为什么最后一个月就朝这个方向去push最后结果也很好然后我们能受出来这种真的很好的这种skillingbehavior然后我们投了paper到CVPR然后我觉得都非常开心然后paper被拒了對勒昆好像寫過這個推特是的就是novelty不夠所謂對你們可能做的這個東西對吧你沒有大端的數學你沒有大端的這種複雜的結構你弄一個很簡單的這樣的結構雖然得到很好的結果但是reward不買賬對這也是另外一個lesson但到那個時刻其實我已經慢慢回過神來了我發現這個researchpaper這件事情其实在这个巨大的随机过程里面中或不中一点都不重要所以我们接下来又投另外一个会什么也没改又中了一篇奥尔的paper所以再次证明这个完全是一个纯粹的随机过程但之后发生的事情比较有趣就是我拿到这个paper之后我发现这件事情在各个维度上都比一个unitebasedsystem要好whynot你就應該用這件事對吧你統一了你的底層的這個邏輯至少在架構上面統一了這個邏輯你可以share很多這種infrastructure它又這麼efficient結果又好又scalable你可以出一個更大的模型所以我們就想誒這件事情這個paper發出去那一定會有很多關注whichbytheway確實有很多關注就是推特上很多人討論但是我們發現誒好像沒有人真的用它幹任何事然后我们开始就开始跟大家聊比如说我们去找StableDiffusion的人Bytheway我觉得StableDiffusionLDM也是一个在我看起来属于那二十几篇paper里面的一个但我跟他们也有一些人也在去聊然后我们跟一些其他的大公司也有在聊我们相当于在学校里面那时候我已经就相当于这篇paper是刚好落脚在我在Fair的最后和我在NYU开始所以兩邊都署名是嗎這樣的話對其實不是其實是只署了NYU的名字和Berkeley的名字因為Fair不讓我們署名為什麼因為第一是他們覺得這篇paperitsokitsapaper第二是那你已經離開了不要署名不要借我們費爾的名聲給你燈光天彩然後anyway吧其實本質上還是一些legal的原因吧反正就沒有署名所以是署得蠻有名但這件事情是一個在費爾完整的做完的事情对世界总是这么讽刺有点讽刺对然后后来反正发生的事情大家也知道那就是比尔跑去OpenAI那说好你们都不买账那我自己来做这件事哦是这个原因是这个原因对然后或者说那时候他也在跟我讨论说到底应该去找什么工作他有好多不同的offer然后有些startup有OpenAI然后也有一些大公司然后然后然后那时候他才第三年然后他也是这个也我觉得也是有一个非常好非常好的这种啊可能比我强多了的这种预测模型吧啊我觉得他是能看到说要早点加入openeye啊openeye啊现在不得了那是哪一年呃是这个2年哦呃2年年底对2年年底对2年年底那个时候不是查士比迪剛出來嗎是啊他就加入了哦對呀就是他加入了你們這個工作就做完了嗎做完了對呀你們不是在查士比迪之後做的嗎呃不是因為我是23年1月就已經到NYU了哦所以這個工作其實是上一年2年的暑假了開始的一個工作哦所以是在查士比迪之前就做了之前對呀哦所以這是為什麼OPI我覺得也很厲害就他能夠意識到比如比奧的才能並且能夠讓他們有一個包括TeamBrooks讓他們能夠有一個這樣一個很bottomup在我看起來其實是一個蠻research的一個effort給他們足夠多的自由度跟資源讓他們做一個在之前大家想都不敢想的事情這件事情就是SORA對吧我覺得這件事情至少在當初Fair是沒有這個基因的大公司也不會有這個基因就如果你們沒有離職還在FAIR他們依然不會用DIT那我覺得也不見得倒不是用不用的問題我覺得更多的是怎麼樣能催生出這樣新的這種創新的這種結果對然後我覺得或者說這個架構只是其中的一部分我覺得它一點都不重要它只是一個選擇它battle了這件事情對要battle或相信這件事情能做成我覺得這件事情不是所有人都能相信得了的我覺得這件事情其實是非常厲害的這其實在講的是sorrow的誕生的很多前序的故事對吧有點是是是然後對然後你見證了好多對我覺得見證了一些人一些事吧但也錯過了很多錯過了什麼那比如当初没去openai啊或者说呃之后还有很多其他机会我就不不说了但总之是有点我我觉得我看对了很多事情和很多人很多人但也有一些时候比如说某些创业公司在非常非常早期的时候然后跟我聊然后想要想想要说哎就我可能是第一个看他们的demo的人啊也许可以说吧就是呃这个erevantperplexity的erevant然後他從OpenAI出來在Palato的這個BlueBottle的這個咖啡店這也是一個矽谷裡面所有很多事情發生的一個地方很小我可能是至少第一第二個看到他的一個demo的這樣一個人他拿著一個電腦給我看一個瀏覽器然後說我們要革了Google的命然后我说哇你这个好厉害但我心里面觉得这个是什么东西这个不就是GBT套了一个壳然后whyareyoudoingthis对吧所以他说要不要一起来做我还是比较enjoybeingatNYU去做research但后来其实确实我觉得我对创业者的这个认知在过去几年也发生了一些变化然后我觉得这件事情跟research还真的不一样有很多相通的地方但也有一些不同的点对但anyway就是这个又扯远了然后工作上我觉得我们可以快速再讲一讲后面的一些东西因为我可能可以最后总结一下对除了Papalaste还错过了谁其他的不說吧其他的有可能是剛錯過或者我還不知道是不是錯過的一些地方對但其實沒有什麼錯過或者說我在現在這個時間點裡我並沒有後悔任何的決定我覺得每一個決定都是比较忠诚于我的内心然后在做我想做的这件事情有可能这些决定很傻有可能从一些维度上来看其实是一个错误的决定但我现在会觉得第一很知足第二我觉得像你说的这是属于我的一条路这条路还能通向更远的未来我还会在这条路上继续走所以我觉得非常非常感恩反正DIT之后然后我们又做了一个工作然后就是把这个flowmatching就是把这个新的objective然后在transformersetting下面也把它拓展起来对然后这个每次也是都是当笑话讲了也是先投稿然后又被拒了然后然后同样的原因但是經過這樣次數多了之後我覺得我就基本上免疫了或者這件事情其實還是蠻叫做反脆弱的這個塔勒布有一本書叫做反脆弱然後我覺得我當初講無線遊戲的時候我其實也提到這個觀點就是說我覺得research其實必須得要是一個反脆弱的系統这个反脆弱是什么意思呢就是说一个组织或者一个个人或者一个事情它如果是反脆弱的Antifragile它的意思是说一个可能的这样一个random的event某种黑天鹅事件或者说某种shock就一种这种令你感到惊讶的一个事件的发生这件事情如果对于这个组织对于这个人或者对于这个事情来说你的收益要比你的損失要大那你的這個組織就是一個反脆弱的組織但如果你立刻被這個shock擊倒了那你就是一個脆弱的組織所以我看起來就是說這個research這件事情其實是一個怎麼樣讓大家變得越來越反脆弱的這樣一個事情所以paper被拒了也沒那麼傷心了但後來我覺得像DITSIT都會變成一個相當於學術界的一個baseline吧然後讓大家可以繼續在它上面做各種各樣的事情然後我覺得它的歷史任務也達到了所以這是在Diffusion上面當然後來還做了很多其他的事情但是我可能想說一下我們最近比如說有一套另外的事情叫做這個Cambrian對吧CambrianSeries韓武紀對中文叫做韓武紀但是這個韓武紀這個東西我也講了什麼是韓武紀對吧就是說這個LeadingTheory說Viren的演化带来了物种之间的在viral能力上面的这种军备竞赛然后导致了这种物种的大爆发然后所以大家有时候会觉得韩武纪是一个视觉的起点对然后说到这个韩武纪了那可能再插一句就是说其实如果你看整个地球的歷史我們把尺度放得更遠一點從538個millionyearsago一直到現在對吧其實所謂的這種behavioralmodernity就是所謂的這種行為現代化這件事情是在過去的3萬到5萬年前發生的所以如果假设从哈姆基大爆发然后开始地球上开始出现这种物种开始一直到现在如果我们把它缩短到一天对吧假设所有这一切都只是在24小时内发生的其实有语言的部分有这种behaviormodality然后大家可以有某种abstractthinking某种symbolicreasoning这一部分的过程其实在这一天中只占了最后你猜一猜大概多长时间三个小时三个小时高估了高估了三分钟还是高估了三秒钟大概是八秒到十秒吧决定怎么算所以在这个历史的长河里面其实我们有语言的时间其实是非常短暂的然後但是由於我們是人我們總會從人的角度去思考這個事情去看待這個歷史所以我們會覺得好像語言自然而然就是人的智能的一部分然後這也是區別於人的智能跟其他動物智能的一個主要的區別但anyway就是這個可能又扯得有點遠了我們等一下可以comebacktothis但我想說的是這個Campbellanseries之所以取這個題目就是因为我们当初觉得现在这个多模态大模型这么火热但我们又像有点像当初ConfNex的时候一样的视角我们希望能够去检验一下现在正在发生的事情然后以一个比较solid比较scientific的方式去研究一下到底什么重要什么不重要所以这是这个cameramodel的出发点然后这件事情在之前还有另外一篇paper叫做叫做icewhiteshot这边有导演朋友这也是古布里克的一个电影所以那篇paper里面讲的事情是说对于这个VisionEncoder来说其实clip可能不是最优的它有可能会有它自己的缺陷因为它有这种太多的这种语言的shortcut导致它对视觉的理解方面有可能出现一些偏差所以Camber1其实是这个paper的某种意义上一个延续是说我们怎么样训练一个我们自己的这样一个系统然后在每一块上都做足够充分的study然后但是我们只有一块不碰就是我们的LM的部分我们不碰我们不管它然后当我们去study比如说我们的data的构成我们去studyviewrepresentations对吧然后这种表征然后以及后续的这些比如说各种各样的架构这种视觉处理的架构等等一系列的东西对所以它是一個蠻大的一個effort所以很多時候有工業界的朋友問我說我很好奇你們是怎麼組織起來這麼多學生然後做這麼大的一個collaborativeproject對吧然後其實我也沒有答案非要問我的話就是學生給力大家願意去探究這個問題並且能夠以比較好的方式在一起合作对然后当然这里面会有一个基础这件事情蛮好玩的可以分享一下我刚刚提到说凯明当初不是在TPU上面去build这个infrastructure然后这个从无到有我们有了自己的资源然后它lead出了比如说像某个ME还有DIT这样的工作所以很自然而然然后到了后面在NYU的时候我就在考虑说我们到底能不能去也在TPU上做一些事情因为Google其实还是对感谢GoogleGoogle也是一个非常这个这个generous的company然后它有一个program叫做叫做TRC就是TPUResearchCloud它无偿的给学术界的学生还有老师们去用这部分计算资源但这部分资源极其难用因为还是面临一样的问题就是没有这个Ecosystem所以没有这个Infrastructure没有这个基础架构也没有这个Codebase很多东西PetTorch放在上面不Work这一面其实就我们开始面临的这样一个抉择一方面我们从Google拿到了一些资源我们可以有更多的算力绝对的算力去做我们想做的事情另一方面这件事情实在是太难用了所以我跟学生说你们一定要去试一试我也给他们讲了比如凯明的这个story但是他们试了大概可能一个星期然后回过来说老师实在这个受不了了我们能不能买个两台H10的机器还是用GPU吧然后我跟他们说这件事情还是要沉得住气如果比如说你们试了大概三到四个星期然后发现这件事情确实有技术上的障碍我们确实因为我们不在Google没有这一套infrastructure所以有些事情我们确实做不了或者我们解决不了那我们可以giveup然后我们可以去换下一件事情去做但是如果只是因为暂时的这些阻力你只是试了一个星期然后发现这件事情有困难我觉得我们一定要尝试去走出自己的舒适区去解决一些这些infrastructure的problem即使这是一些可能一开始跟research无关的问题反正学生就被我被我劝回去了然后继续开始在TPO上面develop我们自己的infrastructure对為什麼不用GPU呢沒錢呀學校很慘的這個又要吐槽學校學校北美的學術界是一個非常非常我覺得處在一個很難的一個境地為什麼主要還是第一資源不夠然後舉個簡單例子比如說我們要申請funding美國的這個fundingsystem可能又要飄得有點遠但是美國的這個fundingsystem其實在過去的幾十年裡面都沒有什麼增長雖然有很高的通脹對吧所有東西都變得很貴學生的學費變得很貴但政府的資助以及各個公司有他們這種proposal這種program對吧有些資助的項目其實還是維持在一個很低的水平然後大概就是說平均比如像ASF這樣的美國的政府機構能給到每一個單獨的這種PI的這種總共的資助大概就是50萬這個級別美元每年大概10萬然後大量的公司其實已經變得少了很多了因為Again因為CHPT因為LM的時代到了然後大家慢慢的變得收縮這個我們之後可以再聊但是總之是也有更其實這種工業界資助的機會變得越來越少並且一旦如果有時候有一些這樣的資助的機會一般會給你比如10萬到15萬美元就是一次性的給你這麼多錢作為資助但你知道嗎大概有10個學校同時10個老師或者更多老師去competefor這10萬塊錢可以幹什麼呢可以養一個學生一年作為學費還可以幹嘛呢可以買半個h10或者h20的cluster或者可以買個3到4張卡所以這件事情是做不了事情當然這也不是只是我在吐槽我們所有的所謂的在美國的青年教師都是生活在水深火熱之中的大家都要通過自己的方式去找不同的資源所以這也是為什麼有點像創業就是你在一個非常constrainedresource的情況下要去從不同的地方找到不同的資源你要融資對吧小薰你這是商業訪談錄我說我這一點不商業但是其實某些地方可能還是有一些共性的然後包括跟Google的人我們當初我有一個我的合作夥伴在Google然後他也很特殊了他從來不去公司上班然後說他說我們可以聊一聊然後我說好啊那我去聊一聊飛過去灣區去找他然後他說我們可以聊但我們不要在辦公室聊我們一起去Google旁邊的這個trail上面hiking去徒步邊徒步邊聊所以我大夏天跟著他這個徒步了一個小時然後跟他講了講我們在TPU上面做了一些infrastructure的這些contribution這些貢獻然後包括為什麼building這樣一個更長期的collaboration的這樣一個合作夥伴的這樣的關係對Google來說對我們來說都是一個好事所以我覺得這不就是一個融資的過程嗎去化緣了化緣的過程確實是因為這樣的資助其實是不求回報的所以我覺得我也非常感謝Google但anyway我覺得更應該感謝的還是應該是我這幾個學生他們一點突破了重重的困境像我有几个学生像这个Peter然后博洋然后书生然后很多人吧然后他们都在TPU上面做了自己的很大的贡献对然后好这是这个前提就是说我们现在有一些卡可以用了然后现在我们就可以做一些稍微有点跟大模型靠得更近的一些事情所以这是为什么我会做这个Cambrian的这个工作对然后当然了所有这些narrative这些story都完全还是我过去这么多年的这些逻辑就是说第一表征非常重要第二不管你在解决的是一个普通的计算机视觉的任务还是我们到了一个多模态大模型的时代然后通过这种VQA的方式去解决这些问题我覺得這些都是像然後背後還是有一些實質性的東西我們要去構想然後這一部分反正關於語言跟數據我們可以當下聊然後我們後來又有一個叫做CampaignS的paper這個paper可能就是更進一步我們不只做imagelevel的VQA的task我們希望能夠去還是涉及到video去涉及到視頻然後這件事情其實真正讓我真的覺得想要做這件事情的原因又要說回到電影還跟我喜歡的兩個中國的導演還蠻有關係的賈長科和畢干都是中國很著名的導演然後畢干他路邊野餐裡面大量的運用這種長鏡頭件事情讓我覺得OK雖然在他來說是一種視覺的工具但這件事情對於人來說又是一個視覺理解的一個很重要很重要的一個媒介就因為什麼是長鏡頭人活在這個世界上就是長鏡頭我們的眼睛就是我們的相機我們不停歇的在這個世界上面做各種各樣的事情對吧然後我們看到的東西這個介質都是video都是視頻但是我們又能看到這個視頻的這些像素背後的一切東西我們能推理因果我們能感受到空間對吧然後賈長科說了一句話我覺得我非常認同他說這個電影之所以很有意思這個還是他在紐約的時候跟我說的他說這個很有意思是因為你如果只看這個timeline的話這是一根時間軸它是一個線性的時間軸但是在這個時間軸的每一個點上你需要一個空間去擴展它的時間就像我們現在在說話雖然是一個靜態止畫面但是假設你現在有一個長鏡頭或者說你現在在紐約街頭然後在當爸大橋下面其實你看到的還是一個又一個的frame但它背後其實體現出來的東西是這個世界的狀態是整個空間的這種全局的信息這件事情是完全超越你的鏡頭所Encode的這種單獨的單一的每一幀每一幀之外的我覺得這件事情非常有道理所以這件事情讓我覺得接下來還是得要做視頻即使視頻難做即使視頻需要處理海量的數據但還是要做對所以看BIAS我們就做這件事情然後這件事情它有點像一個positionpaperpositionpaper就是一些應該怎麼翻譯應該就是一個觀點式的論文就是我想要提出這樣一個觀點所以在那裡面我們講某種supersensing的概念就是說超感知的概念然後它還是一篇關於數據的論文它還是一篇關於這個結構架構的論文然後它也是一個關於這個SpatialIntelligence的一個論文所以菲菲老師也幫我們提供了很多很多寶貴的建議但核心是說我們想要定義一個範式是說接下來多麼泰到底應該往哪走然後所以你如果一步一步看這個問題的話就是說我們可能是一個不恰當的比喻但你可以拿無人駕駛裡面來類比你可能有一個L0的系統就是什麼都沒有的系統這個東西就是一個LargeRangeModel它完全不能觀測到這個世界所有的這種VirialKnowledge它看不到圖片它也看不到視頻對吧但是它能夠通過語言的方式像柏拉圖洞穴預言一樣能够侧面的了解这个世界这件事情没问题我们叫他L0L1是现在的多莫泰系统稍微具备了更好的能力他能够所谓的showandtell就是说你给他看一个东西然后他能够告诉你关于你给他看东西的一些答案对吧你问他一个问题他回答一个答案这个可能是L1然后L2我觉得是我叫它streamingeventcognition就是说现在这个东西不只是看一张静止图片了你会有一个连续的streamable的这样一个visualstream就是视觉流你的智能系统需要能够了解这个视觉流然后能够去process就是处理这个视觉流然后并且能够回答一些问题能够去understandwhatshappened然后再下一个stage我叫他specialcognition就是这件事情是我刚刚说的是你在这个时间的序列上面的每一点怎么样去能够看到超越他的当前真的背后的就是这些像素背后的空间对吧这件事情也是一个人非常unique的本领到最後其實我覺得終局就是說我們需要一個predictiveworldmodel有某種預測性的世界模型這件事情才能告訴你關於你observe的這種realworld的一切我覺得我想通過這個paper想要講的事情是說我們在build一个阶梯然后一步一步通向一个世界模型的未来我们虽然可能不知道应该怎么define这个世界模型知道在这个paper里面我们不会去做这样的define的工作但是我们可以去知道有哪些capability是我们必须得要有的对所以这是这个paper的核心然后这个paper然后我们也拍了一小段视频这个我还发到我推特上也是一些学生我们也没有花任何的钱也不是为了宣传就是一些学生拿着摄像机然后在纽约的街头上面拍了一段我们也很不幸没能拍出来避干式的长镜头但是边走边拍然后算是一个写给纽约的情书然後但是很多人不理解說你們拍這個東西幹什麼這個東西跟你們paper有關係嗎我說當然有關係了我們這個paper的本身就是在講一個活在這個真實世界裡面的智能體它是怎麼能夠去攝入這種連續的視覺流的信號并且能够去感受到这个世界在发生的事情他们可能会被一些事情触动对吧会会surprise会会感到惊讶但更多的时候他的大脑会有一个某种自发运作的这种世界模型在指导大家做自己就指导大家活在这个世界上对我觉得这个这边其实还蛮有意思的因为我其实也以前也没有做过这种有点像希望想要set一个agenda就是定义问题的这样的工作所以说也是希望向菲菲老师多学习吧就是菲菲老师经常说北极星对吧那我一直在问的问题也是到底什么是视觉的北极星到底这个问题到底是什么应该怎么去解决它对所以这是这个paper你有找到答案吗找不到答案找到答案我就不坐在這我覺得這是一個終極問題我覺得這不是一個計算機視覺的問題或者說其實其實我想說的是其實計算機視覺這個term也很有趣吧它叫vision那vision有兩重意思它是一個非常有奇異的詞語vision既指你的視覺又指你對未來的預判對吧就你說你一個人很有vision有願景visionary有願景所以我覺得computervision其實我完全不會我可以說我是一個做computervision的人但在我定義下的computervision它是一個perspective它不是一個具體的任務它甚至也不是一個具體的領域它是一個perspective就是它是一個觀點或者說它是我覺得智能就它蠻本質的它是智能一定要解決的一系列問題的總和這個東西叫做Vision對我說具體一點就是什麼是Vision或者VisionCare哪些問題呢不一定能說得清楚讓我想一想它第一它Care處理的信號是連續空間的高緯度的有噪音的信號對吧這是ComputeVision要解決的問題跟别人要解决的问题不是在纸上写了大量的文字我们现在要能够演化出某种智能它不解决这个问题它address这个market它的target的这个市场就跟language完全不同对吧连续高纬度有噪音的信号这是为了要解决的问题第二从做Vision第一天起从我刚刚说我的第一篇paperDSN或者Head这个HEE开始我就知道或者说我就有这样的一个bet吧就是Vision其实最重要的事情就是要学会这种层次化的表征就hierarchicalrepresentation这件事情是非常非常重要的如果你的表征没有层次的话你是没有办法去解决这个世界上很多的问题的层次化的过程就是一个抽象化的过程抽象化的过程就是一个所谓的泛化的过程是一个generalization的过程这件事情跟languagemodel又很不一样因为languagemodel是纯粹在语义的空间里面去思考这个问题的所以當然還有一些其他特點比如說我說visionasaperspective比如說我想想它又是這種大規模的並行化我們現在能看到很多很多的東西我們大腦的皮層有很多地方在fire對吧然後我們在並行的處理很多很多的不同object以及它們的因果規律然後intuitivephysics它們的物理變化这些事情是在不同的时间然后在不同的空间都在同时发生的然后我们能够有一个方式能够capture所有的这些变化我觉得这件事情也是视觉的一个很重要的特性然后最后可能还有一个就是某种不知道应该怎么样去define这件事情某种特征的共享這件事情意思是說比如說我看到就這件事情涉及到的語意的部分或者真正的understanding部分可能會更多一點就是說我現在看到一個小孩畫的一隻狗和一隻動畫片裡面的卡通狗和一隻真實世界裡到處跑的狗對吧然後我是怎么把所有的这些不同的这种entity能够connecttogether对吧让我们有构建这种抽象的认知说他们都是狗对吧虽然他们千差万别在这种data的角度上面他们差的太远每一个pixel都没有可比性所以我想说的是vision要解决可能会有更多了我其实也没有仔细想过对反正它会有一些这样的共性这些特点对吧层次化结构然后这种continuousdomain的模型continuousdomain的modeling然后还有这种大规模的并行和大规模的共享我觉得这些事情都是智能体的一部分这件事情不能够简简单单把它们归约为只是一个computervisionsystem要解决的一小块问题对所以这是为什么我会觉得computation这件事情我觉得虽然现在越来越少的人去做这个方向学生也越来越少申请的学生也越来越少大家在本科时候选择的这个方向的时候也越来越不愿意选择对吧一个东西叫做computation然后faculty招人的时候也是我们可能也越来越少的招一个做纯粹的computation的老师但我觉得这件事情是如果你认为计算机视觉是一个perspective的话我觉得这件事情是一个智能的本质你看過去這幾年CharlesP. Key來了之後CV以前其實是人工智能佔據一個非常中心的位置當然這是在你入行之後發生的這幾年LM興起了CV被退回到一個比較邊緣的位置在這個過程中你覺得你們這些人沮喪嗎我觉得我不沮丧我觉得完全不沮丧我觉得像我说的我要感谢这个LM对没有LM的话Vision也没办法拓展到现在这种真正的多模态智能的这样一个大的scope就其实在视觉的发展史在看来其实也有两根轴你可以画这根轴是说在古早时期对吧在最early的stage计算机视觉所要handle的事情永远是这些最单一最具体最简单的任务比如说MNIST的数字识别对吧1234我要把它显示出来到底是数字几然后到后面有一些小的数据集像CIFAR这样的数据是一个32x32的像素上面的十分类的问题是猫是狗是汽车是飞机然后再到后面像有imageNet这样的dataset出现它变成了一个在256x256的这种level然后做classification的问题对吧但这些时候还比较相对来说比较可控然后再到后面会有detectionsegmentation就这种更结构化的这种认知的过程对然后这些是commitvision然后再到后面对吧这根轴继续往前推演就会到比如说这种multimodellargeandsmall的形式当因为多模态的介入我们可以很容易的放弃很多这些具体的比较固化的这种task的design这种任务的design然后去那我现在就可以拿着一张图问各种各样的问题supposedly这件事情语言作为一个很好的interface或者语言作为一种很好的界面它是可以去帮你解决很多很多问题的对吧所以你可以看到这个时间这个轴这根轴是从task从简单到复杂的这样一根轴但也是一个语言开始慢慢介入到computervision的一根轴对吧這裡面會有兩個問題第一件事情是語言介入到微軟之後帶給我們巨大的好處讓我們可以很自由的定義問題我們可以問任何事情然後可以得到任何答案但第二個很重要的風險在於語言的介入導致你對語言的依賴也變多了所以導致所謂很多多麼太的時候這些任務其實跟視覺沒有什麼關係純粹是一個語言的問題然後從這個角度來講我當然是覺得對哎威震好像變得邊緣化對吧但我當然不會覺得沮喪我會覺得這是一個巨大的機會因为等到最后就是如果你现在解决的问题比较简单的时候那无所谓你用语言能解决的问题你就用语言去解决就好对吧虽然我没有看到我没有办法做所谓的grounding就我没有办法知道你描述给我的这个红色的苹果到底什么叫做红色到底什么叫做苹果但3号通过这种统计信息在语言里面我还是能够去完成一些决策的任务这件事情无可厚非我觉得没有问题但这里面暗藏的巨大的机会是说等到真的有一天我们需要去dealwith这种真实世界里面真实的task去build某种真实的intelligence那现在这种不够完美的这种视觉的表征就会是一个重大的缺陷所以楊若昆的說法是現在大家都是只是主著拐杖這個拐杖就是語言模型本身對吧雖然你可以走路然後你會覺得我還走得挺好的但是你可能跑不起來你也沒有辦法去參加這個奧運會因為你有一根腿這部分是所謂視覺的表徵的這一根腿現在還是不夠好為什麼你說是真實的intelligenceLLM為什麼不是真實的intelligence因為我覺得LM是虛擬的intelligence但是我們的智商所謂的智力不也是虛擬的嗎我覺得可能虛擬這個詞不對我定義的真實是說是跟真實的世界要發生交互的對這個意思是什麼就是說你看現在LM能解決得很好的這些問題大部分還是在digitalspace發生的比如说他能够记下来所有的这些factualknowledge他可以去知道对吧我们可以把所有的wikipedia的这些article全都存在里面可以告诉我们想知道的一切他可以做很好的这种法律顾问他可以去甚至可以去帮忙去总结知识然后去做education去做教育大量这些东西对吧然后我觉得LM当然是革命性的但是这件事情跟我刚刚说的visionasaperspective要解决的问题其实完全不是一个市场就是如果你现在要handle的东西是continuousspacehighdimensionalnoisy的这种domain的话比如說機器人這些space不只是機器人機器人是其中一個很好的例子我等一下會說這些事情很難被tokenized他們已經脫離了這個virtualspace脫離了這個digitalspace对吧这件事情涉及到什么样的task呢你说非常对我觉得机器人是一个也会有很多的这些industrialapplication对吧industrialprocess的control就是说一些所有的这些涉及到sensorymodeling的这些信号就是说你有一个有很多不同的这种sensor对吧这种传感器然后它会感知到这个世界里面在发生什么事情然后你现在要有一个统一的算法去去model这个environment这个system使得你再去perform一个action或者intervention就是说你在有一个动作或者你有介入的时候你能够去预测出来这个系统接下来会发生怎么样的变化这件事情是LM很难做到的然后这件事情你说非常对我觉得在我看起来其实是有两个极端一个极端是LM非常擅长在数字化空间里面做很多很多的事情并且非常擅长通过用coding这样的interface对吧通过agent的方式去介入到我们的物理生活之中这件事情也会发生也没有问题但总归是它还是基于一个离散的token的这样的一个position最右边是robotics但这个robotics不是简单的robotics这个robotics必须得要是真正的generalpurpose的robotics就他能够generalize到就是放话到一定程度使得他能够做人能做到一切他有自己的一套决策系统然后他有自己的一个自己的大脑然后我现在感觉就是说这两集对吧然后从LM怎么样一步一步推演到这个Robotics我觉得这才是计算机视觉或者在新的时代下面视觉智能所要解决的问题對然後我覺得這件事情也是多麼態的未來因為很明顯現在Robotics還不work然後我經常跟學生說或者跟我身邊的人也說其實我最想做到的事情是通過不做Robotics的這個方式去解決Robotics的問題為什麼呀因為你覺得Robotics的方式解決不了Robotics的問題嗎倒也不是因为我觉得我们每个人就我觉得Robotics进展也太快了对吧现在这个春晚上面这些预书什么的对我觉得都令人有点瞠目结舌但另一方面我觉得还是要有人focus在预训练的部分就是所谓的这种机器人大脑到底是什么或者这个大脑包含了你的视觉系统在控制的部分在硬件的部分这部分又是说兄弟爬山各自努力我觉得我不需要去过早的介入硬件然后去做这些事情对我觉得现在有fundamental的research问题在软件层面没有解决在这种大脑的构建上面没有解决我们需要先专心把这一部分解决好当然这一面很多人会argue说你必须得要有一个相当于一个闭环你得要有某种合作的方式你得要在你的机器人上面去做验证不然的话你现在build的某一个算法某一个模型可能用不上这件事情我也完全认同但我觉得这件事情可以通过某种partnership的方式我只是不想买回来我也没钱我也买不了那么多机器人机器人也有自己的硬件的skininlawbytheway你是需要买很多的机器人才能做好一个硬件的对我想focus在大脑的部分然后我觉得这件事情是计算机视觉需要解决的问题是表征学习需要解决的问题也是我觉得到最后世界模型要解决的问题你看凯明那么早就开始想就是要大大大为什么LLM的skillinglaw比CV要早那么多好问题对我觉得首先不能说早那么多因为CV现在没有一个scalingout对吧然后其实之前我是我们都很绝望的我说哎呀这个vision怎么始终没有这样一个scalingout现在可能还行现在比如说这些videodiffusion有一定的scalingbehavior所谓的scaling是你能把数据吃下来对然后你能够得到更好的结果对吧啊或者说或者说这个更形式化的刻画就是说你skinlaw就是说你现在如果有一个transformersystem那我现在满足这个c等于6nd的这样一个配比就是说你的你的你的compute基本上等于你的6倍的你的你的tokens和你的你的numberparameters的成绩嗯然後我想借用這個形式化的定義來說這件事情是因為我現在覺得越來越覺得Vision不需要要ExtraSkin了為什麼因為AgainVisionCare的事情跟LanguageCare的事情完全不同我的一個不能說暴論吧但是是一個觀點長期的觀點並且有很多做NLP的人其實都認同這個觀點就是說LanguageModel其實不是一個自建築學習的過程它其實是一個StronglySupervisedLearning的過程就是說它是一個強建築的過程這件事情看你怎麼看什麼叫做有建築或者沒有建築就是這裡面的邏輯是這樣的通常我們講說你有沒有外部的這種annotation外部的label這件事情決定了你是自監督還是還是這個還是這個強監督學習對吧但語言這個東西太特例了什麼是語言語言是人在過去這麼幾千年的civilization然後經過不斷的演化然後在不管是社会学的意义上还是每一个人单独的个体的意义上然后process了所有的关于这个世界的一切然后以一个pokenized的方式把它存储下来恰好我们有了一个东西叫互联网然后我们把这些knowledge全都upload到了互联网上面去所以恰好对于所有的LM的researcher来说这件事情是forfree但一个东西免费不代表它没有label那一個問題就是說假設我們現在沒有互聯網那你現在要訓練語言模型你還能做得到嗎打輸訓練技術是的或者說假設你沒有輸對吧是的就是這種knowledge的upload這件事情本身是一個supervisionconstruction的過程對吧所以这件事情跟视觉是不一样的所以有点像language想要解决问题始终停留在这个target的这个yspace就我们通常讲你有一个x到一个y的一个映射就是所有的机器学习你可以通过某种不管这个x跟y在哪里反正你可以去这么去定义这个问题然后y通常大家讲是supervision是label然后x是你的数据对吧你可以认为这个languagemodel其实只在刻画这个wisespace上面的事情但这件事情是对回到刚刚的问题就是说这件事情其实不足以代表这个世界的全部有很多东西你是没有办法去通过语言去描述和刻画或者说这件事情既是language的好处也是language可能最后像我说的可能会逐渐凋零或者说LM不会作为这个整个世界模型的根基的一个原因原因是就是它的好处是这件事情你不需要做任何事情就可以跟人有某种对齐因为你写下来的每一句话每一个文字都是人写的都是人写的对吧你寫下這件事情就是language是什麼language是一個communication的toollanguage不是一個思考的toollanguage甚至不是一個你decisionmaking的tool它是一個communication其實它是一個交流的工具所以如果它是一個交流的工具的話你總要make一些tradeoff你總要犧牲掉一些東西對吧所以然後我覺得我想說的事情主要是它作為交流的工具跟人對齊的很好但另一方面它也失去了很多本來它就是一個智能系統應該去model的東西比如說我們現在說我有一個杯子掉在地上碎了其實這是一個語言那我們之所以這麼說是因為這就是我們對最適合我們溝通的一個東西我們只在乎這個事情的結果和狀態對吧我們不在乎一個杯子掉到地上它到底是怎麼碎的它滿足了哪些這種物理定律它背後的這種動力學規律到底是怎麼樣對它dynamics到底是怎麼樣這些事情我們都不care所以我覺得這也是它的一個曲線嗯LLM的人會抱怨說加入視覺以後有可能會影響他們的智商為啥真的嗎對他希望像楊智霖就是說加入多麼態他們希望不要是一個傻的多麼態是我同意當然不應該用一個傻的多麼態到後我覺得是如果不加入視覺你一定會很傻然後但我覺得這件事情其實問題的根本在於到底怎么定义聪明和傻对,就是对智能的定义是不一样的对智能的定义是不一样的然后或者说到底怎么去定义什么是一个简单的任务,什么是一个难的任务在過去的幾十年的時間裡,所有的這些人工智能的研究會不斷的去撞到這個所謂的Merovicparadox,這個Merovic悖論上這個悖論說的事情是說對,對於機器簡單的事情,或者說Theeasyproblemishard,thehardproblemiseasy這是一個悖論,就是說對於機器簡單的事情來說,對人其實是難的對於機器難的事情來說,對人其實是簡單的你在NYU好像還有幾篇工作對,我覺得從BSTAR開始VSTAR其實只是一個工作我覺得蠻有意思可以講一下因為我們是第一次覺得想要在一個multimodalsystem裡面去building一個system2所謂的這種可以去在testtime做scaling的這樣一個模型就是說我們看我們周圍的世界的時候比如我現在要問你一個問題對吧比如說你周圍的這個旁邊有個垃圾桶是什麼顏色的你不会直接像语言模型一样直接告诉我一个答案你一定会去先去想一想哪里有这个垃圾桶你可能会回家投发现那有一个冰箱也许这个垃圾桶在冰箱旁边然后你会localize这个物体然后找到这个物体对吧然后告诉我一个答案所以你是有这个viral的推理在这对吧某种视觉推理在这的然后这件事情完全是一个推理过程中的一个behavior然後這件事情我們當初就做這樣一個系統然後這也是比比如說在這個CHP01之前很長一段時間對至少隔了幾個月吧然後我們開始做這件事對那時候這種testtimescaling還完全不是一個buzzwordNobodywastalkingaboutthis對吧然后我觉得这件事情可以聊是因为这件事情其实对于我来说其实是一个鼓舞我觉得它既是一个我觉得它是一个bittersweet的这么一个lesson吧就是说它苦苦涩的一点在于我先跟你讲发生了什么就是说我们有这个paper之后我们有了自己的一个benchmark然後我們找了就是我有兩個朋友這個AlexKirilov他也是這個SAM的作者然後還有博文他倆在OpenAI工作所以我跟他們聊了很長很長的時間我告訴他我們這個工作做了什麼事情我們這個Benchmark現在在這你可以拿去玩一玩並且我也講了一些關於這一年背後的邏輯對吧就是說你怎麼樣能夠去做這種ViralThinking然后后来Alex和Born就在OpenAI里面drive这个project这个project就叫thinkwithimage然后后来隔了大概可能一年多的时间对吧然后这个productlaunch然后这个productlaunch之后就叫thinkwithimage然后里面其实很多example或者他们benchmark其实就是我们这个配备的benchmark所以我觉得它让我觉得很幸福的一点在于这是第一次我觉得我们其实可以有办法真的走一条不一样的道路這件事情可以somehow啟發在OPI的researcher去improve他們自己的模型我覺得這件事情至少讓我覺得在學校裡面有事情可以做但另一方面又比较bitter是因为你想在那个时候OpenAI对吧在SAR的时候我DIT之所以大家能够去接受也是因为DIT会在SAR这个blockpost里面会被cite或者说BU的名字在上面让大家能够去找到这个逻辑和背后的线索对吧但很不幸我觉得慢慢最近的几年时间里面其实industrial的这些researchlab变得越来越close所以一开始大家发论文后来大家不能发论文了可以写一些blogpost可以加一些citation也可以把每个teammember的名字写在上面再到后面可以发一个blogpost但已经不能有署名了只能有一个对吧OpenIT或者GeminiTeam就结束了所以我觉得这件事情會導致我不知道接下來的這種本來可以很良性的學術界跟工業界的這種交流的這種渠道是不是會被打斷對吧就我們做research本质上还是一个为爱发电的过程就我们为了探究这些问题我们也不是为了真的它能够deliver什么产品或者赚多少钱但另一方面某种creditassignment就是让大家知道谁做了什么事情我觉得这是在过去的几十年里支撑学术界能够往前走的一个机制但现在这个机制慢慢被LM這一代的對模型以及這一代模型背後的這種組織結構我覺得慢慢打破了它變成商業競爭了它變成了一種商業競爭是的對然後對然後quicklyconclude一下我覺得還有兩篇我覺得我想迅速提一句的這個論文就是說這個REPA這個東西叫representationalignment你看又有一個keywordrepresentation所以這是為什麼非常喜歡這篇論文但這篇論文也是經歷了這麼長時間然后所有过去的这些工作以一种奇怪的方式组合到了一起,形成了某种化学反应,然后开启了至少一个小的这个research的domain吧,对,然后做的事情很简单,它本质上是一个deeplysupervisednets,就是说你现在一个模型不只有最上面有一个diffusionloss,就是你finalobjective,你中間還會拉出來一些其他的這些object你可以有其他object我們用的這個object是說我希望能夠讓我的一個diffusionmodel它是一個生成模型,bytheway讓它的internalrepresentation能夠跟外面的一個自監督的一個模型的representation能夠align到一起就这一面Again讲的事情是说表征是最重要的事情它不但对像Camber1这样的系统做MultimodalUnderstanding重要它对一个生成模型生成图片生成视频也很重要对所以这件事情我觉得是一个对我来说一个蛮大的启发但这件事情还没有做到位就是说我们为什么要用这种DPSupervision的方式一个非常间接的方式去做alignment呢Whatif对吧能不能直接用这种很强的这种representation作為你的生成模型的一個encoder或者說作為它的一個foundation對吧然後這件事情又是再往前推了一步我們也得到了很好的結果這個paper叫做RERepresentationAutoencoder對它也涉及到表徵也涉及到openencoder但anyway這件事情裏面的邏輯我覺得again我不想說太多的paper的detail但我覺得有一件事情馬一老師當初我去香港訪問的時候我覺得他說的非常非常對他说有学生就会问说你这样做这件事情对吧你的autoencoder你的表征层现在会变得非常高伟因为它是一个表征了它不是原始的简单的这种pixel的representation也不是一个低伟的VAE的这样一个representation它是一个高伟的表征你想在这个高伟的表征上面去做去造去生成图像这件事情其实是一个很难的事情对吧然后有学生当初就提问说啊这个维度太高了可能不一定是一件好事啊然后可能会让我们的学习系统变得更复杂或者说训练更难啊首先我们的结果啊完全是相反的结论但是马亦老师就很激动他站出来说说我要告诉语重心长的告诉大家说你们一定不能害怕高维度啊高维度是所有机器学习里面非常非常重要的一个基石不管是之前的所谓的这种核学习的方式kernelmethod还是现在为什么一个transformer里面我们得要有这种upprojectionlayer对吧你要有一个地围的向量进来然后把它变成一个4倍宽的这样一个fullyconnectedlayer对然后所有这些事情都是在讲述这样如下的事实就是说你在一个高围的空间里面很多问题原来在dv空间里面解不了现在可以解很多问题很多信息原来在dv空间里面没有现在可以有然后你也会有更好的efficiency然後這是傳統機器學習理論為什麼你要做升維之後使得事情使得你的datapoints可以變得線性可分都是同樣的邏輯但我覺得我受到很多的鼓舞是說你不要懼怕高維我覺得這件事情用詞很好因為很多時候大家會覺得會害怕會害怕不只是高維度的representation表彰這件事情也是害怕逃逸出當前的某種localoptimum就是说我们现在就我们之前做的很多事情都是为了要跳出这个localoptimal所做的像VE就是当前这个时代里面的一个localoptimal我们希望用一个表征学习的方式把所有事情串联起来然后这件事情其实是一个很自然的事情对吧然后现在有很多人做相关的这些论文有很多同期的工作也都非常好但另一方面這又是一個沒那麼自然的事情因為你需要去跳出原有的框架去做一個新的事但當你能夠跳出這個localoptimum去做一個新的事情的時候我覺得你會感覺你的世界被打開了因為RE對於我們或者對於我的research來說我覺得還是一個蠻重要的工作因为它告诉我一件事情或者说让我能够去make一个bet或者说我们能够预测一个未来这个未来是什么或者对还是不对我们可以过几年之后再来看所以这件事情也跟语言相关也跟diffusionmodel像最近很火的seedance所有都有关系我现在的bet是说这个世界上只有一件事情是重要就是怎么学习到这个表征这件事情是重要当你有一个足够好的表征之后在上面处理其他的问题都是简单的你的languagemodel会逐渐会退化到一个简单的communicationinterface它不像现在一样所有的这些多模态的智能都是通过大语言模型驱动的你的表征层只是提供一些简简单单的一点点context进去大部分的这些所谓的heavylifting就是这些脏活累活都是靠大语言模型来做到的我要makethisbet是说未来事情不会这样未来你会有一个很好的foundation它是一个很好的表征但它也是一个很好的世界模型然後它什麼叫做這個世界模型這件事情我們可以再聊但是這個foundation本身它可能不是一個checkpoint它有可能是一個neuromodularconnectedtogether的multiplecomponents的一個cognitivearchitecture哎呀說的好複雜但本身上就是你的一個大腦它有不同的區域在handle不同的事情語言會慢慢LM層會慢慢退化成這個你的本質的這個表徵或者說你的這個世界模型的這個Foundation的一個接口它還是很重要它永遠不會消失因為人需要通過一個LargeImageModel提供提出問題然後回答問題對吧它要去跟它溝通需要跟它溝通它是一個界面對另外就是說你還有一條線是說你的pixelgeneration本身就是你怎麼樣生成一個圖片一個視頻本身這件事情通過RE通過REPA我們之前一系列的這些工作可以看到它也需要基於一個足夠好的這樣一個表徵的基礎或者說你可以認為它它是一個世界模型again在我這裡面在我的定義下表徵就是一個世界模型最重要最重要的一個部分它不是它的全部它才是最重要的一個部分但當我們有這樣的一個foundation之後你可以認為我們可以把它輕易的decode成語言對吧然後我們可以輕易把它decode成一個pixel然後生成視頻我們也可以把它decode成某種action某種動作所以它可能就是某種現在的這種VLA的類似物但它是基於一種更強的表徵更強的世界模型的一個架構現在表徵包含哪些部分語言是其中之一我覺得是其中之一對當然這件事情也有爭議就像你剛說石林可能說他不想讓視覺來污染語言他們還是會做多模態但是要想怎麼讓多模態變成一個聰明的多模態不會讓整個大腦的智能水平降低是的這件事情但我要講了這件事情真的取決於你怎麼定義這個問題但我先把前面一句話說完就是說你說比如說語言在其中的位置對吧我覺得我們也會有自己的擔心就是說語言其實是一個毒藥或者語言其實是一個鴉片你加多語言你總是會覺得更幸福的那說不太有用這個拐杖它有用但它是一個shortcut如果你一個人如果一直吸鴉片你就廢了然後如果它是一個拐杖拄著拐的話你也沒有辦法訓練你的大腿的肌肉然後這是你跟志玲的兩個perspective對所以我非常擔心語言對於視覺的污染這件事情對我來說非常非常擔心而且這個污染已經在發生了這個污染的發生的狀態是這樣的這個污染的發生的狀態是整個LogicModel有一個巨大的這樣一個價值鏈條从工业界一步一步传到了学术界这个价值链条是说我们在最上层有一个narrative这个narrative是whateverATI,scalinglaw,betalesson,LM这些叙事的逻辑现在的圣经啊对等一下我们给你讲一下比特拉森因为我完全不觉得LargeRangeModel是一个比特拉森的一个展示LargeRangeModel其实是反比特拉森的最后哪些表征会是足够通用的表征它的终点是什么呢終點我們可以叫做就是世界模型所以也許我們可以討論一下在我定義下或者在於這個表徵的context下面世界模型到底是什麼意思什麼是世界模型對這也要馬上進入到你創業的話題了我們先從對動態到世界模型對是這樣就是嚴格定義上來講世界模型就是說你現在給定一個系統或者一個環境的狀態好这个环境状态可能就是比如说你可以认为它是在当前时刻的一个状态但世界模型也不一定只是做所谓的temporal上的prediction但我们先不管这些事情总之是你现在有一个系统或者一个环境你有一个状态ST对吧然后你有一个intervention或者action比如说我们叫它AT在当前时刻你对这个系统施加一个动作你现在希望能够学到一个predictivefunction或者transitionfunctionF使得它能夠take你的action跟你當前的這個state這個環境的state能夠去predict下一個state對吧就是下一個時刻的state所以這是最基礎的一個general的這種世界模型的一個定義然後這個定義本身其實又無比的直接或者說甚至有點trivial因為這件事情不是一個新的概念因為其實1943年的時候有一個生理學家叫KennethCraig他第一次提出了這個概念他就說人在腦子裡面是有這樣一個世界模型的這個世界模型能夠告訴我們當我們去做某一個動作的時候接下來會發生什麼樣的後果我們因為能夠預測我們的動作我們的action帶來的後果所以這件事情能夠指導我們到底應該去take什麼樣的action和做什麼樣的決策如果我知道我把手伸到火堆裡面我會疼我就不會把我的手伸到火堆裡面這件事情這種prediction的這種結構其实也是过去包括controltheory这个在六七十年代然后大家怎么样把一个月球探测器送到月球送到什么地方对吧然后其实大家也需要基于这样的控制系统比如说一个经典的算法叫做modelpredictivecontrol这一面也涉及到一个model但这个model其实也就是某种wordmodel这个算法其实也非常简单就是说你现在需要讨论我到底应该施加哪一个controlsignal给这个系统使得它能够去完成我既定的一个任务对吧然后我要做的事情是说我在当前的时刻通过我的模型去rollout去滚动输出接下来的kickstopaction一个actionsequence就是说我现在要输出我接下来的一个actionsequence动作的一个序列然后我要通过这个动作的序列用我的这个model去得到下一个时代或者说每一个step上面一个state然后最后我也会有一个某种costfunction一个度量函数然后告诉我我执行了这个动作序列之后我离我最后的这个目标距离到底有多远所以这个算法就非常简单就是说你不断的去sample你的actionsequence然后跳回到第一步就是说然后找到cost最低的actionsequence执行它的第一步然后重复迭代的去做这个动作对吧再rollout下一步的actionsequence对所以在每一次你都要做一个决策然后这个决策的来源都基于你对未来的这个预测对这是所谓在这个ModelPredictControl里面大家怎么去用这个WordModel然后再到后面比如说在ModelBasedRL里面ReinforcedLearning里面其实大家也意识到说一个WordModel其实是非常重要的然后所以这面有一个经典的论文是DynaDYNA这个paper其实是RichSutton的paper對所以RichardSutton自己寫了這樣一個paper然後他講了一個很有趣的觀點或者一個framework他講其實人的智能體系可能可以分兩種一種叫做reactivepolicy一種可能叫做某種更智能化的modelbasedpolicy對吧這件事情其實這個類比是所謂的system1system2這種analogy就是humancognition也有所謂的thinkingfastthinkingslow對吧就是對於很難的問題我們可能要需要更多的mentalcycle然後去study這些問題但對於一些問題來說我平時或者說我們開車對吧我們剛學開車的時候緊張的不得了我左看右看然後需要做很多的決策當你真正會了開車之後你就會把這些決策內化成為你自己肌肉記憶的一部分它就變成一個reactive的policy對吧所以RichSutton在Dinah的paper裡面說了一個很有趣的事情他說Whatisreinforcementlearning? Reinforcementlearning是一个非常基础的没有模型的没有这个世界模型的一个learningalgorithm所以RichardSutton自己其实也是有点反purereinforcementlearning至少在当初的那个时间在他的这个paper里面他讲一个更好的一个系统当然是说如果你有一个足够强的这个世界模型你可以基于当前的state去预测下一个state对吧那这件事情你就有这种所谓的planning的capability在里面了就是planning就是所谓做计划的能力然后planning其实跟reasoning也在某种意义上也是同样的概念reasoning现在在LargeandSmall很火但事实上我们需要的这种planning然后以及这个planning对于decisionmaking的这种意义其实是在当初很早很早在controltheory,theoremofforcedlearning其实大家都在讨论的所以我覺得這是一個worldmodel的歷史所以如果從這個角度出發worldmodel的實質是怎麼樣去刻劃一個系統和一個環境使得你能夠在這個系統裡面去做預測並且這個預測能夠指導你的action的sequence以及你自己的決策代言模型是predictnextworld這個是predictnextaction其實是基於這個actionpredictnextstate對怎麼理解statestate是最少的信息可以描述一個系統的所有狀態的這麼樣一個信息的來源吧可以這麼認為一個state是說比如說對這件事情也涉及到一個很有趣的事情很有趣的另外一個事情我們等一下討論就是這件事情跟表徵的關係到底是啥對吧我們為什麼說是一個最小信息的一個刻劃單元呢是因為假設我們現在就是說我們現在這個物理世界對吧我就說我地球吧或者我先不說那麼遠我們先說我們這個屋子對吧這也是一個環境對吧那刻劃這個環境的state是什麼对吧这个state如果你不追求这种所谓的最小信息或者minimaldescription那他就是可以是比如说我们现在把整个的这个space全都重建起来对吧然后我们精细的去刻画这个系统里面的所有的参数包括这个桌子上的纹理包括我们声波对吧包括我们这个桌子的质量这个话筒的这种各种各样的physical的这种parameters但我们不会这样去刻画这个系统因为很多这些信息对于我们的决策来说不重要因為其實如果假設我們現在一個智能體活在這個目的是我們現在要聊天那我只需要知道一些基本的這些事實就夠了比如說我的這個話筒可以在這個桌子上可以放住然後我不會去關心每一點的這個光照也不會關心這個桌子上每一個細節的紋理對吧這些事情都不重要所以這個state其實可以包含很多很多的信息也可以包含enough信息就是足够多的信息这件事情是取决于你要解决什么样的任务的那这件事情是什么就是怎么样去构建这样的一个state呢这件事情其实也跟表征学习是直接相连的表征学习像我刚刚说的对吧我们要有一个层次化的这种表征这种层次化hierarchicalrepresentation其实目的就是说我们怎么样能够去慢慢develop出来这种一层又一层迭代上去然后越来越抽象越来越对我的decisionmaking越有意义越有价值的这样的representation他不会精细到每一点他不用精细到每一点那现在怎么抽象呢而且我们也不能精细到每一点就做不到对因为这件事情很显然对吧就比如说我们现在要造一个飞机然后这个飞机比如说我每比如我们像model这个飞机的一个动力学系统对吧我要知道这个怎么样它能够比较省力省油对吧我們當然可以去從一個最lowlevel的角度出發我們可以說每立方厘米可能有十幾個四方的這種分子然後我們去model每一個分子的碰撞對吧然後我們通過這種方式來去刻畫我們這個系統這件事情當然不會worktotallystupidway對吧我們做的事情是說我們怎麼樣去能夠在統計的意義上去study這個問題所以這才有所謂的流體力學然後才會有所謂的這個NavierStokes方程然後一系列這樣的setting對吧大家變得越來越抽象然後但是我們能夠去這個刻畫的世界也越來越廣闊其實語言就是某種意義上的抽象語言是某種影響的抽象但是它是一種已經被證實過的抽象它是高度靈驗的它是一個已經存在的抽象它是一個存在的抽象對那你們現在想構建的是一個新的抽象在語言之外它是一個對它是一個有點它一定是一個Latent的Representation然後這件事情人可以通過側面的方式了解到你到底學了什麼樣的一個Representation或者說哪些Representation是有意義的這件事情都沒有問題它不是一個完全的黑盒子但它不是一個受限於語言的句法跟邏輯的這樣一個東西這是我為什麼說LM完全不夠bitterless就betalesson是说你应该尽可能的减少humanknowledge对吧把你的这种所谓的人类的傲慢和他所谓的这种自大这种傲慢和他的所谓的这种聪明才智以及这些所谓的比较clever的这种structure尽可能减少然后尽可能的多用search跟learning的方式去找寻答案对吧但你可以想象如果现在我们讨论的是怎么样去刻画这个世界的话语言就是这样一种structure语言是一个人类极其聪明的一个产物它有精巧的设计我觉得它本身就是它都不是多少的问题它全都是它都是对所以我觉得这件事情代表着这个语言它有它自己很强的地方而且它一定会在未来的智能所有的这种智能体系里面占据一个很重要很重要的地位而且它可以COT但COT是另外一回事了COT也是另外一个我觉得怎么讲是一个阶段性的产物吧对哦COT也是阶段性的产物OM的所有的一切都是一个满阶段性的产物這也是爲什麽LM就這件事情我也蠻同意一樣的就是LM這件事情其實它也不controllable它也不safe因爲它沒有這樣一個真正的世界模型甚至我們把LM當做一個世界模型在用但它是一個fundamentallyflawed就是一個有缺陷的世界模型然後這件事情是說其實就是說現在的所有的這些controllability或是safety你一個LM怎麼去做完全是通過funtuning的方式來設計的來實現的你需要餵給他大量的數據讓他知道什麼事情該做什麼事情不該做或者他也不能做事情什麼話能說什麼話不能說什么样的话可能会带来危险什么样的话可能是比较友好所以这叫做alignment但所有这一切都是基于某种posttraining或者某种posttraining或者funtuning的alignment带来的对但真正的世界模型其实你不需要这样做因为你可以预测你的action会leadtoaconsequence你的这个行为会带来什么样的结果那你就可以在influence的过程中去尽量避免这样的行为你可以加一些externalconstraints就是告诉我说这件事情你真的不能做比如说我有一个机器人拿着一把刀在切菜对吧然后我现在怎么样保证我这个机器人拿着刀不会向后移转把你砍了呢这件事情怎么保证对于一个Lambicmodel的思路来说你能做到這件事情的方式就是通過餵給他大量的數據對吧他得要能看到這些事情世界模型不是嗎世界模型不一定需要對世界模型它因為你能夠去預知這個結果就是我能夠去有一個動作我可以去understand我現在這個刀如果轉過來產生了一定危險會造成的結果你怎麼讓他知道呢這就是你的訓練的一部分關於世界模型現在好像它的定義是沒有收斂的比如說你們定義的世界模型和李飛他們團隊定義的世界模型的區別是什麼呀對所以我剛闡述的其實都是在我們定義下的世界模型但我覺得現在遇到很多的問題是說這個世界模型不好定義原因它其實是因為它不是一個技術路線它不是一個算法它是一個目的就是我們所有人不管你在做LM還是做什麼VideoDiffusionModel還是做這個GaussianSpotting我們所有人都在通往世界模型的道路上所以我說有時候這些競爭或者說這些arguments聽起來我覺得再過不了多久可能過一到兩年時間都會顯得異常可笑因为我们其实都在往这条路线发展然后每个人也都知道这件事情是应该是正确的道路但只是大家从不同的方向在思考这个问题比如说在我们定义下或者说我先说其他人定义对吧比如说对于一个VideoDiffusionModel的Company比如像Solar像Biden的模型像Genie对吧然後所有這些模型他們包括Runway什麼這些Luma每一個做這種生成模型的公司都在做這件事情都在positionthemselvesasaworldmodelcompany但他們其實還是主要聚焦在構建一個世界模型的模擬器上一個世界的模擬器上所謂的worldsimulator他們的目標還是能夠渲染出來足够好看的视频使得它能够有某种一致性能够有足够长的这种内容等等并且你可以在上面施加控制你可以选择像Genie一样对吧向前走两步向后走两步你要保证你有一定的memory或者whatever这件事情是他们的这种wordsimulator或者说这种生成派的wordsimulator想要解决的事情然后飞飞老师那边在worldlabs里面我觉得他更像是一个frontend的一个asset的interface这件事情也很重要因为它是一个强3D的representation所以这是bytheway要恭喜他们最近不也刚刚融资成功如果你可以看到他们融资的这些leadinginvestor对吧他们在讨论的人比如说我看到新闻autodesk给他们投了2亿美元那Autodesk是一個什麼樣的公司對吧Autodesk是一個做3D這種CAD或者WhateverDesign這樣一個公司所以在這個場景裡面你需要有一個非常非常具象化的3D的一個你可以叫它表徵它也是某種表徵但它是說你這個東西不是一个抽象的概念对吧它不是藏在你的参数里面它得要有explicit的3D的这种形式在那这样的话你才能够在这个空间里面去掌握某种空间智能才能够在这个空间里面去探索并且你能够10%的确定你不会出错對於一個generatedwordsimulator來說這件事情是不一定的對吧雖然你可以通過更長的context有更好的memory但它是不能保證的然後我們想要做的事情其實更像是要去打造這樣一個predictivebrain我們看到這個問題的核心還是說怎麼樣去提升智能本身那這意味著你覺得LM是不智能的我覺得Again就是LM是這個智能體中的一個至關重要的一部分但它不是全部它不是全部對我再舉個例子比如說為什麼LM做世界模型來說它是fundamentally有問題的比如說我們還是回到視覺這個問題上對吧我們現在坐在這裡我們稍微頭稍微扭比如說5度10度就會生成幾百幀其實這個frequency是非常非常高人的這個FPS其實是可以感知到比如說10赫茲這種頻率的變動的非常非常厲害對吧如果按一個LM的方式去處理這個問題會發生什麼呢會說至少按現在的這個方式去處理會發生的事情是我要tokenize每一個frame我们把它拉平串成一个非常非常长的序列每一帧我可以做一些当sample或者没关系whatever然后我们把它串起来对吧比如说我有256个tokenforoneframe现在可以有32个frame或者128个frame把它串到一块那你就有256x128这么多个tokens然后你把它塞到logicmodel里面拿它跟语言做对齐然后最后回答一个问题但这件事情makesense吗完全不makesense因為其實你把一個這種世界的這種representation在它背後其實是有某種globalstate的對吧你把它序列化成了一個非常非常冗餘的token然後transformer其實大家說它沒有什麼indexbias它其實還是有一些indexbias它indexbias就是說它要payequalattentiontoeverysingletoken那這件事情本身就不合理對吧这件事情代表的事情是说语言模型的矛盾的这个technique不能够解决对这种连续空间信号的这种认知的问题这件事情是不成立的对吧所以这是为什么对于我们要build这个世界模型来说我觉得需要具备如下几个特征对吧它需要去能够去understandthephysicalworld就这里面的定义是说是physicalworld虽然worldmodelapplication也会延伸到比如说这种digitalagents去比如你打游戏的agent当然也会benefitfromworldmodel但我觉得它首要的任务是要解决physicalworldunderstanding的问题然后他得要有足够大的associativememorymemory也是一个很重要很重要的对于这个wordmodel为基础的这样一个系统的中间的一环然后他能够reason能够plan我们刚讲planning能够做这种counterfactual或者这种causal的这种influence也非常非常重要然後最後一點就是說它得要足夠的controllableandsafe它得是一個安全的系統對我覺得所有這些事情Again這也是我朝樣的這個說法了但我覺得這幾點其實還是非常非常精闢的對不多不少它和大圓模式不是衍生關係是替代關係我觉得也不叫做替代关系我为什么刚刚说其实我们现在领域每个人都在往世界模型发展往前走呢对吧原因是大语言模型也想往世界模型发展其实不是这个意思是说之前没有大语言模型的时候我们压根谈不了什么世界模型你有一个纯粹的RL的system的话你纯粹是在做overfitting当前enrollment的事情Largeandsmall让你具备了一定对这个真实世界的认知的能力它构成了一个元素它構成一個元素然後但這件事情像我說是fundamentallyflawed因為它的這個認知太間接了語言能帶給你的東西實在是太少而且語言還會有其他的問題就是它是一個本質上是一個communicationtool所以我們在使用語言的時候對吧除非你說一些這個對做夢了說一些說一些夢話大部分时候你用语言是带着一个intention的你是要传达一个目的的所以说LM更像是一个在我看来更像是一个searchengine的延伸对吧或者拆爆更像是一个searchengine的延伸我们总要带着我们心里面的这个目的去问一个问题然后expect一个答案对吗然后但是这件事情不是这个worldmodel的事实就像我刚刚说的我们大脑里的worldmodel是在我们的这个background做了很多很多的工作的它甚至就有很多心理学一些反直觉的认知就是说甚至你大脑已经替你做好了这个决定在你決定要比如說我桌子上有三個按鈕在我知道我到底想要按哪個按鈕之前我已經能夠監測出來我的大腦已經做好這個決定給你这件事情这个实验好像叫什么贝利特实验还是什么是一个有争议的实验但它体现出来的事情是有很多东西是在你的background在你大脑里面已经在发生的这件事情是你的wordmodel一部分languagemodel不是这样language只是一个communicationtool你永远带着目的你永远抛出一个问题想得到一个答案它也是一个推理的tool对它也是一个推理的toolofcourse但只是symboliclevel的推理的tool所以你們想構建一個像人類的大腦一樣的世界模型我覺得要越來越看看人其實不只是人吧各種各樣的動物他的智能到底是怎麼樣發生的我先conclude一下我刚刚说的那段话就是说我觉得为什么大家一步一步都在通向通向这个wordmodel呢原因是语言模型已经侧面有一点这个wordmodel的behavior虽然它没有action它没有一个对真实世界的understanding它其实也不能够真正的reasonandplan因为它通过COT的planning还是COT的reasoning还是很不一样跟我刚刚描述的比如说这种MPClevel的这种planning他也会带来他自己的一些问题但这些都OK但再下一步你会看到比如说大家做这些不管DIY也好或者模型也好但大家还是做生成模型这件事情已经让事情变得有些不同了這也是為什麼很多人大家做VideoGeneration會說自己是世界模型我覺得也無可厚非雖然我不同意他們做的這個VideoGenerationModel就是一個最後的Endgame的世界模型但它確實比LanguageModel要往前推了一步它是怎麼做到的呢它在LanguageModel的基礎上我觉得现在所有这些系统其实也是要依赖于languagemodel的对吧就是它还是要通过languagemodel帮你去做promptrewriting然后去帮你去当做一个conditioning丢给你的视频生成的模型其实languagemodel也会变成了一个你看这个历史的进程就很有趣原来languagemodel是主体现在languagemodel变成了一个videogenerationmodel的前期的一个准备工作的一个交手架原来languagemodel里面你model的是py对吧你这个y就是还是在这种semanticspace的某种labelspace的这个信息到现在你videogenerationmodel的时候你model的是pxgiveny的概率这个意思是说你现在model的东西已经是x了x是你的数据本身你的y变成了你的一个条件这件事情已经很不一样了呃为什么很不一样呢是因为当你有一个lowdimensional的这个yspace的时候呃你在你在去去model这样一个分布的时候啊你的probabilitydensity只会在你的y的分布下面竞争就是说呃你assign的这个likelihood哎呀我这个说的有点过于technical但是总之是或者说我们先不说语言模型吧我们先说比如说一个一千類分類的這樣一個模型因為這個label也是一個語言的前身它也是一個lowdimensional的一個vocabulary對吧然後如果你要做這樣一個分類問題的話那你需要去做的決策是我這個東西如果是一隻貓它不能是一隻狗對吧我這個東西受限於我的這個labelset但是當你開始model的是PXgivenY你做一個生成模型的時候這件事情你assign的這個likelihood是說這個世界上到底有哪些現象哪些東西是更可能存在的這個事情就很不一樣了對吧因為你現在要學到的東西你的這個智能的信息量是遠大於你的PY的modeling的你需要知道為什麼在這個世界上一隻四條腿的貓要比一隻三條腿的貓更常見對吧为什么我要生成一个视频比如说我现在有一个跑步的视频为什么我有这样一个smooth的奔跑的状态要比突然产生出来一些幻觉有三条腿四条腿这样状态更可能在概率空间里面更可能这件事情已经是有巨大的信息量你已经要model的东西要远超于你在languagespace或是labelspace里面需要刻画的东西了對吧你需要對這個世界有一定的認知所以這已經是更加在我看來有一點bitterlesson了就是說你拋棄了更多的語言空間中的這種認知跟它的邏輯跟它的句法結構開始去modelpixel開始去模型這個像素本身了但再推演一步像素本身可能也是錯的像素本身也不夠bitterlesson像素是什么像素是人为定义的一个一个一个一个regulargrade对吧就是一个一个框框然后上面每一个框里面可能有256有8个bitsinformation对吧然后你可能有这种这种lattice就是你有一格一格一格这是一个像素这是我们看到的每一帧的图像这件事情也是一个借口这件事情也是给人看对吗就是WorldSimulator為什麼大家覺得這個好酷啊因為我們造出來一個視頻造出來一個遊戲這是給人看的但再往前推一步真正的比特拉森是說我不需要給人看我為什麼需要給人看呢他給誰看呢他給你的這個系統看他給你的這個世界看他取決於你到底想要什麼他可以給人看但是给人看这件事情不是worldmodel的核心而是worldmodel的接口worldmodel本身它在自发的去学到更好的表征去做更好的预测对吧但这件事情本身跟你是不是要生成一个很酷的视频其实是无关的跟你能不能回答关于你的inputspace的一些信息其实也是无关的所以Again就是我重複我剛想說的事情我們每個人都在這個世界模型的道路上前走世界模型是一個目的不是一個具體的算法或者說是一個技術路線然後總有一天我們會有一個更好的世界模型語言模型會在此之上然後它也會變得更強我們會有更好的多麼泰的模型它能夠更好的理解這個世界我們也會有更好的Video生成模型然後我覺得RE就是這個過程中的一個雛形所以現在還有很火的一個說法是所謂的UnifiedModel或者OmniModel大家試圖把所有的數據全都堆疊到一起使得我們能夠讓一個系統既能做Understanding又能做生成大家討論的問題是說我到底是理解能夠幫助生成還是生成能幫助理解我覺得都不重要理解和生成是一體的它都需要一個真正的worldmodel作為它的基礎一旦有了這個好的worldmodel它能夠做某種prediction能夠做某種planning和reasoning上層的解碼這件事情其實是非常簡單的所以你覺得它們都是你們的上層世界模式是這個底座對你可以認為我們想做的事情或是表徵派想做的事情是這個蛋糕最底下的這個底座表徵派表徵怎麼統一成一樣的表徵統一成是指那個跟language還是最終統一成某一種表徵某幾種抽象的表徵所以還是要有skilling對吧還是要有現在可以看到的除了語言還有什麼有skilling呢對語言的skilling對我們剛說到這件事情就語言的skilling本身我覺得又是一個有点说不太清楚的事情因为我们也知道有一个理论是所谓的这个compassionisintelligence对吧就是压缩其智能是的但这一面讲的事情是说你的语言模型其实是一个lossless的compassion的过程或者说语言模型模型变大能让结果变好不是因为它死心被背住了所有的这些内容而是它就是一个更强的模型了所以它能有一个更好的压缩率去压缩你所有的input这些信息它带来了某种泛化能力但我想我同意这个观点但我想后撤一步我想说其实因为语言模型在意的问题本身导致其实它的skinlaw里面其实是有水分的這個水分是說它並不需要真正用最小的模型去通過真正理解這個世界的方式去回答問題而且我們所有的這些Benchmark以及Human在使用LargeControlModel在達到的目標上或者這些任務上也需要它能夠Retrieve出來對吧就是能夠檢索出來這些Factors的Knowledge如果一個模型對吧它沒辦法告訴我比如說Wikipedia上面有一個具體的人名他過去做了什麼事情那這是一個很差的一個LargeControlModel所以我想說的事情是說語言模型的skillinglaw是基於一個對knowledge的這種representation所得來的這樣一個skillinglaw所以這是為什麼它可能會有一個相對balance的配比就是說你的numbertoken你的數據和你的parameter需要大概1比1的方式對成吉拉裡面是這樣的一個方式對吧然後去skillup世界模型尤其是基於這種VIRTUALINTELLIGENCE世界模型我覺得它會有一個非常非常不一樣的SKINLAW它會有SKINLAW但它這個SKINLAW的寫律可能完全不同或者它的這個配比完全不同我現在的直覺是這樣它的模型不會很大它模型不需要tradeinparameters因為你不需要記住如果你要做videogeneration是另說對吧但它不需要記住你能看到的這個世界裡面所有這些細微的細節它不需要通過解一個什麼確定的方程在一個巨高位的空間裡面的方式去判斷一顆蘋果是不是落下來它不需要做這些事情它不需要人類的支撐它不需要人類最高級的支撐我们讨论下到底什么是人的智商但是总之他不需要这些事情他不需要把这些这些knowledge全都记下来他需要通过很好的understanding能力去filterinformation就把信息过滤掉处理掉对吧然后因为最后最后真正重要的东西还是决策本身对所以这件事情跟人会越来越像我觉得因为人就是这样的人有很多很重要的事实对吧比如说人的视觉系统或者说人所有的这些sensor统一对吧包括听觉视觉嗅觉然后触觉这个东西其实是非常非常高带宽的这个带宽可能要达到比如说1个bitspersecond一亿到十亿这个级别但我们现在说话的时候其实这个带宽极低这个带宽只有10到10个bitspersecond所以到底发生了什么对吧我们大脑是怎么样一个模型能够在20瓦的功率下面把10亿bitspersecond的信息通过我们眼睛还有各种各样的感官输入进来转化成我们10个bitspersecond的一个行为模式这件事情是wordmodel本身它过滤大量的无用信息噪音对它有很多的冗余性然后它知道什么东西是重要的什么东西是不重要的所以过滤系统很重要对当然这个东西也是一个层级的过滤的系统确实是这样那这个世界模型怎么驯养別人模型好遜是因為其實互聯網信息就在那裡所以他可以遜呀那世界模型看起來我都不知道怎麼下手對我覺得這是一個biggestbet因為事情越通向我覺得智能的本質事情也會難走很多對我覺得像你說的我們經歷了去dump整個互聯網然後去訓練模型的這樣的一個時期我覺得接下來我其实也不知道这条路能不能成功我有足够多的信心但你要让我说一定百分之百成功也不一定原因还是数据层面我们到底能不能把这件事情做到极致需要多少数据啊需要什么数据我觉得过去的时代是dump这个或者download吧internet的时代现在时代是downloadhuman的时代我们要把人类下载下来就是我们现在每一个again对吧大家process这些knowledge我们有一个东西叫internet我们把它upload上去我们可以train一个transformereverythingisgood但对于真正的我们对一个世界的理解一个四岁的小孩他看过的视频一样也经常举这个例子就比现在所有的用来训练世界呃这个呃单元模型的所有的这些这些token还要多四個月的小孩他看過的視頻的量要比30個Trillion的這些最好的這些大圓模型的數據的量還要大所以這個量級實在是太大所以我剛說要download原本是說那我人眼看到這些東西這些數據到底我們怎麼能採集過來呢對吧我覺得視頻還是這是為什麼之前比如在Cameras裡面我還是非常希望去多做一點可能視頻相關的研究我覺得這是現在這個全村的希望這件事情可能有很高的門檻但我覺得不一定成功不了我觉得可以分几个阶段走第一可以先从互联网数据开始先从YouTube开始像我刚刚说不管是什么全部的这些训练的token几十个催链的token还是四个月小孩看到这么多的信息所有这个数据量等于30分钟的YouTubeuploadYouTube上面有海量的数据在那这个有版权问题吗所有人都知道有版權問題所有人都在繼續這麼做我覺得atsomepoint一定會有很大的版權或者說這個東西不是一個版權的問題因為可能YouTubeown這些視頻的版權但是一個termsofservice的問題YouTube是禁止你去爬去這些數據的所以導致這些數據現在非常難爬基本上爬不下來你爬幾個視頻YouTube就把你的IP辦了然後你就得換一個IP的所以有點現在我覺得這些數據公司跟這些平台有一種道高一尺魔高一丈的感覺一方要嚴防死守禁止你爬數據另一方要想盡辦法要爬更多的數據我不知道最後會終局是怎麼樣的哇自己也好有優勢啊自己好有優勢並且自己也不care對吧但是他們也收到了很多律師函所以我不知道我覺得之後可能會有更多的對但我覺得這件事情就涉及到人類社會裡面更多的這種政治的優化吧第一步是視頻然後接下來其實parallel的運作就是說我覺得这样的世界模型或者这种很visioncentric的世界模型会有一些非常好的这种应用的前景因为我觉得只有research也是不够的LM之所以成功也是因为Chatbot这样的一个interface实在太成功太自然了对吧它依赖于互联网依赖于这种移动设备但它是一个很好的接口一个非常好的product所以OpenAI自己的人也没有意识到对吧但當我們討論世界模型的時候尤其是我們剛定下這個世界模型的時候這個最終的這個product到底是什麼我覺得這件事情可能需要我覺得這可能才是一個真正的難點可能是一個比數據還要更難的問題所以现在如果Panel来想Again,Panel来想的想的idea可能最终都是错的但是至少有两个出口一个是比如说这种AIglasses这种真的personalassistant这件事情需要一个wordmodel这件事情只有语言模型不够只有语言模型的话它还是一个带着屏幕可以有语音交互的这么一个XGBT对吧它没办法走出这个产品的形态比如我现在经常跟大家举一个例子我现在带了一些这种variabledevices他们不是真的AI的variabledevices对吧但somehow他们具备了一些我觉得世界模型的特点原因是他们是一个alwayson的这种device就它一直开着一直在监控你的身体体征对吧也有大量的信息因为每秒对吧我不知道有多少频率它是以什么样的频率采集这些信息但我一直在心跳所以它一直能track这些信息然后这些信息放到哪里去对吧这些信息本身对我来说是没有意义的我知道我某个时刻心跳频率BPM是怎么样的对我来说没有任何意义所以他需要有一个智能决策告诉我说你好像undertoomuchstress对吧你现在压力太大了你需要缓一缓然后说你过去几天时间睡眠都不是很好你可能需要考虑一下对一些补救的措施或者说你今天应该takeadayoff我觉得这件事情其实蛮世界模型的只不过这是一个最最最最最basic的世界模型因为他能get的这个信息实在太少他这个很垂直的信息对非常非常垂直对吧但我觉得这件事情是一个未来的世界模型在AIvariable上面一个缩影因为如果假设真的有眼镜或者说我知道你不喜欢戴眼镜但是假设有某种variabledevices它能够真的是alwayson我们不知道这个功耗问题怎么解决先不管硬件问题我先不管但它能够实时的看到我们所能看到的一切有这种完全alwayson然后infinite的这种tokens进入到这个系统里面我觉得这件事情其实是会有很大很大的潜力的然后第一我会很想要这个东西因为我想知道我几点喝了一杯咖啡然后是不是这杯咖啡喝的早了一小时晚了一小时导致我晚上可能睡眠没那么好了或者说我是一个运动员他想要指导我的每一个动作或者说我在医院工作我希望给养老院里面的每一个老人都配备这样一个variable使得我知道他每天的这个行为模式是怎么样的他吃了什么药做了什么事然後他的心情怎麼樣對吧他的狀態怎麼樣然後跟我背後的這些醫療記錄掛鉤然後提供更好的智能決策我覺得有很多很多類似這樣的例子但這件事情也是基於現在的LM現有的多默態的智能其實是我覺得是做不到然後另外一個出口我們剛也聊過了那我覺得就是Robotics我覺得Robotics面臨的問題是其實還是大腦不夠然后即使他可以武术他可以表演当然也不能否认这也是一个很好的verticaldomain文娱市场可能也挺大那机器人就去表演节目吧我觉得也行但这件事情离generalpurposerobot能够走进千家万户能够背着年迈的老人上下楼照顾他的饮食起居这件事情距离实在是太大能干活的机器人都是荒漠是的是的然後我覺得這一部分你可以看對吧機器人其實是一個很好很好的一個downstream的application因為不管有任何上游的這些新的我們講fan世界模型的這種眼鏡機器人都能夠benefitfromit比如LM出來那我就有VLA对吧然后活了一段时间现在这个VideoDiffusion做得很好ActionConditionVideoDiffusion做得很好对吧这种生成派的这种WorkSimulator做得很好那我们也在讨论机器人怎么样去用这些模型去做一个做一个更好的这种Action的Planning对有大量这样的工作所以像我说的我觉得这里面还有很长的路要走然后我跟但我觉得在网上看机器人在春晚上看机器人和私下里跟从事机器人行业的这些research聊我觉得感受是很不一样的怎么说后者是后者会愿意跟我说真话不代表他們平時在說假話只是說後者會更願意告訴我現在的系統的缺陷到底在哪裡為什麼這件事情聽起來好像是現有的這些模型實在是解決不了的剛才其實講了你長達十多年的研究歷程你是怎麼跳躍到世界模型來的呀我覺得其實沒有跳躍像我一直剛說的我覺得所謂的representationlearning表徵學習世界模型以及整個AI的發展其實還是一個蠻smooth的一個transition然後我其實不是很喜歡這個世界模型這個word我覺得聽起來有點hype然後並且現在它變成一個口袋一樣的一個稱呼然後所有人都在claim自己做世界模型我覺得這件事情一方面我覺得對我覺得肯定不是一個比較一個researcher會享受enjoy這樣一個過程吧但另一方面我覺得可能一個領域往前走可能還是需要一些這樣的這樣的buzzword對然後我覺得非要說的話我可能會喜歡世界模型的一點就所謂WordModel的一點這個是JitendraMalikBerkeley一個教授講的他說他唯一喜歡WordModel這一點是因為他能告訴大家我做的是WordModel而不是WordModelWord是WORD就是單詞我做的是世界模型而不是單詞模型單詞模型就是LM對吧所以我還蠻同意的所以我覺得像我一直重複的我覺得世界模型是所有人會抵達的一個終點它是一個目標對其實你隨著你要開始做世界模型你也做了一個非常重大的決定就是你要創業了這是一個非常大的跟你之前的research的生涯非常大的不同的一個選擇你為什麼做這個選擇以及這個選擇是怎麼發生的這個選擇也是一個玄學選擇哎呀这个大家可能觉得我这个太玄学但是确实是因为之前有很多湾区认识的朋友一些也是对我帮助很大的一些mentor吧然后大家可能有投资人的身份啊有这种其他创业者的身份啊他们就说赛琳你应该也尝试去创业因为在学校里面像我刚刚说的其实有很大的困境资源紧缺对但并不是学校一无是处我觉得学校其实是一个很好很好的平台它让我有足够的空间去真的找到我想做的事情但我突然觉得好像现在是一个时间点似乎我想要探索的东西探索到了一定的地步再往后有可能会陷入我叫它一个中等paper陷阱中等收入陷阱就是说你会发一些不错的论文但是由于这个resource的限制导致你沒辦法真的把你的這些idea推廣成一個某種意義上一個新的breakthrough對所以我覺得這可能是一個好的時間點然後所以我有一個蠻多人就問我那時候還蠻有趣的可能大概是去年的可能年中吧或者說可能是秋天的時候25年年中對25年年中然後他就說你去問一問YellowCoon他好像最近在Meta呆得不是很順心但那個時候其實還沒有這麼動蕩還沒有這個X王然後比如說Fair的Layoff然後這麼多動蕩的事情然後我的第一的直覺是說這個怎麼可能呢對Young對吧我們等一下還想再聊一下Young是怎麼樣的一個人但至少在那個時候我會覺得他還是一個GodfatherofAI然後他是一個純粹的Researcher怎麼可能會拉他一起創業呢然後結果我們有了這個對話之後的第二週的週一我們剛好有一個oneonone的meeting就是一對一的一個meeting跟Young跟LeCun然后还没等我说什么然后一样就跟我说说哎,赛琳你先不要告诉别人但我已经决定了这个我现在想要做的事情我觉得应该在外面做我想要去创业开一个公司然后我就问他说你想做什么事情啊这个背后的businessmodel是什么呀然后后来发现这件事情跟我想象的事情完全一致非常有趣对然后这件事情是什么呢我觉得你可以叫它世界模型或者说这部分的出发的逻辑在于我觉得在我想做的这件事情上在現在的這個不管是世界上每個任何一個國家我覺得都做不了包括在灣區在谷谷也做不了那這個事情是什麼就是說你還是有一定的這個research的程度對吧他不是完全的說我們現在要largemodel我們要deploy這個system然後我們要pushtoproduct然後去getsomerevenue其實notlikethat然後我覺得這件事情有很強的這種research的這種傾向性對吧但是它又不是在純粹的學術的setting下面它不是過去的Fair也不是NYU它不是學校也不是過去的那個傳統的Fair但另一方面它也不是灣區的這些大廠和現在的很多這些NewLab處在一個完全封閉的情況下封閉是什麼意思封閉是說你當然不開源不能發表論文然後像我說的這個blog上面也不能署名也不能署名然後像我其實我在Google在GDM的時候我在GiantAI整個GiantAIworld只有我一個人是有這種相當於交菜兩隻船有一個doubleaffiliation還在學校在做事情大家其實對學術界對這種純粹的探索性的research其實是有點抵觸的這是一個彎曲現在的一個狀態抵觸怎麼理解是誰抵觸抵觸意思就是說第一我覺得大家瞧不上這個學術界在做的工作不覺得學術界在做的東西能夠真的能夠產生怎麼樣的影響第二他们因为也不publish导致很多东西你也不知道他们在干嘛对吧即使在这些大厂里面其实有些大的公司有这种research的部门然后也有这种偏product的部门但即使是这两个部门同一个公司两个部门之间也有一个很大的隔阂因為做這邊比如說核心模型訓練的這些公司的這些部門必須要在這個highlycompetitive這個賽道上面走到最前面這是他們唯一的目標對是軍備競賽是一個軍備競賽然後這件事情就會壓榨你的research的空間你會抽走這個環境裡面能夠給你充分的freedom去做research的這樣的氧氣所以你沒有想過加入任何的lab你沒有辦法忍受這種沒有氧氣的感受是我觉得这也是一个很有意思的现象这个现象是说当初确实有一些机会我也在有一些其他的考虑然后但我想了想之后我觉得可能这件事情如果你真的想要做这种完全前沿的探索你想要去定义问题的话可能还是得在一个自己的startup做才会成立这件事情就是别人的startup就是他定义的问题然后你来做执行是其他startup當然首先我不認為在這個其他startup裡面有任何一個startup或者一個大公司在focus在我們在做的這個事情上所謂的buildingthepredictedbrain這件事情對吧在你可以認為是最foundationlayer或者說最upstreamlayer做一些事情這件事情其實是不存在的更有意思的是其實很多我的朋友在我跟他交流的时候大家都会意识到这件事情其实是必须的就我刚说这件事情一方面有点所谓的这种反共识对吧就是有点contrarianview但另一方面其实又在过去的一年里面我觉得又逐渐变成了一个共识所以我说的东西没有什么新鲜的但是我刚才简单提到了我觉得现在在整个AI行业里面有这样一个巨大的AI的这样的一个valuechain这样一个价值链条在最上层这个价值链条就像我刚刚说的有BitLesson有AGI有LM这样的一个叙事逻辑这件事情定义了一系列的benchmark对吧就是说你要打宝你就打的这个榜可能是LMMarina或者说其他的这些榜单对吧有一系列这个benchmark这个benchmark定义了resourceallocation就是说你怎么样分配资源对吧因为我的目标如果是在榜单上得到第一名那我只能投入最多的资源使得我能够处在这个位置上去竞争然后resourceallocation决定了其实这件事情已经跟researcher觉得什么是对什么是错已经有一点脱离了虽然有些很强很强的researcher知道我们可能需要做一些research但是在这个价值链条下面resourceallocation决定了他们不能做这一部分的research所以比如说我会觉得这个视频理解这件事情其实蛮重要的但现在好像不管学术界也好工业界也好做的不多或者说大家做这件事情但没有fundamental从worldmodel的角度去approachthisproblem去解决这个问题对吧但為什麼會這樣但你這個很有意思的現象你就會看到不是沒有人不願意做這件事不是沒有人沒有這個能力做這個事是他們全都無一例外不管在哪一個公司裡面無一例外被發配給了一個做視頻生成模型的這個videocaptioning的team因为这是在这个价值链条下面的唯一一个可以间接对吧参与到这个价值链条里面的一个position对吧虽然他们都知道我们这件事情没有解决我们需要一个更好的像我刚刚说的一个worldmodelbasedvideounderstandingmodel并且这件事情可能是一个真正训练出这个worldmodel的一个很重要的一个前提条件但大家不會有空間去做這樣的exploration所以當初我在Google的時候也會有這樣的困擾包括我們做RE這樣的論文這篇論文其實前前後後這個學生跟他一起跟博洋一起我們可能做了快一年的時間因為這個學生中間可能也有一些身體的原因然後反正anyway吧就是可能有一些gap在裡面對吧然後所以反正完成這個工作我們花了一年的時間到我們發表這個工作之後我其實還有點擔心我會說這個不會有Google的Researcher然後過來找我說為什麼你會發一篇paper我們也來做一樣的事情你怎麼把我們的機密暴露出去了結果是有有好幾個Researcher找我然後他們給我的反饋是我覺得這件事情是對的我做了這件事情做了兩個星期但是我的Manager說你不能做這個事情了我們接下來有ProductCycle1ProductCycle2ProductCycle3這些產品的發佈的這種Timeline我需要完成他們現在的驅動力是不一樣的驅動力是不一樣的所以這個又說回來我覺得還是要回到一開始我們討論這些事情就是在這樣的有限遊戲下在這樣的強競爭的環境下每一個公司都似乎失去了他們定義問題的能力比如說其實你看之前像OpenAI對吧然後它其實是具備這樣的能力的很多這些問題都是他們定義的包括GBT包括像clip這樣的模型或者說他們一開始從成立的第一天起作為一個researchunit他們也有他們自己探索的過程我覺得還是很research的但是現在research已經變成了一個產品問題變成了一個商業問題你必須競爭不競爭怎麼辦呢那當然是逃出來然後我們來一起創造一個更好的更friendlyresearcherfriendly的這樣一個organization吧這樣一個團隊吧所以你們要逃離矽谷的敘事對我覺得我覺得雙向選擇吧我覺得可能對互相那個什麼對互相diss一下LeCun見你那次他跟你說了什麼他也沒說什麼他只是講了對他說的這件事情就是說我剛說我覺得我跟他的想法非常一致的這件事情就是世界模型是什麼我們可以有一個定義在這部分上我跟他的定義其實非常非常吻合然後包括他做JEPA我在NYU也經歷了一些過程這個過程是我從質疑JEPA到理解JEPA到成為JEPA經歷了這個人生的三個stage我等一下可以再展開聊一下這件事但他具體跟我說的事情是說這個公司它不是一個nonprofit它不是一個純粹的researchlab所以我們是要有一個businessmodelagain這件事情可能不是他的原話或者可能更像是我理解他說的事情的話是說我覺得世界模型是世界需要一個世界模型在矽谷之外在LM的敘事之外有一個隱形的世界這個世界裡面有很多人大家想要解決這個物理世界裡面的很多很多的問題他们可能是一个农场可能是一家医院但他们拿着LM不直接能够解决这些问题他能解决一部分问题但有很多涉及到真实世界的physicalunderstanding的问题他们是解决不了的所以大家其实都很焦虑大家都害怕说这个AI的浪潮要来了我是不是连上这个牌桌的机会都没有对吧然后所以我觉得这一部分隐形的世界是在这个硅谷的叙事逻辑下面不可见的但我覺得這是一個很大的市場這是我跟很多人聊天的體會然後我覺得這個其實我現在最enjoy的這個時光不是跟一些researcher聊天是跟完全不在AIresearch這個field裡面的人聊天我覺得我每次都會得到很大的啟發比如說就是怎麼講這個也是其實有兩個人跟我說了同樣的話第一個還是侯小迪第二個是這個張濤是Manus的張濤哥他們都跟我說你如果想要做一個好的產品你首先得要熱愛生活你得知道這個生活裡面的人他們在做什麼事情他到底需不需要這個東西你不能把某種AI某種智能強加於人的頭上你需要理解他們的需求然後你需要通過這件事情不管是做你的research還是打造你最後的產品所以我覺得這裡面很重要的一點是說這個世界上有大量的人他們生活在這個世界裡面他們是這個問題的定義人這些問題不是researcher坐在實驗室裡面想出來的我覺得如果真的我們要做一個能夠匯集所有人類的AI系統這件事情不應該是一個某種獨裁的狀態不應該是頭部的幾個公司強加的一種能力我們得要去知道這個世界上到底在發生什麼然後大家有哪些需求所以這是我覺得為什麼这是第一点或者说前一半其实我想说的是其实世界是需要这样的worldmodel的对吧LM不能解决所有的问题第二点是说worldmodel也需要这个世界这个世界有两部分第一部分是定义问题的能力对就是问题的定义我希望这件事情是从生活来的从人的真实的需求来的或者说是从工业生产中的需求来的然后这些事情对于硅谷的或者LM的趋势来讲都是也是隐形了然后其次涉及到你刚说的数据的问题就是虽然我们第一步可以从互联网上去拿到这些数据可以去训练这些模型但最终还是得要去在真实的世界里面去淘金的这些数据也是不可见的大家不会把这些数据传到YouTube上面YouTube上面的数据还是一个跟人类非常非常align跟人类的价值观或者跟人类的这种forentertainment的需求非常align这样一个数据的分布对吧然后我们还只是在讨论这个viral的数据但这个世界里面有大量的非viral的对吧非视觉的还是在连续动命的highdimensional高纬度的和possiblynoisy有可能是有噪音的这样的信号这样的数据的这些数据我觉得现在again对于训练一个世界模型来说至关重要我们的世界模型也不只是一个为人的model因为这个世界也不只有数据但另一方面这些数据现在是不可见的我们需要从一些地方获得这个数据然後所以這是我跟漾兒聊的這些一些一些一些這個highlevel的這樣的一些感受然後到後面其實這件事情跟business有什麼關係呢你說不只是數據視覺模型不只是視覺還有什麼呢比如說我現在可以有一個飛機引擎一個飛機引擎裡面可能有一千個sensor這些sensor在不斷的記錄這個飛機引擎的數據對吧我怎么样能够训练一个飞机引擎世界模型能够知道我这个飞机引擎可能哪里有设计缺陷哪里可能现在有这个错误对吧等等一系列这些非常longtail的问题对那这个是一个就是飞机引擎的世界模型这是一个飞机引擎的世界模型但它会基于一个universal的世界模型的预训链所以你们会训一个通用的世界模型这是我们的目标这个是预训练然后上面可能会有很多的锤类很多的锤类像我们说的你看languagemodel也是上面的一个锤类videodiffusion也是上面一个锤类action对吧然后planning然后robotics也是一个锤类但这个东西可以非常非常多元这个预训练的数据量会有多大呀這些事情就是說這是research的部分對我們現在其實有一個很好的roadmap然後我們也招了很多很多的人大家其實都很在意怎麼把一件事情落地不只是簡單做做research雖然research非常非常重要然後現在如果要打到我們最後想要达到的那个目标的话我觉得要做很多很多的research但另一方面我们要找到一个balance对吧我刚刚说它既不是一个纯粹的researchlab但它也不是一个像XCI、GDM或者whatever、MetaTBD一样的一个相对来说比较封闭在现有的paradigm这个现有的范式下面去竞争的这样一个lab对吧我觉得我对他的定位可能是somewhereinbetween可能甚至超过50%一定超过50%可能有60%7更像一个现在的newlab然后但是他会有20%3的这种完全自由的然后这种非常前沿的researchcomponent其實我理解現在的這些frontierlab競爭這麼激烈是因為現在的LLM的範式是相對已經是確定性的了所以說他們都在爭一個商業的輸和贏的問題相當於說你們不想在這個範式下捲了你們去提前想去找下一個範式給我的感受是這樣的所以对对商业访谈录但是我先要说我真的不懂商业然后我也没有做过startup我没有成功过也没有失败过对吧然后所以这件事情既让我感到焦虑又让我觉得有种无知者无畏的这种冲劲我會有一個疑惑,LeCun他本身就是一個researchbased的人,他為什麼創業,他是第一個找到你嗎? 為什麼他又找一個researcher呢? 其實有很多researcher,因為again我覺得research是這個公司的focus,這個公司最後最重要的product是一個researchbreakthrough,所有的这些各种各样的我们刚说涉及到数据涉及到问题定义涉及到这些跟各种各样的industry有partner对吧这些所有事情的逻辑都建议在我们能够support我们的research能够makeanotherbreakthrough就是下一个这样的新的AI的革命然後你可以叫它世界模型革命或者whateveryouwanttocallit但是它跟LMfundamental不一樣但它至少是一個transformer或者chatterbeelevel的事情這是我們的夢想落到實處要一步一步走但回答你的問題就是說其實不只找到researcher比如說我們的CEO我是这个公司的chiefscienceofficer我非常喜欢这个title因为我觉得我希望我自己的定位还是在science上面我不是一个好的CEO至少现在不是我也不是一个能够去管理一个大的team然后去launch这些product对吧这种公司的一个角色你不想当CEO跟pick一样對有點像對然後對當然我們兩個公司的跟Manus可能還是會有很大的不同吧當然是的是的我覺得我們這邊主要我還是期待的事情看到的事情還是怎麼把research這件事情做好然后这件事情也是我现在看起来我们能够吸引人才能够让大家一起来工作的一个真正的这种精神源头吧算是硅谷的避难所吗不能叫做避难所但是确实是一个不一样的地方这个不一样的地方我觉得很多人过来对吧我们有从OpenAI有从这个GDM有从各个地方过来的小伙伴大家不是为了要赚多少钱然后说IPO要上市怎么怎么样大家心里面也非常非常的纯净就是想要做research并且大家觉得我们有机会能够去成为一个某種意義上的影響這個AI進程的人這件事情我覺得其實大家很多時候其實都因為現在這個行業的變化我覺得心態也會發生一些很微妙的變化吧對什麼意思意思是說现在大家会有点过于走到一个极端是说我们要lowereverybodysegoeverybodyispartoftheteam对吧就是都是这个团队的一员但事实上在发生的事情是他们确实变成了这个团队一员但他同时也变成了这个巨大的machine这个机器中的一个可以轻易被替换的一个螺丝钉我完全同意researcher如果有太强的ego这件事情不利于团队的写作但是我還是希望給予年輕人有足夠的visibility因為我覺得這件事情能讓他們有他們自己的人物輻光然後能夠讓他們真的成長起來變成一個現在在外面有很大聲望的這些leadingresearcher但我覺得現在這樣的pipeline收得越來越緊了或者說這樣的上升的通道越來越少然後所以這件事情是至少是我們的一個招人的strategy是說我們會真的真的非常希望這種missiondriven的年輕人加入到這個公司來大家一起來做成一件事情我們其實不想把一些很established這些已經是superhero一樣超能英雄一樣的這些researcher聚攏到一起然後希望大家有某種化學反應我不相信這件事情為什麼就不能這個團隊裡有多個你是嗎完全不是,這個跟我自己的ego沒有任何關係我的感覺是一個人很難被不不首先我這樣的人我們可以招很多我不覺得我是一個完全不是啊這個千萬不要誤會我但是我說的是可能那些我們剛說的25篇改變了AI歷史的這些paper的這些作者對然後我覺得相比於他們我會更傾向於招一些有很好的reputation很強的能力但somehow還大家不知道的這些人對然後我覺得要問我為什麼的話我會覺得一個人很難被閃電擊中兩次如果你已經發了這二十幾篇paper中的一篇你再發下一次類似這樣的paper的概率我覺得會低很多這是為什麼你一直要說我在這20天之外不是這個目的但是確實我在這個之外但這件事情真的不關乎於我我覺得這件事情也是Bytheway這個公司是我唯一的一個機會能夠keepNYU的affiliation能夠建立一定的academicengagement我還是會全職的投入到這件事情上但至少我不用很抱歉的跟我的學生說對不起我剛把你招過來招了一年現在我要走了你們自求多福我當初其實有一點這樣的計劃和籌備但後來我發現我做不到為什麼不知道我覺得我的學生我都很愛他們我覺得他們都是特別優秀的人他們比如說有幾個學生吧然後他們通過他們的project然後做完這一套下來我也在各个公司也有一些这个经验对吧我也跟不同的人打过交道但我觉得我有几个学生比我见到了所有的这些leadingresearchlab的这些研究员都更强从成熟度从工程能力从researchtaste来讲他们都更强但somehow他們在學校裏面沒有一個渠道能夠真正的做一個在充足的資源的情況下去做一個不一樣的事情對倒不是說這些學生都會加入這個公司我覺得肯定不會我們還是會有一個清晰的boundary但只是說ingeneral我希望我們的這個公司叫emilabs它能夠承擔起一定的這種定位它能夠聯繫起學術界裏面想做事情的年輕人讓他們能夠參與到這個歷史的進程我覺得這一部分的這個渠道在現在的很多這個Lab裏面是不存在的如果LeCun不從Meta離職你會創業嗎呃我覺得可能也會但可能會糾結一段時間你會自己做CEO呃我覺得我不知道對我覺得對如果這麼決定的話也是另外一個玄學決定對吧但至少我現在不知道對你會做這個方向嗎如果是那樣的話呃我會再想對或者說我現在在公司裡面我們討論的問題就是exactly我一直在想要做的事情嗯然后这件事情所以有一点不谋而合而且其实这件事情Again我不懂商业所有的这些逻辑但是有一些点我觉得很有趣就是我们想要Build这样一个反向的OpenAI反向的OpenAI什么叫做反向OpenAI就是正向的OpenAI是说我现在有互联网作为我的数据的发源地然后把数据Download下来Train一个TransformerTrain一个GPTModel好我们现在有一个智能对吧然后这个东西你们可以叫它AGI但Bytheway我也非常反对这个词我觉得AGI是一个完完全全的伪名题但anyway你有这个逻辑之后然后我们现在有了这样一个模型有了这样一个intelligence我想要把这个东西push到我的market对吧然后不管是2C然后或者一些2B的application都没问题然后什么是反向的openai呢是说要做这个model本身这件事情没办法直接从互联网上download下来我們沒有這個shortcut可以走我們需要走一條更加艱辛並且我們不能自己走這條路所以這是我剛說的worldmodelneedstheworld所以我們希望反情報派是說會有很多的這些有點草根聯盟的感覺你知道嗎就這些不愿意就是在AI的浪潮面前有点formal然后有具体的问题要解决有很多的数据类似于这样的公司大家可以一起携手通过某种合作伙伴的方式一起去共建这样一个模型对吧然后你可以形成这样一个闭环我们可以有初始的世界模型我们可以deliver这样的世界模型去创造价值大家拿到这样的模型可以得到一些回报然后可以产生更多的数据来重新去反补我们自己的这个Foundational这个世界模型所以你需要从这些生态里收集多少数据你需要哪些类别的数据这个就是这个公司接下来我们要讨论的事情我觉得现在能够看到的事情是说因为Young其实有他的名望在这儿然后而且他作为一个真真正正的世界人吧他有一个非常neutral的face一个中立的角色他不是一个他是一个美国人但他也是一个法国人然后他对我们又不在硅谷的吧所以其实能吸引很多很多这样的potential的这种partner对然后遍布全球我们这个公司第一天就会有四个office总部设在巴黎但是也会有纽约蒙特利尔然后还有新加坡四个office然後目的也是說怎麼樣把這樣的一個聯盟能夠打造起來大家一起在這個research道路上面往前走然後這件事情其實我還有一個很有趣很有趣的故事或者一個比喻就是你知道這個mastercard是怎麼來的嗎美國大家用信用卡有visa還有mastercard對吧是不是反visa对示范Visaexactly但这个story还蛮有趣的这也是我一个很好的朋友和我的一个mentor告诉我的他说Visa一开始是BOA这个银行创立起来的对吧在此之前没有人有这种信用卡模式的然后BOAbuild了Visacreditcard然后pushtomarket然后赚得盆满钵满然后他还藏着掖着他还不告诉别人別人問了就說我們這個是賠錢的生意然後這個東西一點都不賺錢直到過了一兩年這件事情藏不住了因為財務上你已經能看出來了然後其他人就慌了你知道嗎其他人就說這個怎麼辦這個你現在已經把這個market已經dominated了然後我們每一個小的銀行我的體量又打不過你這個BankofAmerica然後我們現在單獨發一張信用卡我要搶占博市場怎麼辦呢然後他們就說不如我們把所有的這些LocalBank組織起來變成一個聯盟我們一起推出一張信用卡叫MuscleCard对这是怎么样反visa然后或者说没有真的反visa吧但至少能够跟visa分庭抗礼的一个方式我并不是说我们的这个公司真的要走这样的模式但我觉得在某种意义上会有这样的相似之处对但我觉得这也是为什么worldmodel是一个挺不一样的这样一个这个叙事的逻辑它更加decentralized更加分布化然後然後也天然的怎麼講resist某種壟斷吧對我覺得還是挺有意思的然後這也是我們開放性的來源這也是為什麼我們會能夠更openminded去討論這些合作不管是跟學術界還是跟這些industrypartner因為這件事情是researchexploration的一部分當然我們也不是說我們所有的research都會開源或者怎麼樣這還是一個正經而嚴肅的一個創業公司但是我覺得我們可能可以做的不一樣但我覺得想要做成這樣的不一樣的事情還是蠻難的因為像我說的我一直在強調其實我們在尋找一種平衡這個平衡是說它既不是一個純粹的researchlab也不是一個現在封閉式的大模型公司然後這種平衡也在於比如說像我個人也是一種平衡我既不是一個非常senior然後已經所謂功成名就的這種大教授但我也不是一个十八九岁的年轻人可以卷着铺盖跑到深圳的工厂里面然后扎下来然后去做这些数据采集或者whatever我都不是好有一部分数据来自于深圳的工厂有人在做我剛說的這個例子是一個具體的公司他們有一個公司叫Build.
ai我還挺佩服這個小孩的叫Eddie他就是帶了幾個人從哥大quit了然後去了深圳工廠裡面住下來然後來Build這樣一個startup我覺得好厲害我覺得這件事情既是找平衡但我覺得對我來說有難度但也是一個新的機遇吧我覺得說不定呢對吧說不定這個時代可能既不属于老灯也不属于小灯一个属于中灯创业的时代你对伊利亚两次say了no然后你对Lacombesay了yes这是为什么呢就是在你眼里他是一个什么样的人对一样在网上是一个斗士对吧就是坚决的反对LMPi不只是反對LM其實他不反對LM從來沒有說他反對LM他非常他還說自己用詹姆納他完全不反對LM他只是反對大家覺得LM可以通往一個人類級別的智能的這個趨勢是他要反對的他完全不反對LM但anyway他在網上是一個鬥士然後四處開戰但我覺得他私下裡是一個很好很好的人是我一個打心眼裡崇拜或者敬佩的一個人你們之前熟嗎我們合作過一些paper但是肯定不像在一個startup裡面作為cofounder的這種形式這麼workclosely之前沒有你跟凱明熟肯定沒有對是的但我覺得Young是一個人真的是他也能夠去扭曲這個realityfield我覺得他非常非常厲害就每次我開始對一些事情有所懷疑然後我都會願意找他聊一聊他很容易就讓他身邊的人至少我是這麼感覺的感受到某種寧靜感受到覺得這些challenge不是challenge前方的路一片光明他是有這樣的能力然後而且當然他的research的vision我覺得我也非常非常敬佩就我剛說了很多比如說什麼是wordmodel為什麼要filter這個信息這個本質也是JEPA他提出的JEPA思想的一個內核就是說你不能做generatemodel你不能把所有東西都記住都重建出來你需要在一個abstractrepresentationspace一個抽象的表徵空間裡面去做預測這是JEPA的內核但我想說這件事情是一樣我覺得還是蠻知情合一的他這個人本身蠻Jappa的就是他一貫之的在堅持他的很多這個邏輯和他認為正確的事情這件事情是不受到外界的任何事情的干擾但這件事情不代表他完全是一個固執的聽不進去任何話的人其實也不是這樣他有些時候他錯了有些時候他對了他大部分時候是對的但他其實是能聽進去大家說的話的並且他也說過就有一個之前有一個新聞稿是說Youngcantbemoved就是楊德錕永遠不能被移動對吧誰也不能這個移動他然後說他在固執要說我完全可以被move我完全可以被移動但我需要基於事實來被move而不是一些人告訴我應該怎麼做我去怎麼做我才會move所以當時在Meta的時候其實也有很多人告訴他說我們現在Meta要去做LodgingModel我們要做很多這些事情你不能在外面再說這些話了你不能說天天Dist這個LargeandSmallwork完全不能接受要說我作為一個科學家的正直Myintegrityasascientistcannotacceptthis所以我覺得這件事情我也很敬佩我覺得他真的他說的話不是因爲現在什麽東西成爲了一個熱點然後他還是這麽說的都可以追溫溯源對吧包括他在講worldmodel這件事情也不是最近worldmodel火了才說的也是很多很多年前他就已經在提這件事了然後他還有一個很好的論文我真的推薦給我身邊的每一個人去看就是叫做ThePathtoAutonomousIntelligence就是他一個positionpaper也是一個觀點性的論文然後這時候你就會發現他思想裡面還是有很多的layer的這個layer其實又是以一種非常工程化可实现的或者说数学化的表达把它罗列在这儿了所以你看他别人问他说这个样这个wordmodel到底是什么的时候他从来不会说一些比较highlevel的这种这种相对来说比较比较虚无的这种概念他永远要给你写公式啊他永遠會現在也會而且他現在每個星期也會有一天在NYU然後還是要帶自己的group還是會開組的開組會的時候就是要走到白板面前然後給大家那個推公式一點推highlytechnicalverytechnical你們兩個的分工是什麼一樣是executivechairman所以他其實更像是我們這艘大船的船長我跟他這件事情我也跟他聊過誰是船長他是船長我不是聊誰是船長的我不想當船長對但他一方面講說他很不希望管理這些operationlevel的事情他不是一個好的CEO但一方面我覺得你也不是對我可能也不是但我又覺得他是一個很有智慧的一个管理者他给我举这样一个例子他说他的管理的思路就像在划帆船一样这件事情白德魏是他的一个hobby之一我等下可以聊聊他的其他的有趣的事情但他有一个hobby他马上3月又要去加勒比海上面去划帆船了他说他的管理模式是说给予每个人足够多的信任讓他們做自己該做的事情但是一旦出現了一些波折對吧一旦我們需要校正一些東西的時候他會及時的Asearlyaspossible盡可能早的去做這樣的調整對吧但在此之前Trusteveryonetodotheirwork就是相信每個人去做他們在擅長做的事情對我覺得這就是一樣的定位他是這個公司的一個一方面是某種精神領袖但另一方面也是大海航行靠舵手的他也有這種船長的身份在這對然後但我覺得我對他的對我覺得我真正讓我覺得我很喜歡跟這個人共事還是更多個人的原因因為我看你聊了很多這些決定其實不是純邏輯性的決定有時候還是要看氣場是否相投都是人的原因都是人的原因對像一樣我覺得他雖然真的是大佬對吧但你會經常看到他在會場上面拿著一個手機跟所有人拍一張自拍拍張合影然後私下裏面他也是一個蠻純淨然後溫暖的人然後跟他在一起主要是我不會有這種畏懼感吧雖然他可能對吧高高在上功成名就然後但我不會擔心我說了一句錯話惹得他不高興这件事情我觉得其实还是蛮难得的尤其在他的这种身份跟地位来看然后我可以或者说包括这个公司里面所有的人都可以很直白的告诉他说这件事情我是怎么思考的我觉得你说的对或者你说的不对但我们一起来讨论应该以什么样的方式进行下去可以对这个公司最有利我觉得这件事情其实也非常难得你们介绍一下你们到目前为止在资本上在团队上的进展当然我们这个时候发的时候就已经是你们announce之后了是的对我觉得资本上对这个没办法我的世界模型不足以支持我给这样的预测但是我们target可能会是差不多一个billion吧对如果不对的话我们只能剪掉了然后人员的配比上面然后我们会有很多小伙伴志同道合的伙伴一起加入这个公司所以我们一开始会有25人左右的一个初始的团队然後我們希望逐漸去grow這個團隊我們不想太快但也不希望太慢然後這一年其實就有很多我覺得這也是一個我覺得創業的魔力吧因為我之前比如在大廠裡面也會refer一些我的這些過去的朋友對吧我的學生然後一起到這個公司裡面但完全不是一個事情對吧大家去了不同team做自己的事情但來創業之後我會發現真的可以把大家聚拢到一起然后找到这样一个Mission然后这件事情我觉得太有意思然后这件事情其实我自己也很感动因为我们有好几个朋友然后他们其实比如说都有好几千万的这个OpenAI的UnvestedStock他们从OpenAI来然后会有在比如说在Google也有好几在Meta也有這種15個million20個million的這樣的offer然後大家好像想都不想然後就放棄了然後加入我們為什麼我覺得還是說我們腦子可能都缺根筋吧觉得好像对你总之是你要考虑的是一边是research一边是某些反难受的outcome对吧当然我觉得一个创业公司最后做成的话它的upside也是很大的反难受力至少现在开始我觉得大部分人还是很missiondriven对然后大家还是相信这是唯一一个地方我们可以做这件事情你们现在已经开始考虑商业模式了吗呃我觉得我觉得之所以要融这些钱可能也是希望能够减少一点这些压力但是当然了这是一个serious的company所以我们的CEOCEO都在每天花很大的精力去考虑商业模式的事情对然后哎我能不能回过去再讲一讲一样哦好啊对之后看怎么调整一下但我觉得我刚刚说其实这个气质相投这件事情其实完全不是一个商业decision对然后我觉得符合你的玄学一贯选择方式当然当然考虑就是比如说同时比起来我也会有些其他的机会这些机会可能也会有muchbetter这种shortterm的financial這種return又會有更高的工資更高的回報但我一直考慮的這個方式是說有些人勸我說你先去賺兩年前賺夠錢了之後回來再創業不好嗎PartlyIagree但是我又會擔心說对吧我现在作为现在这个人生的这个stage还有没有两年的时间可以让我在一个足够好的精神状态去做这件完全explorative的research我觉得不好说有可能在你有钱了之后你的lifestyle你的生活方式会变化然后然后这件事情也可能导致你失去了最开始的一些勇气吧然后我觉得这只是对我个人而言啊我觉得现在我有很多很多的朋友他们在Meta尤其在Meta大家其实都赚很多很多钱他们也很卷他们每天工作我觉得也是加班加点然后大家基本上都搬到公司旁边然后每天加班一个星期工作七八十个小时这种我觉得我也相信他们一定能够做出一個很fantastic的model但我也想對他們說當你把這個model做完之後可以來我們這看看我覺得hopefullyitsnottoolate但我覺得其實我認識的所有這些人大家都是有這個mission的metatpd的招人策略跟你的招人策略是一致的嗎我覺得肯定不一致我們哪有錢像metatpd一樣招人肯定不一樣然后或者说像thinkingmachine包括像XCI我觉得都很不一样对我觉得虽然我们可能融资规模上面其实还是蛮不错的对至少也能排进历史前几名前几估值多少不知道估值我们一直没变还是三个billion的premoney的euro对然后但是钱其实还是不是很多对吧这个capitalmoney其实还是非常非常宝贵的它不像像在meta在google你真的有一个印钞机在那然后你不能printmoneyitsokyoucandowhateveryouwant我觉得在创业公司里面我们还是要非常非常谨慎的去布局吧我觉得你们是刻意不选去硅谷创业是吗對呀我覺得SinghValleyagainisveryunpilled就是大家經常說就是說已經深陷於已經被LargeMall催眠了但這件事情我覺得不會持續很久被催眠的人總有醒來的一刻然後我覺得那時候我們完全不排除去矽谷設立公司我覺得到最後或者說可能很快我們的公司location一定是哪裡有人才我們公司就在哪裡有一個office這也是一個很正常的事情對在哪讓我說回漾一下吧我想說的事情是我覺得漾其實還有很吸引我的一點是她真的是一個斜槓青年或者說挺文藝的這麼一個人或者按凱明的說法漾是一個16歲青春期一直延續到65歲的這樣一個人那很幸福我觉得他应该挺幸福的但他经常就很骄傲的说他有四大爱好第一个爱好是造模型飞机第二个爱好是拍天文摄影所以你看他zoom经常讲套背后他那有一个星云对吧有个nabla的这样一个桌布桌面其实就是他自己拍的在后院拍的然后第三个兴趣是搞电子乐然後搞一些jazz呀什麼這些事情然後你看他的網頁上面這也是寶藏我經常時不時回去看一看他會講說在紐約有哪些這些jazzclub這些爵士樂比較好有哪些樂手比較好然後他又講說通常來講法國人是瞧不起美國的流行文化的jazz除外講什麼查理·帕克等等一系列人吧然後這些偉大的樂手怎麼怎麼樣我覺得好有意思然后他还有一个爱好是我刚才已经说了这个翻船所以我觉得这样的人对我来说其实是很有吸引力的因为我觉得他的世界其实是很大他的世界不只局限在research一小块然后我们都要做世界模型了我希望这个大船的舵手是一个有格局热爱生活的人然后还有一个很有趣的例子我们接下来三月也许这个节目播出的时候我们还有另外一篇paper要放出来这个paper叫Solaris叫索拉里斯星这个东西其实是一个科幻小说莱姆的一个小说然后后来被塔古斯基改编成一个电影然后我们之所以取这个名字是因为我们在做一个所谓的这种Video生成的模型然后这个电影讲的事情也是说有一片海洋这个海洋可以读取人的潜意识里的记忆最后把一些东西具象化生成出来然后这件事情我觉得非常好玩然后当然托克斯基在他那部电影里面讲的事情是说其实我们最大的敌人不是什么外星文明或者这些不可知的海洋其实是人自己是人自己的苦难和自己的记忆所以这片海洋只是人对自己的投射而已我想提这件事情是说我觉得这个电影跟LM发生的事情也太像我觉得LM其实可能没有在理解人它只是人的一个投射只是一个反射而已但我想說跟樣的關係在於我有一天跟他講說我們這個paper你覺得叫這個名字怎麼樣然後我想看他知不知道這個電影然後他說你知道這是一個電影的名字嗎我說對啊我就是因為這個取的這個名字他問我說那你看的是哪一部是1975年的一部還是20幾年的一部覺得我找對人了對是塔克夫斯基拍的還是索倫伯格拍的然後我說OK我覺得我不光research服你我在電影上好像你也比我懂得多我覺得這是一點蠻有趣的可能對很多人都不重要但對我個人來說蠻重要的一個人格魅力的體現吧有一個中國的投資人曾經跟我說過所有含著金湯石出身的創業都沒有成功的幾乎沒有吧你怎麼看不懂什麼叫金湯石融資金額巨大非常的有名作為Founder就是已經功成名就而且是非常高的功成名就我們沒有含著金湯石就像我說我們是完全一個不說草台班子吧是一個草根聯盟的一個創業模式一樣的不是草根但他現在在整個AI的行業或者在互聯網上包括在投資人面前很多時候是一半支持一半反對的一半支持一半反對我不知道這個比例是多少但總歸是他不是眾星捧月的那種英雄他是一個堅守自己然後在永遠嘗試做下一件事情但這件事情還沒有做成功的這麼一個人對吧然後我覺得這件事情導致我們不是含著金湯師我們沒有金湯師我們完全沒有這種感覺我覺得我們是一個underdog就是我們其實是在某种这种行业的压迫下生存的这样一个公司对吧反而在的你们所有人都在没有反而在真的那我们可能会有很多的融资但比起LM现在撬动的资源来看这简直对吧我不知道是百分之几差太远你们融资难吗呃有样在这确实不难对啊但是对吧我觉得我觉得C2ROM也只是C2ROM我觉得要看后面对吧然后我觉得要看后面呢还是说我们到底能不能deliver我们这个mission我们能不能把这个research的breakthrough做出来我觉得这才是对我们来说最关键的事情啊但反正我会觉得我非常enjoy这种underdog的这种身份尤其作为一个创业者啊因为我觉得我覺得做research也是一樣你們越不相信我我越happy你有感受到誰對你的不相信在開始創業之後我覺得很多人啊很多投資人的feedback不相信更多還是相信更多我不知道比例是怎麼樣我們有很多很多人相信我們我們有很多人不相信我們我們很多的人或者在矽谷裡面大部分人不相信我們在世界的其他地方大部分人相信我們所以綜合起來我不知道但没关系对我觉得我最期望看到的事情就是说对吧你们可以不相信我们但那我们就Letssee对吧这个这条路我现在已经allin了你跟不跟你觉得创业跟你做research有什么不一样我觉得有很多相似的地方然后但有很多不同的地方我觉得创业的话还是小心滑雪嘛我不会不会是吗我不喜欢运动我以前也不会滑但我最近滑雪我觉得我还受到蛮多的这个感受的我觉得第一是滑雪是一个讲求平衡的运动你掌握了平衡你才能滑得起来第二是你要无所畏惧的把自己的肩膀朝向山下我覺得這件事情太反直覺了人總是害怕的人你面對山下的坡度的時候你總是想要往回靠反本能對然後你反本能然後你一旦跟從你的本能做事情你向後倒那你就完全失控然後完全摔倒對吧你只有完全不具備這個你只有足夠的勇氣然後不害怕任何事情然後把自己的肩膀向朝向山下的時候你反而變得更穩定對吧然後你反而你更能控制你的速度所以有句話我很喜歡的這個可能是哪裏的周周裏面的動漫裏面的周周sBizarreAdventure他講人類的讚歌就是勇氣的讚歌我覺得這也是我的一個對於創業的認知我覺得需要勇氣但你剛問這件事情在學校是不是也是一樣我覺得它需要更多的勇氣但我在學校做的很多這些決定我覺得也是一個蠻有勇氣的決定對吧然後並且還有一句話是這個我覺得你永遠不會獨行吧我覺得會有很多人幫你一起也正是因為你有身邊的人所以你才變得更加勇敢你刚才说了你对research的taste你觉得你对人的taste怎么样首先我不觉得应该对人有什么taste我觉得对人的taste这件事情好像还是一个居高临下的说法我觉得识人能力怎么样换一个说法是但我觉得这也是一个相互的过程我觉得Again我觉得是有某种吸引力把能够一起共事的人聚拢到一起然后我们只需要遵循着这样的引力去找到这些人跟他们在一起就好我好像不会当然也会有一些具体的这些metric的吧我们当然有一些比如我们现在要面试我也不能说你不用面试了我有一套玄学逻辑可以用来招人我觉得也不现实但確實我會比較在乎一些事情吧我覺得我會在乎你到底是不是真的有這種想要解決一個問題想要去理解一件事情的這樣的勇氣和這樣的執著我覺得這件事情對research對創業來說都是很重要然後我招學生其實也會需要有這樣的對那我看到這樣的性格的人然後對就這個到底是什麼意思呢就是在做research角度來講就是說你現在如果有一個問題擺在你面前這件事情也是凱文跟我說的應該是他講說你一天起床要想這個問題吃饭的时候要想这个问题洗澡的时候要想这个问题睡觉的时候可能可以不用想那可能带着这个问题睡觉你到底有没有这样的这样的passion对吧这样的热情去一直思考这个问题还是你只是把这件事情当做一个工作来看待我觉得这件事情我觉得是一个可以区分人与人的一个标识你现在有这个问题吗什麼樣的問題就是每天帶著他的問題有啊有啊那當然有了但我現在問題是這也是為什麼我覺得在學校我覺得待時間久了有點難因為在學校裏面其實作為一個faculty你需要做各種各樣的我們叫contactswitching就是你需要切換這種上下文對吧因為有好多這種partial要管理然後要一起合作我覺得在創業公司還是蠻好的我現在可以focuson一件事情我可以想我们到底应该组建什么样的团队这个团队需要什么样的人我们应该在接下来一个月三个月六个月一年解决什么样的问题这件事情我可能想的不对但没关系只要整个这个team齐心协力对吧大家可以failtogetherpivottogether那我觉得这个公司不会失败对我不能保证我现在每一个设想都是对的我覺得一樣可能也沒法保證但我還是相信人像你說的我還是相信把這些人有理想有熱情然後想要闖出一番新的天地的人聚合到一起一定能做出來一個了不起的事情你是當場就答應他了嗎勒昆沒有沒有沒有這個中間隔了很長很長的時間也不是漾第一個找的我反正後來漾負責recruit這個團隊那他也要思考說每一個人到底應該有什麼樣的角色對我覺得後來我們一起在討論一起在協商而且我覺得是一個蠻長期的一個過程吧然後我覺得大家最後都找到了合適自己的位置你糾結了多久啊就是從他第一次告訴你的糾結了可能一個星期吧哦在糾結什麼就是说到底应不应该去创业去做这件事到底应不应该跟Young做这件事然后或者说是不是去寻求一些新的机会对吧然后后来但我没有纠结很久我觉得我跟Young一样用他的魔力我跟大家说其实跟Young说话有点像他有点像给你就是castingspells就是哈利波特一样给你施一些咒语說一說一些話然後你就不會想其他的了他對你施了什麼咒語沒有啦他只是講了他的願景然後他只是講了為什麼這是一個更好的選擇對於我是一個更好的選擇對這個公司也是一個更好的選擇為什麼在這裡我可以有足夠多的agency跟autonomy就是所謂的自主決斷的這種能力吧然後去打造一个team然后去帮我们去设计这一套一整套的这种执行的这种roadmap我也非常非常grateful非常感激让能够给我这样的信任但我们公司有好几个其他的cofounder大家人都非常非常好一共有6个cofounder哦这么多是的是的是的还有一个CEO还有一个CEO对还有一个COO对然后还有一个VPofWorldModel然后还有一个现在暂时他就叫做CRIO对他也是一个中国人bytheway他叫PascalPascalFung这是什么职位? 更多的是某种介于research纯粹的research跟product中间的这种alignment层的这样一个角色是负责我们的innovation的他也之前有很多的创业的经历然后我们的VPofWorldModel就是JappaTeam当初的这个directorMike然后COO是当初Meta的整个南欧区的VP对大概是这样一个组合所以完全不是一个纯researcher背景的组合你们会去探索2C的产品吗会的而且最后的目的一定还是会有一个2C的产品但我们希望我们不会受到任何的压力因为我们还是希望先要把这个wordmodel不管你怎么定义它先要做出来你们现在这个roadmap能规划到几年几年当然都很不现实了对吧我觉得如果能规划到一年已经很不错对然后我觉得我们不需要更长期的规划嗯伟大不能被计划吗呃对啊就是我不是就跟做research一样我觉得你要有一个探索的过程开始先探索先动手做事情嗯然后逐渐的找到属于你的idea哦我觉得这件事情对于startup也是成立的你觉得现在你们的idea进展到哪一步了我覺得進展到了我覺得我們現在有事情可以做並且我們還覺得會有一些很快會有一些很promising的結果的這樣一個地步對吧但這件事情具體是什麼我們可以過幾個月之後可以再聊但是對話又說回來就是這件事情其實外面的人對這個公司都一樣還有一個錯誤的認知就大家其實不知道什麼是JEPA對然后其实我个人也经历了好几个阶段我从质疑JEPA到理解JEPA再到成为JEPA这样人生的三个阶段然后这件事情我觉得也蛮好玩的因为一开始质疑JEPA是因为我们刚开始做SoftSpiceLearning做MOCO做ME然后我觉得JEPA好像是YetAnotherSoftSpiceLearningAlgorithmThatsit然后后来慢慢理解JEPA是因为觉得JEPA其实比我们想象的走得要更深它里面会有很多背后的逻辑有很多的数学的原理并且我们也需要有人在这条路线上继续坚守下去因为我们当初发现东西skillup不起来然后就不做但後來JEPA比如說包括我舉個簡單的例子比如最近有一篇paper叫LeJEPA然後他們就以一個非常嚴格的證明說如果你要有一個很好的representation如果你要想要讓這個representationagnostictothedownstreamtask那它一定是一個isotropicGaussiandistribution這個有點technical這樣就是說它是對這種表徵的某種性質的一個刻劃然後我發現這件事情其實還是有它的道理然後真正成為JPAR是因為我覺得JPAR不是一個模型JPAR不是一個具體的算法JPAR是一個整個一套的cognitivearchitecture就是一套認知體系这件事情是一样在他的20年的paper里面写到的事情所以这个认知体系在我看来是通往一个智能universal的智能体的一个在我现在看起来一个很合理的道路对吧所以他需要JPARJPAR不是只是selfsuppliedlearning他需要有这种wordunderstanding的能力他需要就是理解世界的能力然後他需要能夠有做預測的能力然後他需要有能做計劃的能力對吧預測跟計劃對我覺得這件事情讓我對JAPA有了新的認知然後我發現JAPA其實不是一個具體的像大家外面說的一樣好像說一樣有這樣一個方法然後他一定要基於這樣的方法然後把它做成一個什麼樣的事情不是這樣的JAPA是一個非常非常廣闊的海洋在这个海洋里面可以有好多好多的船在上面开然后最后这个整个一套系统会有很多的协作并且LM也是其中的一部分所以这件事情让我觉得这个公司可以做并且有很大的机会可以做成功原因它不是把事情做小了现在很多LM的setting下面大家是把事情往小里做但样样的公司是刻意把事情做大它有足够的空间让我们去做探索让我们去做skillup然后直到最后我们可以有一个某种新的breakthrough这件事情到底什么时候来会不会发生我们没办法判断但我觉得这是一条我愿意投入我的生命去走的路创业以后感觉怎么样真实的感受有变忙变累有变忙变累当然是有了我觉得会有很多upsanddowns就是会有会有很多繁琐的事情但是也会因为整看着这个公司一点点成长起来看着一些因為我們有四個office有這麼多的這個legalproblemwhatever對吧這麼多的這種internalfriction慢慢就是這種本來的這種內部的摩擦慢慢變得潤滑對吧這個過程其實也是蠻開心的然後在這個過程中我們也得到了很多很多人的幫助所以暫時看下來我覺得我做了一個正確的選擇跟你預期也許還是會有一點不一樣的可能更潤滑對我覺得可能跳下來那一刻就恐懼消失了對我覺得只要有勇氣一切都好說然後我覺得在這個公司裡面對我是能找到這樣的勇氣的你剛才說HI是個偽命題你這個能展開一下嗎HI是偽命題這件事情也是漾先生說的他之前不是跟Demis有一個辯論嗎他就說到底什麼是generalintelligencegeneralintelligence到底存不存在這件事情我可能也就不贅述了但其實他的這個邏輯也很數學也很一樣他說的事情就是基本上說的事情就是說這個人比如說有20萬個這種視覺的神經纖維這件事情可以去矛盾的所有的可能的這種視覺的函數其實是非常非常大的它是2的20次方這麼多的這種函數但人能夠真正去process能夠看到的東西其實基本上趨近於零對吧就是我們受到我們的意識的限制我們受到我們自己的神經的這種bandwidth的限制我們看不到這世界上發生了一切的事情所以人的智能是一個非常specialized的智能人只能認知到自己能看到的東西然後後來我又補充了一個推特就是說我看了一本書叫做就是我們到底是不是夠聰明讓我們知道動物有多聰明然後我是覺得看了這本書之後我會放棄更多這種人類的子彈我觉得这种智能眼镜是一个连续的过程它不是一个说人就真的是独一无二对吧很多时候我们说人很有智慧是因为人会使用工具但动物一样会使用工具然后有些人说人其实有这种某种对自我的认知跟意识一个实验是说人能够看镜子然后能意识到这个镜子里面的人是自己而不是另外一个实体狗狗是不是也可以对很多动物都可以因为有一些动物不行狗还蛮喜欢在镜子里看自己的反正有很多動物動物動物動物確實不行但有很多動物可以對吧然後也有很多很有趣的事情比如說像黑猩猩的吧然後這個作者Devoir他還寫過另外一本書叫黑猩猩的政治吧叫做然後就講這個有四隻黑猩猩怎麼樣去做這種權力的博弈就很像這種紙牌屋或者怎麼樣這種有很多鬥爭然後你怎麼樣拉幫結夥然後有一些權謀然後上位然后等等一些故事吧我觉得这件事情也很有趣然后还有一个我觉得我印象比较深的事情是说比如说他们其实这些动物包括黑猩猩也有某种fearofmind就是它也能有自己的worldmodel并且它们worldmodel还挺强的比如有一个例子是说这个实验人员在一个房间里面然后他有两个box然后这个box里面比如一個放了香蕉一個放了蘋果然後我們把這個給黑猩猩看一眼然後把盒子扣上對吧然後這個實驗人員就把黑猩猩拉出去了然後過了很長很長時間再把她帶回到這個room裡面然後這時候黑猩猩看到第一件事情是一個實驗人員在吃香蕉然後黑猩猩直接靜止就去打開那個裝有蘋果的盒子把蘋果吃了看都不看這個香蕉一眼所以黑猩猩也有某種這推理的能力對吧然後雖然確實語言是獨一無二的語言是只有人類有但不代表其他動物不會交流如果我們說他們有他們的語言包括你像鯨魚也有自己的語言反正這些事情還是蠻有趣的我很推薦那本書然後包括還有我看到那個叫什麼某一種鳥我忘了叫什麼了然後他就說他們很會就是如果他在埋一個史物他把一個史物要埋到地底下如果他發現有他的同伴看到了這件事情他會先埋在底下等到這個同伴走了之後把它挖出來換一個地方重新埋下去所以我覺得還蠻有意思的然後當然我們也知道對吧那狗的嗅覺很靈敏然後蝙蝠會基於聽覺我覺得智能的界限是很廣泛的大家現在說Jack的intelligence那你們的worldmodel會先朝著哪一種生物的智能去做呀目標當然是人類的智能人類的智能肯定還是至少在一個頂班上還是最強的或者說他也是最能benefit這個世界的所以我們還是希望buildaworldmodel通向humanlikeintelligence但我只是想放弃人类的这样的自大然后这件事情其实我最近很受启发是因为看了这个RichardSodden的一个他在这个Podcast上面的一个理论因为其实我之前我也不知道我该怎么address这件事情因为大家说LM不是很厉害吗LM现在可以写code可以拿到IMOIOI的金牌可以帮我们去月球去火星这件事情太伟大了然后我觉得我没法否认这件事情这件事情确实很厉害对吧然后但RichardSutton这个他的他的回答我觉得就很好他回答是说你觉得这件事情很伟大很厉害吗很难吗那你就这么觉得吧因为我不这么觉得我觉得能够打造出来一只松鼠的智能这件事情才是难的问题一旦你有了一只松鼠的智能一旦你能够去build一个松鼠的智能能够让它在这个真实的世界活下去它有自己的goal它有自己的目标它有自己的像你说的这种intrinsicreward它知道饥饿它有自己的emotion然后它能够有一定的社群的活动后面的写code上火星上月球这些事情都是再容易不过的事情好我现在慢慢觉得我非常认同这个观点对如果抛下人类的自大我觉得打造松鼠的智能其实是一个更难的问题但对人来说不是这样对于我们的认知来看好像不是这样但这件事情完全是因为人类的自大你们也要做人类的智能啊是啊但就是说这个人类的智能有很多很多点人类的智能不只是语言模型人類的智能有很多智能不能通過語言模型或者語言本身所決定對我覺得這是一個核心的觀點你的智能的定義是什麼樣的所以說剛這個RichardSodden講這件事情他覺得松鼠的智能才是真正的智能我覺得他的定位有點不同他定位不是站在人類的視角以人類中心的視角看待這件事情他是站在宇宙跟造物主的視角看待這件事情在这个角度那当然能够重新去造出一只松鼠这件事情要比你的你的人类文明在这530个millionyears最后的8秒创造的东西要伟大的多在这个意义上我觉得又升华了我觉得上价值有道理但怎么样定义智能这件事情我觉得我不會想要去給他一個定義我覺得就是不同的動物有不同的智能然後人也有人類的智慧對然後我希望鼓勵大家的事情是說不要只關注那些我們每個體做不到的事情關注一下我們現在做的很好的事情關注一下一個四歲小孩或者說幾歲小孩就能做的很好的事情这些事情其实是我们接下来世界模型需要着重去解决的问题所以这件事情也是为什么Robotics是一个最后非常合适的出口因为在你谈论什么AGI这个superintelligence之前能不能先有一个足够reliable足够generalrobot能够在我们家庭的环境里面帮我去解决一些家务因为一个几岁的孩子其实能做很多很多家务这个有一个列表你可以去网上搜一搜一个12岁的孩子基本上可以做所有的家务但现在到底有没有一个机器人能够像一个12岁的孩童一样去承担这些家务当然没有谭杰他也说就是机器人发展是极不平均的极不平衡的他跟一个小孩的成长的轨迹是不一样的比如说现在机器人的四肢的发达能力已经比他强了已经比人强了但是很多其他能力都还不如一个小孩因为没有人做大脑这件事没有人构建机器人大脑所有的机器人创业公司包括在大厂的机器人公司都没有去解决这件事情DeepMind不算吗DeepMind现在完全也是基于XML所以他也是在VLA的框架前去做所有东西收敛到XML對但這件事情需要一個預訓練的下半場按姚順宇的這種經典說法我覺得需要下半場但我覺得這是一個預訓練的下半場JimFan其實最近也發表了同樣的觀點然後這個預訓練就是worldmodel預訓練這件事由誰來做這件事情對我來說是不清晰的如果我知道另外一個地方也可以做這件事的話那我可能真的還可以考慮一下我也不一定非要在現在這個startup自己做這個事Roboticstartup没有任何的精力去做这件事他们需要把自己的资源投入到所谓的硬件skillinglaw对吧就是你需要买更多的机器人去deploy这些机器人然后或者在simulator里面去做这些imitationlearning的方式能够让你有一个足够好的能够在短期内解决一些这种具体问题创造价值的这样的机器人的团队派呢派VLA對吧派也是一樣派我覺得已經是一個非常非常researchy然後做的已經非常非常不錯而且有啟發性的一個公司但again他們不會做預訓練他們不會做pretraining他們會拿這個languagemodel作為他們的foundation你們的預訓練下半場怎麼理解就他輸入什麼輸出什麼不知道至少第一步就是長期來看就是輸入的是所有的像我們剛說的連續空間高緯度的可能有噪聲的信號對吧那一開始可能可以還是video但我們也可能會有一些多模態的encoder去handle不同的這種除了視覺之外的信號然後輸出的東西這是research的問題這是selfsupplies的問題我不一定不知道但是對可能之後會更清楚然後但是這件事情我覺得肯定沒有那麼容易了但我覺得這也是exciting的地方之所在我還覺得挺有意思的因為我們第一次見面你就說youarenotachosenoneyouarejustanormalone你為什麼這喜歡說這句話沒有你看我這個一路我們也討論了我這些對吧這個成長歷史我其實沒有預料到我們會聊這些但是对我觉得肯定不是那种天选之子然后这句话其实也是我喜欢的一个球队对吧就是利物浦然后我是一个靠谱已经20多年了然后我觉得也有点气质相投然后最喜欢的一个教练是克鲁普的JorgenKlopp然后他其实是有点半开玩笑的跟大家说就当初另外一个教练穆里尼奥然后说Iamthespecialone我是特殊的一个然後克魯夫說,Imnotthespecialone,Imthenormalone然後我覺得這件事情一方面他自己又非常朋克他又是那種搖滾氣質然後他又經常跟大家說他覺得他在團隊裡的定位就是一個電池的作用他希望能夠通過自己的passion自己的能量去讓其他的人給其他人的發電empower其他人empower其他的人對我也想成為這樣的人我也想成為一个团队不管这个团队是在学校还是在创业公司的一块电池我觉得这件事情其实不容易因为有时候每個人都會有沮喪的時間我也想多吐吐槽然後抒發一下情緒但我現在慢慢覺得在學校比如在學生面前然後在創意公司的團隊面前需要能夠有人有這種電池的作用或者說我覺得一樣是一個巨大的電池它趕著我但我希望把這個電力通過我也輸送下去你最近一次趕到沮丧是为什么呀我天天都感到沮丧我觉得这个已经变成了一个这也是researcher的一个宿命吧我觉得大家这个底色都挺悲凉的原因是researcher的求索的过程就是在一个暗无天日的这样一个地方去摸索的过程你看不见光亮的时候你总是会感到迷茫跟沮丧然后大家真正感受到这种快乐的时候无非就是你真正把东西做出来的时候但这一部分的时光又是非常非常短暂的可能也许只有5%10凯明好像有说过类似的话所以长此以往大家心理状态也很堪忧但我觉得还好我觉得现在这个时代还是跟原来不那么一样了我觉得现在会有更多的讨论我觉得这也是AI这一波带来的好处至少大家不会觉得自己是在一个幽闭的空间里面独自的探索至少大家可以刷刷小紅書刷刷微博致呼看看大家是怎麼討論這件事的我覺得這件事情有時候還是挺解壓的但有時候也挺增加壓力的被人罵的時候你就不這麼想你們公司有創業者人格的人嗎有創業者人格一般還蠻樂觀的我覺得樣本身就很樂觀非常非常樂觀他為什麼不是researcher這種悲涼的體色我不知道因為他经历过悲凉然后成功了吧他经历过这个AI的寒冬然后告诉所有人他是对的你们是错的如果我经历一下这件事情我可能也没那么悲凉他还是蛮乐观的我觉得这件事情或者说他过去的这些经历也让他更有信心然后他经常说的一句话是这件事情跟过去deeplearningneuralnetwork发生的事情一模一样哪件事情就是現在worldmodel或者你不管怎麼叫它現在系統現在智能系統的搭建他說總有一小群人大家能夠清晰的看見這個世界發展的脈絡這個科技的進程但是他們只是一小撮人大部分人看不見對因為大部分人都在忙著做其他的事情那可能deeplearning之前那可能就是做一些whatever其他東西traditionalmachinelearning那現在對吧你這個東西就是你可以不說了想一想對然後然後我覺得我覺得他其實還是蠻樂觀的或者說他有足夠的confidence然後說我能看到的事情是重要的事情我能看到的這條路線是一個清晰的路線然后在这件事情上我还蛮相信他的你有怀疑过他吗我说了嘛我质疑这派理解这派成为这派所以当然有个怀疑但我觉得对人的信任和对一条research主线的信任这件事情是需要时间的我前两天还在跟学生说一样每次出去给talk会给一模一样的一个talk就是他那個slice也是說實話挺難看的對吧然後但是又有他個人化的風格就是風格跟design這件事情也很有意思有些東西本來很醜但你用的多了等到時間發生了變化它又變成了新的時尚但他每次給這樣一個同樣的talk但我最近體會就特別的深我就說我這個talk已經翻來覆去看了至少10次20次但每次都有新的收穫每次我都會覺得好像我更加understand它到底是什麼意思然後這件事情的這個更多的understanding不是因為我看了十次二十次同樣的內容得到了這個新的understanding而是因為我自己在做我自己想做的事情然后我能找到就是我在看他套的时候每次都会去做这种翻译工作跟联想工作我会发现原来他说的这件事情在我现在的认知体系下是可以这样解释的他跟甚至现在的largemodel的范式多模特的范式一点都不冲突所有东西一样说的话都可以被很清晰的map到我們現在在做的具體的事情上並且指導我們可以走出也許某種localoptimal然後也許可以通向一個不一樣的未來所以它變成了一個inspiration它不只是knowledge它是inspiration所以這件事情我覺得也很奇妙我们刚才聊了很多世界模型你对这个真实世界的世界模型有什么新的思考吗在过去一两年我觉得就是说这件事情一定要超出这种research的局限一定要走到真实的生活里面去然后要了解到这个真实世界发生的事情但是我觉得纽约很不一样每天我上班首先我不用开车所以已經開始進入到從一個從一個鎧甲脫離出來進入到真實生活開始步行這件事情我覺得也有很多很奇妙的這種反應比如說我每天有時候其實還是壓力蠻大的有時候遇到一些事情還是蠻沮喪的但每當我穿過這個從我家到我學校辦公室會有一個公園叫華盛頓公園然後里面形形色色的人什么人都有大家都在过自己的生活有弹钢琴的艺人有跳舞的有这个推着婴儿车的妈妈们有下象棋的老大爷然后有坐在台阶上什么也不做发呆的年轻人也有拿着电脑学习的NYU的学生然后我觉得我每天最解压的时光就是这大概5到10分钟的路我发现这个世界比我们想象的大得多不是所有人都关心什么叫做AI他们可能不care这件事情然后他们有自己的生活这个世界很大但另外一方面也许AI在未来某一天确实会影响到他们的生活那我们到底应该做什么我们作为一个researcher有没有某种社会责任但这个可能说的有点远了但我只是觉得多跟人接触多跟生活在这个世界里面的人接触让我对什么是AI应该怎么样去做下一代的AI会有一些新的认识于是这件事情正是伊丽亚当初给我打电话的时候她想要跟我聊的东西但我那时候还没有这些感悟有了什么新的爱好新的爱好在纽约吗对没有什么新的爱好我觉得我觉得滑雪算一个吧其他大部分时候可能还真的是没有时间但是在纽约的好处是你知道你出门之后就能够去找到找到一个新的爱好这件事情本身对我来说已经足够开心不管我也沒有時間真的走出門去然後做這些事情然後有這樣一個機會在這我覺得還是蠻不一樣的跟完全也很不一樣能不能分享一下除了工作以外你有什麼喜歡的音樂喜歡的書電影喜歡的遊戲現在啊嗯這件事情還蠻難想的一時半會兒我覺得還是通過AI來講吧我覺得最近看了什麼東西我想想啊我還挺愛看電視劇的所以可以推薦一些電視劇給大家看一看有個電視劇叫POI也是一個很老的劇PersonalInterest這個很多年前看在那個裡面大家討論了什麼是一個SuperIntelligence你有一個好的SuperIntelligence和一個壞的SuperIntelligence他們之間的競爭跟對這個人類社會的威脅然後我覺得這件事情我就不劇透了但是還是挺多默態的而且這件事情有可能有我覺得有一定的預言性我覺得還挺神奇的本質上它就是怎麼樣從一個在一個核子引能的語言模型或者說一個可以寫代碼的這樣一個agent一步一步跳脫出來變成一個多模態模型的一個過程我覺得大家可以看一看然後到後面當然還有我很喜歡的比如說像萬神殿這也是一個我覺得是一個某種AI的預言對它是一個動畫它的作者是這個劉玉坤他也是我的老鄉然後但他也是一個當過什麼律師當過馬農然後最後變成了一個小說家的這麼一個人非常非常厲害我非常非常敬佩他然後他的書我也很愛看對然後但這部劇之前也被SamAltman推薦過所以很多人也都看了最近當然就是很火的這個《同樂者》我覺得這件事情也是一個AI的預演现在有一点麻烦的事情在于这些流行文化被AI渗透的太多导致所有事情好像都跟AI有关系有一点受不了但是作为一个那可能只是因为我是一个AI从业者所以有时候会有不一样的感觉吧但我觉得其实这些事情还是蛮有启发性的包括我之前说的这些科幻小说包括这些老的电影我觉得他們可能都是某種現實的預演吧但通常來講這些影視作品都沒有去指向到一個很光明的未來通常來講結局都是挺慘淡的最近還看一個電影叫《NoOtherChoice》可能翻譯過來叫《別無選擇》吧朴贊昱的一個電影然後他講的也是AI對人的異化他全篇這個電影沒有講任何關於AI的任何事情直到最後但通篇都在講因為AI的到來人到底發生了什麼樣的變化人的心態人與人之間的關係到底發生了什麼樣的變化我覺得這些事情也很有借鑒意義對然後說到電影最後說一句就是歡迎大家來紐約在紐約我現在以前我會參加一個電影節就是紐約電影節會有很多這些電影可以看現在我會參加兩個了第二個是這個Runway每年舉辦的AI電影節然後我覺得也很酷也很有趣然後要推薦的話跟我們剛說這些事情都很相關的一個今年的得到他們大獎的這個AI電影叫做TotalPixelSpace叫做中文可能叫做全像素空間TotalPixelSpace然後對我也不劇透反正這是一個很有趣的一個AI的短篇然後他其實講了很多我們剛講到的關於世界模型或者說為什麼人的intelligence不是只是簡單的或者不是purelygeneral的這種intelligence的一些argument我覺得很好玩我们的每一位嘉宾都会给我们的观众推荐一个人生之书就是希望它是真的影响过你改变过你你的会是什么呢书吗放哪啊你得让我想一想一本書我猜大家可能都經常推薦但這本書之所以對我的人生改變很大我覺得不能說對人生改變很大但是是我在本科的時候一個群體性的記憶就大家會看這本書叫做記憶幣你有聽說嗎就是哥德爾·巴赫·埃舍爾中文名叫《极易必知大成》里面讲了很多关于哲学关于数理逻辑然后以及这三个人哥德尔巴赫跟埃舍尔一个数理学家一个音乐家然後有作曲家以及一個畫家他們之間是怎麼樣能夠他們到底有哪些哲學的共同點可以這麼說然後這件事情很有趣是因為我們本科的時候這本書有這麼厚我們組團在學習這本書這也是我們老師推薦的所以大家組團學習這本書然後其實當初大家也看不懂但是到後面可能越來越覺得這件事情有點到了我覺得這本書我覺得如果沒有時間去仔細看每一頁的話也可以稍微讀一個精簡版或者某種summary它裡面有些觀點我覺得非常非常有意思然後還有一本書是那這個也是可能是本科的時候看的叫做禪與摩托車修理然後這本書也是一個內心求索的過程他講的就是一個人騎著摩托車然後有一個這樣可能又劇透了有一個想像中的這樣一個責任但其實這個責任就是他自己的投射我覺得我看這本書的感覺是我也其實並沒有完全看懂他到底在說什麼但是有些書有些電影會把你裝滿有些書或者有些電影會把你掏空我看完這本書的感覺是它有點把我掏空了的狀態然後讓我感覺到了一些對這個說起來又虛了然後反正讓我感覺到了讓我感受到這個世界裏面到底什麽重要什麽不重要對於你來說什麽重要什麽不重要我不知道我觉得永远在找这个平衡吧我觉得我觉得人与人之间的真诚的交流是重要的也许其他都不重要但我在某一个时间点上你要问我这个问题那可能我觉得我会说创业很重要我会说research很重要但归根结底我还是相信人与人之间的交流这件事情很重要听起来你想做research也是为了交流对啊我觉得是啊而且我觉得research本身也是一个deeperconnection吧这件事情其实我们在融资的过程中还帮到了我们为什么呀就有一个投资人很愿意投我们然后他的原因是他认识了一个很强的一个创业者也是一个研究员然后他说你们一定要投赛琳然后我们不管用什么样的方式都要帮到他但我跟这个人只在开会的时候见过一次然后后来后来这个谁呀谁呀这个这个RobinRobinRomaha就是他是这个StableDiffusion的一组是现在BlackForest的CEO的flux对吧然后这个我觉得投资人跟我说说其实他之所以会这样就是这种信任关系是建立在你的学术工作之上的这种信任关系甚至有时候会远超于你真正的personal的这种connection大家通过你的一篇作品了解你然后这件事情会传承下去甚至可以走得很远你怎么看现在这个seadanceCDANCE非常厉害啊CDANCE这个真的让我们今天的设置组的朋友也可以来讲一讲我觉得非常非常强然后我听说他们也是一个很大很大的模型而且是一个MOE的模型不知道这个小道消息是否属实因为在此之前我知道大家没有人能在这种DiffusionModel里面把MOE做Work如果他们真的能够做到20个Billion的Parameter并且是一个MOE的架构并且他们能够把这些数据吃进去我覺得非常非常了不起但是所有這些生成模型90%還是一個data問題架構不重要90%或者我再說95%吧都是一個data的問題它的data本身就多它的data本身多但多不夠他们应该做了大量的工作去清理这个数据去做captioning去校对这些数据的分布他们diversityquality以及他们和语言的这个promptalignment的程度我相信这一年应该有大量的人参与这个工作然后做了大量的事情对但是一旦你把这些事情做好了之后后续的事情就变得简单很多但我觉得我觉得Cdance很厉害我觉得包括Sara包括Viu想要超越我觉得不一定那么简单我们的工作室叫元吉世界工作室当你听到这个名字的时候你在想什么我看到你给我写了一句话叫放開維特根斯坦你這個結尾是不太好呀我又要開始吐槽了放開維特根斯坦是說大家不要拿著維特根斯坦然後使勁嚎然後把它作為一個語言的邊界就是我世界的邊界的把這句話拿來當作一個LM或者語言決定論的背書這件事情完全是很離譜的然后同样的话也有其他的话比如说大家说这个费曼讲whatIcannotcreateIdonotunderstand这件事情拿来当做一个unifiedmodel的背书我觉得这件事情这两件事情都让我实在是接受不了第一件事情是什么呢第一件事情是威廉斯坦他当初讲的这个语言的边界就是我世界的边界是有强烈的前提的他在这个Tractatus什么LogicalPhilosophicus里面讲了这件事情是说他指的语言针对的是可以被命题刻画的这个世界的边界然后这件事情不代表General的整个我们所说的这个世界然後所以這件事情第一就是他說的這個語言和他說的世界本來就跟我們現在LM裡面說的語言跟世界有區別第二維特斯坦在後期的時候已經完全推翻了自己之前的一整套的這種哲學體系他後來不再說這句話然後他講的事情是語言其實是一個遊戲所謂這種語言遊戲這樣的一個概念就是說語言本身沒有意義這些symbol本身沒有任何意義它之所以發生意義是因為它跟真實世界的實踐發生了關係然後這件事情就很世界模型了我們並不是說語言就能夠去完完美美的去represent整個這世界我們說的事情是說這個世界的實踐這個世界的action決定了語言這個遊戲它的內涵跟外延Again我不懂哲学我也不懂维特根斯坦但我只是不喜欢看到大家paper里面开篇先拉一句话放在这然后我觉得这件事情不符合我的审美然後包括費曼那句話也是一樣他說Icannotcreate,Idonotunderstand這句話本身沒錯但他說的create跟understand是說比如說我們有一個世界我們要認識這個世界我們要改造這個世界我們要通過改造世界的方式去認識這個世界Whatever他說的這些事情還是在一個真實的具體的世界裡面要有某種action的即使你是上課你去做一個PPT你還是一個創造的過程但現在很多人會把這句話拿來去做這種某種簡單的UnifiedSystem的一個背書這件事情邏輯上也是不成立的我們不能簡單把Create這件事情歸結於一個DiffusionModel它反向傳播的這麼一個Loss這件事情完全是離譜的對吧所以我不知道我覺得就跟我可能也是我小時候寫作文這個名人名言用多了現在看到這些事情有點PTSD然後我覺得像凱敏講的大家可以多讀哲學我覺得這件事情還是蠻有意思的你一開始就說你相信命運而且越來越相信你現在感覺命運在把你往哪裡推啊我覺得我不知道啊命運在推我嗎好像也沒有我覺得好像沒有被命運推著走的感覺只是在下一次需要做選擇的時候希望上天保佑吧這個世界是一個巨大的世界模型嗎這個世界當然是一個巨大世界模型那你能預測命運嗎我覺得不能為什麼呀因為我們資源不夠你需要用地球這麼大的一個計算機或者說你要有一個有整個宇宙作為你的計算機才能告訴你一個关于生命关于宇宙关于任何事情的答案这个答案最后可能是42好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界在最后,很开心地想告诉大家,我们的工作室正在招募内容实习生。 如果你对我们的内容感兴趣,并且你认为你自己具有一定的专业知识专业素养,欢迎联络我。 你可以在shownotes中找到我的邮箱,给我发邮件吧。
播客名称:张小珺Jùn|商业访谈录
集数:第133期
嘉宾:谢赛宁(Saining Xie),世界模型与AI科学家,NYU副教授,AMI Labs联合创始人
录制时间:2026年春节,纽约
主题定位:
本期为一场极其深度、细腻而自由的访谈,历时7小时,涵盖谢赛宁从童年成长、科研轨迹、学术与工业界经历、核心人物影响、AI世界模型思考、创业转折、与Yann LeCun创建AMI Labs的起因、技术与行业未来观察,以及个人世界观与自我辩证的完整展开。
“我不是天选之子,就是一个普通人...我觉得我希望自己,或者希望身边的人,都更加open-minded地去看待这个世界吧。”(谢赛宁,06:42)
“解决视觉不是要解决视觉本身,而是要解决智能本身。”(谢赛宁,47:40)
“很多时候,我觉得探索的动力还是好奇心,就是‘我想知道为什么’。”(谢赛宁,1:01:30)
“表征学习,是永恒的主题。representation比任何buzzword都长久。”(谢赛宁,3:12:30)
“研究的最终目标不是做一堆满分任务,而是要有一次MAX,它改变了你的一生与世界。”(谢赛宁,3:45:12)
“要把这一件事做到极致——世界模型是目的,不是一条技术路线,也不是算法,是终极目标。”(谢赛宁,6:32:13)
“不是因为看见所以相信,是因为相信所以看见。”(ACM班于勇老师,6:00:10)
“世界模型,不是一个算法,也不是一条路线,而是我们所有人的目标。”(谢赛宁,6:31:02)
“AI的终极任务,是让智能与世界的联合变成人人可塑的未来。”(张小珺,结尾)
以上为本期《商业访谈录》第133期对谢赛宁7小时马拉松对谈的精华全景摘要。