Loading summary
A
开了一扇窗户它并不是开了一个很敞开很大的一个门说你随便走吧所以我们是首先吃螃蟹的人跟投资人当然讲这事的时候他们兴奋吗听不懂我完全听不懂这什么东西你们怎么赚钱怎么把这个东西商业化了投资人问的都是这个我印象特别深刻有个投资人这东西你们能别人钱吗你看大环境这么差经济这么差要不你们把估值降一半怎么样我听过一个评论就是在讲质朴的因为质朴其实一直不算是市场上最火最明星的项目但是是技术衍生的项目然后你们是有视野有技术但是看起来会有点boring他给我一个描述说就像水泥一样他能干得很漂亮但是他就是没有太多的情绪价值Hello大家好,欢迎收听张小骏商业访谈录,我是小骏。 这是一档由语言及世界工作室出品的深度访谈节目,我们希望和你一起从这里探索新世界。 上市前夕,智普CEO张鹏在一次出差途中摔断了跟腱,到达访谈地点时,他拄着衣服拐杖。 当时质朴确切的上市时间尚未明朗台与MINIMAX之间围绕全球大模型第一股的竞争仍在持续结果并未尘埃落定張鵬提到一句西方俚語Breakaleg摔斷一條腿它通常意味著祝你好運幾天之後結果揭曉質譜確定於206年1月8日也就是今天登陸港交所成為中國首家上市的大模型公司這也意味著它將是全球大模型第一股就在這個意味深長的歷史性的時刻我與張鵬做了一場三小時的長談100年后如果智普会出现在人工智能的历史书上你希望他是被怎么撰写的智普是AGI历史上的一个先行者就开路的人这是张小骏商业访谈录与大家206年见面的第一集节目祝大家新年快乐期待在206年我们与AI一起进步张鹏老师先给观众朋友们打个招呼大家好小君好我来这栋楼感觉还挺恍惚的因为从二三年开始我就经常来这栋楼进行采访然后那个时候这里有很多公司比如说你们然后有百川还有当年的光年之外今天这些公司感觉命运已经开始分化和变得迥异了你有什么想说的说长吧你说六年多时间你从二三年开始算到现在可能就三年时间但是说我们智普成立開始算也六年多時間六年多時間說長不長但是其實發生了非常非常多的事情我們有時候經常的感慨可能過去需要十年十五年發生的事情可能就在這五六年的時間裡面就發生了所以確實是變化很大吧但是也很感慨智普能走到今天也非常不容易是怎麼開始這段旅程的吧可能我在有一些场合跟大家讲过我们出来创业的故事因为我的履历也非常的简单其实大家就是清华对基本上从98年进了清华就没离开过到现在为止也在给清华打工因为是我们的股东我毕业以后其实就在清华大学的计算机系工作在实验室里面工作叫知识工程就是人工智能相关的这样一些事情到156年左右的时候其实是一个很关键的一个点因为之前像我们实验室里面也走出去过像唐文斌杨沐这些学生然后很成功的创办了邝氏对邝氏联合创始人对也是上一代我们叫上一代人工智能四小龙之一AI1.0时代对所以在那个时候156年的时候其实我们在内部就在讨论这个问题当然是在实验室里面讨论这个问题看到这些企业其实非常的成功也在市场上也取得了一定的成就也面临一些问题但是因为我们当时在学校里面更多关注的是说技术本身的演进到底有什么样的一些问题其实那个时候很多大家其实对于未来人工智能技术的眼镜这个事情其实看得更远他们会觉得说其实像CV像早期的NLP和机器学习的这些方法可能也就天花板就在这了他可能也做不到我们说理想当中的通用人工智能啊等等这些事情那个时候还没有这个概念吧通用人工智能AGI是有的但是当时的第一代人工智能企业之后再往后是什么这大家其实想不太清楚所以大家是借着这个问题看到了这个现象借着这个问题在讨论说我们下一代应该怎么办像张博院士带着我们系里面很多老师包括我们年轻的一些人一起在brainstorming然后在聊这个事情所以那个时候其实就逐渐的有一点想法说我们要去做下一代的人工智能这个事当时就想做下一代人物智能没错其实有两个点第一个就是说技术上现有的这些技术它确实有天花板的你再怎么样做它比如说人类识别它超过人又怎么样超过人之后没有意义了再往上已经无法再去突破了它能取得的产业效果也就这个样子下一代的技术是什么第二個點是說也看到了這一代是上一代的人工智能企業的成功也吸取了一個經驗人工智能這件事情它本身不是一個純科學不是理論科學它是一個工程實踐加理論科學這個同步演進的這樣一個綜合性的學科所以做下一代的人工智能不光是学校的事情不光是研究的事情也要到产业里去做所以当时就是两个方面一个是说我们技术上还需要突破做下一代到底是什么我们要把想清楚下一个这个事情也需要在产业里面慢慢去孵化它去成熟它所以那个时候就其实给了我们一个契机就是讨论说下一代到底是什么然后下一代的这个事情到底要怎么去办怎么去做跟企业到底是什么关系产业是什么关系所以那是大概16年左右的事情16年的第一个问题的结论就是说我们产生了一个词叫认知智能认知智能对叫认知智能就是那个时候大概是在那个时候16年左右的时候那个时候还不叫通用智能对吧通用人工智能只是一个很大的目标很大的一个目标当然我们认为认知智能是我们说的感知智能的下一代它是邁向通用人工智能的下一个台阶它并不等同于通用人工智能因为那个时候其实大家对通用人工智能觉得很遥远我也定义不清楚就不用强行去定义它但是如果是下一步nextstep这个事情我是可以尝试去定义它的清华当时就已经有很多这种跟产业界的合作对吧非常多很多它有这种渊源對清華一直是在人工智能這一塊是非常重視產業落地的做了很多的跟企業的合作對吧不光是純粹在實驗室裡面做研究做應用做落地當時我們實驗室其實還是非常厲害的當時我們在那個年代的時候是少有的可以拿我們的技術去掙美金的怎麼掙就跟國外企業合作他付我們都是美金少有人能挣美金的实验室说明那个时候其实中国的人工智能技术和研究还是比较靠前的比较靠前所以那个是在那个年代到16年的时候我们就基本上心里就有准备就要去做一个企业拿我们的一些阶段性的研究成果来去寻找下一代人工智能就认知智能的路径为什么是要你们几个人来开始做这个是有渊源的吗这个不是别人要我们怎么做是你们想做这是我们自己想做我当时在实验室里做工作的时候其实负责的就是叫工程转化这一块教授们带着学生们做研究博士们说什么做研究做完研究的这个东西他可能发paper了做了一个prototype做了一些简单的代码但是我要去deliver给我的企业的客户说企业的客户的要求肯定不只是说一篇paper或者说几个prototype的代码需要是一个system需要是一个product那段时候我就带着一帮人在做这些事情清华一直有工程转化的职位对我们清华的一个非常有意思的事情一直有我们系也一直有我们实验室尤甚所以这是我们的传统就是从我的导师建立实验室开始他就非常重视这个事情他提了一个概念叫我到现在还记得特别清楚叫P2P不是爆雷的网贷P2P他叫PapertoProject或者叫PapertoProduct就是你的Paper研究成果一定要转换成实际能用的产品或者系统你看现在清华基本上工科类的这种院系现在基本上推广这个概念已经非常普遍了就对于原来博士生来说可能你交一篇论文博士论文然后理论上有突破ok就可以了但现在基本上都要求要有实际的system要有实际的应用这其实就是一个推广的过程大家都接受了这个概念所以早期的时候其实我们就有基因就有想法做这个事情所以我们当时就认为说我们既有研究上的前沿又有水平工程上我们把研究成果转换成工程我们又有这样的基因又有这样的能力其實這個事情就滿足了這兩個條件我們可以去把它在產業化的角度來說把它落地同時反補用我們的工程時間來反補我們的研究工作所以這個就是我們選擇做這個事情的動因不是誰要求我們去做這種事情當然有一些老師們倒是也還提過這件事就比如說張博老師還很清楚的跟我們講過他說人工智能這件事情它就是一個跟產業緊密不可分的事情你们就应该去产业里面去做这个事不管是研究还是真正的去商业化这个都是一个产业的事情是否有几位联合创始人你们当时的分工是什么样的就在学校里面当时其实在实验室里面没那么复杂都比较简单你比如说像几位教授唐老师李老师许老师他们主要是做科研做研究核心的技术的突破带着学生一起做研究写paper然后做一些事情然后我会带着工程师团队们一起去把这些东西承接下来做一些系统做一些product然后去交付一些客户的一些需求所以當時我們還能掙外國人的錢像德斌他也是做知識產權出身他博士畢業以後他高文院士的學生畢業以後在做知識產權專利相關的事情做了一段時間所以他在這一塊比較熟悉全國的轉化怎麼去做IP怎麼去做推廣技術的推廣合作然後三本是後來加入我們實驗室之後就是我們總裁王少蘭他是因為在一個上市公司的北京這邊中國區這邊當老大就市场他非常熟悉而且他也是工科出身做芯片的企业出身所以他也非常熟悉我们这个行业然后帮助我们去做一些推广做一些联合生态这些事情所以其实他分工就跟我们现在基本上是很类似的所以很自然的我们组合到一起来做这件事情当时要负责工程转化你当时想认知智能应该怎么转化其实这里边有一些讨论出来的一些结论首先第一个工程转化这件事情除了你要把原来的prototype变成一个生态环境里边可用的产品这个相当于是一个software的东西对吧第二个你还要去真正的逻辑去结合真正的实际生态场景里边的各种各样的硬件软件各种条件所以这是一个适配性的问题更複雜的就是你要真正的推到市場上去跟客戶去售賣這些東西的話他還有一個商業的問題就是你的成本你的收益之間怎麼樣去平衡的問題对所以这些事情就是在那几年里边或者说那十几年里边慢慢的去学会的我也不是干这个出身就比如说尤其商务那一套东西对那套东西你怎么跟大家报价对吧你报什么样的价格是合适的你的成本该怎么核算这些事情其实以前你在学校实验室里面肯定是不太考虑这些东西的但是你真正面临商业客户的时候肯定就会人家说你报个价格给我第一次报价紧张吗其实挺紧张的心里没啥底因为那个时候也不像在公司里面有这么完整的财务什么之类的你能知道说我每个人花多少钱对吧我每天的办公费用是多少其实也没有什么太大的概念所以很多时候就拍脑袋拍了大概估了一个对所以早期的时候其实很多的项目大概大家就是收了点辛苦钱对挣了点成本然后大家发了点学生们老师们发了点奖金也就那样了16年还没有想过要创业吧2016年其實在考慮這個問題已經開始考慮了已經在考慮這個問題真正我們開始行動是2017年2017年我就嘗試在學校這個體制底下科研院所体制底下怎么去把商业化转化路径走通因为那个时候其实学校里面的这些叫体制内人员去开公司这个事其实是不允许的敏感对他是不允许的之前没有先例吗有在职人员有但是大家都是不是这种正式的官方的渠道你一个老师在外面开一个公司好像也没人举报你什么的你也就过去了但是严格来讲这个事情是需要跟学校去报备批准的对吧或者是不是可能公司如果开的好的话就慢慢就离职了从学校严格来讲这两件事情它不能联系起来它是并行的两条线但学校呢就是这个事情发生多了之后呢像这种学校呢它会有一些考量它会有一些管理规定出现就不允许啊或者报备啊什么的就出现这些事情所以在167年的时候开始做这件事情我们就想找一个官方的路径就专门做这个事情的路径正式的没有想过先悄的做然后悄的做被发现了再说这个总会留下一些守卫我们还是希望说这个事情走的比较顺畅不要给自己留下一些守卫一些问题167年的时候就在找这个路径学校其实也想干这个事他想做一些比如说学校那个时候成立了一些产业转化的一些机构像数据科学研究院像巴拉巴拉的一些机构二级机构其实他就想做这个事而且请来的负责的人都是原来在产业界待过的你看意图就很明显他学校也觉得我有很好的这种科研成果我为什么不能把它转换成商业价值对但这个路径怎么做也在探索后来迄今是到18年的时候国家包括教育部包括几个部委联合给了一个意见就給了一個針對這種專事門情的一個意見一個辦法就允許科研院所的在職人員用已有的研究成果做科技成果轉化然後規定了說怎麼分配一部分給到原來科研院所一部分給到創始的團隊或者研究團隊他們自由支配這是開了一個窗戶分配比例好嗎條件好嗎当时的分辨比例其实没有特别明确的时候到底这个比例是多少我印象当中我记不太清楚没有白纸黑字的写下来是要谈的是要聊的好像是定了一个底线还是什么我忘记了这个细节有点记不太清楚了如果学校把自己的比例抬得过高的话对创业公司也不好不是很有利对吧所以那个时候其实当然这个事情我就跟他说了他开了一扇窗户就大家看到了外面还可以有这条路他并不是开了一个很敞开很大的一个门说你随便走吧他也没有那么方便所以出了这个意见之后他怎么执行这个比例到底定多少谁拿多少谁拿什么分怎么约定怎么评估这个成果其实这些细节都没有所以我们是首先吃螃蟹的人我们就拿这个东西你看国家给了这个东西那跟学校谈说学校怎么办我想办怎么办这个是你负责谈吗这个当时还不错就我们董事长去谈的他对这块比较熟悉我刚才讲了他做IP相关这些事情然后就跟学校去沟通这个事学校这边其实也挺马爪的他说我只有这个文件底下这个操作细节是什么我也不知道你们是第一个或者说你们是最先开始来聊这个事情的人那我们就一起来聊这个事所以学校都我还特别记得当时科研院的院长金院长还有当时管成果转化复化也是我们的一个师姐叫志鹏反正还有很多人包括学校的领导都很支持这个事大家一起坐在一起聊这个事情怎么办怎么分怎么样合理因为刚开始国家的意图也很明显就鼓励大家去做科技生活转化不要躺在保险柜里然后把它转化成产业的价值所以就开始聊其实双方都很有意愿无非就是说在这个过程当中怎么把这个东西厘清操作的流程怎么来定这个东西之后大家不要留下一些遗留的问题没考虑到的细节等等所以当时我们就开始走这个事情它真正走通就已经到19年我们是一年多那个办法是18年的我记得是应该是18年的1月份出来的然后研究这个细节走通整个流程公司注册到6月19年的6月份那段时间我们是第一家我们系里面第一家所有整个清华都是第一家至少我们计算机系是第一家其他学校我不是很清楚不太了解这一年半主要就是时间耗在哪就是谈这个中间这个过程比如说大家分多少是37开28开还是19开你评估多少就是你整个这个东西我们有科技成果我们也有拿奖的成果这成果都做过一些鉴定那到底它值多少钱以前都是不拿錢來評判的頂多是說是一個什麼樣的一個水平對吧他沒有拿錢因為你一旦產業化這東西最後都歸到錢上對吧因為做戰鼓本啊什麼之類的你都需要作為用錢作為單位來衡量所以他最後一個評估的過程怎麼來定義這個價值是多少貨幣上怎麼定義這個事情就談了很久最後讓你滿意嗎我覺得還挺好的我觉得还挺好还算是比较顺利虽然耗去了一年多时间但是我刚才讲了因为你毕竟是第一个吃螃蟹的你前面没有人走过这个路就学校也没走过学校也不太清楚这个是应该怎么办所以大家是在互相理解互相的配合找到这个契合点合适的契合点又不要给大家造成一些后续的麻烦什么之类的因为他们可能也体制内满他总会还有一些国资什么的这些事情的一些要求能把这个事情这么快的走下来我觉得是非常不容易的肯定是学校我们还有各方大家配合把这事情走下来当时有没有参考一些比如说海外散佛教授在我们开公司因为海外这个非常多所以当时确实是看了很多然后学校这边肯定是广泛的调研和看过这个事情然后我们也就反正也举过一些例子跟大家解释这些事情谈这些事情但这个细节我有点不太清楚因为主要是德宾他们就跟学校去谈的我那时候这个事我没参与太多但这个历程我知道确实不容易搞了挺久的其实我们那个团队运转是17年就开始我们就在相对比较独立的在运转但是公司注册成立是19年完全转出来那个时候就19年注册以后就把这个团队从学校的实验室里面全部都转出来这个还挺有意思的因为其实这个政策出的时候是2018年然后第一个你们作为第一个吃螃蟹人士其实你们在很主动在铺置这件事情在整个清华里面所以你们还是一帮非常想创业的人对吧相对于其他人来说所以刚才你说的是谁让你去让你去创业其实没有其实我们自己想做这个事所以我一直说智普包括我们的团队还是非常幸运的一帮人很多事情恰好就在那个时间发生了你碰到了最好的事情然后对发生了然后你正好又踩在这个点上这是17年到19年其实一条线你们是在跟学校谈在公司这条线上你们当时在做哪些事情以及有哪些的尝试当时的话因为我们这个团队从实验室那个时候就已经有一个不小的团队大概有一二十人一团队专门做这些事当时我们主要做的是一个科技情报的一个平台一个产品这产品在国际上还是非常有包括国内也有很大的一个影响力叫MI能当时我们有专门的一个团队在做这些产品化做这个服务商业化的转化那个时候我们就已经在通过这个产品通过这个技术服务很多的客户包括一些高科技企业刚才说正美元当时的什么谷歌啊X美服务啊这些包括IBM啊什么全部是我们的客户那时候公司是盈利的吗那时候没公司当然我们肯定很赚钱很赚钱就是按项目指去一个一个去给他交付对能赚多少钱那时候我倒是不是太关心这个事情但是我当时有点印象是有一年我们大概整个实验室的就挣的这种我们叫横向的科研经费项目经费我们就挣了好像一年有接近20万所以你们当时已经是学校非常有钱的老师了这个钱进不了个人兜对一方面我是觉得其实挺好的市场有很大的需求这个技术确实也有它的领先性我们就想做这个事情而且也确实让我们看到了一些机会说去向这个就刚才说的下一步的认知智能这个方向去迈进对这个更新迭代的速度可能在去产业界之后会更快你们怎么定义感知智能到认知智能的技术区别其实有一个很经典的问题就是我们跟张博老师聊天的时候张博老师老举的一个事情那个时候他说那个时候的上一代的人工智能是解决的是个感知的问题其实他不知道他不知道对你想想这个问题其实挺有意思他画了一个象限他在一个象限里面一个二维的象限里面他画了一下叫现在的人工智能解决的问题就是说一些非常小的一个范围的问题然后再往外就是认知上就是我知道我不知道对吧就人有这个能力然后还有一块是我不知道我不知道所以其实我们现在探索的事情就是想让机器具备类似这样的认知的能力而不是简单的就是说我识别个图片或者是理解翻译一个语音这样的一个事情其实这个东西它没有脑子就原来的技术它其实不是个脑子它只是一些技能单个的技能现在人工智能具备认知了吗我看前几个月唐家老师还发了一个微博说大家觉得人工智能有认知吗可以跟我交流所以现在解决这个问题了吗我觉得正在解决的途径当中还没有解决完因为认知的本质是什么这件事情还没有得到最终答案这个事一直是计算机科学家還有這個腦科學還有認知科學有專門的認知科學認知心理學這些科學家們一起在研究的一個問題人的認知能力到底是因為什麼不知道現在還沒有徹底把這個奧秘解開所以現在的包括帶大模型在内的这些技术是不是真的模拟了人的这个认知或者说掌握了人类认知的这个本质我觉得肯定不是还没有到那个地步因为你自己都没搞清楚这个本质是啥对吧所以你很难说这个事情你已经解决掉了但是站在那个时间窗口上你们当时看到的下一代人工智能就是这个认知智能所以想要做这个事情认知智能和那个情报系统它们是什么关系我们是把这个认知智能的能力应用在某一个领域里面去去做研究以及體現他的能力因為什麼做情報這個事情呢其實我不知道你了不了解情報學原來情報學的定義其實在學科定義裡面情報學的定義是在圖書館下面就是原來就很多的這種圖書館他保存了大量的科技文獻然后所谓的情报学就是通过大量的这种文献数据的这种分析和研究得出新的知识或者新的信息这个叫我理解我理解他就是情报学要做的事情你想想为什么这些顶级的研究人员才能做这个事情因为他需要引用出新的知识对他要理解原有的那些文献表达的那些知识首先这是第一理解的能力第二你要能把这些理解的这些能力这些知识综合起来重新演绎重新按照你的目标你的想要解决的问题重新演绎去推理并且第三得到一个新的东西得到新的知识这个事情很伟大人类的知识就是这样出来的不断的增长因为用旧的东西然后融合然后推演然后得到新的东西其实本质上就是这么来的对所以情报学研究的这个东西它特别像我们刚才说的认知的能力就不是像它本质就是认知能力的一种应用非常密集的一种应用非常典型的一种应用所以我们一开始就要做这件事它就因为难度很高大公司为什么买单比如说Google你知道他们找我们做什么事吗不知道非常有意思就大公司向我们买单就是找我们做这件事他问的问题也非常简单你就告诉我未来三到五年在某一个领域里边哪些技术会成为热点成为重要的技术他其实是预测对技术预测对所以你看预测这种事情他一定是要基于认知的现在市场上大家也在做市场预测是一个事儿但是这个事情你再往下下转细分其实还有很多种的问题你像科技情报科技科技类的信息它相对来说比较规范比较好做论文科技报告专利这些东西它都是有规范性格式的也描述相对来说比较严谨有雨料对的你有数据算法是我们擅长的我们加上这些数据比较规范的数据我们来做这个事情最后的结论就是说告诉你一些预测的结果我建立起一个模型对吧我们交付的就是这么个东西那时候给Google预测了点啥有预测到代言模型的爆发吗这个就不太记得细节了他们是怎么找到你们全球来看做情报系统的人是不是也不多那个时候其实国外还是有的国内也有一些做他们为什么不用国外的团队所以我们当时说了我们的平台叫AMiner平台其实本身在国际上影响力还不错而且我们专门做这一块其他的可能就是咨询机构在做包括国内的其他一些厂商做的事情单位也是从图书馆出来的比如说原来的中科院的情报所他们是图书馆出来的你们是进了机器出来对我们是注重算法我们那时候不是通过人做传统的做法是通过专家大量的调研问卷然后研究文献阅读文献写报告统一人工去做这个事情靠专业的专家的经验去解这个问题那个时候我们是用机器一学习的算法用模型来解决这个问题效率也不一样处理数据的速度也不一样可能准确率也可能不一样高低反正就是这个算力需要的大吗那个时候的机器学习算法不像现在还好也需要其实是找到了一个场景所以你们当时一出来创业就是有一个确定性的场景的是当时出来的时候其实是在做这个事情但本质上我们是在做背后的核心的技术怎么样用数据机器学习的算法去构建模型它本身跟大模型现在解决这个问题非常类似的只不过是用了一些上一代的这种向进学习的办法那时候赚钱吗那时候也挣钱但肯定也还是亏着的也是亏着的但是那时候也开始融资了对吧对我们出来学校办完科技成果转化之后第一笔天使投资很快就拿到那时候好拿吗还好怎么跟他们讲这个事因为这个事情就是我们跟他讲的其实就刚才说的那个逻辑首先第一我们是核心我们是要做认知智能做下一代人工智能技术然后其次在这个基础上我们找到一个场景有这样一个产品和平台他也有非常不错的用户基础和市场基础我们已经在学校里面服务了这么多客户所以这个事情大家一看已经有了都不需要等你去做产品了是一个相对确定性的事情19年到拆GPT真正出来你们中间一直在做这一件事情到没有其实这个中间还是变化很大的就是19年我们成立公司其实那个时候我们就在做相关一些机器学习算法的研究其实之前大模型的上一代就是我们现在叫小模型或者叫早期的预训练模型比如说像BERT什么这类的东西我们其实也一直在用一直在研究我们自己也做一些算法的研究这个是你用它的东西自己训练一些模型所以那个时候就关注到GBTGBT1是18年19年发的是GBT2其实GBT2已经在学术界有些影响了大家争论其实比较多讨论比较多我们也一直在关注这个技术到底行还是不行其实是GBT320年发布是个分水岭是很大的分水岭正好是公司一周年也是6月对他发布应该是5月底还是6月初我忘了大概那个时间就是公司大概一周年的时间正好说我们请张院士因为我们的战略的顾问请他来公司我们一起座谈聊一聊那时候大家还比较轻松没有现在这么绝了那时候多少人那个时候大概几十个人五六十人这样子肯定不到一百人人不多然后请张艺世来我们内部就讨论说请张艺世来你不能跟他闲哈啦还得问他一些有意思的问题他能帮我们解答的一些问题我当时就说因为我也在关注市面上很多的一些最新的研究进展我说前段时间有个东西很火叫GP3出现了之后很有意思我就想问一下张院士怎么看GP3当时我记得特别清楚这个是我说的后来来了以后张院士来了以后还真讨论了这个问题张院士其实给出的评价还是非常高的对GP3的评价非常高他说是积极学习一个比较里程碑式的一個進步就有一種新的方式但是他當時還是除了肯定這個事情以外他還是擔心一個問題就是剛才說的那個問題他其實還是不知道自己不知道甚至連他知道自己不知道都不行對吧因為那個時候你看GB3那個時候當然都很開玩笑說是一個就怎麼說呢就是你他會一本正經的胡說八道嘛這就是那個時候開始的說這個話就你問他什麼任何問題他都會給你編一段答案出來他其實不知道但是他會編一個答案給你對吧所以他實際上就是不知道自己不知道对吧所以他给了很高的一个评价说这个是个很好的一个进步但是他仍然没有解决最本质的问题其实是这已经是个很高的评价了然后我们那个时候就开始关注这个事做这个事情开始用他的技术方案了吗对我们就研究说预训链这个事情就是GPT这个事情自回归的预训链这个事情它和我们之前用的像BERT类似的这样到底有什么区别它能不能干掉原来的这种方式我们就开始研究算法相关的这些事情做了很多的东西所以我当然记得是20年年中间GPT-3发布然后我们自己的GEMM这一个算法是在21年大概我们把它相对比较成熟的成型做了一年研究嘛对做了一年差不多一年吧所以那时候还是follow了对吧就是很快做了决定对还是跟进了研究嘛这个大家很喜欢这些新的东西我们去研究这些新的东西但是确实不一样的地方就在于那个时候就说业内其实并没有像现在这么高度统一的认为GBT路线就是OK的所以那个时候大家还是在想说有没有什么办法去走出自己新的创新的一些东西所以GAM是那个时候定下来的所以GAM是在BERT和GBT之间我们当时想综合这两种算法的优势是有一个综合性的对所以它出来这个算法本身它是非常典型的一种带自己典型特征的这样一个算法所以那个时候是开始在做这个事情GPT和BERT它的差异是什么BERT它是一个双向注意力它同样是基于Transformer做注意力计算比如你给一个句子一个文本它可以从前算到后同时它也从后算到前GPT大家知道是单向的我只看前面预测下一个预测下一个预测下一个预测下一个它是单向这样线性的生成的BERT是把中间抠掉就我要让它预测中间预测中间我既要看前面也要看后面所以它是双向的所以当时大家很形象的描述说BERT就是个填空机器人GBT就是一个蹦瓷器就一个往外蹦一个往下蹦预测下一个它其实都是预测只不过是双向往中间预测和单向往后预测那你们GLM是怎么综合他们两个的GM的话综合的方式其实还挺巧妙的我们把这个问题做了一个统一你看他原来不是往中间预测不得往两向往中间预测GPT是从前往后这样预测然后我们把两向往中间预测这件事情把这个词的顺序调一下它实际上也变成了单向往后预测一樣的所以把這兩個模型就這樣統一起來了所以當時GM出來的時候在很多效果上最典型的一個特徵就是或者說最有優勢的一個特徵是說它既能做填空體也能做這個續寫預測就單向預測這個事情因為當時GBT-3他們做填空體還挺麻煩的他做的沒有不好其實所以當時JOM出來的時候是綜合了這兩種能力而且這是第一個就是本身融合了兩種方法第二個由於他採用了一部分的雙向注意力他是不是全部的雙向注意力是一部分的雙向注意力其實取得了一個意外的一個效果是說整個在訓練的過程當中他的穩定性更好這大規模訓練的時候他穩定性感覺更好就是体感上工程上得到的一个结果然后再一个就是说他训练完了以后这个模型他得到的参数矩阵他的分布相对来说比较集中就是他不会特别散所以集中的好处是什么我可以做量化的时候精度的损失少这个很好理解比如说你的直域是这么宽的话你要做量化比如说平均把它分8等份每一个域的宽度就很大你一个量化后的结果代表的宽度它的精度损失就大但是如果我的分布本身就窄我量化的时候同样是分8等份我每一等份它精度的域值就小我的精度相位就更准确一些对吧这是很好理解的一件事情数学上所以这也是一些额外的因素所以算法本身还是挺受学术界和产业界的认可到现在大家也还是认可GM是读书一致的一个流派然后后来再接着下来就是21年了对21年然后接下来就是2年我们当时就开始决策要不要像GPT-3一样去做一个因为那个时候ScanningLoad还很简单的你参数量翻一倍翻10倍上去你智能水平就啪就上去了对吧大家都相信这个所以那时候就开始决策说我们要不要去用GDGM算法去做一个潜移的模型前一的模型二二年二年二年几月份应该是二一年底当时你们怎么认知OpenAI其实我们就很关注我们一直在感觉这个公司挺神奇的15年成立然后之前一直在做强化学习突然到18年的时候把强化学习扔了然后开始搞GBT这个事然后开始重视预训链对重视预训链这个事然后伊利亚我个人还是挺喜欢这个基本上他的论文也好他的很多的文章也好我都看我觉得他很多的思考还是非常深入的而且确实是很到点子上那时候应该觉得他们就是一个研究机构对吗对那个时候因为大家都知道他是当时是很多人投资包括马斯克在内投进来是一个做非盈利的一个机构都觉得他反正就是一个OpenLab你们当时有没有想也做一个这样的OpenAI就是你们做一个中国版的这种OpenAI其实我们的气质就挺像在那个时候就这么想了对其实那个时候就想干这个事情但是你公司已经成立了你不能把它退回去那肯定还是得有公司的有公司实体还是更方便些那个时候就在公司实体里面就讨论说要不要去对齐GPT-3去做这么一个模型的训练投入挺大的投入需要多少钱因为GPT-3当时整个火了之后大家分析它整个的训练成本是20多万美元OK对吧那个时候成本就已经这么高然后我们自己要去训练的话估计花费可能也得千万级人民币以上这种水平哪怕我们再节省哪怕我们的成本控制的更好也得也差不多这个水平比如说我们在外面成立一个公司我们就做成为转化好了只赚钱就是把这个项目卖给客户然后这也是一种做公司的方法对吧为什么还要去追求这种更好的技术你看为什么我们要讲从16年开始那个故事从16年开始那个故事其实就想给大家传递一个信息是说智普其实不是单纯的说我们就是想成立一个公司去挣钱其實本願還是在於我們要去探索AGI到底是什麼這才是我們的本願只不過我們覺得在成立一家公司在產業裡面去做這件事情它更符合當下的人工智能發展的需求而不是簡單的只是做研究也不是简单的去挣钱不是简单的做商业化对其实这个事情它是这样因为你是一个探索的过程技术的往前的演进这件事情是一条主旋律你的商业化是另外一条主旋律这两者之间我们认为在人工智能当下的生态里头没有办法完全分隔开的就恰好后来OpenAI走这条路之后你会发现也事实证明就是这样所以当时你们是很喜欢OpenEye的在20年21年2年然后你们最后是怎么决策的要不要投入这千万当然赵瀚有这么多钱吗具体因为我不管财务所以我不太清楚开玩笑但其实确实这个事情的投入对我们来说还是挺大的风险还是有的所以当时要不要做这个事情其实还是很慎重的考虑了一下最后的决策应该还是就是说我们应该做而且必须我们自己来做必须自己来做还有别的选择别的选择就是等着看其他人所以我们就很果断的去做当然这个主要还是科学家团队在里边起了很大的一个作用因为之前的GM的研究算法的研究包括刚才说的那些特点都使得我们有这个信心说能把这个模型把它训练出来并且性能不会差不会让这个钱打水漂所以最后决策还是要做这个事情我们就投了21年12月底到大半年时间一直到2年的七八月份把它弄完大概9个月时间我们那个Blog还挂在网上可以看得到整个这个历程然后又过了三个月ChangeBT就来了对年底正好二二年年底的时候1月30号的时候ChangeBT就上线了其实这个中间这几个月其实还挺我印象挺深刻的我那时候也不在北京我在外地在深圳回不来那个时候我们就因为花了这么大一笔钱我们得去接着去融资跟投资人联络那是第几笔钱了应该是开始融B轮了吧嗯第一轮就是第二轮吗对于你们来说第三轮吧我有点记不太清楚了细节但那个时候就开始跟很多投资人聊聊这个事情然后跟大家讲我们训练了这样一个模型有GPC3我们也训练了一个对标的模型性能很不错我们也把它开源了那个是我们KT一直开源8月份开源这个东西为什么要开源因为我们当时觉得这个东西自己捏手里短时间之内你也没办法把它变成钱而且这个事情刚启动刚开始让更多的人知道这件事情更重要对吧因为我们要打出我们自己的在国际上的影响力那时候我们都是看着国外看着我们应该看的国际的事情所以开源是一种很容易接受的一种文化中美之间现在还没有现在那么复杂所以我们就选择把它开源了开完之后确实影响力非常不错有多不错国外还是非常认可的我们当时看完之后应该是那个报告斯坦福李飞飞那个报告我忘了是2年还是23年出来应该是2年出来就在我们开完后不久出来那个报告应该1月份他那个报告里边唯一一个参与评估而且拍的比较靠前来自中国的就是我们就是这个就是GM130B所以影响力非常不错而且评估一下结果也非常不错基本上跟GB3互有胜负我在想那个时候国内同期还在做这件事情的还有谁那只有你们在做这个事情其实之前你看还有一些百度在做百度有Ernie然后其实那个时候阿里其实也开始做了阿里红侠对他做MOE什么那些东西然后研究机构就当时我们因为唐老师是志愿的志愿当时也带着团队做了一些事情对公司是除了阿里和百度以外就是我们在做跟投資人當然講這個事的時候他們興奮嗎聽不懂聽不懂完全聽不懂這什麼東西你們怎麼掙錢怎麼把這個東西商業化了投資人問的都是這個我印象特別深刻有個投資人線上聊的這東西你們能變成錢嗎現在你看大環境這麼差經濟這麼差要不你們把估值降一半怎麼樣降了沒肯定不會肯定不會所以內閉融資其實沒那麼順利的其實挺那個時間其實挺艱難拉了多久这也是我们幸运的地方你看我们把这个事情做完之后到缺GDP活起来是1月底真正在国内活起来是在春节前后在国内进行其实就小半年时间这小半年你们正好是处于融资期对其实缺GDP活起来就帮了我们一个很大的忙大家再也不用质疑说你这东西到底是啥我们就告诉他说缺GDP你懂吗你看过知道吧我们做的这个事情就是往这儿去的然后后来都是投资人找你们了是吧对的就很让人家问你们什么时候能把全局比赛的东西做出来啊什么之类的所以你们这笔融资close是在春节之后了应该是吧这细节我还不太记得清楚了过去也算比较久了所以那个时候确实是有一段时间是正好砍了中间然后QGP帮了我们一个大忙然后我们自己说实话也算比较争气很快的我们把QGPT对标的这个QEDGEM我们就把它弄出来然后也能上线大家看到效果也非常不错尤其在中文上效果非常好而且我们还同时开源了一个全GM的一个开源版本一个小型化的版本因为那时候只有全GDP嘛然后GDP也很大大家三以后他也不开源了大家拿不到很多研究人员心里痒痒的说我只能用不知道这个里面到底是啥我自己不能玩所以我们开源了一个小的一个6B的版本60亿参数的版本一张家用的GPU就能跑起来那大家就很爽所以那个时候那是我们第一款爆火的在开源社区里面爆火的一个开源项目下载量非常大非常大同期好的大模型公司其实刚开始组建你们就已经有产品了对那是23年初嘛大家看到全DB火了很多人开始做从GBT-3到XGBTOpenEye的动作有超出你们的预期吗虽然你们一直都关注他其实那个时候OpenEye还是比较开放还真的挺Open的很多东西他发论文其实后来论文发的少了但是他的比如TechnicalReport还有一些他的Blog什么之类的其实会把这些东西都慢慢的放出来其实我们就紧跟着他研究包括那个时候我们私底下的很多交流因为有很多清华的学生当时我讲9个人里面有4个是清华的但是底下的交流还是非常顺畅的就大家也知道他们在干嘛包括XGPT也是知道的就这个产品要发布对知道但是他那个项目本身产品本身保密的很但是我们知道说他们还在持续的在GP3之上做很多事情再往那个方向去走然后他的目的是什么最终的可能的形态是什么对其实那个时候根本就不是太意外上这个东西所以他上了这个东西之后至少我个人是觉得就是说还是挺兴奋的挺兴奋因为觉得赌对了对第一赌对了第二就是说确实这条路走下去他还是有很光明的前景当时内部是什么状态当拆之后火了之后智普当时你们有什么讨论有什么交流是一个什么样的公司状态其实大家我觉得跟我可能状态差不多都是属于那种比较兴奋的状态就觉得这个事我们做对了之前的赌注下对了就是我们走了现在了我们已经相对来说是比较靠近的接近全GDP的这个事情所以我们研究团队还有工程团队春节那个春节是没有休息的然后就确实这样我们这个版本把它推上线然后在小范围当然一些原因不能让太大范围的去做就小范围的让大家去使用大家都很惊艳2年到23年转年是不是你们生活发生了巨大的变化是整个就是有点那种网上有个话叫10年干什么无人知一朝什么天下小其实类似你之前其实做了很长一段时间你想想我们从19年开始搞这个算法20年自己研究这个算法21年2年把模型训练出来然后把这些东西想要商业化想要去跟投资人聊说这个东西未来的前景多么大这两三年时间其实是我们一直在努力在做这些事而且也取得了一定的我们认为的一些成果但是确实比较艰难因为大家对这件事情的理解非常认知非常浅非常少所以这个时候你就很难而且大家对于AI1.0的四角龙已经去魅了那个时候你说你要做第二代AI又怎么样呢没错他就把我们拿上跟天然比你跟他们有什么差别呢然后我们只能回归到技术上来说这本质上是有很大的差别的但这种技术上的这种本质的差别这种东西其实在市场来看离他们好像很远他们那个时候还不太相信说像现在这样研究和产业和钱和市场用户之间会这么短他们不相信这个他们认为说你突破这个东西挺好的呀五年后再找我吧没想到这么快对他没想到那么快就大家的一个认知还是惯性的在往前走他不是一个革命性的一个看法他不认为你是个革命他只是认为你是个线性的一个线性外推对对对对对所以二三年一转年就感觉浪来了对吧一瞬间大家就一下子就热血上头啊这个多么好的一件事情啊怎么怎么找对吧这个挺有意思的一件事所以我们我个人反正在内心里一直很感谢我们还做了很多事情让我们觉得能借上这个利益23年有什么印象深刻的事情吗最印象深刻的就那几个字百货大战圈内的圈外的因为之前你们做这个事情还是很低调的对吧就是关注的人很少也无人问津然后23年这变成一个市场的名牌了老王也来了然后一下大模型有六小龙你看那个时候就熟识的人啊好多熟识的人小川我师兄知林从我们学院是出去的然后你看身边的很多人就啪分别分就跳进来包括那个现在的轨迹后来袁静辉袁老师我们也认识他很多年他之前在光年之外联合创始人会员拉进来的你看这身边很多人都站到了里头然后那个不认识那就更多了那就不用讲了所以23年特别热闹百慕大战对纷纷扰扰的特别热闹是什么感觉呢就是我们在这里已经坐了好几年你们现在突然之间一夜之间全来了我觉得就两个就感觉上感受上就是两个感觉第一个感觉呢就特别兴奋就这个事引来了一个很大的一个机会很大的一个浪潮大家都不用再去教育投资人也好市场也好什么也好大家都不用再叫人反正你做这个事情大家就哦我们赶紧干这个事吧行挺好的然后第二个其实还是说实话我个人来说还是有点焦虑有点担心因为每逢大浪过来再往后看一点可能就是一片狼藉最后留不下钱挺害怕这种状况做最早不一定能留下这个是焦虑的我倒不是焦虑这个我都对我们能留下或者说我们能做出来这件事情倒不是特别怀疑我怕的是整个市场有一个极端走向另外一个极端之后然後塌掉之後再很難回來就烈火烹油之後剩下的是啥如果這個市場都沒有了你做的再好也沒用為啥市場會沒有因為我們看到太多這種事情了就大量的資本也好人也好進來團隊然後開始搞這件事情然後各種各樣的聲音各種各樣的想法新的老的舊的然後各種各樣的參雜在裡頭然後其實很多時候大家只知道說這個事是個很好的事但是其實分辨不出分辨不出這些裡面這些百魔大戰大家的這個誰說的是對的或者說誰的是更接近真相的誰說的是吹了一個故事誰是吹了一個泡泡分辨不清的僅看能分清嗎我觉得肯定有一天能分清现在还没有分清我觉得还有一些很难分清的东西这就是它的魅力所在但是它越来越聚焦或者说收敛到它的真实性问题上而不再有那么多的泡沫或者说假象的东西在里头现在回望23年好神奇对非常神奇我也很感慨23年怎么过来的我印象当中纷纷扰扰23年就过去了很快唯一比较深刻的印象就是23年我们全GM上线8月份上线然后还有一个印象是那一年的WSE在上海开WSE我去转了一圈那个展馆有人后来数过当然我没数过有人数过整个展馆里面跑完之后基本上所有展台上因为是人工智能的所有展台上都有大模型三个字各种各样的大模型三个字把他们所有的拍下来贴在一起巨长笔每这么一条列这么长挺好玩的我也去转了一圈我就发现大模型绝对就是但大家讲的故事或者说的事情就千奇百怪各种各样的事情你觉得很离谱的是什么呢我倒没觉得有什么特别离谱的我倒是也看到很多很新奇的有些东西我没想到的东西我也自己也吸收到很多的东西其实那个时候我觉得是23年大家最在大模型本身这件事情上争论的事情不在说大模型本身有没有用而在于争论一个事情叫垂直模型通用模型和垂直模型对这是23年大家经常会聊的人对每逢我去跟大家聊什么事情的时候参加什么会大家都会问的问题但你到今天來看這個事情就你會發現當時聊了這個問題它其實就是個偽命題到今天來看所謂的垂直模型根本就在市面上沒有什麼聲音不管是研究也好還是產業應用也好其實都沒什麼聲音他就證明那個時候所謂垂直模型這個事情它裡邊被人加了一些佐料出现的东西当时23年我印象很深的是几个事就是老王发了一个英雄帖投资圈和大冒险圈里边还是非常有名的一件事情对然后包括王小川也入局了你当时看到这些非常成功的企业家二次创业然后来抢你们本来已经生根做了好几年的这个事的时候你当时在想什么你会担心在商业上竞争不过他们吗我倒没觉得这个事情因为首先第一个我们做了那么长时间对这个事认知还是比较深的虽然TGPT火了但其实我是觉得他要走的路还挺长没那么快没那么容易其实我是欢迎像小三师兄还有惠惠这些惠惠也是师兄他比我们稍微大一点对欢迎这些有实力也成功过的人或者有经验的人入这个局来一起做这个事情因为我一直也相信首先第一这个事情还没到那么快见终局大家那个时候有点预期过于乐观对你当时觉得要多久能见终局我不知道当时我确实也不知道多久能见这个终局我的直觉告诉我说这个事情没那么容易没那么快能见这个终局还需要时间因为这个技术研究了之后你会发现里面其实还有很多问题你没有解掉没有解决掉那时候最棘手的是什么23年23年的时候你说技术上吗其实技术上我觉得还是模型的能力还是不太够他只能当一个checkbot显然光当checkbot是不行的对不对很简单我们原来能做的比如说像情报的分析这种事情它需要你预测需要你做逻辑分析需要你寻证需要很多东西这些东西都没解都没解你出了那两个天你还能干嘛你敢问他说我今天哪儿哪儿不舒服你给我推个药你敢吗你肯定也不敢对吧就像他说了你也不敢用所以其实里边还有很多很多问题去解决真的要运用起来是个很长的路而且我也相信说这件事他并不是说靠某一家或者某一个团队某一个人他能解决的问题嗯我相信還有很多問題沒有發現應該他就是一個很open的問題大家一起來做這件事如果大家都統一的認知來做幾個事情這是個好事共同推動這件事情最終更快的向一家目標去靠攏我覺得這很好的事情所以我跟小川也因为那个时候也在这一边就很近经常偶尔在一栋楼里经常在楼底下碰面他有习惯他经常思考的时候他有习惯我知道他经常下去在我们的科技园底下有一个开放的一个广场上面有长凳他盘着腿坐在那想问题就拿一个跟你这样的pad跟他想问题我有时候下去买咖啡什么碰到他我们就可以聊两句我记得有一次我在机场的摆渡车上跟他通过一个电话关于这个事情的他说前两天看你跟华为这个活动上讲了这个问题说这个模型应该分为L0L1L2什么就当然这个概念是这个叫法是华为提出来但是我是觉得有点他的道理就L0是机座L1是专业化的特殊化的然后L2是应用层的东西然后L1一直接近我们说的所谓的叫垂直模型这个事然后小川就跟我打电话一直说这个挺好的我们大概应该大家一起达成一个共识是向周边的整个行业整个市场去推广这个概念这是他打电话跟我说的这个事情我印象特别深刻我在机场的摆渡车上所以其实他是愿意去做这种垂直化的专业的事情你认可他这个方向吗因为那个时候我不是太确定说他能做到什么程度或者说完全垂直化去做这件事情他能不能做到他的预期的效果但是我的直觉其实告诉我说没那么简单你相信通用我不是相信通用因为我是相信说足够高的智能这件事情它不是一个专项能力哪怕一个最好的医生他也有基础教育对他也是个非常均衡的知识的但他比如说可以基于一个开源的大模型然后去做专业化的这个是可以的这就是我为什么后来认同说L0L1这种观念原因我在后面补了一句就是说垂直模型这件事情或者专用模型这件事情是可以的是没问题的但是他一定要基于一个足够好的L023年CLOSE几轮融资我这还记不住了币以后23年24年会轮数比较多也比较密集大概三个月左右一轮这时候投资人在找你聊啥其实那个时候就开始就聊刚才说的这些问题了就是首先第一你看入局的人这么多对吧你们优势是什么对对对你们优势是什么你们为什么要做这个L0这个基座他好挣钱吗对吧你怎么把这个基座这个事情这个通用这个事情变成一个挣钱的生意呢你看那个专业的一个事情医疗啊什么这些东西多挣钱啊多容易挣钱啊对吧大家都是付费的你做个通用的这个东西大家怎么给你付费呢为什么要付费呢那就问这样的一些问题更接近商业化其实在那个之前我们把我们的模型迁移的模型训练完之后其实就在想这个问题就未来大模型本身的商业化路径到底应该怎么走其实那个时候我们已经在想所以MAS这个概念ModelasaService这个概念其实是21年左右2年不到吧大概21年那个时候我们最早提的一个概念我们的一个想法那个时候定义的所谓的MAS比现在大部分人所认为的MAS范围要广现在大部分他说MAS都是指的云API结束没了但是那个时候我们说的MAS其实形态更丰富除了云上的API这是通用的就像我们用电一样大家都用的还有类似像我们把模型当做一种随意可部署的一种组件部署到各种地方我们叫本体化部署还有软硬件结合的可以随时拎到哪的这种产品这种服务方式所以我们定义的这个形态MAS的形态是很丰富的所以这也是我们后来开始做商业化的过程当中你会看到这些事情我们都会做所以那个时候我们就提出来当然怎么会变成现在收缩层MAS收缩层这件事情我觉得云厂商功不可没为什么他们想往这个方向引因为这是他们的战场他们的主战场他们更有利我是这么理解这个事的但并不代表其他的这些东西不存在为什么很快质朴选择的商业化路径就是2B的为什么没有FollowOpenI去更积极的做2C我觉得中美之间差异还是挺大的你说讨论过这个事情吗肯定讨论过这个事情是23年其实更早就刚才我们说做MAS这件事情的时候我们就讨论过这个问题你看美国活得很好的SARS在中国活得很惨对是吧在美国缺GBT可以收订阅费用每个月20美金大把的人给他交但在中国不可能这两个事情都不可能就C端用户的付费意愿和B端在SaaS订阅的付费意愿上都很差我们当时分析是说如果你直接照搬缺GBT或者说OpenID那一套模式在国内除非你能类似像他一样抢到一个非常巨大的一个首发的这样一个市场的优势否则很难当时群雄割据大家混战的局面基本上很难最后必然会陷入到倒贴引流补贴让用户白耗羊毛这种状态所以你们是什么时候决定就我们不深入涉入2C了这是一个决定对吧这是应该是个很重要的决定我们倒不是说我们决定是说不深入就是去做东西2C系统也做后来我们发展出来质不轻言然后APP然后ChadGM的云端的版本对就我们还一直在做包括现在也仍然在做只是我们会选择说不是压住在唯一的这个选择上我们会同时看我们刚刚定义出来的那三四种模式哪种模式更能走得通你们未知补青年投过流吗投过呀也投过这没什么好否认的肯定投过多久发现这张打不赢有一段时间了吧有一段时间之后他还发现第一C端市场本质就还是中国的C端市场付费意愿还是太差大家不太愿意能够付钱其实我们还是挣钱挣了点钱的因为我们的会员是有VIP会员是收费的收了点费用不多反正挣了点钱这是第一个第二个呢就是后来我们发现我们对这部青年产品本身的定位其实是不同于市面上那些其他的那些APP的我们定位成成一个效率工具这个效率工具呢他就不可能有很大的这个付费的市场他的用户群体他其实比较的集中你看我们的用户使用的曲线很有意思就使用那样的曲线它是跟我们的上班和学习的时间是重叠的早上8点钟开始到中午12点钟然后下午1点多钟到下午56点钟晚上基本上很少非常少有一个小高峰大概八九点钟后来我们分析是干嘛家长教孩子辅导孩子作业他都是把这个东西当做一种工具助手在用所以你觉得这个商业模式走不通我是觉得反正算完这个ROI之后是很不合算的一件事情没有想过要参与豆包Kimi他们这种竞争吗那不是我们的风格可能基因不一样对我们也不一定能做到那么一个地步投资人有问过这个吗因为这个想象空间更大一些吗2C永远比2B对于投资人来说更有吸引力一些对吧我不太理解這個吸引力從哪來後來我自己猜測了一個原因是在於這個模型比較好算數字模型比較好算一個用戶值多少錢比較簡單但2B它太複雜了你說一個用戶一個客戶值多少錢這個事情千奇百怪而且各種各樣的因素都有所以他想要把這個事情算得很明白比較困難而且2B容易陷入低價競爭在中國的環境裡2B低价的情况多少还好一点有也有我知道砸低价投标什么砸低价什么这种事情我们也碰到过也是受害者之一但多少大家还是有个底线因为毕竟大家都会心里有个底是说2B这个事情你是要交付的你要收住成本的你不能说罔顾成本去做你一单两单可以但时间长了你肯定是不行的所以大家有个默契基本的默契是说在2B这个市场上低价抢单这种事情是不受欢迎的是不受欢迎的甚至连甲方他都不欢迎你会认为他是得意者吗其实不是他也担心说你交付不了我给你钱根本不够你怎么保证你的交付你的质量对吧所以在2b这个事情上相对来说他的确定性其实是更好一点虽然他可能故事听起来没有那么sexy对吧那个账没有那么容易好算但其实他是相对比较stable比较确定性一些对而且中国的这个市场本身就刚刚讲包括像SARS起不来这个事情他现在他的特殊性的他有他的一些原因我问过很多人为什么中国的SARS没起来对为什么没有起来这个会改变吗在AI的时代有一个人跟我讲了一件事情我用同样的钱你买订阅一个月花10万块钱我可以用10万块钱买10个人一个月帮我把这活干了完了就全是我的本质上是因为这个还是因为成本的原因你觉得在AI时代有可能改变吗很好的一个问题AI这个时代的算法又是另外一种逻辑可能我也预测不太清楚未来它是会什么样子但是它里面有一个悖论AI这个事你看现在最火的是什么AIcoding就程序员不在之前的变得越来越便宜那有可能从这个角度来看定制化这个事情是会越来越普及的对吧大家不再去用一些标准化的东西反正开发成本很低很便宜我就能得到对吧但是另外一方面就是你AI的这些工具使用成本其实仍然还是居高不下的训练成本我们先不说推理成本就不定义他也有一个底线也有一个刚性的成本在这摆着以前是人的基本生活的工资的保障的刚性的要求现在是AI的成本对刚性的要求也摆在这所以他会比原来改变一些但不会那么剧烈的突变式的改变这个事情你刚才说对于2B来说报价和成本合算很重要你们积累了这么长时间在2B的业务你们有什么knowhow我觉得这个是作为一个软件企业或者说一个人工智能企业里你最高溢价的地方就是我们是做这个技术的我们对这个技术的本身的了解更深可能其他人也能做类似的事情但是他可能需要更高的成本那我们可能只需要更少的人更短的周期我们就能达到更好的效果这就是我们的一甲空间23年团队迅速扩张了多少人23年的话大概是20多人到了20人对24年呢24年的话到40人现在呢现在大概80多人每年翻一倍基本上每年翻一倍办公室扩充了多少就是在这我们在25年以前保持记录每年搬一次家每年办一次假都是在这栋楼是吧没有没有搬了三栋楼都在这个园区就是那个那边有一个叫科建最早我们在那边后来搬到隔壁B座B座是就是那个塞尔大厦B座两层然后再就24年初搬到这儿然后二五年没动什么感觉啊变化这么大这么剧烈变化很快整个行业包括技术的演进包括市场的变化非常快我们要做的事情也非常多所以团队的扩张这个事情它自然而然就这么发生了当然中间也会有一些波折整个公司的治理管理等等各方面包括成本的控制各个方面都会有一些新的挑战出生发生23年最大的挑战是什么我觉得23年就是怎么保证技术的快速更新迭代然后在纷纷扰扰的商业化市场上找到自己的路我觉得这是23年最大的挑战23年找到吗我觉得基本上23年我们把我们的基本的商业化的架子框架搭起来MAS那个时候有然后我们的2B的服务企业服务的业务有对吧然后还有我们的开源还有我们研究的进展也有23年确实更新迭代也非常快就GM23这种发布其实很紧密的在做所以那时候也是我们见的第一次嘛是吧所以23年的印象还是挺深刻的你看23年我们讨论的还是王会文王小川这种企业家过来创业到了人工智能的行业那24年其实大家讨论的多的就是Kimi和minimax对吧你当时是怎么想这个事呢我是觉得一个全新的行业里面出现这些年轻的更新锐的更有想法的这些人进来它是个必然现象毕竟它是个全新的东西对吧大家要产生一些新的主意年轻人肯定会更active一些对啊更有passion一些去做这些事情我觉得这个也是正常的历史的一个趋势发展的一个趋势你会怎么看杨志霖当时我跟他接触还算有几次吧毕竟我们是实验室出去的然后也跟他聊过刚回国我们也聊过非常聪明的一个人他在学校是什么样的人属于这种学霸类型的去CMU然后念完博士回来然后当时的他的一些研究成果在圈内还是影响力非常大的所以他当时最早创办的公司是循环智能然后再后来开始做悦哉面我觉得他应该能成你觉得他应该能成对他是非常聪明的一个人而且他在这方面积累和研究非常深这种同门师兄弟到了商业环境开始竞争是一种什么样的感觉我觉得可能清华的人有这个特质大家都比较属于这种工科男比较理性对大家在一起的时候也聊得很开心聊兄弟聊这个师兄弟的这种事情大家也都很说得开那加上严商碰到了该怎么样那就怎么样各自有一套规则各自有一套沟通的方式那你怎么看严俊杰呢在24年我跟严老师也碰到过我记得是应该是24年的WSC吧开幕式的时候正好我跟他坐一块我们俩挨着走我们一直在聊一些事情那时候聊的我印象聊比较多的聊算力聊训练成本怎么控制这些事情他也是个非常聪明的人我觉得他找首先第一个找到的方向第二个找对了市场然后在这个基础之上他非常明白自己想要什么想要什么我觉得他可能就直接奔着真的就是奔着商业化这个事情去的你看他做的很多事情你看不管是talkie也好还有这个语音然后动慕泰这些事情他都是朝着那个方向去的消费娱乐然后大家的精神价值情绪价值这个方向去的他很明确他也非常明确所以我们刚才讨论的这些不一样大模型舰队在不同时期出发觉得真正在追求AGI的是哪些我们肯定是坚定不移的追求AGI这个方向你一直跟我说一句话我印象很深就是你说融资这些钱都是盘缠吗对只是一种表达我其实本质上还是说在这个过程当中其实是在寻找跟我们有同样理想就同样的坚定的AGI的信仰我们开玩笑说AGI信仰的一拨人一起来做这件事情因为我刚才还是开场说过那句话就我认为这件事情它这个路还是挺漫长想要达到AGI这个目标它并不是很简单的说我手里有一笔钱我就能翻过一座山我就到了路上的这个征程还是很长的碰到的问题会很多如果说大家不是为了同样的信念来做这件事那很难坚持长期一起来做这些事情当然会有不同的人选不同的路径比如说他有可能选择说我找到一个确定性的一个市场确定性的一个商业化的路径我把我的技术先转换成市场上需要的产品然后挣回来大笔的金钱然后尽早的实现这种商业化的闭环之后我再来投入去追求AGI什么之类的这个事情我个人觉得没有必要所谓叫曲线救国原因在于是说第一信仰这个东西想要坚持下去本来就是一件很难的事情我个人不喜欢就为自己比如说绕过路啊什么之类去找一个理由那我觉得这个事情难且重要那我们还是要坚定的朝这个方向去努力不要轻易的去所谓叫取仙救国这个事情因为人怎么说呢很容易忘记一些东西对很容易忘记原来你坚持的一些东西这是第一个第二个从技术的角度来说我也认为说并不是说你在某一个方向上突破这件事情就能真正的帮助到我们AGI实现因为真正的单向能力突破这件事情当然我看了有点可能有点狭隘了但是你可以看到上一代人工智能比如说在机器视觉上在有些特定的任务上单向能力上他确实突破了他确实比人还好了它不解決問題包括自動駕駛可能解決了也不能帶來通用人物證其實大家都知道自動駕駛現在是在幹什麼所以現在為什麼大家又在從馬斯克之後開始轉向什麼視覺方案或者是大模型方案什麼之類的這種方案是因為大家重新認識了這個問題重新定義了所謂駕駛這個行為到底是個什麼行為这是什么意思看你把这个问题定义在哪比如说原来是搞自动驾驶这个事情是一般来说两拨人计算机的人和自动控制的人搞自动化自动控制的人这两拨人所以经典的自动驾驶的毁录就是说我有感知不管是雷达也好视觉也好还是什么红米波也好对吧我采集信号然后把它变成计算系统的输入计算系统它实际上是个决策系统我要根据这个输入这些信号的研判说我在当下这个情况到底是什么情况然后决策我的行为输出是什么是打方向踩刹车还是加油门它实际上是一个这样的一个闭环的这样的一个自动控制系统它所有东西是白合的透明的这种方法论就认为是说我通过这样一个闭环的这样一个系统我只要把它做到灵敏度足够高只要做到我的感知的精度足够高我的决策这个链路的延时做的足够的短我这开车就没问题但是后来发现这种方案他最害怕的是各种可能case你可以训练一万遍十万遍一百万遍路上碰到车怎么办碰到公交车怎么办碰到车道线怎么办碰到红灯怎么办但是你很难训练一千遍一万遍说路上突然穿过去一只兔子怎么办因为你没有那么多数据让他去学习这个模式到底是怎么回事对吧这个判断你很难所以他还是笨的它不是笨的它只能机械的教条来执行这些我学习到的规则规则以外的东西我是没有办法放化的这个就不是你们定义的认知智能对认知的能力是说我通过有限的样本学习或者说大量数据学习之后我总结出来这个东西是能搬到一些我没见过的情况上能放化的这个才是我觉得是认知智能和原来的感知智能最大的一个区别有脑子对得有脑子但是脑子的最重要的点是在于我们能够根据记忆去推演一些新的情况能够举一反三对就是能够放话就是放话所以这个是很关键的一个东西让你放话能力到底是啥是啥呢学习能力逻辑推理能力还有自我纠正错误识别错误纠正错误的能力你看这些加起是不是就会出现一些能力实现一种可能我可以试嘛人也是这样对吧叫你开车开会了手动挡的车让你去开自动挡车其实你会很快就会会为什么你会去尝试尝试不对跟以前不一样那么尝试几次之后我就知道原来是这样实际估计也没人告诉你怎么开你自己就能学会这就是你学习反馈试错然后再发挥到新的情况上去因为我前段时间跟一个数据专家聊我觉得印象还挺深的他说什么样是好的数据以前以为对的数据是好的数据后来发现错了有很多它中间出错然后又纠正的数据是好的数据这种数据可能更贵它含有试错的过程对吧这些数据里面其实这个就是我刚才说的问题就是真正的认知能力或者说学习的能力本质是什么人的认知能力到底是什么他是从正确的数据里面已有的给他的规则性的数据里面学习到的知识更有用机械性的知识记忆下来更有用还是说在这个过程当中试错的经验对他来说更有用对吧你看Saturn就今年的图灵奖他的理论就是叫ExperienceError就是进入到一个经验时代经验是既有正确的又有失败的错误的你所有的体验从经验去学习对你所有的体验是你智能的提升的一个必经路径他也是TheBeatles的作者是的所以我觉得他说的有道理的是有道理的所以现在的学习大模型的学习越来越强调预训练之外的Middle和Posttrain你看Posttrain大量的就是在做这方面的学习说到这个我看了唐杰老师前两天的那個微博寫了一個很長的微博在12月23號的時候他把人工智能當下這個範式和階段其實描述的還是挺清晰的就是說模型擴展先是從預訓練的scaling然後到了mid和posttraining的scaling然後現在到了算是agent階段它说的是原来的agent是通过模型应用来实现现在模型已经可以直接将agent的数据集成到训练过程增强模型的通用性所以你们整体看这个scalinglaw在今天当下这一刻它还在继续吗现在的scaling和比如说三年前两年前的scaling出现什么变化其實這個事情挺有意思的他寫的這個東西其實你還要再往前追溯其實我們之前我們提出來過一個叫L1到L5的就通用人工智能實現的L1到L5的5個階梯預訓練是第一個階段他解決的就是你從已有的數據裡面學習到這種世界知識一些常识对对对实际死机硬背你就把它记下来就完了对吧第二个是对齐和推理对齐和推理就是说你记下这些知识之后你要会用正确的用并且能够把它进行一些组合在合适的地方去组合来解答一些实际的问题这里面的关键是强化学习对齐和推理还不是其实它的关键是SFT第三个阶段就是现在我们说的自学习阶段它的关键是强化学习自学习的重点是强化学习它不断的在经验当中在试错当中去学习正确的经验错误的经验对比然后不断的获取强化的信号然后我去往正确的方向去走它不是一个死经硬背的过程我学习的是一个过程它是一个过程然后L4是叫自我认知因為就還是回到我們說的那個張院士畫的那個象限圖上你除了你知道你知道的事情以外你還得知道你不知道的東西所以你沒有這個自我認知的這個邊界你就不知道哪些是我不知道的哪些是我知道的再往後L5就是到人类的类似像人类的意识这种conscious的那些东西那就更复杂一些定义还不是那么清晰但至少我们认为就L1到L5应该是这么一个过程所以现在在中间L3这个位置上所以scalinglaw发展到L3的时候你看L1的时候scalinglaw是什么就是参数量数据量对算力对数据对算力报参数对吧L2scanningload变成了什么变成了SFT就不说变成了推理的计算时的叫推理时计算testtimescaling变成了计算量然后L3变成了一个强化学习的scanningIOS成为scanningload的所谓的核心再往后是什么你看Scalinglow它其实也是在不同的时间段不同的阶段它在不断的在变化其实这个变化也很正常因为你想想Scalinglow本身它提出来的时候是一个非常不严谨的一个说法为什么它就是说随着参数量的增长智能水平呈现一个指数级的爆发式的增长它只是个现象的描述它并没有一个很科学的依据你看23年大家都相信暴力美学就简单粗暴堆散利但是从科学的角度来说如果你发现了一个现象对科学家来说最吸引人的是什么吸引大家是什么是探究这个现象背后的原因到底是啥我掌握了这个原因的本质我就能利用好这个事情而不是从简单的表象上来说对参数对吧总有一天你会对到说好像不起作用了从你们的视角什么时候是对算力不起作用的时候是哪个时间点这个倒也没有一个特别明确的时间点其实是对到一定程度之后成本先受不了了成本受不了了有多贵了非常贵你算你涨价你也知道i3年就开始涨了涨的多可怕成本受不了了成本受不了了大家就不敢继续这么这个时候有两条路第一个是我融更多的钱我讲更大的故事第二条路是开始优化你们选择哪一条OpenAI走的坚决的走的第一条是吧然后我们做了也做了第2条第1条当然要做你还得去用钱你纯靠自己挣钱你肯定挣不来那些钱你肯定第1条你要做然后第2条你也得做所以当时我们做了很多这方面的工作你刚才问说我们训练JYM130B花了多少钱对吧我们算力我们才花了40万人民币算上人工什么78加上去大约10万人民币你想想OpenAIGPT-3那個年代20萬美元所以这是中国团队的优势对中国人的优势大家都会去向这个细节抠细节去要要这个效益要这个收益成本所以刁算法中国团队刁的比较好调这个东西甚至包括后来说的我们说的能在这个比较便宜的这个叫消费级卡上做千亿模型的推理这事也是我们先干的那也很便宜降低成本你从一百多万的成本一百大几十万的成本降到只需要二三十万大家也很happy包括现在我们仍然也还在做这个事这两天我们不是更新4.7吗这个模型表现非常好非常好但是好并不是因为他把参数量又加了一倍或者什么之类的没有啊我们参数量还是只有30多B它为什么好呢好的点就在于说首先第一我的训练效率更高数据利用率更高对吧模型的架构本身就有这个优势第二我们其实在模型本身参数量设计结构设计的时候就考虑到未来在推理的时候怎么样控制成本我就可以单机推理8卡就够我不太需要什么16卡所以降成本一直是一条主线对一直是一个重点我们一直在做这个事包括跟很多国产芯片什么之类的做适配什么其实也是在找算力上成本降低的这种办法刚才说这个Scanning的好几个阶段这个对应到质谱的发展的过程中你觉得有影响它的一些决策吗或者是技术判断这个应该是伴随着整个的研究的过程所以刚才表达那个意思是说对于ScanningLaw这种就是你现象描述的所谓的现象描述的这种事情我们并不特别迷信所以23年当大家市场上都在说暴力美学的时候你们是心里是不屑的我们倒没有说特别不屑只是说在能力范围之内我们该做的事情肯定会去做那个时候我们的模型的体量那时候还是Dance模型就是单体的球迷模型一直就是10亿一直到24年到GM4的时候才把它扩大到20亿我们一直很克制就没有像市面上很多其他的友商或者是研究团队上来就直接奔着万亿去了或者打击千亿的模型去了我们还是非常克制的当时会不会觉得自己太慢了这件事情其实并不取决于模型的参数量或者是规模上其实本质上还是你看最后的效果你们有自信一个更小的模型其实是可以有类似效果或者更好的效果其实里面很多东西都可以做很多工作可以做比如说刚才说应该说了所谓叫好的数据和有价值的数据这个事情数据工程上它就是有很多的事情可以做同样的参数量你用不同的数据去训练出来的效果可能不一样我把数据量减小20%但性能仍然维持那不挺好的吗我可以用剩下的一个计算量再加20%的别的数据让它在别的能力上再有提升这不挺好的吗然后我加了这些数据之后有可能比如说不同的训练方式或者不同的数据进去之后互相干扰模型的能力会下降我们怎么样让它加进去的时候不下降就像我们做菜一样各种佐料做一点确实特别像做菜对放进去怎么能让它味道更好而不是变得更糟糕这里面很多的讲究如果skinnylook不是一个非常科学的描述你觉得这个过程更像是什么过程这是个非常好的问题其实我也一直在想可能也没有什么特别准确的答案我个人对这个事情的认知是说我们还是希望从科学的角度来说还是希望不管是从原理还是从工程实践系统的工程实践这个角度来说去找到说所谓的智能和计算之间的本质联系是什么本质关系是什么今天解答到什么程度了今天的认识是什么样的智能和计算之间反正我的感受里面是没有什么特别明确答案至少就是说现在得到一个结论是说现在的这种计算方式计算的这种方式其实还不是最完美的应该还不是最完美还会有更好的方式现在的不足是什么消耗太大计算还是有些复杂其实唐靖远老师微博里面其实也提了一个第一条就说了Transformer不一定是终极答案很有可能会有更有效或者更这个优美的方式算法结构来替代这就是我刚才讲的就是我们看到了这些事情之后做了很多的尝试之后发现其实这个问题真的好像还不是最终答案所以基于transformer这个架构它的效果你觉得现在已经见顶了吗我觉得见顶到也还没有就刚才说的就是能做的事情还太多了因为这个战线其实很长就很多是工程优化对数据然后算法微调你看Transformer它最重要的就是Attention就是注意力机制你看Attention的这个东西从23年从2年开始到现在魔改史你看爆了多少东西出来我经常会看到一些论文里面讲各种各样的Attention的这种变种还挺有意思的DeepSeek也做了很多反正做了很多这些事情我们也做了一些研究的这方面的一些研究的工作所以他为什么还有这么多的可爆改的空间其实就是在于他本身可能还不是最完美的答案还比较粗糙还有很多空间可以去探索你没有探索下一代的架构吗当然不是记忆transformer的各种可能性我们都有在关注都有在尝试那現在在這個架構上下的你的智能鑑定了沒有我觉得还没有就是通过微调对本来我们今年或者说对今年上半年或者说去年年底的时候我们觉得其实挺难的了但第一个你看过完年以后今年年初的时候DeepSeek出现其实又跟大家打开一个新的世界你看还可以再往上提升对吧包括推理能力包括工程优化还可以往上得提原来我们讲Moe可能并不一定是个特别好的为什么当时觉得不是啥我是说之前的很多的这种认知并不是一个结论后来就发现其实还是有很多空间可以去做然后我们也重新打足了精神开始研究这些事情开始我们自己的一些尝试到今年7月份8月份4.567的探索你会发现你看我们也把这条路也走通我们也加入了自己的一些想法之后在新的架构下M1的架构下我们也探索出来一个别人没探索过的一个空间一個路徑證明就是中國人那句話叫柳暗花明就別輕易放棄所以即使是在transformerattention就注意力機制的框架底下其實還有很多空間可以挖還有很多事情可以做現在就過了那個淺挖一挖就有金礦的那個時候了就低垂的果實已經被人摘遍了剩下的事情並不代表沒有果實了你看我们23年讲的是王辉文王小川24年讲的是KiwiMiniMax到了25年DeepSig成了主要的旋律就DeepSig让你们吃惊吗DeepSig还是对我们影响还是比较大的就是冲击很大吗对其实是不管是从研究层面还是从工程层面甚至包括市场层面我们其实都仔仔细细的内部都研讨过这个事情是反思还是研讨也算反思我们反正工科的人都比较的叫理性化这些都没什么太大差别几月份讨论的就二月份春节一回来我们就在密集的讨论这件事情确实是给了我们很多的启示也学习到很多东西你当时讨论的结论是什么讨论的结论就是说其实应该更开放式的更打开一些自己的视野开放式的看待大模型的研究和市场很多时候这些因素都搅合在一起你很难把它理得非常的清楚和分割的非常的开所以还是需要各方的协同也更开放的态度来看待这些事情然后我们自己的研究方向应该还要更坚定一些有什么是觉得自己不坚定的不够坚定的倒也没有不是说这个意思就是有一些事情我们会觉得说比如说我们发GM4plus的时候是20多币的一个模型我们感觉就做不上去了好多地方就做不上去了成本也很高之类的这种事情然后deepseeker出来之后会提醒大家说其实你看强化学习这一块我们还下的力气不够对吧然后他的主要的贡献就是强化学习这一块有一些新的策略和新的方法出现那是第一个第二个在工程优化上其实还可以做的更底层更极致一些第三个就是真正的下一个范式的这种探索我觉得应该可以更大胆一些去想象一下因为我记得我印象比较深的是DeepSeek当时的技术报告里面提出来是说他们尝试把SFT跳过去直接在base上做强化也能七七八八你们选择这条路了没我们就做了一些尝试后来得出来的结论是说其实还暂时没有办法完全把Midtrend扔掉所以可能还是会用一些Midtrend这样的一些阶段这些方法Posttrend尤其是强化协议这一块要加强是肯定的所以后面加强了RL对后面你看最近4.7前两天他们在Reddit上开了一个MA然后我看了一下他们当时聊的记录里面还挺有意思的然后专门他们也介绍了就是给大家介绍了我们的强化学系那个框架叫SLAM那个框架挺典型的挺有意思的一个研究的成果算法或者叫工程融合的这样的一套方法你怎么把不同的任务在同样一个框架底下去不同的强化学习任务融合在一个框架底下让有机的把它整合到一起一个框架去解决所有的问题我觉得这也是战斗之后在这方面获得长足进步和研究成果的一个体现也得益于这些东西基础工作的这种做得更扎实才会有后面4.567这个一步一个台阶的这种上去这个我觉得deepsec可能整个这个行业大家都带来了很多学习的地方你们当时在想什么呢有没有在想为什么不是我们做的我觉得这种问题好像对工科男来说不是一个必要思考的问题因为我们比较尊重事实事实就是说这个事情不是你做的你想这个问题好像当然对我们后续改进有帮助对吧人家做对了什么为什么这个事情我没有做你想清楚这个原因下次注意对吧就行了而且DeepSea非常坚定的开源他比较彻底的吧就是做了一个开源这个事情你们对这个有什么想法开源这个事其实我们也一直在做这个事情但是因为你们是最早开源的对吧我们刚才也聊到了对从二三年开始我们就二二年开始我们一直在做开源这个事情包括确诊券6B等等到目前为止我们已经有将近六七十个开源项目这些项目的下载量已经60多次整个开源社区里面还是算是比较知名的一个开源的系列这些内容所以开源一直是我们刻在记忆里的事情毕竟从学校里出来还是觉得回馈大家的研究或者是这些创新的探索我觉得是我们必须要做的事但是作为公司做开源这个事情你看美国这些公司就很清楚的感觉到他慢慢放弃这个事情对更多的商业化利益去考虑为什么币源的商业化利益更高因为它有这个技术上技术的溢价那前提也是因为就是说还有一个认知是说开源和免费之间是不划等号的是不能直接划等号的但是在中国这个市场话语体系底下好像这个是被混在一起的DeepSeek做得很彻底所以这个事情又被加强了大家这个印象所谓开源就是免费但实际上本质上在商业化市场里面你会发现其实这个事还真的不能宏伟一点所以DeepSeek彻底的开源对于其他人有什么冲击吗肯定会有些冲击彻底开源的结果就是说大家可以基于他的一些很多的研究的成果和基础去做很多事情对吧但其实我是觉得可能大家能复现他那个结果的也不多他的开源策略给你们带来了什么影响给我们带来的影响就是说除了刚才说的是技术方面的事情然后另外一方面就在商业化市场上可能对我们的影响就是说有很多很多客户的脑子里面他就把开源和免费就划等号了给我们带来的印象就是说你都开源都不要钱了你为什么还要收我钱呢他会问这个问题那怎么办你只能用时间来证明他们会说我原来本来要采购的预算已经批下来了本来要我们钱然后说你看这个DBSK开源好像比你们也不差甚至可能在某些方面还更好一点我是不是可以不用买了我直接用它就好了对吧然后我们会告诉客户说其实你不要把开源和免费这个事情划等号你用开源的东西没问题也OK但是其实和你真正想要获得的是一个商业化的服务这件事情本身是不等同的你不要把这个事混到一起然后有很多客户就去自己去尝试什么什么DeepSeek一体机什么之类的自己去布所谓的埋序板当然有的客户他没有这个能力他找外面的团队来帮他来做这个事也问到我们这那我们这帮我把这个东西部署一下然后有很多的人其实也做了这方面的尝试但是我刚才说用时间来证明这个事情就过了一段时间之后你会发现大部分人都掉头回来为什么因为DBSK也不提供参与化服务就算我部署了这个东西我顶多也就是把他当了解机器人去问一问我没有办法跟我的这个内部的系统什么之类的去做整合这个需要很专业的这种服务和人设去做这个事这DBSK原厂他也不给你提供这个所以你说服了多少客户回来我觉得是delay了我们一些客户OK这些客户有一些就是有一些客户他就回来了来找来做这个事情你们中间的开源闭源中间有过摇摆吗为什么先开源后闭源又开源我觉得基本上没有摇摆过一直坚持是走开源的所以我们你可以去查一查就是我们基本上所有的关键性的模型的更迭包括技术的更新都有相应的开源版本或者开源项目但是我们在比较早期的时候23年24年的时候是很明确的把开源和商业化这两件事情是分的比较清楚的开源是开源开了一个版本对然后避远的做商业化对我们开源其实的目的是把核心技术放出去让大家能够用得上能够了解里面的细节是什么在这技术之上大家去做自己的创新和探索商业化那个是面向商业化客户的我们提供的不是说只是开源的里面的东西参数文件几十个G对吧我们提供的是基于这个东西的一系列的产品工具还有服务因为你的商业化的目的并不是说买个玩具回来摆在家里好看而是我真的要把它用起来然后转换成我的生产力转换成我的商业收益客户价值当大家想通这个商业本身它的核心的老点是什么的时候他自然会回来找我后来真的不少的这些想明白的客户回来找我既然开源从商业上面有好处那为什么梁文丰这么彻底的开源我覺得他想的很明白我猜大概率他也不想去做這些2B做服務這些事情這個市場他也不缺錢他也沒想到要靠這個事情掙太多錢我覺得這個是首先很關鍵的一個點第二個確實他也有很執著的技術上的理想他也不想去因為商業化這個事情去分擔一些精力去做其他的一些事集中精力集中資源來做技術探索就好了我猜當然我沒有那個榮幸去跟他聊一下是不是這個真相因為朱孝甫說DeepSeek對世界的影響仍然是被低估的尤其是在開源上你覺得他說的對嗎我不知道未來它會演化成一個什麼樣的事情當然因為還在持續地往前進然後不應該低估這件事情不用太過於高估這件事情因为开源这个过程当中其实大家都有很多人在做开源相关的一些事情大家都有自己的贡献其实包括DeepSeek自己本身他也承认说他有很多其实技术上的这些东西也是来自开源社区吸取了很多的开源社区的这些养分我觉得他想表达的是如果没有DeepSeek这么彻底的开源的话可能全球大模型就是被几家商业公司垄断的这样其实智力是不平衡的尤其是美国公司都不开源然后DeepSeek带来了大多数中国公司都开源了如果开源这件事情是开启了一个新的局面就是让更多的公司都开源了对更多公司逼着大家去开源来做开源这件事情我觉得这个是有一定的道理的但我觉得即使不是他也会有别人来做这个事就一定会有人开源的一定会有人来做这件事开源对技术影响力好首先他在怎么说在赢得开发者和社区的情感的认同上会更好一些当你没有特别显著的商业利益的时候它会是一个很好的选择是是是所以人很复杂人很复杂对人很复杂这句话好像隐含了很多深意你觉得开闭源可能会对世界的影响甚至可能是全球比如说有的地区可能用不起美国的模型然后他就用了中国的模型你觉得对于全球的智力分配会有一些系统性的影响吗当然开源可能是加速了整个刚才说的智力平权的过程不过其实你看老黄也在讲所谓的叫主权AI这个概念对吧他认为這個技術可能沒有國界但是這個最終的應用和人它是有國界的意義是有國界所以這個技術肯定不可能只掌握在非常少數的公司或者個人手裡所以開源這個事情包括中國現在的廠商大家都開源這個事情其實給世界提供了很多的這種第二第三個甚至更多的選擇但就算沒有開演這個事情我覺得最終的結局可能也會是美國走他的一條路商業公司捏著頂尖的這種幣圓的商業的模型一次來推動資本的這種積累運轉然後全球的其他的玩家可能都會努力的去尋找第二第三甚至更多的選擇我覺得中國的戰略來講肯定不會放棄這個路徑所以即使不是開源他也會走一個路徑說我會做這個技術的輸出我會做這個去幫助大家去做自己的就全的AI帮助大家去获得权利去掌控自己的AI的能力我觉得这个是个必然的选择这最后会转换成国家影响力当然你们在最开始决定开源的时候是基于什么原因当时我们刚才讲2022年GM130B開源的時候其實就說過這個事情其實還是希望打開市場有更大的市場的影響力然後也知道中國的企業團隊也能做出世界級頂尖的事情來再到後來确实是整个市场它的整个的趋势它就是这样了然后中国的大模型基本上都开源了大家都开始了大部分的就做开源这个事情对我们来讲本来开源也是我们秉持的一贯的这个事情也没什么好犹豫的那就顺势而为了对你们是有开源历史的然后像其他公司KIMIMINIMAX是从B元转向了开源对我们刚才说到一些研究话题就是因为唐老师也提到就是A政策的放滑性不好现在你们有什么解决思路没有我这两个层面第一个层面就是说agent的放话能力这个事情可能还是要从数据这一端去做一些工作如何能够快速的去收集这些数据低成本的收集这些数据高质量的数据然后他能去学习然后就像你刚才说的那样所谓的好的数据这个事情是探索还是值得去探索做很多事情另外一方面还是从算法的角度agent本质的能力它还是依赖模型本身的智力和人质能力上限怎么去推高智力和人质能力上限是肯定我们要去研究的问题你比如说我们的AutoGem可以操作50多步甚至20步的长程的任务再长呢或者说它不是一次性完成分成很多段完成的它怎么来解决记忆的问题对吧你上亚文创作有限你太长的任务你怎么办人是怎么做到的怎么来压缩所以这里面还是有很多这种技术性的研究问题这些问题都会帮助我们在agent的放话能力上任务的成功率去提升你觉得下一个skilling的新范式有可能是什么目前来看现在的skilling范式其实就是在强化学习这一块我觉得再下一步我个人认为可能新范式可能就是在这个叫自学习这一块在线的强化学习或者自学习这一块onlinelearning对可能那个时候的模型的训练推理之间并没有特别明显的界限就它可能是连贯的它不再是一個截然分隔的兩個階段它其實把這兩個人統一了這個我說不好是算法層面會首先突破還是從工程實踐角度能實現這件事情就是它會比较闭环的形成一个完整的闭环就是推理的过程和收集反馈反馈完了之后我的反馈信号怎么转换成我的强化学习的下一步的输入然后整个这个东西是自动化的中间它没有明显的断掉的理线的部分我看唐老师也提到文本多模态多模态生成这种把这几个过程全部统一到一个模型的你们探索这个方向吗我们一直在探索原生很贵是吧它还是那个问题主要是数据量其实比较大计算消耗的算力比较大确实比较expensive所以你们探索的多吗其实我们还是投了不少精力在这个事情里边严格讲就是我们从技术角度来讲这个事情的话其实不光是你把视觉和语言混合这个叫多模态那还有比如说你不同的文本的数据也可以是跨模态的就比如说代码它其实和自然语言它还不太一样它也是其实是两种不同的摩泰混合在一起甚至包括我们刚才说的像Agent像它的执行规划和执行的步骤那些数据它也摩泰也不太完全一样然后会甚至还有现在在做VLA怎么控制机器人你们也做VLA在研究所以这些其实都属于叫跨摩泰的怎么来统一这个事情你觉得这会是一个趋势吗一定会是个趋势是终极形态吗我个人认为一定会是终极形态那它基于Transformer吗不知道不一定这个说不好最近看了一个DeepMinds创始人的访谈然后他就讲AGI是三种独立体的结合体包括大圆模型图像模型和世界模型需要把它们统一到一个更大的模型中你认可他这个观点吗他跟我们刚才说的是一个事对吧其实说的是一件事情就不同模态和你不同的任务怎么把它真正找到一个统一的建模的方式原生的把它融合到一起而不是用系统化的方法如果这个实现了会是AGI吗我觉得AGI就看到曙光了应该再加上刚才我说的那个在线学习可能他就真的就看到曙光你可以想象这样就首先第一你造出来一个脑子这个脑子其实各种能力都有语言能力对图像的理解能力然后对物理世界的这种判断能力识别能力都有然后再给他装上手脚他能去叫世界模型去解决这个问题就他能去预测这个世界发生什么事情然后跟世界进行交互然后交互的结果再反馈回来变成一种强化的信号然后我又能立刻的马上的接受强化学习的信号再学习修改我的模型这样闭环起来这样的话可能就是那个谁说的你要选择让人工智能在什么范围什么时候开始授权让他自己去探索这个世界那个时候可能就近了这你觉得还有多远我其实也说不好太多好像我看了好几种说法一个是说的可能27年要开始有这个能力达到我刚才说的状态然后剩下就是等待看他自己去学学到什么程度能不能学到比如说超过人或者什么之类接近人或者超过人接近人和超过人其实就是我们说的基本上AGI的目标就到了27年到现在还有两年时间然后27年之后可能还需要花几年时间去调整效率或者是学习的成果怎么安全等等的那些事情可能我理性的判断这件事情可能需要比如说五年八年这样的时间你们都会跟进吗如果这个是AGI的方向一定会我们永远不会忘记我们的目标就是AGI你们马上上市了我们来聊聊这个话题因为我想了想智库有可能会成为不仅是中国它还是世界上第一个IPO的大模型公司你们动作比OpenAI快为什么AGI到现在都还没有实现你们这些都纷纷上市确实这里面好多的原因首先第一个这件事情我们一开始说的实现AGI这事我们从来不认为它是一件非常简单的事情他也不是一個非常短期就能實現的一個目標他可能是一個馬拉松是一個長跑非常長的一個距離所以你一定要坚持下去在不同的阶段你可能用不同的方式去度过这一段可能比如说在马拉松起步的这个时候你为了要摆脱大家比较拥挤的起步的阶段你可能需要加一点速跑到前头去跑到第一集团去现在能跑到了是吗对然后在中间有一段时间大家都坚持不住的时候你会要去补给站拿些补给然后把自己的体力保持住对吧不断的平衡自己的消耗和摄入能量之间的这种平衡所以在不同的阶段你会有不同的方式去运转你整个这个体系所以上市这个事情对我们来讲就自然而然的到了今天6年半到了今天在我们的第一天公司成立的规划里头大概也就是在6年7年这个时间我们就要去面临IPO的这个事儿当时已经规划进去了对我们当时就自己给自己做过一个模型每年这么增长10%到150%然后到什么程度哪一年开始我们就来去进入到IPO的所谓三年业绩期的考核到那个时间点我们自然而然就知道说这个事我们要注意了我们开始做这件事了所以到了现在今年报IPO什么也是很自然的就走了这条路什么时候开始认真启动上市计划的真启动你要按比如说我们刚才说倒退三年业绩期这个时间那就是二三年其实就开始这么早二年二三年就开始了所以就已经开始规划各种营收增长这些事情我们要怎么去做我们的商业化怎么去做你的收入包括成本投入怎么去控制包括团队怎么发展不仅是你们这一波公司的上市你觉得对于AGI来说它会是一个什么样的路标我觉得具备的意义还是非常大的首先第一个就是说从资本市场的角度来说你在一级市场都算是没有离开学校还是在学习培养然后成长的阶段到二级市场之后它是一个更商业化更接近这个市场的这样的一个阶段对吧很自然它是一个里程碑整个行业来讲也是个里程碑就是证明了一件事情说这件事情它并不是一个金中花水中月它还是可以走到这样的一个阶段的它是一个真的能走到一个产业级的这样的一个事情有没有一部分原因是投资人也希望就是能够离场他希望能够落贷为安我不排除有这方面的有人这么想这件事情但我觉得像我们的很多投资人还是跟我们一样就刚才说的是保持着同样的信念和同样的想法大家一起走下去取得更大的成功并不是说简单的上完市我们就退掉然后落贷为安挣了钱就OK其实也并不是那么简单你们准备怎么用你们这笔补给款照顾疏离都有大家会把你们跟minimax放在一起来讨论因为他们也在争夺第一股你们时间是接近的所以你们会是第一还是第二这个就不知道了这个就看教育所那边怎么安排你有什么想对minimaxCEO说的吗我跟严老师说话其实最近稍微少一点之前还挺多最近为什么变少了就碰面的机会比较少你有什么想对他说的吗我觉得祝大家好运你怎么看OpenEye的上市对听说他也在准备是吧我觉得OpenEye可能是另外一个故事或者说在美国一个大的环境底下又是另外的一种逻辑叫高风险高投入高回报三高他们是赚的是这种逻辑我觉得我们相对来说更符合中国的这种情况追求的是在高风险或者说叫高科技的这个领域里面的追求这个稳定性和可控性可预期的这种模式因为我们这个访谈发生在上市之前你现在的状态是什么样就快上市了说不好什么状态其实我觉得当然很期待就终于走到这一天了很开心我们另有多时间能发展到这一步感觉到很庆幸就很幸运能走到这一步当然我心里也很明白的知道就是说上市并不是终点后面还有很多事情有很多路要去走很多事要去做也不会简单的停在这一步我是个天平座的人天生很平衡问一个尖锐一点的问题就是怎么应对上市后的技术投入算力投入和二级市场的资本压力就是上市之后会不会反而让你们变成一家平庸的公司因为你们要就不敢投了要给股东交代我觉得不会这也是我刚才说我们说为什么我们希望通过当然跟你的这样聊天更多的这种途径让大家知道智谱到底是在想什么是在做什么大家理解了我们为什么要投这些事情为什么要做这些事情为什么有这么大的研发投入其实大家就理解我们背后的这些事情很多事情其实起源于人和人之间的这种认知的差距互相的不理解所以你觉得被误解的是什么我觉得可能有一些人认为说你看他们就是一个做项目之外包的是吧图记的公司为了政府赚的我觉得其实不是这样其实里边有很多很深层的因素在里边你看从表现上来看中国的前10大互联网企业里边有9个是我们的客户其实都是我们很重要的客户很大量的客户然后我们有60%是企业客户政府这块他只占到20%很少所以其实我们是一个你要说我们是一个2B的公司这个可能我认对就是说并那个并不是我们很真正占大头的东西大头的事其实我们一直说我们是服务企业因为是企业才是整个社会里边生产力最集中的地方转化队效率最高的地方最主要的地方而生产力变革级别的技术你当然是要找到这样的一些地方去落底我觉得这个是一个很straightforward这样的一个逻辑就是我们这些做工科做理科出身的人他容易想到了一个事情我和一個AI1.0時代的創始人聊天然後他有一個評價我印象還蠻深的他說現在大模型公司上市就是在大逃生在逃生因為大家可能會覺得26年這個Bubble會破這也是市場的一個觀點就是大家對26年的預期不好所以大家覺得25年底26年初能上就快點上這可能是一個窗口期也有人會這麼評價你看从两个方面我可以大概对这个问题进行一个解释首先第一假设它是一个把宝我们上市能救我们吗或者说能救AI吗能救投资人的钱包那不是救我对不对所以这个事其实跟他上不上市没什么关系所以你混淆这两件事情混在一起这么说其实我是不太认识逻辑上他没有必然关系这是第一个第二个他是不是bubble这件事情最近也讨论的比较多我很习惯的跟大家聊这种天的时候就会反问一句你怎么定义bubble什么叫bubble当然任何周期都有泡沫就是当我们在开始讨论这个肯定很担心的是像以前那种周期里大崩盘的这种情况它这个崩盘是因为什么投资过热嘛投资的东西得不到相应的这种收益嘛好那最近的泡沫是什么你第一期不清楚它的本质没关系我们就类比嘛最近的泡沫是什么互联网对所有人都会告诉你说最近的泡沫就是互联网内部那波泡沫但是你看互联网就算互联网泡沫破了它留下了什么现在大家用的很多的东西享受的很多东西是泡沫的时代留下的东西网络的技术设施很多技术的革新包括这些产品很多东西的产品都是那个年代留下的你为什么要担心Bubble担心自己刚好是被戳破的那个说白了还是担心自己兜里的钱投资人的钱包对其实说白了还是这个就是说我能不能及时的收回我的投资的收益并不是真正担心说我投进去没有产生实际的东西或者产生实际的生产力或者留下真正有价值的东西对吧其实你看本质上的分析分析大家其实是因为这个但好你说到这个角度的时候这个问题就容易解了投资这个角度你觉得美国够吗你觉得中国够吗都不够这是你的认为对吧如果投资都不够的话那凭什么叫Bubble呢觉得不够的原因是因为离AGI还很远那既然他不够那他再回来离AGI很远那我们要不要去追求AGI他有可能不在现有的技术范势下有没有可能那我们如果不投资他会自然发生吗他不会那不就完了吗所以还得投资对啊那不就完了你这是从历史的大势来讲的对啊那你这个历史大势趋势它就是这个样子我問你這個問題所有的邏輯都是一環一環相扣的你就回答這些問題你就知道了所以你擔心這個事情其實是沒有意義的他必然會就是你剛才說的必然某個時間段他必然會有泡沫會有這個泡沫沒問題只是碰碰大小而已那我就問你大小嗎你說投資夠嗎你說不夠其實很多人也認為不夠我不敢說美國那邊夠不夠反正中國肯定是不夠中國少很多對啊少非常多是美國的幾十分之一我看過一個統計數字大概二十二十二十多分之一吧很小投入不是很大而且很多的這種投入都投到了什麼技術設施反正就撒胡椒面撒下去了他並不是集中在像美國那樣集中在那幾家腦袋上這樣個情況也不太一樣所以你要說有Bubble我相信在資本市場角度來看美國那個事情可能是有Bubble但對中國這事不存在他是不夠的他是遠不夠的你看朱笑虎他之前一直说大模型六小龙连上一代的AS小龙可能最后都不如虽然我们进入了第二代的AI这个范式你们出来创也是为了第二代AI范式但从一个上市公司的角度你觉得它跟第一代AI公司有什么本质区别我无意反驳他这个观点但我觉得他这个结论下来有点早因为上一代的AI思想龙其实现在还健在你看才几年你要从23年开始算现在才三年你要再往前推一点你说从我们公司成立19年开始算也才6年多这么早就盖棺定论吗我觉得还太早所以他说的是个预测预测这个事情你可以不评价我们就等着时间来证明就完了还是回到那个点他们觉得2B的定制的商业模式不性感我觉得不是说2B就一定是定制或者说下次代股那也不好对也不好所以他这个东西你不能摆脱实际的市场情况来说这个事情我知道很多东西包括定价模式或者说估值模式很多东西是从资本市场的很多东西是从海外过来的从美国过来的因为毕竟他们比较靠前但是别忘了这些东西都根植于他的文化根植于他的历史根据他的经济社会经济的状况中国的事情很多时候不是按这个来的硬套可能并不一定是个好事情所以你还是走的是一个更符合中国叙事的一个路线也许maybe我们一直是认为说天底下的路其实不止只有一条很多时候并不要用历史的很多的既有的经验或者说规则来框一些新的东西很多时候你的措施的一些机会和一些事情都是因为这个你看他们早期开始的时候其实大家的判断也是一样的很多人说这不就是暴力吗一点都不科学的所谓的优美那事实证明当时的说这些预判的人可能我不能说他错了但至少他没预测对所以这个没关系说什么都会有我们坚持我们所认为的而且他背后是有一套逻辑的来支持我的逻辑判断我的判断我的决策然后我坚持做我自己的事情刚才我们其实关于2C的问题没有聊完你好像没有告诉我一个时间点是你明确决定2C不是我们的重点只是有一个关键的决定的时间的吗基本上DeepSeeker那波出来之后基本上我们就不再花很多的精力去资源去做推广之前是退的就是在DeepSeeker之前是退的当然也非常克制大家也很少看到我们的比较不多看到我们东西没那么多那时候还是觉得有2C的可能性的有一定的可能性因为我们当时打的几个用户群体其实也挺明确的上班族学生程序员等等这些群体给他一个好工具并不是说创造什么新情绪价值什么之类的我们不会去打这种点这也不是你们的基因对吧这种娱乐性的产品你怎么看到国内的2C市场2C战场AI2C战场豆包千万DeepSeek2C这个事情可能目前来看纯C一般用户大众用户可能还真是互联网大厂的机会因为这没办法大量的平台还有流量还有用户入口都在他们手里他们比较容易把这些都切走所以如果只是简单的一种就产品本身的价值不是很那个什么的话没有什么独特性的话很难复制的点的话初试的战场基本上就是他们的短期之内肯定就是这样我听过一个评论就是在讲智普的他们说因为智普其实一直不算是市场上最火最明星的项目对吧都不是流量关注度最高的一个项目但是是技术衍生的项目然后你们是有视野有技术但是看起来会有点boring就是非常的现实你觉得这个评价中肯吗他给我一个描述说就像水泥一样没有那么的有趣但是稳定性好这个评论对你们来说是中肯的吗还算中肯吧就像大家评价清华的理工男一样就是boring就是很聪明也很能干正经用途让他干什么事情他能干得很漂亮什么之类但是他就是没有太多的情绪价值Kimi相对你们来说还是更酷一点对吧从外部观感来看怎么说呢他也是清华理工男对所以这个我就是这就是我佩服直玲佩服直玲的一点她是很会抓住普通人的眼球知道怎么去推广怎么去理解普通人的这些需求和想法在我们看来我们可能在这方面做的没有那么好但也跟我们的定位有关系你们有反思过吗你们有觉得更C一点吗更新眼球一点更酷一点吗还是做过一些尝试做过一些事情想要做这些事情一直在努力其实我们在比如说像开发者像程序员像这一类的人群里边其实我们做过一些调查大家对我们的口碑还是不错的因为你们坚持开源对当然开源是会有一批了当然包括我们的产品包括我们的很多的优点都是这帮人比较喜欢他是工程师文化这总结应该可以就新华其实还是很提倡工程师文化我觉得你其实是就是还没有很好的准备就做了CEO并且被推进了一个这个大浪之中你这三年什么感觉你怎么知道我没有做好准备不过你说对了其实这个东西后来我们自己内部几个人一起喝酒聊天的时候也说了这个事情其实你任何时候都是没有准备好的很多时候是你只要认准了这个方向愿意去学习愿意去不断的提升自己愿意去做这件事情也不用太害怕就可以去做我觉得清华给我们最大的一个好处就是教会了我们学习的方法学习的能力而且有这种学习的欲望什么事情都愿意去学习我觉得这就挺好当然不是说足够这就挺好这个过程中最折磨你的是什么事其实还是来自于对这些事情很多事情的不熟悉比如说我们开始大规模做商业化之后说实话这里边还是要面临很多的这种挑战之前没有碰到过其实也没有人能告诉你怎么去处理因为我们做的这些事情也是比较新的商业模式也比较新用户也好投资人也好客户也好对于我们的看法其实也都非常的千奇百怪你怎么样让你的认知和对方的认知能够对齐其实这个挺sovereign你要花很多精力去跟大家沟通去交流去拉起认知一遍又一遍的重复很多的话客户交流是你的工作对很多客户其实我都会到一线去跟大家去讲你刚刚也说就是在治理上也遇到过很多困难在成本控制上遇到过很多困难这个困难比较大的时候是什么时候当时我们刚出来创业的时候这个张院士算是见多识广跟我们讲过一件事我印象还比较深他说创业企业有几个坎第一个坎是你50个人一般的都能挺得过去比较简单你挣到钱就行你只要有挣钱就行亏不亏的不关键第二个坎是20人第三个坎可能是50或者甚至更多一点所以这几个坎其实都就是决定了你生死的可能任何一个坎你过不去你这个企业可能就完蛋了但是我其实不是太理解将来为什么这么说或者说到底砍你是因为什么当我们亲身经历完了之后就回过头再去看这个事情其实很有道理但其实关键不在于说具体的数字是多少是几十个人还是10个人还是20个人还是多少人它其实代表的是企业发展的几个阶段第一个阶段就几十个人是说只要挣到钱就好是什么是你要跟团队的信心要建立起来就是说你做这个事它是能持续下去的别先散了还没干的就散了这是第一件事所以这个一般来说第一件事情比较容易能出去能过去第二个阶段是说10人或者20人这个阶段是企业到了一个新的阶段是开始有一定的分工比如有负责商业化的有负责研发的有负责做产品的有负责日常运转的方方面面开始有分工团队分工之后就会带来一个大家各自负责一摊又带来一个就是互相沟通交流对齐就是产生管理成本管理上的消耗如果这个时候如果协调不好可能就分崩离析了对吧就协调不好就可能各管一摊就管不起来就捅不起来大家的目的是不一样的最后可能就分崩离析到了几百人五百人甚至更多人的时候规模上去之后会产生另外一个问题就管理选项的一个问题就是你开始出现分层出现中间的这些管理者它不再是一个很扁平的状态你的信息的传导会变得越来越长对齐会越来越难你管理的成本会越来越高各种各样的合规安全等等这方面的事情会越来越麻烦原来我们在科建的时候到大约10多人搬到这边来的基本上所有人我都认识都叫不出来名字干什么的我都知道但是搬到这边来之后两层我的办公室在其中一层在另外那一层我很少就去没那么多有可能一段时间之后公司里面就有一批人我叫不出来名字了就不知道他在干嘛了这种你心里会有落差不是落差就会产生这种就是其管理上的这样的一些空白的地带就是你不在你的视野之内你靠你个人已经不可能cover掉靠你整个企业的管理的体系机制运转感觉不在你的掌控内但其实你是可以掌控的这个就有一个你说是落差也好或者心理上的变化也好也都可以怎么变化的心理上你会要相信或者说更花一些精力去在整个机制体制运转定一些规章制度这些方面去而不是说什么事情都在我的视线范围之内很多事情不在你的视线范围之内就发生但你怎么让这件事都在你的掌控范围之内不能超出一定的范围都是安全可控这个就是企业它发展不同的阶段它需要的不同的事情现在我们又有个新的坎要上市上市企业合规要求是很高的让你很难受的是哪件事? 难受倒没有,就是辛苦一点,累一点。
要很多沟通工作? 是,沟通,然后包括协调,包括做一些调整。 过程中有犯过什么错没有? 还好吧,我们比较幸运,没有犯什么大的错误。 在智普的决策机制是什么样的?
几个联合创始人之间。 我们完成这个骨感之后,是有董事会嘛。 大事情就是上董事会去决策了然后日常的有管业务的有专门的委员会然后管日常运营的也有专业的委员会大部分日常的运营就是这些委员会会有几个人一起来决策就完所以还是相对比较简单CEO董事长手艺科学家唐杰老师这几个是怎么分工的当然唐老师手艺科学家他肯定主要就是在研究科研这一块然後有一些重大決策這些事情他作為創團隊肯定會要去做重要的決策然後董事長這邊主要是幫助在對接像監管政府还有部委的一些事情然后包括公司还有融资等等这方面的一些事情他会花很多精力在这方面然后我这边现在主要是花比较多的精力就是公司的日常运营尤其是靠前台市场化这一块商业化这一块的事情比较多因为你们核心团队都来自于清华嘛会造成其他人加入质朴会有文化难以融合吗如果他不是清华的我们也还是有不少的这个核心的人员都也来自其他的如果学校的话比如说复旦啊上交啊什么这些都有北大都有然后还有来自大厂的像什么自洁啊阿里腾讯这些都有所以相对来说还是比较open的一个文化有人会叫你们叫血缘派你觉得这种说法中肯吗挺对的因为我从学院里出来的学院派创业需要你们有什么knowhow你觉得需要克服的不好的惯性是什么学院派创业可能大家最多诟病的就是说学术其实比较重大家对于技术研发创新这一块看的我会比较重对商业化这块就相对比较忽视可能是大家诟病的比较多的一个问题我觉得我们还是挺注意这一点但还有一个原因还有一个因素我考虑说当时我说过我们当时在实验室里面其实也就开始挣钱也接触市场的这种机会其实也比较早所以其实在这一块多少还行我们也还都知道这些事情怎么去弄大方向不会就刚才说的不会犯什么特别大的错误走到今天你对智普的状态满意吗对智普的成长满意吗你要说百分之百说政府很perfect我当然也不相信毕竟一路走过来确实时间还比较短几年时间太快了也发展的很快所以中间你要说很完美肯定不是有很多事情我们觉得还是能够做到更好的比如说比如说有一些产品方向的决策上我觉得我们可以更聚焦一点今年可能好一点去年的话我们做了很多的事情动慕泰包括跟类似Solar的产品就CocoVideo什么之类的也做了很多的新的一些探索這些探索到了一定程度之後可能由於一些資源等方面的一些原因後續的研究和推進就會相對的比較緩慢或者說放慢速度我是覺得可能在這一塊的話我們可以更合理的來規劃一下原來是敞開了就全部都平行大家一起來做這個事情都來做反正只要想做我們就一起來做这不是所谓的自小而上文化吗看哪里能有幸其实可以更聚焦一点就是我们把带宽缩小一点有些任务适当的就是串线一些就做完一件事情再一件事情这样的话第一你资源有效利用第二也用时间和空间做个平衡就控制一下自己的成本支出等等各方面的一些风险其实从去年开始就是模型公司都开始分化了嘛硅谷公司它都有不一样的bet欧盆还成为了一家应用公司Andropic可能成了一个tobe但是现在也在coding领域也做得非常好那你觉得智谱的不一样的bet是什么呢就是你说要收敛嘛那你们要收敛在哪里呢然后它有这种独特的下赌注吧25年初的时候我们大概有三个预测首先第一个就是机组模型能力持续提升这件事甚至是多模材或者是多种数据融合的这种混合型的这种机组模型是一个大的方向第二个是智能体这件事那会是一个很重要的这样的一个方向第三个就是国际化当时我们年初的时候就说了这三件事现在回去回过头就来看其实一一都验证从现在当下的状况来看的话明年或者说未来我们要继续bet只有一件事情就是HDI当然说这个事情比较长如果你拆解到短期首先真正体这件事情我觉得还是非常重要它解决了模型到真正实际应用之间的问题落地路径的问题它肯定是一个很重要的事情第二个事情是还是我刚才说的新的scanningload或者新的计算范式这件事情上我觉得像RL这一块这个事情它会持续的会有新的范式诞生所以这两点是我们相信的我觉得也是智普在接下来这段时间里面比较重要的要去发力的点你觉得你们能被评价为一个理想主义的团队还是一个现实主义的团队我觉得我们还相对比较平衡平衡对因为我个人对我是个天平座色人我是比较平衡我们可以有很远大的理想这个理想我们一直不会放弃但是又不是说我们空有理想也不知道不知道怎么去做但是真的当我们把要实现的路径目标阶段性的目标确定清楚的时候我们会非常扎实的非常落地的去执行去达成这个阶段性的成果我觉得这个是我们这个团队还是非常有特点的一个地方一个平衡的团队那你刚才没有回答我那个问题就是你觉得中国谁真正在追求AGI其实说实话我不是太知道这个我不好去判断这件事情因为我发现跟大家聊完一圈之后大家对于AGI的这个定义的差别很大所以大家你说你在追求AGI我就说我在追求AGI但这个事情你需要相信的不再是这一句话是它的一个本质对于你们来说本质是什么我们的本质其实用我们公司的slogan其实还是挺好能解释的让机器像人类一样思考对其实但最终你思考能思考的机器最终还是要反过头来去赋能人类人类的社会人类的历史让人类社会会更美好这是我们想要做的事情这就是工程师文化唐杰老师是一个什么样的人唐老师是一个绝顶聪明非常有执行力很热情的一个人一旦他想清楚一件事情想要怎么想要做这件事情他会特别的push特别的有fashion的去干这件事情而且非常的专注他现在最push的是啥拼命的push我们团队把模型的能力持续的往上拱所以你看他在微博上会再问说大家关心什么想要下一个版本的模型对吧有什么能力这是他可能目前最核心最关心的一事当然这个上市的事他也很关心的最近团队状态怎么样要上市了我觉得还不错吧整体上大家还都比较精神状态还都比较饱满得益于最近的不管是模型技术模型的发布还有商业化的结果方方面面其实也都还比较如预期吧所以大家整体上状态还不错作为CEO你会怎么管理大家预期吗你最近有跟大家说什么我们团队内部经常会每周会开会对齐然后尤其商业化这一块大概市场上是会什么一个变化我们要怎么去应对这些变化然后跟技术部门怎么样去研究部门怎么样去沟通怎么让我们的研究和商业化的这件事情不是两张皮能够更好的去沟通这个内部有很多的这些事情我觉得作为CEO是一个桥梁是搭台子让大家发挥自己的能力想象力能力执行力去达成结果所以很多时候是我也会很惊讶底下或者说小朋友们会做出来一些超出我们预期的一些事情我挺享受这个过程什么时候能breakeven这个财报里面应该会给当官的这些预测应该我们会按照我们现在的整体的商业化包括业务上的变化整体上还是比较向好的包括我们的云端的收入很快速的上涨然后图币的然后我们的收入也在稳步的每年保持一个比较高速的速度的增长随着我们的研发包括技术本身的收敛成本的投入持续的在优化所以应该来说这个过程不会太长最近上市背后有什么有意思的故事没有我去参加了一下摩尔的桥中的仪式因为我们跟摩尔合作时间还挺长让他们也邀请我过去然后我就顺便去上海去了一趟然后我跟他们说我说我来学习一下学习怎么敲对敲钟是个什么样的过程挺有意思跟他们也聊了一下其实挺感慨的他们也是北京企业也不远但是他们也创造了一些历史确实大家都很不容易这一波非常的不容易各自有各自面临的这种难题然后挑战能走到这一步走到今天的可以说都是英雄做一家实现了AGI的公司和做一家利润很高的公司这两个二选一你选哪个当然实现AGI的公司这个不用想的哪怕实现了AGI然后挂了也可以吗说这个话太不吉利当然我们不希望挂掉而且我相信如果我们能够实现AGI我们不会挂掉我们也会是一个很伟大的公司仅仅从商业化上来说也会是一个很伟大的公司这两者并不是对立的你觉得智普如果做成什么样你是不满意的往后看五年只赚钱没有技术的产出或者说对这个行业的这种贡献我觉得我就肯定不满意你觉得你们的技术理想主义和比如说梁文丰的技术理想主义有什么不同这个问题还真没有特别的去思考这件事情可能我们更期待说我们自己的技术理想主义我们能把它变成现实就像我们的slogan里面讲我们不光要让机器像人一样去思考让他思考完了之后反过来能用得上产生实际的价值所以可能我们要的更多一点想要做的事情更多一点除了在实验室里面我们每天对着屏幕敲代码然后做实验然后对着这些机器去折腾也会卷起裤管露起袖管去跟客户的现场去商业化去解决大家实际的问题不是说你买了我的东西拜拜再见是真的让用户说你这东西挺好用的解决了我实际的问题我们的成就感就完全不一样我觉得可能在这一点上我们想的会丰富一些你刚刚一直说其实回望过去6年半蛮感慨的有没有一些就是自己感慨的瞬间就自己觉得比较动容的瞬间还是有的我一闪过过去这几年里面其实还有很多的这种瞬间的正好我们在I1年底的时候在深圳注册了一家分支机构是为了深圳的一个比较大的客户一个事情我就孤身一个人就跑到深圳了7月份一直待到年底因为要融资等等这些原因不得不回到北京在那边待了小半年那段时间你想正好碰上我们S0B开源发布融资一系列的事情而且我回去的时候并不是空手回去的我是带着几千万的合同回去的是客户合同是吧对基本上就是我一个人去然后在那待了半年不停的在想办法促成这件事情所以那时候挺感慨的给公司赚钱是一种什么感觉还是挺自豪的就是证明我们还是有挣钱的能力我们的技术还是有人愿意买单的能给我们的客户去创造价值会觉得自己苦哈哈的吗苦哈哈我觉得倒不怕我觉得吃苦那个事情我觉得倒没啥只要有回报我觉得都OK这是一个瞬间对当时我自己都没感觉啥还挺平静的后来回过头念念年底的时候想想我觉得还挺不容易真的挺不容易的两点线都不能三点但是最终把这个事情达成了我觉得就还非常了不起再然后我们开发布会他们会我说你上台去发布一下我们手机的智能体现场让智能体给大家发个红包我的印象也特别深其实出了一点小小的bug就一点点非常小的一个bug红包的金额他填错了一位数字但不影响不影响我们还是发出去了那一刻我也是觉得后来有人评评论这个是AI给人类发的第一个红包还是挺有成就感再往后今年的应该是7月份发布我们4.5的模型的时候又是另外一个感觉因为那次发布OuterGem我们开了一个比较大的发布会就是一个OpenDay的一个活动现场来了好几百人然后今年7.5发布的时候其实就没有太多人可能现场也就几十个人也不多然后我们也没有特别大的去做发布什么之类的比较低调主要是在线上上线然后开源了然后现场就其实我也就很平淡的跟大家讲着讲大家也没引起大家太多的关注但是在线上在海外很多评价很高因为第一你看源第二效果确实不错从4.5开始那个效果非常好后来就陆续发生很多很魔幻的事情什么美国公司来套壳我们像那个Windsurf什么这些用我们的不是套壳就用直接用的模型Saribus他们就把请问下了然后上了我们的模型专门给Windsurf他们服务然后后来还有据说还有一些什么厂家拿我们模型开的模型去去蒸馏去裁剪然后套壳用它就装着他们的模型去给客户提供服务后来就发生了很多的这种事情当时觉得挺感慨的你看我们发布上宣发上其实我们并没有做太多的事情现在技术强就不需要发布对所以你本质上你还是把这个事情做好大家认可你自然而然这件事情它还是会有相应的这种回响所以后来到4.67你看我们其实都没有做特别大的不像以前动不动就开一个大发布会是吧市场几百人一起来嗨一下这其实某种程度也是DeepSeek教大家的对也算可能大家在有点审美疲劳就对这种事情有点审美疲劳就是你无论如何你吹的怎么样或者说宣传的怎么样最终还是回归到实际的应用效果上来所以其实大浪拍过来的时候你是毫无准备的然后就被这样很魔幻的走过了这三年像我的数学导师其实他当时跟我们讲过一句话我到现在还记得他说机会永远是留给有准备的人的就哪怕是你在海上飘着有一块木板从你眼前飘过你也要扑腾两下才能把它抓住所以你还是要有准备时时刻刻都有准备做好这个准备这个事情我也在想怎么来做你要想精准的预测清楚未来会发生什么事情什么时间点发生什么事情这个很难所以你不可能有针对性的准备不能针对说我知道明天要发生啥我先准备一下不可能你什么叫做好准备只有是日复一日年复一年坚持认为你觉得正确的事情不要懈怠不断的积累不断的去做这些事情也就是你认为正确的路走下去而且不要被造成干扰当机会来的时候你就有能力去抓住它所以我觉得我们一方面是幸运的走过来这几年公司6年多时机时间各种的环境大的环境其实你可以认为都站在我们这边也认识了很多朋友自从到合在一起来做这件事情另外一方面也得益于我们一直在积累一直在做好准备能抓得住这些机会中国人讲叫天时地利人和可能你要成就一些事情这个东西缺一不可敲钟好像就是那个手感还是挺神奇的你准备重重的敲还是轻轻的敲不知道你准备用什么力度现场去看一下那个钟有多大开玩笑开玩笑一百年后如果质谱会出现在人工智能的历史书上你希望它是被怎么撰写的可能从个人角度来说我希望他能够在智普的注脚里边有这么一句话智普是AGI历史上的一个先行者你看我们做这个事情也非常的早投入这个事情很早包括我们成立公司做很多的事情包括技术上的突破很多时候我们都是在吃螃蟹但最终大家的可能留给大家的印象里边我觉得这么一句话还是挺早对你们来说重要的为什么不是创新者而先行者先行者一般就是创新者就开路的人好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
张小珺Jùn|商业访谈录|第129期
《全球大模型第一股的上市访谈,和智谱CEO张鹏聊:敢问路在何方?》
嘉宾:张鹏(智谱AI CEO) 主持人:张小珺
本期访谈跟随智谱AI CEO张鹏,回顾从学术实验室到公司上市的完整创业历程,剖析AI大模型浪潮下中国创业团队的关键战略决策,深入探讨大模型未来范式、商业化焦虑及AGI(通用人工智能)的终极理想。
本集通过三小时深入对话,展现全球第一家上市大模型企业背后的团队基因、企业分化、开源浪潮、融资压力、行业阶段判断、竞争格局、人才特质以及AGI愿景,为中文世界理解AI产业升级/变革提供极具参考价值的第一手视角。
1. 关于坚持与运气
“真正能走到今天,靠的不仅是努力,也是运气和天时地利人和。” (张鹏,2:39:08)
2. AI范式与现实节奏 “Scaling Law本质上只是工程规律的归纳,而不是终极真理。”(张鹏,1:59:50) “暴力美学只是历史阶段的一种手段,任何技术都需要回到‘效果’二字本身。”
3. 对中国开源浪潮的判断 “DeepSeek的彻底开源,对全球智力分配平权是有贡献的,但别把开源和免费搞混了。”(张鹏,2:02:50)
4. 市场定位自白 “你们不是觉得boring吗?我们像水泥,能用、能撑、能盖高楼,但不是情绪价值的生意。”(张鹏,2:42:10)
5. 对AGI的终极信仰 “如果让AGI和公司盈利二选一,我肯定选AGI。哪怕为此‘公司挂了’,我也愿意。”(张鹏,2:57:40)
智谱不是最酷、最有流量的大模型公司,却是中国AI工程师范式的代表:不追噱头、不迷信暴力美学、坚守“让机器像人类一样思考”的AGI理想,稳稳地将学术、产业、工程一以贯之,在智能浪潮变革中坚守长线主义,并通过上市走向更广阔的未来。
引用本播客内容请注明:来源于《张小珺Jùn商业访谈录》节目