
Loading summary
A
我觉得国内算法创新肯定是更强的对现在先注意了模块他们最后选到的是一个叫做KDA的这个模块KimiDeltaAttention这个名字感觉也挺有梗的他们应该是想对标DeepSixBusAttention然后就特意取了一个Kimi开头的一个名字然后非常的对撞我覺得每一次大家關心尼尼亞貪生那肯定是因為大家碰到了一些contextual我覺得我還是挺喜歡看最早的那些paper我覺得那些paper寫得都挺好的我管這個叫做考古想想看能不能就是把全局这个注意力把它干掉吧对这第一点就是因为它确实它是阻止这个contextwindow继续scaleup上去的一个主要的瓶颈嘛我觉得最好的结合的话就是把混合注意力它里面的全局的注意力把它换成sparkattention对我觉得理论上只要是18岁他是他能选的准的话呢是完全可以取代富尔泰生这个层的对嗯Hello,大家好,欢迎收听张小骏商业访谈录,我是小骏。 这是一档由语言及世界工作室出品的深度访谈节目,我们希望和你一起从这里探索新世界。 今天这期节目呢,我们将讨论一个在当下非常关键的话题,那就是人工智能的算法与架构创新。 嘉賓是我們的往期嘉賓返場他是MIT的再度博士楊松霖研究方向是線性注意力機制我們將從最近剛發佈的幾個新模型KimiLinear,MinimaxM2,Queen3Next切入松林参与了这其中Kimi和ChengWen的部分工作他是KimiLinear论文的作者之一算法创新为什么在205年变得尤为重要呢? 它背后的成因是数据算力和算法是驱动人工智能的三驾马车那在数据撞墙的无奈前提之下呢各个模型公司都不得不重新开始雕模型架构以期Scalar的魔法继续而由于中国的算力相对美国有限这反而让中国的AI算法创新走在了世界的前沿这期节目你将听到近几年架构最大的突破是DeepSeek的MOE混合专家模型它让MOE成为了全球共识而下一个突破的重要方向可能是Attention注意力机制中国公司已经在Attention上展开了不同的技术押注截至目前已经发布的这些模型中DeepThink正在探索的是SparseAttention虚书注意力机制Kimi正在探索的是LinearAttention线性注意力机制Minimax在年初的M1版本中探索的是LinearAttention而在刚发布的M2版本中又重新回到了FullAttention也就是全局注意力机制在节目中松林将讲解他参与的这篇KimiLinear的工作并分析以上这些公司在Attention上的不同抉择与此同时它也将带领大家考古人工智能的算法变种史并预演未来算法与架构的改进方案本集比较的硬核会有一些些的专业难度大家可以根据自己的实际需要收听也因为嘉宾的工作环境的原因所以会出现一些中英文的夹杂还是希望大家能够多多的理解和支持那我们开始吧hello宋琳先給聽眾朋友們打個招呼吧並且做一個簡單的自我介紹Hello,大家好,我叫杨颂宁,我现在是MITCCL的一个PhD在读,然后我的主要研究方向的话就是NudgeMemoryModel的一些架构,然后主要是比较高效的注意力机制之类的研究。
更具体来说的话,主要是在研究这一类注意力模型,叫做线性注意力。 能不能給大家講一講你的整個研究的主線是怎麼進點遞你是怎麼走向linearattention的研究點像linearattention的話呢就是最開始的時候應該是當時看到很多斯坦福一個一個research的一個group叫做HazyResearch就是吹到Albert他們在斯坦福的那個lab然后当时看了很多他们写的博客然后觉得序列建模是一个非常有意思的问题然后当时就决定来做一些序列建模的一些问题然后刚刚那时候最开始读博的时候就是微软亚演员的话他有一篇工作叫做rightnight那个时候就是最开始的时候就想办法来提高这个rightnight他的那个效率然后和他的那个performance然后之后的话就发现提高效率的这一套硬件优化这种算法可以扩展到很多这种其他的这种类似的架构里面然后同时就之后的一些工作就是主要是去想办法进一步的就是在能够硬件高效训练同时能够提高这种新型注意力架构的performance的一些改进就比方说从门控机制然后到那个有一个叫做datarow的机制然后后面的话就是把这两个东西把它combine在一起就是让它合成一个统一的一个row然后把它变成一个安的一个更新规则同时的话又可以去有一些可以硬件高效的算法来进行训练我看上次我们节目发了以后很多人说你是LinearTension之母这是为什么呀可能是在这个领域做了很多工作吧然后尤其是还有一个那个开源库叫做FlashLinearTension这个库的话感觉这个领域的人里面很多就是会用这个库然後包括業界也有很多就是用這來進個行庫一些尼尼亞探險的一些探索的對然後我那幾篇工作應該還是比較比較有影響力的所以可能大家會麼來這叫我能怎麼更通俗的去理解一下尼尼亞更通俗的理解尼尼亞的話就是說它中文是線性對吧線性注意的機制线性的话呢它主要的意思就是线性复杂度对线性复杂度它对立的话就是说是平方复杂度也就是说我们平常的SoftmaxAttention它是平方复杂度然后就是我们大家都知道SoftmaxAttention的话呢它有三个矩阵嘛它有QKV就是QuarterlyKeyValue然后一般的话它就是Q和K先求一个矩阵相乘得到一个LbyL的一个矩阵L的话是序列长度然后的话就是对这个LbyL的矩阵做一个masking因为它基本上都是自回归的一个语言建模所以我们要把未来的消息把它mask掉这样的话我们得到一个下三角的一个LbyL的一个矩阵然后我们再加一个softmax然后这样我们就得到一个注意力的一个分数的一个矩阵然后最后再用这个注意力分数矩阵和挽留的矩阵做一个相乘,得到一个output,这就是Slow-MassAttention,它在这种自回归建模里面的一个比较一个突略的介绍,然后因为它会有一个LbyL的一个矩阵,所以它的复杂度是平方的。 然后先行作业的话呢它一般就是把那个softmaxoperator把它去掉然后这样子的话呢我们就会得到就把这个非先行的这个softmaxattention的这个softmax去掉了然后我们可以通过一些那个等式的变化可以把它写成一个类似于Rn的一个推理的一个形式这样的话呢它每一个step它的cost就是O1然后处理这个L它这个是长度的序列的一个画呢它的整体的复杂度就是OL所以它是跟长度的大小它是成一个线性复杂度的一个关系所以大家会把它叫做线性注意力如果把现在的大圆模型的算法做一个框,让大家有一个背景的话,LinearTensor应该放在哪个地方啊? 我觉得都在Transformer这个基础架构里面在进行一些魔改吧,对。 像大圆模型的话,它的技术站可能分成pre-training,post-training,然后之类的。
然后这些架构的研究的话肯定是在pre-trained这个里面的然后pre-trained它还有很多其他类别的研究比方说像优化器然后像这种基础架构然后还有一些pre-traineddata然后之类的东西然后先进注意的话应该就算在基础架构的研究然后现在基础架构的话呢基本上它整体的这个框架还是transformer这种它会有一个注意力机制和一个潜会那个网络就feedforwardnetwork就它会在这两个模块里面然后反复的叠加叠加很多次就得到我们那个最经典的一个transformer的一个architecture嘛对然后一般的话呢大家就是会在这个框架下面来进行一些修改吧像最近几年的话就是大家会把传统的那个MLP或者说非-forwardnetwork把它换成混合专家的一些模块,MeshofExperts,MOE的一些模块然后先进作业的话就是把传统的这个softmax的tension把它换成一些线性复杂度的一些tension当然就现在最近更火的是一类叫做Hybrid的一个架构就是有一些层它还是一个Softmax的Attention然后另外大部分的层就把它换成先兴助力的这种层我们来聊聊你最近参与的一个新工作吧就是KimiLinear你是怎么参与到KimiLinear的工作终点这个工作应该是10月底刚发布呃这个工作应该他们应该是年初就呃想开始做嘛然后当时呃就是弗莱斯尼尼尔泰森这个库呃的另外一个主要的作者他叫张宇呃他就是今年就从呃博士毕业嘛他在国内读博然后博士毕业然后他就当时他正好就是在kimi然后kimi就正好想做这个混合注意力然後張雨就是在做這個項目對然後因為我和因為他就是FLA的那個開源酷的一個collaborator嘛就很熟然後我會幫他們看一下就是有一些先行注意力的一些變種他的那些變形的算法該要什麼怎麼設計之類的當時他們團隊遇到的核心問題是什麼為什麼開始決定要重新設計一下注意力機制就是年初的时候呢我觉得就是大背景的话呢就是呃像deepthickiwant和kimi1.5那个时候刚刚发吗对然后他的核心的那个它会做一些RL,然后会得到一些非常长的思维链,就是trainofthought,然后它会用这个非常长的思维链来做这种test-timescaling,然后来解一些比较复杂的问题。 然后这个四维链的长度呢它往往就是能够到几万个token这个长度然后Kimi就觉得就是如果我们用每一层都是平方注意力的这个架构的话呢它在decoding的时候它就太贵了因为首先呢就是每一层它要存一个大量的一个kbcash然后另外的话它每一步它是线性的这个时间复杂度嘛所以decode如果decodeL个token的话呢它的时间复杂度也是一个平方的对所以就是在这种长的这种思维链的生成的背景下面然后让Kimi觉得就是这个需要去投入资源来探索一下这种混合的注意力因为它能够把这个inference的cost把它打低很多这一点在这种长思维链nonetransfer这个背景下面然后以及今年整体的这个AgenticAI的背景下面的话它是非常有用的大概背景就是这样子的你们魔改当时核心目标是什么需要完成的核心目标当时的核心目标可能主要是张宇在那边做吧然后他们的目标应该就是就是跟之前的那种fullattention相比的话就是performance要不掉点然后同时他的这个influence速度会快很多呗如果用fullattention的话他的缺陷是什么呀如果用FullAttention的话就是这种做常文本的这个decoding的时候它就是非常的昂贵能不能从你的视角给大家讲讲这篇论文稍微划一下重点像这篇文章的话他们的这个就是这个线性注意力的模块他们最后选到的是一个叫做KDA的这个模块KimiDeltaAttention对这个名字感觉也挺有梗的他们应该是想对标deepsixfastattention然后就特意取了一个kimi开头的一个名字然后非常的对撞对然后这个先行注意的模块呢它基本上就是基于我去年的一个工作叫做GatedDataNet然后在这个基础上面呢就是进行了一些改善然后最后形成了一个叫做KDA的一个模块总的来说的话就是首先我们有一个叫做DataRule的一个东西对这个可能可以之后再稍微再具体讲然后像gettingdata的时候呢就这个工作就当时受限于就是这个efficiency然后当时我就用到了一个像Mamba2一样的一个scalarvalue的一个gating这个的话它就是说它的这个门控它的这个值就是对于一个attentionhead来说它下面的所有的这个维度它全部会要共享一个decay的一个衰减率这样的话它是可以在计算上面会带来一些简化所以当时的考虑就是说我先在Mamba2的基础上面就是加上德塔入然后能让它的效率有保证所以当时就是只用到了它们那一种力度比较粗的一个门控的机制对,所以这就是GatedandNulled然后像张宇文的这个KDA他就是把这个力度比较粗的一个衰减率把它换成了一个力度比较细的一个衰减率就之前的话呢就是一个TensorHead下面它不同的维度它要共享同一个衰减率现在的话呢它不同的维度它每个维度它有一个自己的这个衰减率对这样的话就是每一个维度它对应的那个RN记忆的那个隐藏状态的话它就是有自己独立的一套更新的频率这样的话就是从直觉上来看它就是能够更好的利用这个RN有限的这个hiddenstate才能够提高这个performance你们的设计逻辑和灵感来源于什么我感觉这个设计的话其实我觉得像KDA的话呢它其实就是我前两个工作的一个就把之前有两个工作的那种idea把它合并在了一起像我之前还有一个工作叫做Gate的力量tension它就是有一个这种力度比较细的一个衰减率然后后面到Gatedinline的时候当时之所以没有用到这种力度比较细的这个衰减率是因为当时就是算法本身和这个kernel优化它当时都没有优化到一个比较好的状态所以当时就是考虑到这个效率的问题就是被迫就是只能用那个Mamba2那种力度更粗的一个衰减率对然后后面的话呢就是就是算法层面和科诺优化层面的话都是有一些很多进步的然后到今年年初的这个时间点的话就大家就觉得是不是可以重新来研究一下能不能把这个Fangrade可以把它把这个力度比较细的这个衰减率把它引回到这个GatewayDataNet里面你们设计完最初的效果怎么样最初的效果的话我记得章鱼应该是之前是在他应该是先试了一大堆这种混合之类的这种混法然后他最开始是发现混GettyDataNet比混其他的要好然后后面他就是因为他们Kimi内部他是有一个叫做scalingladder的一个东西就是说你在一个规模下面你的表现好的话呢那你就要到下面一个规模去继续scale对就有点像通关一样它有很多很多个关卡然后你过了一关之后呢它可能要到下一关就继续去跟fullattention去比然后最开始的话可能就发现就那种hybridgatedataline的话呢它可能就是在有一些地方还是不如那种附的那种softmaxattention对然后后面的话呢它就开始玩了一下就是那种把那个decay把它换成这种更加犀利的这个DK然后他发现就是在他的一些实验下面他就发现嗯这个他的那个提升还挺大的因为LinearAttention和DeepSeekSparseAttention你自己觉得他们的表现哪个更好呀他们分别可能适合什么样的任务像这两个Tensor的话他们其实是想解决问题是一个问题嘛就是在这种常文本decoding下面如何解决这个效率的问题然后像Kimi他走的是这种混合助力的路线对其实千万他也走的是这一条现在主要是在投入这种混合助力的这种路线然后像DeepSeek的话呢他们主要就喜欢走这个吸收数据的这个路线嘛他们那个Kimi'sFastAttention然后包括他们之前发的那个LatiosFastAttention都是这种走吸收的路线然后他们觉得可能吸收是一种更好的方式来降低这种decoding的这个cost吧像DeepSeek的BuzzAttention它应该是没有FullAttention的所以它应该是每一层都是DeepSeekBuzzAttention但是它每一层的话它都要把所有的KVCache把它全部存下来然后它只能从一个TrackPoint然后来经过一些招募然后得到他的那个叫做Indexer的一个东西来学那些TopK的一个Token这个叫DeepSeekAttention然后像混合注意力的这条路线的话呢它还是有一些全局注意力的然后它的那些比较快速的那些层是一些线性注意力层然后这个好处的话呢就是说它可以省很多的KBCash对然后混合数据的话他就是不仅他能减少那个kv开始他能减少很多kv开始因为他绝大多数层都是这种类似于rn的这种层嘛然后他同时也能提高这个decoding的效率然后因为它减少了kvcache的size呢所以它做decoding的时候可能就可以去用一些更大的这个batchsize因为之前可能放不下嘛然后现在kvcache被减少了很多然后这个时候可能就是可以加到这个batch的size像DPCSparseAttention的话呢它是没有那个减少KVCash的那个作用的但是它可以通过这个Sparse的这个激活来减少每一个token生成的那个花费还有一家minimax他们最近也做了一个算法的选择对吧对像minimax的话它上一版是LinearAttention它应该算是这种混合线性和平方助力的一个先驱因为它年初发的那个M1的那个版本的话呢是一个非常大规模的一个混合助力的一个实践然后他们前几天发了一个叫做MR的一个模型然后这个模型它现在就变成了一个FullAttention它既不是这种混合注意力它也不用这个SparkAttention它就干脆把它退回了那个FullAttention这是为什么呀我觉得是我觉得他们他们的这个负责团队他们非常的open然后他们分享了很多这种经验然后觉得这些经验都是很宝贵的就是比方说我记得他们说就他们第一版的他们第一版的话他们监控的一些指标就是发现他们用到的那个lightningattention的那个模块在这些指标上面表现的都很好然后这个lightningattention它又效率更高一点所以他们最后就上这个lightningattention了对然后后面他们发现就是如果他们在一些比方说那种叫做Multihopreasoning就是多跳的这个reasoning上面这种task的话呢他发现这个掉点会非常的大然后这个的话就当初用那个方案的话呢就是因为他们最开始没有去检测这种多跳推力的这个能力然后他们主要只看那些比方说MMLU然后之类的这种能力然后他们就选了一个非常就就我来说的话我觉得那个NetNewAttention的话呢他其实是一个比较弱的一个先行注意力因为他那个机制就感觉最近两年先行注意力这个领域发展了很多嘛然后他用到了那个NewAttention就给人的感觉就像是两年前的一个NewAttention就那个技术的那个还停留在两年前对可能就是很有可能就是因为他们第一版他们的那个做评价的那个Pipeline不够详尽吧然后他们就选了这么一套比较比较略显拿捏的一个方案然后最近的话呢他们可能是想做这种AdvancedTask然后想做这种Coding吧然后像多条推理这一个能力的话呢就是会在这种场景下面变得非常重要然后他们就发现LinearTension可能跟FullTension它之间的这个Performance的这个差距还挺大的然后他们就暂时退回了这个全部都是FullTension的这个架构但他們說他們還在繼續探索這種混合主義的架構說不定他們下一版M3又變成混合主義的架構你怎麼看待就是大家在這種算法上的不同的選擇或者是反復像歷史的話就會螺旋上升嘛就是一套技術方案就肯定是要經過很多很多驗證才能最後定下來的嘛像像M1可能当时就是没有验证比较充分嘛所以当时就比较草率的上了然后后面发现它在这种对调推理上面它效果不好然后就暂时退回来这个也是很正常的嘛对硅谷的公司现在对于混合注意力机制他们的探索方向是什么样的呀各家公司有什么不一样这个我感觉我不能讲了呀OpenEye什么的可以讲了OpenAI的话我只能讲有一些就是有一些有paper的一些方案就是没有paper的方案我是不会讲的OpenAI的话它是比方说像GPT-3的话它在那个它的那个technicalreport里面就讲了它会用到一个混合的一个全局的一个注意力和一个local的一个slidingwindowattention这么一个混合的一个方案对像这个的话它是在GBD3的那个报告里面就已经明确的写出来了所以这个是可以讲的对然后像他们最近的那个OSS的那个发出来的那一个开源模型嘛他们也是用到这种滑动注意力的这一套方案对所以他们应该就是一直在用这一套滑动注意力的方案吧对我们等会就讲一下因为你刚才说LinearTension这两年吧发展也有很多你能给大家讲一下它的这个发展线索好呀像LinearTension的话它最开始的话我觉得就是非常的不work对它就算它在短文本下面它也不work然后因为他那个最早的力量他也是20年发明的嘛然后我觉得他可能这中间的这几年就是在languagemodeling语言建模上面他都没有效果没有跑到很好然后后面一个比较有代表性的功能就是RedLab然后它就是通过加一个遗忘衰减的一个机制然后就发现LinearTension它scale上去它在原建模上面还是可以取得一个比较好的一个效果的对然后Ryanair就是往它加了一个就是输入无关的一个Decay输入无关的Decay的话就是说它那个遗忘率它是跟输入没有关系的比方说它的遗忘率是0.99那样子的话他每过一个token的话他前面的那个hiddenstate他就要乘上0.9这样的话他就遗忘掉他1%的这个东西了然后他再把新的这个东西把它写进去这就是一个叫做输入无关的一个衰减这就是rightnow他用到的一个技术然后这种输入无关的这种遗忘的话它在之后应该是被逐渐替换成了那种输入相关的一个衰减就比方说像我之前的一个叫Gating力量Tension前面也提到了就是加了一个门控的一个机制然后像Mamba和Mamba2的话它们其实也是跟信心注意力的话是有很多联系的尤其是Mamba2它基本上就可以看成是线性坠离然后它加了一个衰减但是这个衰减跟redlight非常像然后它跟redlight区别就是说那个衰减它是由输入来决定的就是每一个token它的衰减率它就可能不一样对就比方说它遇到有一些token它觉得这些前面的内容没有不要忘它就把可以把那个衰减率设为1这样子的话前面就根本不去做这种衰减然后如果他遇到一些token让他觉得前面这些信息已经没有用了那这样子的话呢他可以在那个位置上用一个比方说让他的衰减率等于那个dk等于0这样的话呢前面那个state就是被完全的把它忘掉了对因为他乘了一个0上去嘛所以他前面的state就完全没有了像这种输入相关的这种Decay它就是比较灵活能够通过这个数据来动态的学什么时候该去遗忘然后什么时候该去记这前面这个state然后这是第一个比较大的改进就是把这个衰减从输入无关变成输入相关然后第二个改进的话就是DeltaNet这一种路线就是把它的更新的那个公式从最开始那个简单的那个像逆量探审它用到的其实应该叫做一个叫做HebbianRule这个rule的话它就是简单的把key和value它们的外集把它加到那个hiddenstate上面对它这个就是一个黑边的一个rule然后像德塔奈这一套模型它用的是一个叫做deltarule的东西deltarule的东西的话就是说每一步的时候它先用这个key去取出那个memory里面会返回一个值这就是这个key它在memory里面它本来对应的value我们管它叫做oldvalue然后这个key它又会有一个输入的value我们把它叫做inputvalue然后因为它是有一个关联记忆网络的视角然后每一个key我们想让它只对应一个value然后模型也不知道它应该是对应前面的value还是输入的value这样的话我们又有一个可以学习的一个term叫做betabeta我们可以看成它是一个只在0到1之间的一个系数用来决定我们要用多少的前面的这个oldvalue然后要用多少这个输入的value对我们会做一个线性组合通过这个系数我们会来做一个线性组合对然后得到它最后的那个新的value然后把这个旧的value和key它的外集把它从memory里面减去然后把这个新的value和key它的外集把它加到这个关联网络里面对这就是datanet它那个更新公式的一个highlevel的一个idea然后相比于LinearTension的话呢它其实是有一个减法的一个操作在里面的对它不但可以就加法的话可以把它想象成是往这个记忆网络里面去把它去记东西那么减法的话呢就可以把它理解成从这个记忆网络里面把它删除一些东西对像这个话呢就会比较更加更加有针对性的来删东西嘛像之前那个DK的话呢可能就是很多维都一起在做DK嘛像现在的话呢就是就是只取某一个分量然后他有一些非常有有目标性的这种删东西的这个操作在里面对所以这DeltaRule为代表的第二个改进的话呢就应该是NinjaTension这个领域里面最近的第二个改进了嘛就包括像DeltaNet、GatewayDeltaNet像Rakuten7他们都用到了这个DeltaRule為什麼LinearTension從一開始效果不好到慢慢地一步步改進大家就是相信還是promise呢? 我覺得每一次大家關心LinearTension那肯定是因為大家碰到了一些contextwar像大家最開始的時候去研究LinearTension就是比方說在20年左右的時候大家去研究LinearTension是因为那个时候大家遇到第一个contextwar就是遇到一个context这种墙然后他就是撞到这个墙了就是他如果想继续提高context那就只能找一些复杂度小于softmax小于平方的一些东西来了因为当时像Bert在那个年代他的那个训练其实就是512然後當時可能覺得2048在當時的那個視角可能8192就是一個算一個長文本了因為那個地方就非常的慢嘛然後後面就隨著FlashAttention這個技術的誕生然後就打破了這一堵牆對然後現在看來就8192就是一個非常短的一個文本了嘛就在這上面做訓練是沒有一點這個壓力的但是在之前呢就之前的話它沒有FlashAttention的時候它是计算的话它需要把这个平方的这个Tensor矩阵要把它先把它就是要把它实例化在那个GlobalMemory上面然后要把它从GlobalMemory里面把它搬回那个FlashMemory里面这样的话它那个Memory的那个读写它整体的那开销是非常大的然後同時因為這個貪生舉證會被實際化在那個girlmemory裡面它可能就是會帶來一個outofmemory的一個問題這就是最開始大家研究尼尼亞貪生這個motivation然后随着FlashAttention的话呢,大家就发现这一堵墙就其实已经破了嘛,就既然我们能用这种exact的方式来直接算这SoftmaxAttention,那我们就没必要找一些LinearAttention去逼近它吗? 对,所以大家就LinearAttention的研究就开始没有那么受关注了。 然后直到最近吧这边要说像这种常文本的decoding又重新成了一个需求量非常大的一个东西然后就是这种大社会model它要图很多很多的token然后要做这种decoding然后这个花销的话呢就是就会让人们又不由自主地又重新来审视这一套的技术然后这一套技术它本身在学界就拥有了这么久的发展嘛尤其是在FlashAttention之后就学界其实也意识到就是说如果像LinearAttention这一套模型如果想让大家被大家接受的话呢那它硬件上面的效率是非常关键的对这也就是为什么我最开始的时候就是搞了一个叫做FlashLinearAttention的一个project就是致力于就是把这些尼尼亚泰森的这些变种然后用Triton把它再就写了一个库然后写了很多颗让它能够在当代的硬件上面主要是GPU上面能够来快速运行对所以它核心是效率更高价格更低就是每当Softmax它的这个它的效率变成一个瓶颈的时候大家就会回来看尼尼亚泰森大概就是这样子的一个历史尼尼奥汤逊现在是共识了吗嗯我觉得尼尼奥汤逊我觉得现在共识是就是说纯尼尼奥汤逊是不work的对就他在这种常文本下面他是有一些比较fundamental的一些缺陷的对然后现在大家一般都不会去尝试这种纯线性的这种模型然后像一些比较折中的一些方案像这种混合主义的话它就是还是有很多很多的线性注意力层但是它还是有一定数目的这种全局注意力层这样的话呢它这个模型它的下限是有保证的对它处理常文本它也是有一定的保证的因为它中规它还是有很多这种全局注意力层嘛像全线性的这个网络的话呢它可能从理论上面它就没有办法做那种长文本的task因为它的那个RN的那个状态数目是恒定的嘛然后随着那个context它那个长度增加的话呢那它早晚会存不下嘛那早晚会损失很多那种精度在里面嘛然后但是像混合作业的话呢它有很多那个全局注意力在里面所以还是可以通过这些全局注意力来完成这些长文本的task的对然后像比方说像kimilinear这个paper然后像之前千问三那个qun他们那个常文本比方说像Ruler比方说像其他Task那个表现没有掉点所以他在常文本上面还是有一些有一定的能力的然后混合主义就会受到很多地方的关注吧但是我也不知道它算不算共识对因为不同的地方还是在尝试不同的方案嘛比方说像DeepSeek它就在尝试这种SparsityAttention的这种方案在Kimi的這個論文裡面你們提出的是每三層的KDA也就是KimiDeltaTension增量注意力機制拆入一層全注意力機制FullTension這個比例是怎麼確定的這個比例重要嗎?
我覺得3比1現在也快變成一個公式了像Minimax它之前是一個7比1的一個比例然后TPE的话可能softmaxattention那个层数不够然后长文本的那个保证可能没有那么好然后我记得之前就是字节他也发了一个paper就是来研究这个hybrid架构它需要百分之多少的这个softmaxattention然后他们的结论也是说就他们做了很多pre-trainedfromscratch的一些实验然后他们就是通过改那个不同的这个力量tension的这个module然后他也改那个混合的比例然后他们的结论大概就是说3比1的这个比例是最好的然后Gateway电脑内这个模块就是比其他的那些另外的那些candidate要好所以三比一然后后面千万三next的话呢他也是用到三比一然后换getty. net这个方案然后这个方案应该是不同的厂商他们探索出来都是觉得这个比例是更好的吧对然后这个可能是最开始minimax没有验证充分嘛就之前也说他们可能最开始的评测还是有一些不足嘛所以他们用到了一个更加aggressive的一个方案就是7比1然后现在的话基本上就是都回到了3比1这个上面来了然后我觉得3比1应该就是一个在这个不共识的这个hybridlinear里面的一个共识了就是大家用3比1的一个比例来混这个嗯模型嗯是不是你们在算法设计的时候始终要平衡表达能力和计算效率啊这两者是它的核心比如说北极星指标吗确实吧我觉得还是有一些tradeoff的对嗯像全局注意力的话它如果太少的话我感觉就比方说像这种reasoningtask啊然后像常文本task啊它肯定会嗯会受影响比较大它可能一些shortcontext的一些task没有什么影响比方说MMLU但是那些长文本和推列的task它应该是能看到的那个现象会比较大的但是从另外一方面来说也不是说attention层越多越好因为像大家如果训完之后会发现绝大多数的摊生层他可能就是没有用的嘛对然后他只有一些关键的层的摊生他是有用的对他不是每一层的摊生都有用的然后这个网络他本身自己他就是有一个冗余度在里面的这样子呢他就给我们带来一些机会嘛就比方说我们可以把一些层把它换成一些线性层嘛对所以混合的架构就不一定我觉得它不一定代表就是它比那个Global要差吧然后它有很有可能就是说它可能是一个全面更好的一个替代方案吧然后像Minimax他之前他们也发他说他承认了一点我觉得非常的好就是说他们发现HybridLinearTension或者Hybrid这种滑窗追力在那个常文本的那个Multihop多条推理上面会有缺陷像这个的话呢就是我觉得这个应该是现在Hybrid它唯一的一个问题吧对因为它就是就我所知的话呢,我就知道它在其他task上面基本上是不会比全部都是softmaxattention要差的,它只会在这个就是这个也比较好理解嘛,就像这种多跳推理的话呢,它就是比较吃这种token和token之间的关系,所以它可能就比较吃它这个softmaxattention它的这个层数,对。 这个就是我觉得就是非常吃这个全局注意力的层数的这个任务不是很多吧可能就只有这种多条推理然后这种查文本做reasoning这种会稍微吃一点然后其他很多task基本上不吃的话那它是完全不会受影响的然后像这种多条推理这个task的话呢我觉得就是就是如果我们去开发一些硬件高效但是它表达能力更好的一些RN的话呢它这个gap它是有可能被直接被缩小甚至甚至会反超这个gap的对就是比方说像Kimi他最近这个Linear就章鱼之前我就发现就是把这个力度粗的这个Decay换成力度细的Decay之后呢它在这些Multi-HoleReasoningCoding和Math这些Task上面它那个提升还是比较可观的然后就是说这些Task就是Hybrid可以做得更好然后现在我觉得混合线性注意力只是一个开始吧对然后我觉得整体的还是很有可能做出就是更好的这种混合注意力机制的就是可以去雕一下那个先行注意力的那个模块你在过程中有给Kimmy什么算法建议对我就是就是张雨想玩那个FangrandDecay嘛然后我就帮她想了一个那个就是Trunk那个并行的那个算法对感觉这个应该可能就是我对这个工作的唯一的贡献了对因为他这个都是基本上都是张宇在Kimi做了很多很多obligationstudy基本上都是他做的对所以credit基本都在他那里不在我这里然后然后像这个算法的话呢我觉得其实也是之前就是有一篇文章叫做Combat然后他就是设计了一个新的算法能够把那个GettyDataNet他那个球腻的那个算法把它减少一次对然后我看完那个算法之后我就发现那我就可以把那个GDN叫GateDataNet它那个求逆把它减少一次然后我又紧接着我又推了一个能够适用于KDA的这个算法然后我就把这个算法告诉张宇了然后张宇他就去写Kernel去实现这个算法然后就发现这个算法还是它的这个Scalability来说还是比之前的那个算法要好一点的问一个很general的问题啊是一个研究员想问你的intention到底应该怎么设计这个问题的话啊我觉得现在可能就只有两条路两条比较主流的路线吧嗯一种就是hybrid线性嘛然后一种就sparse嘛对嗯然后我觉得这两种它其实都是非常的promising的对然后另外可能有一些比较非主流的一些Attention设计嘛就比方说我看上次Meta还放了一个论文就是搞一个三次方的Attention就是嫌平方复杂度它还不够它还要搞一个三次方的然后像有些地方它有一些比较有意思的一些平方复杂度的一些Attention的变种嘛比方说拜登是他之前有一个叫做DataFormer的就相当于就是把DataRule的思想把它引入到SoftmaxAttention能够让他表达能力更强然后像这个工作我觉得也非常有意思对然后改进注意力的话呢他要么就是把Softmax让他做得更好嘛要不然的话就是做一些更加高效的一些Variant比方说SparkAttention或者这种混合线性的这种Attention嘛然后这两种我觉得它也是可以结合的吗对他们有各自的优点和各自的缺点吗像Sparks&Tencent的话呢它还是做retrieval肯定要更强一点嘛但它的缺点就是说它KVCash它不能省然后像线性的话呢它可以省很多KVCash所以我之前写了一个直呼的回答我就说这两种方案为什么我们不能把它结合到一起呢就比方说我们可以让Sparks&Tencent去取代这种混合注意力里面的那个全局的那个注意力层这样的话呢我们就不需要有一个全局注意力的那个复杂度在了但我们还是要存那个kvcash但剩下很多层的kvcash就可以通过这个线性注意力把那个kvcash的size把它打下来这样子的话呢我觉得可能就是我目前心中比较理想的一个高效的一个架构了对就是intel公司高效不掉点而言的话是这样子的对所以linearattention和spatialattention的未来关系可能是融合到一个统一的框架里面对吧对因为我觉得先进attention和spatialattention其实没有什么竞争关系吧我觉得先进attention的竞争对手可能更多的是slidingwindowattention像比方说像GPT-3它那个论文里面提到的那个全局混slidingwindow那slidingwindow的话呢它如果让这个线性去取代这个slidingwindow能够让它更好的话呢那未尝不可能对吧所以你觉得怎么把LinearTension和SparsityTension能够做更好的结合现在有人在探索这件事吗工業界的話我覺得我還就我所知我應該沒有看到有人在同時去結合spark的探索和線性的探索但學界有一些工作還是有一些這方面的探索的對就是有些曾用spark有些曾用linear探索所以DeepSeek上选了SparseAttentionKimi选了LinearAttention这其实可能也是阶段性的对吧他可能未来会就是大家会探索一条新的路就是把两者都结合现在也不是facetoface的关系嗯对我觉得换换注意力的话它decoding长度上去之后它的问题就是说它还是会被这个全局注意力它的这个效率把它绑得住对然后后面那个瓶颈就主要在这个全局注意力的那个效率上面了嗯这是对然后像全部都用那种SparkAttention的话呢它平均可能是在KVCash的管理上面对因为它还是不省KVCash嘛对所以的长度上去呢就可能要做很多各种各样的KVCash压缩压缩的工作对然后两者都是有还是有各自的问题的它的结合是比如说可能是不同的层用不同的Attention吗我觉得最后结合的话就是把混合注意力它里面的全局的注意力把它换成SparkAttention我觉得理论上只要SparkAttention它能选得准的话它是完全可以取代FullAttention这个层的但它现在问题可能是选不准这是一个很大的问题对然后这也是为什么可能是为什么就是DeepSeek它最近放的那个DSA它要用针流的方式来尽可能的让它那个indexer就是来选token选的准一点对这也可能是一个原因OK选的准选不准的核心的瓶颈在哪啊嗯我觉得就是学习难度吧对像spotsattention的话呢如果你从头开始训练他可能那个梯度不太准呀然后他可能学着学着他就选不准那个block了他他学会选block还是挺难的他有各种那种悉数梯度的问题吧对像spots的话他经常就会有这种问题嘛然後像拯救的方式的話它其實就是已經讓一個訊號的一個就是全部都是supermaxattention的一個teachermodel來拯救一個它那個token的選法那這個已經那就可以就是選得非常的好嘛這個從哲學上面來說也是makesense的你覺得Kimi這個工作它相比年初的minimaxM1的工作它的進步在哪裡啊嗯它主要就在于线性注意力它那个模块它嗯它还是会好很多的对就像我之前说嘛就是lighteningattention给人的感觉就像一个两年前的工作对就还停留在rightnow的那个版本对然后像这两年的话我觉得线性注意力还是有很多发展的对然后这些发展我觉得都是work的对就是已经有其就比方说千万和kimi都发现就是这这这两年有一些进步比方说那个门控比方说那个delta如果都是有用的嘛对嗯所以把这些最新的进展把它融合进来肯定是更好的嘛然后嗯像kimi甚至在之前的工作的技术上面还把它新开发了一个KDA嘛对然后让他的那个模型的能力会更强嘛对嗯然后另外的话可能他还有其他不同吧就比方说MOE的话像像KIMI他应该用的是翻柜MOE嘛然后M1M1我记得他那个MOE好像还比较比较粗吧他还没有用到这么翻柜的这个MOE嘛对所以就是有很多种可能性。 如何做一个公平的比较,比较一下LinearTension和SlidingWindowTension? SlidingWindowTension和LinearTension做公平的比较的话,我觉得可以有两种嘛。
一种的话就比方说,控制它的StateSize,就是SlidingWindow的话它有KV开始嘛。 还有KV开始的话呢这个KV开始他是因为他是滑床所以他他那个KV开始的上限是被绑得住的这样的话呢我们就可以把它这个kvcache的上限它的这个size当成slidingwindowattention的它一个statesize然后rn的话呢它有rn的那个statesize对它有那个状态数然后如果这两个东西大概在一个level的话我觉得就是一个公平的比较吧因为像decoding的时候它slidingwindow和因为decoding的话它基本上都是一个memorybound的一个过程所以只要它的statesize差不多那它decoding的效率就不会差太多了因为memorybound的话它主要就是看它读多少state然後只要他們這個state差不多大那他們這個decoding的效率基本上就會差不多大因為decoding還是主要是memorybounded的對說到算法的就是眼睛啊它最早從transformer到MOE然後到現在大家探索lineartension或者spatialtension它的這種漸進式的創新你覺得它優化的最終的目標可能是什麼然後最終可能形成的一個算法的共識會是什麼樣的我觉得这些优化基本上都是这体现在就是给定你相同的flop你怎么去更好的利用这些flop然后取得更低的损失函数像MOE这个技术就是就是前两年可能比方说203年的时候都在传GDP4MOE但也有很多地方不太敢跟的然后像现在的话MOE基本上都是已经变成一个显学了就是每一家都会做这种犯规的MOE像MOE的话它其实也是一种它可以想象成就是更加高效的一个FFN的一个替代品它可以更好的去扩大那个FFN的这个参数量然后同时呢他又保证他那个flop不变这样子的话呢他付出相同的flop他能在于训练里面取得的那个训练的loss就会越低对吗这就是一个点然后我觉得MOE他可能是近几年就是突破最大的一个在架构方面就是突破最大的一个方案对然后下一个突破点可能就在Attention嘛因为Transformer就两个模块嘛一个FFN一个Attention现在FFN基本上已经雕成了这种FangrandMOE的这种形状嘛对然后Attention我觉得大家也是可以来雕一下的对就是whynot这样的话呢它比方说在常温本下面的话呢它复出相同的Flop它可能取得那个Loss也会更低嘛对我觉得这两套思路都是要呢就是减少flop然后能够让它像FFN的话呢它减少flop它就可以去用更大的这个参数量更大规模的一个模型嘛对就比方说你总参数量就可以堆高了嘛,因为你这个FIFN的这个算力减少了嘛,就大家都知道就是在大规模训练下面,FIFN的那个计算是主导的嘛,对,然后把它换成这种Fangram1的话呢,它其实是能降低很多很多这种cost,对。 然后attention它scale的就主要不是参数量它scale的就是context的windowsize然后如果这个attention它的flops就在常文本下面能够把它打下来的话那我们就是做那种常文本的这种生成啊然後比如說你有很多agent讓他去處理很多很多workflow呀然後為很多很多context給他做呀這樣的話他也會benefitfrom這個更大的這個contextwindow的對如果把模型的架構比作比如說大腦的結構你覺得MOE和Attention它們分別代表的是大腦的什麼組件啊能這樣去形象化的去理解嗎像貪生的話他應該就相當於walkingmemory嘛對就是那種工作記憶他就是然後像FFN的話就有點像那種我忘記人的大腦存那種消息的那種对可能就是海马体就是来存就是存储这种信息的就是过去信息的对像FFN它基本上会被看成是一个建制队的一个关联网络嘛它可以记下很多很多这种knowledge对就像这种我的knowledge都会被它记到这个FFN里面这就是一个就是一些wordloader就会存下来然后attention的话就是比方说你在一个新的场景然后你遇到新的这种scenario然后你会读到新的context然后它会在这个contextwindow里面就动态的来做这个处理这些信息嘛那就有点很像我们人的那个工作记忆那个workingmemory对它更偏于即时性一些对对对當現在數據遇到數據牆的瓶頸比較明顯的時候是不是算法的創新變得更重要了我覺得是的呀對就是因為你要在有限的數據裡面去壓縮更多的智能对我觉得之前的话就比方说你数据一直能scale的话你谈这个dataefficiency就是没有什么特别大的那个用途嘛因为就是大家闭着眼睛加这个数据就行了就让它模型继续scaleup然后继续加数据所以大家都不需要去动算法了嘛然后大家就只需要买卡就行了对然后现在如果有这种数据墙呀然后还有这种算力场的话呢那可能就到最终还是要回到这个算法这种本质的东西上面来的我觉得这些东西都是缺一不可的嘛就比方说像data像这种算法像这种算力就是有点像三匹马车嘛就是来驱动整个人工智能的发展嘛对然后我记得之前像OpenAI的CTO他也说就可能在这个节点上面算法的这个研究的重要性可能会被重新抬高嘛如果你记得那个采访的话他应该是这么说过的你觉得现在的架构Transformer架构它的天花板是什么呀它的天花板我觉得还是先把Efficiency的问题解决掉吧因为现在还没有解决掉efficiency的问题它处理一个很长的contextwindow还是有一些局限性所以大家会做很多上下文工程做一些RAG通过一些其他的方式来做这些问题但如果你这个context的问题把它解决掉的话那你RAG这一套技术都不需要了你直接把它放到context里面做incontextRAG就行了然后我觉得天花板的话就先看看能不能就是把全局这个注意力把它干掉吧对这第一点就是因为它确实它是阻止这个contextwindow继续scaleup上去的一个主要的瓶颈嘛所以这个瓶颈我觉得是早晚都要把它把他弄掉的這個是第一點然後第二點的話呢可能就是continuelearning嘛對然後像現在這種transformer架構還是沒法做continuelearning的嘛對然後之後continuelearning啊讓AI自己學習啊這種甚至甚至大家不都想把pre-training这个地方变成直接从RL开始让这个模型直接从零开始学吧不给它为这种pre-traineddata嘛对像这种新的方式可能就是之后的这种探索嘛对一个研究员问你啊如何把lineartension的transformerscaleup继续扩展我觉得scaleup应该是没有什么特别大的问题吧然后我觉得可能还有一点的话就是说就是说那些配套的这种infra设施还是需要继续搭的像FlexLinearTension只是提供了一些Triton的一些kernel基本上就是可以湊合用但是它的效率肯定不是最優的因為它是Triton寫的所以如果有志向投入這個領域的比方說一些公司或許可以花一些精力去優化這些kernel這個是對繼續scaleup上去有好處然後像influence那邊的那種我覺得現在像influence那邊的支持已經在逐漸變多了就比方說像半年前我參加minimax它有一個那個圓桌討論一樣的東西嘛然後當時主持人是俊賢老師俊賢老師問我這個領域它所謂的瓶頸是什麼我當時說是英法的那個配套沒有跟上對然后当时之前老师还觉得挺意外的以为我会回答一些别的东西对然后其实事实上就是这样子嘛我觉得算法层面可以就是比方说像金鸟人的这个发展就已经可以去大规模的来试了嘛比方说千问三Nex和KimiLin这些都是可以大规模直接试的然后后面deploy的这种瓶颈的话可能就更多就是在这种配套设施像因为这两家发这两个模型嘛那开源社区就是支持力度也挺大的嘛像之前比方说SGNONE它都不支持这种hybridmodel做inference嘛然后现在就是趁这个机会就可以把千万三next啊然后像minimaxm1啊这些模型就是加一些这种推理的这种推力引擎的這種support我覺得這是一個正向的一個領域正向發展的一個過程就像這些做基模的廠商他們去做一些比較promising的結果然後把這些開源位置把它發出來然後那些就是做推理引擎的人就會有很多動力來想辦法來支持這些東西嘛然後當這些Infra的配套更好的時候然後比方說別的公司可能就是覺得像NiniaTension它的Infra的那個生態太差了就是可能就算做出來這個生態不好可能它實際上deploy它的成本也很高嘛但現在只要這個生態做起來了就會有一個正向循環的作用你覺得現在中國的算法創新相對於矽谷來說是差不多、更強還是落後的? 我觉得国内算法创新肯定是更强的对主要是Intermsof架构的话那肯定是国内更强的我觉得这也是有一些有一些生态地位不同吧就比方说国内没有那么多卡然后他们其实对这个efficiency的要求是更高的嘛所以他们更有动力来尝试这一些更高效的一些力量tension这样的变种然后像硅谷有些公司基本上就是卡太多了他们就懒得搞反正三驾马车你总得有一辆跑得快一点对对对他们有那个算力那也能凑合跑嘛对脑子长得怎么样无所谓反正我先把算力堆上去对然后我觉得硅谷这边感觉美国的公司会更注重优化一点对就像optimization对对就比方说优化器对像国内公司也感觉在逐渐在用嘛就比方说像KIMI它也是最早吃蜜蜂这个螃蟹的一个地方对然后给我的感觉就是美国他们对优化器的投入明显是比国内对优化器的投入要大一些的对Timmy的LinearTension的效果跟去年DeepSeekSparserTension的效果比哪个更强啊我觉得就是效果对比的话需要有个地方来做一个appletoapple的一个比较嘛对因为这个东西就是非常的tricky就是不太好比嘛我觉得不同的地方迅出来不同的它可能就是完全不能比了因为它那个训练架构啊那个datarecipe啊那个优化方案啊完全都不一样了他就没有一个appletoapple的一个比较嘛对像KimiNina他最近这个report他还有一点就是说他有一个appletoapple的一个跟富尔贪生的一个比较对他是有个appletoapple的比较的但他没有appletoappletosparse贪生的一个比较要是有一个地方能做慈善来appletoapple来比一下让大家能更好的知道就更好了对但现在因为没有人在做一个F2F的比较,所以这个问题我也不知道哪个会更好。 这很有意思啊,为什么Kimi不做这个比较,他比较的是FullTension。
他在看到我们写的时候,他们是第一个验证了性能超越FullTension的混合LinearTension架构。 可能还是资源有限吧对就如果就那么多卡的话那可能先投入一个路线去验证吗对然后如果验证出来了再去投入另外一个路线看看有没有可能比方说把全球注意力再把它替换掉吗对对感觉就是没有这么多卡来同时来跑一些不同的方案的对比吗然后像硅谷的话就很多东西都都闭源嘛所以你也不知道他们有没有跑一些Apple2Apple的比较嘛对你看那个KimmyLin的论文你觉得还有哪些是值得大家关注点前面说就是这个线性注意力的模块嘛对然后还有可能就全极注意力它的那个用Rope还是用Nope的一个比较吧对像kimi他选的是用nope然后像千万三next的话他是选的是一个partialrope对他就是25%是rope75%是nope对我觉得在这种混合主义里面大家都在砍rope吧但是看大家砍多少吗像千万三next砍了75%然后像kimi砍了10%对然后像这种长度外推这种就感觉现在看起来的话就是Rope在这种在这种Hybrid架构里面可能会比较阻碍这种长度外推然后这个地方其实也没有共识嘛就是大家也不知道是用有些还是用Rope有些还是用Nope我觉得这个地方还是没有共识的然后有些地方还用PartialRope提一个就是题外话你有关注最近DeepSeek它的那个新的工作就是DeepSeek它发了一个OCR的paper就知道大家就是说其实数据撞墙的时候还是有很多那种就书籍呀PDF里面有大量的数据的所以他们做这个OCR可以帮他们更好地洗一些data出来然后来做pre-train然后另外的话呢他们说是用OCR来做这种contextcompression这点的话呢我觉得是一个有意思的一个脑洞对但我不确定这个方案怎么样对千万的工作你有参与没有千万3S的话啊我就基本上类似吧就是我会他们要是碰到什么问题啊我就可以帮忙打一下对就是不不参与他们去模型什么的就是如果他们有一些学术上的讨论的话我是会跟他们讨论的对我跟千万三耐死那个训练的那几个同学都还挺熟的对那个明亮是参与没有没有如果我参与了他们应该不会用这个方案我会觉得这个方案在开倒车ok我觉得你用词很好玩啊你总是在用就是把这个架构玩一下或者雕一下这种词哎这个是一种嗯研究人之间的文化吗嗯我觉得雕这个字好像还挺常见的吧就是有种雕花的那种自嘲的那种说法吧哦哦就是杨智麟先说不要时尚雕花是吧现在没办法算力不够数据也有限了所以只能雕但是对但是我觉得雕架构还是挺有用的嘛像像deepseekmoe那个雕出来之后大家都已经成为一个共识了嘛基本上等于一个共识了就很多地方会用那个deepseek的那个moe的方案嘛嗯对如果在他之前然后他在做那个呢可能大家也会说可能在雕MOE嘛对然后感觉雕已经变成一个常见的形容词了形容我觉得它不是一个贬义词了我觉得它是一个就是把一个模块把它打磨到更好对对,如果数据的screen能够非常突出的话,其实没有必要掉,就怼数据就好了,当数据还很少的时候。 它比如说机器人领域现在就是数据,就没什么数据啊,那只要加数据它就能够显著的效果提升,那就没有必要去做模型性算法的创新。 对,这是一点吧,所以Robotics它最应该做的应该还是先把数据这个问题把它搞定吧,对。 然后数据搞定之后再回来看这种efficiency的这种问题也不迟嘛对你做AI的researching心里的是什么你是怎么进入AI这个行业的AI的行业的话就是本科的时候就对MachineLearningDeepLearning挺有兴趣的然后当时Master在上科大念NLP那个时候就已经进入AI了然后23年2年就是TriGPT这一波就是LargeLanguageModel蜂蜜开来做LP的人基本上都来做LargeLanguageModel了然后作为我觉得更有意思一点就是比之前会更有意思一点因为之前可能大家还是在分task来做然后现在可能都就是比较unified然后可能就是会比较focus更加通用的一些问题来了对就不需要去操心某些特定的task吗因为你只要train一个很好的基模然后你对不同的task都可以用吗你无非是posttrain的时候你要注意的地方不一样吗然后现在的话就是感觉就是自己做东西的话可能就是能看到更多的影响力嘛然后这点感觉还是挺就是看到自己的开发的东西被大家用还是挺开心的嘛你过程中有遇到过什么样的挫折没有我感觉我读PhD好像这些工作都还挺顺的没啥是吧对然后感觉就这些工作都还挺年惯的吧对然后然后挺顺的我觉得还是因为可能是读PSD之前就是花了半年的时间来调研这些东西然后可能对这些这个领域的理解会深很多然后就深耕这个领域来做呢其实问题也不是很多吧因为因为对这个领域非常熟然后碰到什么问题大家也知道怎么去解对读PSG前花半年去调研这个是做的是你什么样的工作是入学之前的半年是吧啊就之前申请完半年嘛就申请完之后有半年可以自由的时光然后当时就基本上就是在调研这种架构的这种paper嘛然后当时读了很多比较老的paper嘛就比方说像DataNet它最早是201年就是那个ASTM支付的那个paper然后当时我就对这个工作有印象嘛然后后面的话就后面就那年年底嘛就做完那个GatingLinearTension然后发现这个领域的话大家会对那个incontextrecall就是从那个前面的文章里面去做一个retrieval这个task会感兴趣然后这个就让我一下子联想到了那个201年的一篇工作了对因为之前的这个整个领域它把握得非常的通彻嘛所以我知道就是如果领域大家其他其他人关心这个问题的话我应该从什么角度去切入然后然后我也知道它前面工作有什么问题嘛,比方说201年DataNet的话,它是没有hardwareefficiency的一个保证嘛,对,然后我就觉得,然后我后面就觉得就GLA这个工作之后,做DataNet的话我就知道,DataNet是一个很好的一个模型,然后它的缺点就是,现在大家还不能大规模用起来,然后如果我能开发出一个算法,能把它scaleup那就是一个非常有意义的工作对然后我大概就是这套逻辑念嘛然后就可能也是运气好吧就3号正好能推出一个能够把它scaleup的一个算法对然后后面的话就是后面的话就可能就是像GadgetData的话呢就是沿着这个工作做因为当时发现DataNet它还是在很多Task上面是打不过Mamba2的然后我当时就觉得打不过就加入嘛那我就把Mamba2的Gating把它拿过来然后把DataNet再加回来这样子的话就把它A加B变成一个GatedDataNet我觉得我感觉我做的东西就是就会看这个领域它需要什么样的工作嘛然后哪些做什么样的东西会带来更多的这种领域的影响力嘛然后还有业界的影响力嘛对然后就是如果当你很清楚你要做什么的时候你其实是不会遇到什么挫折的对就是技术技术technical的那种challenge我觉得都是有办法把它搞定的对我觉得更大的challenge就是你不知道你要做什么东西你不知道做什么东西是有用的我觉得这个才是最大的challenge所以你核心是从历史中学习了很多对吧我觉得我还是挺喜欢看最早的那些paper我觉得那些paper写的都挺好的然后我管这个叫做考古对因为我就喜欢考那些古代的paper就古代的话可能201年也算古代嘛因为youknow现在一年前的paper叫老paper那五年前的paper那肯定叫做古代的paper了对那半年你读的最老的paper到什么时候最近半年吗就是你调研的那半年哦那半年啊可能就是嗯读到比方说201几年的文章吧读了多长我觉得我可以说这个里面的文章我基本上都读过一遍对这个做到的人很少是吧你為什麼在AI的眾多領域分支裡面你喜歡的是架構?
因为我比较喜欢做算法嘛然后当时觉得那是model然后就可以看出哪些东西是值得做的吗对然后嗯就想做一些比较通用的然后整体都是对这种拉伸日梦的有用的一些work吗然后请问一下自己兴趣然后发现然后还正如最开始的说到吗就是像黑子research他们有很多博客然后主要还是自己喜欢做算法嘛然后然后就发现这个领域很适合我来做对你数学是不是很好应该还挺好的对嗯哎为什么今天这篇论文里面这么多公式我觉得这些数学都不是很难都是一些举证的一些举证的一些惩罚啊这些东西然后像像线性注意它原案的形式的话它会有一些recurrence会有一些线性转移方程那些公式嘛然后并行的话呢可能就是并行确实数学会比较多一点对那个东西比较tricky对它这个论文里显著比其他论文的数学公式是要更多的因为我觉得线性追递它主要就是一个玩矩阵变换的一个东西嘛它可以把一个平方的东西变成一个线性的然后它又它就是玩这种矩阵变换对然后它从recurrent把它变成trunk它们都等价的嘛但它们都涉及到很多这种矩阵变换嘛对所以它数学多一点我觉得也很正常吧你剛才提到你讀博士前半年做了很多算法的考古那麼給大家講就是算法是怎麼一步步演進到今天的這段算法歷史那我從transformer開始講吧就transformer的話他感覺可能就三个主要模块吧它一个就是注意力机制然后另外一个是位置编码然后最后就是ffn然后最开始那几年我感觉可能架构research非常多吧然后有一些架构的改进也确实被用到了今天比方说比方说像相对位置编码嘛比方说像Rope它最开始的话Transformer的话它是绝对位置编码然后像今天基本上都改成这种相对位置编码了嘛然后像MOE的话我觉得可能也是从201年左右就开始发展了然后可能中间有段时间大家可能就不怎么信MOE嘛然后后面又发现比方说像DeepSeek把MOE做通了然后大家又回来重新做MOE然后现在MOE应该就是大家都会用的东西嘛然后像Tensor的话呢Tensor的这种变种可能就更多了像前面我也说到像20年前后可能Tensor的变种就非常非常的多其实也主要就是两种变种嘛第一种就是线性注意力然后第二种的话就是稀疏注意力他们线性注意力的话他们就会搞很多那种clonalmethod去approximatesub-massattention然后在今天来看我觉得这是一个非常错误的方向吧我觉得就不应该去用可能的method去去估计这一些softmethodtension然后有一些好工作的话可能就会因为没有followup然后被埋没在文献台里面呢比方说像datanight这个工作我前面也说它是201年就有了嘛然后得它入那个东西可能后面几年就根本没有人takeitseriously就是没有什么full-onwork然后从时间的眼界上来说呢眼花来说呢可能有一些技术比方说像这种犀利度的这种遗忘可能很多年前就有了比方说像这个犀利度的这种decay至少20年它可能就有一篇工作了然后最早的话我可以考古到2016年然后但后面的话比方说像Red9203年它反而用的是一个遗忘速率跟粗力度的一个DK所以我觉得可能就是之前的技术不能更好的传承下来吧然后然后我又比较喜欢把所有之前所有的技术全部重新重新审视一遍然后选一些我觉得最makesense的技术来做然后可能就比方说像德塔路这个技术又可以呃重现光芒吧对但如果如果没有我来followup的话可能就不好说了可能可能这一套技术路线可能就会掩藏在文献海里面了对然后像spousalattention的话他们最早可能就做一些static的一些spousalattention像nonformal呀那种bigbird呀他们会有各种各样的Sparseattention然后好像后面就逐渐收敛到用slidingwindow了然后可能近几年的话它会有一些不一样的东西出来就是早几年比较少但是最近有比较多的比方说像动态习俗像Kimmy的MOBA呀然后DeepSeeker的这种Sparseattention都属于动态习俗对然后总的来说呢就是我感觉整体还是上海还在不断演进嘛然后可能它整个发展就是需要有一些技術可能需要rethink幾次然後多多少少的話感覺這個發展還是會有一些有點螺旋上升的味道在裡面吧其實歷史中已經有很多的工具但是今天我們需要拿哪些工具來運用推動今天的算法演進其實是一個很關鍵的事对的对我觉得其实很多历史的算法它其实很先进的但是可能当时的同行没有意识到这个工作的价值对然后可能那个工作就被埋没了然后也有可能就是那个工作它的配套比方说那些代码开源代码做得太烂了然后其他人想follow也没法follow嘛对所以对所以总的来说就是我觉得如果今天做工作的话可能的话就是比方说像我我就会把这种代码把它做得让大家好用所以这一套技术肯定能把它让它流传下去对然后别人的工作之前的话我就会找一些我觉得makesense的一些工作然后让他尽可能的看看他这个潜力有多大然后又说回就比方说像架构里面的算法的话因为他算法的这种variant也太多了然后试架构的话肯定还是需要很多算力来试然后有很多算法可能只在小规模下面有work然后可能到大规模就不work了这个是非常常见的对然后可能对可能比方说像今年国内公司又对开源重新有兴趣了那可能今年可能会大家见到加个的这种开源工作会更多一点然后变化可能会相较去年来说可能大家会觉得加个的变化比去年会多很多吧你的deltarule是什么给你带来的灵感啊就是201年嘛那个工作就那工作是他他们提出来的嘛对嗯然后我就想了一个并行算法嘛然后其实就挺类似于嗯flexiontension至于softmuscletension对这就是一个算法能够让他硬件搞小台实践的对就是如果没有flashattention那submissiveattention也走不到今天嘛然后像没有那个并行算法的话呢德特纳肯定也不能走到今天的就大概是一个这样子的关系对然后我觉得我做research可能就是比较喜欢从实际上的这种硬件的这种亲合力来研究的就是看因为我看一个算法有没有潜力我会来分析这个算法它的这个并行潜力有多大然后它的scalability会有多大对然后我会在历史的文献海里面找出一些MachineLearning上面makesense然后同时我又能想办法把它变形的一些算法来玩对这是我的做research的思路我觉得总的来说就是还是就是MachineLearning上面makesense然后它这个算法它又可以有并行的算法就是这样的算法才能在这个年代被用到吧因为就在那这样一个model的年代就scalability作用你肯定需要有一些能够scalable的算法对然后如果一个算法它就更makesense比方说像德塔路这个算法我觉得他们这个算法就非常的makesense然后同时又能scalability就比较好的话那就完全有可能就是在今天这个时代上面还是会有带来一些不一样的一些架构吧就比方说像钱文三next和KimmyLin就已经让我们带来了一些新气象对就这个新架构领域我前几天做了一个论文的博客就提到Transformer是这一代硬件的天选架构对啊Transformer它肯定是天选嘛比方说它当时它设计Transformer呢就是为了让它硬件快设计出来的嘛像FFN那肯定不用说了都是大矩阵惩罚那肯定快嘛然后像Attention它其实就是之前Attention之前大家是用LSTM这种RNN这种不能并行的模块来做的然后像LSTM它肯定硬件加速就更难搞嘛然后像Attention它就算它是平方的复杂度它复杂度比RNN高到一个级别但是它就是可以通过矩阵乘法呀然后来算到那个output嘛所以它的硬件清和是比RN要好很多的所以大家会宁愿去用理论复杂度更高的这个transformer也不会来用这个理论复杂度更低的这个S10嘛因为它们这个硬件清和表现完全不一样嘛对然后我觉得算法整体发展就是要找到这些硬件清和然后又更好的一些算法吧因为穿梭他不但是硬件更亲和嘛他确实也解决了一些长程依赖的关系的问题嘛对所以他才会流行的这么开嘛像今天的话力量又重新登上舞台那肯定也离不开这一系列的发展嘛就比方说像那些就是把它分成trunk的那些并行的算法呀然后它更强的那些设计啊能让它从machinelearningperformance这个角度来更加makesense这些才是能推动它发展的原动力嘛所以我還是非常主張就是來做一些就是一些非常principle就是從machinelearningperspective來說它是很principle很有就是它會mathematicallygrounded就会有就从数学上它是makesense的嘛就比方说德大路它从数学上makesense然后同时Hardwareonline的一些模型对因为我觉得做模型还是肯定要结合当前硬件的就会有些人说呀那我设计一个算法它足够好那硬件公司来帮我优化呀那怎么可能呢那你这算法你是金子做的还是银子做的啊能让硬件公司来天天帮你优化呀那是不可能的嘛那你肯定你要首先你要让你的算法先去滿足一些非常通用的原則像hardware它有一些principle像memoryhierarchy這種東西然後像矩陣懲罰更優像這種東西的話就是你不論看不同類型的hardware它基本上都是會遵守這種原則就有一些universal的一些principle对你设计算法你可能没必要去专门比方说针对H10去优化但我觉得做算法至少要去满足这些硬件比较通用的这种principle要不然我觉得做的算法就是在当今这个scalability左右你的这个场景下面基本上就是没有什么实际价值的就纯自娱自乐吧对KimiLinia這個為硬件有做什麼樣的優化嗎? KimiLinia我覺得他的那個算法還是硬件親和的吧然後Colon的話呢他現在應該還是張宇寫的那個Triton的算法嘛對就湊合用嘛對我相信大家都沒有那麼多就是颗粒优化它是一个非常耗时的一个工种对它就非常的需要时间对要慢慢磨就要老师傅颗粒优化慢慢来打磨对我觉得就是在迭代的时候大家用Triton写一下凑合用就行了嘛然后如果他验出来有用的话那后面来补一些CUDAkernel也是可以的嘛对就我所知他们现在应该还在用Tritonkernel在训吧对我不知道他们后面会不会找人来写CUDAkernel从硬件清核的角度你觉得下一代的算法会怎么演进现在我觉得硬件眼镜的话它跟Transformer它是有一点协同眼睛就是硬件会变成Transformer更喜欢的模样对所以其实对于一些Alternative来说是有一些不好的那种因素在里面的嘛因为现在要架构这些硬件大家会发现它就是为了去优化矩阵程嘛然后让它矩阵程越快越好嘛因为Transform里面有大量的矩阵程嘛它就想硬件就想搞一些快速的矩阵程的东西嘛比方说像TensorCore然后像这种TMI这种东西然后像最近的Blackwell上面它有一些专门针对这种矩阵程它有一些单独的那种内存上面单独的那种memory嘛这都是来优化矩阵程的嘛对所以可能大家会看到FlashAttention会越来越快FA4嘛它会在Blackwell上面会越来越快对然后我觉得既然这个硬件是这么evolved那从设计算法的角度来看那你就必须要设计一些能有矩阵乘法的算法要不然你这个硬件效率肯定是跟不上的像尼尼亚泰森他创的算法有个好处就是他基本上都是一些矩阵乘当然他还会有一些其他的overhide對那這個的話可能就是得克服一下對他可能比方說在training的時候可能還是不如flashattention4這種在blackwell上面高效但其實也無所謂就很多地方也不care訓練效率他只care那種influence效率所以我覺得只要訓練的時候就是能以reasonable的速度來訓然后reasonable的速度来prefill然后decoding快的话这种架构其实也是有市场的然后另外的话这边说像犯规MOE啦然后spatialtensor这种降flowup然后又能用矩阵惩罚对他们都是属于这种类型嘛他们肯定还是要用矩阵成法的嘛然后就是想办法把flops打下去嘛然后通过一些算法的这种创新来把flops打下去对然后同时保证这里面有大量的矩阵成就一旦用算法里面基本上都矩阵成那基本上这个算法也hardware也挺相对而言还是挺好优化的嘛对因为因为我觉得这个硬件就是奔着往矩阵惩罚越来越快的方向在走了就甚至说像像FA4就是矩阵惩罚太快了导致它那个Soniceofmath那个isfinancial的那个模块都变成一个瓶颈了对然后他们就用一些FA4的话他就用一些approximate的方法来做那个exp对那这个也挺好笑的就是矩阵诚太快了那我们现在还是要去尽量去利用矩阵诚快速的这个性质吧然后去design一些算法我觉得像DeepSeekSparseAttention它那个就已经用到了这种性质我觉得DeepSeek它是一个非常注重这种硬件和算法协同设计的一个公司像DeepSeekSparserTensor的话它会有一个那个叫Indexer嘛它就是FP8来做这个算这个TensorScore嘛因为它不需要Softmax嘛它只需要算那个Logit嘛然后来做Top可以来选Score嘛所以首先它就是IP8然后它又可以把那个昂贵的那个exponential的那个操作把它去掉这样的话它就基本上就是一大堆矩阵程然后所以说它那个indexer的话就会非常的快这样的话就有可能就是能够用到他们的下一代的架构吗我也不知道下一代架构是什么但这些性质在那里就有可能可以作为一个下一代架构的一个candidate对相对来说DeepSeek和Kimi哪个在硬件清核上做得更好听起来是DeepSeekDeepSeekDeepSeekabsolutelyKimi没有把这个作为一个重要的友好目标对吧不太确定我觉得Kimi肯定还是scaleup这种硬件上面的东西但是没有DeepSeek那么追求吧对DeepSeek我觉得他们非常追求这种比方说这个算法能不能在Fp8上面跑呀这种之类的我觉得他们Infra应该在他们算法迭代的过程中应该话语权会比较高一点对我觉得这个都是都是因公私而异的吧就有些公司他因法的话语权会高一些有些公司他算法的话语权会高一些感觉算法就经常会搞一些让infra不爽的东西出来对你觉得如果年轻的研究者想要进入朱利机制或者架构算法这些领域的话你对他们有什么建议啊他们应该是从哪些地方开始入手现在的话现在的话找个公司去实习因为我觉得做架构必须要算力没有算力就没法做架构所以我觉得还是先找个lab去实习吧好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界languageisworld我们希望和你一起从这里探索新的世界
主题:Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
日期:2025年11月3日
嘉宾:杨松琳(MIT CCL PhD,线性注意力架构专家)
主持:张小珺
本期节目围绕AI架构创新,深入讨论了2025年最新的主流大模型——KimiLinear、Minimax M2、以及Queen3 Next等,并以注意力(Attention)机制算法演化为主线。MIT博士杨松琳作为KimiLinear等重要论文作者之一,系统梳理了线性注意力、混合注意力、稀疏注意力的发展脉络及技术细节,对未来算法与硬件协同优化提出了前瞻预测。节目信息量极高,涵盖从技术原理到业界公司战略,再到算法考古和工程落地的全方位深度。
“国内算法创新肯定是更强的对主要是Intermsof架构的话那肯定是国内更强的。”——杨松琳 [79:10]
“像Kimi他走的是这种混合注意力的路线…DeepSeek的话呢他们主要就喜欢走这个稀疏注意力的这个路线…Minimax它的M2就变成了FullAttention。”——杨松琳 [22:10]
“3比1现在也快变成一个公式了…字节也发了一个paper就是来研究这个hybrid架构它需要百分之多少的这个softmaxattention,他们的结论也是3比1。”——杨松琳 [40:43]
“每一次大家关心LinearAttention那肯定是因为大家碰到了一些context wall”——杨松琳 [37:50]
“最终很可能会探索出一条新的路,就是把两者都结合。…线性注意力和Sparsity Attention其实没有什么竞争关系。”——杨松琳 [48:30]
“既然这个硬件是这么evolved那从设计算法的角度来看,那你就必须要设计一些能有矩阵乘法的算法。”——杨松琳 [91:30]
“KimiLinear我觉得他的算法还是硬件亲和的吧…我相信大家都没有那么多颗粒优化,它是一个非常耗时的一个工种”。——杨松琳 [94:00]
本集适合有一定AI/模型架构基础的听众,可作为深入理解大模型算法创新、行业方向和工程权衡的权威参考。