Loading summary
A
欢迎收听十字路口我们关注新一代AI技术浪潮带来的行业新变化和创业新机会十字路口是乔布斯对苹果公司的一个比喻形容它站在科技与人文的十字路口伟大的产品往往诞生在这里我们长期观察AI创业如果你正在做一件让你自己感到兴奋的事情哪怕它还只是一个想法我们都很愿意听你聊一聊我会认真看每一条留言我是高记我们今天与ChadGVT与OpenCloud与Manas与CloudCode的互动方式很可能不是最有效率的方式这个暴论相信他的人还不少也有一些创业者在为之努力我们今天的嘉宾之一黄柏特也是其中之一你好柏特欢迎来到十字路口哈喽大家好我叫柏特柏特是AirJelly这款产品的创始人今天和柏特一起来十字路口也是我们老朋友一豪他的天使投资人謝謝Cody我們還是先從快問快答開始因為一號之前已經快問快答過了所以我們就直接從百特來請問你的年齡24畢業院校西安電子科技大學你的這個MBTI的星座BNTP摩羯座一句話介紹一下艾爾傑里AirJelly是你的主动式上下文感知伙伴他能够记住你在任何地方做的事情并且在恰到好处的时候主动来帮助你然后咱们目前的融资的情况我们是刚完成了天使轮然后第二轮正在紧锣密鼓的推进中咱目前团队的规模有多大8个人可以介绍一下创业前在做什么吗校招的时候进了字节做了半年的开源项目的产品经理叫MyContacts通过周期性的屏幕截图去捕获你的上下文信息然后进行存储和分析他在Github上面有50多个Star我第一次知道百特也是因为MineContext对,可不可以讲一讲就从MineContext到今天创业做AirJelly就这个中间的旅程MineContext的话是我在自己也做了一个开源项目然后我们当时的理解是现在所有的AI对话还是chat来获取context我们认为说直接对视觉进行理解应该是更第一性更本质的所以就做了这样一个产品当时我们的理解是通过周期性的截图然后周期性每15分钟进行分析做了这样一个东西然后当时的话其实做了就单纯是一个记录后续我们其实看了很多的产品也做了很多思考现在升级成的AirJelly它有几点不同第一点的话是我们不再是爱15分钟的周期性分析我们是去分析你具体的事件比如说你可以理解过去它是一个编年体的事实物然后现在是一个计转体的东西所以它能更精确的了解你的任务和意图第二点是过去我们没有做太多执行上的东西现在我们让它加上了非常强的执行能力我发现它形成了一加一大于十的效果。 什么样的执行能力? 对,就是我们相当于原生接入了OpenCloud它底层的框架,所以让它具有了非常强的一个执行能力,它可以各种调用skill,然后操作你的电脑使用浏览器,然后叠加上你过去的获取到的各种记忆,所以它相当于是一个既有最强的contest同时有非常前沿的一个模型执行能力所以有一个非常好的measurable的效果咱们刚才是说这个总结从15分钟变成按时间去trigger目前咱们截图的频率是多快我们过去截图频率其实是15秒30我们其实也做了大量的方案但我们现在想到一件最sharp的事情今天一定要给大家分享出来Cursor重新定义了Tab,Tablet重新定义了Fn,我们今天其实想占据的一个新制或者重新定义的就是一个键,一个键,Enter,Enter的意思就是我们判断说当前乃至未来长期的趋势,人与人的聊天还是要通过IM,那人与AI的聊天其实通过Chatbot,人与外界信息交互的方式其实是通过浏览器的search这三种方式它表达意图其实都是通过enter也就是说我们会在enter的那一刻进行截图获取你enter那一刻的意图和相关的上下文从而对你的意图和行为轨迹有一个最棒的见识这个还挺有意思的就是每次enter的时候就截一个图因为那是一个关键的用户在表达自己意图的时间点对那是一个可以理解为是一种高光你们已经在内部开始测试就是用enter作为trigger去截图和之前比如说每隔5秒1就哪种的效果更好用了enter之后首先它没有了噪音因为我们之前一直解决不太好的一个问题是他可能到时间了可能你是一个无序的浏览他也截下来了但安特的话我们能确保他一定是你的意图也好就作为天使投资人你应该这个可以最先用到AirJelly然后目前你这个用下来有一些什么样的体会感受对我觉得AirJelly最大的这种魔法时刻是有人看着你工作这样一种非常神奇的体验其实我们都用了Madness啊用了这个OpenCloud它体验也非常好它有一部分来自于对你本地文件的理解其实有个大量的context注入但是实际上对我们的很多跨AI跨飞梳跨不同的工具上的连续性的context它可以很好的感知基于这些又主动性的跟你交互甚至规划特别长程和复杂型的任务我们捕获的就是最有价值的context你是在什么时间点发现百特然后他是什么地方打动了你然后让你决定做出投资的决策对又到恋爱故事话题其实我们是在去年其实一个是9月底的时候Calco的agentSDK发布那个时候包括伴随着PostTraining模型出来我们一直其实很关注垂直方向Context收集然后那时候正好其实还是我们投资豆瓣小伙伴也跟我们讲到说就在应该是9月30号可能发布的MineContext自己力开的产品它有非常激进的Context劫持的方案我们觉得这个太sharp了然後就找到了這個百特然後我們在北京在星巴克這個喝了一次咖啡我覺得這次給我的感覺就是他對這個問題背後實際上是有非常長時間的連續性思考第二點就是百特身上散發著就是我覺得有代表性的年輕創業者的這種雄心而且不設限然後對於任何事情都有非常主動性的思考就他做proactive他自己也是個proactive的人然後我覺得第二點特別打動我們的是在我們就是來回碰撞來回思考的過程中其實經歷了一些變化經歷了Cowork的發布甚至到其實一月初OpenCloud出現其實這裡邊給我們提出挑戰也有機會有一些功能可能就被更廣域的被做出來了被宣發了有些東西其實更更把这个创业者推到了极限外在这个思考过程中其实摆脱的体现出来是非常独立的思考非常坚定的信念包括对这个打法对市场布局对优秀人才的这种渴望都是自然而然的不断出来这就是相当于在我们判断体系里面不断的加分不断加分但我们就非常想早点去投进来然后刚才一号有说到就是Cowork发布其实带来的这种冲击还是蛮大的你可以具体讲一讲就在那个时刻那个冲击具体是什么我们大概在去年12月多出来当时其实定了一个方向是做TaskEngineering就是围绕Task进行建模然后也是同时我们把CloudCode做的简易化其实就是Cowork以及说CloudCode现代发展那个形态所以我们第一个说觉得CloudCode当时他的那个Todo是不够的我们把它建模成Task一开始我们是非常兴奋的感觉事情做得非常对但是我们后来在12月20号就是Cowork出了包括一月多CloudCode他最新把Todo改成Task之后就是既是兴奋又是有点崩溃吧就是兴奋点在于我们确实呃产品的直觉是非常对的我被验证了然后我们内部的小伙伴也都觉得哇确实这就是我们预演的方向但是绝望或者叫悲伤的点在于我们完全处在了CloudCode的延长线上,所以它的框架的改进,然后它的简易化就完全把我们吃掉了,那我们其实12月到1月那一会儿做的一个尝试就相当于是白费了,或者其实凝聚了我们本身吧因为那会儿就让我觉得我靠我原来这产品直接这么对S4P可能应该把我招过去才对那在那个时候做了什么调整对我们当时我们去分析一个产品的机会我们大概分了几层第一层是做简易化我们认为简易化是第一层也是最容易想到的事情但是我们发现它其实没有什么价值第二层的话其实是我们做了多进程和人机协作的编排流这个事情我们尝试完其实内部测了一下感觉也非常不错但是我们发现CloudCode其实很快又在逐渐蚕食这一块所以我们认为这个长期也没有壁垒那后来我们想到其实核心的话还是把我们之前在MyContest积累的这一块Contest的获取和存储以及召回这一块做好因为Contest这一块应该是CloudCode没法直接涉猎的所以我们相当于是采取了把简易化的这一波的执行能力加上过去的context最终组成了现在的一个产品所以其实是被冲击了之后产品的定义才慢慢的这个浮现的越来越清晰我们也总结出一个思考就我们现在内部判断一个方向值不值得创业其实看一个点你试着把它外部coding出来如果外部coding出来发现它已经有60分或者80分了那这样的产品可能就不需要做了因为它就毫无任何壁垒然后我们现在这个尝试是我们用了很棒的webcoding的时间结果发现只有30分就是他的context获取理解有大量的badcase然后一些边缘的东西做的不好哎那我发现说哎这就对了因为这样才会让他有壁垒就是WebCoding出来的产品不够好才有空间如果WebCoding就已经可以做出一个七八十分的产品那别人也可以迅速的做个七八十分的东西出来MindContext是一个这个开源的一个工具然后它在开源世界确实也引起了很好的反响你刚才也提到这个对开源有比较多的理解所以这个可以讲一讲说你现在这是怎么理解开源吗我本科的时候其实是有参与DeathWell就他们是有开源项目包括我在自己的工作室其实也做了一个开源的项目叫SurroundApp大概有30多star然后它是一个模型训练监测的国产化替代它当时某种程度是两类开源第一类开源其实是面向普惠化然后我认为这种开源其实也非常有价值第二类开源其实是一种你理解为是一种框架然后我做的第三个开源项目其实是microntextmicrontext的话它就是一个应用我现在的感觉是开源还是最应该做框架因为框架的话能够让社区真正去不断完善同时它也是让大家去适配你的生态的一种最好的方式对创业公司包括我们自己未来我觉得是如果我们有一个基建然后希望它成为某种生态的话就一定要把它开源出来借助社区的力量去把它做大咱们团队应该都已经内部在用LJ的产品了用的过程中有哪些moment吗尤其是你们发现这个功能只有我们能做别人都做不了就是这样的一些时刻对就是太多我可以随便举几个第一个是我现在算是担任我们团队的产品方向的工作,那我最早的工作流程是在Gemini或者Chadbin聊天,然后去Cursor去写代码,但它其实有一些问题是Gemini上其实没有AirJelly相关的信息,同时在AirJelly传输到Cursor上,它有大量的context的损耗,那我后来有一天就尝试,我能不能直接用AirJelly自己写AirJelly,我发现真可以,就是我去跟AirJelly聊,你目前一个功能是怎么实现的,然后它就分析出了他通过我们过去看到的文档他通过一些代码他读到自己是怎么实现的然后我说你觉得这个能怎么改进然后他可以给一个大改方向然后这个时候我实际上说你帮我直接写一下然后帮我提交一个PR我发现他真的可以就是我们在第一次大概是在2月多实现了这样一个闭环就是用AirJelly写AirJelly之后就我现在每天疯狂的在AirJelly上问他你怎么迭代证明然后他就自己在写自己然后他就实现了所以我们的现在的设计同学其实也都是在airjelly开发airjelly我们让airjelly写一个需求就让我们桌面这个水母带上一个帽子然后大概他很快的写出来然后水母就真的带上帽子然后我印象特别深就是我们那个设计同学他看到了我们这个case视频之后20分钟直接从学校打车过来就马上加入我们然后第3个的话是最近其实在招聘然后拿简历然后可能有的就发到微信群里有的可能保存在桌面上然后我让AirJelly会去帮我找你把某某人的简历直接找回来然后有一个case我记得大概是这样子就是他没有直接发pdf他发的是个图片然后我们在本地文件搜索之后其实没有找到这个文件但这个时候AirJelly召回了一个记忆是我之前在boss直壁上可能看过XXX然後他XXX可能跟我想問的那個人是一樣的然後這個時候他去BOSS直聘驗證了那條信息之後再去微信就是聊天記錄他會存在本地他再把那張圖片給撈出來然後他分析這個case真的非常震驚到我就是它不再是一种你拿到某一个信息检索到之后它发现找不到就断掉而是它会不断的去搜索相关的事件而因为我们其实存了你所有crossapp的contest所以它其实有很大可能在某个地方找到一个蛛丝马迹然后它会试图用某种方法找出来因为确实微信会把它来回传的图片文件都存在本地所以这是不是意味着类似AirJetty或者其他的有桌面的文件授权的这样的agent可以去用上微信里面的文件微信它本身数据是有加密的但是如果你想找到文件的话它可能跟聊天是另外的逻辑就是我们觉得聊天它是一个比较加密的事情但文件的话它是会存在本地比如说你某一些文件夹里的但如果是传统的应用你直接去找因为它具备的context太少它其实很难解锁到因为我们有一些你聊天相关的事件记忆所以它就能找到你可能在什么时候讲了一个什么事情发了一个什么文件再基于此去找的话它就可以瞬间摸瓜找到我覺得這個可以解鎖蠻多東西的主動式AI其實206年非常熱門的一個方向而Jelly也顯然是主動式AI裡面一個很典型的產品那可不可以請百特給我們先介紹一下在主動式AI的領域裡面現在有哪些主要的大家的產品方向然後各有什麼優劣主動式AI它是一個比較泛的詞我是打辯論出身的我們先定義先行就是我们广义的主动CI只要是AI主动推送给你的都算那它包括一些定时任务比如说像一些Reminder然后像ChatterGP它提出的Pulse就是它每天早上固定推给你也包括说现在小龙虾它有一个Heartbeat的机制它可能每过15秒或者什么时候早一下来给你进行一个判断就我们认为这是一种主动CI的场景但我认为它是一个比较太广义的吧,我认为不是一种真正的主动式AI智能。 真正的主动式AI智能,我们认为它需要指责两个东西。 第一个是你在某一个场景明确的意图,第二个是你在某一个场景的上下文,那它基于你的意图和上下文才能对你进行一个主动式的推送。
目前实验这个东西其实非常难,就市面上是有一些玩家,比如说proactor,他们做的是会议场景,再比如说有豆豆游戏伙伴他们其实做的是游戏场景你可以看到说他们都不是一个真的generalproactive他其实限定死了某个场景最大的原因是因为他们获取context的方式没有那么广泛所以他们想知道意图和上下文只能限定在一个场景一个小的场景比如说我知道你在打游戏你可能下一步要打boss或者是我知道你在开会那其实整个会议的主题和文字内容就是你的上下文输入,那我们做的一个事情其实是我们通过enter,这enter是获取了你人和人通过im,然后人和AI通过chatbot,以及人的信息检索通过互联网,我们获取的是你最前仰的意图,那这个意图获取来就是第一步,然后我们其实还会对你进行一系列的加工,把你加工成event,然后加工成task,这是你的任务,那这个任务的话我们会包含两部分的内容其中有一部分是task的progress就是我知道你当前的进展第二的话我们会有一个东西叫nextstep就是我根据你的进展和你的意图去判断你接下来可能要做的事情然后我们会基于这个nextstep做一个proactivetrigger从而最大程度的确保说我在一个general的生产力场景我都能获取你当时的上下位和你当时的意图并且给你做最直接的推送所以这里是不是还是有一种感受是获得的context越多就越好我们之前做mycontext也做了一些contextengineering的实验我觉得context分几种不同的形态的context带的信息是不一样的比如说异图context我们认为是对主动是最有帮助的某种程度也是最有价值的那还有的context可能是一些信息的context可能是一些文本的context我们认为那个context也有价值对但它可能价值相对比较小因为它可能可以通过读你的文件或者网络搜索去搜到这是context的属性吧第二个我们认为是context的组织形式我们认为说过去为什么CodingAgent率先取得最好的发展是因为CodingAgent其实它的context不只是说是代码文件其实还有代码目录能获得很多增量的信息所以它的效果会非常好我们的做法其实也是把获取到的e2context进行进一步的加工我们会加工成两类第一类其实是event就是事件就是你context的原始意图然后后续的不断的迭代是什么样子的法组成事件从而有一个比较清晰的全局的认知和下一步的预测第二类的context其实是entity就像人或者一些关键的私欲的事关键的私欲的物我们把它组成entity然后entity的话它类似于一种graph的形式大概是通过这样一种形式那我们在召回的时候也只需要召回entity和event就足够了NTT比较容易理解然后event这里面其实是有一些识别在的你们背后有一些什么样的实践的经验吗首先event这个事情它如果你通过传统的chat它其实是很难获得全量的上下文的所以我们其实采取了VOM加入线R当然我们会有一系列的工程商的步骤然后但是我们确保能得到的结果是说我们能获取你某一刻的意图然后当前所有的上下文以及说一些前因后果通过这样的方式能够组织出你的event然后event的话我们也对应设计了event的召回然后event的合并包括event随时间的衰减做了大量这样的配套的记忆方面的工作他会不会就是有一种可能就是当我们说这个context越多就越好的时候其实真正掌握我们最多context的还是是电脑和手机或者未来如果有了眼镜或者耳机他们也是OSR一直在录他们才是拥有最多context的王者你作为他们上面的一个软件或一个插件你得到的也永远只是他其中一部分context你这个怎么看这里我印一个比較有意思的就是我本身是一個大量讀歷史的人然後歷史它其實有個特點就不是發生的每一個事件它都是歷史不是發生的每一個事情它都會被記錄在歷史書裡歷史書裡其實記錄的是關鍵性的對世界產生影響對之後有決定性改變的事件那全量的信息其實它有點類似於全量的記錄就是我每一天的錄音然後每一天的錄屏我全部把它记录下来其实它是包含了大量的噪音的以及说它所有context的权重是一样的我们认为这其实是不对的我们认为更本质的事情是去捕获其中的高光去把意图以及一些关键性的节点记录下来我认为这是历史当然我觉得这也是人生人生就是一些关键性的节点组成的所以我们长期来看捕获的意图会比那些权量记录更有价值這確實是一個挺有意思的角度的其實還有另外一個觀點會認為主動式AI它獲取是今天比如說CHPT或者Manas或者Siri是他們的機會因為他們只需要在自己已有的agent的能力之上加上更多的context的獲取和整理你怎麼看我覺得context最重要是你的意圖以及意圖那一刻的上下文我发现说像miners也好chattbot也好它们本质还是chattbotchattbot其实都是通过对话来获取上下文和意图其实对于人来说视觉获取周围的上下文和意图其实占了95%以上所以他们通过单一的这种对话模态其实拿到上下位是非常少所以我认为如果不从context获取的源头去改变这一切的话那其实就是他们是没法实现我们能够达到的主动式的但另一个角度说其实像mac或者像一些手机他们可能是能从源头获取这一部分的机会但我觉得contest的像我们这么激进的获取其实是大量的用隐私去tradeoffefficiency那对于一些大的公司来说他会有很多隐私方面的担忧同时呢對於新聞部來說他其實也擔心大公司拿這一部分的隱私去作惡我們作為一個創業公司其實對於這一部分的機會其實可以有一個更精準的衝鋒然後找到小部分的死忠的人群這就夠了刚才说HPT和Mindless他们是今天只能通过对话上下文获得context但是如果有一天比如说AirJelly获得context的方法被证明有效他们本来也有客户端他们也通过他们自己的客户端去学习你们已经实践出来的工程经验也捕捉了类似的context对你们来说会是一种什么样的竞争局面在那个时候你们的优势和差异又是什么其实我们本身作为AI时代的一份子,我们也是希望人类把整体在智能这一块是能往前推进的。 所以如果越来多的人能跟进,其实也证明我们做对了,我们是开心的。 然后再讲讲我们的壁垒和趋势吧。 首先,我认为所有toolsagent应用最核心的壁垒还是记忆。 就是假如说你在我们这已经用了一个月用三个月所以会有大量记忆留存下来而这部分记忆他想牵走其实比较困难如果这个办法是被证明最终是成功的话那其实已经把大量原始的用户相当于他们的心智已经留在我们这了所以他们牵不走记忆也就不容易牵走第二块是那个工程实践其实可以callback一下我之前讲的那个什么事情值得做了就是我们其实Vivecoding尝试过屏幕截图记录这个事儿,包括其实海外有个产品叫Dayflow,他们其实也做了这个事情,那大家可以体验一下,就是这个事情听上去很符合直觉,然后也比较简单,但其实想要做好会有大量的工程细节去调试,然后需要大量的case去调整。
所以我觉得一时半会儿他们也是没法做出我们这样的效果大概是从能力以及说记忆这两个方面这也是一个有趣的角度就是如果我们先发布然后先占领市场新制然后有一批用户先用起来之后他又迁移是困难的因为他的使用习惯和记忆在这里以及我觉得这里面还能够来创业公司一个机会就是你有最早第一批用户然後有一個核心的usercase的群從這裡你還是能發現一些高價值的客戶本身和高價值的這種問題就是到了AI時代構建成越來越低的這種漸進的過程中其實定義問題本身就是這個價值因為理論上存在你可能定義出問題它就能被解決但LGD還是有機會第一批遇到這一波人並且把他們這些高價值問題trap進去那也许会有很多general的问题始终会被巨头的产品一波一波去撸走但最终剩下那个象牙塔可能就是airjelly主动CI有什么大家都比较认可的但是你自己持非共识的观点我们其实国内外看了大量主动CI的项目我还说是proactor还是bro还是豆豆游戏伙伴以及各种可能openai的clubhouse然后比如说龙虾它的一个harbit机制然后我发现主动CIA大家其实经常在做的事情是发散,就是说我基于你现有的信息,我猜测你可能想额外了解什么,所以你看像Pulse他会根据你每天的对话,他给你额外推送一些你可能想了解的事情,他做的是一个发散的事,某种程度是一个增加你认知负担的事情。 但我们的话我们的主动式其实是围绕着你的意图和你的下一步所以我们的主动式是顺着你的延长线做一个推动也就是说我们不会额外增加你的负担而是说你当前在做什么我们推测出你下一步要做啥然后主动式地递给你帮你推进当前的任务其实用户是非常乐意说那你帮我执行一下吧然后这里就有另一个问题就主动生涯一定要去提醒用户或者要去主动的向用户举手汇报我这里有一个工作帮你完成但在这里就有可能提醒的很频繁用户觉得很烦然后或者你提醒的不是到位的这个问题他也会觉得你在打扰我但是如果总不提醒很保守用户又觉得你没有存在感那你们现在实践下来有些什么样的经验吗如何找这个balance对然后我觉得主动式也分两类第一类其实是提醒就是reminder比如说我今天下午要来科技这做博客那像这样的情况他肯定得来通知我第二类其实是就像我刚刚讲的不管是执行还是其他家可能做的发散我们目前观察到的场景其实是需要去阅读用户他的工作状态就比如说用户从一个应用中switch到了其他的应用这时候可能是他的一个相对没有那么专注的状态这个时候你去主动式的说是不是叫我来帮你完成XXX这个时候他去执行的话用户的接受度会更高而且也不会觉得受到打扰同时还有一个东西就是用户的反馈信号这些不同的用户他对于主动式的频率能接受的程度都是不太一样那有的用户可能觉得说呃你是5分钟一次太多了,那这个时候其实我们会设计对应的呃dismiss或者gots,那这样的信号会反馈去迭代它的频率。 大概从这两个方面能够做到千人千面的做到最适配他们的主动式。 1號主動式AI也是今年QuickStone你們基金重點看的方向嗎? 其實我們去年大概在八九月份的時候其實我們在這個方向已經投了兩個團隊除了百特還有豆包的一個小團隊都是非常激進在proactive這個方向並且看好肯定有所有人的方向的團隊就是你前面说的在righttiming给你最好的结果本身因为人一定会被推向是在这个时间把结果把范围到你嘴边的这样体验这种神奇体验本身是可能最魔法时刻的除了主动式AI在206年你们还有哪些重点在看的方向吗我们其实始终是三大方向第一个其实是更多以垂直追问但是敢于做一些兼顾探索的这种agenttalk我们可以说得非常直接其实是agenttalk但是比如更激进的应用在垂直方向这是我们发行率最多的像百特也好我们豆包团队也好然后包括之前像BZMIMUBOT也好大家都是在垂直和这个兼顾的方向而且今年随着我就问号这样可出来随着更好的模型出来有一些我们的23年24年不敢探索的问题也许今年可以探索比如说在社交上比如说在个人代理上比如说在对外的一个深网络甚至社会性的网络探索上其实这些问题在现在这个时间点也都可以探索了这我们特别感兴趣第二块肯定是在这背后的AgentInfra现在其实OpenCloud遇到了很多现实性落地的问题跟它的身份验证安全然后背后整个对数据库对网络然后云端本地之间的相互结合之间有太多的工程的漏洞就你的webcoding30%的大部分场景都与这些会有关这就意味着很多像包括像Resend也好像之前的SoftBase也好像Memory也好这样的重要基建还会出来更多这也是我们特别关注的方向然后第三块虽然我们精力花的比较少但是基于我们的博客乐趣延展的一块是BuiltforAgentsHardware就這些硬件本身是為了獲取更多context是讓你的人生你的環境信息更多的去給予你重要的幾個agent這類的hardware就像我們之前討論ODIS本身雖然它是focus在健康飲食但實際上大家都知道在它的信息裡面已經有大量的這些context我相信這些context未來會對LGA可能也有帮助一个程序员在关注他的健康饮食的同时实际上他的工作也一定通常被很好的劫持了是不是能够帮助他的工作这是我们今天非常想去探索的方向之前百特有一个宣传片就是在讲水母和龙虾就在做对比然后当时在讲说龙虾是虾的他眼睛看不到但是水母其实感知能力非常强可以展开讲讲吗当时为什么那么强调这一点我们跟龙虾一个比较大的区别吧就龙虾我觉得它最典型的异象其实是它的钳子它代表它执行能力非常强但其实你看龙虾它是在水底爬行的你知道的事情是非常少其实本质也是因为我们在龙虾这一层上核心还是通过chat那chat能获取的信息是非常有限的而我们水母的话因为做到了更多的博态然后更智能的意图获取所以说它感知到的context是要比龙虾可以说是几何倍数增加的所以那有了这样几何倍数增加的感知能力同时再加上我们的agent框架其实我们agent框架也是参考龙虾了因为龙虾其实我觉得它最核心是它背后的派它派的那套框架非常简洁只有4个工具但是配合上模型能力有非常强大的效果所以我们的话也是同样用了派那个框架搭配上我们这套context和memory应该是有比龙虾要强非常多的体验刚才提到AirJelly要不断的截图要不断的去把memorycontext越做越大但是它怎么在无限膨胀的过程当中还是保持它的效率呢我们可以看几个点第一个点是上线你可以思考一下其实现在的数据库和rerank的能力它在企业场景的应用可能是把1万个文档丢进去那1万个PDF它其实有海量的切片所以它能支载的上线的能力是非常强的而我们AirJelly就是作为一个个人来说它那个记录的量级其实是非常小的我们一天可能就是20多张截图然后对应的一些chunk的contest所以在量级这个上限上它的能力是没有任何的减损的那第二点我们聊的其实是它的效果它的效果其实是比如说你越来越多的信息会比如说对于过去造成污染,那我们其实有两个机制,第一个机制叫merge,就是我们有新的entity的信息进来的话,它会和过去的entity合并来update你的信息,比如今年可能是24岁了,去年是23岁,那第二个其实我们对event和task也是有merge的,就是新的事件进来之后我们会updatingtheprogress确保你时刻保持的是最新的不会过时的第二个其实是我们会有一系列复杂的召回算法它可能会有时间的衰减系数确保最新的东西是优先的同时它可能用上各种混合检索和重排来确保它实现的一个效果龙虾发了之后有给你们什么样的启发吗就让你们某一些比如说产品上的决策技术上的架构有产生变化吗最核心的有两个点第一个点其实是agent的框架其实我们最早的一版有想过只做记录然后分析但后来我们发现接了龙虾的派之后它真的好强大呀就是有各种magic的效果所以我们认为要把龙虾这个底层框架接进来框架是一个开源的框架第二的话其实是养龙虾这个概念就其实像miners它可能是一个很好用的工具那我对它的耐心可能就是你能不能第一次进去就帮我完成任务龙虾它其实是一个不断养成的过程那它可能效果不好可能是你觉得我没有养好对那我觉得这是一个非常有意思的点我们其实也是一个海洋动物那我们其实也会结合水母在enter上有一个养的方式就是我们可能enter的越多,那水母它可能积攒的记忆和context就越多,它可能效果也会越来越好,从而来最大化的让用户的耐心能够强一些。
這個真的很有意思就是現在有些龍蝦的線下聚會說自己是什麼養蝦園聚會大家聚在一起討論養蝦心得但我就在想說它其實本質也是一個工具之前人們對工具的耐心是你一旦出了bug我覺得就是工具沒做好但今天大家龍蝦出bug只會覺得我的龍蝦怎麼又偷懶了是不是我沒養好我要去參加線下聚會去找高手學一學他們是怎麼養蝦的它是一個很有趣的變化是它有一个混合性的变化就是从这些proactive的产品出现以后一旦它proactive跟你人是一个情感性的包括这些信息素驱动的一个生物当你与它有了一定的陪伴和交流属性以后其实也提高了你的容忍度也好留存你的更多记忆也好这种记忆就在反复来循环你和它的共情能力也许从今年开始的产品本身就会天然有这种属性它已经不再是个工具了它是个长程陪伴然后相互互动主动性的一个产品其实应该是从拉玛开始拉玛是羊驼其实拉玛千蚊然后像龙虾我觉得其实有一个动物形象我觉得是非常关键就是它能够延展出很多的可能性同时呢它也更加亲切尤其是如果要做一个personal或者proactiveagent水母的话我觉得是非常棒但我们已经讲就大家可以想想别的东西然后我们在一开始其实有提到就做主动生意AI其他的很多产品选择的是一些垂直的方向对吧比如说多的桌面助手是游戏Proactor是会议然后你们其实选的是通用的方向然后是什么原因让你们坚定的要选通用而不是先找一个垂直我觉得其实是两个第一个是其实在去年的3月份minus是我觉得是对我们这个年代的创业者一个很大的启发就包括其实我记得minus发了那一天我刚好其实在西湖做research然后我当天走回家里然后听他的播客然后当时也觉得哎我也我也也想做一个什么样的事情没想到一年后的今天真就是一年后的今天我也在做这样的实践那才是激发了鼓励了很多的这个创业者去做自己的东西我们对Vaness的一个观察是他其实一开始使用上最前沿的模型能力加上他的一些套壳他的一些组合让大家感受到了magic然后大量的用户其实就涌进去了那涌进去之后其实它最后会收敛到几个场景,那我们其实挺好判断的,因为你看minus它delay的feature就是它把PPT,然后它把一些wildresearch就是额外做了一些模板把它就在作业后,所以我们认为说先做同一种方案大家涌进来。 然后让大家的时间去收敛具体的场景是非常棒的一种产品思考但我觉得背后根本其实是两件事情第一个是其实是谦虚谦虚是我作为一个产品开发者我不是要教用户说这个东西必须要这么用而是说第一我相信用户他会有一些奇思妙想然后他可能会有一个很好的用法那我们需要把这部分好的用法吸收进我们产品连带第二我觉得更核心是AI时代一定要相信AI的能力就如果你把AI限定死功能其实是一种隐性的workflow就是你隐性框定了它应该是属于这样的流转这样的执行所以作为一个general我觉得本质就是尊重最前沿模型能力的发展然後尊重用戶的其他妙想然後尊重AI相信AI的能力我觉得这个对创业者来说最重要的是selfpositioning就是你怎么理解自己在整个市场里面如果创业公司和CEO也是一种共济的话怎么理解自己的这个定位我们也很看好就是当你有极大的雄心和资源驾驭能力的时候你应该勇敢地走向general但反过来问自己一个问题是你有没有设计新的框架定义新的框架和定义新的游戏的能力和全球宣发能力,这很客观。 有这样能力的团队,我们觉得AirJanet绝对是有这样能力的团队和野心团队,你就应该goforit,因为每年这样的窗口期,实际上是在越来越短。 我们这次看到是新矿建的应用上,AzurePeak也好,OpenAI也好,Gemini,AzureVerity也好,大家的更新速度比去年的Venice更新速度要快得多。 這是天然會越來越激烈的競爭但對於可能更大部分的創業者來說我們還是鼓勵大家去做垂直用更新的框架用每一年的更新框架去解決一個垂直的問題甚至是推向去解决这个行业里面更根本性和更高价值的问题而思维在OpenCloud出现那一刻其实也改变了这也结合咱们前面说的人格化的产品本身就是针对一个行业的社会定位一个职业本身一个个体去创造产品这个产品已经完全跟上个世代产品不一样你本质上在造一个人而且你的路徑可能也不一样是你需要这个行业里面只需要也许10个最多10个专家能用起你的产品能够在你这儿把它的专业能力复制出来能够代理出来的产品已经是一个垂直行业里面极好的产品了有可能这样一条路更适合更多的创业者我这也有点补充其实你知道做research的人他天然就是要追求在某一个benchmark的sorta但我觉得我的基源桥在于是第一是我其实比较耐挫折吧虽然我其实research也很烂然后高考考得一般但是其实我觉得我的野心或者我的志向还是第一流的第二是我因为其实之前做过research嘛所以我其实也天然会带有说我要去做最sorta最前沿的事情的一个原始的初场设置吧所以我觉得这也是我独特的经历就带给我不同的点我们这样插播一下招聘啊就是我们第一轮已经融到钱了然后第二轮目前为止还非常顺利就肯定会融到钱的然后我们收投应该会有几千万然后我们目前的公司会分为三块第一块的话是宣发策我们认为marketing会成为科技公司超级有价值的部分所以我们会招当然marketing的人才第二类的话是我们会招开发不管你是过去的产品经理还是比如说后端开发前端开发只要你能够熟练使用AI工具你都可以加入我们第三的话是research以下几个方向第一可能是跟2L相关的不管是agentRIL还是skillRIL第二块的话我们其实长期会迈向GUI的agent所以可以来我们这做一些computeruse再来的话其实我们因为会涉及到大量视觉的理解以及说视觉的召回所以我们可以来我们这做一些VLM相关的一些模型的微调模型的后续链我们非常开放就是我们可以支持以project形式然後也支持remote的形式反正我們非常渴望人才我聽說你們是一家不開會的公司這是非常AInative的一個做法但是肯定很多人都很好奇一個不開會的公司要怎麼運作我们认为说会议这件事本质是对信息的批次处理它是一种积压然后进行统一的一个对齐那我们的一个做法其实是通过首先我们日常都是坐在线下那简单的问题我们就直接流逝的沟通掉了那再有一个其实是我们在内部实验在Team版本我们大概能够实现两方面的功能第一个功能其实是我们把airjelly放到同一个group里那airjelly和airjelly之间进行对话然后帮助我们弥补某一个gap比如说他可能最新实现了一个feature可能和你那个feature会呃生成一些conflict那我们会提醒你再有一个呢我们也可以提问某一个人的airjelly这样我就可以知道他当前在工作上的进度而不需要说我去打扰他然后把他的呃工作状态给打断啊当然这里我们要特别强调一点就是我们现在airgen里的这个team的分享是我们的伙伴们他可以自己选择share自己的一些工作的中心这绝对不可能说存在我们去做一些监视大家是非常抵视这种过去那种监视软件或者监控软件的这样一种行为我们要我再补充一个就如果是我们去和客户聊的话因为客户目前还没有AzureJelly那我们会跟客户进行会议当然我们的一个构想是呃team在进步完善之后我们会和我们的投资人有个group这样投资人可以直接在呃team里问我的airjelly我们最近的进展是什么然后他就可以很方便的知道我我们最近的一些update呃再有一个的话其实我们在一些长期的目标上我们大家会轮流在黑板上写一些东西然后有一些战略的讨论我认为这个其实不是会议我们把这个定义成古希腊的一种广场就我们轮番上广场来发表演讲和感想然后进行一个长期的愿景的规划对所以综合在此的话我们可以说我们是一个没有贵义的公司咱们的公司的名字我注意到叫持续低伤可不可以讲讲这个名字它是怎样一个由来伤那个词其实很有意思它是一个热力学第二定律它是衡量一个系统的混乱程度所以伤的第一层意思其实是有序我们其实所做的产品也是希望说带给人们有序第二个是伤其实在生物学上薛定諤其實提出過生命以負傷維持也就是說生命它想維持有序它想維持機體它想維持行動都需要不斷地輸入能量然後降低它的傷所以我們想做的其實也是通過我們這樣的產品使用到歸機的token去增強看機的人的有序性和活力同时呢我觉得我们的公司因为现在还是一个小的startup但可能后续也会成长然后也会长大我们不希望说带上一些大公司病所以这一块机体的有序我们希望我们公司能够一直保持一个比较有活力的不僵死的一个状态第三块的话其实是信息学以及说AI的角度信息学的角度上其实是衡量信息的密度那在AI的角度其实在模型训练的时候会有交叉伤的概念它其实衡量的是你预测的分布和真实分布的一个接近程度那我们在这两点做到低伤其实也是希望说通过我们这样的一个产品能够让未来的人机协作越来越接近某一种真相然后越来越接近某一种更高级的一个知识的形态我们刚才其实也有聊到主动式AI要尽量多的采集用户的数据但是采集数据背后确实也是一种信任作为一个新的创业公司AirJelly你们要怎么去说服用户信任你们把它的这么多的屏幕截图都开放给你们尤其因为屏幕截图就意味着微信都能被你们看到这个信任要怎么建立对我觉得我们会分几个方向吧第一个是呃技术上就技术上呃大家肯定放心不管是我们在哪个市场一定会符合当地的法规我们会有呃最全的断断断的加密然后确保我们中间不会去去你的信息再有一个就是我们所有的信息像图片像呃我知道context都会存在你的本地所以你不用担心会有上我们的云青分析再一个的话是我们会有一套PII的系统它会自动把一些相关的人名一些相关的机密信息去脱明化比如说把某一个人名改成personone这样的形式进行分析来保证我们不会拿到你的一些机密的信息的分析第二个的话我觉得其实是情感上就是情感上的话我们会设计一个非常可爱的睡梦的形象通过这样一种方式其实是这让用户觉得我们这样的更加可以接受大概会从技术和情感两个方面但我觉得长期其实这也是一个用户教育的问题因为用隐私换便利那其实在最早期可能就是一些可能说是几十万量级的用户能接受那其实我觉得这也是一个好事因为对于我们一个创业公司来说这样量级的用户对我们来说已经是非常可口的美食了那大公司可能觉得太少就不会去做所以在竞争上其实我觉得隐私也是我们的一个护城河咱们现在只有这个PC端移动端还没有上线而且我在想移动端上了之后是不是也比较难做到定时的截图这个去获取context的这个功能那就会出现一个情况是用户的这种记忆或用户的context你们只捕捉了其中一部分那手机上这一部分就是残缺的那带来的结果可能就是比如说我不知道什么东西是你知道的什么是不知道的因为用久了之后就晕了我也忘了比如说我和一豪是在手机上聊的天还是在电脑上聊的天那当我再去和水母互动的时候我就不知道他到底知道哪些东西不知道哪些东西这是不是一个挺大的麻烦呀这个你们要怎么看待怎么去处理我觉得这个是某种程度也是一个幸福的烦恼吧因为如果真的到那种程度可能会有很多死忠的用户不过我们也可以尽情的畅想一下这个事情首先我们先做PC的一个判断是PC是最贴近生产力的那在绝大多数的生产力场景都是在PC上完成闭环的那我觉得这样其实某种程度已经覆盖了你50%就全量的上下完全年龄足够多的覆盖掉那它整体的效果就已经非常棒那也可能有像Cody刚刚提到的有些东西可能在手机上甚至有些东西可能需要你有一个硬件去捕获这部分的context那我们的做法是我们会逐步的去扩展我们context获取的途径那第一步肯定是手机了那手机我们可能会有一个比如说也是一个悬浮器有可能你点一下可能可以获取或者通过一些按键的触发来获取这样的信息再来的话是硬件长期的话我们应该也会试着和一些硬件的厂商合作就比如说我们在QuickStone的Mafia有一个叫Audis他们这样也好听他们其实是会从硬件获取信息而且我觉得一个非常巧合但本质必然的一个事情是硬件获取的信息和我们屏幕截图都是通过BLM也就是说他直接是获取世界本身的样子和本身的信息所以它天然是打通的我们未来可能通过一些硬件上的适配然后做到把硬件的信息然后手机上的信息和PC上的信息打通实现一个最全量的工作场景的context改然后有另外一个也是关于contacts的获取的问题就是大家大量的聊天工作都在微信上面所以微信的数据可以说就是contacts最大的宝藏之一但是微信又像一座城堡就是你基本上不可能通过hack或者API的方式去得到它那咱们是通过截图可截图有一个问题是怎么才能确保截到的就是重要的呢因为像刚才提到的我们也不能够一直每一秒来一下每一秒来一下那如果只是通过enter在一个群聊里面也很可能他enter的时候就前面另外的人聊了很多已经被滚走了他enter的也只是截到了群聊里面和他发的那句话相关的几句聊天记录不代表着这个事件的全貌我不知道你们就是要怎么去思考解决就这样的麻烦首先判断第一个事情就是我们enter的话能拿到用户的意图这个是对的然后我们其实也一直思考了如果拿到用户意图那反馈怎么办就是我们意图完他可能反馈了这份信息要怎么获取因为我们其实不可能去破解微信所以全量的反馈信息我们肯定是拿不到的但我们做了大概两方面的工作能确保说去弥补这一块第一个是其实你可以理解绝大多数的聊天场景或者跟你相关的聊天场景都是一文一打那一文一打的话其实你当前回复的这句话和用户可能之前回答的那个内容它是能拼接在一起的当然这里会有我们大量event的一个设计会把不同的截图把它合并在一起从而能做到在大量的这样的短的对话上其实它说了啥回复了啥你都是能联系在一起的第二个其实是如果用户有大量长短的对话我们拿不到这个时候我们的一个弥补措施其实是通过enter就是我们的enter其实不只是你在发送对话的时候可以按你平时也可以按你平时按的话它也会补过你额外的信息这样如果有真的有非常关键的信息你可能会遗漏掉这个时候你按一下enter它也会补充到那在长期的话我们可能还会做一个设计就是Tablets它短按长按及连按两下还可能会有不同的动能然后你可以额外输入语音那我们其实也参考这样的设计我们可能结合enter和比如command或者什么键我们可以在节目文章组的时候也输入一部分你的话作为补充从而最大化的优化相关的上下文信息这是让用户把按enter也变成一种习惯就是他不断的在为这个水母给他主动的提供context对其实我觉得enter这个习惯是enter应该是我认为是键盘上最重要的一个键只是他一直被遗忘让用户想起来其实enter是你表达意图最好的方式在AI时代就更要多用enter然后多用我们因为我们就代表了enter代表意图也有一个问题想问一下一郝就是模型今天还是在不断的进步然后巨头也越来越狼性马化腾都在发朋友圈给小龙虾打扣你怎么看在这样一个背景之下作为投资人作为创业者你们要怎么应对这样的挑战非常好的问题我觉得这也是我们对自己的这个要求我觉得就在三个方面就第一方面真的是动态的一起学习和一起成长这件事情很重要我一直在思考这个时代快速变化的时代VC能提供价值是什么有一个很重要就是市场水位在哪里都有些什么前沿的方向这些可能被解释为是简单的信息但如果你呆在信息上有一定自己的思考有自己的总结本身这对创业者来说很重要就是不管你是选择垂直还是选择general本身你做事情到底有多新奇特你到底是守正还是出奇投资人是一个benchmark可以用来比较准因为毕竟我们可能在市场看到项目会更多我们也关注美国的创业项目和最前沿进展这是第一点我们要求自己必须勤勉必须及时地跟创业者一起去沟通的地方第二点是我觉得对于早期创业公司来说重要的是人才就是我们的network里面有些什么样的人尤其互补性的人才我们现在有有个三四个团队的可能连创是我们介绍进去的当然我们还希望能够更多的帮助到这些团队第三块我觉得就的确是我们也要不断拓展业的合作包括可能从HR从视频的制作从跟最优秀的科技合作我觉得这个东西很重要也许只是举手之劳问题是你能不能想到为创业者去做这些事情为创业者去提供更多维度的服务这种我觉得在这个时代里面投资人真正要做的事情我们说到ANNative就QuickStorm也是ANNative基金你们的工作方式或者一些管理的一些原则有没有也有ANNative的部分是我觉得就随着去年CloudCode这一出来然后到了今天OpenCloud对我们的帮助尤其是我们这种新创的人又很少激进来说帮助实在太大了其实主要几个方面我觉得第一阶最简单的就是大量的工作可以自动化和农家化不管是我们去扫GitHub的项目也好扫小公众项目也好尤其是我们带着一些大量复杂的零散的context去寻找这类东西和人的时候它的效率非常高以及它在网络世界里面本身使用工具啊什么能力都非常强除此之外,我们在内部实践是希望不管是我去聊的项目,还是大家接触的LP,接触的业务的合作方,接触到这个大厂里面的大佬啊,或者是技术专家也好,所有的信息能够非常有趣的,这个像样化的存储下来。
然後並且有類似於task,然後其實對我們來說重要的entity就是項目和人,以及它相互交叉,就這兩個核心的維度,以這樣的維度去知識結構存下來,它更大的好處是說對我也好,對黃哥也好,對我們第一個小夥伴Gary也好,每一個人對外的時候都可以全量的知識性的輸出,並且有更好的這個結構性的知識的表達。 对于来的信息都有更好的去反馈去帮到创业者本身更重要的是我们可能甚至有机会更统一地表达我们的文化表达我们的沟通风格然后我们想做第二件事情就要仰仗AirDaily做得更好以后我们就会用他们的系统去把我们的这些甚至平时开会对外讲的一些东西都能很好沉淀下来然后去塑造我们的jelly我们就不做龙虾了我们就做我们的水母希望我们的水母其实能够更主动性去接触更多的创业者也许进步到是创业者的水平这也是一件好事情我们再聊一下未来我们先聊一个比较大家不愿意发生的未来就whatif假如三五年之后AirJelly没做好然后它失败了你觉得最大的失败可能会发生在哪些地方对我觉得可能在AI时代三五年是个唯命题吧就是我觉得可能就是呃一到两年内这样之类的事吧我觉得第一个最大的问题可能是不够快不够快指的是可能我们提出了一个比较好的新范式但可能触达用户太慢这个时候如果等到大厂下厂我们还没有积累到足够的用户和足够多的用户留存记忆那大厂会把我们吃掉这是我觉得AirJelly失败的第一个可能性那第二个可能性还是一个点因为AirJelly的研发我觉得某种程度是一个一个非常精妙的艺术一方面我们要用隐私去换取efficiency我们既要保证说我们要拿到足够多的context让agent的执行效果足够的好让用户感到足够的magical甚至说拿到一些context分析出一些社区的团队的一些玩法但另一方面说用户对我们隐私他到底能够接受到什么程度比如说如果在一个用户还没有准备好的时间直接要了太多的隐私,可能对团队的声誉不够好,如果错掉了,那我觉得就不对了。 所以我们需要一个丝滑的切入节点,以一个让小部分人能够心安理得接受的一个隐私度,同时还要具备一个足够好的efficiency的提升。 我觉得这个是一个火候的艺术,这里我可以说一下就是我们預計在3月18號左右就要開放內測這大概在這個視頻播出之後我們已經開放內測如果你看到了這個視頻回復Cody我們直接給你一個邀請謝我們最後一個問題還是回到我們開場的那一句話我們今天還是相信說人類和AI最佳的工作配合方式還沒有被真的發明出來那如果回頭看有一天他真的被發明出來了然後他也很幸運的是AirJedi發明出來的你暢想一下那會是一個什麼樣的畫面我最想實現的事情是通过研发一个产品它其实作用在生产力它改变了未来的人机协作我觉得未来的人机协作一定是人机高度共生的每个人都会有自己的一个可能是airjelly或者是其他的personalagent然后他有你最全量的生产力相关的信息有了大量这样生产力的信息之后会有一个网络或者一个groupAI和AI之间可以进行协作它起两个作用第一个是它可能把你的一些personalskills的能力带过去这样的话可以代替你进行打工或者生产第二个的话也是它可能也会成为你的一种新型的伙伴就是它非常了解你然后它也跟你一起协作有点类似于宠物小精灵的感觉我们认为未来会是一个生产力极度发达同时这样的一个personalagent能够让你感到不孤独就是让你的心里会有非常好的慰藉他又在提高生产力但同时呢又给了你很好的情感陪伴是一个非常完美的一个搭档然后为什么是一个personalagent呢然后我觉得这个源自于一个比较朴素的哲学思考就是婚姻制之所以是一對一是因為一對一其實它具備一種穩定的特殊性所以你覺得這個人和agent不會是一對多是嗎所以到最後還是會類似一夫一妻制一樣會只有一人一a制對我覺得一定會是這樣因為呃他有非常底层的一个考量就是他某种程度是一个你可以说是自己的延伸或者是自己的影子但如果是一对多的话可能就是你的slave但在agent能力注定超过人类的情况下可能他成为你的slave就在哲学上就说不通這非常有趣的一個觀點非常面向剛才提到你曾經打過辯論但我們也發現比如說明超評陳敏也是辯論隊的就怎麼有那麼多在打過辯論的同學今天在AI裡面創業你覺得這背後有一些規律嗎很多人對辯論有誤解因為很多人對辯論的誤解是你為什麼要明確去講一個單一的或者是有一定偏激的方向你去全力的認同它而不是你認為說兩邊都是講的對的那我可以從辯論以及說辯論對我們的影響上來講一講第一個點是辯論它雙方都持自己的觀點其實是一個逐漸深化的過程如果我们简单的说A是对的那B也是对的那结果就是A和B都是对的就不够了但如果我们持自己双方的观点那我说A的A部分是对的A的B部分是没那么对但是也不错的C部分是可能在某一定场景是对的我们就可以找到说我们这个A到底在哪些场景在哪些情况下到底是什么时候会比B更对我认为这是能够让我们的认知进行一个不断的深化那再有个点是我觉得辩论其实是一件和创业非常像的事情首先你出来之后一定会有一个问题是为什么别人没有做为什么是现在做一定是因为它现在可能存在的一定问题它可能长期能被解决或者是在某种一小类的case下在某个vertical的场景下能成立辩论其实也是一样我们在打了几年我这插播一下我是两届西电十佳辩手我们在锻炼辩论的过程中也是说我们抱着一个注定不那么完美的观点去不断的打磨他去不断的想到他在什么情况是合适的他的什么场景是最优的其实把他这一部分思考的能力换算成创业上也是一样的我们这个产品不需要在所有的人群所有的场景在所有的时刻都是棒的我们只需要找到某一类人群某一类场景在现在甚至是可能三个月后的某一刻它是对的这就足够所以我认为这是辩论思维对于创业非常大的一个非常大的一个训练还蛮有意思的我觉得辩论的很重要的点是其實大學生他對社會本身的各行各業很多社會問題還沒有親身的體驗就變成是一個大家對事情都沒有實體的絕對體感的情況下持所持不同角度進行思維完善互補這樣一個動態的過程所以我覺得這個對年輕人來說特別好的幫助其實你剛畢業嘛工作時間只有半年為什麼在這個時候想著要創業而不是在大廠再多積累一些經驗我覺得可以用一句話去概述這個事情這句話是源自一個類比這句類比是童年是和平年代的假象这句话的意思是我们惯常认知的比如从1到18岁它本身是和平时代的产物因为和平时代每一年都是一样的像我们人的话就是每个人都是18岁去迎接高考所以你可以做到充分的准备只在你那一届和18岁的人竞争但我觉得AI时代来了之后其实不是这样AI时代其实对所有的人类都是一样的它在20年底出了GDP在25年Agent已經發展的非常不錯它其實創業的時間窗口在縮緊所以在26年我覺得不管你在任何的一個階段就是你都應該去這個賽道去嘗試一下就像我才剛下招或者你已經工作幾年了或者你是三十幾歲二十幾歲其實我覺得大家都是一樣的時間大家一起去衝刺所以它是一個AI時刻我覺得某種情況是一個龟鸡对全人类现况的一个宣战它是一个战争时刻所以没有你的童年去发育了大家赶紧冲吧这还蛮有意思的我覺得這個東西就很共鳴感覺很強烈就是總有一些人對一些時代浪潮或節點會更敏感同時在敏感背後還有一種時不我待有一種天將降大任於斯人也就我必須要衝出去的這種urge我覺得這個是非常強烈的就作為投資人來說肯定要投這種人我们录这期播客还是206年3月初然后但是短短的两三个月已经发生了非常多的事情我们都觉得206一定是一个大年所以也想问一下二位你们认为206会发生一些什么我觉得首先是尽快的度过OpenCloud这个浪潮,这只是概念,但是我们要做的事情是更AI原生本身,关注context,关注proactive,关注模型最前沿的进展,因为今年肯定在computeruse方向,在更好的联合计上,在更长程的任务上。 能有更大突破然后每次对创业者来说都还是基于新的模型进展新的框架去找结合的应用点这个是不变道所以对201年我们还是充满了期待也希望更多的创业者能够跟Crypto一起能够给我们这个机会能够给大家提供一点点帮助好那我也讲一下我对206的一个构想就是聊206前肯定要先聊2025就是205年的3月份我还是一个在听minus播客的人那一年之后我就上了koji的播客在205年的年底就是minus被收购了我同样又听了他们一起跟peak的播客然后那个时候我也已经自己出来创业了所以我觉得整个205的发展确实完全超出了我的预期所以我对206其实没有一个上线上的考量不给自己设天花板唯一我觉得206我希望达成的一个事情是我在25年底最终决定出来创业的时候其实看了大量的创业公司然后我也在想是不是要加入他们当时我其实是作为一个可能有一定代表作的年轻人身处自己的迷茫我发现最终他们可能有各种各样的原因我觉得可能是自己出来做是更好的那在26年我或许希望呃成为这样的一家公司我希望把我们的公司我们的产品我们的呃文化吧打造成一种如果在206年的一个年底有一个可能也是做出了某个开源项目或者是发了一个很厉害paper的年轻人他希望去找一个要加入的地方我希望那里不是我们非常好剛才說到205難以想像的時候我就想到其實205年初我們錄了一期播客和蕭紅那是他創業10週年那期播客錄完之後我們標題也定了蕭紅說205一定會跳變跳躍式的變化跳變他說了很多遍他自己的預期他覺得會跳變但是會怎麼變不知道因為那個時候Manas還剛開始在醞釀但那些播客已經在等待一個很好的發佈時機所以我覺得205會跳邊我相信206也會跳邊今天非常開心百特和一號來十字路口我們非常期待艾瑞傑里的上線希望上線一切順利好謝拜拜
Episode: OpenClaw 之后,谁将定义主动式 AI 的新战场?|对谈 AirJelly 黄柏特
Host: Koji
Guest: 黄柏特(AirJelly 创始人)
Special Guest: 一号(AirJelly 天使投资人)
Date: 2026-03-25
本期「十字路口」聚焦在主动式 AI 新领域的变革与创新,特别探讨了 AirJelly 及其创始人黄柏特如何定义和推动“主动式 AI”的新范式。伴随 OpenClaw(龙虾)等产品的发布,AirJelly 如何在激烈的市场和巨头竞争中找到独特突破点?节目深入解析主动式 AI 的演进、挑战、产品设计思路以及创业者应具备的心态和方法论。
快速问答:
创业故事:
从开源项目 MineContext 出发,早期聚焦于定时屏幕截图分析,升级迭代后发展出 AirJelly,采用事件驱动的截图机制与执行功能。“我们做了简易化、多进程协作,但最后发现,核心壁垒是 context 的获取与存储,这才是突破口。”(黄柏特,06:50)
Enter 键 Trigger 机制
“人与外界信息交互,意图表达其实都是通过 enter。我们定下的一个小目标,就是‘重新定义 Enter’——每次用户按下 enter,就是表达明确意图的关键节点,用它截图捕获最佳上下文。”(黄柏特,08:45)
与传统定时截图的对比
Enter-trigged 截图远胜定时,噪音更低,更精准。“用 Enter 后,能确保捕获到的是意图行为,不再是杂乱无章的浏览。”(09:40)
投资人一号的用户体验:
“AirJelly 最大的魔法时刻,是你感觉有人在看你工作并及时主动帮助你,超越了单纯的 context 注入,它能主动推测和分解复杂任务。”(一号,11:40)
内部开发用 AirJelly 写 AirJelly 的例子;招聘找回“图片简历”事件:
“AirJelly 能横跨微信、Boss直聘、桌面文件‘连点成线’,召回相关数据。它不是简单检索,而是能捕获跨场景的 context。”(黄柏特,15:50)
主动式 AI 的本质和广义/狭义分类
主流产品对比(Proactor、OpenAI Pulse、小龙虾等)
Context 采集与组织的工程挑战
巨头跟进后的差异与壁垒
创业心态与产品哲学
顺着用户意图“延长线”主动推进行为,而不是信息发散式提醒
提醒频率的千人千面与动态调整
“龙虾”代表执行能力,信息感知差;“水母”代表 context 感知力爆表,再结合 agent 框架,有巨量提升
“水母有非常强的感知,叠加龙虾 borrowed 架构,飞跃龙虾体验。”(黄柏特,44:32)
用户养成机制与情感联结
不开会的 AI-native 公司运作法
公司名“持续低伤”的由来
可能失败风险:增长不够快:大厂下场前积累不够多记忆用户;用隐私换效能的“火候艺术”。
终极愿景:“人机高度共生,每个人都拥有人格化 personal agent,有如宠物小精灵一样的陪伴。”(黄柏特,01:18:10)
“未来的人机协作是 personal agent 帮你工作,也让你感到不孤独。就像婚姻制一对一,Personal Agent 也是一对一。”
(黄柏特,01:18:44)
“主动式 AI 一定是基于你的意图和上下文,不是简单的 remind,而是预测你的下一步。”
— 黄柏特 [19:30]
“养 agent,产品成了伙伴——有情感的共生才有留存。”
— 一号 [45:12]
“创业不是在所有场景都最好,只需要某一刻最对就足够。”
— 黄柏特 [01:22:40]
“AI 是人类的总动员宣战书,没有你的童年去发育了,大家赶紧冲吧。”
— 黄柏特 [01:24:08]
讨论深入但不失活泼,充满创业青年的野心与理想,糅合技术极客与哲思人文。语言真切,案例鲜活,有大量“创业焦虑”与“改变世界”的冲动在。
本期精华:“主动式 AI 领域的新范式,个人 agent 将成为人类生产力与日常陪伴的‘宠物小精灵’,而产品成败的鲜明分界,在于是否抓住了 context、记忆与执行间的魔法时刻。”