鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
好家伙,卡帕西又说对了!
几个月前,这位OpenAI创始成员在访谈中抛出了一个判断:“推理模型要变天了!”
仅需10亿参数,就能构建起非常优秀的「认知核心」——一个剥离了海量事实记忆、只保留思考算法的智能单元。
结果万万没想到,如今有这样一支中国团队已经率先实践。
小冰之父李笛集结微软小冰原班人马,带着仅成立半年的AI初创公司Nextie(明日新程),刚刚推出了行业首个认知模型「新程Alpha」。
何为首个?事实上,明日新程对认知模型的押注和卡帕西几乎是同一时期给出。
在去年12月的奇绩创坛Demo Day上,明日新程首度公开亮相就明确提出:
AI进化终点不是更大的单体大模型,认知模型才是下一周期行业趋势。
凭借敏锐的行业嗅觉,他们愣是提前卡位、极限抢跑,于是有了今天的新程Alpha。
特别的是,这个模型只有区区4B参数,在动辄千亿万亿、模型参数卷到飞起的大模型里,可谓一股清流。
但就是这么个轻量级选手,却把很多推理大模型做不到的事情做成了:以下克上,不仅搞定了模型算力的痛,最终效果还能比肩第一梯队的GPT-5.4。
这下再也不用月底为Token账单发愁了。(doge)
算力成本立省100%,从烧显卡变成了交电费,而且直接端侧能跑。
那么问题来了,为啥这个认知模型可以以小搏大?和主流的知识型推理模型又有什么本质不同?量子位深入挖了挖。
卡帕西的这场访谈,核心其实就一句话:知识不等同于智能。
现有的推理模型正集体陷入「Scaling困境」,行业默认参数越大、知识越多,模型就越聪明。
结果呢?那些拥有庞大知识库的模型,看似能解决复杂的数学和编程问题,却总是在细节处频频被网友捉虫,比如“200元取钱”这类逻辑陷阱,甚至说strawberry中有几个“r”这样的简单问题。
由Claude生成
单靠死记硬背,模型是学不会深度思考的,尤其是在长程任务中,稍有不慎还会导致错误滚雪球似的指数级放大。模型认知负担越来越重,Token账单也越来越离谱。
比如最近亚马逊员工疯狂用AI,用到公司都不得不紧急关停内部AI排行榜。倒不是因为效果不够好,是算力用得太吓人了,预算再高也架不住这种烧法。
养龙虾更是如此,每个月我的会员额度都在和钱包打架,扛不住啊扛不住……
而这,几乎是今年大厂的普遍真实写照。
看着手里的账单,于是行业内开始复盘,或许问题的核心压根不在知识多少上,而是模型到底会不会组织知识。
前者是拥有知识,后者是运用知识。知识本身已经不再是最稀缺的资源,如何建立知识之间的关系才是关键。
这就引出了认知模型的概念。
传统的知识型推理模型还是在已有知识中找答案,但认知模型不一样,它具备自主思考和规划能力,能够把单一场景下的思维策略泛化到另一个不相关领域。
这就好比某九段围棋选手,如果只会死记硬背棋谱,那他最多只能算是棋痴,但好巧不巧,他是真的懂棋,能够掌握棋局背后的博弈本质,哪怕让他换赛道去打扑克,也能拿到世界冠军。
所以更进一步说,真正的认知核心应该能被剥离出来——轻量、可泛化、低成本。
这不仅是一家之言,OpenAI、谷歌DeepMind近来都在明显加强对多智能体协作、长期规划、世界模型和群体智能等方向的投入。
究其根本,都是对提升模型底层认知能力与协作能力的探索。
传递出的信号也很明确:推理模型下一步朝哪里进化?认知模型。
为此,Nextie做了件很「笨」的事。
团队硬是一口气梳理了从1800年到2020年,跨越220年的人类学术论文,试图从中归纳总结出群体智能的演化脉络,先学习咱们老祖先是怎么做的。
随处可得的互联网数据垃圾倒是不吃了,转头把人类学术老底挖得一干二净。
不过这一套下来,麻烦是麻烦,但确实行之有效。
在深度拆解人类社会是如何通过辩论、反思、挑战、投票,做出更好的决策后,团队提出了五个评估维度,用以判断群体智能的有效性,包括视角完备性、隐含诉求满足度、辩证深度、落地实操性和决策可解释性。
就是这套方法论,让新程Alpha在群体智能任务中,以4B参数规模等效于GPT5.4等大模型的输出效果。
相对的,Nextie也很「聪明」。与其把精力浪费在重复造模型上,他们选择在已有的开源推理模型上做强化学习,解耦知识与认知。
通俗讲,就是凝练模型的认知核心,让模型真正学会如何思考,训练的目标就是强化模型的泛化和抽象能力,做到不同场景举一反三。
其中,4B大小的参数量,刚刚好是一个黄金尺寸。
大到足以承载复杂的思考算法,小到可以在苹果MacBook、具身智能设备等端侧直接部署,实现低成本运行。
光说不练假把式,数据反映得很直观:在群体智能任务上,4B的新程Alpha效果不输GPT-5.4这些大参数模型。
换言之,参数量并不构成长期壁垒,认知架构才是,而且潜力无穷。
这也意味着三个层面的范式转移。
第一,Harness多智能体决策场景下的质量提升。
在Harness等多智能体系统中,认知模型自带视角多样性和思辨buff,能够为Agent提供统一的规划推演能力。
以前是多个智能体并行工作,现在有了认知模型,多个Agent就能协同思考,从而显著提升复杂决策任务中的质量一致性。
第二,算力成本断崖式下降。
这可能是用户最直观的感受,4B参数端侧能跑,省下来的可不只是一点点,直接是一整个数量级的差距。
举个例子,如果用常见推理大模型让机器人做家务,家庭压根用不起,稍微思考一下就是海量Token,还不如请一个真人保姆。4B的认知模型则是把价格打下来了,日常场景第一次变得经济可行。
模型本身是在做减法,减掉非必要的云端部署开销,人人都能在本地设备里随时调用,只需消耗几格电池而已。
第三,Proactive场景彻底解锁。
以往Agent都是被动等命令(Reactive),需要等待用户下指令才能动,大部分时间都是闲置中。还是因为成本的压力,很难放手让主动行动(Proactive)形成规模化。
但新程Alpha够便宜,运行7x24小时也不用心疼,这下Agent终于可以不间断自主规划与执行,能够执行更多更复杂的任务。
再来看背后操刀的团队——Nextie,不可不谓之大胆。
在全球尚无成熟先例的前提下,敢于做首个认知模型,几乎是反商业常识的。
但如果我们把视线拉远,深究团队的来时路,便会发现这个决定其实每一步都有迹可循。
Nextie是一家非常年轻的初创公司,去年12月才刚刚成立。公司虽新,核心成员们却个个都是身经百战的AI老兵,经验相当丰富。
掌舵Nextie的,是「小冰之父」李笛,也是微软亚洲工程院前常务副院长,把小冰从零带到独立公司的核心推动者,长期负责小冰整体技术与产品方向。
站在他身边的,一个是曾敏,小冰联合创始人、微软前首席研发总监,负责过小冰开放域对话系统的整体设计与大规模稳定运行。
另一个是王文斓,小冰前大模型与算法负责人、英特尔前架构师/技术委员会委员,长期负责小冰大模型与算法体系。
他们从小冰再到Nextie,其实一直在问同一个问题:智能体如何能够更好地完成协作?
小冰时代解决的是「一个智能体怎么聊天」,底层铺就的是工程化、产品化和大规模用户验证,而Nextie更像是从一个小冰升级成一群小冰,也就是「一群智能体怎么聊天」,地基就是上一轮小冰时代的经验,一步步往上盖楼。
比如在2023年初,李笛团队就推出了“小冰链”(X-CoTA),验证了思考过程透明化的价值所在。小冰链仅使用了GPT-3约2%的参数量,便实现了透明思维链构建,并能够在推理过程中实时获取外部信息、做出行动决策。
这恰恰是多智能协作的前提条件,先让每个Agent的思考过程可观测、可追溯。
然后在2023年底,团队就用3.6B的开源模型rinna(日本小冰)击败了Meta的65B Llama,登顶日本Hugging Face排行榜。
参数量足足差了将近20倍,结果照赢。可以说小参数+高质量架构路线一直是小冰团队的拿手好戏。
到了去年底,李笛带队创立Nextie,终于得以复用以上全部技术积累,重仓布局Harness群体多智能体赛道,更是在今年先后推出团子多Agent平台和新程Alpha,群体智能与认知模型两只靴子同时落地。
说白了,它们正是Harness多智能体最为关键的一体两面,既让Agent长脑子,又让Agent会合作,二者之间互为引擎、层层递进,共同构成了Nextie的先发优势。
其实Harness这个概念直到今年才被彻底点燃,意为模型的约束系统。
2月OpenAI发布报告 《Harness engineering: leveraging Codex in an agent-first world》,用3人5个月、AI写100万行代码的实例,将Harness置于Agent工程的C位,Harness瞬间出圈。
趁热打铁,OpenAI还在3月份投资了一家多智能体协作与群体智能公司Isara,公司估值直接飙升至6.5亿美元,进一步反映出资本市场对该方向的关注。
从某种意义上说,Harness群体多智能体正在成为继大模型、Agent后的新焦点,而在这一波新浪潮中,Nextie的实力放眼全球都有目共睹。
IDI(智能深度评测)显示,Nextie在这个领域的布局更深。
资本也给出了相同的判断。在成立四个多月时,就连续完成两轮融资,其中天使轮由创新工场、Atypical Ventures联合领投,奇绩创坛跟投。
李开复、陆奇两大AI圈顶级风向标投资人更是罕见同框押注。Nextie表示,当前资金储备已够未来三到五年持续创新所需。
但Nextie并非赶上了趋势,而是早有预备下的延期兑现。
用李笛的话来说就是:
自2022年以来,我们一直在准备这个时刻。
而Nextie的下一程,已然出发——
继新程Alpha之后,泛化能力更强的8B认知模型,正在加速训练上桌~