仅4B大小可端侧部署！卡帕西预言的「认知模型」被国产做出来了,卡帕西亚号模型

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

好家伙，卡帕西又说对了！

几个月前，这位OpenAI创始成员在访谈中抛出了一个判断：“推理模型要变天了！”

仅需10亿参数，就能构建起非常优秀的「认知核心」——一个剥离了海量事实记忆、只保留思考算法的智能单元。

结果万万没想到，如今有这样一支中国团队已经率先实践。

小冰之父李笛集结微软小冰原班人马，带着仅成立半年的AI初创公司Nextie（明日新程），刚刚推出了行业首个认知模型「新程Alpha」。

何为首个？事实上，明日新程对认知模型的押注和卡帕西几乎是同一时期给出。

在去年12月的奇绩创坛Demo Day上，明日新程首度公开亮相就明确提出：

AI进化终点不是更大的单体大模型，认知模型才是下一周期行业趋势。

凭借敏锐的行业嗅觉，他们愣是提前卡位、极限抢跑，于是有了今天的新程Alpha。

特别的是，这个模型只有区区4B参数，在动辄千亿万亿、模型参数卷到飞起的大模型里，可谓一股清流。

但就是这么个轻量级选手，却把很多推理大模型做不到的事情做成了：以下克上，不仅搞定了模型算力的痛，最终效果还能比肩第一梯队的GPT-5.4。

这下再也不用月底为Token账单发愁了。（doge）

算力成本立省100%，从烧显卡变成了交电费，而且直接端侧能跑。

那么问题来了，为啥这个认知模型可以以小搏大？和主流的知识型推理模型又有什么本质不同？量子位深入挖了挖。

认知模型成行业新共识

卡帕西的这场访谈，核心其实就一句话：知识不等同于智能。

现有的推理模型正集体陷入「Scaling困境」，行业默认参数越大、知识越多，模型就越聪明。

结果呢？那些拥有庞大知识库的模型，看似能解决复杂的数学和编程问题，却总是在细节处频频被网友捉虫，比如“200元取钱”这类逻辑陷阱，甚至说strawberry中有几个“r”这样的简单问题。

由Claude生成

单靠死记硬背，模型是学不会深度思考的，尤其是在长程任务中，稍有不慎还会导致错误滚雪球似的指数级放大。模型认知负担越来越重，Token账单也越来越离谱。

比如最近亚马逊员工疯狂用AI，用到公司都不得不紧急关停内部AI排行榜。倒不是因为效果不够好，是算力用得太吓人了，预算再高也架不住这种烧法。

养龙虾更是如此，每个月我的会员额度都在和钱包打架，扛不住啊扛不住……

而这，几乎是今年大厂的普遍真实写照。

看着手里的账单，于是行业内开始复盘，或许问题的核心压根不在知识多少上，而是模型到底会不会组织知识。

前者是拥有知识，后者是运用知识。知识本身已经不再是最稀缺的资源，如何建立知识之间的关系才是关键。

这就引出了认知模型的概念。

传统的知识型推理模型还是在已有知识中找答案，但认知模型不一样，它具备自主思考和规划能力，能够把单一场景下的思维策略泛化到另一个不相关领域。

这就好比某九段围棋选手，如果只会死记硬背棋谱，那他最多只能算是棋痴，但好巧不巧，他是真的懂棋，能够掌握棋局背后的博弈本质，哪怕让他换赛道去打扑克，也能拿到世界冠军。

所以更进一步说，真正的认知核心应该能被剥离出来——轻量、可泛化、低成本。

这不仅是一家之言，OpenAI、谷歌DeepMind近来都在明显加强对多智能体协作、长期规划、世界模型和群体智能等方向的投入。

究其根本，都是对提升模型底层认知能力与协作能力的探索。

传递出的信号也很明确：推理模型下一步朝哪里进化？认知模型。

行业首个认知模型，4B参数比肩GPT-5.4

为此，Nextie做了件很「笨」的事。

团队硬是一口气梳理了从1800年到2020年，跨越220年的人类学术论文，试图从中归纳总结出群体智能的演化脉络，先学习咱们老祖先是怎么做的。

随处可得的互联网数据垃圾倒是不吃了，转头把人类学术老底挖得一干二净。

不过这一套下来，麻烦是麻烦，但确实行之有效。

在深度拆解人类社会是如何通过辩论、反思、挑战、投票，做出更好的决策后，团队提出了五个评估维度，用以判断群体智能的有效性，包括视角完备性、隐含诉求满足度、辩证深度、落地实操性和决策可解释性。

就是这套方法论，让新程Alpha在群体智能任务中，以4B参数规模等效于GPT5.4等大模型的输出效果。

相对的，Nextie也很「聪明」。与其把精力浪费在重复造模型上，他们选择在已有的开源推理模型上做强化学习，解耦知识与认知。

通俗讲，就是凝练模型的认知核心，让模型真正学会如何思考，训练的目标就是强化模型的泛化和抽象能力，做到不同场景举一反三。

其中，4B大小的参数量，刚刚好是一个黄金尺寸。

大到足以承载复杂的思考算法，小到可以在苹果MacBook、具身智能设备等端侧直接部署，实现低成本运行。

光说不练假把式，数据反映得很直观：在群体智能任务上，4B的新程Alpha效果不输GPT-5.4这些大参数模型。

换言之，参数量并不构成长期壁垒，认知架构才是，而且潜力无穷。

这也意味着三个层面的范式转移。

第一，Harness多智能体决策场景下的质量提升。

在Harness等多智能体系统中，认知模型自带视角多样性和思辨buff，能够为Agent提供统一的规划推演能力。

以前是多个智能体并行工作，现在有了认知模型，多个Agent就能协同思考，从而显著提升复杂决策任务中的质量一致性。

第二，算力成本断崖式下降。

这可能是用户最直观的感受，4B参数端侧能跑，省下来的可不只是一点点，直接是一整个数量级的差距。

举个例子，如果用常见推理大模型让机器人做家务，家庭压根用不起，稍微思考一下就是海量Token，还不如请一个真人保姆。4B的认知模型则是把价格打下来了，日常场景第一次变得经济可行。

模型本身是在做减法，减掉非必要的云端部署开销，人人都能在本地设备里随时调用，只需消耗几格电池而已。

第三，Proactive场景彻底解锁。

以往Agent都是被动等命令（Reactive），需要等待用户下指令才能动，大部分时间都是闲置中。还是因为成本的压力，很难放手让主动行动（Proactive）形成规模化。

但新程Alpha够便宜，运行7x24小时也不用心疼，这下Agent终于可以不间断自主规划与执行，能够执行更多更复杂的任务。

小冰之父再出手，思路不变技术升级

再来看背后操刀的团队——Nextie，不可不谓之大胆。

在全球尚无成熟先例的前提下，敢于做首个认知模型，几乎是反商业常识的。

但如果我们把视线拉远，深究团队的来时路，便会发现这个决定其实每一步都有迹可循。

Nextie是一家非常年轻的初创公司，去年12月才刚刚成立。公司虽新，核心成员们却个个都是身经百战的AI老兵，经验相当丰富。

掌舵Nextie的，是「小冰之父」李笛，也是微软亚洲工程院前常务副院长，把小冰从零带到独立公司的核心推动者，长期负责小冰整体技术与产品方向。

站在他身边的，一个是曾敏，小冰联合创始人、微软前首席研发总监，负责过小冰开放域对话系统的整体设计与大规模稳定运行。

另一个是王文斓，小冰前大模型与算法负责人、英特尔前架构师/技术委员会委员，长期负责小冰大模型与算法体系。

他们从小冰再到Nextie，其实一直在问同一个问题：智能体如何能够更好地完成协作？

小冰时代解决的是「一个智能体怎么聊天」，底层铺就的是工程化、产品化和大规模用户验证，而Nextie更像是从一个小冰升级成一群小冰，也就是「一群智能体怎么聊天」，地基就是上一轮小冰时代的经验，一步步往上盖楼。

比如在2023年初，李笛团队就推出了“小冰链”（X-CoTA），验证了思考过程透明化的价值所在。小冰链仅使用了GPT-3约2%的参数量，便实现了透明思维链构建，并能够在推理过程中实时获取外部信息、做出行动决策。

这恰恰是多智能协作的前提条件，先让每个Agent的思考过程可观测、可追溯。

然后在2023年底，团队就用3.6B的开源模型rinna（日本小冰）击败了Meta的65B Llama，登顶日本Hugging Face排行榜。

参数量足足差了将近20倍，结果照赢。可以说小参数+高质量架构路线一直是小冰团队的拿手好戏。

到了去年底，李笛带队创立Nextie，终于得以复用以上全部技术积累，重仓布局Harness群体多智能体赛道，更是在今年先后推出团子多Agent平台和新程Alpha，群体智能与认知模型两只靴子同时落地。

说白了，它们正是Harness多智能体最为关键的一体两面，既让Agent长脑子，又让Agent会合作，二者之间互为引擎、层层递进，共同构成了Nextie的先发优势。

其实Harness这个概念直到今年才被彻底点燃，意为模型的约束系统。

2月OpenAI发布报告《Harness engineering: leveraging Codex in an agent-first world》，用3人5个月、AI写100万行代码的实例，将Harness置于Agent工程的C位，Harness瞬间出圈。

趁热打铁，OpenAI还在3月份投资了一家多智能体协作与群体智能公司Isara，公司估值直接飙升至6.5亿美元，进一步反映出资本市场对该方向的关注。

从某种意义上说，Harness群体多智能体正在成为继大模型、Agent后的新焦点，而在这一波新浪潮中，Nextie的实力放眼全球都有目共睹。

IDI（智能深度评测）显示，Nextie在这个领域的布局更深。

资本也给出了相同的判断。在成立四个多月时，就连续完成两轮融资，其中天使轮由创新工场、Atypical Ventures联合领投，奇绩创坛跟投。

李开复、陆奇两大AI圈顶级风向标投资人更是罕见同框押注。Nextie表示，当前资金储备已够未来三到五年持续创新所需。

但Nextie并非赶上了趋势，而是早有预备下的延期兑现。

用李笛的话来说就是：

自2022年以来，我们一直在准备这个时刻。

而Nextie的下一程，已然出发——

继新程Alpha之后，泛化能力更强的8B认知模型，正在加速训练上桌～