注:在之前的文章中,我们详细拆解了CGRA粗粒度可重构架构的底层原理。今天,我们从更广义的可重构计算范畴,谈一下可重构计算的进化史。

在人工智能的黄金时代,英伟达的GPU几乎成了算力的代名词。但如果你问一个芯片架构师,他可能会叹口气,告诉你——传统的冯·诺依曼架构,不管是CPU还是GPU,正撞上两堵墙: 一堵叫"存储墙",一堵叫"功耗墙"。

什么意思呢?打个比方。以前的计算模式,像在食堂排队打饭:数据躺在内存里,计算单元坐在老远的地方。你端着盘子来回跑。模型参数少的时候还能忍,现在动辄千亿参数——数据搬运的时间,比真正干活的工夫还长。

于是,一种叫可重构计算(CGRA)的技术,从实验室冲向万亿参数的战场。它不再是一颗焊死逻辑的"计算工厂",而是一盒能随算法实时变形、重新拼装的"数字乐高"。

从Google TPU的脉动阵列,到Groq极致确定性的LPU,再到SambaNova的可重构数据流——一些全球一线玩家在做同一件事:挣脱"指令驱动"这副旧镣铐。而在国内,可重构技术走了三代,从"芯片创新"攀登到"系统革命",在后GPU时代试图定义全新的计算范式。

一、谁在挑战GPU的王座?

先看看国际大厂是怎么破局的。除了英伟达自己,最顶尖的算力玩家几乎都在逃离传统的指令驱动架构。

Google TPU:它的核心是"脉动阵列"(Systolic Array)。数据像血液一样在处理单元间流淌,每一步完成一次矩阵乘加,极大减少了对内存的反复访问。思路很简单——让数据少跑路,让计算多在原地完成。

Groq (LPU):作为硅谷的明星,它干了一件疯狂的事:直接砍掉了Cache和分支预测,完全靠软件精确调度硬件的每一拍。追求的是"绝对确定性"——让大模型生成的延迟低到你几乎感觉不到。

SambaNova:提出"可重构数据流(RDU)"架构。三层存储体系加上可重构的数据链路,硬件不再是铁板一块,而是主动去"迁就"软件的数据流图——什么形状的算法进来,就变成什么形状的加速器。

这些技术的共同点只有一个:与其让数据在芯片里疲于奔命,不如重构硬件结构,让计算就在数据流过的地方发生。

二、 可重构 1.0:从“翻手册”到“流水线乐高”

GPU的核心优势是极致并行,但它的致命伤也很清楚——搬运成本太高。

在费劲的传统架构里,计算单元(ALU)和存储器(Memory)是物理分开的。数据像是在堵车的早高峰公路上,反复在寄存器、缓存和显存之间穿梭。不管你是跑视频、打游戏还是做AI推理,数据都得乖乖走一套铁打的流程——取指令,译码,执行,写回。

这就好比,你每次钉钉子之前,都得先翻开《木工手册》,看完"第37页第2条",然后再动手。这种"指令驱动"的模式,让芯片里40%以上的能量,耗在了搬运数据和解读指令上,而不是真正干活。

可重构架构打破了这套规矩。它不靠死板的指令调度,而是靠"数据流"驱动。你的算法要做卷积运算?芯片内部成千上万个微小计算单元(PE),会在微秒之间自动"拼接"成一个专属卷积引擎。硬件随软件而变。芯片不再是一块冰冷的硅板,而像一个能呼吸、会变形的活物。

在传统架构里,做一个加法,需要走完【取指→译码→执行→回写】四步——费死劲了。而在数据流驱动的模式里,编译器把算法转成一张"数据流图"(DFG),芯片上的处理单元(PE)按照这张图在微秒级时间里自动连线,瞬间把自己拼成对应算子的专属生产流水线。

上图给出了CGRA硬件映射逻辑,编译器会将算法转化为一张数据流图(DFG)。在芯片内部,大量的粗粒度处理单元(PE)会根据这张图在微秒级时间内自动连线,瞬间“拼接”出一个专属的卷积引擎。

数据像水一样流过各个PE,直接出结果——省掉了中间写回内存的那一步。这就是"近存计算":算在数据身边,不跑来跑去。效果怎么样?中间结果写入外部DRAM的量,减少了90%以上。同等制程下,能效比可以达到传统GPU的数倍。

三、 可重构 2.0:+ 去交换机,算力“手拉手”

AI进入万亿参数时代后,单颗芯片扛不住了。传统路子靠昂贵的InfiniBand交换机把所有芯片连起来。更像城市交通:所有车都得从巨型环岛绕一圈,流量一大,全堵在路口。

可重构2.0把思路反了过来。以国内某AI芯片公司为例—— 他们的自研技术叫TSM-LINK,核心思路就四个字:去交换机。芯片直连芯片,服务器直连服务器,机柜直连机柜。中间那一层交换机,直接拿掉。

几千颗芯片通过环形网格(Torus-X)拓扑,在逻辑上变成一个巨大的"超节点"。跨芯片通信延迟从几十微秒压到了微秒级——不到1微秒。(图4)

这意味着什么?一台服务器就能撑住DeepSeek R1/V3这种"满血版"万亿参数模型的推理。没有交换机这层中间商赚差价,能效比大幅提升。

2.0架构把每一颗芯片都变成了有"多维路由"能力的智能节点。芯片之间直接"手拉手",像几颗芯焊成一颗巨大的"单片"超级芯片。这对部署大模型的开发者来说,意味着智算中心的建设和运维成本可以砍掉一大块。

四、 可重构 3.0:+ 在三维空间推倒“存储墙”

2.0在广度上做文章。3.0往高度要性能。

大模型推理时,数据在存储和计算之间跑来跑去的速度,永远跟不上计算单元的胃口。当2D平面的布线已经挤不下更多晶体管,答案只有一个——往上走。3D堆叠和Chiplet(芯粒)集成,是这张牌的关键。

通过TSV(硅通孔)技术,把计算层和存储层直接垂直互联。以前数据要走几厘米的PCB铜线,现在只需要走几微米的垂直金属柱。访存带宽直接提升数倍。

这就像什么呢?把原来隔了几条街的仓库,直接搬到办公室楼上,中间用无数部超高速"垂直电梯"连接。

3.0架构走的更远——3.5D高密合封,异构三维存算融合。不光是"把存储贴在计算旁边",而是"把计算和存储盖在一起"。这种"存算一体"的终极形态,让单台服务器就能吞吐万亿级模型,彻底告别"带宽饥渴"。

再往后看,未来的路线图指向一条更激进的路径:晶圆级计算。把整片晶圆当成一颗芯片来做,用CPO(共封装光学)直接从芯片引出光信号,靠OCS(全光交换)实现全域无阻塞的极限低延迟互连。"数据中心即芯片"——The Data Center as a Wafer-Scale Chip——从梦想走进图纸。

在2026年迎接了接连三连炸:

Cerebras——5月14日,整片晶圆级的WSE-3登陆纳斯达克,IPO定价185美元,首日涨68%,市值670亿美元。2026年迄今全球最大IPO。"晶圆级推理"正式进入主流商业场景。SambaNova——2月24日发布3nm SN50 RDU芯片,FP8算力达3.2 PFLOPS,较前代跃升五倍。软银第一时间部署于日本AI数据中心。英伟达——在GTC 2026上,把LPU与Vera Rubin GPU异构配对。这表示推理的未来,在多架构融合的边界。

三条路线,仍是同一种信仰:让硬件向软件倾斜,让计算发生在数据流过的地方。

可重构之路,从1.0的数据流替代指令流,到2.0的无交换机直连组网,到3.0的三维存算融合,正在向同一个方向汇聚——不是为了替代GPU,而是为了在晶圆级的尺度上,重新定义"什么是算力"。

后GPU时代已经开始了。规则,正在由可重构架构来书写。

五、 软件为魂:FlagOS 让大模型“拎包入住”

硬件再强,没软件生态也是一座"硅基孤岛"。CUDA生态是英伟达最深的护城河。国产可重构系统怎么翻过去?答案是——不翻了,搭自己的桥。

FlagOS,一个自主可控的开源软件栈,由北京智源人工智能研究院牵头,联合清华、北大、中科院及十几家芯片厂商共同打造,已有79家成员单位。目标是"一次开发,多芯运行",目前已支持18家厂商32款芯片。

对习惯了PyTorch和Triton的开发者来说,这意味着极低的迁移门槛。通过FlagTree编译器,你用统一的语言写好算子,编译器自动把它编译到可重构架构上——算子覆盖度已接近100%。

FlagGems开源算子库,向社区贡献了全球最大的Triton单一算子库,深度兼容PyTorch。一句话:不需要重写一行代码,就能在可重构架构上跑DeepSeek或Qwen。

底层打通PyTorch、vLLM等主流框架,计算库TXDNN和TXBLAS提供支撑。你可以在英伟达GPU上训练好的模型,近乎零成本地平滑迁移到可重构架构上。拎包入住,少废话。

这样的可重构架构在底层实现了与 PyTorch、vLLM 等主流框架的无缝对接。通过 TXDNN 和 TXBLAS 等核心计算库,开发者可以将在英伟达 GPU 上训练好的模型,几乎零成本地平滑迁移到可重构架构上 。

这种全域协同的底座,使得可重构算力能够覆盖从云端大算力到边缘端实时推理的全场景 。从云端的大模型推理,到边缘端的机器人具身智能,甚至是未来天基计算中的高能效处理,可重构计算正在证明自己不仅仅是 GPU 的补充,更是在迈向通用人工智能(AGI)道路上,一种更高效、更优雅、也更具生命力的物理支撑。

结语:

可重构计算正站在浪尖上:1.0的PE阵列重组,2.0的集群网络直连,3.0的三维物理融合,4.0的晶圆级计算。每一步都在还原计算最本来的样子:简单,高效,随需而动。算力的未来,不在于我们在硅片上堆了多少晶体管,而在于我们以什么样的姿态,去重构智能的底座。

通过"架构提效能"、"互联聚算力"、"集成补制程"的系统化思路,以清微智能为代表的国内厂商走出了一条自主、务实的发展道路。在Agent和Token经济时代,可重构算力将不再只是一种"替代方案",而是迈向AGI的物理底座。

让每一颗芯片都能根据任务需求"变幻"其逻辑结构——这不只是硅片上的艺术,更是重塑未来智能社会的关键引擎。

【注】本文原理图中的数字,仅表示性能数量级内的概数,并非具体某款产品测试数据,目的是为了说明可重构技术架构和概念。