可重构计算进化史: 重塑大模型算力底座

注：在之前的文章中，我们详细拆解了CGRA粗粒度可重构架构的底层原理。今天，我们从更广义的可重构计算范畴，谈一下可重构计算的进化史。

在人工智能的黄金时代，英伟达的GPU几乎成了算力的代名词。但如果你问一个芯片架构师，他可能会叹口气，告诉你——传统的冯·诺依曼架构，不管是CPU还是GPU，正撞上两堵墙: 一堵叫"存储墙"，一堵叫"功耗墙"。

什么意思呢？打个比方。以前的计算模式，像在食堂排队打饭：数据躺在内存里，计算单元坐在老远的地方。你端着盘子来回跑。模型参数少的时候还能忍，现在动辄千亿参数——数据搬运的时间，比真正干活的工夫还长。

于是，一种叫可重构计算（CGRA）的技术，从实验室冲向万亿参数的战场。它不再是一颗焊死逻辑的"计算工厂"，而是一盒能随算法实时变形、重新拼装的"数字乐高"。

从Google TPU的脉动阵列，到Groq极致确定性的LPU，再到SambaNova的可重构数据流——一些全球一线玩家在做同一件事：挣脱"指令驱动"这副旧镣铐。而在国内，可重构技术走了三代，从"芯片创新"攀登到"系统革命"，在后GPU时代试图定义全新的计算范式。

一、谁在挑战GPU的王座？

先看看国际大厂是怎么破局的。除了英伟达自己，最顶尖的算力玩家几乎都在逃离传统的指令驱动架构。

Google TPU：它的核心是"脉动阵列"（Systolic Array）。数据像血液一样在处理单元间流淌，每一步完成一次矩阵乘加，极大减少了对内存的反复访问。思路很简单——让数据少跑路，让计算多在原地完成。

Groq (LPU)：作为硅谷的明星，它干了一件疯狂的事：直接砍掉了Cache和分支预测，完全靠软件精确调度硬件的每一拍。追求的是"绝对确定性"——让大模型生成的延迟低到你几乎感觉不到。

SambaNova：提出"可重构数据流（RDU）"架构。三层存储体系加上可重构的数据链路，硬件不再是铁板一块，而是主动去"迁就"软件的数据流图——什么形状的算法进来，就变成什么形状的加速器。

这些技术的共同点只有一个：与其让数据在芯片里疲于奔命，不如重构硬件结构，让计算就在数据流过的地方发生。

二、可重构 1.0：从“翻手册”到“流水线乐高”

GPU的核心优势是极致并行，但它的致命伤也很清楚——搬运成本太高。

在费劲的传统架构里，计算单元（ALU）和存储器（Memory）是物理分开的。数据像是在堵车的早高峰公路上，反复在寄存器、缓存和显存之间穿梭。不管你是跑视频、打游戏还是做AI推理，数据都得乖乖走一套铁打的流程——取指令，译码，执行，写回。

这就好比，你每次钉钉子之前，都得先翻开《木工手册》，看完"第37页第2条"，然后再动手。这种"指令驱动"的模式，让芯片里40%以上的能量，耗在了搬运数据和解读指令上，而不是真正干活。

可重构架构打破了这套规矩。它不靠死板的指令调度，而是靠"数据流"驱动。你的算法要做卷积运算？芯片内部成千上万个微小计算单元（PE），会在微秒之间自动"拼接"成一个专属卷积引擎。硬件随软件而变。芯片不再是一块冰冷的硅板，而像一个能呼吸、会变形的活物。

在传统架构里，做一个加法，需要走完【取指→译码→执行→回写】四步——费死劲了。而在数据流驱动的模式里，编译器把算法转成一张"数据流图"（DFG），芯片上的处理单元（PE）按照这张图在微秒级时间里自动连线，瞬间把自己拼成对应算子的专属生产流水线。

上图给出了CGRA硬件映射逻辑，编译器会将算法转化为一张数据流图（DFG）。在芯片内部，大量的粗粒度处理单元（PE）会根据这张图在微秒级时间内自动连线，瞬间“拼接”出一个专属的卷积引擎。

数据像水一样流过各个PE，直接出结果——省掉了中间写回内存的那一步。这就是"近存计算"：算在数据身边，不跑来跑去。效果怎么样？中间结果写入外部DRAM的量，减少了90%以上。同等制程下，能效比可以达到传统GPU的数倍。

三、可重构 2.0：+ 去交换机，算力“手拉手”

AI进入万亿参数时代后，单颗芯片扛不住了。传统路子靠昂贵的InfiniBand交换机把所有芯片连起来。更像城市交通：所有车都得从巨型环岛绕一圈，流量一大，全堵在路口。

可重构2.0把思路反了过来。以国内某AI芯片公司为例—— 他们的自研技术叫TSM-LINK，核心思路就四个字：去交换机。芯片直连芯片，服务器直连服务器，机柜直连机柜。中间那一层交换机，直接拿掉。

几千颗芯片通过环形网格（Torus-X）拓扑，在逻辑上变成一个巨大的"超节点"。跨芯片通信延迟从几十微秒压到了微秒级——不到1微秒。（图4）

这意味着什么？一台服务器就能撑住DeepSeek R1/V3这种"满血版"万亿参数模型的推理。没有交换机这层中间商赚差价，能效比大幅提升。

2.0架构把每一颗芯片都变成了有"多维路由"能力的智能节点。芯片之间直接"手拉手"，像几颗芯焊成一颗巨大的"单片"超级芯片。这对部署大模型的开发者来说，意味着智算中心的建设和运维成本可以砍掉一大块。

四、可重构 3.0：+ 在三维空间推倒“存储墙”

2.0在广度上做文章。3.0往高度要性能。

大模型推理时，数据在存储和计算之间跑来跑去的速度，永远跟不上计算单元的胃口。当2D平面的布线已经挤不下更多晶体管，答案只有一个——往上走。3D堆叠和Chiplet（芯粒）集成，是这张牌的关键。

通过TSV（硅通孔）技术，把计算层和存储层直接垂直互联。以前数据要走几厘米的PCB铜线，现在只需要走几微米的垂直金属柱。访存带宽直接提升数倍。

这就像什么呢？把原来隔了几条街的仓库，直接搬到办公室楼上，中间用无数部超高速"垂直电梯"连接。

3.0架构走的更远——3.5D高密合封，异构三维存算融合。不光是"把存储贴在计算旁边"，而是"把计算和存储盖在一起"。这种"存算一体"的终极形态，让单台服务器就能吞吐万亿级模型，彻底告别"带宽饥渴"。

再往后看，未来的路线图指向一条更激进的路径：晶圆级计算。把整片晶圆当成一颗芯片来做，用CPO（共封装光学）直接从芯片引出光信号，靠OCS（全光交换）实现全域无阻塞的极限低延迟互连。"数据中心即芯片"——The Data Center as a Wafer-Scale Chip——从梦想走进图纸。

在2026年迎接了接连三连炸：

Cerebras——5月14日，整片晶圆级的WSE-3登陆纳斯达克，IPO定价185美元，首日涨68%，市值670亿美元。2026年迄今全球最大IPO。"晶圆级推理"正式进入主流商业场景。SambaNova——2月24日发布3nm SN50 RDU芯片，FP8算力达3.2 PFLOPS，较前代跃升五倍。软银第一时间部署于日本AI数据中心。英伟达——在GTC 2026上，把LPU与Vera Rubin GPU异构配对。这表示推理的未来，在多架构融合的边界。

三条路线，仍是同一种信仰：让硬件向软件倾斜，让计算发生在数据流过的地方。

可重构之路，从1.0的数据流替代指令流，到2.0的无交换机直连组网，到3.0的三维存算融合，正在向同一个方向汇聚——不是为了替代GPU，而是为了在晶圆级的尺度上，重新定义"什么是算力"。

后GPU时代已经开始了。规则，正在由可重构架构来书写。

五、软件为魂：FlagOS 让大模型“拎包入住”

硬件再强，没软件生态也是一座"硅基孤岛"。CUDA生态是英伟达最深的护城河。国产可重构系统怎么翻过去？答案是——不翻了，搭自己的桥。

FlagOS，一个自主可控的开源软件栈，由北京智源人工智能研究院牵头，联合清华、北大、中科院及十几家芯片厂商共同打造，已有79家成员单位。目标是"一次开发，多芯运行"，目前已支持18家厂商32款芯片。

对习惯了PyTorch和Triton的开发者来说，这意味着极低的迁移门槛。通过FlagTree编译器，你用统一的语言写好算子，编译器自动把它编译到可重构架构上——算子覆盖度已接近100%。

FlagGems开源算子库，向社区贡献了全球最大的Triton单一算子库，深度兼容PyTorch。一句话：不需要重写一行代码，就能在可重构架构上跑DeepSeek或Qwen。

底层打通PyTorch、vLLM等主流框架，计算库TXDNN和TXBLAS提供支撑。你可以在英伟达GPU上训练好的模型，近乎零成本地平滑迁移到可重构架构上。拎包入住，少废话。

这样的可重构架构在底层实现了与 PyTorch、vLLM 等主流框架的无缝对接。通过 TXDNN 和 TXBLAS 等核心计算库，开发者可以将在英伟达 GPU 上训练好的模型，几乎零成本地平滑迁移到可重构架构上。

这种全域协同的底座，使得可重构算力能够覆盖从云端大算力到边缘端实时推理的全场景。从云端的大模型推理，到边缘端的机器人具身智能，甚至是未来天基计算中的高能效处理，可重构计算正在证明自己不仅仅是 GPU 的补充，更是在迈向通用人工智能（AGI）道路上，一种更高效、更优雅、也更具生命力的物理支撑。

结语：

可重构计算正站在浪尖上：1.0的PE阵列重组，2.0的集群网络直连，3.0的三维物理融合，4.0的晶圆级计算。每一步都在还原计算最本来的样子：简单，高效，随需而动。算力的未来，不在于我们在硅片上堆了多少晶体管，而在于我们以什么样的姿态，去重构智能的底座。

通过"架构提效能"、"互联聚算力"、"集成补制程"的系统化思路，以清微智能为代表的国内厂商走出了一条自主、务实的发展道路。在Agent和Token经济时代，可重构算力将不再只是一种"替代方案"，而是迈向AGI的物理底座。

让每一颗芯片都能根据任务需求"变幻"其逻辑结构——这不只是硅片上的艺术，更是重塑未来智能社会的关键引擎。

【注】本文原理图中的数字，仅表示性能数量级内的概数，并非具体某款产品测试数据，目的是为了说明可重构技术架构和概念。