gateGPT:把 Transformer 塞进 FPGA 芯片,8 万赫兹下每秒生成 5 万 token

📅 2026年06月19日 · 技术

gateGPT 文章封面

我们习惯了 Transformer 跑在显卡上、跑在云端的大集群里。那如果把一个 GPT 模型完全用硬件描述语言写出来,烧进一块十几年前的 FPGA 芯片里,会怎样?开源项目 gateGPT 就做了这么一件硬核又浪漫的事:它在 Xilinx Virtex-5 这块老牌 FPGA 上,从零实现了一个能真正生成文本的 Transformer。

在芯片上跑 GPT 是什么概念

gateGPT 的灵感来自 Karpathy 的 microGPT——一个字符级别的小型 GPT。作者把这套模型用 Verilog 硬件描述语言重写,让一个完整的 Transformer Block(RMSNorm → 多头因果注意力 → MLP)在纯硬件电路上运行,全程使用 Q5.11 定点数运算,不依赖任何 GPU 或 CPU。训练目标是生成人名,最终结果会直接显示在开发板的字符液晶屏上。

更有意思的是它的性能:在 80MHz 的主频下,这块芯片大约能以 每秒 5 万 token 的速度生成文本。相比第一个能跑通的版本,吞吐量提升了 28 倍,而且输出结果与 Python 参考实现做到比特级精确一致。

几个让人眼前一亮的设计

为什么值得一看

gateGPT 的价值不在于它能取代 GPU,而在于它把"Transformer 到底是怎么算的"这件事彻底摊开在了门电路层面。对想理解大模型推理底层原理、或者对芯片设计、AI 硬件加速感兴趣的开发者来说,这是一个极佳的学习样本——RTL、定点数规格、微码指令集和训练权重全部开源,每一份都是作者原创。从软件模型到硅片逻辑,gateGPT 串起了完整的链路。

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具