HRM-Text:只需约$1000就能从零训练1B参数语言模型

📅 2026年05月22日 · 技术

大模型预训练不再是巨头的专属游戏

训练自己的大语言模型通常需要数百万美元和成千上万张 GPU,这让个人开发者和中小团队望而却步。但 HRM-Text 项目的出现,正在改变这一局面——它号称只需约 1000 美元,就能从零开始预训练一个 10 亿参数(1B)的文本生成模型。

这个由 Sapient Inc 团队开发的项目,基于一种名为 HRM(Hierarchical Recurrent Memory)的新型架构,通过任务完成和潜在空间推理来提升模型能力,同时大幅降低了计算和数据需求。

效率提升有多惊人

根据项目介绍,HRM-Text 在预训练阶段使用了 130-600 倍 的计算缩减和 150-900 倍 的数据缩减。具体来说:

在性能方面,XL 版本在 GSM8k(数学推理)上达到 84.7%,MATH 上达到 56.5%,MMLU 上达到 60.7%,在 1B 参数级别中表现相当亮眼。

核心技术:HRM 架构

HRM-Text 的核心创新在于其层次化循环架构(Hierarchical Recurrent Memory)。该架构通过 PrefixLM 序列打包和 FlashAttention 3 内核来优化训练效率。项目还使用了 PyTorch FSDP2 分布式训练框架,并提供了完整的评估和模型转换工具链。

适用人群

快速上手

HRM-Text 提供了 Docker 镜像支持一键启动。如果你有 H100 GPU,只需三步即可开始:

项目还提供了 SFT(监督微调)流程,可以在预训练权重基础上继续训练以适应特定任务。

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具