HRM-Text：只需约$1000就能从零训练1B参数语言模型

📅 2026年05月22日 · 技术

大模型预训练不再是巨头的专属游戏

训练自己的大语言模型通常需要数百万美元和成千上万张 GPU，这让个人开发者和中小团队望而却步。但 HRM-Text 项目的出现，正在改变这一局面——它号称只需约 1000 美元，就能从零开始预训练一个 10 亿参数（1B）的文本生成模型。

这个由 Sapient Inc 团队开发的项目，基于一种名为 HRM（Hierarchical Recurrent Memory）的新型架构，通过任务完成和潜在空间推理来提升模型能力，同时大幅降低了计算和数据需求。

效率提升有多惊人

根据项目介绍，HRM-Text 在预训练阶段使用了 130-600 倍 的计算缩减和 150-900 倍 的数据缩减。具体来说：

L 版本（6 亿参数）：8 张 H100 训练约 50 小时，成本约 800 美元
XL 版本（10 亿参数）：16 张 H100 训练约 46 小时，成本约 1472 美元

在性能方面，XL 版本在 GSM8k（数学推理）上达到 84.7%，MATH 上达到 56.5%，MMLU 上达到 60.7%，在 1B 参数级别中表现相当亮眼。

核心技术：HRM 架构

HRM-Text 的核心创新在于其层次化循环架构（Hierarchical Recurrent Memory）。该架构通过 PrefixLM 序列打包和 FlashAttention 3 内核来优化训练效率。项目还使用了 PyTorch FSDP2 分布式训练框架，并提供了完整的评估和模型转换工具链。

适用人群

学术研究者：希望低成本探索大模型训练技术的研究团队
AI 创业公司：预算有限但需要定制预训练模型的团队
深度学习爱好者：想亲身体验从零训练 LLM 的技术爱好者

快速上手

HRM-Text 提供了 Docker 镜像支持一键启动。如果你有 H100 GPU，只需三步即可开始：

使用 data_io 数据管线完成数据清洗、分词和分层采样
启动 Docker 容器并挂载工作目录
运行 torchrun 命令开始预训练

项目还提供了 SFT（监督微调）流程，可以在预训练权重基础上继续训练以适应特定任务。

参考来源

sapientinc/HRM-Text — GitHub