只花 1000 美元从头训练一个 1B 大模型？这个开源项目做到了——HRM-Text

📅 2026年05月22日 · 技术

1000 美元炼出一个大模型

训练一个大语言模型到底要花多少钱？OpenAI 的 GPT-4 据说是 1 亿美元级别，Meta 的 Llama 3 405B 烧了几千万。这种数字对于普通开发者和研究团队来说，基本就是劝退。

但如果我说，十几张 H100、不到 50 小时、总花费大约 1000 美元，就能从头训练出一个 1B 参数、性能能打的模型呢？

这听起来像天方夜谭，但 sapientinc 团队开源的这个项目 HRM-Text，确实做到了。

HRM-Text 是一个基于 HRM（Hierarchical Reasoning Model——分层推理模型）架构的 1B 参数文本生成模型。它附带了一套完整的预训练框架，从数据处理、分布式训练、评估到模型导出一条龙。

和传统 Transformer 最核心的区别是：它用了层次化循环架构（hierarchical recurrent architecture），用更少的算力和数据就能达到相似的效果。论文里说的是 130-600 倍更少的计算量、150-900 倍更少的数据量。

说数字。HRM-Text 的 XL 版本（1B 参数）在 16 张 H100 上训练了 46 小时，基准测试结果：

作为对比，同等参数量的开源模型在这些 benchmark 上大概也是类似的区间。考虑到它只花了不到 1000 美元的电费，这个性价比确实离谱。

还有一个 0.6B 的 L 版本，8 张 H100、50 小时就能训完，花费更少。

项目提供了完整的 Docker 镜像，拉下来就能跑。

docker run --gpus all --ipc=host --network=host -it \
  -v "$PWD":/workspace \
  sapientai/hrm-text:latest

数据准备用配套的 data_io 工具链做清洗、tokenize、分层采样。训练直接用 torchrun 启动：

torchrun --nproc_per_node=8 pretrain.py \
  arch/size@arch=XL lr=2.5e-4 global_batch_size=172032

训完后用自带的转换脚本导出 HuggingFace 格式，直接拿去推理或微调。

对于个人开发者和高校实验室来说，这意味着可以真正自己训一个模型，而不是只能用别人训好的。想研究模型架构、尝试新的训练方法、或者做一个垂直领域的小模型，这个框架把门槛拉到了可以承受的水平。

项目还支持 SFT（监督微调），可以在预训练 checkpoint 上做指令微调，做出像 ChatGPT 那样的对话模型。

目前原生 Transformers 支持和 vLLM 支持正在开发中，后续集成到主流推理框架应该会更方便。