只花 1000 美元从头训练一个 1B 大模型?这个开源项目做到了——HRM-Text
📅 2026年05月22日 · 技术
1000 美元炼出一个大模型
训练一个大语言模型到底要花多少钱?OpenAI 的 GPT-4 据说是 1 亿美元级别,Meta 的 Llama 3 405B 烧了几千万。这种数字对于普通开发者和研究团队来说,基本就是劝退。
但如果我说,十几张 H100、不到 50 小时、总花费大约 1000 美元,就能从头训练出一个 1B 参数、性能能打的模型呢?
这听起来像天方夜谭,但 sapientinc 团队开源的这个项目 HRM-Text,确实做到了。
HRM-Text 是什么
HRM-Text 是一个基于 HRM(Hierarchical Reasoning Model——分层推理模型)架构的 1B 参数文本生成模型。它附带了一套完整的预训练框架,从数据处理、分布式训练、评估到模型导出一条龙。
和传统 Transformer 最核心的区别是:它用了层次化循环架构(hierarchical recurrent architecture),用更少的算力和数据就能达到相似的效果。论文里说的是 130-600 倍更少的计算量、150-900 倍更少的数据量。
效果怎么样
说数字。HRM-Text 的 XL 版本(1B 参数)在 16 张 H100 上训练了 46 小时,基准测试结果:
- GSM8K(数学推理):84.7%
- MATH(高等数学):56.5%
- MMLU(多任务语言理解):60.7%
- ARC-C(科学推理):81.9%
- HellaSwag(常识推理):63.4%
- BoolQ(阅读理解):86.2%
作为对比,同等参数量的开源模型在这些 benchmark 上大概也是类似的区间。考虑到它只花了不到 1000 美元的电费,这个性价比确实离谱。
还有一个 0.6B 的 L 版本,8 张 H100、50 小时就能训完,花费更少。
怎么上手
项目提供了完整的 Docker 镜像,拉下来就能跑。
docker run --gpus all --ipc=host --network=host -it \
-v "$PWD":/workspace \
sapientai/hrm-text:latest
数据准备用配套的 data_io 工具链做清洗、tokenize、分层采样。训练直接用 torchrun 启动:
torchrun --nproc_per_node=8 pretrain.py \
arch/size@arch=XL lr=2.5e-4 global_batch_size=172032
训完后用自带的转换脚本导出 HuggingFace 格式,直接拿去推理或微调。
能拿来干嘛
对于个人开发者和高校实验室来说,这意味着可以真正自己训一个模型,而不是只能用别人训好的。想研究模型架构、尝试新的训练方法、或者做一个垂直领域的小模型,这个框架把门槛拉到了可以承受的水平。
项目还支持 SFT(监督微调),可以在预训练 checkpoint 上做指令微调,做出像 ChatGPT 那样的对话模型。
目前原生 Transformers 支持和 vLLM 支持正在开发中,后续集成到主流推理框架应该会更方便。
参考来源
- sapientinc/HRM-Text — GitHub
- HRM-Text: Efficient Pretraining Beyond Scaling — arXiv
- HRM-Text-1B — HuggingFace