Snapshot Reader
Captured
📌 一句话摘要
Nous Research 团队提出 Token Superposition Training (TST) 方法,通过将预训练早期改为粗粒度词元叠加学习,在百亿参数 MoE 模型上实现约 2.5 倍训练提速,算力成本降至原来的四成。
📝 详细摘要
本文报道了 Nous Research 团队最新提出的 Token Superposition Training (TST) 预训练方法。TST 的核心思路是将预训练拆分为两个阶段:第一阶段(词元叠加阶段)将连续多个 token 的 embedding 求平均后作为一个叠加词元输入,输出侧预测下一组 token 的集合而非单个 token,从而大幅提升单位计算量的数据吞吐量;第二阶段(恢复阶段)切回标准自回归训练,保证最终模型可正常部署。在 10B-A1B MoE 模型实验中,TST 仅消耗 baseline 约 38.7% 的 B200 GPU 时间(4768 vs 12311 小时),却训练了更多数据(2T vs 1.05T tokens),并取得了更低的 loss 和更好的下游评测指标。文章将 TST 与 DeepSeek 的系统级降本路线进行对比,指出 TST 不修改模型架构、不改变推理链路,是一种更轻量的训练提效方案,尤其适合算力有限的中小团队。
💡 主要观点
- TST 将预训练拆分为粗粒度叠加阶段和标准恢复阶段,实现即插即用式训练提效。 第一阶段将连续多个 token 压缩为叠加词元,输入侧求平均、输出侧预测 token 集合,大幅提升数据吞吐;第二阶段切回标准 next-token prediction,保证最终模型可正常部署,不改变推理架构。
- 在 10B-A1B MoE 模型上,TST 仅用约四成 GPU 时间达到更优效果,对应约 2.5 倍提速。 TST 消耗 4768 B200-hours 训练 2T tokens,baseline 消耗 12311 B200-hours 训练 1.05T tokens,TST 在更低算力成本下取得更低 loss 和更好的 HellaSwag、ARC、MMLU 等 0-shot 指标。
- TST 与 DeepSeek 的系统级降本路线形成互补,代表训练降本的新方向。 DeepSeek 通过 MoE、MLA 等系统级工程压榨算力,TST 则从模型学习 token 的方式入手,不碰架构、不改变推理链路,切口更轻巧,适合算力有限的中小团队。
- TST 的收益来自输入侧和输出侧两个机制的叠加,对超参选择相对稳健。 消融实验表明输入侧和输出侧单独使用均优于 baseline,完整 TST 效果最佳。bag size 在 4-8、叠加训练比例在 0.2-0.4 时表现较好,超参敏感性较低。
💬 文章金句
- TST 只用了约四成 GPU 时间,就跑出了更低的 loss 和更好的下游指标。
- TST 是让模型在训练早期换一种 token 粒度学习。它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更'值钱'。
- TST 省下的不只是一次训练的 GPU 小时,更是整个实验周期的试错成本。
- TST 最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。
- TST 只改变训练过程,不改变推理模型。
📊 文章信息
AI 初评:86
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4031
标签:
Token Superposition Training, 预训练, 训练效率, Nous Research, MoE