Knowledge Vault

Snapshot Reader

Captured

📌 一句话摘要

华为 GTS 提出 EDCO 方法，通过推理熵动态编排训练课程，让大模型在微调时持续学习当前最有信息增益的样本，已被 ICML 2026 接收。

📝 详细摘要

本文介绍了华为 GTS 研发部 AI 数据团队提出的 EDCO（Entropy-based Dynamic Curriculum Orchestration）方法，已被 ICML 2026 接收。该方法针对领域大模型微调中高质量数据稀缺且昂贵的痛点，提出用推理熵动态编排训练课程，让模型在每个训练阶段主动选择当前最困惑、最有学习价值的样本，而非依赖静态难度排序。EDCO 通过 quick-answer prompting 和前缀熵估计将动态课程的计算开销降低 83.5%，使其在训练中可用。实验在通信、医疗、法律三个领域，Qwen3-4B 和 Llama3.2-3B 两个模型，SFT 和 RLFT 两种范式下全面验证，均优于随机采样和静态课程基线。文章还分析了 EDCO 的机制：维持更高推理熵、动态更新课程组成、提供更强且冲突更少的梯度信号。该方法不改变模型结构和训练目标，可同时接入 SFT 与 RLFT，为领域大模型微调提供了新的数据选择范式。

💡 主要观点

EDCO 用推理熵动态选择训练样本，让模型持续学习当前最有信息增益的数据。 样本价值不是固定属性，取决于模型当前状态。推理熵越高，模型越不确定，该样本越可能推动参数更新。EDCO 在每个训练间隔重新选择高熵样本组成课程。
EDCO 通过前缀熵估计将动态课程的计算开销降低 83.5%。 完整序列熵估计成本高，EDCO 使用 quick-answer prompting 和前缀 token 条件熵近似完整序列熵，单样本耗时从 2.24 秒降至 0.37 秒，使动态课程在训练中可行。
EDCO 在通信、医疗、法律三个领域，SFT 和 RLFT 两种范式下均优于静态课程基线。 在通信领域 RLFT 中，EDCO 在 Datacom 上达 46.96%，高于随机采样的 40.43%；在 Wireless 上达 38.70%。静态策略在某些场景甚至低于未训练模型。
EDCO 选出的样本能提供更强且冲突更少的梯度信号。 机制分析显示，EDCO 所选样本的批次内梯度方向一致性达 0.92，高于随机采样的 0.82；平均推理熵和 RL 梯度范数也更高，说明训练预算花在了真正能推动参数更新的地方。

💬 文章金句

让模型持续面对当前最困惑、最有学习价值的样本。
样本价值不是固定属性，而取决于模型当下是否仍然不确定。
数据的价值不只取决于数据本身，还取决于模型当前处在什么状态。
与其让模型在所有样本上平均用力，不如让它把有限训练预算花在真正能推动参数更新的地方。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3602

标签： EDCO, 动态课程学习, 领域大模型微调, 推理熵, 华为 GTS

阅读完整文章