Knowledge VaultReading Workbench
Reading Detail

ICML 2026 | 华为 GTS 提出 AI 训练数据新方法,Amazon/Google 作者团队「光速跟进」:难度自适应训练正在成为新范式

BestBlogs.dev · 2026-05-18
#人工智能
Open Original
inboxunread

Snapshot Reader

Captured

📌 一句话摘要

华为 GTS 提出 EDCO 方法,通过推理熵动态编排训练课程,让大模型在微调时持续学习当前最有信息增益的样本,已被 ICML 2026 接收。

📝 详细摘要

本文介绍了华为 GTS 研发部 AI 数据团队提出的 EDCO(Entropy-based Dynamic Curriculum Orchestration)方法,已被 ICML 2026 接收。该方法针对领域大模型微调中高质量数据稀缺且昂贵的痛点,提出用推理熵动态编排训练课程,让模型在每个训练阶段主动选择当前最困惑、最有学习价值的样本,而非依赖静态难度排序。EDCO 通过 quick-answer prompting 和前缀熵估计将动态课程的计算开销降低 83.5%,使其在训练中可用。实验在通信、医疗、法律三个领域,Qwen3-4B 和 Llama3.2-3B 两个模型,SFT 和 RLFT 两种范式下全面验证,均优于随机采样和静态课程基线。文章还分析了 EDCO 的机制:维持更高推理熵、动态更新课程组成、提供更强且冲突更少的梯度信号。该方法不改变模型结构和训练目标,可同时接入 SFT 与 RLFT,为领域大模型微调提供了新的数据选择范式。

💡 主要观点

  1. EDCO 用推理熵动态选择训练样本,让模型持续学习当前最有信息增益的数据。 样本价值不是固定属性,取决于模型当前状态。推理熵越高,模型越不确定,该样本越可能推动参数更新。EDCO 在每个训练间隔重新选择高熵样本组成课程。
  2. EDCO 通过前缀熵估计将动态课程的计算开销降低 83.5%。 完整序列熵估计成本高,EDCO 使用 quick-answer prompting 和前缀 token 条件熵近似完整序列熵,单样本耗时从 2.24 秒降至 0.37 秒,使动态课程在训练中可行。
  3. EDCO 在通信、医疗、法律三个领域,SFT 和 RLFT 两种范式下均优于静态课程基线。 在通信领域 RLFT 中,EDCO 在 Datacom 上达 46.96%,高于随机采样的 40.43%;在 Wireless 上达 38.70%。静态策略在某些场景甚至低于未训练模型。
  4. EDCO 选出的样本能提供更强且冲突更少的梯度信号。 机制分析显示,EDCO 所选样本的批次内梯度方向一致性达 0.92,高于随机采样的 0.82;平均推理熵和 RL 梯度范数也更高,说明训练预算花在了真正能推动参数更新的地方。

💬 文章金句

  • 让模型持续面对当前最困惑、最有学习价值的样本。
  • 样本价值不是固定属性,而取决于模型当下是否仍然不确定。
  • 数据的价值不只取决于数据本身,还取决于模型当前处在什么状态。
  • 与其让模型在所有样本上平均用力,不如让它把有限训练预算花在真正能推动参数更新的地方。

📊 文章信息

AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3602
标签: EDCO, 动态课程学习, 领域大模型微调, 推理熵, 华为 GTS