Knowledge VaultReading Workbench
Reading Detail

如何合成 Agentic 事实性 SFT / Mid-train 数据?

BestBlogs.dev · 2026-05-15
#人工智能
Open Original
archivedone

Snapshot Reader

Captured

📌 一句话摘要

本文系统梳理了合成 Agentic 事实性 SFT 和 Mid-train 数据的方法论,涵盖 Query 筛选、分类标签、轨迹数据结构和合成流水线,并指出了常见陷阱。

📝 详细摘要

本文聚焦于如何为大型语言模型合成具备事实验证能力的 Agentic 训练数据。作者首先明确了目标:不是训练模型记忆事实,而是训练其进行可观察、可验证、可复盘的求证过程。文章详细阐述了如何筛选有价值的 Query(如涉及时效性、口径歧义、错误前提的问题),并提出了两层标注体系(问题类型和处理标签)。接着,文章定义了轨迹数据的核心结构(Query、类别、证据、Response),并区分了 Mid-train 和 SFT 数据的不同目标。最后,作者给出了一个可行的合成流水线,并总结了四个常见陷阱,如凭空编造 Observation 和证据不足时硬答。

💡 主要观点

  1. Agentic 事实性数据的目标是训练模型的求证过程,而非记忆事实。 模型需要学会判断何时需要查证、如何检索、如何评估证据质量,并在证据不足时保持克制,而不是直接给出记忆中的答案。
  2. Query 筛选是关键,应选择能产生有价值轨迹的复杂问题。 简单的事实问答无法训练 Agentic 能力。有价值的 Query 应涉及时效性、来源权威性、口径歧义、错误前提或证据冲突等复杂判断。
  3. 轨迹数据应包含 Query、类别、证据和 Response 四个核心部分。 一个完整的轨迹样本需要明确问题类型、提供真实证据来源,并展示模型如何基于证据进行推理和回答,而非仅关注最终答案的正确性。
  4. Mid-train 和 SFT 数据的目标不同,不应做成一样。 Mid-train 侧重于底层能力训练(如证据匹配、冲突判断),数据可以更结构化;SFT 侧重于行为对齐,数据应更贴近真实用户场景。

💬 文章金句

  • 我们这里想要的是一套可观察、可验证、可复盘的求证过程。
  • 模型不能只是把脑子里记住的事实吐出来,而是要学会在面对事实性问题时,先判断这个问题是否依赖时效、来源、口径和上下文。
  • Agentic 能力不是永远用工具,而是该用才用。
  • 查不到可靠来源时,要降级表达或拒答,不要编一个听起来像真的答案。

📊 文章信息

AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3004
标签: Agentic 数据, SFT, Mid-train, 事实验证, 合成数据