Knowledge Vault

Snapshot Reader

Captured

📌 一句话摘要

本文系统梳理了合成 Agentic 事实性 SFT 和 Mid-train 数据的方法论，涵盖 Query 筛选、分类标签、轨迹数据结构和合成流水线，并指出了常见陷阱。

📝 详细摘要

本文聚焦于如何为大型语言模型合成具备事实验证能力的 Agentic 训练数据。作者首先明确了目标：不是训练模型记忆事实，而是训练其进行可观察、可验证、可复盘的求证过程。文章详细阐述了如何筛选有价值的 Query（如涉及时效性、口径歧义、错误前提的问题），并提出了两层标注体系（问题类型和处理标签）。接着，文章定义了轨迹数据的核心结构（Query、类别、证据、Response），并区分了 Mid-train 和 SFT 数据的不同目标。最后，作者给出了一个可行的合成流水线，并总结了四个常见陷阱，如凭空编造 Observation 和证据不足时硬答。

💡 主要观点

Agentic 事实性数据的目标是训练模型的求证过程，而非记忆事实。 模型需要学会判断何时需要查证、如何检索、如何评估证据质量，并在证据不足时保持克制，而不是直接给出记忆中的答案。
Query 筛选是关键，应选择能产生有价值轨迹的复杂问题。 简单的事实问答无法训练 Agentic 能力。有价值的 Query 应涉及时效性、来源权威性、口径歧义、错误前提或证据冲突等复杂判断。
轨迹数据应包含 Query、类别、证据和 Response 四个核心部分。 一个完整的轨迹样本需要明确问题类型、提供真实证据来源，并展示模型如何基于证据进行推理和回答，而非仅关注最终答案的正确性。
Mid-train 和 SFT 数据的目标不同，不应做成一样。 Mid-train 侧重于底层能力训练（如证据匹配、冲突判断），数据可以更结构化；SFT 侧重于行为对齐，数据应更贴近真实用户场景。

💬 文章金句

我们这里想要的是一套可观察、可验证、可复盘的求证过程。
模型不能只是把脑子里记住的事实吐出来，而是要学会在面对事实性问题时，先判断这个问题是否依赖时效、来源、口径和上下文。
Agentic 能力不是永远用工具，而是该用才用。
查不到可靠来源时，要降级表达或拒答，不要编一个听起来像真的答案。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3004

标签： Agentic 数据, SFT, Mid-train, 事实验证, 合成数据

阅读完整文章