Knowledge Vault

Snapshot Reader

Captured

📌 一句话摘要

这篇论文提出 Ctx2Skill 方法，通过模型自我对抗（出题-解题-判分）自动从长文档中提炼可执行的技能手册，并发现对抗坍缩问题，提出 Cross-Time Replay 回溯选择最优版本。

📝 详细摘要

这篇推文详细解读了论文「From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)」。核心问题是：大模型能读完长文档，但无法将规则提炼成可反复调用的技能。传统方法依赖人工标注，成本高且缺乏反馈。Ctx2Skill 提出让模型自我对抗：一个出题（Challenger），一个解题（Reasoner），第三方判分。通过多轮对抗，双方各自维护技能手册。但实验发现，随着对抗进行，Reasoner 的手册质量单调下降，出现「对抗坍缩」——Challenger 出题越来越偏，Reasoner 为应付怪题而丢失通用知识。作者提出 Cross-Time Replay 方法：在对抗过程中保留每轮的难题和易题作为探针，循环结束后让所有版本的手册重新做这些题，选择 ρ_h × ρ_e 乘积最大的版本。推文最后升华到哲学层面：对抗优化必须配一个不参与对抗的判别器，否则一定会塌。

📊 文章信息

AI 初评：90

来源：李继刚(@lijigang_com)

作者：李继刚

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1761

标签： Ctx2Skill, Self-Play, Adversarial Collapse, Cross-Time Replay, 长上下文

阅读推文

Reflection 心得

note · 2026-05-16

# ai-practices reflection ## Review Decision - decision: likely_practice - archive_type: triage archive - review_level: detail review - item_id: 86a9fd9e4fb147bf9c01cd375cb2bf14947f5fa073f99ef137c84d48634b27fa - title: Ctx2Skill：让大模型通过自我对抗从文档中提炼技能，并解决对抗坍缩问题 - url: https://www.bestblogs.dev/status/2051502836513648771?amp%3Bentry=rss_article_item&amp%3Butm_campaign=resources&amp%3Butm_medium=feed - feed: BestBlogs.dev - source: freshrss_sync - suggested_domain: agent-workflow - validation_status: needs-deep-review - content_length: 718 ## Why Strong AI workflow/coding signal with source or practice wording. ## Core Judgment 该条目元数据强相关，但 Knowledge Vault 正文不足，已记录为 needs-deep-review。需要 refetch 或访问原文后再判断是否生成正式 note。 ## Boundaries 不能基于当前 detail 生成正式 note；只能归档审查状态。 ## Detail Preview 📌 一句话摘要这篇论文提出 Ctx2Skill 方法，通过模型自我对抗（出题-解题-判分）自动从长文档中提炼可执行的技能手册，并发现对抗坍缩问题，提出 Cross-Time Replay 回溯选择最优版本。 📝 详细摘要这篇推文详细解读了论文「From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)」。核心问题是：大模型能读完长文档，但无法将规则提炼成可反复调用的技能。传统方法依赖人工标注，成本高且缺乏反馈。Ctx2Skill 提出让模型自我对抗：一个出题（Challenger），一个解题（Reasoner），第三方判分。通过多轮对抗，双方各自维护技能手册。但实验发现，随着对抗进行，Reasoner 的手册质量单调下降，出现「对抗坍缩」——Challenger 出题越来越偏，Reasoner 为应付怪题而丢失通用知识。作者提出 Cross-Time Replay 方法：在对抗过程中保留每轮的难题和易题作为探针，循环结束后让所有版本的手册重新做这些题，选择 ρ_h × ρ_e 乘积最大的版本。推文最后升华到哲学层面：对抗优化必须配一个不参与对抗的判别器，否则一定会塌。 📊 文章信息 AI 初评： 90 来源：李继刚(@lijigang_com) 作者：李继刚分类：人工智能语言：中文阅读时间： 8 分钟字数： 1761 标签： Ctx2Skill , Self-Play , Adversarial Collapse , Cross-Time Replay , 长上下文阅读推文 ## Claude / Codex Next Step 请先 refetch 或打开原文 URL 获取完整内容，再决定是否提炼 practice。 ## Index - domain: agent-workflow - source-type: freshrss_sync - validation-status: needs-deep-review - decision: likely_practice

note · 2026-05-16

Ctx2Skill 自我对抗技能提炼：5 角色自我博弈循环 + Cross-time Replay 防坍缩。核心：验证器质量 > 模型容量，限制因素是验证器而非模型。已产出正式 note：notes/2026-05-16-ctx2skill-self-play-skill-extraction.md（质量评分 8/8）