Knowledge Vault

Snapshot Reader

Captured

📌 一句话摘要

蚂蚁百灵正式开源旗舰思考模型 Ring-2.6-1T，其核心创新在于「按需思考」的 Reasoning Effort 机制，在 Agent 执行能力和高难推理任务上均表现突出。

📝 详细摘要

蚂蚁百灵于 5 月 15 日宣布开源其旗舰级思考模型 Ring-2.6-1T，权重文件已上线 Hugging Face 和 ModelScope。该模型的核心设计逻辑是「按需思考」，引入了可调节的 Reasoning Effort 机制，支持 high 和 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，在 PinchBench 和 Tau2-Bench 等 Agent 评测中表现优异；xhigh 模式则面向数学竞赛和科研分析等高难任务，在 AIME 和 GPQA Diamond 上达到头部模型水平。在训练层面，Ring-2.6-1T 采用异步强化学习训练架构，并引入「棒冰算法」解决训练不稳定问题。百灵近一个月内密集发布多款模型，强调「真实生产环境使用」和「Token Efficiency」，其 Ling-2.6-flash 的匿名测试版本在 OpenRouter 上连续多日位列 Trending 榜首。

💡 主要观点

Ring-2.6-1T 核心创新是「按需思考」的 Reasoning Effort 机制。 模型支持 high 和 xhigh 两种推理强度，开发者可根据任务特性动态分配推理资源，high 模式优化 Agent 工作流效率，xhigh 模式释放高难任务推理上限。
Ring-2.6-1T 在 Agent 执行能力评测中表现突出。 high 模式下 PinchBench 得分 87.60，Tau2-Bench Telecom 达到 95.32，均高于 GPT-5.4 和 Gemini-3.1-Pro 的对应模式，体现出强大的工具协作与任务拆解能力。
训练层面采用异步强化学习架构，提升训练效率。 将策略采样与参数更新解耦为独立流水线，解决传统同步训练中 GPU 资源等待问题，并引入「棒冰算法」解决异步训练的不稳定性。
百灵系列模型集体强调「Token Efficiency」和真实生产环境使用。 相较于追求更大参数规模或更高单点分数，百灵更注重用更少的 token 完成高质量任务输出，其 Ling-2.6-flash 匿名测试版本在 OpenRouter 上日均 tokens 调用量达 100B 级别。

💬 文章金句

Ring-2.6-1T 的核心设计逻辑是「按需思考」，模型引入了可调节的 Reasoning Effort 机制。
high 模式面向高频 Agent 工作流获得更高效率，适合多轮对话、工具协作与任务拆解；xhigh 模式则面向数学竞赛、科研分析等高难任务。
百灵更强调「真实生产环境使用」，系列模型集体切入「Token Efficiency」，强调用更少的 token 完成高质量的任务输出。

📊 文章信息

AI 初评：86

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：3 分钟

字数：739

标签：蚂蚁百灵, Ring-2.6-1T, 开源模型, 推理模型, Agent