Snapshot Reader
Captured
📌 一句话摘要
蚂蚁百灵正式开源旗舰思考模型 Ring-2.6-1T,其核心创新在于「按需思考」的 Reasoning Effort 机制,在 Agent 执行能力和高难推理任务上均表现突出。
📝 详细摘要
蚂蚁百灵于 5 月 15 日宣布开源其旗舰级思考模型 Ring-2.6-1T,权重文件已上线 Hugging Face 和 ModelScope。该模型的核心设计逻辑是「按需思考」,引入了可调节的 Reasoning Effort 机制,支持 high 和 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,在 PinchBench 和 Tau2-Bench 等 Agent 评测中表现优异;xhigh 模式则面向数学竞赛和科研分析等高难任务,在 AIME 和 GPQA Diamond 上达到头部模型水平。在训练层面,Ring-2.6-1T 采用异步强化学习训练架构,并引入「棒冰算法」解决训练不稳定问题。百灵近一个月内密集发布多款模型,强调「真实生产环境使用」和「Token Efficiency」,其 Ling-2.6-flash 的匿名测试版本在 OpenRouter 上连续多日位列 Trending 榜首。
💡 主要观点
- Ring-2.6-1T 核心创新是「按需思考」的 Reasoning Effort 机制。 模型支持 high 和 xhigh 两种推理强度,开发者可根据任务特性动态分配推理资源,high 模式优化 Agent 工作流效率,xhigh 模式释放高难任务推理上限。
- Ring-2.6-1T 在 Agent 执行能力评测中表现突出。 high 模式下 PinchBench 得分 87.60,Tau2-Bench Telecom 达到 95.32,均高于 GPT-5.4 和 Gemini-3.1-Pro 的对应模式,体现出强大的工具协作与任务拆解能力。
- 训练层面采用异步强化学习架构,提升训练效率。 将策略采样与参数更新解耦为独立流水线,解决传统同步训练中 GPU 资源等待问题,并引入「棒冰算法」解决异步训练的不稳定性。
- 百灵系列模型集体强调「Token Efficiency」和真实生产环境使用。 相较于追求更大参数规模或更高单点分数,百灵更注重用更少的 token 完成高质量任务输出,其 Ling-2.6-flash 匿名测试版本在 OpenRouter 上日均 tokens 调用量达 100B 级别。
💬 文章金句
- Ring-2.6-1T 的核心设计逻辑是「按需思考」,模型引入了可调节的 Reasoning Effort 机制。
- high 模式面向高频 Agent 工作流获得更高效率,适合多轮对话、工具协作与任务拆解;xhigh 模式则面向数学竞赛、科研分析等高难任务。
- 百灵更强调「真实生产环境使用」,系列模型集体切入「Token Efficiency」,强调用更少的 token 完成高质量的任务输出。
📊 文章信息
AI 初评:86
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:3 分钟
字数:739
标签:
蚂蚁百灵, Ring-2.6-1T, 开源模型, 推理模型, Agent