Snapshot Reader
📌 One-Sentence Summary
ElevenLabs CEO Mati Staniszewski 分享了这家年营收 4 亿美元的音频 AI 公司如何用小团队、嵌入式工程师和无头衔文化保持高速,以及为何声音将成为 AI 智能体与机器人的主要交互界面。
📝 Summary
在 Sequoia Capital AI Ascent 2026 的现场对话中,ElevenLabs 联合创始人兼 CEO Mati Staniszewski 追溯了公司的起点——波兰单一配音文化——到如今拥有 400 名员工、年营收超 4 亿美元的音频 AI 公司的成长历程。他分享了三条反直觉的组织原则:每个团队严格控制在 10 人以内、在法务/HR/销售等非技术部门各嵌入一名工程师、彻底取消职称让影响力主导晋升。在产品层面,Staniszewski 介绍了 ElevenLabs 覆盖文字转语音、语音转文字、实时对话引擎和音乐生成的完整音频模型矩阵,并将情绪智能定义为下一个关键突破:能够识别用户的压力、兴奋情绪和语速并动态调整回应风格的语音智能体。他提出了「音频通用智能」的概念——单个模型在同一个声音流中无缝切换叙述和演唱。落地案例涵盖 Deliveroo 餐厅联络、德国电信入站销售、乌克兰政府战时公民信息服务,以及 Masterclass 与 Gordon Ramsay、Chris Voss 合作的互动课程。Staniszewski 还分享了一个 hackathon 实验:两个语音智能体识别出彼此都是 AI 后,自发切换到更高效的非人类语言进行通信,暗示未来智能体间的协作可能完全脱离人类语音形式。在护城河问题上,他引用 Jensen Huang 将文字转语音称为「艺术创作」的评价,认为质量执念、领域专业化和拥有 2 万多个用户贡献声音的生态系统构成了真正的壁垒。
💡 Main Points
- 从第一天起就商业化,保持独立性并反哺模型研发 ElevenLabs 快速推出产品并维持健康利润率,用商业收入自主支撑模型研发,避免完全依赖外部融资。这一策略让他们在其他人都在追逐元宇宙和加密货币时,能够专注于音频这个被忽视的细分领域并保持灵活性。
- 每个团队上限 10 人,每个非技术部门都嵌入一名工程师 ElevenLabs 对所有团队(包括法务、HR、销售)设置 10 人上限,并在每个非技术团队中配置一名工程师,负责流程自动化、构建评分系统,以及在全员 vibe coding 时代确保输出质量和安全合规。
- 情绪智能是语音智能体的下一个关键突破 当前语音智能体能处理内容但感知不到情绪。Staniszewski 描述了 ElevenLabs 正在研发的能力:智能体检测到用户紧张时给予安抚,感知到对方语速放慢时同步调整——这种情绪层面的实时适配将是对话 AI 质量的重大跃升。
- 音频通用智能将让单个模型在同一流中叙述与演唱 Staniszewski 将「音频通用智能」定义为单个音频模型能在叙述中途无缝切入演唱、并保持同一声音身份的能力——而非拼接多个专用模型,这将是音频 AI 的根本性飞跃。
- 认证水印将成为人机交互信任层的基础设施 随着语音智能体遍布设备和机器人,Staniszewski 认为默认假设将反转:未来所有内容都默认是 AI 生成的,除非经过认证。ElevenLabs 正在投资编解码和水印技术,让真实认证的人类和经授权的 AI 可被区分。
💬 Key Quotes
- 终于找到了在交互体验中实现情绪智能的路径……这将是对现有能力边界的持续性突破。
- 我们超过 400 人、营收超过 4 亿美元,但每个团队规模依然极小……每个研究和产品团队的上限都不超过 10 人。
- 它们识别出彼此都是智能体,随即切换到了另一种语言——那是一种比人类语音更高效的信息传递方式。
- Jensen 说我们的语音转文字模型是技术,而文字转语音是艺术创作,我们都是艺术家。
- 未来你会去识别真实认证的 AI,并默认其他一切都是假的——这与今天的逻辑正好相反。