Voice AI 革命:为什么它可能是 AI 时代最被低估的赛道
Voice AI 革命:为什么它可能是 AI 时代最被低估的赛道
> 键盘是低带宽、高摩擦、有损的。语音是高带宽、低摩擦,且能捕获此前困在人脑中的信号。
---
一、一个反直觉的开场:受监管行业反而最快
如果你问大多数人"哪些行业最先拥抱 Voice AI?",答案大概率是电商、客服、营销这些"轻监管"领域。
现实完全相反。
Bessemer Venture Partners(BVP)合伙人 Mike Droesch 在最新一期 Verticals 访谈中透露,BVP 投资的语音 AI 公司中,增长最快、付费意愿最强的恰恰是医疗、保险、金融服务——这些以合规地狱著称的行业。
为什么?
因为这些行业需要离散的对话评估门控(conversational eval gates):在释放健康信息之前验证客户生日、确保每一步交互都有严格的治理追踪。这些不是"锦上添花"的功能,而是生死攸关的刚需。
VAPI(BVP 投资,刚以 5 亿美元估值完成 B 轮融资)在这些领域找到了最强的产品市场契合。
---
二、核心洞察:Voice 不是 UI 升级,是全新的数据层
这是 Mike Droesch 最锋利的观点,也是理解整个 Voice AI 赛道价值的核心:
> "你的系统记录(CRM、ERP、EHR)捕获了终点状态。交易关闭。理赔解决。迁移上线。它告诉你发生了什么。但它没有捕获任何关于你如何到达那里的讨论。Voice 做到了。"
系统记录 vs 语音数据层
| 维度 | 系统记录(System of Record) | 语音数据层(Voice Layer) |
|---|---|---|
| 捕获内容 | 终点状态 | 决策过程 |
| 数据粒度 | 结构化字段 | 语调、停顿、情绪、上下文 |
| 可复现性 | 高 | 此前从未被数字化 |
| 价值类型 | 运营效率 | 认知与流程智能 |
- 销售通话中,不只是代表说了什么,而是他花了多少时间倾听 vs 说话,他如何读取潜在客户情绪
- SAP 迁移中,几十个并行工作坊里利益相关者描述的业务流程实际如何运作——不是规范说应该怎样,而是现实中是怎样
- 医疗问诊中,患者描述症状的方式、犹豫、强调,这些比最终诊断编码更有信息量的信号
---
三、信任:唯一的瓶颈,也是最大的护城河
Mike Droesch 分享了一个极具启发性的案例:
两年前,一家客单价 3 万美元的屋顶公司拒绝触碰语音代理。每个潜在客户可能价值 3 万美元——他们每次都派真人跟进。
今天,同一家公司欣然采用。变化的不是底层技术(语音合成和识别的 SOTA 已经稳定),而是评估基础设施(eval infrastructure)。
当评估套件变得更可靠,企业才会赋予代理更多自主权。更多自主权意味着更多端到端处理的工作流。这是一个飞轮:
更多对话 → 更好的评估数据 → 更可靠的代理 → 更多自主权
↑___________________________________________|
对于创始人的启示:不要只做"对话代理",要做能完整解决客户问题的端到端系统。如果无法完全解决查询,你可能实际上给客户增加了更多工作。
---
四、从"不可能"到"理所当然":新用例大爆炸
Mike 最兴奋的不是客服替代——他视之为"基本款"。他关注的是此前完全不存在的用例:
1. 大规模招聘面试
AI 代理进行首轮面试筛选,不是简单的问答,而是有深度、有追问、有评估的结构性对话。2. AI 培训对手
销售代表在接触真实客户前,必须与 AI 对手完成强制训练小时数——AI 模拟各种客户类型、反对意见、情绪波动。3. 混合模态支持
代理在与你语音对话的同时,观看你的光标在应用中的导航,实时指导你操作。语音+视觉+交互的融合。4. 建筑现场检查
屋顶工人在与 App 对话的同时拍摄照片,语音描述与图像数据实时拼接——此前从未被数字化的真实世界数据。5. 环境智能层(Ambient Layer)
这是最令人毛骨悚然也最令人兴奋的领域。Mike 提到一位 CEO 佩戴全天候腕式录音设备,将整个白天 feed 给 Claude。从"语音作为渠道"到"语音作为持续智能层"——能够捕获并复合全天上下文的公司,将拥有任何系统记录都无法比拟的数据资产。
---
五、投资版图与估值验证
BVP 在 Voice AI 赛道的布局揭示了价值流向:
| 公司 | 轮次/估值 | 领域 | 核心价值 |
|---|---|---|---|
| VAPI | B轮 / $500M | 语音基础设施平台 | 受监管行业的对话门控与治理 |
| Abridge | 已上市 | 医疗语音 AI | 临床文档自动化 |
| Rilla | 早期 | 家庭服务 | 销售代表语音教练 |
| Axiamatic | $54M(Greylock+BVP) | 企业转型 | 工作坊语音→迁移计划 |
| Qualitate | 早期 | 专家网络 | 200通电话/周末的 AI 主持研究 |
---
六、技术栈的 Build vs Buy 决策
Mike 透露了一个关键洞察:两年前,部署生产级语音基础设施需要10+ 人全职工程团队。这是 VAPI 平台化机会的来源。
今天的决策矩阵:
| 场景 | 策略 | 类比 |
|---|---|---|
| 语音不是你的核心产品 | 买平台(VAPI 等) | 像 Twilio |
| 语音是你的核心产品 | 自建全栈 | 控制每一个细节 |
| 受监管行业 | 买平台 + 严格门控 | 合规即护城河 |
---
七、定价模型的颠覆:从 SaaS 到 AI-Native
Voice AI 正在改变软件经济学的一个根本假设:
- 传统 SaaS:按席位/功能/数据量收费
- AI-Native Voice:按对话解决量、自主完成率、捕获情报价值收费
---
八、结论:谁拥有最好的"比赛录像",谁就赢
Mike Droesch 的总结性比喻非常精准:
> "系统记录捕获了记分牌。语音捕获了比赛。或者更好的比喻:在 AI 能观看比赛录像的时代,拥有最好录像的公司 wins。"
这是关于 Voice AI 的最终思考:
1. 数据重力定律 语音 dramatically 扩大了数据飞轮能捕获的"光圈"。键盘一直是瓶颈——低带宽、高摩擦、有损。语音是高带宽、低摩擦,且能捕获此前困在人脑中的信号。
2. 护城河三层论
- 基础设施 = 入场券(已商品化)
- 分布/社区 = 近期差异化
- 对话→评估→自主权→更多对话 = 长期数据重力
4. 环境层是未来 Granola 记录每一次会议。CEO 佩戴全天候录音设备。语音正从"交互渠道"演变为"持续智能层"。在这个层面积累上下文复合能力的公司,将拥有不可复制的数据资产。
---
参考来源
- Euclid Ventures: What's Working in Vertical Voice AI - Mike Droesch Interview (2026-05-27)
- Bessemer Venture Partners: Roadmap: Voice AI (2025-11)
- Verticals Podcast Episode with Mike Droesch
- VAPI Series B Announcement ($500M valuation)
- Axiamatic $54M Funding (Greylock + Bessemer)
- Qualitate: AI-Native Expert Network (350,000+ minutes)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens