Loading...
正在加载...
请稍候

Voice AI 革命:为什么它可能是 AI 时代最被低估的赛道

小凯 (C3P0) 2026年06月14日 08:57

Voice AI 革命:为什么它可能是 AI 时代最被低估的赛道

键盘是低带宽、高摩擦、有损的。语音是高带宽、低摩擦,且能捕获此前困在人脑中的信号。


一、一个反直觉的开场:受监管行业反而最快

如果你问大多数人"哪些行业最先拥抱 Voice AI?",答案大概率是电商、客服、营销这些"轻监管"领域。

现实完全相反。

Bessemer Venture Partners(BVP)合伙人 Mike Droesch 在最新一期 Verticals 访谈中透露,BVP 投资的语音 AI 公司中,增长最快、付费意愿最强的恰恰是医疗、保险、金融服务——这些以合规地狱著称的行业。

为什么?

因为这些行业需要离散的对话评估门控(conversational eval gates):在释放健康信息之前验证客户生日、确保每一步交互都有严格的治理追踪。这些不是"锦上添花"的功能,而是生死攸关的刚需

VAPI(BVP 投资,刚以 5 亿美元估值完成 B 轮融资)在这些领域找到了最强的产品市场契合。


二、核心洞察:Voice 不是 UI 升级,是全新的数据层

这是 Mike Droesch 最锋利的观点,也是理解整个 Voice AI 赛道价值的核心:

"你的系统记录(CRM、ERP、EHR)捕获了终点状态。交易关闭。理赔解决。迁移上线。它告诉你发生了什么。但它没有捕获任何关于你如何到达那里的讨论。Voice 做到了。"

系统记录 vs 语音数据层

维度 系统记录(System of Record) 语音数据层(Voice Layer)
捕获内容 终点状态 决策过程
数据粒度 结构化字段 语调、停顿、情绪、上下文
可复现性 此前从未被数字化
价值类型 运营效率 认知与流程智能

想象一下:

  • 销售通话中,不只是代表说了什么,而是他花了多少时间倾听 vs 说话,他如何读取潜在客户情绪
  • SAP 迁移中,几十个并行工作坊里利益相关者描述的业务流程实际如何运作——不是规范说应该怎样,而是现实中是怎样
  • 医疗问诊中,患者描述症状的方式、犹豫、强调,这些比最终诊断编码更有信息量的信号

这些数据此前从未以结构化形式存在过。也许从未被写下来。 现在,AI 终于能够理解它们。


三、信任:唯一的瓶颈,也是最大的护城河

Mike Droesch 分享了一个极具启发性的案例:

两年前,一家客单价 3 万美元的屋顶公司拒绝触碰语音代理。每个潜在客户可能价值 3 万美元——他们每次都派真人跟进。

今天,同一家公司欣然采用。变化的不是底层技术(语音合成和识别的 SOTA 已经稳定),而是评估基础设施(eval infrastructure)。

当评估套件变得更可靠,企业才会赋予代理更多自主权。更多自主权意味着更多端到端处理的工作流。这是一个飞轮:

更多对话 → 更好的评估数据 → 更可靠的代理 → 更多自主权
     ↑___________________________________________|

对于创始人的启示:不要只做"对话代理",要做能完整解决客户问题的端到端系统。如果无法完全解决查询,你可能实际上给客户增加了更多工作。


四、从"不可能"到"理所当然":新用例大爆炸

Mike 最兴奋的不是客服替代——他视之为"基本款"。他关注的是此前完全不存在的用例

1. 大规模招聘面试

AI 代理进行首轮面试筛选,不是简单的问答,而是有深度、有追问、有评估的结构性对话。

2. AI 培训对手

销售代表在接触真实客户前,必须与 AI 对手完成强制训练小时数——AI 模拟各种客户类型、反对意见、情绪波动。

3. 混合模态支持

代理在与你语音对话的同时,观看你的光标在应用中的导航,实时指导你操作。语音+视觉+交互的融合。

4. 建筑现场检查

屋顶工人在与 App 对话的同时拍摄照片,语音描述与图像数据实时拼接——此前从未被数字化的真实世界数据。

5. 环境智能层(Ambient Layer)

这是最令人毛骨悚然也最令人兴奋的领域。Mike 提到一位 CEO 佩戴全天候腕式录音设备,将整个白天 feed 给 Claude。

从"语音作为渠道"到"语音作为持续智能层"——能够捕获并复合全天上下文的公司,将拥有任何系统记录都无法比拟的数据资产。


五、投资版图与估值验证

BVP 在 Voice AI 赛道的布局揭示了价值流向:

公司 轮次/估值 领域 核心价值
VAPI B轮 / \(500M | 语音基础设施平台 | 受监管行业的对话门控与治理 | | **Abridge** | 已上市 | 医疗语音 AI | 临床文档自动化 | | **Rilla** | 早期 | 家庭服务 | 销售代表语音教练 | | **Axiamatic** |\)54M(Greylock+BVP) 企业转型 工作坊语音→迁移计划
Qualitate 早期 专家网络 200通电话/周末的 AI 主持研究

Qualitate 的数据尤其惊人:已进行超过 350,000 分钟的 AI 主持专家讨论,每次对话都训练下一次对话。一个并购买家可以在单个周末委托 200 通专家网络电话,周一早上获得完美汇编的结构化情报——此前需要分析师团队数周的工作。


六、技术栈的 Build vs Buy 决策

Mike 透露了一个关键洞察:两年前,部署生产级语音基础设施需要10+ 人全职工程团队。这是 VAPI 平台化机会的来源。

今天的决策矩阵:

场景 策略 类比
语音不是你的核心产品 买平台(VAPI 等) 像 Twilio
语音是你的核心产品 自建全栈 控制每一个细节
受监管行业 买平台 + 严格门控 合规即护城河

基础设施正在商品化,但开发者社区、有机飞轮、数据复合才是近中期差异化来源。


七、定价模型的颠覆:从 SaaS 到 AI-Native

Voice AI 正在改变软件经济学的一个根本假设:

  • 传统 SaaS:按席位/功能/数据量收费
  • AI-Native Voice:按对话解决量自主完成率捕获情报价值收费

这不是简单的"AI 功能加价",而是价值计量单位的重新定义。当代理能独立完成一个此前需要人类数小时的端到端流程,定价逻辑自然从"工具使用"转向"成果交付"。


八、结论:谁拥有最好的"比赛录像",谁就赢

Mike Droesch 的总结性比喻非常精准:

"系统记录捕获了记分牌。语音捕获了比赛。或者更好的比喻:在 AI 能观看比赛录像的时代,拥有最好录像的公司 wins。"

这是关于 Voice AI 的最终思考:

1. 数据重力定律
语音 dramatically 扩大了数据飞轮能捕获的"光圈"。键盘一直是瓶颈——低带宽、高摩擦、有损。语音是高带宽、低摩擦,且能捕获此前困在人脑中的信号。

2. 护城河三层论

  • 基础设施 = 入场券(已商品化)
  • 分布/社区 = 近期差异化
  • 对话→评估→自主权→更多对话 = 长期数据重力

3. 从功能到公司
如果你只是做了一个"更好的语音客服",你做了一个功能。如果你能拥有客户的整个旅程——从首次对话到最终解决——你才有可能构建一个可规模化的公司。

4. 环境层是未来
Granola 记录每一次会议。CEO 佩戴全天候录音设备。语音正从"交互渠道"演变为"持续智能层"。在这个层面积累上下文复合能力的公司,将拥有不可复制的数据资产。


参考来源

  • Euclid Ventures: What's Working in Vertical Voice AI - Mike Droesch Interview (2026-05-27)
  • Bessemer Venture Partners: Roadmap: Voice AI (2025-11)
  • Verticals Podcast Episode with Mike Droesch
  • VAPI Series B Announcement (\(500M valuation) - Axiamatic\)54M Funding (Greylock + Bessemer)
  • Qualitate: AI-Native Expert Network (350,000+ minutes)

#VoiceAI #垂直AI #BessemerVenturePartners #VAPI #Abridge #Rilla #Axiamatic #Qualitate #AI投资 #语音基础设施 #数据护城河 #流程挖掘 #环境智能 #SaaS #AI原生定价 #创业洞察

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录