Together AI 推出语音代理平台,延迟低于700毫秒

Together AI 推出统一语音代理基础设施,集成 Deepgram 和 Cartesia,面向企业部署,端到端延迟低于 700 毫秒。

Together AI 推出了一套统一的语音代理平台,将语音转文本、语言模型和文本转语音处理集成在同一基础设施集群中。这家市值33亿美元的人工智能云创业公司声称,该系统的端到端延迟低于700毫秒——足够支持自然对话的流畅进行。

该平台原生集成 Deepgram 进行转录,集成 Cartesia 进行语音合成,二者都运行在 Together 的共址服务器上,而不是在多个云提供商之间传输音频。

为什么共址对语音很重要

大多数生产环境的语音系统会将每个流程阶段的供应商拆分开来。音频先由一个供应商进行转录,然后路由到另一个供应商获取大模型(LLM)响应,最后再跳转到第三个供应商进行语音合成。每一次切换都会增加网络延迟和失败风险。

Together 的主张是:将所有环节都放在同一数据中心。公司报告在最佳条件下延迟低于500毫秒,虽然700毫秒是他们对端到端处理的最高预期。

“语音代理的成败取决于延迟,每一次供应商之间的网络跳转都是体验崩溃的可能点,”Deepgram 合作伙伴关系副总裁 Abe Pursell 表示。

无拼凑的模型灵活性

该平台支持 Whisper Large v3、Minimax Speech 2.6 Turbo、Rime Arcana 和 Kokoro,以及 Together 全部的大模型目录。开发者可以在不重建集成的情况下切换组件——这对于测试不同语音特性或特定用例的转录准确性非常有用。

Cartesia 将其 Sonic-3 和 Sonic-2 TTS 模型引入平台。Deepgram 提供 Nova-3、Nova-3 多语种转录模型、Flux(用于对话式语音转文本)和 Aura-2(用于语音合成)。

不同于不透明的语音到语音系统,Together 的模块化方法保留了对中间转录和响应文本的访问权限。团队可以在流中间检查、修改和路由数据——这是许多企业合规流程的基本需求。

企业需求与生产应用

该平台面向受监管行业,支持零数据存储选项,获得 SOC 2 Type II 认证,符合 HIPAA 标准,并提供专用数据驻留。运营客户支持语音代理(处理账单查询和技术故障)的 Decagon 已经在使用该技术。

Together AI 在2025年2月融资3.05亿美元,估值33亿美元,有报道称公司目前正洽谈以75亿美元的估值进行融资。公司已拥有超过45万开发者,年收入突破1亿美元。

语音平台的推出标志着 Together 从其核心的大模型推理业务扩展到不断增长的语音AI市场,在该市场中,延迟和可靠性仍然是生产部署中的主要难题。

图片来源:Shutterstock

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论