Gate Booster 第 4 期:发帖瓜分 1,500 $USDT
🔹 发布 TradFi 黄金福袋原创内容,可得 15 $USDT,名额有限先到先得
🔹 本期支持 X、YouTube 发布原创内容
🔹 无需复杂操作,流程清晰透明
🔹 流程:申请成为 Booster → 领取任务 → 发布原创内容 → 回链登记 → 等待审核及发奖
📅 任务截止时间:03月20日16:00(UTC+8)
立即领取任务:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多详情:https://www.gate.com/announcements/article/50203
Together AI 推出语音代理平台,延迟低于700毫秒
Together AI 推出统一语音代理基础设施,集成 Deepgram 和 Cartesia,面向企业部署,端到端延迟低于 700 毫秒。
Together AI 推出了一套统一的语音代理平台,将语音转文本、语言模型和文本转语音处理集成在同一基础设施集群中。这家市值33亿美元的人工智能云创业公司声称,该系统的端到端延迟低于700毫秒——足够支持自然对话的流畅进行。
该平台原生集成 Deepgram 进行转录,集成 Cartesia 进行语音合成,二者都运行在 Together 的共址服务器上,而不是在多个云提供商之间传输音频。
为什么共址对语音很重要
大多数生产环境的语音系统会将每个流程阶段的供应商拆分开来。音频先由一个供应商进行转录,然后路由到另一个供应商获取大模型(LLM)响应,最后再跳转到第三个供应商进行语音合成。每一次切换都会增加网络延迟和失败风险。
Together 的主张是:将所有环节都放在同一数据中心。公司报告在最佳条件下延迟低于500毫秒,虽然700毫秒是他们对端到端处理的最高预期。
“语音代理的成败取决于延迟,每一次供应商之间的网络跳转都是体验崩溃的可能点,”Deepgram 合作伙伴关系副总裁 Abe Pursell 表示。
无拼凑的模型灵活性
该平台支持 Whisper Large v3、Minimax Speech 2.6 Turbo、Rime Arcana 和 Kokoro,以及 Together 全部的大模型目录。开发者可以在不重建集成的情况下切换组件——这对于测试不同语音特性或特定用例的转录准确性非常有用。
Cartesia 将其 Sonic-3 和 Sonic-2 TTS 模型引入平台。Deepgram 提供 Nova-3、Nova-3 多语种转录模型、Flux(用于对话式语音转文本)和 Aura-2(用于语音合成)。
不同于不透明的语音到语音系统,Together 的模块化方法保留了对中间转录和响应文本的访问权限。团队可以在流中间检查、修改和路由数据——这是许多企业合规流程的基本需求。
企业需求与生产应用
该平台面向受监管行业,支持零数据存储选项,获得 SOC 2 Type II 认证,符合 HIPAA 标准,并提供专用数据驻留。运营客户支持语音代理(处理账单查询和技术故障)的 Decagon 已经在使用该技术。
Together AI 在2025年2月融资3.05亿美元,估值33亿美元,有报道称公司目前正洽谈以75亿美元的估值进行融资。公司已拥有超过45万开发者,年收入突破1亿美元。
语音平台的推出标志着 Together 从其核心的大模型推理业务扩展到不断增长的语音AI市场,在该市场中,延迟和可靠性仍然是生产部署中的主要难题。
图片来源:Shutterstock