Бюро новин Coin界 повідомляє, що Jiēyuè Xīngchén випустила нове покоління автоматичної системи розпізнавання мови StepAudio 2.5 ASR, яке вже повністю запущено на їхній відкритій платформі. Ця версія першою впроваджує технологію багатотокенового прогнозування великих мовних моделей (MTP) у сферу розпізнавання мови, значно підвищуючи швидкість обчислень, одночасно повторно використовуючи контекстне вікно великої моделі на 32K, що руйнує обмеження традиційного розшифрування довгих аудіо з необхідністю розрізання та з'єднання. Новий модель безпосередньо повторно використовує контекстне вікно на 32K, підтримуючи енд-ту-енд обробку одного разу максимально 30 хвилин повного аудіо. У тестах із повним навантаженням на 30 хвилин модель не показала зниження точності з часом, а її загальна помилка на 10 авторитетних відкритих тестових наборах, таких як Librispeech, для англійської та китайської мов, була нижчою за конкурентів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити