Acabei de ver o Simon testar no Mac o novo modelo de código aberto da Microsoft, o VibeVoice-ASR, isso é impressionante.


9 bilhões de parâmetros, processa 60 minutos de áudio contínuo de uma só vez, e ainda consegue identificar quem está falando, quando fala e o que foi dito.
Soluções tradicionais precisam combinar Whisper + pyannote, agora um único modelo resolve tudo, suportando mais de 50 idiomas e mistura de chinês e inglês.
Ele usou a versão quantizada de 4 bits (5,71GB) no M5 Max para processar um podcast de 1 hora em 8 minutos e 45 segundos, com pico de memória de 61,5GB, um notebook comum de 32GB não consegue rodar.
O interessante é que o modelo identificou uma conversa entre duas pessoas como três, porque o Lenny fala em ambientes de gravação diferentes.
Rodar localmente pelo menos 64GB de memória, para transcrição de podcasts e atas de reuniões, agora o processo em várias etapas pode ser comprimido em uma única inferência.

O que vocês acham desse modelo?
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar