O responsável pelas relações com programadores da Google para IA, Logan Kilpatrick, anunciou a disponibilização do Gemini 3.1 Flash TTS no dia 15 de abril — o modelo mais recente de texto-para-voz da Google. Este modelo suporta 70 línguas, controlo pormenorizado ao nível de cenários (scene direction) e do tipo de orador, bem como etiquetas de áudio; atualmente, já está disponível para utilização no audio playground da Google AI Studio e na Gemini API.
Quatro funcionalidades centrais
O Gemini 3.1 Flash TTS, em comparação com a geração anterior, tem quatro melhorias evidentes:
Direção de cena (Scene Direction) — permite definir o contexto para a voz, por exemplo, “falar baixinho num café barulhento” ou “anunciar entusiasmado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário
Controlo ao nível do orador (Speaker-Level Specificity) — em conversas com múltiplos intervenientes, pode definir características de voz diferentes para cada personagem
Etiquetas de áudio (Audio Tags) — permite inserir instruções de efeitos sonoros no texto, controlando detalhes como pausas e variações de entoação
Suporte a 70 línguas — expande significativamente a cobertura multilingue, incluindo chinês
Uma voz mais natural e expressiva
A Google sublinha os progressos deste modelo na naturalidade da voz. Os modelos tradicionais de TTS são frequentemente criticados por produzirem uma saída que “soa como IA”; o Gemini 3.1 Flash TTS procura reduzir a distância para a voz humana através de variações de prosódia e expressão emocional mais ricas. Kilpatrick aponta que a evolução “é bastante significativa” de Gemini 2.5 para 3.1.
Como os programadores podem usar
Os programadores podem utilizá-lo de duas formas:
Google AI Studio Audio Playground — testar e pré-visualizar diretamente os efeitos de voz na interface Web
Gemini API — integrá-lo nas aplicações, para cenários como assistentes de voz, audiolivros, geração automática de Podcast, apoio ao cliente multilingue, entre outros
A linha de produtos da Gemini continua a expandir-se
O Flash TTS faz parte do conjunto de lançamentos recentes e intensos da série Gemini 3.1. Anteriormente, a Google já tinha apresentado o Gemini Robotics ER 1.6 (raciocínio visual para robôs), Tab Tab Tab (preenchimento de prompt de Vibe Coding) e funções como design preview. A Google está a expandir a Gemini, de “modelo de conversação”, para uma plataforma de IA multimodal completa que abrange texto, voz, visão e robôs.
Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporta 70 línguas e direção de cena; voz de IA mais natural” surgiu pela primeira vez em Cadeia de notícias ABMedia.
Related Articles
O Governo Trump anunciou um plano de combate à extração de IA, acusando as empresas chinesas de roubo sistemático das capacidades dos modelos
A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4
Cambricon Conclui a Adaptação Day 0 do DeepSeek-V4, Marco para o Ecossistema de Chips de IA da China
A Tencent disponibiliza como open source o Hy3 (versão de pré-visualização), com testes de referência do código melhorados em 40% face à geração anterior
Investimentos da Carteira da FTX no Valor de 158 biliões Won se não tivesse falido
A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas