Google ra mắt Gemini 3.1 Flash TTS: hỗ trợ 70 ngôn ngữ và kịch bản theo từng bối cảnh, giọng nói AI tự nhiên hơn

ChainNewsAbmedia

Trưởng phụ trách quan hệ nhà phát triển của Google AI, Logan Kilpatrick, đã công bố việc ra mắt Gemini 3.1 Flash TTS vào ngày 15 tháng 4 — mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Google. Mô hình này hỗ trợ 70 ngôn ngữ, khả năng điều khiển tinh chi tiết theo cấp độ người nói, chỉ dẫn theo ngữ cảnh (scene direction) và thẻ âm thanh (audio tags); hiện đã được mở cho sử dụng trong trình phát triển âm thanh của Google AI Studio (audio playground) và trong Gemini API.

Bốn chức năng cốt lõi

So với phiên bản tiền nhiệm, Gemini 3.1 Flash TTS có bốn điểm nâng cấp đáng chú ý:

Chỉ dẫn theo ngữ cảnh (Scene Direction) — Có thể thiết lập bối cảnh cho giọng nói, ví dụ như “nói khẽ trong quán cà phê ồn ào” hoặc “hào hứng công bố tin vui”; mô hình sẽ điều chỉnh giọng điệu, tốc độ nói và cảm xúc dựa trên bối cảnh

Điều khiển theo cấp độ người nói (Speaker-Level Specificity) — Trong các cuộc hội thoại đa vai, có thể thiết lập các đặc trưng giọng nói khác nhau cho từng nhân vật

Thẻ âm thanh (Audio Tags) — Hỗ trợ chèn các lệnh hiệu ứng âm thanh vào văn bản, kiểm soát chi tiết như nhịp ngừng (pause) và thay đổi ngữ điệu

Hỗ trợ 70 ngôn ngữ — Mở rộng đáng kể phạm vi đa ngôn ngữ, bao gồm tiếng Trung

Giọng nói tự nhiên và giàu biểu cảm hơn

Google nhấn mạnh những tiến bộ của mô hình này về độ tự nhiên của giọng nói. Các mô hình TTS truyền thống thường bị chỉ trích là “nghe như AI”. Gemini 3.1 Flash TTS tìm cách thu hẹp khoảng cách với giọng nói của con người thông qua biến đổi ngữ điệu và biểu đạt cảm xúc phong phú hơn. Kilpatrick cho biết, sự tiến bộ từ Gemini 2.5 lên 3.1 là “rất rõ rệt”.

Cách nhà phát triển sử dụng

Nhà phát triển có thể sử dụng theo hai cách:

Google AI Studio Audio Playground — Trực tiếp kiểm thử và xem trước hiệu quả giọng nói ngay trên giao diện web

Gemini API — Tích hợp vào ứng dụng để phục vụ các tình huống như trợ lý giọng nói, sách nói, tự động tạo Podcast, chăm sóc khách hàng đa ngôn ngữ, v.v.

Dòng sản phẩm Gemini tiếp tục mở rộng

Flash TTS là một phần trong chuỗi các bản phát hành dày đặc gần đây của dòng Gemini 3.1. Trước đó, Google đã giới thiệu Gemini Robotics ER 1.6 (suy luận thị giác cho robot), Tab Tab Tab (bổ toàn prompt “Vibe Coding”) và các tính năng xem trước thiết kế. Google đang mở rộng Gemini từ “mô hình chat” sang một nền tảng AI đa phương thức bao gồm văn bản, giọng nói, thị giác và robot.

Bài viết này Google ra mắt Gemini 3.1 Flash TTS: Hỗ trợ 70 ngôn ngữ và chỉ dẫn theo ngữ cảnh, giọng nói AI tự nhiên hơn đã xuất hiện sớm nhất trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Thực tế của AI Agent ở Thung lũng Silicon: lãng phí hàng loạt token, tích hợp hệ thống “cực kỳ hỗn loạn”, dự đoán của Hoàng Nhân Quân “ChatGPT tiếp theo” vẫn cần được xác minh

Trong hội nghị gần đây ở Thung lũng Silicon, nhiều CEO của các startup AI đã đưa ra quan điểm về các vấn đề khi sử dụng AI agent hiện nay, cho rằng đang phải đối mặt với hai khó khăn lớn là lãng phí token và hệ thống bị rối loạn. Các chuyên gia cho biết, doanh nghiệp cần đánh giá kỹ hơn khi nào nên sử dụng mô hình ngôn ngữ lớn, nhằm tránh lãng phí tài nguyên không cần thiết. Ngoài ra, sự phối hợp giữa nhiều AI agent thường gây ra các vấn đề về truyền thông tin và tính nhất quán trạng thái, cho thấy việc tiêu chuẩn hóa hiện nay vẫn cần được cải thiện. Mặc dù ông Hoàng Nhân Huân đề cập đến quan điểm về chỉ số lương token, phản hồi cho thấy điều này không đồng nghĩa với năng suất; giá trị thực sự nằm ở việc thiết kế nhiệm vụ hiệu quả.

ChainNewsAbmedia7giờ trước

AI 吞噬全球创投 80%,Q1 2026 吸走 2,420 亿美元:Crypto 业者如何因应资金重分配

Theo báo cáo, tổng vốn đầu tư mạo hiểm toàn cầu trong quý 1 năm 2026 gần đạt 300 tỷ đô la Mỹ, trong đó các công ty liên quan đến AI chiếm riêng khoảng 242 tỷ đô la Mỹ, tương đương 80% vốn đầu tư mạo hiểm. Điều này cho thấy AI đã trở thành trọng tâm chính của đầu tư mạo hiểm. Khi dòng vốn tập trung vào AI, các lĩnh vực khác như crypto bị chèn ép, các doanh nghiệp cần điều chỉnh chiến lược, tích hợp sâu hơn AI vào hoạt động kinh doanh của mình, và dự kiến sẽ xuất hiện xu hướng hợp nhất cơ sở hạ tầng.

ChainNewsAbmedia12giờ trước

Cảnh sát Hồng Kông cảnh báo lừa đảo tiền mã hóa “giao dịch định lượng bằng AI”, phụ nữ mất 7,7 triệu HKD

Cảnh sát Hồng Kông đã tiết lộ một vụ lừa đảo tiền mã hóa, trong đó một phụ nữ bị mất 7,7 triệu HKD do các đối tượng lừa đảo giả làm chuyên gia đầu tư thông qua Telegram, hứa hẹn lợi nhuận cao nhờ giao dịch định lượng bằng AI. Cảnh sát đã cảnh báo công chúng về những rủi ro liên quan đến các khoản đầu tư tiền mã hóa.

GateNews13giờ trước

Hồng Kông sẽ công bố danh sách doanh nghiệp trọng điểm đợt thứ sáu vào ngày mai

Bộ trưởng Tài chính Hồng Kông Paul Chan đã công bố việc ra mắt một danh sách mới các doanh nghiệp trọng điểm, thu hút hơn 100 doanh nghiệp có giá trị trên 100 tỷ HKD trong các lĩnh vực như khoa học đời sống, AI và fintech, qua đó nhấn mạnh sức hấp dẫn của Hồng Kông đối với đầu tư quốc tế.

GateNews16giờ trước

Robot Lightning của Honor giành chiến thắng tại Giải nửa marathon robot hình người Bắc Kinh 2026 với thành tích 50:26

Robot người máy hình người "Lightning" của Honor đã lập kỷ lục mới tại Giải nửa marathon robot hình người Bắc Kinh Yizhuang 2026, hoàn thành cuộc đua trong 50 phút 26 giây, vượt kỷ lục thế giới của con người.

GateNews19giờ trước

Cổ phiếu Meta Tăng 1,73% khi Công Ty Lên Kế Hoạch Sa Thải 8.000 Nhân Sự Bắt Đầu Từ Ngày 20/5

Meta Platforms dự kiến cắt khoảng 8.000 việc làm, tương đương 10% lực lượng lao động, bắt đầu từ ngày 20/5, bất chấp giá cổ phiếu tăng. Công ty, với hơn $200 tỷ USD doanh thu, đang tập trung vào các khoản đầu tư cho AI trong bối cảnh tái cơ cấu đáng kể, phù hợp với xu hướng của ngành về các đợt sa thải.

GateNews04-18 18:01
Bình luận
0/400
Không có bình luận