Trong thông báo về mô hình Gemini 3.5 Live Translate ngày 10/6, Google cho biết đang đưa tính năng phiên dịch lên ứng dụng Meet và Translate đến nhiều thị trường, trong đó có Việt Nam.
Trước đây, các ứng dụng này có thể dịch tiếng Việt, nhưng hiển thị phụ đề trên màn hình. Trong khi đó, tính năng mới là dạng giọng nói đè lên âm thanh gốc qua tai nghe, với độ trễ thấp, tương tự dịch cabin.
Ví dụ trong cuộc trò chuyện với một người nói tiếng Anh, người dùng có thể mở ứng dụng, chọn cặp ngôn ngữ Anh - Việt. Một giọng tiếng Việt sẽ được phát song song với âm thanh gốc qua tai nghe.
Người dùng tại Việt Nam có thể sử dụng qua ứng dụng Google Translate trên thiết bị chạy iOS và Android, chọn Dịch trực tiếp ở góc trái màn hình. Điều kiện cần là kết nối với tai nghe để nghe phiên dịch. Google cho biết ứng dụng có thể phản ánh chính xác tông giọng của người nói với hơn 70 ngôn ngữ.
Riêng với Android, Google cho biết bắt đầu triển khai chế độ cho phép nghe bản dịch trực tiếp qua loa thoại. "Chỉ cần đưa điện thoại lên tai như khi thực hiện cuộc gọi thông thường, âm thanh được dịch sẽ truyền trực tiếp đến bạn", thông báo nêu. Tính năng này hữu ích trong những tình huống người dùng muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.
Giao diện ứng dụng Google Translate ngày 10/6, với tính năng Dịch trực tiếp. (Ảnh: VnExpress)
Mô hình được xây dựng dựa trên bối cảnh giao tiếp hàng ngày. Theo Google, công cụ có thể hoạt động trong môi trường ồn ào và được thiết kế để xử lý tạp âm nền, giọng nói chồng chéo và các phong cách nói chuyện thoải mái của đời thực. Tính năng giúp ứng dụng phù hợp với nhiều tình huống sử dụng thực tế, bao gồm các cuộc gọi hỗ trợ khách hàng, tour du lịch có hướng dẫn, lớp học, dịch vụ gọi xe và phát sóng trực tiếp.
Theo thông tin từ Google, Grab đang thử nghiệm mô hình để giúp tài xế và hành khách giao tiếp đa ngôn ngữ gần như theo thời gian thực các điểm đón. Những người dùng này hiện thực hiện hơn 10 triệu cuộc gọi thoại mỗi tháng thông qua Grab.
Google cũng đặc biệt chú trọng đến chất lượng giọng nói. Thay vì tạo ra một giọng nói tổng hợp chung chung, hệ thống cố gắng bảo tồn các yếu tố trong cách truyền đạt của người nói gốc, bao gồm nhịp điệu, ngữ điệu và tông giọng cảm xúc. Điều này giúp âm thanh dịch thuật tự nhiên và dễ theo dõi hơn.
Mục tiêu lớn hơn của Google là đưa dịch thuật trực tiếp vượt ra khỏi các bản trình diễn thông thường để tiến sâu vào giao tiếp hàng ngày. Bằng cách cho phép các cuộc hội thoại đa ngữ diễn ra gần như theo thời gian thực mà không buộc người dùng phải thay đổi thói quen nói chuyện, Gemini 3.5 Live Translate có thể khiến các tương tác xuyên biên giới trở nên thiết thực hơn đối với cả doanh nghiệp, tổ chức lẫn cá nhân.