Kỹ sư Việt công bố nghiên cứu về AI Xử lý tiếng nói tại hội nghị khoa học lớn thế giới

Tính năng "soạn tin nhắn bằng giọng nói" trên Zalo đã được nâng cấp đáng kể nhờ vào kết quả của nghiên cứu mới

Công trình nghiên cứu giúp tăng độ chính xác của các mô hình nhận dạng tiếng nói trong thời gian thực (Streaming Automatic Speech Recognition) được thực hiện bởi kỹ sư Zalo AI, đã được chấp nhận công bố tại Hội nghị khoa học hàng đầu thế giới về Xử lý tiếng nói - Interspeech, dự kiến diễn ra tại Hy Lạp vào tháng 9/2024.

Công trình nghiên cứu của Zalo AI với đề tài: “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (Tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động), được thực hiện bởi kỹ sư sinh năm 2000 Lê Duy Khánh đến từ Zalo AI dưới sự hướng dẫn của TS. Châu Thành Đức – Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TPHCM. Nghiên cứu này có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.

Hiện nay, hầu hết các thuật toán nhận dạng tiếng nói thời gian thực (streaming ASR) gặp khó khăn với việc thiếu ngữ cảnh (context), dẫn đến chất lượng nhận dạng không được tối ưu. Mặc dù việc bổ sung ngữ cảnh có thể cải thiện độ chính xác, nhưng thường đi kèm với việc tăng độ trễ (latency) trong quá trình chuyển giọng nói thành văn bản. Nghiên cứu của Zalo AI hướng đến việc cung cấp nhiều ngữ cảnh hơn cho mô hình nhận dạng tiếng nói, tượng tự như việc “nhìn trước” tương lai, từ đó nâng cao đáng kể độ chính xác mà không làm gia tăng độ trễ, khác biệt so với các nghiên cứu trước đây.

Nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của mình từ cuối năm 2023, mang lại sự cải thiện đáng kể về độ chính xác cho tính năng “soạn tin nhắn bằng giọng nói” (voice dictation) đang trong giai đoạn thử nghiệm. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế, với tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói cũng giảm từ 6,4% xuống chỉ còn 4,8%. Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm, nhưng đã tạo ra gần 4,5 triệu tin nhắn mỗi ngày và thu hút khoảng 3,2 triệu người dùng hàng tháng (dữ liệu cập nhật đến tháng 6/2024).

Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video

Kỹ sư Việt công bố nghiên cứu về AI Xử lý tiếng nói tại hội nghị khoa học lớn thế giới - Hinh 1 12

Lê Duy Khánh – kỹ sư sinh năm 2000, sẽ trình bày về đề tài nghiên cứu của mình tại Interspeech 2024

Interspeech là một hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức.

Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới. TS. Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI và đồng tác giả của công trình nghiên cứu lần này, chia sẻ: “Việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín là rất có ý nghĩa. Những bài báo khoa học không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu”.

Đây không phải là lần đầu tiên các kỹ sư Zalo AI có bài báo khoa học được công nhận cấp quốc tế. Vào năm 2021, hai đề tài nghiên cứu khác của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói cũng đã được công nhận tại Hội nghị Châu Á – Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này đều là những nhà nghiên cứu trẻ, với độ tuổi chưa đến 30.

Lần đầu tiên có bài báo khoa học được công nhận bởi hội nghị quốc tế, Lê Duy Khánh chia sẻ: “Tôi rất tự hào khi bài báo khoa học đầu tay được công nhận bởi hội nghị khoa học uy tín và có cơ hội giới thiệu thành quả nghiên cứu của Việt Nam đến các big-tech, chuyên gia và cộng đồng quốc tế.”

Có thể bạn quan tâm
Các khởi nghiệp ứng dụng AI chiến thắng tại Thử thách đổi mới sáng tạo Qualcomm Việt Nam (QVIC) 2024

Ba công ty đoạt giải tại QVIC năm nay lần lượt là Vbee- Nền tảng AI hội thoại, HSPTek – Thiết bị đeo được giám sát thời gian thực chống tĩnh điện và Met EV- xe điện thông minh với giải pháp hoán đổi pin năng lượng AI với các giải thưởng lần lượt là 100.000 USD, 75.000 USD và 50.000 USD.

Doanh nghiệp SME chuyển đổi số cần nghĩ đến nền tảng có khả năng tích hợp cao và chia sẻ tài nguyên số

Ngày 23/8, Công ty TNHH MTV Phát triển Công viên phần mềm Quang Trung (QTSC), Trung tâm Hỗ trợ và Tư vấn Chuyển đổi số TP.HCM (DXCenter) phối hợp tổ chức Hội thảo “Hành trình chuyển đổi số – Đột phá từ doanh nghiệp nhỏ đến thành công lớn”, nhằm giúp các doanh nghiệp có cơ hội học hỏi, trao đổi kinh nghiệm và tìm ra những giải pháp đột phá để phát triển mạnh mẽ hơn trong thời đại số.

Mini App cấp xã/phường trên Zalo, chuyển đổi số từ cơ sở

Hiện nay, nhiều địa phương cấp dưới huyện/quận đã áp dụng phương án này, đẩy mạnh chuyển đổi sâu sắc và trực diện đến người dân thông qua việc chủ động xây dựng và phát triển Mini App riêng của xã/phường/thị trấn trên nền tảng Zalo.

Nền tảng TMĐT y tế Buymed chống gian lận bằng giải pháp của SHIELD

Buymed, nền tảng thương mại điện tử chăm sóc sức khỏe, y tế của Việt Nam và đang mở rộng ra Đông Nam Á đã công bố chính thức hợp tác với SHIELD, nền tảng phân tích rủi ro trên các thiết bị dựa vào AI nhằm hạn chế tối đa các rủi ro hay lừa đảo trực tuyến.

Ưu tiên chuyển đổi số, doanh nghiệp sản xuất gặp khó khăn về tốc độ đổi mới sáng tạo

Zebra Technologies Corporation, nhà cung cấp giải pháp số vừa công bố kết quả của nghiên cứu Tầm nhìn trong ngành sản xuất (Manufacturing Vision Study) năm 2024.

Visa thúc đẩy trải nghiệm số trong giao thông đô thị tại Việt Nam

Visa vừa tổ chức Diễn đàn Chính phủ số lần đầu tiên diễn ra tại Việt Namvới sự tham gia của các Bộ, Ngành, ngân hàng, công ty trung gian thanh toán và các công ty công nghệ hàng đầu tại Việt Nam.

CMC dùng AI làm đòn bẩy cho cuộc chuyển đổi toàn diện

Với tầm nhìn chiến lược và sự đầu tư mạnh mẽ, Tập đoàn Công nghệ CMC đang chuyển mình để đáp ứng xu hướng chuyển đổi trí tuệ nhận tạo (AI) không chỉ tại Việt Nam mà còn trên quy mô toàn cầu.

Klook đầu tư cho Kreator – các nhà sáng tạo nội dung của mình

Klook đầu tư vào các workshop “Kreator Labs” và các quan hệ đối tác nhằm nâng tầm nội dung do người dùng sáng tạo, đồng thời mở rộng chương trình “Klook Kreator” (nhà sáng tạo nội dung Klook).

FPT Software ký kết hợp tác với Meerana, nghiên cứu AI, thúc đẩy chuyển đổi số khu vực Trung Đông

FPT Software vừa ký kết hợp tác chiến lược với Meerana Technologies – nhà cung cấp các giải pháp công nghệ thông minh tại UAE (Các Tiểu Vương quốc Ả Rập Thống nhất), nhằm thúc đẩy chuyển đổi số và phát triển công nghệ tại khu vực Trung Đông này.

Từ sự cố “màn hình xanh chết chóc”, doanh nghiệp cần làm gì để duy trì hệ thống vận hành ổn định?

Như đã biết, vào ngày 19/7/2024, công ty an ninh mạng CrowdStrike đã cố gắng cập nhật “Falcon Sensor” nhằm phát hiện mối đe dọa theo thời gian thực và bảo vệ thiết bị đầu cuối, nhưng điều này đã dẫn đến sự cố “màn hình xanh chết chóc”, ảnh hưởng đến 8,5 triệu thiết bị chạy Windows Microsoft, gây tê liệt làm gián đoạn hệ thống vận hành trên toàn thế giới trong hai đến ba ngày.