Khoa học
Zalo về nhất cuộc thi trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên và tiếng nói

Tại cuộc thi VLSP (Vietnamese Language and Speech Processing) lần thứ 6 năm 2019 do Viện Hàn lâm Khoa học và Công nghệ cùng Trường ĐH Khoa học tự nhiên (ĐHQG HN) tổ chức, Zalo đạt giải nhất về Tổng hợp tiếng nói và giải nhì Nhận dạng tiếng nói.

Xử lý tiếng nói tiếng Việt là bài toán khó trong nghiên cứu và phát triển AI tại Việt Nam. Trong nhiều năm qua, bài toán này được đưa vào đề thi của VLSP nhằm kết nối các nhóm chuyên gia của doanh nghiệp, trường đại học và viện nghiên cứu, chia sẻ kinh nghiệm và tìm ra giải pháp tốt nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên và giọng nói tiếng Việt.

VLSP 2019 được phát động từ đầu tháng 9, có 4 hạng mục: Hate Speech Detection on Social Networks (Nhận diện các nội dụng tiêu cực, độc hại trên mạng xã hội), Vietnamese dependency parsing (Phân tích cấu trúc tiếng Việt); Automatic Speech Recognition (Nhận dạng tiếng nói); Text To Speech (Tổng hợp tiếng nói).

Về đề thi Text to Speech, tập dữ liệu huấn luyện gồm 15.000 đoạn ghi âm giọng miền Nam (tổng thời gian 23 giờ) và gần 1.000 đoạn ghi âm giọng miền Bắc (tổng thời gian 45 phút). Sau đó, ban tổ chức gửi cho các đội thi 60 câu văn bản cho mỗi giọng; mô hình AI của các đội thi phải sinh ra file âm thanh những câu đó. Kết quả này được gửi ngẫu nhiên cho 24 người, những người này sẽ chấm điểm dựa trên chất lượng giọng nói và mức độ tự nhiên của file âm thanh.

Điểm khó nhất của đề thi này là là dữ liệu đầu vào khá nhiễu, các đội thi cần lọc sạch dữ liệu để training tốt nhất cho mô hình AI. Sau nỗ lực, Zalo đạt giải nhất với số điểm 3.94/5 hạng mục Text To Speech.

Hiện Zalo đang ứng dụng công nghệ xử lý tiếng nói vào phát triển và hoàn thiện trợ lý ảo Ki-Ki, đồng thời, sẽ triển khai tích hợp vào 2 sản phẩm truyền thông của VNG.

Ngân Thành

Gửi bình luận
Có thể bạn quan tâm
Khoa học
Cỗ máy đọc sách sử dụng AI biến tiểu thuyết thành thơ

Một cỗ máy đọc sách đã được hai giảng viên Đại học RMIT nghiên cứu phát triển sử dụng thị giác máy tính và nhận dạng ký tự quang học để đọc sách và làm thơ độc, lạ không giống ai.

Người Việt tìm gì trong những ngày cách ly tại nhà vì Covid-19?

Hầu như lượng tìm kiếm liên quan đến Covid-19 xoay quanh tình hình lây nhiễm tại Việt Nam và trên thế giới, cũng như các triệu chứng, biểu hiện nhiễm bệnh.

Tuyến cáp quang biển lại gặp sự cố ngay mùa dịch

Ngay sau khi các nhà mạng cam kết tăng băng thông giữ nguyên giá, người dùng Internet tối 2/4 bắt đầu phàn nàn về việc tốc độ truy cập mạng bị chậm đáng kể. Hôm nay 3/4, thông tin từ một số nhà cung cấp dịch vụ Internet nói rằng tuyến cáp quang biển đã xảy ra sự cố.

Các nhà khoa học tích cực tìm kiếm kháng thể Covid-19

Các nhà khoa học từ Hàn Quốc, Trung Quốc, Hà Lan hay Anh... đang tích cực nghiên cứu và sử dụng các phương pháp thực nghiệm, tìm kiếm kháng thể để chế tạo thuốc điều trị và vắc-xin ngăn chặn Covid-19.