TTO - Mặc dù đã có từ cách đây hơn nửa thế kỷ nhưng chưa bao giờ công nghệ nhận diện giọng nói được quan tâm như hiện nay.
Kể từ khi ứng dụng Siri của Apple được tích hợp
trên iPhone 4S, người dùng và các hãng sản xuất đã như thức tỉnh trước
một nhu cầu tương tác qua giọng nói giữa con người và các thiết bị công
nghệ.
Ở Việt Nam, do những hạn chế về điều kiện nghiên cứu
cũng như sự phức tạp của tiếng Việt nên đến năm 2006, công nghệ nhận
diện giọng nói tiếng Việt mới bắt đầu được phòng thí nghiệm trí tuệ nhân
tạo Trường ĐH KHNT TP.HCM nghiên cứu.
Giao diện ứng dụng iSago - Ảnh: Hải Triều |
Hỏi quán phở, iSago trả lời
Giới thiệu với chúng tôi về ứng dụng sử dụng công nghệ
nhận diện giọng nói tiếng Việt, anh Trần Minh Trường, nhân viên phòng
thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM, mở ứng dụng có tên
iSago trên chiếc điện thoại iPhone 4, ấn vào biểu tượng chiếc micro rồi
nói: “Tôi muốn tìm KFC ở quận 1”, chỉ sau tích tắc màn hình trả về một
danh sách địa chỉ các nhà hàng KFC ở quận 1. Anh Trường bấm vào một cửa
hàng, ngay lập tức bản đồ ở khu vực cửa hàng này xuất hiện trên màn
hình.
iSago là một ứng dụng được nhóm nhân viên, cộng tác
viên của phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM cho ra
mắt vào cuối năm 2011 dựa trên những thành công trong quá trình nghiên
cứu công nghệ nhận diện giọng nói của phòng thực hiện từ năm 2006.
Hiện tại, iSago phiên bản 1.0 mới chỉ có chức năng tìm kiếm các nhà hàng, quán ăn ở khu vực TP.HCM bằng giọng nói.
Người dùng có thể ra lệnh bằng giọng nói để tìm kiếm
hơn 30 tên món ăn như cơm, phở, bún, ốc… ở tất cả các quận và địa danh
nổi tiếng trong thành phố như Bến Thành, Bà Chiểu... với xác suất thử
nghiệm chính xác là 92%.
Các thành viên của nhóm viết ứng dụng iSago và VIS - Ảnh: Hải Triều |
iSago
được nhóm thực hiện bắt đầu viết vào giữa năm 2011 và đến cuối năm thì
được chính thức giới thiệu. Hiện iSago 1.0 đã được đưa lên Apple Store
và đang trong quá trình chờ kiểm duyệt. Sau khi kiểm duyệt xong, người
dùng iOS có thể tải về miễn phí để sử dụng.
|
iSago có hai chế độ tìm kiếm online và offline. Ở chế độ offline, người dùng sẽ tìm kiếm bằng cách nhập văn bản, hạn chế của việc tìm kiếm này là người dùng sẽ không xem được bản đồ chỉ dẫn.
Alo, tổng đài viên VIS
Song song với iSago, một ứng dụng khác có tên VIS cũng được nhóm nghiên cứu công nghệ nhận diện tiếng Việt giới thiệu.
VIS được viết từ năm 2009 và được đưa vào thử nghiệm từ
tháng 10-2011. Số lượng từ khóa VIS nhận diện được là 55 từ bao gồm
những từ thông dụng mà người gọi đến tổng đài tự động hay sử dụng.
Hiện tổng đài tự động của Trường ĐH KHTN có thể thông
qua nhận diện giọng nói để nối máy đến 9 phòng ban của trường. Trong
tương lai, nhóm nghiên cứu sẽ đưa con số này lên 18 phòng ban và khoa.
Thành quả ban đầu và những dự định
Nói về những thuận lợi và khó khăn của nhóm nghiên cứu,
PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo Trường
ĐH KHTN TP.HCM, chia sẻ: “Công nghệ nhận dạng giọng nói trên thế giới đã
có từ cách đây gần 70 năm, vì thế khi bắt đầu bằng tiếng Việt có rất
nhiều kết quả chúng ta có thể tận dụng được.
Tuy nhiên, tiếng Việt có những đặc thù riêng, chúng ta
chưa có những nghiên cứu về ngữ âm chuyên cho các mô hình nhận dạng và
tổng hợp. Nhóm đã phải làm việc rất lâu để cho ra mô hình được cho là có
kết quả nhận dạng tốt nhất. Để thu thập dữ liệu, dự án này đỏi hỏi phải
có sự tham gia của hàng trăm, hàng nghìn sinh viên mà chỉ có ở trong
môi trường đại học chúng tôi mới có thể làm được vì các bạn sinh viên
đều làm miễn phí”.
“Ngoài iSago và VIS, chúng tôi cũng đang phát triển
thêm những ứng dụng khác. Cụ thể, sau tết chúng tôi sẽ triển khai một
phần mềm đọc miễn phí cho Hội người mù, chúng tôi làm hoàn toàn miễn phí
để những người có hoàn cảnh khó khăn có thể tiếp cận được với công
nghệ. Ngoài ra, chúng tôi cũng hợp tác với Trường ĐH Kyoto của Nhật Bản
để làm một chương trình hỗ trợ nông dân đồng bằng sông Cửu Long liên
quan đến vấn đề công nghệ trồng lúa. Nông dân hầu hết không có điều kiện
học hành nhiều, thậm chí không biết chữ, khi đó tiếng nói sẽ là phương
tiện tốt nhất chuyển tải thông tin đến cho họ” - TS Quân nói.
|
ĐÌNH KHÁNH
Không có nhận xét nào:
Đăng nhận xét