VTV.vn - Trở về Việt Nam sau bài thuyết trình tại Hội nghị khoa học thế giới Interspeech ở Hy Lạp, Lê Duy Khánh - kỹ sư AI trẻ của Zalo đã chia sẻ về trải nghiệm học tập đáng nhớ.
Lê Duy Khánh là kỹ sư trẻ sinh năm 2000 đến từ Zalo AI. Vượt qua hàng nghìn ứng viên, công trình nghiên cứu của Duy Khánh với đề tài "Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking" (tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động) dưới sự hướng dẫn của TS. Châu Thành Đức - Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP. Hồ Chí MInh, đã được chọn để công bố tại Hội nghị khoa học Interspeech - hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói quốc tế tổ chức.
Với chủ đề "Speech and beyond" (tạm dịch: Tiếng nói và hơn thế nữa), hội nghị năm nay tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học, công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.
Công trình Nghiên cứu của Duy Khánh và các đồng sự có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
Chàng kỹ sư trẻ Lê Duy Khánh đã dành tổng cộng 9 tháng để nghiên cứu, viết bài báo khoa học và ứng dụng vào thực tiễn. Để hoàn thành đề tài, chàng kỹ sư trẻ đã phải đối mặt với nhiều thách thức, vì huấn luyện mô hình nhận dạng tiếng nói đòi hỏi cấu hình phần cứng mạnh, đồng thời tiếng nói là dạng dữ liệu khó xử lý vì có thể gặp các trường hợp không rõ chữ, nói nhanh và thường trong môi trường thực tế nhiều tiếng ồn. Thông thường tỷ lệ thành công của các thí nghiệm chỉ khoảng 10% - nghĩa là trong 10 thí nghiệm chỉ có 1 thí nghiệm đạt được mục tiêu đề ra.
Nói về bài thuyết trình tại hội nghị Interspeech, Duy Khánh kể: "Hội nghị diễn ra 5 ngày với khoảng 2.000 bài thuyết trình hội thảo của các kỹ sư, nhà nghiên cứu công nghệ và AI từ khắp nơi trên thế giới. Có 2 hình thức thuyết trình chính: thuyết trình miệng và thuyết trình poster. Với việc thuyết trình miệng như tôi, mỗi người thuyết trình sẽ có khoảng 20 phút, bao gồm cả thời gian thuyết trình lẫn đặt câu hỏi, để giới thiệu công trình nghiên cứu của mình tới người xem. Với những người chọn thuyết trình poster, họ sẽ có khoảng 2 tiếng đứng cạnh poster của mình và giới thiệu nội dung trên poster tới người tham gia hội nghị.
Bài thuyết trình của tôi diễn ra suôn sẻ. Tôi nhớ có khoảng 100 người ngồi dưới khán phòng. Cuối bài có 2 người đặt câu hỏi, một người hỏi về thuật toán, một người hỏi về tốc độ xử lý. Tôi coi những câu hỏi của mọi người là cách mọi người quan tâm tới nội dung thuyết trình của mình, cũng như có thêm phản hồi để hoàn thiện sản phẩm tốt hơn.
Cá nhân tôi thích xem những bài thuyết trình poster khi bạn có dịp trò chuyện trực tiếp với người thuyết trình, quan sát và nghiền ngẫm bài thuyết trình lâu hơn để học thêm kiến thức mới".
Việc tham gia hội nghị Interspeech mang đến cho Duy Khánh nhiều trải nghiệm ý nghĩa. Một trong những điều Duy Khánh tâm đắc nhất sau chuyến đi là niềm tin được củng cố về tầm quan trọng của nghiên cứu AI.
"Tôi có dịp được nhìn thấy những sản phẩm của những công ty lớn như Microsoft hay Meta tại hội nghị Interspeech cũng như được nghe nhiều nghiên cứu mới về AI từ các trường đại học, viện nghiên cứu công nghệ hàng đầu thế giới như đại học Carnegie Mellon, đại học John Hopkins (Mỹ).... Để các kỹ sư trẻ như chúng tôi nói riêng và ngành công nghệ AI Việt Nam nói chung phát triển, việc đầu tư vào nghiên cứu là điều cần thiết. Làm AI luôn cần có những nghiên cứu, còn nếu hoàn toàn dùng công nghệ có sẵn của những công ty khác thì khó có thể tiến xa".
Từ những ý tưởng và các kiến thức mới học được từ hội nghị Interspeech, Duy Khánh mong muốn có thể tiếp tục phát triển các hoạt động nghiên cứu tại Zalo AI.
Kể từ khi bắt đầu hành trình tiên phong trong nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng vào thế hệ những tài năng trẻ. Hiện tại, có đến 31% nhân sự Zalo thuộc thế hệ GenZ. Đội ngũ nhân sự trẻ đầy nhiệt huyết và không ngại thử thách này là lực lượng nòng cốt, đảm nhận các vai trò quan trọng làm nên sự thành công của các công nghệ và tính năng AI, với trên 10 triệu người dùng trong hệ sinh thái sản phẩm của Zalo.
Chia sẻ về kế hoạch tương lai tại Zalo AI, Duy Khánh cho biết: "Công việc của tôi và các đồng nghiệp thường được gói gọn trong câu nói vui: "GPU càng nhiều, trách nhiệm càng lớn". Tại Zalo, chúng tôi hiểu rằng tài nguyên mà mình có là vô giá, và điều quan trọng là phải trân trọng và tận dụng tối đa khả năng của chúng. Mỗi ý tưởng, dù nhỏ nhất, đều mang trong mình giá trị và cơ hội xứng đáng được hiện thực hóa. Tham dự kỳ Interspeech lần này không chỉ là cột mốc cá nhân, mà còn là động lực để tôi phấn đấu đưa công nghệ AI đến gần hơn với mọi người dùng Việt Nam".
Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online và VTVGo!