สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ร่วมมือกับ PyThaiNLP ปล่อยโมเดล AI ถอดความจากเสียงภาษาไทย แม่นยำทัดเทียมกับกูเกิล เปิดให้ใช้งานฟรีใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source) เหมาะกับการใช้งานด้านสั่งอาหาร บริการลูกค้า และจดประชุม

โมเดลถอดความจากเสียงภาษาไทย (Automatic Speech Recognition; ASR) ที่ถูกเทรนบนข้อมูล Common Voice 7.0 ประมาณ 133 ชั่วโมง ประกอบด้วยโมเดลที่เทรนจากศูนย์ด้วย Kaldi และโมเดลที่ปรับแต่งจาก XLSR-Wav2Vec2 จาก Facebook โดยมีความแม่นยำเทียบเท่ากับบริการของ MicrosoftGoogleAmazon

การถอดคลิปเสียงสั้นๆนั้นจะใช้เวลา 1.09 วินาที ทางผู้พัฒนาบอกว่า โมเดลนี้เหมาะสำหรับการถอดเสียงบทสนทนาทั่วไป เช่น การสั่งอาหาร บริการลูกค้า และจดประชุม  แต่ยังมีข้อจำกัดหลายเรื่อง เช่น การถอดเสียงชื่อคน การถอดเสียงคำทับศัพย์จากภาษษต่างประเทศ คำศัพท์เฉพาะที่อาจจะยังไม่แม่นยำนัก ซึ่งก็เป็นโจทย์ที่ต้องพัฒนาให้ทำงานได้ดียิ่งขึ้น

ผู้ที่สนใจนำไปงานได้ฟรี ทั้งงานวิจัยและเชิงพาณิชย์ภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (open source) ทั้งแบบ on-cloud และ on-premise

ที่มา AIResearch