Microsoft Research Asia เปิดตัวเครื่องมือใหม่ VASA-1 เพื่อทดลองเปลี่ยนภาพนิ่งของบุคคลให้กลายเป็นวิดีโอได้ เมื่อใส่ไฟลืเสียงเข้าไป พร้อมขยับศีรษะและแสดงอารมณ์ได้แบบ real time
VASA-1 ใช้ความสามารถของ AI เพื่อช่วยสร้างการแสดงสีหน้าและการเคลื่อนไหวของศีรษะให้เหมาะสมกับไฟล์เสียงพูดหรือเสียงเพลง โดยทางนักวิจัยได้ทำการอัปโหลดตัวอย่างเข้าไปในในหน้าเว็บเพื่อให้เห็นผลงานที่ AI สร้างขึ้นมา ซึ่งหลายๆคลิปนั้นเรียกว่าเหมือนคนจริงๆมาก ถ้าไม่บอก
จากเอกสารที่เผยแพร่ออกมาพร้อมกันระบุว่า VASA-1 นั้นถูกฝึกสอนด้วยข้อมูลจาก VoxCeleb2 ซึ่งประกอบด้วย คำพูดมากกว่า 1 ล้านคำพูดจากเหล่าเซเล็บ 6,112 คนที่สังเคราะห์มาจากคลิปวิดีโอบน YouTube แม้ว่าเครื่องมือนี้จะได้รับการฝึกฝนบนใบหน้าของคนจริงๆ แต่ก็ยังใช้ได้กับภาพศิลปะเช่น Mona Lisa ได้ด้วย แน่นอนว่า AI ก็ยังมีข้อจำกัด เช่น การขยับของริมฝีปากและศีรษะในบางคลิปนั้นจะเหมือนกับหุ่นยนต์ ถ้าดูใกล้ๆก็จะพบว่า sync เสียงไม่ตรงกันอยู่บ้าง
สิ่งที่ Microsoft ห่วงก็คือ เทคโนโลยีนี้สามารถนำไปใช้ในทางที่ผิดเพื่อสร้างวิดีโอปลอม Deep Fake ได้อย่างง่ายดายและรวดเร็ว ทางบริษัทจึงตัดสินใจที่จะไม่เผยแพร่ “การสาธิตออนไลน์, API, ผลิตภัณฑ์, รายละเอียดการใช้งานเพิ่มเติม หรือข้อเสนอใดๆ ที่เกี่ยวข้อง” จนกว่าจะแน่ใจว่าเทคโนโลยีของพวกเขา “จะถูกใช้อย่างรับผิดชอบและสอดคล้องกับกฎระเบียบที่เหมาะสม” รวมถึงมีการวางแผนที่จะใช้มาตรการป้องกันบางอย่างเพื่อป้องกันไม่ให้ผู้ไม่ประสงค์ดีนำไปใช้เพื่อวัตถุประสงค์ที่ชั่วร้ายหรือไม่ เช่น เพื่อสร้างสื่อลามกปลอมหรือแคมเปญการให้ข้อมูลที่ไม่ถูกต้อง
นักวิจัยเชื่อว่าเทคโนโลยีของพวกเขามีประโยชน์มากมายแม้ว่าจะเสี่ยงกับการนำไปใช้งานในทางที่ผิดก็ตาม พวกเขากล่าวว่าสามารถใช้เพื่อเพิ่มความเสมอภาคทางการศึกษา รวมถึงปรับปรุงการเข้าถึงสำหรับผู้ที่มีปัญหาด้านการสื่อสาร เช่น สร้างอวตารที่สามารถสื่อสารกับคนอื่นๆได้
ที่มา https://www.engadget.com/microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html?_fsig=90yOFrIZleFM22AFSToXaQ–%7EA