Google researchers เปิดตัวงานวิจัยโมเดล AI ใหม่ที่สามารถเปลี่ยนภาพนิ่งให้เป็นอวาร์ตาร์ที่เร่าสามารถควบคุมด้วนเสียงได้

VLOGGER เป็นงานวิจัยที่ยังไม่เปิดให้ใช้งานแต่ปล่อยตัวอย่างออกมาให้เห็นถึงไอเดียที่น่าสนใจ ซึ่งเราสามารถสร้างอวาร์ตาร์จากภาพนิ่งให้เคลื่อนไหวได้ นอกจากนั้นเรายังเพิ่มไฟลืเสียง ให้ขยับริมฝีปากพูดตามได้อย่างเป็นธรรมชาติ ซึ่งการขยับศีรษะ การแสดงสีหน้า การจ้องตา กะพริบตา ขยับมือ นั้นเรียกว่าทำได้ค่อนข้างน่าสนใจทีเดียว

ตัวโมเดลสามมิตินั้นถูกสร้างขึ้นมาจาก diffusion โมเดลที่ใช้เปลี่ยนข้อความเป็นรูปภาพและวิดีโอแบบเดียวกับ MidJourney หรือ Runway แต่เพิ่มความสามารถให้เราควบคุมการทำงานได้มากขึ้น

Vlogger นั้นจะผ่านหลายขั้นตอนในการสร้างโมเดลสามมิติขึ้นมา ขั้นตอนแรกนั้นจะใช้เสียงและภาพเป็นวัตถุดิบเริ่มต้น นำไปผ่านกระบวนการสร้างภาพเคลื่อนไหวสามมิติ โดยโมเดล “temporal diffusion” จะเป็นตัวกำหนดเวลาและการเคลื่อนไหว เสร็จแล้วจะทำการ upscale แล้วเปลี่ยนเป็นคลิปวิดีโอที่สมบูรณ์ ซึ่ง AI จะทำการคาดเดาการเคลื่อนไหวของใบหน้า ร่างกาย และท่าทางต่างๆโดยใช้เฟรมแรกเป็นแนวทาง

ทาง Google ได่ใช้ฐานข้อมูลมัลติมีเดียชื่อว่า MENTOR ที่ประกอบด้วยคลิปวิดีโอกว่า 800,000 คลิปของบุคคลที่แตกต่างกันมาฝึกสอนเอไอ

ข้อจำกัดของ VLOGGER?

นี่เป็นการแสดงตัวอย่างการวิจัย ยังไม่ใช่ผลิตภัณฑ์จริง ถึงแม้จะสามารถสร้างการเคลื่อนไหวที่ดูสมจริงได้ แต่วิดีโออาจไม่ตรงกับการเคลื่อนไหวจริงๆ ของบุคคลเสมอไป

ทีมงานกล่าวว่ายังเจอปัญหากับการเคลื่อนไหวขนาดใหญ่หรือสภาพแวดล้อมที่หลากหลาย นอกจากนี้ ยังสามารถสรางได้เฉพาะวิดีโอสั้นเท่านั้น

VLOGGER ใช้งานอะไรได้บ้าง?

ทาง Google researchers บอกว่า การใช้งานหลักจะเน้นเรื่องการแปลภาษาในวิดีโอ เช่น ต้นฉบับเป็นภาษาหนึ่ง นำมาตัดต่อใส่เสียงให้แปลเป็นอีกภาษาหนึ่ง

ต่อมาคือการสร้างอวาร์ตาร์เพื่อเป็นผู้ช่วยเสมือนจริง, แชทบอทหรือ virtual characters ที่หน้าตาเหมือนจริงในสภาพแวดล้อมแบบในเกม สุดท้ายคือการสร้างตัวละครเพื่อนำไปใช้งานกับแว่นตาอย่าง  Meta Quest หรือ Apple Vision Pro ได้

ที่มา https://www.tomsguide.com/ai/google-gemini/googles-new-vlogger-ai-lets-you-create-a-lifelike-avatar-from-just-a-photo-and-control-it-with-your-voice