NVIDIA ได้เปิดตัวโมเดล Generative AI เชิงทดลองตัวใหม่ ซึ่งเคลมว่าว่าเป็น “มีดพกสวิสสำหรับเสียง” สามารถสร้างเสียงได้ทุกรูปแบบจากข้อความ รวมถึงแก้ไขไฟล์เสียงที่มีอยู่แล้วได้ด้วย

โมเดล AI มีชื่อเรียกว่า Foundational Generative Audio Transformer Opus 1 หรือ Fugatto สำหรับรับคำสั่งจากข้อความ (Text Prompt) เพื่อสร้างเสียงขึ้นมาใหม่ รวมถึงแก้ไขไฟล์เพลง เสียงพูด และเสียงอื่นๆ ที่มีอยู่ได้ ซึ่งโมเดลนี้ได้รับการออกแบบโดยทีมนักวิจัย AI จากทั่วโลก ทำให้โมเดลนี้มี ความสามารถในการเข้าใจหลายภาษาและสำเนียงที่ต่างกันทั่วโลก

Rafael Valle หนึ่งในนักวิจัยที่อยู่เบื้องหลังโครงการนี้และผู้จัดการฝ่ายวิจัยเสียงประยุกต์ที่ NVIDIA กล่าวว่า “เราต้องการสร้างโมเดลที่เข้าใจและสร้างเสียงได้เช่นเดียวกับมนุษย์” ส่วนการนำไปใช้งานนั้นก็ค่อนข้างหลากหลาย เช่น

  • โปรดิวเซอร์สามารถใช้เทคโนโลยีนี้เปลี่ยนไอเดียเป็นเพลงต้นแบบได้อย่างรวดเร็ว ทดลองปรับเปลี่ยนเพลงด้วยการใช้รูปแบบ เสียง และเครื่องดนตรีต่างๆ
  • สร้างสื่อการเรียนรู้ด้านภาษาด้วยเสียงที่เลือก
  • นักพัฒนาเกมวิดีโอสามารถใช้ปรับแต่งไฟล์เสียงที่บันทึกไว้แล้วให้สอดคล้องตามการเลือกและการกระทำของผู้เล่น
  • โมเดลนี้สามารถรวมคำสั่งที่ได้รับการฝึกแยกกัน เช่น การสร้างคำพูดที่ฟังดูโกรธด้วยสำเนียงเฉพาะ หรือเสียงนกร้องระหว่างพายุฝนฟ้าคะนอง จนไปถึงสร้างเสียงที่เปลี่ยนแปลงไปตามเวลา เช่น เสียงพายุฝนที่กระหน่ำขณะเคลื่อนตัวผ่านพื้นดิน

NVIDIA ยังไม่ประกาศว่า จะเปิดให้คนทั่วไปเข้าถึงการใช้งาน Fugatto หรือไม่ ใครที่อยากลองใช้งานอาจจะต้องรอประกาศอย่างชัดเจนก่อน ซึ่งโมเดลนี้ไม่ใช่เรื่องใหม่ ใครไม่อยากรอก็มีตัวเลือกอย่าง Meta ที่เปิดตัวชุด AI โอเพนซอร์สที่สามารถสร้างเสียงจากคำอธิบายข้อความได้ ฝั่งของ Google มี AI แปลงข้อความเป็นเพลงของตัวเองที่เรียกว่า MusicLM ซึ่สามารถเข้าถึงได้ผ่านเว็บไซต์ AI Test Kitchen

ที่มา https://www.engadget.com/ai/nvidias-new-ai-model-fugatto-can-create-audio-from-text-prompts-140017297.html