OpenAI ประกาศเปิดตัวโมเดล AI ใหม่ในชื่อว่า GPT-4o ( “o” ย่อมาจาก “omni”) เพิ่มความสามารถในการจัดการข้อความ เสียงและวิดีโอ พร้อมเปิดให้ใช้งานฟรีในอีกไม่กี่สัปดาห์ข้างหน้า

ทาง Mira Murati เจ้าหน้าที่บริหารฝ่ายเทคโนโลยีของ OpenAI กล่าวว่า GPT-4o นั้นจะมีความฉลาดพอๆกับ “GPT-4” แต่เพิ่มความสามารถในการทำงานร่วมกับ multiple modalities และสื่อต่างๆ

“GPT-4o นั้นรองรับทั้งเสียง ข้อความ และการมองเห็น (vision) นี่ถือเป็นสิ่งสำคัญเพราะเรามองไปข้างหน้าถึงการปฏิสัมพันธ์ระหว่างมนุษย์และอุปกรณ์”

ก่อนหน้านี้ GPT-4 Turbo ซึ่งเป็นโมเดล AI ที่ล้ำที่สุดนั้นก็ได้รับการฝึกสอน ภาพร่วมกับข้อความ เพื่อวิเคราะห์สิ่งที่อยู่ในนั้น ช่วยในการแยกข้อความออกมาจากรูปภาพ รวมถึงบรรยายสิ่งที่อยู่ในรุปภาพได้ แต่ GPT-4o นั้นจะเพิ่มความสามารถในการวิเคราะห์และแยกเสียงเข้าไปเพิ่มด้วย

GPT-4o จะมาช่วยยกระดับกาทำงานของ ChatGPT ที่มี voice mode ช่วยถอดข้อความจากเสียง หรือเปลี่ยนข้อความเป็นเสียงอยู่แล้วให้ทำงานดีขึ้น รวมถึงเปิดให้เราพูดคุยโต้ตอบได้เหมือนมนุษย์มากขึ้น เปรียบเหมือนมีผู้ช่วยอยู่ข้างๆตลอดเวลา ยกตัวอย่าง เช่น เมื่อมีการนำ GPT-4o- มาใช้แล้ว เวลาที่เราถาม ChatGPT แล้วพอมันตอบกลับมา เราเกิดถามคำถามขัดจังหวะระหว่างที่กำลังตอบ มันจะตอบสนองแบบ “real-time”

นอกจากนั้นมันยังฉลาดขึ้นจับอารมณ์จากน้ำเสียงของเรา พร้อมสร้างเสียงตอบสนองให้สอดคล้องกับอารมณ์นั้นๆ รวมถึงร้องเพลงได้ด้วย

GPT-4o ยังอัปเกรดการมองเห็นของ ChatGPT สามารถวิเคราะห์รูปภาพ รวมถึงหน้าจอของ desktop ตอบคำถามที่เกี่ยวข้องกับสิ่งที่เห็นได้อย่างรวดเร็ว สามารถแปลภาษาจากเมนูอาหารได้ ซึ่งตอนนี้รองรับการแปลภาษาเพิ่มขึ้นอีก 50 ภาษาทั่วโลก ฟีเจอร์เหล่านี้จะอัปเกรดให้ฉลาดขึ้นในอนาคต เช่น ให้ AI ดูถ่ายทอดสดกีฬา จะอธิบายกฎการเล่นให้เราฟังได้

GPT-4o เปิดให้บริการฟรีของ ChatGPT ตั้งแต่วันนี้โดยจะใช้งานได้ในจำนวนจำกัดต่อเดือน ส่วนสมาชิกแผน ChatGPT Plus และ Team แบบพรีเมียมของ OpenAI จะใช้งานได้มากกว่า 5 เท่าเทียบกับบัญชีฟรี ( เมื่อใช้ครบก็จะสลับไปใช้ GPT-3.5 โดยอัตโนมัติ)

ที่มา https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/