จบไปแล้วกับ Keynote ของ Google I/O 2024 งานประชุมนักพัฒนาของ Google ลองไปดูว่าไฮไลต์ของปีนี้มีอะไรน่าสนใจบ้าง
หลังจากที่ Google เปิดตัว AI ไปในงานปีที่แล้วก็มีการพัฒนาอย่างรวดเร็ว สามารถใช้งานได้หลากหลายตั้งแต่การใช้เหตุผล สร้างข้อความ รูปภาพ วิดีโอและเขียนโค้ดได้ โดยในช่วงต้นปีที่ผ่านมาก็เปิดตัว Gemini รุ่นแรก หลังจากนั้นอีก 2 เดือนก็เปิดตัว Gemini 1.5 Pro ตามมาติดๆ ถือเป็นโมเดล AI ที่มีประสิทธิภาพสูงสำหรับทำงานที่ซับซ้อนยิ่งขึ้น โดยใช้ชุดข้อมูลสูงถึง 1 ล้านโทเคน โดยนำไปผนวการทำงานกับแอปและบริการต่างๆของ Google ไม่ว่าจะเป็น Search, Photos, Workspace รวมถึงระบบปฏิบัติการ Android
หลังจากนั้นก็มีการเปิดตัวแอป Gemini บนสมาร์ตโฟน และ Gemini Advance ที่ประสิทธิภาพสูงขึ้นทำให้มีคนเกิน 1 ล้านคนลงทะเบียนใช้งานใน 3 เดือนเท่านั้น ซึ่งงาน Google I/O ครั้งนี้ก็มีการขยายการใช้งานและฟีเจอร์ใหม่ที่น่าสนใจหลายด้าน
ขยาย AI Overviews ใน Search
ในปีที่ผ่านมาทาง Google ได้เปิดทดสอบใช้งาน Search Generative Experience เอา AI มาช่วยในการค้นหา เราสามารถถามคำถามยาวๆ มีหลายคำถามซ้อนกันได้ในการพิมพ์แค่ครั้งเดียว โดยAI จะวิเคราะห์คำถามเพื่อให้ได้ผลการค้นหาที่ตรงใจที่สุด รวมถึงใช้รูปภาพค้นหาก็ได้ ซึ่งทาง Google ได้ประกาศให้ AI Overviews นี้สามารถใช้งานในสหรัฐได้แล้ว พร้อมขยายการใช้งานไปยังประเทศอื่นๆในอนาคต
Ask Photos
ฟีเจอร์ใหม่บน Google Photos ช่วยให้ค้นหาง่ายขึ้นด้วย Gemini ถามให้ค้นหาสิ่งที่ต้องการได้เลย ไม่ต้องใช้คีย์เวิร์ดเหมือนเก่า ซึ่ง AI จะวิเคราะห์ข้อมูลจากรูปภาพ ซึ่งประกอบด้วยบริบทและวันเวลา เช่น สั่งให้ค้นหาความก้าวหน้าในการเรียนว่ายน้ำของลูก AI ก็จะไปเลือกรูปภาพทั้งหมดของลูกตอนเรียนว่ายน้ำมาให้ตั้งแต่วันแรกถึงวันล่าสุด โดยฟีเจอร์นี้จะเปิดใช้งานช่วงไตรมาส 3 ของปีนี้

Context Window
Gemini 1.5 Pro สามารถเข้าใจบริบทที่ยาวและซับซ้อนขึ้น ช่วยให้การแปลภาษา การเขียนโค้ด และการใช้เหตุผลได้ดีขึ้น พร้อมขยายการใช้งานรองรับภาษาต่างๆถึง 35 ภาษาทั่วโลกแล้ว โดยนักพัฒนาที่สนใจสามารถลงทะเบียนพรีวิวการใช้งาน ซึ่งจะได้อัปเกรดจากชุดข้อมูล 1 ล้านโทเคนเป็น 2 ล้านโทเคน
Google Workspace
Gemini จะเข้าไปผสานการทำงานมากขึ้น ยกตัวอย่างเช่น Gmail นั้น AI จะมาช่วยค้นหาและสรุปเนื้อหาจากอีเมลที่เกี่ยวข้องทั้งหมดใน Inbox เช่น พ่อแม่ต้องการติดตามผลการเรียนลูก ก็สั่งให้ สรุป อีเมลทุกฉบับที่โรงเรียนส่งมาให้ โดย AI จะวิเคราะห์ทั้งเนื้อหา ไฟล์แนบและวิดีโอที่อยู่ในอีเมล สรุปเป็นไฮไลต์ออกมา
นอกจากนั้นในเดือนหน้า Gmail จะเพิ่ม Side panel เพิ่มแผงเครื่องมือด้านข้าง เรียกใช้งาน AI เร็วขึ้น รวมถึงเพิ่มความสามารถถอดข้อความจากเสียง รองรับ 68 ภาษาทั่วโลก
อีเมลฉบับไหนเนื้อหายาว เราสามารถกดปุ่ม กดปุ่ม Summarize ด้านบนเพื่อสรุปเนื้อหาอีเมลยาวๆได้ รวมถึงเพิ่มช่องเขียน prompt ด้านล่าง สั่งงานง่ายขึ้น เปรียบเทียบเนื้อหาในอีเมล และยังมี Smart reply ตอบกลับได้อย่างรวดเร็ว โดยวิเคราะห์เนื้อหาในอีเมล มีหลายรูปแบบการตอบกลับให้เลือก
ที่น่าสนใจคือยังทำงานร่วมกับแอปต่างๆได้ เช่น ให้ดึงใบเสร็จจากไฟล์แนบในอีเมล เอาข้อมูลไปใส่ Sheet เพื่อเก็บข้อมูล ทำ สรุปค่าใช้จ่ายโดยจะเปิดใช้งาน กันยายนนี้
ต่อมาคือ แอป NotebookLM สำหรับจดโน้ตของ Google สามารถรองรับคำสั่งเสียง ที่นอกจากถมคำถามสรุปเป็น Audio Overviews ออกมาได้แล้ว แถมยังนำเนื้อหาต้นฉบับของเรามาสร้างการสนทนาด้วยเสียงแบบโต้ตอบที่เป็นส่วนตัวได้
ส่วนใครที่ต้องทำงานร่วมกับเพื่อนหลายๆคน ตอนนี้เราสามารถตั้ง Gemini ให้เป็น Virtual Teammate เพื่อร่วมงานเสมือนจริงที่คอยติดตามความก้าวหน้าของงาน เราสามารถระบุหน้าที่ รวมถึงช่วยรวบรวมและค้นหาข้อมูล จนไปถึงสรุปเนื้อหาได้โดยจะวิเคราะห์แชท อีเมล รวมถึงไฟล์ต่างๆที่เราแชร์ให้กันระหว่างเพื่อนร่วมงาน
AI Agent
Gemin จะกลายเป็นผู้ช่วยในการช่วยคิด ให้เหตุผล ช่วยจำ จนไปถึงการวางแผนต่างๆ โดยมันสามารถคิดล่วงหน้าไปหลายๆชั้น เพื่อให้งานเสร็จเร็วขึ้น เช่น การช็อปปิ้ง เวลาที่เราต้องการคืนรองเท้าที่ซื้อมา เราสามารถให้ AI ค้นหาใบเสร็จในอีเมล ค้นหาหมายเลขการสั่งซื้อ กรอกแบบฟอร์มคืนสินค้า และนัดขนส่งมารับไป หรือเวลาเราย้ายเมืองก็สามารถใช้ AI ช่วยค้นหาสถานที่น่าสนใจ ค้นหาที่ตั้งบริการที่สำคัญ เป็นต้น
Project Astra
อีกหนึ่งโครงการที่น่าสนใจก็คือ Project Astra ที่ตั้งเป้าเป็น Universal AI ที่ใช้งานได้ในชีวิตประจำวัน มันสามารถเข้าใจโลกที่ซับซ้อน วิเคราะห์ภาพและเสียง รวมถึงวิเคราะห์วิดีโอเฟรมต่อเฟรม ด้วยการใช้ประโยชน์จาก Gemini 1.5 Flash ที่มีความหน่วงที่น้อยมากๆ
เราแค่เปิดกล้องคุยกับ AI ถามคำถามที่ต้องการเกี่ยวกับสิ่งที่เห็นได้เลย หรือเขียนบนหน้าจอ จากนั้น AI จะตอบกลับมาด้วยการประมวลผลแบบ Realtime เหมือนเราคุยกับคนอยู่ ถามรายละเอียดสิ่งของ สถานที่ รวมถึงช่วยหาของได้ด้วย ในอนาคตก็สามารถผนวกการทำงานเข้าไปกับแว่นตา AR/VR ได้อีก
Generative Media
เครื่องมือสร้างคอนเทนท์ซึ่งจะมี 3 ตัว คือ Imagen 3 สร้างภาพจากข้อความที่สมจริงขึ้น, Music AI Snadbox เครื่องมือสร้างเสียงเพลง ที่เลือกแนวเพลงและผสานเครื่องดนตรีเข้าไปได้ และ Veo เครื่องมือสร้างวิดีโอคุณภาพสูงจากข้อความ ซึ่งเราสามารถเลือกมุมมอง รวมถึงใส่เอฟเฟกเข้าไปได้ เช่น ไทม์แลป ข้อดีคือคุณภาพสูง ภาพมีความสม่ำเสมอช่วยให้คนทำหนังทำงานได้เร็วขึ้น
Google Search
ฝั่งของ Google Search จะเน้นผสานการทำงานระหว่าง 3 ด้านคือ ข้อมูลแบบ realtime, Ranking system และ Gemini เข้าด้วยกัน มาช่วยตอบคำถามได้เร็วขึ้น ถามคำถามยาวๆ หลายคำถามในครั้งเดียวได้ โดยผลการค้นหาจะมาในรูปแบบของ AI Overviews สรุปและจัดระเบียบข้อมูลอย่างเป็นระเบียบเข้าใจง่าย พร้อมรูปและลิงก์เพื่อกดเข้าไปอ่านรายละเอียดเพิ่มเติม เปิดใช้งานในสหรัฐวันนี้
ยกตัวอย่างเช่น เราสามารถใช้วางแผนเมนูอาหาร 7 วัน พร้อมบอกสูตรอาหาร ที่ซื้อวัตถุดิบ หรือ ช่วยวางแผนท่องเที่ยว ออกกำลังกายได้หมด
นอกจากนั้นยังเพิ่มฟีเจอร์ Ask with video ให้ AI ช่วยสรุปเนื้อหาจากวิดีโอที่เปิดอยู่ได้ โดยจะเปิดใช้งานสัปดาห์หน้า ใน Searh Labs ก่อน
แอป Gemini
ในส่วนของแอป Gemini บนสมาร์ตโฟนเปรียเหมือนผู้ช่วยส่วนตัว ช่วยค้นหาคำตอบ เรียนรู้ เขียนโค้ด สั่งงานได้ทั้งข้อความ เสียง กล้อง ซึ่งความสามารถใหม่ที่เพิ่มมาก็คือ Gemini live จะเป็นการคุยด้วยเสียงสนองแบบ realtime เวลาที่เราพูดแทรก
ต่อมาคือ Gems ผู้ใช้ปรับแต่งให้เข้ากับตัวเอง เป็นผู้เชี่ยวชาญเฉพาะทางในเรื่องที่เราต้องการ เช่น วิเคราะห์ผลตอบแทนการลงทุน , เขียนโค้ด ,นักเรียนสามารถอัปโหลดบทเรียน การบ้าน ชิ้นงาน AI จะแนะนำการปรับปรุงได้ ตอนนี้รองรับการทำงานมากกว่า 35 ภาษา

ระบบปฏิบัติการ Android
ในส่วนของระบบปฎิบัติการ Android นั้น Gemini จะมาอัปเกรดให้สมาร์ตโฟนฉลาดขึ้นโดยมี AI เป็นแกนกลาง ซึ่งจะเน้น 3 เรื่องคือ
ข้อแรก คือ เอา AI มาช่วยเรื่อง Search มีการเพิ่มฟีเจอร์ Circle to search แบบเดียวกับซัมซุง หาข้อมูล แก้โจทย์คณิตศาสตร์ เริ่มใช้งานในปีนี้ เพิ่มความสามารถในการวิเคราะห์รูปภาพ เครื่องหมาย สัญลักษณ์
ข้อสองคือ AI จะกลายเป็นผู้ช่วย ด้วยความสามารถ context aware วิเคราะห์คำตอบจากวิดีโอ Youtube ที่เปิดดูอยู่ สรุปเนื้อหาจากไฟล์เอกสาร PDF
ข้อสามคือ การประมวลผลในชิปประมวผลผลบนอุปกรณ์ ช่วยให้ทำงานเร็วขึ้น เพิ่มความเป็นส่วนตัว ด้วย Gemini Nano นอกจากนั้นยังช่วยปกป้องผู้ใช้จาก Scam เวลาที่มิจฉาชีพสายโทรเข้า AI จะช่วยฟังและวิเคราะห์ ช่วยเตือนถ้าเป็นการหลอกลวง เพราะมันเข้าใจการสนทนา พร้อมให้คำแนะนำได้
ความปลอดภัย
แน่นอนว่าความปลอดภัยและความเป็นส่วนตัวนั้นคือสิ่งที่ Google รับผิดชอบและให้ความสำคัญ เริ่มตั้งแต่การพัฒนาเทคนิค Red teaming มาปรับปรุงการทำงานของโมเดล AI นอกจากนี้ เราได้ขยาย SynthID ซึ่งเป็นเครื่องมือใส่ลายน้ำที่ทำให้เนื้อหาที่สร้างโดย AI ง่ายต่อการระบุ ป้องกันการนำไปใช้ในทางที่ผิด