เมื่อวันอังคาร OpenAI ได้เปิดตัว ChatGPT Images 2.0 ซึ่งเป็นการอัปเดตโมเดลการสร้างภาพที่รวมอยู่ในแชทบอต ระบบที่เรียกว่า gpt-image-2 นำการปรับปรุงการแสดงข้อความ การรองรับหลายภาษา และความสามารถในการสร้างองค์ประกอบที่ซับซ้อนมากขึ้น ผู้ใช้ในแผน ChatGPT ทั้งหมดจะเข้าถึงเวอร์ชันมาตรฐานได้แล้ว
การเปิดตัวเกิดขึ้นเมื่อวันที่ 21 เมษายน พ.ศ. 2569 บริษัทเน้นย้ำถึงการรวมโหมด “คิด” ที่ช่วยให้โมเดลสามารถค้นหาเว็บ ตรวจสอบรายละเอียด และสร้างภาพได้สูงสุดแปดภาพจากข้อความแจ้งเพียงครั้งเดียว สิ่งนี้อำนวยความสะดวกในการผลิตสตอรี่บอร์ด อินโฟกราฟิก และสื่อต่างๆ ด้วยเลย์เอาต์ที่มีโครงสร้าง ความละเอียดถึง 2K ในบางกรณี
OpenAI เน้นการใช้เหตุผลและความเที่ยงตรงในคุณสมบัติใหม่
ขณะนี้โมเดลทำตามคำแนะนำได้แม่นยำยิ่งขึ้น และรักษาองค์ประกอบที่ร้องขอ เช่น ไอคอน อินเทอร์เฟซ และข้อความขนาดเล็ก OpenAI อ้างถึงตัวอย่างโปสเตอร์ทางวิทยาศาสตร์ การ์ดสูตรอาหาร และสไลด์การนำเสนอว่าเป็นส่วนที่ได้ประโยชน์ การรองรับข้อความภาษาญี่ปุ่น เกาหลี ฮินดี และเบงกาลีได้รับการปรับปรุงเช่นกัน
นักพัฒนาสามารถเข้าถึงได้ผ่าน API โดยราคาขึ้นอยู่กับคุณภาพและความละเอียด ผู้ใช้ที่ชำระเงินจะมีความจุมากขึ้นในโหมดขั้นสูง การอัปเดตนี้มาหลายเดือนหลังจากการปรับปรุงระบบภาพก่อนหน้านี้
- การสร้างภาพหลายภาพที่เกี่ยวข้องกัน
- โหมดการคิดพร้อมการค้นหาเว็บ
- การแสดงข้อความที่ดีขึ้นในหลายภาษา
- รองรับอัตราส่วนภาพที่แตกต่างกันตั้งแต่ 3:1 ถึง 1:3
- ความละเอียดสูงสุด 2K ในเอาต์พุตที่เลือก
https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw
นักวิจารณ์ชี้ให้เห็นข้อบกพร่องในการทำความเข้าใจการใช้งาน
Gary Marcus นักวิจัยที่โด่งดังจากการตั้งคำถามถึงความสามารถ AI ในปัจจุบัน ได้ทดสอบระบบใหม่ด้วยไดอะแกรมจักรยาน ในป้ายอัตโนมัติ รุ่นสับสนระหว่างเบรกหลังกับท่อเบาะนั่งและเกียร์พร้อมเบรก ป้ายชี้ไปที่พื้นที่ว่าง
ในการทดสอบที่ยากขึ้น Marcus ขอจักรยานยนต์คู่ที่สูงกว่าค่าเฉลี่ย พร้อมด้วยชั้นวางสัมภาระและกระเป๋าข้างรถ ภาพดังกล่าวทำให้เกิดปัญหา เช่น การใส่ตีนผีเข้าไปในล้อ คันเบรกอยู่ในตำแหน่งที่ไม่ดี และแฮนด์จับด้านหลังที่มีรูปทรงอานม้า Marcus ตั้งข้อสังเกตว่าระบบผสมผสานรูปแบบการมองเห็นโดยไม่เข้าใจการทำงานจริงของชิ้นส่วนต่างๆ
ผู้เชี่ยวชาญเปรียบเทียบกับข้อจำกัดของมนุษย์
มาร์คัสตระหนักดีว่ามนุษย์โดยเฉลี่ยคงมีปัญหาในการวาดภาพคู่กันอย่างแม่นยำเช่นกัน อย่างไรก็ตาม ช่างเครื่อง นักปั่นจักรยานที่มีประสบการณ์ หรือนักออกแบบจะระบุข้อผิดพลาดได้อย่างรวดเร็ว ตัวอย่างนี้ใช้เพื่ออภิปรายการขอบเขตที่แบบจำลองเข้าใจโลกทางกายภาพ
การอภิปรายเกิดขึ้นเมื่อภาคส่วนต่างๆ เฉลิมฉลองการก้าวกระโดดของการถ่ายภาพระดับมืออาชีพ การทดสอบอิสระยืนยันว่าข้อความที่อ่านได้เพิ่มขึ้นและเลย์เอาต์ที่หนาแน่น แต่บางกรณียังคงเผยให้เห็นช่องว่างในการให้เหตุผลเชิงสาเหตุ
เอกสารทางเทคนิค ChatGPT Images 2.0
- โมเดลพื้นฐาน: gpt-image-2
- มีจำหน่าย: ผู้ใช้ ChatGPT ทุกคน
- โหมดขั้นสูง: สมาชิกแบบชำระเงิน
- คุณสมบัติหลัก: การใช้เหตุผล, เอาต์พุตหลายรายการ, ข้อความหลายภาษา
- ความละเอียด: สูงสุด 2K
- API: เปิดตัวพร้อมราคาผันแปร
OpenAI ยังไม่ได้แสดงความคิดเห็นต่อสาธารณะเกี่ยวกับการทดสอบของ Marcus จนถึงปัจจุบัน ระบบยังคงมีการพัฒนาอย่างต่อเนื่อง โดยมีการอัปเดตเป็นประจำตามความคิดเห็นของผู้ใช้

