ChatGPT Images 2.0 มาพร้อมกับการใช้เหตุผลเชิงภาพและการสร้างข้อความที่ได้รับการปรับปรุง

ChatGPT

ChatGPT - Iryna Imago / Shutterstock.com

เมื่อวันอังคาร OpenAI ได้เปิดตัว ChatGPT Images 2.0 ซึ่งเป็นการอัปเดตโมเดลการสร้างภาพที่รวมอยู่ในแชทบอต ระบบที่เรียกว่า gpt-image-2 นำการปรับปรุงการแสดงข้อความ การรองรับหลายภาษา และความสามารถในการสร้างองค์ประกอบที่ซับซ้อนมากขึ้น ผู้ใช้ในแผน ChatGPT ทั้งหมดจะเข้าถึงเวอร์ชันมาตรฐานได้แล้ว

การเปิดตัวเกิดขึ้นเมื่อวันที่ 21 เมษายน พ.ศ. 2569 บริษัทเน้นย้ำถึงการรวมโหมด “คิด” ที่ช่วยให้โมเดลสามารถค้นหาเว็บ ตรวจสอบรายละเอียด และสร้างภาพได้สูงสุดแปดภาพจากข้อความแจ้งเพียงครั้งเดียว สิ่งนี้อำนวยความสะดวกในการผลิตสตอรี่บอร์ด อินโฟกราฟิก และสื่อต่างๆ ด้วยเลย์เอาต์ที่มีโครงสร้าง ความละเอียดถึง 2K ในบางกรณี

OpenAI เน้นการใช้เหตุผลและความเที่ยงตรงในคุณสมบัติใหม่

ขณะนี้โมเดลทำตามคำแนะนำได้แม่นยำยิ่งขึ้น และรักษาองค์ประกอบที่ร้องขอ เช่น ไอคอน อินเทอร์เฟซ และข้อความขนาดเล็ก OpenAI อ้างถึงตัวอย่างโปสเตอร์ทางวิทยาศาสตร์ การ์ดสูตรอาหาร และสไลด์การนำเสนอว่าเป็นส่วนที่ได้ประโยชน์ การรองรับข้อความภาษาญี่ปุ่น เกาหลี ฮินดี และเบงกาลีได้รับการปรับปรุงเช่นกัน

นักพัฒนาสามารถเข้าถึงได้ผ่าน API โดยราคาขึ้นอยู่กับคุณภาพและความละเอียด ผู้ใช้ที่ชำระเงินจะมีความจุมากขึ้นในโหมดขั้นสูง การอัปเดตนี้มาหลายเดือนหลังจากการปรับปรุงระบบภาพก่อนหน้านี้

  • การสร้างภาพหลายภาพที่เกี่ยวข้องกัน
  • โหมดการคิดพร้อมการค้นหาเว็บ
  • การแสดงข้อความที่ดีขึ้นในหลายภาษา
  • รองรับอัตราส่วนภาพที่แตกต่างกันตั้งแต่ 3:1 ถึง 1:3
  • ความละเอียดสูงสุด 2K ในเอาต์พุตที่เลือก

https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw

ดูเพิ่มเติม

นักวิจารณ์ชี้ให้เห็นข้อบกพร่องในการทำความเข้าใจการใช้งาน

Gary Marcus นักวิจัยที่โด่งดังจากการตั้งคำถามถึงความสามารถ AI ในปัจจุบัน ได้ทดสอบระบบใหม่ด้วยไดอะแกรมจักรยาน ในป้ายอัตโนมัติ รุ่นสับสนระหว่างเบรกหลังกับท่อเบาะนั่งและเกียร์พร้อมเบรก ป้ายชี้ไปที่พื้นที่ว่าง

ในการทดสอบที่ยากขึ้น Marcus ขอจักรยานยนต์คู่ที่สูงกว่าค่าเฉลี่ย พร้อมด้วยชั้นวางสัมภาระและกระเป๋าข้างรถ ภาพดังกล่าวทำให้เกิดปัญหา เช่น การใส่ตีนผีเข้าไปในล้อ คันเบรกอยู่ในตำแหน่งที่ไม่ดี และแฮนด์จับด้านหลังที่มีรูปทรงอานม้า Marcus ตั้งข้อสังเกตว่าระบบผสมผสานรูปแบบการมองเห็นโดยไม่เข้าใจการทำงานจริงของชิ้นส่วนต่างๆ

ผู้เชี่ยวชาญเปรียบเทียบกับข้อจำกัดของมนุษย์

มาร์คัสตระหนักดีว่ามนุษย์โดยเฉลี่ยคงมีปัญหาในการวาดภาพคู่กันอย่างแม่นยำเช่นกัน อย่างไรก็ตาม ช่างเครื่อง นักปั่นจักรยานที่มีประสบการณ์ หรือนักออกแบบจะระบุข้อผิดพลาดได้อย่างรวดเร็ว ตัวอย่างนี้ใช้เพื่ออภิปรายการขอบเขตที่แบบจำลองเข้าใจโลกทางกายภาพ

การอภิปรายเกิดขึ้นเมื่อภาคส่วนต่างๆ เฉลิมฉลองการก้าวกระโดดของการถ่ายภาพระดับมืออาชีพ การทดสอบอิสระยืนยันว่าข้อความที่อ่านได้เพิ่มขึ้นและเลย์เอาต์ที่หนาแน่น แต่บางกรณียังคงเผยให้เห็นช่องว่างในการให้เหตุผลเชิงสาเหตุ

เอกสารทางเทคนิค ChatGPT Images 2.0

  • โมเดลพื้นฐาน: gpt-image-2
  • มีจำหน่าย: ผู้ใช้ ChatGPT ทุกคน
  • โหมดขั้นสูง: สมาชิกแบบชำระเงิน
  • คุณสมบัติหลัก: การใช้เหตุผล, เอาต์พุตหลายรายการ, ข้อความหลายภาษา
  • ความละเอียด: สูงสุด 2K
  • API: เปิดตัวพร้อมราคาผันแปร

OpenAI ยังไม่ได้แสดงความคิดเห็นต่อสาธารณะเกี่ยวกับการทดสอบของ Marcus จนถึงปัจจุบัน ระบบยังคงมีการพัฒนาอย่างต่อเนื่อง โดยมีการอัปเดตเป็นประจำตามความคิดเห็นของผู้ใช้

ดูเพิ่มเติม