Multimodal Gemini พัฒนาการค้นหา AI ด้วยการรวมข้อความและรูปภาพ

Gemini

Gemini - Stockinq / Shutterstock.com

Google ขยายความสามารถในการค้นหาปลอมด้วย Gemini API ที่อัปเดต ซึ่งขณะนี้ประมวลผลข้อความและรูปภาพพร้อมกันในพื้นที่เวกเตอร์แบบรวม ฟังก์ชันการดึงข้อมูลหลายรูปแบบใหม่ช่วยให้สามารถสืบค้นเอกสารที่ซับซ้อนซึ่งรวมเนื้อหาที่เป็นข้อความเข้ากับองค์ประกอบภาพ เช่น PDF พร้อมไดอะแกรม หน้าที่สแกน และรายงานทางเทคนิค ความก้าวหน้านี้ช่วยลดความยุ่งยากในขั้นตอนการทำงานที่เกี่ยวข้องกับการสังเคราะห์ข้อมูลที่แตกต่างกัน

การเปลี่ยนแปลงมีความสำคัญเนื่องจากเป็นการขจัดข้อจำกัดก่อนหน้านี้ ขณะนี้ผู้ใช้สามารถดึงข้อมูลจากคู่มือผลิตภัณฑ์พร้อมคำแนะนำที่เป็นลายลักษณ์อักษรและไดอะแกรมเสริมได้ในการดำเนินการเดียว ความสามารถในการประมวลผลข้อมูลในรูปแบบต่างๆ ช่วยลดการกระจายตัวและเพิ่มประสิทธิภาพในภาคส่วนต่างๆ เช่น วิศวกรรม การดูแลสุขภาพ และกฎหมาย

การกรองข้อมูลเมตาช่วยปรับแต่งผลลัพธ์ได้อย่างแม่นยำ

API แนะนำการรองรับข้อมูลเมตาของคีย์-ค่า ซึ่งช่วยให้คุณสามารถแนบป้ายกำกับกับเอกสารเพื่อปรับแต่งการค้นหาตามเกณฑ์เฉพาะ ตัวอย่าง ได้แก่ “แผนก: การเงิน” หรือ “ภูมิภาค: อเมริกาเหนือ” ในสภาพแวดล้อมขององค์กรที่มีพื้นที่เก็บข้อมูลขนาดใหญ่ คุณสมบัตินี้ช่วยให้มั่นใจว่าการสืบค้นจะส่งกลับผลลัพธ์ที่เกี่ยวข้องเท่านั้น ช่วยประหยัดเวลาในการค้นหาและลดเสียงรบกวนในข้อมูล

องค์กรที่จัดการชุดข้อมูลที่หลากหลายสามารถค้นหาเอกสารตามหมวดหมู่ได้อย่างรวดเร็ว บริษัททางการเงินสามารถกรองรายงานตามภูมิภาคได้ในไม่กี่วินาที สำนักงานกฎหมายสามารถเข้าถึงเอกสารทางกฎหมายที่เฉพาะเจาะจงได้โดยไม่ต้องเรียกดูฐานข้อมูลทั้งหมด การกรองข้อมูลเมตาทำงานเป็นเครื่องมือแบ่งส่วนที่ทำให้การค้นหาเป้าหมายสามารถทำงานได้ในวงกว้าง

การอ้างอิงระดับหน้าช่วยเพิ่มความสามารถในการตรวจสอบย้อนกลับ

จุดเด่นอีกประการหนึ่งคือความสามารถในการระบุหน้าที่แน่นอนภายในเอกสารที่มีข้อมูลอยู่ เมื่อ API ดึงข้อมูล ไม่เพียงแต่ส่งคืนผลลัพธ์เท่านั้น แต่ยังชี้ไปยังแหล่งที่มาที่แม่นยำอีกด้วย นี่เป็นสิ่งสำคัญสำหรับงานที่ต้องมีการตรวจสอบอย่างเข้มงวด

นักวิเคราะห์กฎหมายสามารถยืนยันหน้าข้อสัญญาได้ นักวิจัยสามารถตรวจสอบความถูกต้องของการอ้างอิงได้อย่างรวดเร็ว ผู้เชี่ยวชาญด้านการปฏิบัติตามกฎระเบียบติดตามที่มาของข้อมูลทุกชิ้นที่ดึงมาเพื่อตรวจสอบ ความสามารถในการตรวจสอบย้อนกลับช่วยลดความคลุมเครือและเพิ่มความน่าเชื่อถือของการวิเคราะห์ที่ใช้ AI

ไปป์ไลน์ที่มีโครงสร้างจะประมวลผลข้อมูลหลายรูปแบบ

Gemini API ดำเนินตามขั้นตอนการประมวลผลที่จัดระเบียบเพื่อรวมข้อความและรูปภาพ:

ดูเพิ่มเติม
  • การนำเข้า: การโหลด PDF รูปภาพและหน้าที่สแกนผ่าน API
  • การแยกส่วน: การแบ่งข้อความออกเป็นบล็อกคั่นด้วยโทเค็นและรูปภาพออกเป็นส่วนย่อยๆ
  • การฝัง: การแปลงข้อมูลข้อความและภาพเป็นเวกเตอร์ในพื้นที่ที่ใช้ร่วมกัน
  • พื้นที่เก็บข้อมูล: การคงอยู่ของเวกเตอร์ในพื้นที่เก็บข้อมูลพร้อมระบบค้นหาและข้อมูลเมตา
  • แบบสอบถาม: ดึงข้อมูลตัวอย่างที่เกี่ยวข้องด้วยการกรองข้อมูลเมตาและการอ้างอิงระดับหน้า

แนวทางที่เป็นระบบนี้รับประกันผลลัพธ์ที่แม่นยำแม้กับเอกสารที่ซับซ้อนซึ่งมีรูปแบบหลากหลาย การประมวลผลแบบรวมทำให้ประสบการณ์ของนักพัฒนาง่ายขึ้น และลดเวลาการใช้งานเมื่อเทียบกับโซลูชันที่แยกส่วนข้อมูลหลายรูปแบบ

การใช้งานจริงในหลายภาคส่วน

ความสามารถที่หลากหลายของ Gemini API เปิดโอกาสให้กับหลายอุตสาหกรรม ในสุขภาพ

โดยสามารถเรียกดูบันทึกผู้ป่วยที่เป็นข้อความและภาพการวินิจฉัยได้ในการให้คำปรึกษาเพียงครั้งเดียว ซึ่งช่วยเร่งกระบวนการตัดสินใจทางคลินิก ในวิศวกรรมสามารถดูคู่มือทางเทคนิคที่รวมไดอะแกรมพร้อมคำแนะนำโดยละเอียดได้ในลักษณะบูรณาการ ในประกันภัยการวิเคราะห์การเรียกร้องสินไหมทดแทนที่มีเอกสารแนบและรูปถ่ายมีความคล่องตัวมากขึ้น

ภาคส่วนถูกกฎหมายโดยเฉพาะผลประโยชน์ ข้อมูลจำเพาะ ไดอะแกรมคำอธิบายประกอบ และแผนภูมิเชิงวิเคราะห์ เป็นส่วนหนึ่งของการค้นหาเดียวกัน ขจัดปัญหาไซโลข้อมูล การจัดการเอกสารทางธุรกิจทุกประเภท ตั้งแต่ข้อกำหนดทางวิศวกรรมไปจนถึงรายงานทางการแพทย์ จะได้รับประสิทธิภาพอย่างมาก

รูปแบบการกำหนดราคาที่ยืดหยุ่นทำให้การเข้าถึงเป็นประชาธิปไตย

Google มีโครงสร้างการกำหนดราคา API เพื่อรองรับสตาร์ทอัพถึงบริษัทขนาดใหญ่ แผนบริการฟรีมีพื้นที่เก็บข้อมูลทั้งหมด 1 GB ช่วยให้คุณสำรวจทรัพยากรได้โดยไม่มีค่าใช้จ่ายล่วงหน้า แต่ละไฟล์มีขนาดจำกัด 100 MB พื้นที่จัดเก็บเวกเตอร์และการฝังเวลาสืบค้นนั้นฟรี โดยมีค่าใช้จ่ายเฉพาะสำหรับการนำเข้าเอกสารและการใช้โทเค็นในระหว่างการสร้างการตอบสนองเท่านั้น

โครงสร้างนี้ทำให้ทั้งทีมขนาดเล็กและองค์กรสามารถเข้าถึง API ได้ด้วยความต้องการที่เพิ่มขึ้น สตาร์ทอัพสามารถสร้างต้นแบบโซลูชันได้โดยไม่ต้องลงทุนจำนวนมาก บริษัทที่ก่อตั้งขึ้นจะปรับขนาดต้นทุนตามปริมาณข้อมูลที่เพิ่มขึ้น

บูรณาการอย่างง่ายดายกับโฟลว์ที่มีอยู่

ผู้ใช้ Gemini File Search API เวอร์ชันก่อนหน้าจะพบว่ามีการเปลี่ยนแปลงไปใช้ฟังก์ชันใหม่ได้อย่างราบรื่น ความสามารถหลายรูปแบบผสานรวมเข้ากับเวิร์กโฟลว์ที่มีอยู่โดยมีการหยุดชะงักน้อยที่สุด ไม่ว่าจะเป็นการจัดการเอกสารทางกฎหมาย คู่มือทางเทคนิค หรือไฟล์มัลติมีเดีย API ที่อัปเดตจะทำหน้าที่เป็นส่วนขยายตามปกติของการดำเนินงานปัจจุบัน โดยไม่ต้องออกแบบระบบใหม่ทั้งหมด

ดูเพิ่มเติม