Multimodal Gemini พัฒนาการค้นหา AI ด้วยการรวมข้อความและรูปภาพ
Google ขยายความสามารถในการค้นหาปลอมด้วย Gemini API ที่อัปเดต ซึ่งขณะนี้ประมวลผลข้อความและรูปภาพพร้อมกันในพื้นที่เวกเตอร์แบบรวม ฟังก์ชันการดึงข้อมูลหลายรูปแบบใหม่ช่วยให้สามารถสืบค้นเอกสารที่ซับซ้อนซึ่งรวมเนื้อหาที่เป็นข้อความเข้ากับองค์ประกอบภาพ เช่น PDF พร้อมไดอะแกรม หน้าที่สแกน และรายงานทางเทคนิค ความก้าวหน้านี้ช่วยลดความยุ่งยากในขั้นตอนการทำงานที่เกี่ยวข้องกับการสังเคราะห์ข้อมูลที่แตกต่างกัน
การเปลี่ยนแปลงมีความสำคัญเนื่องจากเป็นการขจัดข้อจำกัดก่อนหน้านี้ ขณะนี้ผู้ใช้สามารถดึงข้อมูลจากคู่มือผลิตภัณฑ์พร้อมคำแนะนำที่เป็นลายลักษณ์อักษรและไดอะแกรมเสริมได้ในการดำเนินการเดียว ความสามารถในการประมวลผลข้อมูลในรูปแบบต่างๆ ช่วยลดการกระจายตัวและเพิ่มประสิทธิภาพในภาคส่วนต่างๆ เช่น วิศวกรรม การดูแลสุขภาพ และกฎหมาย
การกรองข้อมูลเมตาช่วยปรับแต่งผลลัพธ์ได้อย่างแม่นยำ
API แนะนำการรองรับข้อมูลเมตาของคีย์-ค่า ซึ่งช่วยให้คุณสามารถแนบป้ายกำกับกับเอกสารเพื่อปรับแต่งการค้นหาตามเกณฑ์เฉพาะ ตัวอย่าง ได้แก่ “แผนก: การเงิน” หรือ “ภูมิภาค: อเมริกาเหนือ” ในสภาพแวดล้อมขององค์กรที่มีพื้นที่เก็บข้อมูลขนาดใหญ่ คุณสมบัตินี้ช่วยให้มั่นใจว่าการสืบค้นจะส่งกลับผลลัพธ์ที่เกี่ยวข้องเท่านั้น ช่วยประหยัดเวลาในการค้นหาและลดเสียงรบกวนในข้อมูล
องค์กรที่จัดการชุดข้อมูลที่หลากหลายสามารถค้นหาเอกสารตามหมวดหมู่ได้อย่างรวดเร็ว บริษัททางการเงินสามารถกรองรายงานตามภูมิภาคได้ในไม่กี่วินาที สำนักงานกฎหมายสามารถเข้าถึงเอกสารทางกฎหมายที่เฉพาะเจาะจงได้โดยไม่ต้องเรียกดูฐานข้อมูลทั้งหมด การกรองข้อมูลเมตาทำงานเป็นเครื่องมือแบ่งส่วนที่ทำให้การค้นหาเป้าหมายสามารถทำงานได้ในวงกว้าง
การอ้างอิงระดับหน้าช่วยเพิ่มความสามารถในการตรวจสอบย้อนกลับ
จุดเด่นอีกประการหนึ่งคือความสามารถในการระบุหน้าที่แน่นอนภายในเอกสารที่มีข้อมูลอยู่ เมื่อ API ดึงข้อมูล ไม่เพียงแต่ส่งคืนผลลัพธ์เท่านั้น แต่ยังชี้ไปยังแหล่งที่มาที่แม่นยำอีกด้วย นี่เป็นสิ่งสำคัญสำหรับงานที่ต้องมีการตรวจสอบอย่างเข้มงวด
นักวิเคราะห์กฎหมายสามารถยืนยันหน้าข้อสัญญาได้ นักวิจัยสามารถตรวจสอบความถูกต้องของการอ้างอิงได้อย่างรวดเร็ว ผู้เชี่ยวชาญด้านการปฏิบัติตามกฎระเบียบติดตามที่มาของข้อมูลทุกชิ้นที่ดึงมาเพื่อตรวจสอบ ความสามารถในการตรวจสอบย้อนกลับช่วยลดความคลุมเครือและเพิ่มความน่าเชื่อถือของการวิเคราะห์ที่ใช้ AI
ไปป์ไลน์ที่มีโครงสร้างจะประมวลผลข้อมูลหลายรูปแบบ
Gemini API ดำเนินตามขั้นตอนการประมวลผลที่จัดระเบียบเพื่อรวมข้อความและรูปภาพ:
- การนำเข้า: การโหลด PDF รูปภาพและหน้าที่สแกนผ่าน API
- การแยกส่วน: การแบ่งข้อความออกเป็นบล็อกคั่นด้วยโทเค็นและรูปภาพออกเป็นส่วนย่อยๆ
- การฝัง: การแปลงข้อมูลข้อความและภาพเป็นเวกเตอร์ในพื้นที่ที่ใช้ร่วมกัน
- พื้นที่เก็บข้อมูล: การคงอยู่ของเวกเตอร์ในพื้นที่เก็บข้อมูลพร้อมระบบค้นหาและข้อมูลเมตา
- แบบสอบถาม: ดึงข้อมูลตัวอย่างที่เกี่ยวข้องด้วยการกรองข้อมูลเมตาและการอ้างอิงระดับหน้า
แนวทางที่เป็นระบบนี้รับประกันผลลัพธ์ที่แม่นยำแม้กับเอกสารที่ซับซ้อนซึ่งมีรูปแบบหลากหลาย การประมวลผลแบบรวมทำให้ประสบการณ์ของนักพัฒนาง่ายขึ้น และลดเวลาการใช้งานเมื่อเทียบกับโซลูชันที่แยกส่วนข้อมูลหลายรูปแบบ
การใช้งานจริงในหลายภาคส่วน
ความสามารถที่หลากหลายของ Gemini API เปิดโอกาสให้กับหลายอุตสาหกรรม ในสุขภาพโดยสามารถเรียกดูบันทึกผู้ป่วยที่เป็นข้อความและภาพการวินิจฉัยได้ในการให้คำปรึกษาเพียงครั้งเดียว ซึ่งช่วยเร่งกระบวนการตัดสินใจทางคลินิก ในวิศวกรรมสามารถดูคู่มือทางเทคนิคที่รวมไดอะแกรมพร้อมคำแนะนำโดยละเอียดได้ในลักษณะบูรณาการ ในประกันภัยการวิเคราะห์การเรียกร้องสินไหมทดแทนที่มีเอกสารแนบและรูปถ่ายมีความคล่องตัวมากขึ้น
ภาคส่วนถูกกฎหมายโดยเฉพาะผลประโยชน์ ข้อมูลจำเพาะ ไดอะแกรมคำอธิบายประกอบ และแผนภูมิเชิงวิเคราะห์ เป็นส่วนหนึ่งของการค้นหาเดียวกัน ขจัดปัญหาไซโลข้อมูล การจัดการเอกสารทางธุรกิจทุกประเภท ตั้งแต่ข้อกำหนดทางวิศวกรรมไปจนถึงรายงานทางการแพทย์ จะได้รับประสิทธิภาพอย่างมาก
รูปแบบการกำหนดราคาที่ยืดหยุ่นทำให้การเข้าถึงเป็นประชาธิปไตย
Google มีโครงสร้างการกำหนดราคา API เพื่อรองรับสตาร์ทอัพถึงบริษัทขนาดใหญ่ แผนบริการฟรีมีพื้นที่เก็บข้อมูลทั้งหมด 1 GB ช่วยให้คุณสำรวจทรัพยากรได้โดยไม่มีค่าใช้จ่ายล่วงหน้า แต่ละไฟล์มีขนาดจำกัด 100 MB พื้นที่จัดเก็บเวกเตอร์และการฝังเวลาสืบค้นนั้นฟรี โดยมีค่าใช้จ่ายเฉพาะสำหรับการนำเข้าเอกสารและการใช้โทเค็นในระหว่างการสร้างการตอบสนองเท่านั้น
โครงสร้างนี้ทำให้ทั้งทีมขนาดเล็กและองค์กรสามารถเข้าถึง API ได้ด้วยความต้องการที่เพิ่มขึ้น สตาร์ทอัพสามารถสร้างต้นแบบโซลูชันได้โดยไม่ต้องลงทุนจำนวนมาก บริษัทที่ก่อตั้งขึ้นจะปรับขนาดต้นทุนตามปริมาณข้อมูลที่เพิ่มขึ้น
บูรณาการอย่างง่ายดายกับโฟลว์ที่มีอยู่
ผู้ใช้ Gemini File Search API เวอร์ชันก่อนหน้าจะพบว่ามีการเปลี่ยนแปลงไปใช้ฟังก์ชันใหม่ได้อย่างราบรื่น ความสามารถหลายรูปแบบผสานรวมเข้ากับเวิร์กโฟลว์ที่มีอยู่โดยมีการหยุดชะงักน้อยที่สุด ไม่ว่าจะเป็นการจัดการเอกสารทางกฎหมาย คู่มือทางเทคนิค หรือไฟล์มัลติมีเดีย API ที่อัปเดตจะทำหน้าที่เป็นส่วนขยายตามปกติของการดำเนินงานปัจจุบัน โดยไม่ต้องออกแบบระบบใหม่ทั้งหมด
Veja Tambem em ข่าวล่าสุด (TH)
โชคชะตาของคริสเตียโน โรนัลโด้และลิโอเนล เมสซีก้าวไปไกลกว่าสนามด้วยการลงทุนมูลค่านับพันล้านดอลลาร์
อังกฤษและซาอุดีอาระเบียแข่งขันกันเพื่อจ้างโค้ชเป๊ป กวาร์ดิโอลาสำหรับฟุตบอลทีมชาติ
ปารีส แซงต์-แชร์กแมง เข้าถึงรอบชิงชนะเลิศแชมเปี้ยนส์ลีกด้วยความได้เปรียบทางกายภาพอันโหดร้ายเหนืออาร์เซนอล
ผู้จัดการทีมสั่งห้ามเซบาสเตียน บียา กองหน้าจากรายชื่ออย่างเป็นทางการของโคลอมเบียสำหรับฟุตบอลโลก
กองหลัง โอนา บัตเญ่ จบเกมชนะรวดที่บาร์เซโลน่า และย้ายไปอาร์เซนอล
นักพัฒนาเปลี่ยนปฏิทินการตลาดและย้ายการเปิดตัว RPG Fable ไปเป็นเดือนกุมภาพันธ์ 2027
บูกาโย ซาก้า สตาร์ของอาร์เซนอล ท้าชิงปารีส แซงต์-แชร์กแมง ในรอบชิงชนะเลิศแชมเปี้ยนส์ลีก
เบซิคตัสเตรียมยื่นข้อเสนอ 7 ล้านยูโรเพื่อคว้าตัวรอสซีผู้รักษาประตูจากฟลาเมงโกในหน้าต่างถัดไป
กองหน้าคริสเตียโน โรนัลโด้คว้าถ้วยรางวัลที่ไม่เคยมีมาก่อนให้กับอัล-นาสเซอร์และสร้างความตื่นตระหนกให้กับทีมโปรตุเกส
เปดรี้กองกลางยืนยันว่าจะอยู่ที่บาร์เซโลน่าต่อไปและจะไม่โอนย้ายไปทีมอื่น
ปารีส แซงต์-แชร์กแมงเดิมพันทีมที่ได้พักกับอาร์เซนอลที่ทรุดโทรมในการตัดสินของยุโรป