Google ได้เริ่มเปิดตัวเครื่องมือแปลเสียงพร้อมกันใหม่สำหรับแอป Google Meet บนระบบปฏิบัติการ Android และ iOS เทคโนโลยีนี้ใช้ปัญญาประดิษฐ์เพื่อประมวลผลคำพูดของผู้เข้าร่วมแบบเรียลไทม์ระหว่างการประชุมทางวิดีโอ คุณลักษณะนี้ทำงานในเวอร์ชันสำหรับเว็บเบราว์เซอร์ตั้งแต่ปีที่แล้ว ขณะนี้ฟังก์ชันดังกล่าวเข้าถึงอุปกรณ์เคลื่อนที่เพื่ออำนวยความสะดวกในการสื่อสารระยะไกลได้ทุกที่
ระบบนี้ขับเคลื่อนโดยรุ่น Gemini ซึ่งส่งเสียงที่แปลแล้วให้กับผู้ฟังเกือบจะในทันที การอัปเดตนี้มีจุดมุ่งหมายเพื่อทลายกำแพงด้านภาษาในทีมระดับโลกและสภาพแวดล้อมทางการศึกษา เครื่องมือนี้เป็นมากกว่าคำบรรยายแบบข้อความทั่วไป เสียงที่ได้รับการประมวลผลจะพยายามรักษาลักษณะดั้งเดิมของลำโพง สร้างประสบการณ์การสนทนาที่เป็นธรรมชาติและลื่นไหลมากขึ้นผ่านโทรศัพท์มือถือหรือแท็บเล็ตโดยตรง
ปัญญาประดิษฐ์รักษาน้ำเสียงในการโทรได้อย่างไร
นวัตกรรมหลักของฟีเจอร์นี้อยู่ที่ความสามารถในการโคลนเสียงร้องระหว่างการถ่ายทอดสด ซอฟต์แวร์ไม่ได้ส่งเสียงหุ่นยนต์ทั่วไป ปัญญาประดิษฐ์วิเคราะห์รูปแบบคำพูดของผู้ใช้และสร้างเวอร์ชันสังเคราะห์ในภาษาเป้าหมาย เสียงต้นฉบับจะยังคงอยู่ในระดับเสียงที่เบามากในพื้นหลัง ในขณะที่เสียงพากย์จะเป็นผู้นำในการโทร
วิธีการทางเทคโนโลยีนี้ช่วยให้แน่ใจว่าบริบททางอารมณ์ของการสนทนาจะไม่สูญหายไปในการแปล ผู้เชี่ยวชาญที่ใช้แพลตฟอร์มนี้สามารถถ่ายทอดความคิดของตนได้อย่างเข้มข้นเหมือนเดิม เครื่องมือนี้จับรายละเอียดปลีกย่อยของการสื่อสารของมนุษย์ได้อย่างมีประสิทธิภาพ
- ระบบจะระบุและสร้างช่วงเวลาแห่งความตื่นเต้นหรือจริงจังในระหว่างการพูด
- เสียงสังเคราะห์จะปรับจังหวะและการเน้นคำตามภาษาที่เลือก
- สมาชิกในการประชุมเพียงคนเดียวเท่านั้นที่จำเป็นต้องมีแผนที่เข้ากันได้เพื่อเผยแพร่บทบาทให้กับคนอื่นๆ
พลวัตการดำเนินงานต้องการให้ผู้เข้าร่วมเปิดใช้งานตัวเลือกและกำหนดภาษาที่ต้องการสำหรับการฟังเท่านั้น การประมวลผลเกิดขึ้นใน Google Cloud เสียงที่แปลมีความล่าช้าน้อยที่สุด ช่วยให้การอภิปรายและการนำเสนอดำเนินไปอย่างต่อเนื่องโดยไม่หยุดชะงักกะทันหันจนทำให้ความเข้าใจลดลง
กำหนดเวลาการเปิดตัวและแพ็คเกจที่จำเป็นสำหรับการดำเนินงาน
การใช้งานฟีเจอร์ใหม่ในแอปพลิเคชันบนมือถือจะค่อยๆ เกิดขึ้นตลอดเดือนเมษายน 2026 โดเมนองค์กรที่กำหนดค่าสำหรับการเผยแพร่อย่างรวดเร็วเริ่มได้รับการอัปเดตในวันที่ 8 เมษายน 2026 สภาพแวดล้อมที่มีการเผยแพร่ตามกำหนดการจะสามารถเข้าถึงเครื่องมือได้ตั้งแต่วันที่ 23 เมษายน 2026 ผู้ใช้จำเป็นต้องอัปเดตแอปพลิเคชันในร้านค้าอย่างเป็นทางการของระบบปฏิบัติการของตน
การเข้าถึงการแปลด้วยเสียงต้องสมัครใช้บริการระบบนิเวศของ Google Workspace โดยเฉพาะ บริษัทจำกัดฟีเจอร์ใหม่ไว้เฉพาะแพ็คเกจที่แข็งแกร่งที่สุดซึ่งมุ่งเป้าไปที่การใช้งานด้านการศึกษาระดับองค์กรหรือขั้นสูง บัญชีฟรีแบบทั่วไปไม่สามารถเปิดฟีเจอร์การโคลนเสียงได้
แผนที่มีสิทธิ์ ได้แก่ Business Standard, Business Plus, Enterprise Standard และ Enterprise Plus สมาชิกแพ็คเกจ Google AI Pro และ Ultra ก็จะได้รับฟังก์ชันการทำงานเช่นกัน ในภาคการศึกษา เครื่องมือนี้เป็นส่วนหนึ่งของแผน Education Plus หากผู้จัดงานหรือผู้เข้าร่วมมีใบอนุญาตอย่างใดอย่างหนึ่ง ทุกคนที่อยู่ในห้องเสมือนจริงจะสามารถฟังคำแปลได้โดยไม่มีค่าใช้จ่ายเพิ่มเติม
ภาษาที่มีอยู่ในระยะเริ่มแรกและการขยายระบบ
ในตอนแรก การสนับสนุนทางเทคนิคครอบคลุมคู่แบบสองทิศทางระหว่างภาษาอังกฤษและอีกห้าภาษาที่มีการหมุนเวียนทั่วโลก รายชื่ออย่างเป็นทางการประกอบด้วยสเปน ฝรั่งเศส เยอรมัน อิตาลี และโปรตุเกส การคัดเลือกเบื้องต้นนี้ครอบคลุมส่วนสำคัญของปฏิสัมพันธ์ทางการค้าและวิชาการที่ดำเนินการทุกวันบนแพลตฟอร์มวิดีโอ
บริษัทได้ยืนยันแล้วว่าฐานภาษาจะเติบโตในอีกไม่กี่เดือนข้างหน้า ตัวเลขของชาวเติร์กจะเป็นส่วนเสริมที่ได้รับการยืนยันครั้งต่อไปในกำหนดการพัฒนา วิศวกรซอฟต์แวร์ทำงานเพื่อปรับปรุงโมเดลปัญญาประดิษฐ์ เป้าหมายคือเพื่อเพิ่มความแม่นยำในการตรวจจับสำเนียงภูมิภาคและสำนวนสำนวนที่ซับซ้อน
การขยายแค็ตตาล็อกภาษาขึ้นอยู่กับการฝึกอบรมโมเดล Gemini อย่างต่อเนื่อง คุณภาพของการแปลพร้อมกันจะดีขึ้นเมื่อระบบประมวลผลข้อมูลทางภาษาใหม่ Google ยังคงมุ่งเน้นที่การนำเสนอเสียงพากย์ที่เคารพกฎไวยากรณ์และบริบททางวัฒนธรรมของแต่ละภูมิภาคที่แอปพลิเคชันสนับสนุน
การตั้งค่าความเป็นส่วนตัวและการเปิดใช้งานบนอุปกรณ์มือถือ
ความปลอดภัยของข้อมูลเสียงถือเป็นลำดับความสำคัญในสถาปัตยกรรมของฟีเจอร์ใหม่ของ Google Meet การเปิดใช้งานการแปลจะไม่เกิดขึ้นโดยอัตโนมัติหรือถูกซ่อนไว้ ผู้ใช้จำเป็นต้องให้สิทธิ์ที่ชัดเจนผ่านปุ่มเฉพาะบนอินเทอร์เฟซของแอปพลิเคชัน ผู้เข้าร่วมสามารถเพิกถอนการอนุญาตนี้ได้ตลอดเวลาในระหว่างแฮงเอาท์วิดีโอ
หากต้องการเปิดใช้งานฟังก์ชันบน Android หรือ iOS กระบวนการต้องแตะเพียงไม่กี่ครั้งบนหน้าจอสมาร์ทโฟน ผู้ใช้จะต้องเข้าถึงเมนูที่แสดงด้วยจุดสามจุดในระหว่างการประชุมทางวิดีโอ จากนั้นไปที่พื้นที่การตั้งค่าและค้นหาคีย์เปิดใช้งานการแปลด้วยเสียง อินเทอร์เฟซที่ใช้งานง่ายทำให้ง่ายต่อการใช้งานสำหรับผู้ที่มีความรู้ด้านเทคนิคในระดับต่างๆ
ผู้ดูแลระบบเครือข่ายองค์กรสามารถควบคุมความพร้อมใช้งานของเครื่องมือได้อย่างเต็มที่ แผงการจัดการช่วยให้คุณสามารถบล็อกหรือปล่อยทรัพยากรสำหรับกลุ่มพนักงานเฉพาะได้ Google ใช้โปรโตคอลความปลอดภัยที่เข้มงวดเพื่อให้แน่ใจว่าเสียงที่ประมวลผลจะไม่ถูกดักจับหรือจัดเก็บอย่างไม่เหมาะสมในระหว่างเซสชันการแปลพร้อมกัน

