ผู้ใช้ Gemini Live สังเกตเห็นการเปลี่ยนแปลงตัวเลือกเสียงของผู้ช่วยปัญญาประดิษฐ์ของ Google การเปลี่ยนแปลงนี้รวมถึงการเปลี่ยนแปลงจังหวะคำพูด น้ำเสียง และแม้กระทั่งการผสมผสานสำเนียงภูมิภาคระหว่างการโต้ตอบแบบเรียลไทม์ การเปลี่ยนแปลงเหล่านี้มักเกิดขึ้นหลังจากการอัปเดตเทมเพลต เช่น Flash Live เวอร์ชัน 3.1 ล่าสุด และส่งผลต่อประสบการณ์การสนทนาส่วนบุคคล
รายงานหลายฉบับระบุว่าตัวอย่างเสียงในแอปไม่ตรงกับเสียงจริงเมื่อใช้ฟีเจอร์ถ่ายทอดสด ตัวเลือก Capella ซึ่งจำลองสำเนียงผู้หญิงอังกฤษ นำเสนอการเปลี่ยนแปลงที่ชัดเจนมากขึ้นนับตั้งแต่เปิดตัวครั้งแรก เสียงในภูมิภาคอื่นๆ ก็มีประเด็นความสอดคล้องที่คล้ายคลึงกันเช่นกัน
การเปลี่ยนแปลงจังหวะและน้ำเสียง
การเปลี่ยนแปลงจังหวะการพูดเป็นหนึ่งในข้อร้องเรียนที่พบบ่อยที่สุดในหมู่ผู้ใช้ที่ใช้ตัวเลือกเสียงที่แตกต่างกันใน Gemini Live รูปแบบคำพูดช้าลงในการตั้งค่าต่างๆ ในขณะที่โทนเสียงสูงจะลดลงอย่างเห็นได้ชัด ในบางกรณี คำตอบจะสลับกันระหว่างสำเนียงออสเตรเลียกับสำเนียงอเมริกันที่เป็นกลางมากขึ้นในระหว่างการสนทนาที่กำลังดำเนินอยู่
การปรับเปลี่ยนเหล่านี้จะเกิดขึ้นทีละน้อยหลังจากการรีเซ็ตแอปพลิเคชัน เมื่อสำเนียงที่เลือกยังคงอยู่ในช่วงเวลาสั้นๆ ก่อนที่จะเปลี่ยนเป็นเวอร์ชันไฮบริด ประสบการณ์อาจทำให้อึดอัดสำหรับผู้ที่คาดหวังความสม่ำเสมอในการโต้ตอบ ผู้ใช้ที่มีการสนทนานานขึ้นจะสังเกตเห็นการเปลี่ยนแปลงเหล่านี้บ่อยขึ้น
การเปรียบเทียบระหว่างการแสดงตัวอย่างและการใช้ทรัพยากรจริง
การแสดงตัวอย่างเสียงที่มีอยู่ในการตั้งค่า Gemini Live มักจะแตกต่างจากผลลัพธ์ที่ได้รับในเซสชันการสนทนาที่ใช้งานอยู่ ความแตกต่างนี้ส่งผลต่อเสียงส่วนบุคคลเป็นพิเศษ ซึ่งจะสูญเสียลักษณะเฉพาะดั้งเดิมเมื่อเวลาผ่านไป รายงานที่สะสมในช่วงหลายเดือนที่ผ่านมาชี้ให้เห็นถึงการเสื่อมถอยของตัวเลือกที่มีอยู่หลายตัว
- จังหวะที่ช้าลงส่งผลต่อกระแสการตอบสนองตามธรรมชาติ
- เสียงสูงอ่อนลง ทำให้บุคลิกของเสียงเปลี่ยนไป
- สำเนียงผสมกันเกิดขึ้นอย่างคาดเดาไม่ได้ในบทสนทนา
- การรีเซ็ตแอปชั่วคราวจะคืนค่าการทำงานเริ่มต้นบางส่วน
ข้อสังเกตเหล่านี้มาในบริบทของการอัปเดตโมเดล AI ของ Google บ่อยครั้ง ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงประสิทธิภาพโดยรวม แต่สร้างผลข้างเคียงต่อเสียง
สิ่งประดิษฐ์เสียงในเซสชัน Gemini Live
วัตถุเสียง เช่น ป๊อป ป๊อป และเสียงฟู่ ปรากฏขึ้นเป็นระยะๆ เมื่อใช้ Gemini Live เสียงเหล่านี้ไม่ได้เชื่อมโยงโดยตรงกับการเปลี่ยนเสียง แต่เป็นการร้องเรียนที่เกิดขึ้นซ้ำๆ ในฟอรัมสนับสนุนของบริษัท เหตุการณ์จะแตกต่างกันไปขึ้นอยู่กับตัวเลือกเสียงที่เลือก และไม่ได้เกิดซ้ำเหมือนกันเสมอไป
ผู้ใช้จำนวนมากสามารถสร้างปัญหาขึ้นมาใหม่ได้ในการทดสอบเฉพาะ ในขณะที่คนอื่นๆ สังเกตสิ่งประดิษฐ์ในเงื่อนไขเฉพาะเท่านั้น คุณภาพเสียงจะคงที่ด้วยคำสั่งเสียงด่วนหรือในโหมด Live ที่ติดตั้งใน Android Auto ในรถยนต์ ความแตกต่างนี้ชี้ให้เห็นว่าปัญหาจะเน้นไปที่เซสชันการสนทนาที่ยาวนานขึ้นหรือในบริบทการใช้งานบางอย่าง
พฤติกรรมในสถานการณ์การโต้ตอบที่แตกต่างกัน
เสียงของ Gemini Live จะมีเสถียรภาพมากขึ้นเมื่อมีการเรียกผู้ช่วยเพื่อออกคำสั่งสั้นๆ หรือการควบคุมด้วยเสียงแบบง่ายๆ อย่างไรก็ตาม ในระหว่างการโต้ตอบเชิงลึกมากขึ้น การเปลี่ยนแปลงจังหวะและน้ำเสียงจะชัดเจนมากขึ้น คุณสมบัติในรถยนต์ผ่าน Android Auto ยังรักษาลักษณะดั้งเดิมของตัวเลือกที่เลือกไว้ได้ดีขึ้นอีกด้วย
Google ได้รับการสอบถามเกี่ยวกับพฤติกรรมเหล่านี้ แม้ว่าจะไม่มีการยืนยันอย่างเป็นทางการเกี่ยวกับการรับรู้หรือการแก้ไขที่กำลังดำเนินการอยู่ในขณะนี้ ผู้ใช้ยังคงทดสอบเสียงต่างๆ ที่มีอยู่ รวมถึง Capella เพื่อระบุว่าเสียงใดมีการเปลี่ยนแปลงน้อยที่สุดเมื่อเวลาผ่านไป
ตัวเลือกที่มีและการปรับเปลี่ยนในแอป
Gemini Live นำเสนอเสียงที่ปรับแต่งได้หลายเสียงพร้อมสำเนียงและน้ำเสียงที่แตกต่างกัน เช่น ตัวเลือกที่จำลองเสียงแบบอังกฤษ อเมริกันกลาง และรูปแบบภูมิภาคอื่นๆ ผู้ใช้สามารถเปลี่ยนการเลือกได้โดยตรงในการตั้งค่าของแอปเพื่อค้นหาการตั้งค่าที่เหมาะสมกับความชอบส่วนบุคคลมากที่สุด การเปลี่ยนเสียงไม่ได้แก้ปัญหาจังหวะการเต้นอย่างถาวรเสมอไป
- ตัวเลือกรวมถึงเสียงที่มีลักษณะระดับเสียงสูงหรือต่ำ
- บางคนควรคงสำเนียงที่เลือกไว้ในช่วงแรกๆ ไว้จะดีกว่า
- การรีเซ็ตแอปอาจช่วยฟื้นฟูการทำงานที่คาดไว้ชั่วคราว
- การอัปเดตเทมเพลตส่งผลต่อประสิทธิภาพโดยรวมของเสียง
คุณลักษณะเหล่านี้ช่วยให้สามารถปรับแต่งได้มากขึ้น แต่รายงานความไม่สอดคล้องกันเน้นย้ำถึงความจำเป็นในการปรับเปลี่ยนโดยบริษัทที่รับผิดชอบในการพัฒนา
วิวัฒนาการของเสียงใน Gemini Live เมื่อเวลาผ่านไป
ในช่วงไม่กี่เดือนที่ผ่านมา ตัวเลือกเสียงของ Gemini Live หลายตัวเลือกได้รับการปรับเปลี่ยนซึ่งเปลี่ยนแปลงแง่มุมต่างๆ เช่น ความเร็วในการพูด และการผสมผสานสำเนียง การเปลี่ยนแปลงเหล่านี้เกิดขึ้นพร้อมกับการปรับปรุงในด้านอื่นๆ ของโมเดล AI รวมถึงความเร็วในการตอบสนองและความเข้าใจบริบท คุณลักษณะนี้มีการพัฒนาอย่างต่อเนื่อง โดยมีการอัปเดตที่มีจุดมุ่งหมายเพื่อให้การโต้ตอบมีความลื่นไหลมากขึ้น
ผู้ใช้ที่ใช้เสียงเฉพาะสำหรับงานประจำวันหรือการเข้าถึงจะเห็นผลกระทบโดยตรงต่อการใช้งาน ความสม่ำเสมอระหว่างการแสดงตัวอย่างเสียงและการดำเนินการจริงยังคงเป็นจุดสนใจสำหรับผู้ที่ใช้ผู้ช่วยในการสนทนาที่ยืดเยื้อ Google ปรับปรุงระบบอย่างต่อเนื่องตามความคิดเห็นที่ได้รับเกี่ยวกับประสิทธิภาพเสียง

