Google เปลี่ยนระบบเสียงในแอปพลิเคชัน Gemini Live และปรับเปลี่ยนจังหวะของสำเนียงภูมิภาค
ผู้ใช้ผู้ช่วยเสมือนของ Google เริ่มรายงานความไม่เสถียรที่สำคัญในการตั้งค่าเสียงระหว่างการโต้ตอบแบบเรียลไทม์ การปรับเปลี่ยนส่งผลโดยตรงต่อประสบการณ์ผู้ใช้ โดยเปลี่ยนลักษณะพื้นฐานของตัวเลือกที่เลือกในแอปพลิเคชัน
ปัญหาส่วนใหญ่ปรากฏอยู่ที่จังหวะการพูด น้ำเสียงของคำตอบ และความสม่ำเสมอของสำเนียงในภูมิภาค ความแปรผันเหล่านี้เกิดขึ้นอย่างคาดเดาไม่ได้ โดยเปลี่ยนรูปแบบการสื่อสารของระบบปัญญาประดิษฐ์ในระหว่างการสนทนาต่อเนื่อง
ข้อบกพร่องปรากฏชัดหลังจากดำเนินการอัปเดตล่าสุดกับโมเดลภาษาของบริษัท ความแตกต่างระหว่างตัวอย่างเสียงที่นำเสนอในการตั้งค่าและเสียงที่ทำซ้ำในทางปฏิบัติกลายเป็นเป้าหมายหลักของการร้องเรียนในฟอรัมเทคโนโลยีที่เน้นไปที่อุปกรณ์มือถือ
เสียงที่ไม่สอดคล้องกันและประสบการณ์ผู้ใช้
ตัวเลือกเสียงที่เรียกว่า Capella ซึ่งมีสำเนียงผู้หญิงแบบอังกฤษ นำเสนอการบิดเบือนที่ชัดเจนที่สุดนับตั้งแต่เปิดตัว ผู้บริโภคสังเกตเห็นว่าลักษณะเฉพาะดั้งเดิมของเสียงหายไปอย่างรวดเร็วหลังจากคำสั่งสองสามคำสั่งแรก
ในระหว่างการสนทนาที่ยืดเยื้อ ระบบจะแสดงความยากลำบากในการรักษารูปแบบภูมิภาคที่แต่ละคนเลือกไว้ คำตอบของผู้ช่วยเริ่มสลับระหว่างสำเนียงออสเตรเลียและภาษาอังกฤษแบบอเมริกันรูปแบบที่เป็นกลางมากขึ้นโดยอัตโนมัติ ทำให้เกิดประสบการณ์การฟังที่กระจัดกระจายและสับสนสำหรับผู้ที่ต้องใช้เครื่องมือนี้ในการทำงานประจำวันหรืออ่านหนังสือ
พฤติกรรมของแอปพลิเคชันแสดงให้เห็นว่าการประมวลผลแบบเรียลไทม์เผชิญกับปัญหาคอขวดเมื่อพยายามรักษาการปรับเสียงที่ซับซ้อนซึ่งจำเป็นสำหรับโมเดลปัญญาประดิษฐ์เวอร์ชันใหม่ เมื่อผู้ใช้บังคับรีสตาร์ทซอฟต์แวร์ สำเนียงเดิมจะถูกคืนค่า แต่การแก้ไขนี้มีผลเพียงชั่วคราวเท่านั้น หลังจากการโต้ตอบอย่างต่อเนื่องไม่กี่นาที เสียงจะเปลี่ยนกลับเป็นเวอร์ชันไฮบริด ซึ่งแสดงให้เห็นว่าระบบสังเคราะห์เสียงพูดไม่สามารถรักษาความเสถียรในเซสชันที่ต้องใช้การประมวลผลตามบริบทมากขึ้นและการตอบสนองที่ยาวนาน
- ความเร็วในการพูดจะลดลงอย่างมากในการตอบสนองที่ซับซ้อน
- โทนเสียงแหลมแบบเดิมลดลงอย่างเห็นได้ชัดระหว่างการใช้งาน
- สำเนียงที่แตกต่างกันปะปนอยู่ในประโยคเดียวกันโดยไม่ได้ตั้งใจ
- การรีสตาร์ทแอปพลิเคชันเป็นเพียงวิธีแก้ปัญหาเท่านั้น
สิ่งประดิษฐ์เสียงในเซสชันขยาย
นอกเหนือจากการเปลี่ยนแปลงเอกลักษณ์ของเสียงร้องแล้ว ผู้ช่วยยังเริ่มนำเสนอเสียงที่ไม่พึงประสงค์ในระหว่างการสร้างการตอบสนองอีกด้วย ความผิดปกติของเสียง เช่น เสียงแคร็ก เสียงป๊อปเล็กๆ และเสียงฟู่ในพื้นหลัง จะปรากฏขึ้นเป็นระยะๆ ในขณะที่ระบบประมวลผลและส่งข้อมูลตามที่ร้องขอ
การรบกวนทางเสียงเหล่านี้ไม่มีการเชื่อมต่อโดยตรงกับการเปลี่ยนสำเนียง แต่จะทำให้การรับรู้คุณภาพการบริการลดลง ความถี่ของเสียงจะแตกต่างกันไปมากขึ้นอยู่กับตัวเลือกเสียงที่เปิดใช้งานและอุปกรณ์ที่ใช้ในการเข้าถึงแพลตฟอร์ม
รูปแบบประสิทธิภาพตามแพลตฟอร์ม
การทดสอบภาคปฏิบัติแสดงให้เห็นว่าความเสถียรของเสียงนั้นขึ้นอยู่กับบริบทการใช้งานและสภาพแวดล้อมของฮาร์ดแวร์เป็นอย่างมาก คำสั่งที่รวดเร็วและตรงประเด็นซึ่งต้องการการตอบสนองสั้นๆ ไม่ค่อยกระตุ้นให้เกิดช่องว่างจังหวะหรือการผสมผสานสำเนียงที่รายงานโดยผู้บริโภค
การผสานรวมของผู้ช่วยกับระบบยานยนต์ เช่น Android Auto นำเสนอพฤติกรรมที่เหนือกว่าอย่างเห็นได้ชัด ในสภาพแวดล้อมเหล่านี้ ลักษณะดั้งเดิมของเสียงที่เลือกจะถูกรักษาไว้อย่างมีประสิทธิภาพมากขึ้น แม้ในการโต้ตอบที่ต้องใช้เวลาในการประมวลผลนานขึ้น
ความแตกต่างของประสิทธิภาพนี้บ่งชี้ว่าการจัดการทรัพยากรของแอปมือถืออาจส่งผลต่อการแสดงเสียง การบีบอัดข้อมูลหรือการจัดสรรหน่วยความจำบนสมาร์ทโฟนดูเหมือนจะรบกวนโดยตรงต่อความสามารถของโมเดลในการรักษาความเที่ยงตรงของเสียง
มีตัวเลือกการปรับแต่งและการปรับแต่งให้เลือก
แผงการตั้งค่าของผู้ช่วยมีแคตตาล็อกโปรไฟล์เสียงร้องที่หลากหลายสำหรับการปรับแต่ง เป้าหมายของบริษัทคือการช่วยให้แต่ละคนสามารถค้นหาน้ำเสียง จังหวะ และสำเนียงที่ทำให้การโต้ตอบกับเครื่องเป็นธรรมชาติและสนุกสนานยิ่งขึ้น
โปรไฟล์มีตั้งแต่เสียงร้องที่จริงจังและเป็นทางการมากขึ้น ไปจนถึงตัวเลือกที่มีเสียงสูงและผ่อนคลายมากขึ้น การเลือกทำได้ง่ายๆ ผ่านเมนูหลัก โดยมีการเล่นตัวอย่างเสียงสั้นๆ เพื่อช่วยผู้บริโภคในการเลือก
จากปัญหาล่าสุด ผู้ใช้จำนวนมากได้ใช้กลยุทธ์ในการสลับระหว่างโปรไฟล์เหล่านี้อย่างต่อเนื่องเพื่อพยายามค้นหาตัวเลือกที่มีโอกาสล้มเหลวน้อยกว่า อย่างไรก็ตาม การสลับเสียงทำหน้าที่เป็นวิธีแก้ปัญหาชั่วคราวสำหรับความไม่เสถียรของระบบเท่านั้น
สาเหตุของปัญหายังคงเชื่อมโยงกับวิธีที่ซอฟต์แวร์ประมวลผลภาษาธรรมชาติแบบเรียลไทม์ การอัปเดตอย่างต่อเนื่องบนเซิร์ฟเวอร์ของบริษัทจะส่งผลต่อการทำงานของตัวเลือกทั้งหมดที่มีอยู่ในแค็ตตาล็อก โดยไม่คำนึงถึงโทนเสียงที่เลือก
ผลกระทบของการอัปเดตปัญญาประดิษฐ์
การเปลี่ยนแปลงพฤติกรรมเสียงที่ไม่พึงประสงค์นั้นเกิดขึ้นพร้อมกับระยะเวลาของการใช้งานโมเดลภาษาของ Google เวอร์ชันใหม่ โดยเฉพาะการเปลี่ยนไปใช้สถาปัตยกรรมที่เน้นความเร็ว เช่น เวอร์ชัน Flash Live วัตถุประสงค์หลักของการอัปเดตเหล่านี้คือเพื่อลดเวลาแฝงระหว่างคำถามของผู้ใช้และการตอบกลับของเครื่อง ทำให้บทสนทนามีความลื่นไหลและใกล้ชิดกับการสนทนาของมนุษย์มากขึ้น
อย่างไรก็ตาม การเพิ่มประสิทธิภาพเพื่อเพิ่มความเร็วดูเหมือนว่าจะสร้างผลข้างเคียงในการเรนเดอร์การสังเคราะห์เสียงพูด เมื่อจัดลำดับความสำคัญของการจัดส่งข้อความที่สร้างขึ้นอย่างรวดเร็ว ระบบเสียงอาจได้รับแพ็กเก็ตข้อมูลในลักษณะที่กระจัดกระจาย ซึ่งจะอธิบายการสูญเสียจังหวะ การลดโทนเสียงสูง และไม่สามารถรักษาสำเนียงภูมิภาคที่ซับซ้อนในระหว่างย่อหน้าที่ยาวมากได้
การเข้าถึงและการพึ่งพามาตรฐานที่สอดคล้องกัน
ความสม่ำเสมอในการสร้างเสียงสังเคราะห์นั้นนอกเหนือไปจากประเด็นด้านสุนทรียศาสตร์และส่งผลโดยตรงต่อขอบเขตของการเข้าถึงแบบดิจิทัล ผู้ที่มีความบกพร่องทางการมองเห็น มีปัญหาในการอ่าน หรือมีปัญหาทางระบบประสาทโดยเฉพาะ มักจะพึ่งพาผู้ช่วยเสมือนจริงในการท่องอินเทอร์เน็ต อ่านเอกสาร และจัดระเบียบกิจวัตรประจำวัน สำหรับผู้ชมกลุ่มนี้ ความคุ้นเคยกับน้ำเสียง ความเร็ว และความชัดเจนของเสียงที่เลือกถือเป็นสิ่งสำคัญสำหรับการทำความเข้าใจข้อมูลอย่างมีประสิทธิภาพ เมื่อระบบเปลี่ยนจังหวะกะทันหัน ใส่เสียงรบกวน หรือเปลี่ยนสำเนียงที่อยู่ตรงกลางประโยค ภาระการรับรู้ที่จำเป็นในการตีความข้อความจะเพิ่มขึ้นอย่างมาก การละเมิดความคาดหวังนี้เปลี่ยนเครื่องมือที่มีประโยชน์ให้กลายเป็นต้นตอของความหงุดหงิด โดยเน้นย้ำถึงความจำเป็นที่สำคัญสำหรับบริษัทเทคโนโลยีในการใช้ขั้นตอนการทดสอบที่เข้มงวดมากขึ้นโดยเน้นที่ความเสถียรของเสียง ก่อนที่จะเผยแพร่การอัปเดตปัญญาประดิษฐ์สู่สาธารณะ
การวางตำแหน่งและการตรวจสอบอย่างต่อเนื่อง
จนถึงขณะนี้ นักพัฒนาซอฟต์แวร์ยังไม่ได้ออกแถลงการณ์อย่างเป็นทางการซึ่งให้รายละเอียดเกี่ยวกับลำดับเวลาสำหรับการแก้ไขขั้นสุดท้ายของความผิดปกติของเสียงร้องเหล่านี้ ชุมชนเทคโนโลยียังคงติดตามพฤติกรรมของแอพอย่างต่อเนื่องโดยส่งการอัปเดตเล็กๆ น้อยๆ แบบเงียบๆ ไปยังอุปกรณ์ต่างๆ
วิวัฒนาการของการประมวลผลภาษาธรรมชาติ
วิศวกรรมที่อยู่เบื้องหลังการสังเคราะห์เสียงพูดแบบเรียลไทม์แสดงถึงหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในปัจจุบันในด้านการเรียนรู้ของเครื่อง ระบบจำเป็นต้องตีความข้อความที่สร้างขึ้น ใช้น้ำเสียงที่ถูกต้องตามบริบท และเรนเดอร์เสียงทันที
แม้จะมีข้อบกพร่องในด้านจังหวะและสำเนียงในปัจจุบัน แต่เทคโนโลยีการสนทนาสดยังคงก้าวหน้าอย่างรวดเร็ว การปรับเปลี่ยนอัลกอริธึมการบีบอัดและการประมวลผลเสียงจะทำให้ประสิทธิภาพของเสียงที่กำหนดเองบนแพลตฟอร์มมือถือทั้งหมดมีเสถียรภาพในที่สุด
Veja Tambem em Tailandês News
การค้าปลีกแบบดิจิทัลลดมูลค่าของสมาร์ทโฟน Galaxy S25 5G ด้วยโบนัสธนาคารและการแลกเปลี่ยนอุปกรณ์
อะแดปเตอร์ CarPlay ไร้สายของ Amazon มีส่วนลด 50% และคะแนนการอนุมัติสูงจากไดรเวอร์
ส่วนลดที่สำคัญสำหรับ Galaxy S25 Plus ลดมูลค่าลงต่ำกว่า 4,500 เรียลในร้านค้าออนไลน์
การลดราคาของ PlayStation 5 Pro ช่วยเร่งยอดค้าปลีกดิจิทัลและลดสต็อกทั่วโลก
การอัปเดตระบบ Apple ใหม่ช่วยเพิ่มประสิทธิภาพการจัดการงานเร่งด่วนสำหรับผู้ใช้ iPhone
รายละเอียดฮาร์ดแวร์รั่วไหลของ PlayStation แบบพกพารุ่นใหม่พร้อมกราฟิกที่เหนือกว่า Xbox Series S
Oppo เปิดตัว Find X9 Ultra อย่างเป็นทางการทั่วโลกพร้อมเลนส์ Hasselblad และแบตเตอรี่ที่แข็งแกร่ง
สมาร์ทโฟนแบบพับได้รุ่นใหม่นำสีทองมาสู่ผู้เข้าแข่งขัน Winter Games
Tim Cook เผย iPhone และ iPod ต้นแบบใหม่เพื่อเฉลิมฉลองครบรอบ 50 ปีของ Apple
ระบบ Android ได้รับการผสานรวม Gemini Nano 4 สำหรับการประมวลผลแบบออฟไลน์บนสมาร์ทโฟน
Leak เผย Lords of the Fallen และ Sword Art Online ในแค็ตตาล็อก PS Plus Essential ประจำเดือนเมษายน