Tailandês News

Google เปลี่ยนระบบเสียงในแอปพลิเคชัน Gemini Live และปรับเปลี่ยนจังหวะของสำเนียงภูมิภาค

Gemini
Foto: Gemini - Primakov / Shutterstock.com

ผู้ใช้ผู้ช่วยเสมือนของ Google เริ่มรายงานความไม่เสถียรที่สำคัญในการตั้งค่าเสียงระหว่างการโต้ตอบแบบเรียลไทม์ การปรับเปลี่ยนส่งผลโดยตรงต่อประสบการณ์ผู้ใช้ โดยเปลี่ยนลักษณะพื้นฐานของตัวเลือกที่เลือกในแอปพลิเคชัน

ปัญหาส่วนใหญ่ปรากฏอยู่ที่จังหวะการพูด น้ำเสียงของคำตอบ และความสม่ำเสมอของสำเนียงในภูมิภาค ความแปรผันเหล่านี้เกิดขึ้นอย่างคาดเดาไม่ได้ โดยเปลี่ยนรูปแบบการสื่อสารของระบบปัญญาประดิษฐ์ในระหว่างการสนทนาต่อเนื่อง

ราศีเมถุน
ราศีเมถุน – mundissima/ Shutterstock.com

ข้อบกพร่องปรากฏชัดหลังจากดำเนินการอัปเดตล่าสุดกับโมเดลภาษาของบริษัท ความแตกต่างระหว่างตัวอย่างเสียงที่นำเสนอในการตั้งค่าและเสียงที่ทำซ้ำในทางปฏิบัติกลายเป็นเป้าหมายหลักของการร้องเรียนในฟอรัมเทคโนโลยีที่เน้นไปที่อุปกรณ์มือถือ

เสียงที่ไม่สอดคล้องกันและประสบการณ์ผู้ใช้

ตัวเลือกเสียงที่เรียกว่า Capella ซึ่งมีสำเนียงผู้หญิงแบบอังกฤษ นำเสนอการบิดเบือนที่ชัดเจนที่สุดนับตั้งแต่เปิดตัว ผู้บริโภคสังเกตเห็นว่าลักษณะเฉพาะดั้งเดิมของเสียงหายไปอย่างรวดเร็วหลังจากคำสั่งสองสามคำสั่งแรก

ในระหว่างการสนทนาที่ยืดเยื้อ ระบบจะแสดงความยากลำบากในการรักษารูปแบบภูมิภาคที่แต่ละคนเลือกไว้ คำตอบของผู้ช่วยเริ่มสลับระหว่างสำเนียงออสเตรเลียและภาษาอังกฤษแบบอเมริกันรูปแบบที่เป็นกลางมากขึ้นโดยอัตโนมัติ ทำให้เกิดประสบการณ์การฟังที่กระจัดกระจายและสับสนสำหรับผู้ที่ต้องใช้เครื่องมือนี้ในการทำงานประจำวันหรืออ่านหนังสือ

พฤติกรรมของแอปพลิเคชันแสดงให้เห็นว่าการประมวลผลแบบเรียลไทม์เผชิญกับปัญหาคอขวดเมื่อพยายามรักษาการปรับเสียงที่ซับซ้อนซึ่งจำเป็นสำหรับโมเดลปัญญาประดิษฐ์เวอร์ชันใหม่ เมื่อผู้ใช้บังคับรีสตาร์ทซอฟต์แวร์ สำเนียงเดิมจะถูกคืนค่า แต่การแก้ไขนี้มีผลเพียงชั่วคราวเท่านั้น หลังจากการโต้ตอบอย่างต่อเนื่องไม่กี่นาที เสียงจะเปลี่ยนกลับเป็นเวอร์ชันไฮบริด ซึ่งแสดงให้เห็นว่าระบบสังเคราะห์เสียงพูดไม่สามารถรักษาความเสถียรในเซสชันที่ต้องใช้การประมวลผลตามบริบทมากขึ้นและการตอบสนองที่ยาวนาน

  • ความเร็วในการพูดจะลดลงอย่างมากในการตอบสนองที่ซับซ้อน
  • โทนเสียงแหลมแบบเดิมลดลงอย่างเห็นได้ชัดระหว่างการใช้งาน
  • สำเนียงที่แตกต่างกันปะปนอยู่ในประโยคเดียวกันโดยไม่ได้ตั้งใจ
  • การรีสตาร์ทแอปพลิเคชันเป็นเพียงวิธีแก้ปัญหาเท่านั้น

สิ่งประดิษฐ์เสียงในเซสชันขยาย

นอกเหนือจากการเปลี่ยนแปลงเอกลักษณ์ของเสียงร้องแล้ว ผู้ช่วยยังเริ่มนำเสนอเสียงที่ไม่พึงประสงค์ในระหว่างการสร้างการตอบสนองอีกด้วย ความผิดปกติของเสียง เช่น เสียงแคร็ก เสียงป๊อปเล็กๆ และเสียงฟู่ในพื้นหลัง จะปรากฏขึ้นเป็นระยะๆ ในขณะที่ระบบประมวลผลและส่งข้อมูลตามที่ร้องขอ

การรบกวนทางเสียงเหล่านี้ไม่มีการเชื่อมต่อโดยตรงกับการเปลี่ยนสำเนียง แต่จะทำให้การรับรู้คุณภาพการบริการลดลง ความถี่ของเสียงจะแตกต่างกันไปมากขึ้นอยู่กับตัวเลือกเสียงที่เปิดใช้งานและอุปกรณ์ที่ใช้ในการเข้าถึงแพลตฟอร์ม

รูปแบบประสิทธิภาพตามแพลตฟอร์ม

การทดสอบภาคปฏิบัติแสดงให้เห็นว่าความเสถียรของเสียงนั้นขึ้นอยู่กับบริบทการใช้งานและสภาพแวดล้อมของฮาร์ดแวร์เป็นอย่างมาก คำสั่งที่รวดเร็วและตรงประเด็นซึ่งต้องการการตอบสนองสั้นๆ ไม่ค่อยกระตุ้นให้เกิดช่องว่างจังหวะหรือการผสมผสานสำเนียงที่รายงานโดยผู้บริโภค

การผสานรวมของผู้ช่วยกับระบบยานยนต์ เช่น Android Auto นำเสนอพฤติกรรมที่เหนือกว่าอย่างเห็นได้ชัด ในสภาพแวดล้อมเหล่านี้ ลักษณะดั้งเดิมของเสียงที่เลือกจะถูกรักษาไว้อย่างมีประสิทธิภาพมากขึ้น แม้ในการโต้ตอบที่ต้องใช้เวลาในการประมวลผลนานขึ้น

ความแตกต่างของประสิทธิภาพนี้บ่งชี้ว่าการจัดการทรัพยากรของแอปมือถืออาจส่งผลต่อการแสดงเสียง การบีบอัดข้อมูลหรือการจัดสรรหน่วยความจำบนสมาร์ทโฟนดูเหมือนจะรบกวนโดยตรงต่อความสามารถของโมเดลในการรักษาความเที่ยงตรงของเสียง

มีตัวเลือกการปรับแต่งและการปรับแต่งให้เลือก

แผงการตั้งค่าของผู้ช่วยมีแคตตาล็อกโปรไฟล์เสียงร้องที่หลากหลายสำหรับการปรับแต่ง เป้าหมายของบริษัทคือการช่วยให้แต่ละคนสามารถค้นหาน้ำเสียง จังหวะ และสำเนียงที่ทำให้การโต้ตอบกับเครื่องเป็นธรรมชาติและสนุกสนานยิ่งขึ้น

โปรไฟล์มีตั้งแต่เสียงร้องที่จริงจังและเป็นทางการมากขึ้น ไปจนถึงตัวเลือกที่มีเสียงสูงและผ่อนคลายมากขึ้น การเลือกทำได้ง่ายๆ ผ่านเมนูหลัก โดยมีการเล่นตัวอย่างเสียงสั้นๆ เพื่อช่วยผู้บริโภคในการเลือก

จากปัญหาล่าสุด ผู้ใช้จำนวนมากได้ใช้กลยุทธ์ในการสลับระหว่างโปรไฟล์เหล่านี้อย่างต่อเนื่องเพื่อพยายามค้นหาตัวเลือกที่มีโอกาสล้มเหลวน้อยกว่า อย่างไรก็ตาม การสลับเสียงทำหน้าที่เป็นวิธีแก้ปัญหาชั่วคราวสำหรับความไม่เสถียรของระบบเท่านั้น

สาเหตุของปัญหายังคงเชื่อมโยงกับวิธีที่ซอฟต์แวร์ประมวลผลภาษาธรรมชาติแบบเรียลไทม์ การอัปเดตอย่างต่อเนื่องบนเซิร์ฟเวอร์ของบริษัทจะส่งผลต่อการทำงานของตัวเลือกทั้งหมดที่มีอยู่ในแค็ตตาล็อก โดยไม่คำนึงถึงโทนเสียงที่เลือก

ผลกระทบของการอัปเดตปัญญาประดิษฐ์

การเปลี่ยนแปลงพฤติกรรมเสียงที่ไม่พึงประสงค์นั้นเกิดขึ้นพร้อมกับระยะเวลาของการใช้งานโมเดลภาษาของ Google เวอร์ชันใหม่ โดยเฉพาะการเปลี่ยนไปใช้สถาปัตยกรรมที่เน้นความเร็ว เช่น เวอร์ชัน Flash Live วัตถุประสงค์หลักของการอัปเดตเหล่านี้คือเพื่อลดเวลาแฝงระหว่างคำถามของผู้ใช้และการตอบกลับของเครื่อง ทำให้บทสนทนามีความลื่นไหลและใกล้ชิดกับการสนทนาของมนุษย์มากขึ้น

อย่างไรก็ตาม การเพิ่มประสิทธิภาพเพื่อเพิ่มความเร็วดูเหมือนว่าจะสร้างผลข้างเคียงในการเรนเดอร์การสังเคราะห์เสียงพูด เมื่อจัดลำดับความสำคัญของการจัดส่งข้อความที่สร้างขึ้นอย่างรวดเร็ว ระบบเสียงอาจได้รับแพ็กเก็ตข้อมูลในลักษณะที่กระจัดกระจาย ซึ่งจะอธิบายการสูญเสียจังหวะ การลดโทนเสียงสูง และไม่สามารถรักษาสำเนียงภูมิภาคที่ซับซ้อนในระหว่างย่อหน้าที่ยาวมากได้

การเข้าถึงและการพึ่งพามาตรฐานที่สอดคล้องกัน

ความสม่ำเสมอในการสร้างเสียงสังเคราะห์นั้นนอกเหนือไปจากประเด็นด้านสุนทรียศาสตร์และส่งผลโดยตรงต่อขอบเขตของการเข้าถึงแบบดิจิทัล ผู้ที่มีความบกพร่องทางการมองเห็น มีปัญหาในการอ่าน หรือมีปัญหาทางระบบประสาทโดยเฉพาะ มักจะพึ่งพาผู้ช่วยเสมือนจริงในการท่องอินเทอร์เน็ต อ่านเอกสาร และจัดระเบียบกิจวัตรประจำวัน สำหรับผู้ชมกลุ่มนี้ ความคุ้นเคยกับน้ำเสียง ความเร็ว และความชัดเจนของเสียงที่เลือกถือเป็นสิ่งสำคัญสำหรับการทำความเข้าใจข้อมูลอย่างมีประสิทธิภาพ เมื่อระบบเปลี่ยนจังหวะกะทันหัน ใส่เสียงรบกวน หรือเปลี่ยนสำเนียงที่อยู่ตรงกลางประโยค ภาระการรับรู้ที่จำเป็นในการตีความข้อความจะเพิ่มขึ้นอย่างมาก การละเมิดความคาดหวังนี้เปลี่ยนเครื่องมือที่มีประโยชน์ให้กลายเป็นต้นตอของความหงุดหงิด โดยเน้นย้ำถึงความจำเป็นที่สำคัญสำหรับบริษัทเทคโนโลยีในการใช้ขั้นตอนการทดสอบที่เข้มงวดมากขึ้นโดยเน้นที่ความเสถียรของเสียง ก่อนที่จะเผยแพร่การอัปเดตปัญญาประดิษฐ์สู่สาธารณะ

การวางตำแหน่งและการตรวจสอบอย่างต่อเนื่อง

จนถึงขณะนี้ นักพัฒนาซอฟต์แวร์ยังไม่ได้ออกแถลงการณ์อย่างเป็นทางการซึ่งให้รายละเอียดเกี่ยวกับลำดับเวลาสำหรับการแก้ไขขั้นสุดท้ายของความผิดปกติของเสียงร้องเหล่านี้ ชุมชนเทคโนโลยียังคงติดตามพฤติกรรมของแอพอย่างต่อเนื่องโดยส่งการอัปเดตเล็กๆ น้อยๆ แบบเงียบๆ ไปยังอุปกรณ์ต่างๆ

วิวัฒนาการของการประมวลผลภาษาธรรมชาติ

วิศวกรรมที่อยู่เบื้องหลังการสังเคราะห์เสียงพูดแบบเรียลไทม์แสดงถึงหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในปัจจุบันในด้านการเรียนรู้ของเครื่อง ระบบจำเป็นต้องตีความข้อความที่สร้างขึ้น ใช้น้ำเสียงที่ถูกต้องตามบริบท และเรนเดอร์เสียงทันที

แม้จะมีข้อบกพร่องในด้านจังหวะและสำเนียงในปัจจุบัน แต่เทคโนโลยีการสนทนาสดยังคงก้าวหน้าอย่างรวดเร็ว การปรับเปลี่ยนอัลกอริธึมการบีบอัดและการประมวลผลเสียงจะทำให้ประสิทธิภาพของเสียงที่กำหนดเองบนแพลตฟอร์มมือถือทั้งหมดมีเสถียรภาพในที่สุด

Veja Tambem em Tailandês News

การค้าปลีกแบบดิจิทัลลดมูลค่าของสมาร์ทโฟน Galaxy S25 5G ด้วยโบนัสธนาคารและการแลกเปลี่ยนอุปกรณ์

การค้าปลีกแบบดิจิทัลลดมูลค่าของสมาร์ทโฟน Galaxy S25 5G ด้วยโบนัสธนาคารและการแลกเปลี่ยนอุปกรณ์

อะแดปเตอร์ CarPlay ไร้สายของ Amazon มีส่วนลด 50% และคะแนนการอนุมัติสูงจากไดรเวอร์

อะแดปเตอร์ CarPlay ไร้สายของ Amazon มีส่วนลด 50% และคะแนนการอนุมัติสูงจากไดรเวอร์

ส่วนลดที่สำคัญสำหรับ Galaxy S25 Plus ลดมูลค่าลงต่ำกว่า 4,500 เรียลในร้านค้าออนไลน์

ส่วนลดที่สำคัญสำหรับ Galaxy S25 Plus ลดมูลค่าลงต่ำกว่า 4,500 เรียลในร้านค้าออนไลน์

การลดราคาของ PlayStation 5 Pro ช่วยเร่งยอดค้าปลีกดิจิทัลและลดสต็อกทั่วโลก

การลดราคาของ PlayStation 5 Pro ช่วยเร่งยอดค้าปลีกดิจิทัลและลดสต็อกทั่วโลก

การอัปเดตระบบ Apple ใหม่ช่วยเพิ่มประสิทธิภาพการจัดการงานเร่งด่วนสำหรับผู้ใช้ iPhone

การอัปเดตระบบ Apple ใหม่ช่วยเพิ่มประสิทธิภาพการจัดการงานเร่งด่วนสำหรับผู้ใช้ iPhone

รายละเอียดฮาร์ดแวร์รั่วไหลของ PlayStation แบบพกพารุ่นใหม่พร้อมกราฟิกที่เหนือกว่า Xbox Series S

รายละเอียดฮาร์ดแวร์รั่วไหลของ PlayStation แบบพกพารุ่นใหม่พร้อมกราฟิกที่เหนือกว่า Xbox Series S

Oppo เปิดตัว Find X9 Ultra อย่างเป็นทางการทั่วโลกพร้อมเลนส์ Hasselblad และแบตเตอรี่ที่แข็งแกร่ง

Oppo เปิดตัว Find X9 Ultra อย่างเป็นทางการทั่วโลกพร้อมเลนส์ Hasselblad และแบตเตอรี่ที่แข็งแกร่ง

สมาร์ทโฟนแบบพับได้รุ่นใหม่นำสีทองมาสู่ผู้เข้าแข่งขัน Winter Games

สมาร์ทโฟนแบบพับได้รุ่นใหม่นำสีทองมาสู่ผู้เข้าแข่งขัน Winter Games

Tim Cook เผย iPhone และ iPod ต้นแบบใหม่เพื่อเฉลิมฉลองครบรอบ 50 ปีของ Apple

Tim Cook เผย iPhone และ iPod ต้นแบบใหม่เพื่อเฉลิมฉลองครบรอบ 50 ปีของ Apple

ระบบ Android ได้รับการผสานรวม Gemini Nano 4 สำหรับการประมวลผลแบบออฟไลน์บนสมาร์ทโฟน

ระบบ Android ได้รับการผสานรวม Gemini Nano 4 สำหรับการประมวลผลแบบออฟไลน์บนสมาร์ทโฟน

Leak เผย Lords of the Fallen และ Sword Art Online ในแค็ตตาล็อก PS Plus Essential ประจำเดือนเมษายน

Leak เผย Lords of the Fallen และ Sword Art Online ในแค็ตตาล็อก PS Plus Essential ประจำเดือนเมษายน

Samsung อัปเดตโมดูล QuickStar และขยายการควบคุมด้วยภาพของแผงควบคุมในอินเทอร์เฟซ One UI 8.5

Samsung อัปเดตโมดูล QuickStar และขยายการควบคุมด้วยภาพของแผงควบคุมในอินเทอร์เฟซ One UI 8.5