News (HE)

גוגל משנה את מערכת הקול באפליקציית Gemini Live ומשנה את הקצב של מבטאים אזוריים

Gemini
Foto: Gemini - Primakov / Shutterstock.com

משתמשים בעוזרת הוירטואלית של גוגל החלו לדווח על אי יציבות משמעותית בהגדרות האודיו במהלך אינטראקציות בזמן אמת. שינויים משפיעים ישירות על חווית המשתמש, ומשנים את המאפיינים הבסיסיים של האפשרויות שנבחרו באפליקציה.

הבעיה מתבטאת בעיקר בקצב הדיבור, בטון התגובות ובעקביות של מבטאים אזוריים. וריאציות אלו מתרחשות באופן בלתי צפוי, ומשנות את דפוס התקשורת של מערכת הבינה המלאכותית במהלך דיאלוגים מתמשכים.

מַזַל תְאוּמִים
Gemini – mundissima/ Shutterstock.com

הפגמים התגלו לאחר הטמעת עדכונים אחרונים למודלים של השפה של החברה. הפער בין דגימת האודיו המוצעת בהגדרות לבין הצליל המשוחזר בפועל הפך ליעד העיקרי של תלונות בפורומים טכנולוגיים המתמקדים במכשירים ניידים.

חוסר עקביות בקול וחווית המשתמש

אפשרות הקול הידועה בשם Capella, המאופיינת במבטא נשי בריטי, מציגה את העיוותים הבולטים ביותר מאז השקתה. צרכנים שמים לב שהאישיות המקורית של השמע אובדת במהירות לאחר הפקודות הראשונות.

במהלך שיחות ממושכות, המערכת מגלה קושי לשמור על הדפוס האזורי שבחר הפרט. התגובות של העוזר מתחילות לעבור לסירוגין באופן אוטונומי בין מבטאים אוסטרליים לבין וריאציות ניטרליות יותר של אנגלית אמריקאית, ויוצרות חווית האזנה מקוטעת ומבלבלת עבור אלה המסתמכים על הכלי לצורך משימות יומיומיות או לימודים.

התנהגות האפליקציה מעידה על כך שעיבוד בזמן אמת מתמודד עם צווארי בקבוק כאשר מנסים לקיים את אפנון הקול המורכב הנדרש על ידי גרסאות חדשות של מודל הבינה המלאכותית. כאשר המשתמש מבצע הפעלה מחדש כפויה של התוכנה, המבטא המקורי משוחזר, אך לתיקון זה יש השפעה זמנית בלבד. לאחר מספר דקות של אינטראקציה מתמשכת, הקול הופך בחזרה לגרסה היברידית, מה שמראה שמערכת סינתזת הדיבור אינה מסוגלת לשמור על יציבות במפגשים הדורשים עיבוד הקשרי רב יותר ותגובות ארוכות.

  • מהירות הדיבור יורדת במידה ניכרת בתגובות מורכבות.
  • גווני הטרבל המקוריים מופחתים באופן ניכר במהלך השימוש.
  • מבטאים שונים מעורבבים באותו משפט שלא במתכוון.
  • הפעלה מחדש של היישום מציעה רק פתרון לבעיה.

חפצי אודיו בהפעלות ממושכות

בנוסף לשינויים בזהות הקולית, הסייעת החלה להציג רעשים לא רצויים במהלך שחזור התגובות. חפצי סאונד, כגון פצפוצים, צלצולים קטנים ושריקות רקע, מופיעים באופן ספורדי בזמן שהמערכת מעבדת ומספקת את המידע המבוקש.

להפרעות אקוסטיות אלו אין קשר ישיר לשינוי המבטאים, אך הן מחמירות את התפיסה של ירידה באיכות השירות. תדירות הרעשים משתנה מאוד בהתאם לאפשרות הקול המופעלת ולמכשיר המשמש לגישה לפלטפורמה.

שינויים בביצועים לפי פלטפורמה

בדיקות מעשיות מראות שיציבות השמע תלויה מאוד בהקשר השימוש ובסביבת החומרה. פקודות מהירות ונקודתיות שדורשות תגובות קצרות מעוררות רק לעתים רחוקות את פערי הקדנס או שילובי הדגש שמדווחים על ידי הצרכנים.

השילוב של העוזר עם מערכות רכב, כגון Android Auto, מציג התנהגות מעולה במיוחד. בסביבות אלו, המאפיינים המקוריים של הקולות הנבחרים נשמרים בצורה יעילה יותר, אפילו באינטראקציות הדורשות זמן עיבוד ארוך יותר.

ההבדל הזה בביצועים מצביע על כך שניהול המשאבים של האפליקציה לנייד עשוי להשפיע על עיבוד האודיו. נראה כי דחיסת נתונים או הקצאת זיכרון בסמארטפונים מפריעים ישירות ליכולת של הדגם לשמור על נאמנות קולית.

אפשרויות התאמה אישית והתאמות זמינות

לוח ההגדרות של העוזר מספק קטלוג מגוון של פרופילים ווקאליים להתאמה אישית. מטרת החברה היא לאפשר לכל אדם למצוא טון, קצב ומבטא שהופכים את האינטראקציה עם המכונה לטבעיות ומהנה יותר.

הפרופילים נעים בין גווני גוון רציניים ורשמיים יותר לאפשרויות גבוהות ונינוחות יותר. הבחירה נעשית בפשטות דרך התפריט הראשי, שבו מושמעת דגימת אודיו קצרה כדי לסייע לצרכן בבחירה.

לאור הבעיות האחרונות, משתמשים רבים אימצו את האסטרטגיה של מעבר מתמיד בין הפרופילים הללו בניסיון למצוא אפשרות שפחות חשופה לכישלון. עם זאת, החלפת קול פועלת רק כפתרון זמני לחוסר יציבות של המערכת.

שורש הבעיה נשאר קשור לאופן שבו תוכנה מעבדת שפה טבעית בזמן אמת. עדכונים רציפים בשרתי החברה משפיעים על התנהגות כל האפשרויות הקיימות בקטלוג, ללא קשר לטון הנבחר.

ההשפעה של עדכוני בינה מלאכותית

השינויים הלא רצויים בהתנהגות האודיו עולים בקנה אחד עם תקופת ההטמעה של גרסאות חדשות של דגמי השפה של גוגל, במיוחד המעבר לארכיטקטורות ממוקדות מהירות, כמו גרסת Flash Live. המטרה העיקרית של עדכונים אלו היא לצמצם את זמן ההשהיה בין שאלת המשתמש לתגובת המכונה, מה שהופך את הדיאלוג לזורם יותר וקרוב יותר לשיחה אנושית אמיתית.

עם זאת, נראה שאופטימיזציה לשיפור המהירות יצרה תופעות לוואי בעיבוד סינתזת דיבור. כאשר נותנים עדיפות למסירה מהירה של הטקסט שנוצר, ייתכן שמערכת השמע מקבלת מנות נתונים בצורה מקוטעת, מה שיסביר את אובדן הקדנס, הפחתת הצלילים הגבוהים וחוסר היכולת לשמור על הדגשים אזוריים מורכבים במהלך פסקאות ארוכות מאוד.

נגישות והסתמכות על סטנדרטים עקביים

עקביות בשחזור של קולות סינתטיים חורגת מהנושא של העדפה אסתטית ומשפיעה ישירות על תחום הנגישות הדיגיטלית. אנשים עם לקות ראייה, קשיי קריאה או מצבים נוירולוגיים ספציפיים מסתמכים לעתים קרובות על עוזרים וירטואליים כדי לגלוש באינטרנט, לקרוא מסמכים ולארגן שגרה יומית. עבור קהל זה, היכרות עם הטון, המהירות והבהירות של הקול הנבחר חיונית להבנה יעילה של המידע. כאשר המערכת משנה בפתאומיות את הקצב שלה, מכניסה רעש או משנה את המבטא באמצע המשפט, העומס הקוגניטיבי הנדרש לפירוש המסר גדל במידה ניכרת. הפרת ציפיות זו הופכת כלי מועיל למקור של תסכול, ומדגישה את הצורך הקריטי של חברות טכנולוגיה ליישם שגרות בדיקות קפדניות יותר המתמקדות ביציבות אודיו לפני שחרור עדכוני בינה מלאכותית לציבור הרחב.

מיקום וניטור רציפים

עד כה, מפתח התוכנה לא פרסם הצהרות רשמיות המפרטות ציר זמן לתיקון הסופי של החריגות הקוליות הללו. קהילת הטכנולוגיה ממשיכה לעקוב אחר התנהגות האפליקציה עם כל עדכון קטן ושקט חדש שנדחף למכשירים.

אבולוציה של עיבוד שפה טבעית

ההנדסה מאחורי סינתזת דיבור בזמן אמת מייצגת את אחד האתגרים הגדולים ביותר כיום בתחום למידת מכונה. המערכת צריכה לפרש את הטקסט שנוצר, ליישם את האינטונציה הנכונה בהתבסס על ההקשר, ולעבד את האודיו באופן מיידי.

למרות הפגמים הנוכחיים בקצב ובמבטאים, טכנולוגיית השיחה החיה ממשיכה להתקדם במהירות. התאמות לאלגוריתמים של דחיסה ועיבוד אודיו אמורות לייצב בסופו של דבר את הביצועים של קולות מותאמים אישית בכל הפלטפורמות הניידות.

Veja Tambem em News (HE)

Oppo משיקה רשמית את Find X9 Ultra ברחבי העולם עם עדשות Hasselblad וסוללה חזקה

Oppo משיקה רשמית את Find X9 Ultra ברחבי העולם עם עדשות Hasselblad וסוללה חזקה

מהדורה חדשה של סמארטפון מתקפל מביאה גימור זהב למתחרים במשחקי החורף

מהדורה חדשה של סמארטפון מתקפל מביאה גימור זהב למתחרים במשחקי החורף

טים קוק חושף אבות טיפוס חדשים של אייפון ואייפוד לרגל יום השנה החמישים של אפל

טים קוק חושף אבות טיפוס חדשים של אייפון ואייפוד לרגל יום השנה החמישים של אפל

הדלפה חושפת את אדוני הנופלים ואומנות החרב באינטרנט בקטלוג PS Plus Essential של אפריל

הדלפה חושפת את אדוני הנופלים ואומנות החרב באינטרנט בקטלוג PS Plus Essential של אפריל

מערכת אנדרואיד מקבלת אינטגרציה מקורית של Gemini Nano 4 לעיבוד לא מקוון בסמארטפונים

מערכת אנדרואיד מקבלת אינטגרציה מקורית של Gemini Nano 4 לעיבוד לא מקוון בסמארטפונים

סמסונג מעדכנת את מודול QuickStar ומרחיבה את השליטה החזותית בפאנל בממשק One UI 8.5

סמסונג מעדכנת את מודול QuickStar ומרחיבה את השליטה החזותית בפאנל בממשק One UI 8.5

היצרנים מעדכנים חיישני צילום פרימיום לסמארטפון עם התמקדות בזום ובינה מלאכותית

היצרנים מעדכנים חיישני צילום פרימיום לסמארטפון עם התמקדות בזום ובינה מלאכותית

הסמארטפון החדש של Xiaomi 18 Pro Max משלב שתי מצלמות 200 מגה פיקסל ומעבד מהדור האחרון

הסמארטפון החדש של Xiaomi 18 Pro Max משלב שתי מצלמות 200 מגה פיקסל ומעבד מהדור האחרון

אפל מפתחת אייפון מתקפל חדש ומכינה מהדורה מיוחדת לחגוג 20 שנה למותג

אפל מפתחת אייפון מתקפל חדש ומכינה מהדורה מיוחדת לחגוג 20 שנה למותג

היצרן OPPO מאשר תאריך רשמי לחשיפת סמארטפונים חדשים Find X9 Ultra ו-Pro עם התמקדות במצלמות

היצרן OPPO מאשר תאריך רשמי לחשיפת סמארטפונים חדשים Find X9 Ultra ו-Pro עם התמקדות במצלמות

מודל ניווט גלובלי חדש מתקן תזוזה שנתית של 36 קמ מהקוטב המגנטי של כדור הארץ

מודל ניווט גלובלי חדש מתקן תזוזה שנתית של 36 קמ מהקוטב המגנטי של כדור הארץ

וולט דיסני חוקר רכישה מלאה של Epic Games כדי להרחיב את הדומיננטיות בשוק המשחקים הדיגיטליים

וולט דיסני חוקר רכישה מלאה של Epic Games כדי להרחיב את הדומיננטיות בשוק המשחקים הדיגיטליים