News (KR)

Google은 Gemini Live 애플리케이션의 음성 시스템을 변경하고 지역 악센트의 흐름을 수정합니다.

작성자 Redação Mix Vale • 2026년 4월 5일 • 1 min de leitura

WhatsApp Twitter Facebook Google에서 팔로우 E-mail

사진: Gemini - Primakov / Shutterstock.com

Google의 가상 비서 사용자는 실시간 상호 작용 중에 오디오 설정이 상당히 불안정하다고 보고하기 시작했습니다. 수정 사항은 사용자 경험에 직접적인 영향을 미치며 애플리케이션에서 선택한 옵션의 기본 특성을 변경합니다.

문제는 주로 말의 억양, 반응의 어조, 지역적 억양의 일관성에서 드러납니다. 이러한 변화는 예측할 수 없이 발생하며, 지속적인 대화 중에 인공지능 시스템의 의사소통 패턴을 변화시킵니다.

회사의 언어 모델에 대한 최근 업데이트를 구현한 후 결함이 명백해졌습니다. 설정에서 제공되는 오디오 샘플과 실제로 재생되는 사운드 간의 불일치는 모바일 장치에 초점을 맞춘 기술 포럼의 주요 불만 사항이 되었습니다.

사운드 불일치 및 사용자 경험

영국 여성 억양이 특징인 카펠라(Capella)라는 음성 옵션은 출시 이후 가장 뚜렷한 왜곡을 보여줍니다. 소비자는 처음 몇 번의 명령을 실행하면 오디오의 원래 특성이 빠르게 사라진다는 점을 알아차립니다.

장시간 대화 중에는 시스템이 개인이 선택한 지역 패턴을 유지하는 데 어려움을 보입니다. 보조자의 응답은 호주 억양과 미국 영어의 보다 중립적인 변형 사이에서 자동으로 번갈아 시작되어 일상 업무나 공부를 위해 도구에 의존하는 사람들에게 단편적이고 혼란스러운 청취 경험을 제공합니다.

애플리케이션의 동작은 새로운 버전의 인공 지능 모델에 필요한 복잡한 음성 변조를 유지하려고 할 때 실시간 처리가 병목 현상에 직면한다는 것을 암시합니다. 사용자가 소프트웨어를 강제로 다시 시작하면 원래 악센트가 복원되지만 이 수정 사항은 일시적인 효과만 있습니다. 몇 분 간의 지속적인 상호 작용 후에 음성은 다시 하이브리드 버전으로 변환됩니다. 이는 음성 합성 시스템이 더 큰 상황별 처리와 긴 응답이 필요한 세션에서 안정성을 유지할 수 없음을 보여줍니다.

복잡한 반응에서는 말하기 속도가 상당히 감소합니다.
사용 중에 원래의 고음이 눈에 띄게 감소합니다.
같은 문장에 의도치 않게 다른 액센트가 섞여있습니다.
응용 프로그램을 다시 시작하면 문제에 대한 해결 방법만 제공됩니다.

확장 세션의 오디오 아티팩트

음성 정체성의 변화 외에도 보조자는 응답을 재생하는 동안 원치 않는 소음을 나타내기 시작했습니다. 시스템이 요청한 정보를 처리하고 전달할 때 딱딱거리는 소리, 작은 펑 소리, 배경에서 쉭쉭거리는 소리 등의 인공적인 소리가 산발적으로 나타납니다.

이러한 음향 간섭은 악센트 변경과 직접적인 관련이 없지만 서비스 품질 저하에 대한 인식을 악화시킵니다. 소음의 빈도는 활성화된 음성 옵션과 플랫폼에 액세스하는 데 사용되는 장치에 따라 크게 다릅니다.

플랫폼별 성능 차이

실제 테스트에서는 오디오 안정성이 사용 상황과 하드웨어 환경에 따라 크게 좌우된다는 사실이 입증되었습니다. 짧은 응답이 필요한 빠르고 정확한 명령은 소비자가 보고한 케이던스 간격이나 악센트 혼합을 거의 유발하지 않습니다.

Android Auto와 같은 자동차 시스템과 어시스턴트의 통합은 눈에 띄게 뛰어난 동작을 제공합니다. 이러한 환경에서는 더 긴 처리 시간이 필요한 상호 작용에서도 선택한 음성의 원래 특성이 더 효과적으로 보존됩니다.

이러한 성능 차이는 모바일 앱의 리소스 관리가 오디오 렌더링에 영향을 미칠 수 있음을 나타냅니다. 스마트폰의 데이터 압축이나 메모리 할당은 모델의 보컬 충실도 유지 능력을 직접적으로 방해하는 것으로 보입니다.

사용자 정의 옵션 및 조정 가능

어시스턴트의 설정 패널은 사용자 정의를 위한 다양한 보컬 프로필 카탈로그를 제공합니다. 회사의 목표는 각 개인이 기계와 더욱 자연스럽고 즐겁게 상호 작용할 수 있는 톤, 리듬 및 악센트를 찾을 수 있도록 하는 것입니다.

프로필은 보다 진지하고 형식적인 음색부터 보다 고음 및 편안한 옵션까지 다양합니다. 선택은 소비자의 선택을 돕기 위해 간단한 오디오 샘플이 재생되는 메인 메뉴를 통해 간단하게 이루어집니다.

최근 문제로 인해 많은 사용자는 실패에 덜 민감한 옵션을 찾기 위해 이러한 프로필 사이를 지속적으로 전환하는 전략을 채택했습니다. 그러나 음성 전환은 시스템 불안정에 대한 임시 해결 방법일 뿐입니다.

문제의 근본 원인은 소프트웨어가 자연어를 실시간으로 처리하는 방식과 관련이 있습니다. 회사 서버의 지속적인 업데이트는 선택한 톤에 관계없이 카탈로그에서 사용 가능한 모든 옵션의 동작에 영향을 미칩니다.

인공 지능 업데이트의 영향

오디오 동작의 원치 않는 변화는 Google 언어 모델의 새 버전 구현 기간, 특히 Flash Live 버전과 같은 속도 중심 아키텍처로의 전환 기간과 일치합니다. 이러한 업데이트의 주요 목적은 사용자의 질문과 기계의 응답 사이의 대기 시간을 줄여 대화를 더욱 유동적이고 실제 인간 대화에 더 가깝게 만드는 것입니다.

그러나 속도 향상을 위한 최적화로 인해 음성 합성 렌더링에 부작용이 발생한 것으로 보입니다. 생성된 텍스트의 빠른 전달을 우선시할 때 오디오 시스템은 조각난 방식으로 데이터 패킷을 수신할 수 있으며, 이는 매우 긴 문단에서 케이던스 손실, 고음 감소 및 복잡한 지역 악센트를 유지할 수 없는 현상을 설명합니다.

접근성 및 일관된 표준에 대한 의존도

합성 음성 재생의 일관성은 미적 선호 문제를 넘어 디지털 접근성 영역에 직접적인 영향을 미칩니다. 시각 장애, 독서 장애 또는 특정 신경학적 질환이 있는 사람들은 가상 비서에 의존하여 인터넷을 탐색하고, 문서를 읽고, 일상 생활을 정리하는 경우가 많습니다. 이러한 청중의 경우, 정보를 효과적으로 이해하려면 선택한 목소리의 톤, 속도 및 명확성에 대한 친숙함이 필수적입니다. 시스템이 갑자기 억양을 바꾸거나, 문장 중간에 잡음을 삽입하거나, 악센트를 바꾸면 메시지를 해석하는 데 필요한 인지 부하가 상당히 증가합니다. 이러한 기대 위반은 유용한 도구를 좌절의 원인으로 바꾸어 기술 회사가 인공 지능 업데이트를 일반 대중에게 공개하기 전에 오디오 안정성에 초점을 맞춘 보다 엄격한 테스트 루틴을 구현해야 한다는 중요한 필요성을 강조합니다.