Google은 Android에서 받아쓰기를 개선하기 위해 Gemini Intelligence를 사용하여 Gboard에서 Rambler 시스템을 테스트합니다.

Gemini

Gemini - mundissima/ Shutterstock.com

Google은 가상 키보드에 대한 대대적인 업데이트를 통해 모바일 장치 생태계를 위한 새로운 인공 지능 기능 구현을 발전시켰습니다. 회사는 스마트폰의 음성 받아쓰기 경험을 완전히 재구성하도록 설계된 시스템인 Gemini Intelligence와 함께 Gboard에 Rambler 도구 도입을 준비하고 있습니다. 새로운 기능은 Android 운영 체제용 최신 버전 애플리케이션의 내부 코드에서 식별되었습니다.

이 기술의 개발은 장치가 사용자가 말하는 자연어를 처리하는 방식에 변화를 가져옵니다. 새로운 메커니즘은 문자 그대로 단어를 전사하는 대신 실시간 교정기 역할을 합니다. 이 도구는 연설의 맥락을 이해하고, 아이디어를 정리하고, 형식화된 최종 텍스트를 전달하여 즉흥적인 구두 의사소통에 대한 일반적인 장애물을 제거합니다.

리버스 엔지니어링은 Android 시스템에서 기능이 작동하는 방식을 공개합니다.

이 기능은 키보드 설치 파일에 대한 상세한 기술 분석을 통해 발견되었습니다. Android Authority 포털의 전문가들은 애플리케이션의 데이터 패키지에 대해 리버스 엔지니어링 프로세스를 수행하고 숨겨진 인터페이스를 활성화했습니다. 테스트 결과 음성 설정 메뉴에는 고급 오디오 처리를 활성화하는 데 필요한 명령 스위치가 이미 있는 것으로 나타났습니다.

이 과정에서 공개된 내부 화면에는 인공지능을 제어하기 위한 구체적인 체크박스가 표시된다. 코드 구조는 Google이 도구가 작동할 수 있는 하이브리드 아키텍처를 개발했음을 나타냅니다. 음성 정보 처리 중 일부는 장치 자체에서 로컬로 발생하므로 회사 서버에 대한 지속적인 연결에 대한 의존도가 줄어들고 입력 시 응답 속도가 빨라집니다.

실질적으로 완성된 사용자 인터페이스가 있다는 것은 소프트웨어 개발의 고급 단계를 나타냅니다. 소프트웨어 엔지니어는 일반적으로 내부 테스트 단계가 허용 가능한 안정성 수준에 도달한 경우에만 애플리케이션의 공개 버전에 이 코드를 삽입합니다. 실질적인 진전은 회사의 업데이트 일정에 따라 앞으로 몇 달 안에 일반 대중에 대한 공식 배포가 이루어져야 한다는 신호입니다.

상황별 해석 기능을 통해 오디오를 구조화된 텍스트로 변환

Rambler 시스템의 주요 차별화 요소는 화면에 텍스트를 통합하기 전에 전체 사고 블록을 해석하는 능력에 있습니다. 전통적인 전사기는 단어별 인식 모델을 기반으로 작동하는데, 이로 인해 사용자가 생각을 잠시 멈추면 문장이 연결되지 않는 경우가 많습니다. Gemini Intelligence가 포함된 Gboard의 새로운 기술은 적절한 형식을 적용하기 위한 추론이 완료될 때까지 기다립니다.

자연어 프로세서는 사람이 계속 말할 때 일련의 자동 수정을 수행합니다. 메커니즘은 눈에 보이지 않게 작동하여 최종 메시지가 명확하고 문법적으로 올바른지 확인합니다. 주요 실시간 편집 기능은 다음과 같습니다.

  • 자발적인 음성에서 흔히 발생하는 음성 망설임, 말더듬 및 음절 반복을 즉시 제거합니다.
  • 배경 소음을 필터링하고 문장 사이의 긴 침묵 일시 중지를 제외합니다.
  • 억양과 문맥에 따라 쉼표, 물음표 등 적절한 구두점을 자동으로 적용합니다.
  • 원래 의미를 변경하지 않고 텍스트를 문법 규범에 맞추기 위해 언어적 및 명목상 일치를 조정합니다.
  • 메시지 수신자가 빠르게 읽을 수 있도록 복잡한 문장의 구문을 재구성합니다.

텍스트에 대한 높은 수준의 개입에도 불구하고 알고리즘은 사용자의 음성 정체성을 보존하도록 훈련되었습니다. 시스템은 속어, 지역 표현 및 개인 어휘의 특정 용어의 사용을 유지합니다. 인공지능은 서면 형태의 이해를 손상시키는 언어 결함을 제거하는 데에만 집중하여 읽는 사람에게 자연스럽게 들리는 결과를 전달합니다.

네이티브 애플리케이션에서 인공지능 확장 전략

Rambler의 가상 키보드 통합은 생성 도구를 일상 제품에 통합하려는 Google의 광범위한 전략을 반영합니다. Gemini Intelligence가 탑재된 Gboard는 회사와 전 세계 수십억 명의 활성 사용자 간의 주요 접점을 나타냅니다. 키보드는 모든 스마트폰에서 가장 많이 사용되는 애플리케이션으로, 소셜 네트워크, 메신저, 브라우저에 텍스트를 입력하기 위한 브리지 역할을 합니다.

음성 도구 구조 조정에 대한 최초 발표는 올해 상반기 회사의 기술 컨퍼런스에서 나왔습니다. 당시 경영진은 사람들이 일상적인 콘텐츠를 만들 수 있도록 지원할 수 있는 보다 적극적인 모바일 생태계에 대한 비전을 제시했습니다. 이번 프로젝트를 공식 키보드로 구현한 것은 주요 언어 모델에 대한 접근을 대중화하려는 회사의 노력을 보여준다.

이러한 움직임은 또한 경쟁이 치열한 모바일 운영 체제 시장에서 강력한 입지를 구축합니다. Google은 우수한 받아쓰기 기능을 기본적으로 무료로 제공함으로써 Apple 및 아시아 스마트폰 제조업체가 개발한 경쟁 솔루션에 대한 장벽을 만듭니다. 음성 전사 품질은 기업 및 개인 환경에서 빠른 의사소통에 의존하는 소비자에게 결정적인 요소가 되었습니다.

배포 일정 및 Pixel 라인 장치에 미치는 영향

고급 AI 기반 기능을 출시하려면 엄격한 인프라 계획과 하드웨어 호환성이 필요합니다. 기술 시장 분석가들은 Rambler 시스템이 Google의 역사적 출시 패턴을 따라야 한다고 지적합니다. 픽셀 라인 스마트폰이 최초로 전체 업데이트를 받아 대규모 검증 플랫폼으로 기능할 것으로 기대된다.

회사 자체에서 개발한 장치에는 Gemini Intelligence 모델의 계산 요구 사항을 처리하도록 최적화된 프로세서가 있습니다. 하드웨어와 소프트웨어 간의 이러한 통합을 통해 에너지 효율성을 높이고 대기 시간을 단축하면서 로컬 음성 처리를 수행할 수 있습니다. 독점 및 성능 조정의 초기 기간 이후에는 Android 시스템을 실행하는 다른 브랜드의 장치에 대해 도구가 점차적으로 출시되어야 합니다.

새로운 기술의 대량 채택은 알고리즘에 필요한 처리 부하를 지원하는 중간 장치의 능력에 따라 달라집니다. Google은 가벼운 버전의 인공 지능이 적절한 기술 사양을 갖춘 휴대폰에서 작동할 수 있도록 언어 모델을 최적화하기 위해 노력해 왔습니다. 키보드의 글로벌 사용자 기반으로 기능을 확장하면 모바일 통신의 접근성과 생산성 표준이 재정의됩니다.

함께 보기