Google начал внедрять новую многоэтапную функцию автоматизации задач для помощника Gemini на некоторых мобильных устройствах. Новый функционал позволяет искусственному интеллекту выполнять сложные действия непосредственно внутри сторонних приложений, без необходимости постоянного ручного вмешательства владельца смартфона при каждом нажатии или прокрутке.
Новая функция изначально доступна в бета-формате и доступна только для самых последних передовых моделей на рынке мобильных технологий. Устройства, включенные в этот первый этап реализации, включают варианты Google Pixel 10, Pixel 10 Pro и Pixel 10 Pro XL, а также всю серию устройств Samsung Galaxy S26, которые имеют специальную архитектуру обработки для этих функций.
Официальный запуск состоялся одновременно в США и Корее, рынках, стратегически выбранных для проверки стабильности инструмента в сценариях интенсивного использования перед глобальным запуском. Активировать систему просто: требуется лишь подробная голосовая команда после длительного нажатия боковой кнопки устройства.
Выполнение сложных команд в повседневной жизни
Основное новшество системы заключается в ее способности интерпретировать и выполнять запросы, требующие последовательной навигации по различным экранам, меню и диалоговым окнам. Цифровой помощник временно контролирует интерфейс выбранного приложения для выполнения практических действий, таких как заказ частного транспорта из одной точки в другую или заказ определенного питания на платформах доставки.
В процессе выполнения искусственный интеллект анализирует параметры, доступные в графическом интерфейсе, заполняет формы адреса и выбирает элементы на основе исторических предпочтений пользователя. Система имеет блокировку безопасности, которая автоматически приостанавливает операцию и запрашивает окончательное одобрение на экране перед завершением любой финансовой транзакции или подтверждением заказа.
Работа в изолированной виртуальной среде
Чтобы обеспечить целостность личных данных, Gemini запускает всю автоматизацию в безопасном виртуальном окне, которое полностью изолировано от остальной операционной системы смартфона. Этот метод инкапсуляции предотвращает доступ искусственного интеллекта к несанкционированной информации, чтению личных документов или изменению важных настроек устройства во время просмотра сторонних приложений.
Помощник строго следует инструкциям, представленным в исходной голосовой команде, ограничивая свои действия исключительно рамками запрошенной человеком задачи. Если пользователь попросит купить эспрессо, инструмент откроет только соответствующее приложение кофейни, полностью игнорируя текстовые сообщения, рабочие электронные письма или фотогалереи, имеющиеся в памяти устройства.
Архитектура программного обеспечения, разработанная для этой функции, позволяет процессу происходить незаметно в фоновом режиме или через полупрозрачный интерфейс, наложенный на главный экран. Это гарантирует, что нормальный поток использования телефона не будет внезапно прерываться, позволяя человеку продолжать читать статью или смотреть видео во время обработки заказа.
Совместимые приложения на этапе тестирования
На этом начальном этапе публичного тестирования функциональность охватывает определенные категории услуг по запросу, которые являются частью повседневной жизни миллионов потребителей. Официальная поддержка запуска включает популярные платформы доставки еды, такие как DoorDash, Grubhub и Uber Eats, что позволяет легко повторять рутинные заказы с помощью всего лишь произнесенного предложения.
В секторе городской мобильности система изначально интегрируется с приложениями Uber и Lyft для оптимизации поездок в городах. Пользователь может просто ввести желаемый пункт назначения на естественном языке, а помощник откроет карту, введет точный адрес, сравнит доступные категории транспортных средств и представит окончательную оценку стоимости на утверждение.
Для товаров для дома интеграция с сервисом Instacart позволяет быстро собирать виртуальные тележки для покупок на основе предыдущих списков покупок или конкретных рецептов. Искусственный интеллект может идентифицировать запрошенные товары, искать лучшие варианты в каталоге магазина и даже предлагать возможные замены, если конкретного товара нет в наличии в выбранном заведении.
На южнокорейском рынке бета-фаза включает в себя востребованные местные услуги по адаптации языковой модели к различным потребительским культурам и региональным интерфейсам. Приложения, широко распространенные в стране, такие как Kakao T для мобильности и Kaemin для продуктов питания, были включены в список совместимости, чтобы гарантировать, что тесты отражают фактическое использование местным населением.
Локальная обработка и оптимизация оборудования
Временная эксклюзивность функции для линеек Pixel 10 и Galaxy S26 обусловлена острой необходимостью в высокооптимизированном оборудовании для обработки моделей искусственного интеллекта непосредственно на устройстве. Эти смартфоны оснащены современными нейронными процессорами, способными справиться с огромной вычислительной нагрузкой, необходимой для автономной навигации по приложениям, не полагаясь исключительно на облачные серверы. Этот гибридный подход к обработке значительно сокращает задержку ответов помощника и гарантирует, что выполнение задач происходит плавно и без сбоев, даже в ситуациях, когда мобильное подключение к Интернету нестабильно или медленно.
Техническое партнерство между производителями оборудования и командой разработчиков операционной системы привело к глубокой интеграции виртуального помощника и физического уровня мобильных устройств. Локальное выполнение задач не только повышает скорость ежедневной автоматизации, но и снижает расход заряда батареи по сравнению со старыми процессами, которые требовали постоянной передачи пакетов данных через Интернет. Операционная система может определять шаблоны использования владельца и динамически распределять ресурсы оперативной памяти, гарантируя, что телефон поддерживает максимальную производительность просмотра, в то время как помощник работает бесшумно, выполняя сложные команды в фоновом режиме.
Постоянный контроль и мониторинг действий
Несмотря на высокую степень автономности, предоставленную искусственному интеллекту для навигации по интерфейсам, архитектура системы была разработана с целью предоставления владельцу устройства абсолютного контроля над всеми этапами цифровой операции. В любой момент выполнения сложной задачи пользователь получает визуальные уведомления и оповещения в режиме реального времени, в которых подробно описано, какое именно действие совершает помощник за эту миллисекунду, например, выбирает конкретный ресторан из каталога или вводит адрес доставки в форму. Если во время процесса инструмент обнаруживает двусмысленность, например, когда два филиала одного и того же магазина расположены близко к целевому местоположению, он немедленно останавливает процесс автоматизации и отображает на экране панель с запросом устного разъяснения или касания для подтверждения. Кроме того, на оверлейном интерфейсе имеется всегда видимая кнопка экстренной отмены, которая позволяет мгновенно прервать автоматизацию, закрыв безопасное виртуальное окно и вернув ручное управление экраном. Этот строгий уровень контроля необходим для предотвращения случайных покупок, отправки транспортных средств в неправильное место или любых других нежелательных действий, которые могут вызвать неудобства или финансовые потери, гарантируя, что технология действует исключительно как средство облегчения рутинных операций, а не как независимый агент без надлежащего человеческого контроля.
Географическая экспансия и новые языки
Текущая доступность ограничена рынками США и Кореи и служит в режиме реального времени лабораторией для постоянного совершенствования алгоритмов визуальной навигации и понимания контекста. Распространение функции на новые страны и включение поддержки других языков будет происходить постепенно в течение следующих нескольких месяцев, напрямую в зависимости от результатов стабильности, полученных на этом этапе тестирования, и адаптации системы к различным региональным макетам приложений.
Изменение парадигмы мобильного взаимодействия
Внедрение автономных агентов, способных управлять графическими интерфейсами, в мобильной экосистеме представляет собой значительную техническую эволюцию в том, как люди взаимодействуют со своими смартфонами. Переход от базовых команд, основанных на повторяющихся нажатиях на экран, к комплексным словесным инструкциям, генерирующим конкретные действия, сокращает время, затрачиваемое на бюрократические задачи повседневной цифровой жизни.
Акцент на разработке инструментов, которые независимо управляют сторонними приложениями, демонстрирует развитие нейронных сетей, применяемых для потребления и производительности. Технические ожидания заключаются в том, что в будущих обновлениях помощник сможет управлять еще более сложными и взаимосвязанными процедурами, превращая устройства премиум-класса в настоящие автоматизированные командные центры городской жизни.

