Tecnologia

Apple apresenta Ferret-UI Lite agente IA compacto que processa interfaces de apps diretamente no dispositivo

Apple
Foto: Apple - Samuel Boivin/ Shutterstock.com

Pesquisadores da Apple publicaram estudo sobre o Ferret-UI Lite, modelo multimodal de 3 bilhões de parâmetros projetado para rodar inteiramente em dispositivos móveis como o iPhone. O agente entende elementos visuais de interfaces gráficas e executa ações de forma autônoma, sem depender de servidores na nuvem. Essa abordagem reforça o foco da empresa em processamento local para preservar privacidade dos usuários.

O desenvolvimento integra dados reais e sintéticos de interfaces para treinar o modelo em tarefas de compreensão e navegação. Técnicas como raciocínio em cadeia e uso de ferramentas visuais otimizam o desempenho durante a inferência. O mecanismo de zoom permite que o sistema refine previsões ao recortar regiões específicas da tela.

Avanços no processamento local de interfaces

O Ferret-UI Lite resolve limitações de versões anteriores que exigiam modelos volumosos em nuvem. A equipe curou conjuntos de dados diversificados para cobrir plataformas móveis, web e desktop. O treinamento combina ajuste supervisionado com aprendizado por reforço para melhorar decisões em cenários reais.

Resultados mostram que o modelo alcança precisão competitiva mesmo com tamanho reduzido. Em benchmarks de grounding de GUI, o Ferret-UI Lite registra 91,6% no ScreenSpot-V2, 53,3% no ScreenSpot-Pro e 61,2% no OSWorld-G. Essas pontuações demonstram capacidade de identificar e referenciar elementos na tela com alta acurácia.

Técnicas para eficiência em dispositivos

Pesquisadores implementaram estratégia de zoom-in que imita atenção humana ao focar em detalhes. O modelo gera previsão inicial e recorta a imagem para análise mais precisa. Essa otimização reduz a carga computacional e eleva a qualidade das interações.

O uso de aprendizado por reforço com recompensas verificáveis aprimora o desempenho em tarefas multi-etapa. O agente aprende a recuperar de erros comuns em simulações de uso real. Assim, o sistema se torna mais robusto para navegação em aplicativos variados.

inteligência artificial
inteligência artificial – tadamichi/Shutterstock.com

Desempenho em benchmarks específicos

No ScreenSpot-Pro, o Ferret-UI Lite supera modelos alternativos de mesmo tamanho em mais de 15 pontos percentuais. Essa melhoria destaca a eficácia das estratégias adotadas para agentes compactos. O modelo mantém equilíbrio entre precisão e consumo de recursos.

Em tarefas de navegação, as taxas de sucesso chegam a 28% no AndroidWorld e 19,8% no OSWorld. Embora inferiores a modelos maiores, os números indicam viabilidade para execução on-device. A pesquisa valida abordagens para miniaturização sem perda significativa de funcionalidade.

Aplicações potenciais na assistente Siri

O Ferret-UI Lite representa progresso rumo a uma assistente capaz de visualizar e manipular apps abertos no iPhone. O processamento local evita envio de capturas de tela para servidores externos. Usuários ganham maior controle sobre dados pessoais durante interações com a IA.

A evolução do Ferret original, lançado em 2023, e da versão UI em 2024, culmina nessa variante leve. O foco em eficiência alinha com prioridades da Apple em privacidade e desempenho em hardware próprio. Futuras integrações podem expandir capacidades contextuais da assistente.

Limitações e perspectivas da pesquisa

Apesar dos avanços, o modelo apresenta restrições em cenários complexos de navegação multi-etapa. A equipe reconhece necessidade de refinamentos adicionais para tarefas mais elaboradas. Os resultados incentivam continuidade nos estudos de agentes GUI pequenos.

O trabalho contribui com lições práticas para desenvolvimento de IA on-device. Técnicas como curadoria de dados e otimização de inferência podem influenciar projetos futuros. A publicação reforça compromisso da Apple com inovações que priorizam execução local.

O Ferret-UI Lite demonstra que agentes compactos conseguem desempenho próximo a sistemas maiores em tarefas específicas de interface. A abordagem equilibra potência computacional e privacidade em dispositivos cotidianos.