Apple apresenta Ferret-UI Lite agente IA compacto que processa interfaces de apps diretamente no dispositivo
Pesquisadores da Apple publicaram estudo sobre o Ferret-UI Lite, modelo multimodal de 3 bilhões de parâmetros projetado para rodar inteiramente em dispositivos móveis como o iPhone. O agente entende elementos visuais de interfaces gráficas e executa ações de forma autônoma, sem depender de servidores na nuvem. Essa abordagem reforça o foco da empresa em processamento local para preservar privacidade dos usuários.
O desenvolvimento integra dados reais e sintéticos de interfaces para treinar o modelo em tarefas de compreensão e navegação. Técnicas como raciocínio em cadeia e uso de ferramentas visuais otimizam o desempenho durante a inferência. O mecanismo de zoom permite que o sistema refine previsões ao recortar regiões específicas da tela.
Avanços no processamento local de interfaces
O Ferret-UI Lite resolve limitações de versões anteriores que exigiam modelos volumosos em nuvem. A equipe curou conjuntos de dados diversificados para cobrir plataformas móveis, web e desktop. O treinamento combina ajuste supervisionado com aprendizado por reforço para melhorar decisões em cenários reais.
Resultados mostram que o modelo alcança precisão competitiva mesmo com tamanho reduzido. Em benchmarks de grounding de GUI, o Ferret-UI Lite registra 91,6% no ScreenSpot-V2, 53,3% no ScreenSpot-Pro e 61,2% no OSWorld-G. Essas pontuações demonstram capacidade de identificar e referenciar elementos na tela com alta acurácia.
Técnicas para eficiência em dispositivos
Pesquisadores implementaram estratégia de zoom-in que imita atenção humana ao focar em detalhes. O modelo gera previsão inicial e recorta a imagem para análise mais precisa. Essa otimização reduz a carga computacional e eleva a qualidade das interações.
O uso de aprendizado por reforço com recompensas verificáveis aprimora o desempenho em tarefas multi-etapa. O agente aprende a recuperar de erros comuns em simulações de uso real. Assim, o sistema se torna mais robusto para navegação em aplicativos variados.
Desempenho em benchmarks específicos
No ScreenSpot-Pro, o Ferret-UI Lite supera modelos alternativos de mesmo tamanho em mais de 15 pontos percentuais. Essa melhoria destaca a eficácia das estratégias adotadas para agentes compactos. O modelo mantém equilíbrio entre precisão e consumo de recursos.
Em tarefas de navegação, as taxas de sucesso chegam a 28% no AndroidWorld e 19,8% no OSWorld. Embora inferiores a modelos maiores, os números indicam viabilidade para execução on-device. A pesquisa valida abordagens para miniaturização sem perda significativa de funcionalidade.
Aplicações potenciais na assistente Siri
O Ferret-UI Lite representa progresso rumo a uma assistente capaz de visualizar e manipular apps abertos no iPhone. O processamento local evita envio de capturas de tela para servidores externos. Usuários ganham maior controle sobre dados pessoais durante interações com a IA.
A evolução do Ferret original, lançado em 2023, e da versão UI em 2024, culmina nessa variante leve. O foco em eficiência alinha com prioridades da Apple em privacidade e desempenho em hardware próprio. Futuras integrações podem expandir capacidades contextuais da assistente.
Limitações e perspectivas da pesquisa
Apesar dos avanços, o modelo apresenta restrições em cenários complexos de navegação multi-etapa. A equipe reconhece necessidade de refinamentos adicionais para tarefas mais elaboradas. Os resultados incentivam continuidade nos estudos de agentes GUI pequenos.
O trabalho contribui com lições práticas para desenvolvimento de IA on-device. Técnicas como curadoria de dados e otimização de inferência podem influenciar projetos futuros. A publicação reforça compromisso da Apple com inovações que priorizam execução local.
O Ferret-UI Lite demonstra que agentes compactos conseguem desempenho próximo a sistemas maiores em tarefas específicas de interface. A abordagem equilibra potência computacional e privacidade em dispositivos cotidianos.
Veja Tambem em Tecnologia
MSI Claw 8 EX AI+ é apresentado no Computex com Intel Arc G3 Extreme
ROG Xbox Ally X20 Bundle chega com design translúcido e óculos AR para 20 anos de ROG
Jogos mensais do PlayStation Plus Essential chegam em junho com Grounded e Warhammer 40.000 Darktide
Nvidia anuncia chip Rtx Spark para reinventar o Pc e desafiar Intel e Apple
Fortnite Shattered live event acontece nesta sexta com horários por fuso
CEO da Xbox admite erro ao exibir logotipos de PS5 e Switch em evento
MSI lança Claw 8 Ex AI Plus com processador Intel Arc G3 Extreme e bateria de 80Whr
Microsoft revela novos detalhes do Projeto Helix e futuro do Xbox
Apple libera iOS 26.5.1 com correção de carregamento para iPhone Air e linha iPhone 17
RPG gratuito TBH Task Bar Hero alcança pico de 143 mil jogadores no Steam e lidera rankings
iPhone 18 Pro terá câmera com custo 50% maior para Apple por sensor de abertura variável