Bot de Minecraft feito pela OpenAI abre caminho para carro autônomo e robô humanoide
SÃO PAULO, SP (FOLHAPRESS) – Um bot que joga Minecraft tão bem quanto jogadores humanos de alto nível pode significar o novo marco da inteligência artificial. Seu diferencial é a técnica inovadora que permitiu treiná-lo com 70 mil horas de vídeo. Quem teve essa epifania foi a criadora do ChatGPT, OpenAI.
Treinar redes neurais -tecnologia por trás das inovações de IA que simula o cérebro humano- com vídeos exige muito trabalho. Cada ação representada na imagem precisa de uma descrição.
Por exemplo, um vídeo viral no Twitter de um homem cortando o pelo de um gato precisaria de dezenas anotações para cerca de dez segundos de imagem.
Publicada primeiro na revista especializada MIT Technology Review, a solução que os pesquisadores da OpenAI encontraram para esse problema foi alimentar uma rede neural com 2.000 horas de vídeo a partir do serviço de trabalhadores em plataformas de serviço temporário –eles foram contratados para jogar Minecraft e tiveram as ações em seus teclados e mouse e as imagens de tela gravadas.
Com esses dados, a primeira rede neural aprendeu a rotular vídeos de Minecraft com os comandos. Assim, pode tratar as 70 mil horas de vídeos que seriam usadas para treinar a segunda rede neural.
Treinar uma segunda rede neural foi necessária porque uma rede neural reagia a imagens posteriormente, enquanto a segunda foi treinada para agir a partir dos dados que captava no jogo, afirma Eric Aislan Antonelo, professor de engenharia de automação da UFSC (Universidade Federal de Santa Catarina).
Outro diferencial do modelo foi misturar duas técnicas: o aprendizado por imitação e o aprendizado por reforço.
A primeira consiste em fazer a inteligência artificial tentar imitar instruções e é chamada de aprendizado por imitação. Essa técnica já foi utilizada para treinar carros autônomos, braços robóticos autônomos e até atividades em computador.
Na segunda, os pesquisadores dão uma instrução complexa e a inteligência artificial tenta executá-la por tentativa e erro à exaustão. É assim que adversários automatizados em videogames de corrida ou futebol são treinados.
Newsletter Combo A newsletter da Folha com o que interessa sobre a indústria de games e com as dicas do que você ainda vai jogar. *** O primeiro treinamento, por imitação, fez o bot ser capaz de executar jogadas que requerem 970 ações em sequência, como construir tábuas e torná-las em uma mesa.
As técnicas do robô então foram refinadas com aprendizado por reforço, o que permitiu fazer sequências com mais de 20.000 comandos. Isso permitiu que a tecnologia construísse as chamadas ferramentas de diamante -que requerem 20 minutos de cliques em alta velocidade.
Segundo o professor da Unicamp Leonardo Tomazeli Duarte, diretor científico do BI0S (Brazilian Institute of Data Science), o primeiro treinamento por imitação permite restringir as possibilidade de erro e acerto no aprendizado por reforço. Isso permite melhores resultados em menos tempo.
Esse método cria a possibilidade de usar bases de dados imensas de vídeos como o Youtube para treinar diversos modelos de Inteligência Artificial. Os especialistas ouvidos pela reportagem citam soluções em automação de carros, saúde e agronegócio.
Embora o volume de dados disponível nessas fontes seja suficiente para o treinamento, antes de utilizá-los, é necessário incluir as anotações ou referências nestes dados. “Esta etapa, que é chamada de ‘rotulação dos dados’, é bastante trabalhosa e demanda, muitas vezes, especialistas para fazê-las, o que torna esse processo relativamente caro”, diz o professor de engenharia elétrica da Unicamp Denis Gustavo Fantinato.
Muito do trabalho humano foi reduzido com a estratégia de pré-treinamento da inteligência artificial.
Antonello, professor da UFSC, entretanto, aponta que ainda existem limitações técnicas para levar essas técnicas para além da fronteira das telas. Os pesquisadores da OpenAI conseguiram transformar os comandos de teclado e mouse em vários binários -informações de sim e não. Isso facilitou a cadeia de comandos.
“Quando vamos treinar um carro, por exemplo, as direções são variáveis contínuas, podem assumir vários valores. Isso torna a cadeia de comando mais complexa”, afirma o docente da UFSC, que testa maneiras de automatizar veículos, inclusive, com técnicas de aprendizado por imitação.
Por isso, as expectativas de que essa tecnologia seja utilizada para executar tarefas digitais, como preencher formulários ou planilhas são mais realistas do que esperar robôs humanoides treinados por tutoriais do Youtube.
Veja Tambem em Últimas Notícias
Exploração do cometa interestelar 3I/Atlas pela NASA aprofunda mistérios de sistemas estelares distantes
Divers free four from flooded Laos cave after 10-day ordeal, two remain missing
Bolsa Família 2026: governo federal reforça apoio social com novas diretrizes e benefícios cruciais
米南方軍司令官、キューバ軍将軍とグアンタナモ国境で会談、安全保障問題に焦点
Amazon Prime’s new ice hockey romance adaptation captivates global audiences with record viewership
Remote gold mine gripped by surging ebola cases, health workers face uphill battle
Schumacher at 57: A private battle over a decade post-accident with new insights in 2026
NASA divulga dados fascinantes do cometa interestelar 3I/Atlas e sua trajetória em 2026
Colombia’s presidential election approaches, marked by heightened political violence and stark policy contrasts
Governo federal detalha regras e benefícios complementares do Bolsa Família para o próximo ano
ラオス水没洞窟、国際救助隊が生存者4人を無事救出、水位低下が脱出を支援か