Biohub, de Zuckerberg e Chan, lança poderosa IA para prever estrutura e desenvolver proteínas terapêuticas

Mark Zuckerberg

Mark Zuckerberg - FotoField / Shutterstock.com

A Biohub, empresa fundada por Mark Zuckerberg e Priscilla Chan, anunciou o lançamento de um novo modelo avançado de inteligência artificial. Essa tecnologia foi cuidadosamente treinada para estudar a biologia das proteínas com profundidade, visando projetar estruturas moleculares que possam ser mais úteis e precisas em tratamentos. O anúncio oficial da iniciativa foi feito diretamente no site da empresa, marcando um passo significativo na pesquisa biomédica.

As proteínas são componentes essenciais para a vida, desempenhando papéis cruciais como o transporte de oxigênio pelo corpo e o combate a invasores virais. Elas também são fundamentais na formação dos músculos, na regulação das células e no fortalecimento do sistema imunológico, orquestrando uma vasta gama de processos biológicos. No entanto, mesmo com o avanço na predição de suas estruturas complexas, muitas proteínas ainda não são completamente estudadas e suas funções específicas permanecem um mistério para a ciência.

Nova geração de Modelos Evolutivos em Escada (ESM)

A empresa está introduzindo uma nova geração de Modelos Evolutivos em Escada (ESM), sigla que representa “Evolutionary Scale Models”. Este sistema inovador aprende com as sequências de proteínas através de um processo que simula a evolução natural. Esse conhecimento intrínseco é então utilizado para representar digitalmente, mapear, prever e, crucialmente, projetar proteínas com maior acurácia.

    O sistema ESM é articulado em torno de três artefatos principais, cada um projetado para uma função específica e complementar:
  • ESMFold2: Um modelo de última geração que se destaca na previsão da estrutura tridimensional de proteínas, um pilar para o design de novas proteínas com características desejadas.
  • ESM Atlas: Um mapa compreensivo que cataloga 6,8 bilhões de sequências de proteínas, juntamente com 1,1 bilhão de estruturas previamente previstas, criando uma vasta base de dados biológicos.
  • ESMC: Um modelo de linguagem de proteínas de vanguarda, meticulosamente treinado em aproximadamente 2,8 bilhões de sequências proteicas coletadas de toda a diversidade da vida, aprimorando sua compreensão molecular.

Segundo informações divulgadas pela Biohub, este modelo de IA tem a capacidade de auxiliar substancialmente no desenvolvimento de proteínas que conseguem se ligar a alvos moleculares específicos. A tecnologia se mostra capaz de projetar proteínas com uma alta afinidade de ligação, característica vital para o sucesso de terapias inovadoras. Os resultados iniciais foram validados contra cinco alvos de grande relevância nas áreas da oncologia e imunologia. A empresa acredita firmemente que este é um momento transformador no campo do design de proteínas, com o potencial de revolucionar a maneira como medicamentos são desenvolvidos.

Mecanismo de funcionamento do modelo ESMC

O ESMC representa o ápice mais recente de um programa de pesquisa contínuo, cuja origem remonta a 2019. Naquele período, a equipe de cientistas conseguiu desenvolver o primeiro modelo de linguagem baseado em arquitetura transformer especificamente projetado para analisar sequências de proteínas. O processo de treinamento intensivo desse modelo busca internalizar as propriedades fundamentais intrínsecas que regem a complexa biologia das proteínas.

Essas propriedades englobam as regras essenciais que determinam como as proteínas se dobram em suas formas tridimensionais específicas, além de como interagem com outras moléculas no ambiente celular. Adicionalmente, o modelo busca compreender como essas proteínas desempenham suas funções biológicas cruciais. A capacidade de prever e entender esses mecanismos é um passo decisivo para manipular e conceber novas proteínas com aplicações terapêuticas ou industriais.

As proteínas são macromoléculas complexas, cuja estrutura básica consiste em uma cadeia linear de aminoácidos. Quando esses aminoácidos se unem em uma sequência particular, eles podem formar uma vasta e quase ilimitada gama de combinações estruturais. A ordem específica desses aminoácidos na cadeia é o fator determinante que orienta o dobramento da molécula em uma configuração tridimensional única e altamente específica.

Essa estrutura tridimensional particular, por sua vez, é o que define com precisão a função biológica exata que a proteína irá exercer dentro de um organismo. Em etapas de estudos iniciais, os pesquisadores fizeram uma descoberta relevante: os modelos desenvolvidos foram capazes de aprender e processar informações que iam além das meras sequências de aminoácidos. Eles demonstraram a capacidade de codificar a estrutura e a função biológica das proteínas, incluindo propriedades que jamais haviam sido explicitamente demonstradas ou ensinadas ao modelo durante o treinamento.

Potencial terapêutico e a medicina de precisão

Após um aprendizado aprofundado dos padrões biológicos intrincados das proteínas, o modelo de inteligência artificial demonstrou uma capacidade notável de prever o formato tridimensional dessas moléculas com alta precisão. Além de prever a estrutura, ele conseguiu decifrar suas funções biológicas essenciais e, o que é mais inovador, gerar proteínas inéditas. Todo esse processo ocorre inteiramente dentro do ambiente computacional, agilizando drasticamente a pesquisa.

Essas capacidades avançadas possuem um potencial transformador e significativo para aplicações futuras na medicina. Com a assistência do modelo, torna-se uma realidade mais próxima a projeção de uma proteína que se ligue a um alvo molecular específico com uma combinação ideal de força e seletividade. Isso implica na possibilidade de desenvolver um maior potencial terapêutico, e de uma forma substancialmente mais rápida do que as abordagens bioquímicas clássicas, que são demoradas e laboriosas.

Este avanço tecnológico é de suma importância, especialmente ao considerar o atual cenário da criação de tratamentos baseados em proteínas, como os anticorpos utilizados contra o câncer. Atualmente, os cientistas precisam dedicar um tempo considerável para identificar qual proteína específica se liga ao alvo correto e, além disso, garantir que essa ligação ocorra de forma precisa e eficaz. Este é o fundamento da chamada “medicina de precisão”, que busca tratamentos altamente individualizados.

No entanto, o processo tradicional de descoberta e validação de proteínas é amplamente conhecido por ser extremamente custoso e, muitas vezes, prolongado em termos de tempo. Com a inteligência artificial da Biohub, é possível simular virtualmente um vasto número de proteínas em um curto período. A tecnologia pode então prever quais delas têm a maior probabilidade de serem eficazes contra um alvo específico, otimizando de maneira significativa os recursos e o tempo de pesquisa e desenvolvimento de novos medicamentos.

Validação e testes em oncologia e imunologia

Para validar empiricamente a funcionalidade e a eficácia do sistema desenvolvido, os pesquisadores da Biohub selecionaram um conjunto de proteínas ligadas diretamente ao câncer, ao crescimento tumoral e ao complexo funcionamento do sistema imunológico. Foram escolhidos alvos clinicamente relevantes como EGFR, PD-L1 e CTLA-4, que são biomarcadores cruciais em diversas patologias oncológicas e imunológicas, representando desafios significativos.

A inteligência artificial foi então instruída a gerar dezenas de milhares de proteínas candidatas. Esse processo massivo foi concluído em aproximadamente dois dias, com o objetivo principal de testar qual dessas proteínas demonstraria a melhor interação e afinidade contra os alvos específicos previamente selecionados. Subsequentemente, o sistema computacional calculou quais das proteínas geradas seriam mais estáveis e apresentariam a maior probabilidade de se desenvolverem em um tratamento viável e seguro.

Os resultados detalhados dos estudos indicaram que o aumento do poder computacional aplicado à inteligência artificial resultou em uma melhoria considerável na taxa de sucesso dos designs de proteínas. Essa otimização foi particularmente notável e expressiva no caso de anticorpos que, pelas abordagens tradicionais, são considerados mais difíceis de se ligarem aos seus respectivos alvos com a precisão necessária. Isso demonstra a escalabilidade e a eficácia inerente à abordagem computacional.

Posteriormente, as proteínas de melhor desempenho, que foram projetadas e selecionadas pela inteligência artificial, foram submetidas a testes rigorosos em laboratório, simulando condições biológicas reais. Algumas delas comprovaram a capacidade efetiva de se ligar corretamente aos alvos definidos. Além disso, exibiram a estabilidade desejada, atestando seu potencial terapêutico concreto e sua viabilidade como futuras candidatas a medicamentos.

A Biohub enfatiza que, embora as doenças sigam padrões biológicos comuns, uma grande parte delas apresenta características individuais, requerendo abordagens personalizadas. Para certas enfermidades, como o câncer e as doenças raras, o potencial de aplicação imediata desta tecnologia é imenso e promissor. A empresa demonstrou que o modelo ESM pode projetar ligantes de proteínas validados em laboratório para cinco alvos clinicamente relevantes em questão de poucos dias. Este trabalho altera substancialmente a velocidade da etapa inicial do processo de desenvolvimento de fármacos, democratizando o acesso a ferramentas avançadas.

Veja Também