Buscar

DeepMind resolve desafio de 50 anos na previsão de dobramento de proteínas

Prévia do material em texto

1/4
DeepMind resolve desafio de 50 anos na previsão de
dobramento de proteínas
Usando seu programa de aprendizado profundo, AlphaFold, os pesquisadores preveem a estrutura 3D
das proteínas usando apenas sua sequência de aminoácidos lineares, revolucionando a biologia
computacional como a conhecemos.
Crédito da imagem: Science Photo Library/Getty Images
Esta semana, o programa de inteligência artificial (IA), AlphaFold, desenvolvido pela DeepMind do
Google, resolveu um problema de décadas em biologia: determinar a estrutura 3D de uma proteína
baseada apenas em sua sequência de aminoácidos.
Os resultados foram anunciados no 14o Community Wide Experiment on the Critical Assessment of
Techniques for Protein Structure Prediction (CASP14), onde a Alphafold venceu outras 100 equipes
participantes.
Construir o trabalho de centenas de pesquisadores em todo o mundo, um programa de IA chamado
AlphaFold, criado pelo laboratório de IA DeepMind, com sede em Londres, provou ser capaz de
determinar a forma de muitas proteínas. Ele fez isso a um nível de precisão comparável ao alcançado
com experimentos de laboratório caros e demorados”, escreveram os organizadores em um
comunicado.
O problema do dobramento de proteínas
2/4
As proteínas são os blocos de construção da vida, trabalhando como máquinas intrincadas que
controlam todos os processos dentro de nossas células e corpos, como anticorpos que ajudam a afastar
a infecção e a regulação do açúcar no sangue. Sua função precisa é determinada por suas estruturas
3D únicas, que são montadas espontaneamente e mantidas juntas através de diferentes forças atrativas
e repulsivas predeterminadas por sua sequência de aminoácidos lineares.
“Mesmo pequenos rearranjos dessas moléculas vitais podem ter efeitos catastróficos em nossa saúde,
então uma das maneiras mais eficientes de entender a doença e encontrar novos tratamentos é estudar
as proteínas envolvidas”, disse o Dr. John Moult, um biólogo computacional da Universidade de
Maryland, que co-fundou a CASP em 1994.
Desde que Christian Anfinsen recebeu o Prêmio Nobel em 1972 por mostrar que deveria ser possível
determinar a forma de proteínas com base em sua sequência de aminoácidos, os cientistas vêm
tentando há décadas encontrar uma maneira eficiente de determinar como uma cadeia linear de
aminoácidos pode ser usada para mapear os intrincados loops, dobras e pregas da forma funcional final
de uma proteína.
Embora a pesquisa nos últimos anos tenha nos aproximado cada vez mais, as técnicas atuais de
padrão-ouro – como a espectroscopia de ressonância magnética nuclear (RMN) e a análise de raios-X –
usadas para resolver estruturas proteicas hoje podem ser difíceis, caras e demoradas. Dos 200 milhões
de proteínas conhecidas, resolvemos apenas uma pequena porcentagem de suas estruturas e, com um
número crescente de novas proteínas adicionadas ao banco de dados todos os anos, nossos métodos
atuais não nos permitirão acompanhar.
“Existem dezenas de milhares de proteínas humanas e muitos bilhões em outras espécies, incluindo
bactérias e vírus, mas trabalhar na forma de apenas um requer equipamentos caros e pode levar anos”,
disse Moult.
Experimentos computacionais foram introduzidos na década de 1980, mas, embora sua precisão e
credibilidade tenham melhorado, nenhuma chegou perto de resolver o “problema dobrável de proteínas”.
Um grande desafio está ligado ao número de maneiras possíveis que uma proteína poderia teoricamente
dobrar antes de atingir sua estrutura 3D final. Para fornecer alguma perspectiva, em 1969, o biólogo
molecular Cyrus Levinthal previu que levaria mais tempo do que a idade do universo conhecido para
enumerar todas as configurações possíveis de uma proteína típica pelo cálculo da força bruta.
Encontrar uma maneira de fechar essa lacuna e prever a estrutura de qualquer proteína conhecida com
base apenas em sua sequência de aminoácidos mudaria tudo.
Entre em AlphaFold
O CASP foi fundado há quase 30 anos como um meio de estimular a pesquisa para ajudar a resolver
esse grande desafio científico, compartilhando seu progresso e testando a precisão de suas previsões
contra dados experimentais reais.
“A abordagem CASP criou uma intensa colaboração entre pesquisadores que trabalham neste campo da
ciência e vimos como isso acelerou os desenvolvimentos científicos”, disse o Dr. Krzysztof Fidelis, da UC
Davis, um dos cofundadores. “Desde que corremos o desafio pela primeira vez em 1994, vimos uma
https://www.ebi.ac.uk/uniprot/TrEMBLstats
https://www.rcsb.org/stats/growth/growth-released-structures
3/4
sucessão de descobertas, cada uma resolvendo um aspecto desse problema, de modo que modelos
computados de estruturas de proteínas se tornaram progressivamente mais úteis na pesquisa médica.”
Nas reuniões, equipes de pesquisadores são convidadas a resolver o maior número de estruturas de um
determinado conjunto de proteínas usando programas computacionais que desenvolveram.
Em 2018, no CASP13, a primeira iteração de AlphaFold fez ondas quando previu a maioria das
proteínas com maior precisão entre os participantes da reunião. A equipe do Google publicou suas
descobertas, juntamente com seu código para ajudar a estimular mais inovação.
“Agora, novas arquiteturas de aprendizado profundo que desenvolvemos impulsionaram mudanças em
nossos métodos para o CASP14, permitindo-nos alcançar níveis incomparáveis de precisão”, escreveu a
equipe do Google. “Esses métodos se inspiram nos campos da biologia, física e aprendizado de
máquina, bem como, é claro, o trabalho de muitos cientistas no campo dobrável de proteínas ao longo
do último meio século.”
O AlphaFold usa aprendizado de máquina, que é um ramo da ciência da computação que lida com
algoritmos de auto-aprovação, o que significa que eles podem avaliar e melhorar seu próprio
desempenho depois de serem treinados em uma determinada tarefa.
A tarefa do AlphaFold é identificar pares de aminoácidos que provavelmente entrarão em contato na
estrutura 3D. Mas, em vez de usar uma estratégia comum chamada covariância para prever quais
desses pares estão em contato, AlphaFold tenta prever a distância entre dois resíduos na proteína
dobrada. Essas previsões são mais difíceis de fazer, mas fornecem informações mais ricas sobre a
estrutura da proteína dobrada. Em uma segunda etapa, o AlphaFold usa essa informação para criar um
modelo de como a proteína deve ser e é capaz de determinar estruturas altamente precisas em questão
de dias.
A versão mais recente leva isso mais longe, onde, em vez de apenas prever as relações entre
aminoácidos, o sistema prevê a estrutura final de uma sequência de proteína alvo. No CASP14, o
AlphaFold foi capaz de determinar a forma de cerca de dois terços das proteínas “com precisão
comparável aos experimentos de laboratório”.
A equipe da DeepMind diz que está preparando um artigo sobre sua versão mais recente do AlphaFold
para publicação em uma revista revisada por pares.
Aplicações do mundo real
Os especialistas estão entusiasmados com o impacto que esse avanço terá, citando-o como um “avanço
de uma geração”. Isso não significa que o fim dos experimentos de laboratório, mas a vantagem que o
AlphaFold forneceria permitirá que os pesquisadores façam perguntas mais avançadas e levem adiante
campos como medicina e descoberta de medicamentos.
A equipe da DeepMind também aplicou o AlphaFold para prever a estrutura do vírus SARS-CoV-2 no
início deste ano, que mais tarde foi encontrado para ser preciso por estudos experimentais. No CASP14,
eles também previram a estrutura de outro coronavírus desconhecido, o ORF8.
https://www.nature.com/articles/s41586-019-1923-7.epdf?author_access_token=Z_KaZKDqtKzbE7Wd5HtwI9RgN0jAjWel9jnR3ZoTv0MCcgAwHMgRx9mvLjNQdB2TlQQaa7l420UCtGo8vYQ39gg8lFWR9mAZtvsN_1PrccXfIbc6e-tGSgazNL_XdtQzn1PHfy21qdcxV7Pw-k3htw%3D%3D
https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-194/4
“Além de acelerar a compreensão de doenças conhecidas, estamos entusiasmados com o potencial
dessas técnicas para explorar as centenas de milhões de proteínas para as quais atualmente não temos
modelos – um vasto terreno de biologia desconhecida”, disse a equipe DeepMind.
Embora ainda haja obstáculos a superar, a emoção dentro do campo, sem dúvida, impulsionará mais
inovação.
“Ser capaz de investigar a forma das proteínas de forma rápida e precisa tem o potencial de revolucionar
as ciências da vida”, disse o Dr. Krzysztof Fidelis da UC Davis, um dos organizadores do CASP. “Agora
que o problema foi amplamente resolvido para proteínas únicas, o caminho está aberto para o
desenvolvimento de novos métodos para determinar a forma dos complexos proteicos – coleções de
proteínas que trabalham juntas para formar grande parte da maquinaria da vida e para outras
aplicações.”
Este é um grande passo para a biologia computacional, com implicações de longo alcance. Será
interessante observar como o campo progride nos próximos anos.
Citações adaptadas do comunicado de imprensa fornecido pela CASP14
ASN WeeklyTradução
Inscreva-se para receber nossa newsletter semanal e receba as últimas notícias científicas diretamente
na sua caixa de entrada.
ASN WeeklyTradução
Inscreva-se no nosso boletim informativo semanal e receba as últimas notícias científicas.
https://predictioncenter.org/casp14/doc/CASP14_press_release.html

Mais conteúdos dessa disciplina