Prévia do material em texto
1/4 DeepMind resolve desafio de 50 anos na previsão de dobramento de proteínas Usando seu programa de aprendizado profundo, AlphaFold, os pesquisadores preveem a estrutura 3D das proteínas usando apenas sua sequência de aminoácidos lineares, revolucionando a biologia computacional como a conhecemos. Crédito da imagem: Science Photo Library/Getty Images Esta semana, o programa de inteligência artificial (IA), AlphaFold, desenvolvido pela DeepMind do Google, resolveu um problema de décadas em biologia: determinar a estrutura 3D de uma proteína baseada apenas em sua sequência de aminoácidos. Os resultados foram anunciados no 14o Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP14), onde a Alphafold venceu outras 100 equipes participantes. Construir o trabalho de centenas de pesquisadores em todo o mundo, um programa de IA chamado AlphaFold, criado pelo laboratório de IA DeepMind, com sede em Londres, provou ser capaz de determinar a forma de muitas proteínas. Ele fez isso a um nível de precisão comparável ao alcançado com experimentos de laboratório caros e demorados”, escreveram os organizadores em um comunicado. O problema do dobramento de proteínas 2/4 As proteínas são os blocos de construção da vida, trabalhando como máquinas intrincadas que controlam todos os processos dentro de nossas células e corpos, como anticorpos que ajudam a afastar a infecção e a regulação do açúcar no sangue. Sua função precisa é determinada por suas estruturas 3D únicas, que são montadas espontaneamente e mantidas juntas através de diferentes forças atrativas e repulsivas predeterminadas por sua sequência de aminoácidos lineares. “Mesmo pequenos rearranjos dessas moléculas vitais podem ter efeitos catastróficos em nossa saúde, então uma das maneiras mais eficientes de entender a doença e encontrar novos tratamentos é estudar as proteínas envolvidas”, disse o Dr. John Moult, um biólogo computacional da Universidade de Maryland, que co-fundou a CASP em 1994. Desde que Christian Anfinsen recebeu o Prêmio Nobel em 1972 por mostrar que deveria ser possível determinar a forma de proteínas com base em sua sequência de aminoácidos, os cientistas vêm tentando há décadas encontrar uma maneira eficiente de determinar como uma cadeia linear de aminoácidos pode ser usada para mapear os intrincados loops, dobras e pregas da forma funcional final de uma proteína. Embora a pesquisa nos últimos anos tenha nos aproximado cada vez mais, as técnicas atuais de padrão-ouro – como a espectroscopia de ressonância magnética nuclear (RMN) e a análise de raios-X – usadas para resolver estruturas proteicas hoje podem ser difíceis, caras e demoradas. Dos 200 milhões de proteínas conhecidas, resolvemos apenas uma pequena porcentagem de suas estruturas e, com um número crescente de novas proteínas adicionadas ao banco de dados todos os anos, nossos métodos atuais não nos permitirão acompanhar. “Existem dezenas de milhares de proteínas humanas e muitos bilhões em outras espécies, incluindo bactérias e vírus, mas trabalhar na forma de apenas um requer equipamentos caros e pode levar anos”, disse Moult. Experimentos computacionais foram introduzidos na década de 1980, mas, embora sua precisão e credibilidade tenham melhorado, nenhuma chegou perto de resolver o “problema dobrável de proteínas”. Um grande desafio está ligado ao número de maneiras possíveis que uma proteína poderia teoricamente dobrar antes de atingir sua estrutura 3D final. Para fornecer alguma perspectiva, em 1969, o biólogo molecular Cyrus Levinthal previu que levaria mais tempo do que a idade do universo conhecido para enumerar todas as configurações possíveis de uma proteína típica pelo cálculo da força bruta. Encontrar uma maneira de fechar essa lacuna e prever a estrutura de qualquer proteína conhecida com base apenas em sua sequência de aminoácidos mudaria tudo. Entre em AlphaFold O CASP foi fundado há quase 30 anos como um meio de estimular a pesquisa para ajudar a resolver esse grande desafio científico, compartilhando seu progresso e testando a precisão de suas previsões contra dados experimentais reais. “A abordagem CASP criou uma intensa colaboração entre pesquisadores que trabalham neste campo da ciência e vimos como isso acelerou os desenvolvimentos científicos”, disse o Dr. Krzysztof Fidelis, da UC Davis, um dos cofundadores. “Desde que corremos o desafio pela primeira vez em 1994, vimos uma https://www.ebi.ac.uk/uniprot/TrEMBLstats https://www.rcsb.org/stats/growth/growth-released-structures 3/4 sucessão de descobertas, cada uma resolvendo um aspecto desse problema, de modo que modelos computados de estruturas de proteínas se tornaram progressivamente mais úteis na pesquisa médica.” Nas reuniões, equipes de pesquisadores são convidadas a resolver o maior número de estruturas de um determinado conjunto de proteínas usando programas computacionais que desenvolveram. Em 2018, no CASP13, a primeira iteração de AlphaFold fez ondas quando previu a maioria das proteínas com maior precisão entre os participantes da reunião. A equipe do Google publicou suas descobertas, juntamente com seu código para ajudar a estimular mais inovação. “Agora, novas arquiteturas de aprendizado profundo que desenvolvemos impulsionaram mudanças em nossos métodos para o CASP14, permitindo-nos alcançar níveis incomparáveis de precisão”, escreveu a equipe do Google. “Esses métodos se inspiram nos campos da biologia, física e aprendizado de máquina, bem como, é claro, o trabalho de muitos cientistas no campo dobrável de proteínas ao longo do último meio século.” O AlphaFold usa aprendizado de máquina, que é um ramo da ciência da computação que lida com algoritmos de auto-aprovação, o que significa que eles podem avaliar e melhorar seu próprio desempenho depois de serem treinados em uma determinada tarefa. A tarefa do AlphaFold é identificar pares de aminoácidos que provavelmente entrarão em contato na estrutura 3D. Mas, em vez de usar uma estratégia comum chamada covariância para prever quais desses pares estão em contato, AlphaFold tenta prever a distância entre dois resíduos na proteína dobrada. Essas previsões são mais difíceis de fazer, mas fornecem informações mais ricas sobre a estrutura da proteína dobrada. Em uma segunda etapa, o AlphaFold usa essa informação para criar um modelo de como a proteína deve ser e é capaz de determinar estruturas altamente precisas em questão de dias. A versão mais recente leva isso mais longe, onde, em vez de apenas prever as relações entre aminoácidos, o sistema prevê a estrutura final de uma sequência de proteína alvo. No CASP14, o AlphaFold foi capaz de determinar a forma de cerca de dois terços das proteínas “com precisão comparável aos experimentos de laboratório”. A equipe da DeepMind diz que está preparando um artigo sobre sua versão mais recente do AlphaFold para publicação em uma revista revisada por pares. Aplicações do mundo real Os especialistas estão entusiasmados com o impacto que esse avanço terá, citando-o como um “avanço de uma geração”. Isso não significa que o fim dos experimentos de laboratório, mas a vantagem que o AlphaFold forneceria permitirá que os pesquisadores façam perguntas mais avançadas e levem adiante campos como medicina e descoberta de medicamentos. A equipe da DeepMind também aplicou o AlphaFold para prever a estrutura do vírus SARS-CoV-2 no início deste ano, que mais tarde foi encontrado para ser preciso por estudos experimentais. No CASP14, eles também previram a estrutura de outro coronavírus desconhecido, o ORF8. https://www.nature.com/articles/s41586-019-1923-7.epdf?author_access_token=Z_KaZKDqtKzbE7Wd5HtwI9RgN0jAjWel9jnR3ZoTv0MCcgAwHMgRx9mvLjNQdB2TlQQaa7l420UCtGo8vYQ39gg8lFWR9mAZtvsN_1PrccXfIbc6e-tGSgazNL_XdtQzn1PHfy21qdcxV7Pw-k3htw%3D%3D https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13 https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-194/4 “Além de acelerar a compreensão de doenças conhecidas, estamos entusiasmados com o potencial dessas técnicas para explorar as centenas de milhões de proteínas para as quais atualmente não temos modelos – um vasto terreno de biologia desconhecida”, disse a equipe DeepMind. Embora ainda haja obstáculos a superar, a emoção dentro do campo, sem dúvida, impulsionará mais inovação. “Ser capaz de investigar a forma das proteínas de forma rápida e precisa tem o potencial de revolucionar as ciências da vida”, disse o Dr. Krzysztof Fidelis da UC Davis, um dos organizadores do CASP. “Agora que o problema foi amplamente resolvido para proteínas únicas, o caminho está aberto para o desenvolvimento de novos métodos para determinar a forma dos complexos proteicos – coleções de proteínas que trabalham juntas para formar grande parte da maquinaria da vida e para outras aplicações.” Este é um grande passo para a biologia computacional, com implicações de longo alcance. Será interessante observar como o campo progride nos próximos anos. Citações adaptadas do comunicado de imprensa fornecido pela CASP14 ASN WeeklyTradução Inscreva-se para receber nossa newsletter semanal e receba as últimas notícias científicas diretamente na sua caixa de entrada. ASN WeeklyTradução Inscreva-se no nosso boletim informativo semanal e receba as últimas notícias científicas. https://predictioncenter.org/casp14/doc/CASP14_press_release.html