Prévia do material em texto
1/5 Esse DNA “lixo” ... está cheio de informações! Compreender a natureza e a origem do genoma não codificante. Não deve nos surpreender que, mesmo em partes do genoma onde obviamente não vemos um código “funcional” (ou seja, um que foi evolutivamente fixado como resultado de alguma vantagem seletiva), há um tipo de código, mas não como qualquer coisa que já consideramos anteriormente como tal. E se estivesse fazendo algo em três dimensões, bem como a única dimensão do código ATGC? Um artigo publicado na BioEssays explora essa possibilidade tentadora... Não é maravilhoso ter um problema realmente desconcertante para roer, que gera explicações potenciais quase infinitas? E quanto ao “o que todo esse DNA não codificante está fazendo em genomas?” – aquele 98,5% do material genético humano que não produz proteínas. Para ser justo, o deciframento do DNA não codificante está fazendo grandes avanços através da identificação de sequências que são transcritas em RNAs que modulam a expressão gênica, podem ser transmitidas transgeracionalmente (epigenética) ou definir o programa de expressão gênica de uma célula-tronco ou célula de tecido específica. Quantidades maciças de sequências repetidas (remanescentes de retrovírus antigos) foram encontradas em muitos genomas e, novamente, estas não codificam proteínas, mas pelo menos há modelos credíveis para o que eles estão fazendo em termos evolutivos (variando de parasitismo genômico para simbiose e até mesmo “exploração” pelo próprio genoma do hospedeiro para produzir a diversidade genética em que a evolução funciona;A pressão seletiva para a evolução da interferência de RNA (os chamados RNAi); elementos repetitivos de vários tipos nomeados e repetições em tandem abundam; introns (muitos dos quais contêm os tipos acima mencionados de sequências não https://onlinelibrary.wiley.com/doi/full/10.1002/bies.201900106 2/5 codificantes) passaram a ser cruciais na expressão e regulação gênica, mais notavelmente através de emenda alternativa dos segmentos de codificação que eles separam. Ainda assim, há muito problema para roer porque, embora estejamos cada vez mais entendendo a natureza e a origem de grande parte do genoma não codificante e estamos fazendo grandes incursões em sua “função” (definida aqui como evolutivamente selecionada, efeito vantajoso no organismo hospedeiro), estamos longe de explicar tudo e – mais até o ponto – estamos olhando para ele com uma lente de muito baixa ampliação, por assim dizer. Uma das coisas intrigantes sobre as sequências de DNA é que uma única sequência pode “codificar” mais de uma informação, dependendo do que está “lendo” e em que direção – genomas virais são exemplos clássicos em que os genes leem em uma direção para produzir uma determinada proteína sobrepõe-se a um ou mais genes lidos na direção oposta (ou seja, da vertente complementar do DNA) para produzir diferentes proteínas. É um pouco como fazer mensagens simples com palavras de pair reversa (um chamado emordnilap). Por exemplo: REEDSTOPSFLOW, que, por um dispositivo de leitura imaginário, poderia ser dividido em FLOW REED STOPS. Leia de trás para frente, daria WOLF SPOTS DEER. Agora, se é de vantagem evolutiva para que duas mensagens sejam codificadas economicamente – como é o caso dos genomas virais, que tendem a evoluir para a complexidade mínima em termos de conteúdo de informação, reduzindo assim os recursos necessários para a reprodução – então as próprias mensagens evoluem com um alto grau de restrição. O que significa isto? Bem, poderíamos dizer nossa mensagem de exemplo original como RUSH-STEM IMPEDES CURRENTE, que incorporaria as mesmas informações essenciais que a FLUXA REED STOPS. No entanto, essa mensagem, se lida ao contrário (ou mesmo no mesmo sentido, mas em pedaços diferentes) não codifica nada adicional que seja particularmente significativo. Provavelmente, a única maneira de transmitir as duas informações nas mensagens originais simultaneamente é o próprio texto REEDSTOPSFLOW: esse é um sistema altamente restrito! De fato, se estudássemos exemplos suficientes de frases de par reverso em inglês, veríamos que elas são, no geral, compostas de palavras bastante curtas, e as sequências estão faltando certas unidades de linguagem, como artigos (a), se olhássemos mais de perto, poderíamos até detectar uma representação maior do que a média de certas letras do alfabeto em tais mensagens. Veríamos isso como vieses no uso de palavras e letras que, a priori, nos permitiriam ter uma facada na identificação de tais informações de “função dupla”. Agora vamos voltar às “cartas”, “palavras” e “informação” codificadas em genomas. Para que duas informações distintas sejam codificadas no mesmo pedaço de sequência genética, também esperamos que as restrições se manifestem em vieses de uso de palavras e letras – as analogias, respectivamente, para sequências de aminoácidos que constituem proteínas e seu código de três letras. Portanto, uma sequência de DNA pode codificar uma proteína e, além disso, para outra coisa. Esse “algo mais”, de acordo com Giorgio Bernardi, é uma informação que direciona a embalagem do enorme comprimento do DNA em uma célula para o núcleo relativamente pequeno. Principalmente é o código que orienta a ligação das proteínas de embalagem de DNA conhecidas como histonas. Bernardi se refere a isso como o “código genômico” – um código estrutural que define a forma e compactação do DNA na forma altamente condensada conhecida como “cromatina”. Mas não começamos com uma explicação para o DNA não codificador, não para codificar proteínas? Sim, e nos longos trechos do DNA não codificante vemos informações em excesso de meras repetições, repetições em tandem e restos de retrovírus antigos: há um tipo de código no nível de preferência para o 3/5 par GC de bases químicas de DNA em comparação com o AT. Como Bernardi revisa, sintetizando o trabalho inovador dele e de outros, nas sequências centrais do genoma eucariótico, o conteúdo do GC em unidades organizacionais estruturais do genoma denominados “isoros” aumentou durante a transição evolutiva entre os chamados organismos de sangue frio e de sangue quente. E, fascinantemente, esse viés de sequência se sobrepõe a sequências que são muito mais restritas em função: essas são as mesmas sequências codificadoras de proteínas mencionadas anteriormente, e elas – mais do que as sequências não codificantes interveniárias – são a pista para o “código genômico”. As sequências codificadoras de proteínas também são embaladas e condensadas no núcleo – particularmente quando não são “em uso” (ou seja, sendo transcritas e depois traduzidas em proteína) – mas também contêm informações relativamente constantes sobre identidades precisas de aminoácidos, caso contrário, eles não conseguiriam codificar proteínas corretamente: a evolução agiria sobre tais mutações de maneira altamente negativa, tornando-as extremamente improváveis de persistir e visíveis para nós. Mas o código de aminoácidos no DNA tem um pouco de “pega” que evoluiu no mais simples dos organismos unicelulares (bactérias e archaea) bilhões de anos atrás: o código é parcialmente redundante. Por exemplo, o aminoácido Threonina pode ser codificado em DNA eucariótico de nada menos que quatro maneiras: ACT, ACC, ACA ou ACG. A terceira letra é variável e, portanto, “disponível” para a codificação de informações extras. Isto é exatamente o que acontece para produzir o “código genômico”, neste caso, criando um viés para as formas AC C e AC G em organismos de sangue quente. Assim, a alta restrição a esse “código” adicional – que também é visto em partes do genoma que não estão sob tal restrição como sequências codificadoras de proteínas – é imposta pela embalagem de sequências codificadoras de proteínas que incorporam dois conjuntos de informações simultaneamente. Isso é análogo ao nosso exemplo da sequência de informações duplas altamente restrita REEDSTOPSFLOW. É importante ressaltar, no entanto, a restrição não é tão rigorosa quanto em nosso exemplo de línguainglesa por causa da redundância da terceira posição do código tripleto para os aminoácidos: uma melhor analogia seria SHE) ) Embalhação (em, í)ATE em Inglês) ) Embalhação (em, í)STU em Inglês) ) Embalhação (em, í) onde o asterisco representa uma letra variável que não faz diferença para a máquina que lê o componente de três letras da mensagem de quatro letras. Pode-se então imaginar um segundo nível de informação formado pela adição de “D” nesses pontos de asterisco, para fazer SHEDATEDSTUD (SHE DATED STUD). Em seguida, imagine uma segunda máquina de leitura que procura frases significativas de uma “natureza sensível” contendo uma concentração maior do que a média de Ds. Esta máquina de leitura carrega uma máquina dobrável com ela que coloca uma espécie de pino em cada D, aleijando a mensagem por 120 graus em um plano. um ponto onde a mensagem deve ser dobrada em 120 graus no mesmo plano, nós acabaríamos com uma versão mais compacta, triangular. Nos genomas eucarióticos, o viés de sequência GC proposto para ser responsável pela condensação estrutural se estende em sequências não codificantes, algumas das quais identificaram atividades, embora menos restritas em sequência do que o DNA codificador de proteínas. Lá, ele direciona sua condensação através de nucleossos que contêm histonos para formar a cromatina. 4/5 - A figura. Analogia entre a condensação de uma mensagem baseada em palavras e a condensação do DNA genômico no núcleo celular. Painel A: Informações dentro da informação, uma sequência de palavras com um quarto espaço variável que, quando preenchido com letras específicas, gera uma mensagem adicional. Uma mensagem é lida por uma máquina de leitura de três letras; a outra por uma máquina de leitura que pode interpretar as informações que se estendem até a posição da sequência de 4o - variável. O segundo leitor reconhece informações “sensíveis” que devem ser ocultadas, e nos pontos em que um “D” aparece na 4a posição, ele dobra a cadeia de palavras, comprimindo assim a parte “sensível” e tirando-a da visão. Esta é uma analogia para o princípio da compressão 3D genômica via cromatina, como descrito no painel B: uma imagem de fluorescência (via Fluorescência In- Situinization – FISH) do núcleo celular. H2/H3 isochores, que aumentou no conteúdo de GC durante a evolução de vertebrados de sangue frio para sangue quente, são comprimidos em um núcleo de cromatina, deixando L1 isochores (com menor teor de GC) na periferia em um estado menos condensado. O “código genômico” incorporado nos tratos de alto CGC do genoma é, de acordo com Bernardi [1], lido pela maquinaria de posicionamento do nucleossomo da célula e interpretado como sequência para ser altamente comprimida na eucromatina. Agradecimentos: Painel A: conceito e produção de figuras: Andrew Moore; Painel B: Um padrão de FISH de H2 / H3 e L1 isochores de um linfócito induzido por PHA — cortesia de S. Saccone – como reproduzido em Ref. [1].) Essas regiões do DNA podem então ser consideradas como elementos estruturalmente importantes na formação da forma correta e separação de sequências de codificação condensada no genoma, independentemente de qualquer outra função possível que essas sequências não codificantes tenham: em essência, isso seria uma “explicação” para a persistência em genomas de sequências para as quais não há “função” (em termos de atividade evolutivamente selecionada) pode ser atribuída (ou, pelo menos, nenhuma função substancial). Uma analogia final – desta vez muito mais intimamente relacionada – pode ser as sequências de aminoácidos em grandes proteínas, que fazem uma variedade de torções, curvas, dobras etc. Podemos 5/5 nos maravilhar com estruturas tão complicadas e perguntar “mas elas precisam ser tão complicadas para sua função?” Bem, talvez eles façam para condensar e posicionar partes da proteína na orientação exata e no lugar que gera a estrutura tridimensional que foi selecionada com sucesso pela evolução. Mas com o conhecimento de que o “código genômico” se sobrepõe a sequências codificadoras de proteínas, podemos até começar a nos tornar suspeitos de que há outra pressão seletiva no trabalho também. Andrew Moore, Ph.D. (em inglês) Editor-chefe, BioEssays Referência: G. O Bernardi. 2019em 2019. O código genômico: uma codificação / fusão generalizada de estruturas de cromatina e uma solução do mistério do DNA não-codificação. BioEnsaios 41: 12. 1900106 (em inglês) ASN WeeklyTradução Inscreva-se para receber nossa newsletter semanal e receba as últimas notícias científicas diretamente na sua caixa de entrada. ASN WeeklyTradução Inscreva-se no nosso boletim informativo semanal e receba as últimas notícias científicas.