Esse DNA lixo está cheio de informações

•
Biológicas / Saúde

Hederson Gotz
27/06/2024
Prévia do material em texto
1/5
Esse DNA “lixo” ... está cheio de informações!
Compreender a natureza e a origem do genoma não codificante.
Não deve nos surpreender que, mesmo em partes do genoma onde obviamente não vemos um código
“funcional” (ou seja, um que foi evolutivamente fixado como resultado de alguma vantagem seletiva), há
um tipo de código, mas não como qualquer coisa que já consideramos anteriormente como tal. E se
estivesse fazendo algo em três dimensões, bem como a única dimensão do código ATGC? Um artigo
publicado na BioEssays explora essa possibilidade tentadora...
Não é maravilhoso ter um problema realmente desconcertante para roer, que gera explicações
potenciais quase infinitas? E quanto ao “o que todo esse DNA não codificante está fazendo em
genomas?” – aquele 98,5% do material genético humano que não produz proteínas. Para ser justo, o
deciframento do DNA não codificante está fazendo grandes avanços através da identificação de
sequências que são transcritas em RNAs que modulam a expressão gênica, podem ser transmitidas
transgeracionalmente (epigenética) ou definir o programa de expressão gênica de uma célula-tronco ou
célula de tecido específica. Quantidades maciças de sequências repetidas (remanescentes de retrovírus
antigos) foram encontradas em muitos genomas e, novamente, estas não codificam proteínas, mas pelo
menos há modelos credíveis para o que eles estão fazendo em termos evolutivos (variando de
parasitismo genômico para simbiose e até mesmo “exploração” pelo próprio genoma do hospedeiro para
produzir a diversidade genética em que a evolução funciona;A pressão seletiva para a evolução da
interferência de RNA (os chamados RNAi); elementos repetitivos de vários tipos nomeados e repetições
em tandem abundam; introns (muitos dos quais contêm os tipos acima mencionados de sequências não
https://onlinelibrary.wiley.com/doi/full/10.1002/bies.201900106
2/5
codificantes) passaram a ser cruciais na expressão e regulação gênica, mais notavelmente através de
emenda alternativa dos segmentos de codificação que eles separam.
Ainda assim, há muito problema para roer porque, embora estejamos cada vez mais entendendo a
natureza e a origem de grande parte do genoma não codificante e estamos fazendo grandes incursões
em sua “função” (definida aqui como evolutivamente selecionada, efeito vantajoso no organismo
hospedeiro), estamos longe de explicar tudo e – mais até o ponto – estamos olhando para ele com uma
lente de muito baixa ampliação, por assim dizer. Uma das coisas intrigantes sobre as sequências de
DNA é que uma única sequência pode “codificar” mais de uma informação, dependendo do que está
“lendo” e em que direção – genomas virais são exemplos clássicos em que os genes leem em uma
direção para produzir uma determinada proteína sobrepõe-se a um ou mais genes lidos na direção
oposta (ou seja, da vertente complementar do DNA) para produzir diferentes proteínas. É um pouco
como fazer mensagens simples com palavras de pair reversa (um chamado emordnilap). Por exemplo:
REEDSTOPSFLOW, que, por um dispositivo de leitura imaginário, poderia ser dividido em FLOW REED
STOPS. Leia de trás para frente, daria WOLF SPOTS DEER.
Agora, se é de vantagem evolutiva para que duas mensagens sejam codificadas economicamente –
como é o caso dos genomas virais, que tendem a evoluir para a complexidade mínima em termos de
conteúdo de informação, reduzindo assim os recursos necessários para a reprodução – então as
próprias mensagens evoluem com um alto grau de restrição. O que significa isto? Bem, poderíamos
dizer nossa mensagem de exemplo original como RUSH-STEM IMPEDES CURRENTE, que incorporaria
as mesmas informações essenciais que a FLUXA REED STOPS. No entanto, essa mensagem, se lida
ao contrário (ou mesmo no mesmo sentido, mas em pedaços diferentes) não codifica nada adicional que
seja particularmente significativo. Provavelmente, a única maneira de transmitir as duas informações nas
mensagens originais simultaneamente é o próprio texto REEDSTOPSFLOW: esse é um sistema
altamente restrito! De fato, se estudássemos exemplos suficientes de frases de par reverso em inglês,
veríamos que elas são, no geral, compostas de palavras bastante curtas, e as sequências estão faltando
certas unidades de linguagem, como artigos (a), se olhássemos mais de perto, poderíamos até detectar
uma representação maior do que a média de certas letras do alfabeto em tais mensagens. Veríamos
isso como vieses no uso de palavras e letras que, a priori, nos permitiriam ter uma facada na
identificação de tais informações de “função dupla”.
Agora vamos voltar às “cartas”, “palavras” e “informação” codificadas em genomas. Para que duas
informações distintas sejam codificadas no mesmo pedaço de sequência genética, também esperamos
que as restrições se manifestem em vieses de uso de palavras e letras – as analogias, respectivamente,
para sequências de aminoácidos que constituem proteínas e seu código de três letras. Portanto, uma
sequência de DNA pode codificar uma proteína e, além disso, para outra coisa. Esse “algo mais”, de
acordo com Giorgio Bernardi, é uma informação que direciona a embalagem do enorme comprimento do
DNA em uma célula para o núcleo relativamente pequeno. Principalmente é o código que orienta a
ligação das proteínas de embalagem de DNA conhecidas como histonas. Bernardi se refere a isso como
o “código genômico” – um código estrutural que define a forma e compactação do DNA na forma
altamente condensada conhecida como “cromatina”.
Mas não começamos com uma explicação para o DNA não codificador, não para codificar proteínas?
Sim, e nos longos trechos do DNA não codificante vemos informações em excesso de meras repetições,
repetições em tandem e restos de retrovírus antigos: há um tipo de código no nível de preferência para o
3/5
par GC de bases químicas de DNA em comparação com o AT. Como Bernardi revisa, sintetizando o
trabalho inovador dele e de outros, nas sequências centrais do genoma eucariótico, o conteúdo do GC
em unidades organizacionais estruturais do genoma denominados “isoros” aumentou durante a transição
evolutiva entre os chamados organismos de sangue frio e de sangue quente. E, fascinantemente, esse
viés de sequência se sobrepõe a sequências que são muito mais restritas em função: essas são as
mesmas sequências codificadoras de proteínas mencionadas anteriormente, e elas – mais do que as
sequências não codificantes interveniárias – são a pista para o “código genômico”.
As sequências codificadoras de proteínas também são embaladas e condensadas no núcleo –
particularmente quando não são “em uso” (ou seja, sendo transcritas e depois traduzidas em proteína) –
mas também contêm informações relativamente constantes sobre identidades precisas de aminoácidos,
caso contrário, eles não conseguiriam codificar proteínas corretamente: a evolução agiria sobre tais
mutações de maneira altamente negativa, tornando-as extremamente improváveis de persistir e visíveis
para nós. Mas o código de aminoácidos no DNA tem um pouco de “pega” que evoluiu no mais simples
dos organismos unicelulares (bactérias e archaea) bilhões de anos atrás: o código é parcialmente
redundante. Por exemplo, o aminoácido Threonina pode ser codificado em DNA eucariótico de nada
menos que quatro maneiras: ACT, ACC, ACA ou ACG. A terceira letra é variável e, portanto, “disponível”
para a codificação de informações extras. Isto é exatamente o que acontece para produzir o “código
genômico”, neste caso, criando um viés para as formas AC C e AC G em organismos de sangue quente.
Assim, a alta restrição a esse “código” adicional – que também é visto em partes do genoma que não
estão sob tal restrição como sequências codificadoras de proteínas – é imposta pela embalagem de
sequências codificadoras de proteínas que incorporam dois conjuntos de informações simultaneamente.
Isso é análogo ao nosso exemplo da sequência de informações duplas altamente restrita
REEDSTOPSFLOW.
É importante ressaltar, no entanto, a restrição não é tão rigorosa quanto em nosso exemplo de línguainglesa por causa da redundância da terceira posição do código tripleto para os aminoácidos: uma
melhor analogia seria SHE) ) Embalhação (em, í)ATE em Inglês) ) Embalhação (em, í)STU em Inglês) )
Embalhação (em, í) onde o asterisco representa uma letra variável que não faz diferença para a máquina
que lê o componente de três letras da mensagem de quatro letras. Pode-se então imaginar um segundo
nível de informação formado pela adição de “D” nesses pontos de asterisco, para fazer
SHEDATEDSTUD (SHE DATED STUD). Em seguida, imagine uma segunda máquina de leitura que
procura frases significativas de uma “natureza sensível” contendo uma concentração maior do que a
média de Ds. Esta máquina de leitura carrega uma máquina dobrável com ela que coloca uma espécie
de pino em cada D, aleijando a mensagem por 120 graus em um plano. um ponto onde a mensagem
deve ser dobrada em 120 graus no mesmo plano, nós acabaríamos com uma versão mais compacta,
triangular. Nos genomas eucarióticos, o viés de sequência GC proposto para ser responsável pela
condensação estrutural se estende em sequências não codificantes, algumas das quais identificaram
atividades, embora menos restritas em sequência do que o DNA codificador de proteínas. Lá, ele
direciona sua condensação através de nucleossos que contêm histonos para formar a cromatina.
4/5
- A figura. Analogia entre a condensação de uma mensagem baseada em palavras e a condensação do
DNA genômico no núcleo celular. Painel A: Informações dentro da informação, uma sequência de
palavras com um quarto espaço variável que, quando preenchido com letras específicas, gera uma
mensagem adicional. Uma mensagem é lida por uma máquina de leitura de três letras; a outra por uma
máquina de leitura que pode interpretar as informações que se estendem até a posição da sequência de
4o - variável. O segundo leitor reconhece informações “sensíveis” que devem ser ocultadas, e nos
pontos em que um “D” aparece na 4a posição, ele dobra a cadeia de palavras, comprimindo assim a
parte “sensível” e tirando-a da visão. Esta é uma analogia para o princípio da compressão 3D genômica
via cromatina, como descrito no painel B: uma imagem de fluorescência (via Fluorescência In-
Situinization – FISH) do núcleo celular. H2/H3 isochores, que aumentou no conteúdo de GC durante a
evolução de vertebrados de sangue frio para sangue quente, são comprimidos em um núcleo de
cromatina, deixando L1 isochores (com menor teor de GC) na periferia em um estado menos
condensado. O “código genômico” incorporado nos tratos de alto CGC do genoma é, de acordo com
Bernardi [1], lido pela maquinaria de posicionamento do nucleossomo da célula e interpretado como
sequência para ser altamente comprimida na eucromatina. Agradecimentos: Painel A: conceito e
produção de figuras: Andrew Moore; Painel B: Um padrão de FISH de H2 / H3 e L1 isochores de um
linfócito induzido por PHA — cortesia de S. Saccone – como reproduzido em Ref. [1].)
Essas regiões do DNA podem então ser consideradas como elementos estruturalmente importantes na
formação da forma correta e separação de sequências de codificação condensada no genoma,
independentemente de qualquer outra função possível que essas sequências não codificantes tenham:
em essência, isso seria uma “explicação” para a persistência em genomas de sequências para as quais
não há “função” (em termos de atividade evolutivamente selecionada) pode ser atribuída (ou, pelo
menos, nenhuma função substancial).
Uma analogia final – desta vez muito mais intimamente relacionada – pode ser as sequências de
aminoácidos em grandes proteínas, que fazem uma variedade de torções, curvas, dobras etc. Podemos
5/5
nos maravilhar com estruturas tão complicadas e perguntar “mas elas precisam ser tão complicadas
para sua função?” Bem, talvez eles façam para condensar e posicionar partes da proteína na orientação
exata e no lugar que gera a estrutura tridimensional que foi selecionada com sucesso pela evolução.
Mas com o conhecimento de que o “código genômico” se sobrepõe a sequências codificadoras de
proteínas, podemos até começar a nos tornar suspeitos de que há outra pressão seletiva no trabalho
também.
Andrew Moore, Ph.D. (em inglês)
Editor-chefe, BioEssays
Referência: G. O Bernardi. 2019em 2019. O código genômico: uma codificação / fusão generalizada de
estruturas de cromatina e uma solução do mistério do DNA não-codificação. BioEnsaios 41: 12. 1900106
(em inglês)
ASN WeeklyTradução
Inscreva-se para receber nossa newsletter semanal e receba as últimas notícias científicas diretamente
na sua caixa de entrada.
ASN WeeklyTradução
Inscreva-se no nosso boletim informativo semanal e receba as últimas notícias científicas.