Uma função para o DNA não codificante?

Há um par de anos (que, em tempo relativo de internet dá mais ou menos umas duas décadas) circulou um meme um tanto nerd, em relação à constante matemática π (pi). Segundo a versão mais famosa do meme, π seria um “número decimal infinito e não repetitivo, significando que qualquer sequência numérica possível pode ser encontrada na constante π, desde o nome de todas as pessoas que você conheceu até o bitmap de todas as fotos que você já viu, incluindo o DNA de todos os organismos do universo”. Segundo versões alternativas desse meme, na sequência numérica da constante π é possível encontrar na íntegra o texto de Crime e Castigo — incluindo versões alternativas onde é a velha quem mata Raskolnikov ou uma na qual Raskolnikov é um papagaio transexual gago — ou o texto de Dom Quixote, o bitmap de fotos de Brigitte Bardot ou até mesmo os 136 minutos do filme Laranja Mecânica. Mas a coisa não para por aqui: π conteria fotos de pessoas que nunca foram fotografadas (como Isaac Newton, por exemplo), infinitas versões alternativas da sua vida, o relevo de todos os planetas rochosos do universo ou mesmo o DNA de todos os terráqueos que ainda irão nascer — por que não? Como cúmulo do cúmulo poderíamos afirmar que π conteria em sua sequência a Biblioteca de Babel (um universo contendo um universo… essa brincadeira só os fãs de Borges irão entender).

Essa ideia é bem interessante e, como quase tudo aquilo que é interessante, cativa a mente das pessoas e é compartilhada sem muita verificação. Só há um problema: essa ideia não está necessariamente correta.

A constante pi na visão de Martin Krzywinski. Trata-se da frequência de distribuição dos algarismos nos primeiros grupos de 3 dígitos de pi até o Ponto de Feynman (os seis números 9 roxos no canto inferior direito).

A constante pi na visão de Martin Krzywinski. Trata-se da frequência de distribuição dos algarismos nos primeiros grupos de 3 dígitos de pi até o Ponto de Feynman (os seis números 9 roxos no canto inferior direito).

O problema consiste em afirmar que π contém toda e qualquer sequência numérica possível, e nós não podemos afirmar isso. A constante π é irracional, isso é verdade. Ela é infinita, isso também é verdade. Mas um número irracional, infinito e não repetitivo não contém necessariamente toda e qualquer sequência numérica. Eu vou dar um exemplo bem simples. Veja o seguinte número:

0,1010010001000010000010000001000000010000000010000000001…

Trata-se de um número irracional, com uma sequência infinita e não repetitiva de dígitos. O padrão aqui é bem claro, a quantidade de zeros aumenta progressivamente, mas ainda assim é um número não repetitivo. Tenho certeza que ninguém espera encontrar num número como este, a transcrição da Divina Comédia ou as senhas dos usuários do Gmail.

Eis como explicar a questão: caso afirmássemos que um determinado número, seja ele qual for, contém uma sequência infinita e completamente aleatória de dígitos, aí sim, poderíamos afirmar que a sequência do DNA do cachorro da sua vizinha pode ser encontrada nesse dado número, e não apenas isso, mas encontrada infinitas vezes! Essa é a maravilha e a complexidade das sequências aleatórias infinitas… Mas não está provado que π seja uma delas. Perceba que eu não estou afirmando categoricamente que a constante não possua essas características, estou apenas dizendo que ainda não se sabe com certeza. Os matemáticos já estudaram alguns trilhões de dígitos da constante π e a distribuição dos dígitos estudados até agora parece ser aleatória, mas não se sabe se essa aleatoriedade continua infinitamente. Quando for provado que a sequência de dígitos de π é infinita e aleatória, aí sim o meme estará correto.

Ainda assim, esse meme sobre a constante matemática π foi interessante por iniciar uma discussão educativa, mesmo que seja para contestar e corrigir o meme. De fato, π pode conter um número inimaginável de diferentes sequências numéricas, e quanto menores essas sequências, maiores as chances de elas serem encontradas. Por exemplo, eis o meu nome em ASCII:

071101114097114100111032070117114116097100111

É uma sequência numérica bem pequena, e eu tenho gigantesca confiança de que ela deva ser encontrada em algum lugar da constante π (apesar disso, procurei o meu nome apenas, sem o sobrenome, que é 071101114097114100111, nos primeiros 2 bilhões de dígitos de π e não achei nada!).

Mais fácil ainda se for uma sequência menor, como os anos em que Jim Clark foi campeão (que pode ser encontrada a 45 milhões, 478 mil e 482 dígitos depois da vírgula):

19631965

Contudo, nada nos assegura que a constante π contenha a sequência digital de uma versão colorida de Tempos Modernos ou o estado quântico de todos os léptons do universo.

Muito bem, mas o que isso tudo tem a ver com a biologia evolutiva, ou com o título do post, o DNA não codificante?

Esse meme sobre a constante π, apesar de não estar necessariamente correto, nos mostra a importância de uma sequência relativamente grande e supostamente aleatória: você pode encontrar informações nessas sequências, e pode encontrá-las por puro acaso: numa sequência numérica cada vez maior e cada vez mais “embaralhada”, é cada vez mais provável que você encontre uma dada informação. Isso dito, vamos ao DNA não codificante.

O DNA não codificante (eu poderia ter escrito DNA lixo no título, e assim atrair muitos mais cliques) é um dos grandes mistérios da biologia e especificamente da biologia evolutiva. Trata-se de gigantescas porções do nosso genoma que não contém — até onde se saiba — informação alguma, apenas uma sequência de bases (A, G, C e T) aparentemente aleatória. Sem incluir os introns, o DNA não codificante em um ser humano constitui algo em torno de 70% do genoma. Incluindo os introns, o DNA não codificante chega a 98,5% do genoma (aviso: estou considerando “codificante” como codificante para proteínas, e estou desconsiderando os genes para RNA, os transposons e os retrotransposons. O aviso está dado).

Qual a função desse monte de bases nitrogenadas? Há várias hipóteses, algumas bem interessantes e muitas delas não mutuamente exclusivas (significando dizer que mais de uma hipótese pode estar correta, coisa que muitos estudantes e profissionais costumam esquecer). Mas esse meme sobre a constante π nos traz mais uma possibilidade à mente: e se essa gigantesca quantidade de bases distribuídas aleatoriamente for uma fonte para o surgimento fortuito de novos genes, ou seja, uma imensa mistureba de bases que pode, por puro acaso, conter algo interessante? A ideia é que, do mesmo modo que uma sequência aleatória de números pode, por puro acaso, conter uma informação significativa, uma sequência aleatória de bases pode, por puro acaso, conter uma ou outra região funcional.

A alegação é bem extraordinária, eu sei, mas não é de todo impossível. Claro que o acaso é muito mais favorável a mutações que desativam genes (loss of function) do que é favorável a mutações que criam genes a partir de sequências aleatórias, e isso é a mais básica e elementar probabilidade. Para explicar isso de modo mais mundano, imagine que você jogue todas as cartas de um baralho para cima: é mais provável elas caírem desordenadas do que caírem perfeitamente organizadas por valor e por naipe. Sequências aleatórias geralmente não têm função ou significado algum. Mas tendo em conta o imenso tamanho do DNA não codificante, e considerando certos genes relativamente pequenos, é possível que o fenômeno ocorra. Não disse provável, disse apenas possível.

A visão tradicional da biologia evolutiva e da biologia molecular é que novos genes surgem a partir de genes preexistentes. Suponha por exemplo um determinado gene α (alfa). Esse gene α se duplica, e agora temos duas cópias de α. Uma dessas cópias sofre mutações, sendo agora chamada de β (beta). Assim, o organismo agora tem dois genes distintos, α e β. Como os genes normalmente se originam por mutações em genes preexistentes, os geneticistas e biólogos moleculares costumam classificar e agrupar os genes em famílias, de acordo com suas propriedades.

Contudo, certos genes não conseguem ser facilmente classificados, por não se parecerem com membros de nenhuma das famílias. Por essa razão, a própria origem evolutiva desses genes não é adequadamente compreendida.

Até que, recentemente, certos biólogos propuseram uma hipótese audaciosa: esses genes poderiam muito bem ser genes de novo, ou seja, genes que não surgiram de genes preexistentes, mas que literalmente surgiram pela primeira vez (de novo, apesar de significar exatamente a mesma coisa, vem do latim, e não do português), ou, como algumas pessoas gostam de falar, surgiram do nada (no sentido de que não surgiram de outros genes). E qual seria a fonte para esses genes de novo? Mutações fortuitas e extremamente “sortudas”, se quisermos assim defini-las, no DNA não codificante.

Há algumas publicações recentes que alegam que certos genes surgiram de novo, emergindo do DNA não codificante, como esse paper sobre genes em Drosophila ou esse paper sobre genes em mamíferos. A revista Nature publicou inclusive uma lista de alguns genes inequivocamente considerados genes de novo.

Caso essa hipótese se confirme, podemos adicionar mais uma vantagem às várias já propostas para a ocorrência de regiões tão grandes de DNA não codificante no genoma. Dessa forma, cada vez mais o termo DNA lixo vai se tornando inadequado ou até mesmo equivocado.

1 comentário

    • Samuel Junior on 17/12/2015 at 15:08
    • Responder

    É considerado parte deste DNA “lixo” as porções de DNA virais que nós temos?

Deixe um comentário

O seu endereço de email não será publicado.

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.