As ultra-long-reads vão transformar a genômica?
por Renata Cavalcante

alt_text Conhecido como sequenciamento de terceira geração, as ultra-long-reads consistem em uma técnica de sequenciamento de DNA e RNA que pode determinar a sequência de nucleotídeos de sequências entre 10.000 e 100.000 pares de base, de uma só vez, enquanto que em short-reads (sequenciamento de segunda geração) os fragmentos costumam variar de 150 a 300 pares de bases. A partir dessa inovação, não existe mais a necessidade de cortar e amplificar o DNA, procedimentos requeridos normalmente em outras técnicas como nos sequenciamentos do tipo shotgun*.

A capacidade de obter ultra-long-reads com a tecnologia de sequenciamento Oxford Nanopore fornece uma oportunidade única para acessar informações nos genomas de uma forma que não era possível anteriormente. Isso se dá pelo fato de que as reads oriundas de sequenciamento a partir de ultra-long-reads podem ser usadas para caracterizar completamente os genomas: acesso a regiões altamente repetitivas, grandes inserções/deleções, resolução de problemas estruturais em larga escala, com transcritos e dados de modificação fornecidos na mesma corrida de sequência.

Nas últimas edições do TeD abordamos trabalhos que utilizaram a tecnologia de ultra-long-reads para solucionar na montagem completa de genomas, como o sequenciamento do organismo animal com o maior genoma já sequenciado - Neoceratodus forsteri - conhecido popularmente como peixe-pulmonado australiano (Australian lungfish), que por possuir cerca de 90% do genoma correspondente a regiões repetitivas se configurava como um grande desafio fechar esse genoma a partir de tecnologias de sequenciamento do tipo short-read.

Outro exemplo do poder da tecnologia ultra-long-reads é encontrado no primeiro sequenciamento completo de um cromossomo autossomo humano e posteriormente no sequenciamento do genoma humano completo (ou quase), ambos estudos realizados pelo consórcio Telomere-to-Telomere (T2T), e que são marcos na história da genômica, onde após 20 anos da publicação do rascunho do genoma humano regiões complexas do genoma foram solucionadas. Para atingir esse marco, os estudos trouxeram em sua metodologia o uso de ultra-long-reads e graças a isso foi possível resolver as regiões com alto teor repetitivo, gaps, identificar genes codificadores de proteína, estrutura de centrômero e determinação de haplótipos, avanços esses que não eram possíveis anteriormente por não serem regiões amplamente representadas e analisadas com as tecnologias de sequenciamento precedentes.

Além desses estudos, que já possuem matéria no TeD, temos o uso de ultra-long-reads auxiliando na solução da sequência de cromossomos sexuais em répteis australianos (Pogona vitticeps e Tiliqua rugosa), que podem conter regiões altamente repetitivas e homólogas. Curiosamente, o sexo de muitos répteis é determinado tanto pelo genótipo como por condições ambientais, em particular pela temperatura. Um exemplo dessa determinação por fatores ambientais se dá quando temos um genótipo ZZ para indivíduos machos e ZW para fêmeas, no entanto, a presença de temperaturas mais elevadas no momento da incubação dos ovos, pode levar os indivíduos ZZ a serem fêmeas.

De acordo com os pesquisadores envolvidos neste estudo, mais de um terço das reads obtidas usando a tecnologia ultra-long excedeu 100 kb, com um número significativo superior a 500 kb. Além disso, os N50s* lidos dobraram de cerca de 35 kb para mais de 70 kb quando comparados a trabalhos anteriores.

Lendo esses avanços nos perguntamos: ultra-long-reads vão transformar a genômica? Com certeza já estão transformando e abriram caminhos na genômica. Agora, para assumir o desafio de obter genomas e transcriptomas precisos e completos - incluindo modificações de base - exigirá esforços contínuos no desenvolvimento de algoritmos eficazes para a análise dos dados gerados e ferramentas de benchmarking.

Glossário

Shotgun: Na técnica Shotgun, o DNA é dividido aleatoriamente em numerosos pequenos segmentos, que por sua vez são sequenciados utilizando o método de terminação de cadeia para obter as reads. As múltiplas reads sobrepostas são obtidas através da realização de vários ciclos desta fragmentação e sequenciamento.

N50s: são estatísticas, usadas na biologia computacional, relacionadas ao tamanho do contig. O N50 é semelhante a uma média ou mediana de comprimentos, mas tem maior peso dado aos contigs mais longos. É amplamente utilizado na montagem de genomas.

*Você pode gostar de ler:**

  • Novidade Evolutiva
    Após 20 anos a sequência do genoma humano está completa, ou quase: os pesquisadores finalizaram a primeira sequência de 3.055 bilhões de pares de bases (bp) verdadeiramente completa de um genoma humano, representando assim a maior melhoria para o genoma referência humano desde o seu lançamento inicial em 2001. O genoma produzido - T2T-CHM13 - inclui conjuntos sem a presença de gaps para todos os 22 cromossomos autossomo e o cromossomo X, dessa forma, o sequenciamento corrige vários erros numéricos e agrega cerca de 200 milhões de pb de novas sequências. Estão presentes 2.226 cópias de genes parálogos, onde 115 estão preditos de serem genes codificadores de proteínas.

  • Novidade Evolutiva
    Primeiro sequenciamento completo de um cromossomo autossomo humano: “Mais uma vez, temos que nos lembrar que o sequenciamento completo deste e da maioria dos outros cromossomos humanos ou de outras espécies não puderam ser realizados até recentemente devido às tecnologias de sequenciamento utilizadas, pois os métodos existentes apresentavam uma certa dificuldade em sequenciar e montar grandes áreas genômicas com alto teor repetitivo. Assim como no caso do genoma do Australian lungfish, montar esses grandes quebra-cabeças com alto teor de regiões repetitivas de forma precisa a partir de short-reads de DNA é um processo extremamente difícil. Por isso, para a montagem do cromossomo 8 foram utilizadas tecnologias sequenciamento long-read e ultra-long-read.”

  • RNA Mensageiro
    Peixe pulmonado tem o maior genoma animal já sequenciado e ajuda a entender a evolução dos tetrápodes: “Para auxiliar no desafio que foi a montagem deste grandioso genoma, Meyer e seus colaboradores utilizaram a tecnologia Nanopore long-read e ultra-long-read juntamente com um algoritmo de montagem - MARVEL assembler… O vasto tamanho deste genoma é atribuível principalmente a presença de grandes regiões intergênicas e introns com alto teor de repetição. De acordo com o grupo, cerca de 90% do genoma do Australian lungfish corresponde a regiões repetitivas, cujos componentes assemelham-se aos de organismos tetrápodes. ”

Referências

Matéria Genetic Engineering & Biotechnology News:

Artigo Nature:

Artigo Genome Biology: