ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
В геноме эукариот, в частности человека, представлено большое разнообразие повторяющихся элементов, которые могут составлять более половины общей длины всего генома [1]. Присутствие повторов усложняет анализ данных высокопроизводительного секвенирования (NGS), поскольку последовательности прочтений из этих областей могут быть короче самого повтора и, следовательно, могут быть картированы на несколько мест в геноме. Большинство существующих алгоритмов для анализа NGS-данных не способны эффективно обрабатывать такие множественные картировки, что влечет за собой потерю существенной части информации и затрудняет биологическую интерпретацию результатов. Существующие референсные сборки геномов эукариот практически не включают локусы, содержащие такие типы повторов, как, например, центромерные и теломерные повторы. Проблема определения последовательности повторяющихся элементов была решена с разработкой протоколов секвенирования третьего поколения. Например, геномная сборка человека T2T (telomere to telomere) была получена с использованием этих протоколов и включает в себя полный набор тандемных и центромерных повторов [2]. Тем не менее, многие распространенные в практике протоколы секвенирования дают короткие чтения. Например, протокол GRID-seq [3] для анализа полногеномного интерактома между ДНК и РНК генерирует прочтения длиной ~85 bp. Стандартные биоинформатические программные конвейеры, используемые для анализа РНК-ДНК интерактомов подразумевают использование только уникально-картированных прочтений, что приводит к потере трех типов контактов: уникальная ДНК-множественная РНК, множественная ДНК-уникальная РНК, множественная ДНК-множественная РНК. В различных экспериментах потеря данных, связанная с игнорированием множественно картированных чтений, может составлять более половины всех контактов. Несмотря на неоднозначность происхождения множественно картированных прочтений, было принято решение использовать их в анализе данных ДНК-РНК контактов для выявления функциональной значимости повторяющихся элементов. Был проведен анализ данных, полученных с использованием протокола для установления полногеномного РНК-ДНК интерактома GRID-seq. В качестве референсного генома была использована наиболее полная сборка генома человека (Т2Т). В ходе анализа разработан протокол, позволяющий использовать информацию о множественном картировании РНК и ДНК-частей контактов. Предложенный подход позволил дополнить информацию о хроматин-ассоциированных РНК, закодированных в геноме в нескольких копиях. Показано, что с геномными локусами, несущими повторяющиеся элементы разных классов, взаимодействуют хроматин-ассоциированные РНК, а также удалось выявить тенденции взаимодействия уникальных и множественно картируемых прочтений, приходящихся на различные гены и типы повторов. [1] Liehr T. Repetitive Elements in Humans. Int J Mol Sci. 2021 Feb 19;22(4):2072. doi: 10.3390/ijms22042072. PMID: 33669810; PMCID: PMC7922087. [2] Nurk S. et al. The complete sequence of a human genome // Science. 2022. Vol. 376, № 6588. P. 44–53. [3] Li X. et al. GRID-seq reveals the global RNA–chromatin interactome // Nat. Biotechnol. 2017. Vol. 35, № 10. P. 940–950.