Анализ разнообразия и поиск новых функционально значимых семейств гистоновых белков в животных, растениях, грибах, археях и вирусахНИР

Analysis of diversity and search for new functionally significant families of histone proteins in animals, plants, fungi, archaea and viruses

Источник финансирования НИР

грант Президента РФ

Этапы НИР

# Сроки Название
1 6 мая 2022 г.-31 декабря 2022 г. Анализ разнообразия и поиск новых функционально значимых семейств гистоновых белков в животных, растениях, грибах, археях и вирусах
Результаты этапа: Для проведения комплексного анализа и систематизации разнообразия последовательностей гистоновых белков в живых организмах были идентифицированы новые функционально значимые семейства и подсемейства гистоновых белков на основании результатов биоинформатического анализа и изучения литературы. Для реализации поставленной цели были выбраны последовательности из базы данных HistoneDB (https://histonedb.bioeng.ru/), которая содержит более 186000 аминокислотных последовательностей гистоновых белков с описанием: гистоновый тип/вариант, вид живого организма и другие характеристики. Для каждого типа гистонового белка были построены выравнивания последовательностей, а также филогенетическое дерево функционально значимых семейств с использованием ClustalW2 и алгоритма UPGMA в качестве метода кластеризации. Также была построена матрица попарной идентичности последовательностей внутри каждого подсемейства. В результате филогенетического анализа были выявлены отличия аминокислотных последовательностей, позволяющие выделить новые семейства и подсемейства гистоновых вариантов. Например, последовательности гистоновых белков H2A класса хорошо делятся на два подсемейства, что видно на построенном филогенетическом дереве. В первое подсемейство выделились следующие гистоновые варианты: канонический H2A, H2A.X, H2A.Z, macroH2A, H2A.W, а также недавно обнаруженный H2A.R. Во второе подсемейство попали гистоновые варианты, известные как (short) H2A. Матрица попарной идентичности последовательностей H2A подтверждает этот факт, а также позволяет увидеть наличие высокой консервативности в первом подсемействе и очень низкой консервативности - во втором. В нашем анализе, как и ожидалось, самым консервативным гистоновым вариантом является канонический H2A. В то же время самую низкую консервативность продемонстрировал гистоновый вариант H2A.P из группы short H2A. Для выделения ключевых отличий аминокислотных последовательностей гистонов были построены филогенетические деревья с использованием алгоритмов PhyML (http://www.atgc-montpellier.fr/phyml/), использующего методы максимального правдоподобия. Для выбора эволюционной модели использовался алгоритм SMS (Smart Model Selection), который также основан на критериях максимального правдоподобия. Для оптимизации результатов были выбраны 5 случайных стартовых деревьев. Анализ результатов демонстрирует наличие отличительных особенностей внутри подсемейств. Например, мы можем отметить, что последовательности гистоновых белков H2A, относящиеся к одной таксономической группе, связаны между собой более тесно, нежели из разных таксономических групп. Анализ построенных выравниваний позволил идентифицировать сайты специфичности для различных функционально значимых семейств. На примере выравнивания гистонов из группы short H2A можно отметить, что все представители данного семейства имеют укороченный С-концевой участок из домена “docking domain”, который поддерживает нативные структурные свойства нуклеосомы и характерен для всех гистонов H2A. Важно отметить, что у недавно обнаруженного H2A.Q, принадлежащего семейству short H2A, также отсутствует значительный участок из “docking domain”. Ключевую роль в стабилизации межнуклеосомных взаимодействиях занимает “кислотный лоскут”, который также наблюдается у всех гистоновых белков H2A, кроме short H2A. Для представителей данного семейства обнаружено отсутствие многих кислотных остатков в сайтах “кислотного лосткута”. К важным отличиям short H2A относится и богатый аргинином N-концевой хвост. Результаты данной работы опубликованы на конференции OpenBio-2022. Анализ аминокислотных последовательностей гистоновых белков H2A/H2A.Z и выявленные отличия были использованы в статье (Kniazeva A. S., Armeev G. A., Shaytan A. K. H2a-h2b histone dimer plasticity and its functional implications // Cells. — 2022. — Vol. 11, no. 18. — P. 2837) для изучения различий в динамике димеров H2A/H2A H2A.Z/H2B. На основе анализа разнообразия последовательностей гистоновых белков в живых организмах и выявленных филогенетических различий разработана модель классификации на функционально значимые семейства.
2 1 января 2023 г.-31 декабря 2023 г. Выделение семейств и подсемейств гистоновых вариантов и оценка влияния вариаций аминокислотной последовательности семейств/подсемейств гистонов на межмолекулярные взаимодействия в хроматине.
Результаты этапа: В ходе второго этапа исследования для проведения комплексного анализа разнообразия последовательностей гистоновых белков в живых организмах методами биоинформатики и машинного обучения были выявлены новые ранее неизвестные подсемейства гистоновых вариантов, охарактеризованы функционально значимые вариации и структурные особенности различных гистоновых вариантов, а также произведена оценка их влияния на межмолекулярные взаимодействия в хроматине. Для достижения поставленных целей использовались те же аминокислотные последовательности, что и в ходе первого этапа, которые были получены из базы данных HistoneDB (https://histonedb.bioeng.ru/), содержащей около 187000 последовательностей гистонов. Последовательности были сопоставлены с типом/семейством гистона в соответствии с новой системой классификации на функционально значимые семейства, разработанной в ходе предыдущего этапа. Для проведения анализа с помощью алгоритмов машинного обучения были построены и проанализированы множественные выравнивания аминокислотных последовательностей различных типов гистоновых белков. На основе выравниваний были получены наборы данных (выборки) для каждого типа гистона, которые описывались следующими признаками: длина последовательности; номер позиции в выравнивании, определяющей начало гистонового фолда (histone fold domain, HFD); номер позиции в выравнивании, определяющей конец гистонового фолда; длина гистонового фолда; выровненная последовательность. В связи с тем, что последовательность является текстовой информацией, она была преобразована к ряду числовых признаков, которые описывают каждую позицию в выравнивании числом, кодирующим некоторую аминокислоту или ее делецию. На полученных выборках были обучены логистические модели классификации с использованием решающего дерева (Decision tree) и случайного леса (Random forest), а также произведена оценка их качества с помощью эмпирической процедуры кросс-валидации. Для дальнейшего исследования была выбрана модель случайного леса с количеством решающих деревьев равным 20, которая позволяет наилучшим образом классифицировать гистоновые белки на различные семейства (средняя оценка моделей для разных типов гистонов составила более 72%). Для оценки информативности признаков были рассчитаны показатели их важности с помощью метода на основе примесей. В результате, для каждого типа гистона были выбраны пять наиболее значимых признаков для модели классификации. Например, для гистонового типа H2B наибольший вклад в классификацию внесла аминокислотная вариация, соответствующая позиции выравнивания T293 и расположенная в L1-петле. Чуть менее значимыми вариациями являются I334, 27, 26 и A30, первая из которых расположена в 2-спирали, а три других в N-концевом хвосте. Отобранные вариации были также использованы для расчетов стабильности нуклеосомы. С помощью программы FoldX в модельную структуру PDB - 3AZK были внесены замены, которые соответствуют отобранным вариациям в аминокислотных последовательностях гистоновых вариантов. В результате расчета энергий был получен и проанализирован параметр DDG (Delta Delta G), который представляет собой метрическую оценку точечного влияния вариаций на стабильность нуклеосомы. Кроме того, в результате биоинформатического анализа группы гистоновых белков short H2A были идентифицированы новые ранее не изученные подсемейства. Проведенная иерархическая кластеризация методом UPGMA гистонов группы short H2A и анализ оценки попарной идентичности их аминокислотных последовательностей демонстрируют наличие кластеров, медианное значение идентичности которых составило 43-59%, в то время как для всех последовательностей исследуемой группы медианное значение идентичности менее 36%. Интересно отметить, что филогенетические деревья, построенные на основе алгоритмов PhyML (http://www.atgc-montpellier.fr/phyml/) в ходе первого этапа, также позволили отметить, что внутри каждого из четырех вариантов short H2A (H2A.B, H2A.P, H2A.Q, H2A.L) можно выделить отдельные клады. В связи с этим, иерархическая структура кластеров, основанная на матрице попарного сходства между последовательностями, была сопоставлена со структурой филогенетического поддерева, соответствующего группе гистонов short H2A. Результаты демонстрируют, что каждый кластер представляет собой одну или несколько клад филогенетического поддерева, что позволяет сделать вывод о том, что выявленные кластеры могут иметь функционально значимые особенности. Кроме того, для того, чтобы охарактеризовать потенциально важные функциональные особенности данных кластеров, были построены множественные выравнивания их аминокислотных последовательностей. Важно отметить, что некоторые вариации расположены в сайтах связывания с ДНК и в регионе “кислотного лоскута”, которые играют важную роль в стабильности хроматина. Данное наблюдение позволяет сделать вывод о том, что выявленные подсемейства группы short H2A могут влиять на физико-химические свойства нуклеосомы и участвовать в разных функциональных процессах. Результаты данной работы были представлены на VII Съезде биофизиков (17 – 23 апреля 2023). Для того, чтобы оценить влияние вариаций на динамику хроматина, была проведена структурная аннотация гистонов на основе анализа интерактивных профилей контактов ДНК с различными гистонами вариантами, полученные из базы данных NucleosomeDB (https://nucldb.intbio.org/). Далее, были построены и проанализированы выравнивания с помощью программы MUSCLE. Результаты продемонстрировали, что специфичные изменения в аминокислотных последовательностях могут влиять как на внутринуклеосомные взаимодействия, так и на связывание с другими белками. Например, белок LANA-1, ассоциированный с саркомой Капоши (KSHV), взаимодействует с “кислотным лоскутом” нуклеосомы, что может приводить к изменениям в динамике хроматина. Биоинформатический анализ множественных выравниваний показал, что некоторые подсемейства гистонов (такие как группа short H2A) потенциально не могут связываться с данным пептидом, в связи с чем их последовательности характеризуются вариациями в основных контактных сайтах, которые участвуют в связывании с пептидом, в частности, в области “кислотного лоскута”. Интересно отметить, что изменения наблюдаются не только на уровне разных вариантов, но и видов живых организмов. Анализ множественных выравниваний последовательностей гистоновых вариантов растений (Viridiplantae) демонстрирует наличие замен в “кислотном лоскуте” варианта gH2A. Кроме того, вариации в сайтах связывания с пептидом LANA наблюдаются у некоторых одноклеточных эукариотических паразитов, в частности у G. lamblia. Результаты данной работы были опубликованы в статье (Oleinikov PD, Fedulova AS, Armeev GA, Motorin NA, Singh-Palchevskaia L, Sivkina AL, et al. Interactions of Nucleosomes with Acidic Patch-Binding Peptides: A Combined Structural Bioinformatics, Molecular Modeling, Fluorescence Polarization, and Single-Molecule FRET Study. International Journal of Molecular Sciences. 2023 Jan;24(20):15194.).

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".