Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.НИР

Structural dynamics of nucleosomes and their interactions: identifying approaches for the diagnosis and treatment of cancer.

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 8 августа 2018 г.-30 июня 2019 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.
Результаты этапа: == Пакет задач 1. Моделирование внутренней пластичности октамера гистонов в нуклеосоме == -- Задача 1.1. Построить модели конформационных перестроек димеров H3-H4 в нуклеосомах необходимых для взаимодействий с ремоделерами SNF2h и SWI/SNF (Годы 1-3) -- 1.1.1. Была выполнена подготовка полноатомных моделей димеров и тетрамеров гистонов H3-H4 (см. Рис. 1.1.1). Для этого нами была создана система скриптов по подготовке систем к молекулярной динамике на основе пакета GROMACS (доступна публично по адресу https://github.com/intbio/gmx_template ), созданы на основе послединих литературных данных файлы силовых полей ( доступны публично по адресу https://github.com/intbio/gromacs_ff ). Модели систем также доступны публично по адресу https://github.com/intbio/nucl_gmx . 1.1.2. Были разработаны обобщенные переменные на основе известных экспериментальных данных, отражающих конформационные перестройки димера в эксперименте. Для этого был проанализирован ряд статей (включая [Sinha et al., 2017; Bilokapic et al., 2018b, 2018a; Kitevski-LeBlanc et al., 2018; Deindl et al., 2013]), а также изучена равновесная молекулярная динамика гистонов. В результате для анализа использовалось три типа переменных: (1) количество контактов между отдельными аминокислотами и их белковым окружением (отражает изменение подвижности боковых цепей аминокислот, наблюдаемое в ЯМР экспериментах), (2) углы между альфа-спиралями гистонов (отражает наблюдаемые в электронной микроскопии деформации гистонового ядра), (3) деформация ДНК (отражает возможную деформацию ДНК хеликазными доменами ремоделеров). Переменные проиллюстрированы на рисунке 1.1.2, в таблице 1.1.2 приведены примеры изменения обобщенных переменных в экспериментальных работах. 1.1.3. Был выполнен подбор параметров методов метадинамики, ускоренной динамики, адиабатически смещенной динамики, динамики с обменом репликами для моделирования пластичности димера гистонов. Для этого проводились различные тестовые расчеты, также был создан протокол для оптимизации параметров метадинамики и адиабатической динамики, на основе которого был сделан обучающий модуль для студентов (доступен по ссылке https://github.com/intbio/MolModEdu/tree/master/PLUMED ) . Подбор параметров для динамики с обменом репликами осуществлялся с использованием сервера (http://folding.bmc.uu.se/remd/). Например, для системы димер Н3-Н4 в растворе были рассчитаны вероятности перехода между структурами и, исходя из этих данных, было выбрано 56 реплик для параллельного моделирования с обменом репликами в интервале температур 300-350 К. 1.1.4. Были проведены тестовые и основные расчеты различными методами. Для этого проводились расчеты в программе GROMACS 2018 с использованием суперкомпьютера Ломоносов-2. Для подготовки систем к расчетам и для обработки траекторий были закуплены комплектующие и собран отдельный сервер на основе ОС Linux, на котором были установлены необходимые программы для обработки и установлена система многопользовательских интерактивных сред программирования Jupyter Hub. Управление расчетами было автоматизировано на основе написанных скриптов в системе Jupyter Notebook. Таким образом была реализована возможность проведения расчетов полноатомной молекулярной динамики на временах до 10 микросекунд. 1.1.5. Были разработаны алгоритмов оценки конформационных и динамических перестроек димеров. Для этого был создан алгоритм, реализованный в Jupyter Notebook на языке python 3.7, для комплексного анализа полученных траекторий. Для контроля качества расчетов производится расчет среднеквадратичных отклонений атомов вдоль траектории, а также изменение физических параметров в ходе моделирования (температуры системы, давления, потенциальной и кинетической энергии системы, размер расчетной ячейки, энтропия и некоторые другие). Реализован анализ общих геометрических параметров - расстояние между центрами масс и расстояние между скрещивающимися в пространстве центральными спиралями гистонов, радиус инерции (радиус гирации). Для анализа подвижности гистонов были реализованы методы анализа средних по траектории флуктуаций атомов вдоль траектории, флуктуации С-альфа атомов, усредненные по траектории и в развернутом по времени виде, флуктуации боковых цепей аминокислотных остатков вдоль траектории. Для анализа конформационной подвижности нуклеотидов (для систем с ДНК) был создан код для расчета флуктуаций атомов фосфора, усредненных по траектории и в развернутом по времени виде. Также в общий алгоритм включен метод кластерного анализа для нахождения наиболее устойчивых конформаций. Для поиска характерных мод движения реализован вычислительный алгоритм, включающий метод главных компонент, основанный на решении задачи на собственные значения и вектора матрицы ковариаций атомов, а также анализ проекций траектории на полученные собственные вектора. Также был создан алгоритм аппроксимирующий альфа-спирали цилиндрами с последующим расчетом углов между осями цилиндров. Иллюстрация типичных результатов анализа приведена на Рисунке 1.1.3. 1.1.6. Было изучено влияние дисульфидных сшивок (типа H3F104C-H4V43C) на динамику димеров и тетрамеров гистонов. Для этого были созданы молекулярно-динамические системы димеров и тетрамеров с заменами некоторых аминокислот на цистеины и введением дисульфидных связей согласно работе [Sinha et al., 2017]. Аминокислоты лейцин-82 и фенилаланин-104 в гистоне H3, а также валин-43 и валин-81 в H4 были заменены на цистеины. При использовании определенных команд программы GROMACS были созданы дисульфидные мостики между полученными цистеинами. Первая сшивка (sCx1) находится между положениями H3C104 и H4C43, вторая сшивка (sCx2) находится между H3C82 (Рисунок 1.1.4, интерактивная модель доступна по ссылке https://intbio.org/grant_2018_RNFmoluch/h3_h4_both_crosslinks.html ). Были созданы отдельные системы с каждой из этих сшивок, а также система с обеими сразу (dCx) с ДНК и без нее. Также были проведены расчеты систем димеров и тетрамеров с и без ДНК. Был проведен сравнительный анализ динамики различный систем, выявлено влияние сшивок на различные моды подвижности. == Пакет задач 2. Моделирование и анализ взаимодействий нуклеосом с пептидами. (Годы 1-3) == -- Задача 2.1. Провести структурный и энергетический анализ известных взаимодействий пептидов/ мотивов белков с кислотным лоскутом нуклеосомы (включая пептид LANA, белок CENP-C, антитело PL2-6). (Годы 1-2) -- 2.1.1. Был проведен анализ всех имеющихся структур нуклеосом с белками на предмет деталей их взаимодействия с кислотным лоскутом нуклеосомы. Для этого реализован автоматизированный алгоритм поиска структур, содержащих белки гистоны, в базе данных PDB c использованием программной библиотеки pypdb. Поиск осуществлялся путем сравнение последовательностей алгоритмом BLAST c гистонами из структуры нуклеосомы X. laevis (PDB код 1kx5). Найденные структуры классифицировались по присутствию коровых гистонов и наличию ДНК, негистоновых полипептидов и линкерного гистона H1. Идентификаторы структур гистонов, коров и нуклеосом с белками записывались в отдельный список (со списком можно ознакомиться по ссылке https://intbio.org/2018_nucl_pept/data/sorted.html ). Далее структуры анализировались с помощью автоматизированного пайплайна путем построения контактных карт, анализа различных типов взаимодействий (гидрофобные, гидрофильные контакты, солевые мостики, водородные связи). Использовался также метод гидрофобного потенциала, реализованный в программе PLATINUM, электростатические потенциал анализировался в программе APBS. На рисунке 2.1.1А приведена локализация одного из пептидов вблизи кислотного лоскута, а на рисунке 2.1.1Б приведено структурное выравнивания ряда пептидов, взаимодействующих с кислотным лоскутом нуклеосомы. На рисунке 2.1.2 представлена характерная карта контактов для пептида CENP-C с аминокислотными остатками кислотного лоскута. 2.1.2. Данные о взаимодействиях пептидов были обобщены в виде модели фармакофора. Для этого использовался сервис PHARMIT. Визуализация модели фармакофора для пептида LANA приведена на рисунке 2.1.3. 2.1.3. Были разработаны методы автоматизированного анализа взаимодействий нуклеосом с белками в структурах PDB. Для этого были написаны соответствующие скрипты на языке Python с использованием библиотеки MDAnalysis, а также программы VMD. 2.1.4. Было проведено изучение строения поверхности кислотного лоскута в плане его электростатических, гидрофобных свойств и способностей образовывать контакты с пептидами. Для этого строились карты электростатического потенциала, рассчитанные в программе APBS (см. Рисунок 2.1.1), карты гидрофобного потенциала рассчитанные с помощью программы PLATINUM (см. Рисунок 2.1.4) и карты контактов (см. Рисунок 2.1.2). 2.1.5. Были созданы молекулярно-динамические модели нуклеосом, взаимодействующих с пептидами в области кислотного лоскута, включая пептид LANA, пептид CENP-C (в этом случае будет использовать вариант центромерной нуклеосомы), фрагмент антитела PL2-6 (в этом случае использовалась модель построенная по гомологии), а также ацетилированным и неацетилированным хвостом гистона H4. Структуры для LANA и CENP-C были взяты из PDB. PL2-6 был построен по гомологии с CENP-C с помощью программы Modeller. Пространственное расположение хвоста гистона H4 было получено применением ротационных и трансляционных матриц из структуры pdbid 1KX5 при помощи библиотеки MDAnalysis. Для получения ацетилированного хвоста гистона H4 K16 был заменён на K16ac. Этот сайт был выбран как взаимодействующий с кислотным лоскутом и важный для ингибирования формирования нуклеосомных фибрилл. Ацетиллизин был создан и параметризован с помощью созданной нами программной библиотеки GIFTEd ( https://github.com/intbio/GIFTEd ) . 2.1.6. Проведены молекулярно-динамические расчеты и оценена стабильность и динамика взаимодействий пептидов с нуклеосомой. Расчеты проводились на суперкомпьютере Ломоносов-2, рассчитаны траектории длинной от 50 нс. Стабильность и динамика в первую очередь оценивалась по среднеквадратичным флуктуациям атомов с использованием разработанных протоколов (см. Рисунок 1.1.3.). Для детализированной оценки стабильности, строились зависимости контактных карт от времени моделирования. В случае пептида CENP-C показано, что пептид формирует с нуклеосомой долгоживущие контакты с кислотным лоскутом, а также поддерживает гидрофобное взаимодействие триптофана 126 (Рисунок 2.1.5 д). Изображения систем, для которых проводились молекулярно-динамические расчеты приведены на Рисунке 2.1.5 а)-г). 2.1.7. Проведена оценка энергии связывания пептидов с нуклеосомой с помощью эмпирических подходов программы. Для этого с помощью программы FoldX ( http://foldxsuite.crg.eu/) проведена оценка энергии связывания ряда пептидов. Предварительно структуры нуклеосом с пептидами были отрелаксированы с использованием пакета FoldX и оценены энергии их связывания. Далее каждый из аминокислотных остатков пептида, взаимодействующий с кислотным лоскутом нуклеосомы, был последовательно заменен на 20 канонических аминокислот. Для каждой мутации было рассчитано изменение энергии связывания с нуклеосомой (ΔΔG). Расчет изменения энергии взаимодействия при мутациях был проведен с использованием пакета FoldX. Пример получаемого графика приведен на Рисунке 2.1.6. В результате анализа данных были сформулированы рациональные предложения по оптимизации энергии связывания пептидов с кислотным лоскутом. =Пакет задач 3. Биоинформатический анализ интерактома нуклеосом, разработка базы данных по взаимодействиям нуклеосом. (Годы 1-3).= -- Задача 3.1. Анализ и классификация всех имеющихся в открытом доступе данных по взаимодействию нуклеосом с белками хроматина у человека (Годы 1-2). -- 3.1.1. Создан обновленный список всех известных генов гистонов человека (с разбивкой на гены и псевдогены) и соответствующих им белков, включая сплайс изоформы. Для этого проводился анализ данных из баз данных MS_HistoneDB [El Kennani et al., 2017], HGNC (Gene Family: Histones) и консультаций с группой консорциума HGNC, ведущей в настоящее время пересмотр номенклатуры генов гистонов человека. Была создана таблица, где для каждого гистонового гена имеется следующая информация: название по HGNC , NCBI gene ID, ENSG идентификатор по системе Ensembl, ENST идентификатор транскрипта, ENSP идентификатор белка, Uniprot ID, тип гистона, принадлежность к классу канонических гистонов, функциональность (белок-кодирующий или псевдоген), биотип гена по Ensembl, название белка по [Talbert et al., 2012] и краткое название белка для использования его в скриптах. Созданные таблицы генов и белков гистонов доступны по ссылкам ( https://intbio.org/grant_2018_RNFmoluch/histone_genes.html https://intbio.org/grant_2018_RNFmoluch/histone_proteins.html ) . Количество кодирующих генов гистонов человека идентифицированных на данный момент - 92 (включая H1), количество псевдогенов - 30. 3.1.2. Разработан автоматизированный программный код, который подгружает информацию о взаимодействиях гистонов и других белков из баз данных IntAct, BioGRID, STRING и др. Для баз данных IntAct [Hermjakob et al., 2004] , BioGRID [Stark et al., 2006], STRING [von Mering et al., 2003] разработаны программные коды, обрабатывающие загруженную информацию и позволяющие проводить анализ белков, с которыми взаимодействуют (физически или функционально) гистоны. Обработка загруженных данных заключается в следующем: фильтрация взаимодействий (оставляем только те, в которых участвуют гистоны), приведение идентификаторов к виду имени гена по HGNC, дополнение информации о типе и “каноничности” (относится ли он к классу канонических гистонов или вариантным гистонам). В качестве анализа данных проводилось построение интерактивных гистограмм о количестве взаимодействий для каждого гистона, которые сгруппированы по типу и каноничности, а также для каждого гистонового типа строятся гистограммы с количеством взаимодействующих с ними партнеров: общих для гистонового типа, уникальных для данного гистона и взаимодействующий с несколькими гистонами (пример интерактивной гистограммы для канонических гистонов H3 приведены по ссылке https://intbio.org/grant_2018_RNFmoluch/numb_of_int_h3_can.html ). Сводные данные по количеству взаимодействий загруженных из баз данных приведены в Таблице 3.1.1. Общее количество взаимодействий загруженных из баз данных составило 13887, после корректировки данного списка с учетом идентичности генов канонических гистонов общее количество парных взаимодействий составило 48054. На Рисунке 3.1.1. Приведена гистограмма всех взаимодействий для каждого гена гистона, отклассифицированная по типу и классу гистонов (она же доступна по ссылке https://intbio.org/grant_2018_RNFmoluch/number_of_interactors_from_all_db.html ) 3.1.3. Реализована прозрачная конвертация информации о взаимодействиях между различными форматами, включая идентификаторы генов и/или белков. Для этого использована система bioDBnet: db2db [Mudunuri et al., 2009]. 3.1.4. Составлена схема для рациональной функциональной иерархической классификации белков взаимодействующих с нуклеосомами на основе анализа литературы (напр. ремоделеры разных типов, белки взаимодействующие с пост-трансляционными модификациями гистонов, шапероны различных классов, пионерные транскрипционные факторы и т.д.). При составлении классификации и "референсного набора" взаимодействующих с гистонами белков были проанализированы следующие литературные источники: [Musselman et al., 2012; Xu et al., 2017] содержащие информацию о белках, считывающих пост-трансляционные модификации (ПТМ) гистонов; [Burgess and Zhang, 2013] - информация о гистоновых шаперонах; [Mani et al., 2017; Zhang et al., 2016] - ремоделлеры хроматина, [Khare et al., 2012] - белки, наносящие и стирающие ПТМ, [Han et al., 2018] - транскрипционные факторы, [Mayran and Drouin, 2018]- пионерные трансрипционные факторы, [Cubeñas-Potts and Corces, 2015] - архитектурные белки хроматина. Также использовались результаты функционального обогащения взаимодействующих с гистонами белков (Gene Ontology Consortium 2015). Высшие уровни иерархии составленной классификации представлены на Рисунке 3.1.2. 3.1.5. Оценено качество имеющейся в базах данных информации ( в том числе исходя из первичных данных литературы) и выработаны критерии отбора данных по уровню их качества. Для оценки качества имеющейся информации было проведено выявление в итоговом интерактоме негистоновых белков хроматина, относящихся к определенным функциональным категориям, взятым из литературных источников, описанных выше (см. Таблицу 3.1.2). В целом, процент присутствующих белков для основных классов белков хроматина находится в диапазоне 72-94 %. Низкую представленность транскрипционных факторов из базы данных TRUST (37%) и архитектурных белков (19%) можно объяснить пространственной и временной специфичностью взаимодействий. С другой стороны оценка качества имеющихся данных была проведена путем выявления интеракторов, точно не взаимодействующих с гистонами и не относящихся к ядру клетки. Такие категории (например, миофибриллы, филоподии, реснички, микросомы, подосомы, фокальные контакты, белки клеточной адгезии и т.д.) были выявлены с помощью классификации Gene Ontology. К таким категориям относится 324 белка (13,9 % от всех интеракторов), информация о большинстве из которых приходит из базы данных BioGrid. Важным наблюдением явилось также весьма небольшое пересечение информации о взаимодействиях между тремя базами данных (см. Рис. 3.1.3.). Разработанная нами корректировка данных, учитывающая идентичность многих генов канонических гистонов, несколько улучшает ситуацию - количество парных взаимодействий присутствующих в базах данных BioGrid, IntAct и STRING увеличивается до 609. 3.1.6. Проведен анализ полученного интерактома, в том числе используя различные онтологии (такие, как Gene Ontology), данные о биохимических/сигнальных путях взаимодействий и собственную разработанную иерархическую классификацию. Для этого сначала провели классификацию полученного интерактома с помощью системы Gene Ontology, затем проводилась достаточно кропотливая ручная реклассификация с учетом данных литературы и специализированных баз данных. В конечном итоге была получена классификация всех интеракторов на базе разработанной нами иерархической классификации белков, взаимодействующих с нуклеосомами. Результат классификации приведен в таблице 3.1.3. Наибольшее количество из классифицированных интеракторов относятся к классам транскрипционных факторов, белков, взаимодействующих с пост-трансляционными модификациями гистонов, и ремоделеров. 3.1.7. Были разработаны автоматизированные методы поиска информации о структурах взаимодействующих комплексов белков хроматина человека и нуклеосом из баз данных PDB и EMDB с учетом анализа комплексов, формируемых гомологичными белками из других организмов. Для этого был разработан пайплайн для поиска потенциально взаимодействующих с белками нуклеосом белков человека в базе данных PDB. Написанный код позволяет находить идентификаторы белковых цепей в базе данных UniProt с использованием ресурса SIFTS (https://www.ebi.ac.uk/pdbe/docs/sifts/index.html), имея в качестве исходной информации идентификаторы структур PDB, в которых помимо прочего имеются фрагменты нуклеосомных белков. Эти идентификаторы затем используются для получения FASTA последовательностей, соответствующих данным белкам. Далее проводится локальное выравнивание полученных FASTA последовательностей по базе человеческих генов RefSeq с использованием программы blastp (https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins), выбирается последовательность белка с наименьшим E-value. Далее делается запрос к базе данных NCBI Protein по Accession Number этих последовательностей с использованием утилиты Entrez (https://github.com/jordibc/entrez), который позволяет получить HGNC идентификатор гена потенциально взаимодействующего человеческого белка. В результате получена таблица с генами потенциально взаимодействующих белков нуклеосомы и других белков человека по базе данных PDB. Для базы данных EMDB сначала получали список PDB идентификаторов структур, которые использовались для фиттинга полученной в экспериментах электронной плотности. Далее вся проделанная работа аналогична описанной ранее. В результате получена таблица с генами потенциально взаимодействующих белков нуклеосомы и других белков человека по базе данных EMDB.
2 1 июля 2019 г.-30 июня 2020 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".