ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Проект направлен на проверку и детализацию гипотезы: высокая (относительно массы тела) продолжительность жизни (ПЖ) и в целом «геронтологический успех» у некоторых видов млекопитающих сопровождается потерей определённых генов и высококонсервативных элементов (ВКЭ), сохранившихся у короткоживущих представителей того же отряда (надотряда). Потеря понимается как комбинация значительного изменения нуклеотидного состава гена и экзон-интронной структуры, значительного изменения синтении и экспрессии гена в тканях. Для поиска таких генов будет разработана универсальная («основная») программа на суперкомпьютерной платформе, которая анализирует любые два данных множества видов и определяет гены, которые в одном множестве сохранились, а в другом потерялись; которая включает алгоритм, определяющий соответствие паралогов в разных видах. Сами множества компьютерно формируются отдельной интерактивной программой, которая применима к любому набору признаков геронтологического успеха. Эффективность основной программы будет строго доказана: оценкой времени машинной работы и широкомасштабным статистически обоснованным тестированием. Основная программа анализирует типично большие данные «пост-геномной эры». С её помощью будут предсказаны гены, паралоги, псевдогены и ВКЭ, сохранившиеся у видов с низкой ПЖ и потерянные у видов с высокой ПЖ. Виды с низкой ПЖ обычно принадлежат далёким таксономическим группам, как и виды с высокой ПЖ. Будут предсказаны гены и для других признаков геронтологического успеха; выявлена роль потери только части паралогов; выполнен биоинформатический анализ предсказанных генов. Программа опирается на опубликованную нами математическую теорию оптимальной перестройки графов и на целочисленное линейное программирование. Мы имеем задел в области создания таких программ, как и в обработке Больших данных на суперкомпьютере.
The project is aimed at testing and detailing the hypothesis: a high (relative to body weight) life span (LS) and, in general, "gerontological success" in some mammalian species is accompanied by the loss of certain genes and highly conserved elements (HCE) preserved in the short-lived representatives of the same order (superorder). Loss is understood as a combination of a significant change in the nucleotide composition of the gene and the exon-intron structure, a significant change in synteny, and gene expression in tissues. To search for such lost (and similarly acquired) genes, a universal ("basic") program will be developed for a supercomputer platform that analyzes any two of these sets of species and identifies genes that have been preserved in one set and lost in the other. It includes an algorithm that determines the correspondence of paralogs in different types. The mentioned sets are computer generated by an interactive program that is applicable to any set of signs of gerontological success. The effectiveness of the main program will be rigorously proved: the evaluation of the time of machine work and large-scale statistically sound testing. The main program analyzes the typically big data of the "post-genomic era". With its help, genes, paralogs, pseudogenes and HCE, preserved in species with low LS and lost in species with high LS, will be predicted; species with low LS usually belong to distant taxonomic groups and likewise species with high LS. With its help, genes will be predicted for other signs of gerontological success; the role of loss of only a part of paralogs in species with high LS is revealed; a bioinformatic analysis of the predicted genes will be performed. The program is based on the mathematical theory of the optimal transformation of graphs developed by us and integer linear programming. We have a background in the creation of such programs and in the supercomputer computation with the Big Data.
В первый год проекта 1) Разработать интерактивную программу для образования подлежащих сравнению пар множеств видов (в каждой паре одно множество состоит из верхних видов, а другое из нижних, см. пункт 4.3) по любому заданному набору признаков геронтологического успеха. Получить такие множества для млекопитающих из надотряда Euarchontoglires и различных признаков геронтологического успеха. В частности, для признака продолжительности жизни (ПЖ). В эти множества, в частности, войдут: голый землекоп Heterocephalus glaber против дамарского пескороя Fukomys damarensis, мышевидных грызунов, включая мышь Mus musculus, крысы Rattus norvegicus и хомячка Mesocricetus auratus, европейского кролика Oryctolagus cuniculus; человек против человекообразных обезьян, включая шимпанзе Pan troglodytes и бонобо Pan paniscus; капуцин Cebus capucinus imitator против других обезьян Нового Света (Platyrrhini), включая игрунку Callithrix jacchus и западноамазонскую мирикину Aotus nancymaae. 2) Разработать основную программы на суперкомпьютерной платформе для поиска генов, пропавших (или приобретённых) для полученных в подпункте (1) пар множеств видов. Эффективность алгоритма математически доказать: время его работы и используемая им машинная память будут меньше, чем многочлен второй степени от размера исходных данных, а эффективность программы проверить широкомасштабным и статистически обоснованным тестированием. 3) Для каждой пары верхних и нижних множеств определить гены и паралоги, сохранившиеся в одном и потерянные в другом множествах. В частности, сохранившиеся у видов с низкой ПЖ и потерянные у видов с высокой ПЖ. Провести анализ потерянных и сохранившихся генов в далёких таксономических группах: грызунов, зайцеобразных и приматов из надотряда Euarchontoglires. 4) Программно реализовать алгоритм разделения паралогов на основе анализа хромосомных структур. Эффективность алгоритма строго доказать: время его работы и используемая им машинная память будут меньше, чем многочлен второй степени от размера исходных данных. Эффективность программы проверить широкомасштабным и статистически обоснованным тестированием. 5) Для булева и целочисленного линейного программирования определить достаточные условия, при которых возможно решение указанной в пункте 2 задачи поиска за линейное или квадратичное время; обосновать сведение за такое же время системы возникающих в этой связи уравнений к одному уравнению. 6) С помощью программы из подпункта (4) разделить паралоги у генов, предсказанных в подпункте (3). На биоинформационном уровне описать биохимическую роль паралогов, которые частью потерялись и частью сохранились у видов с высокой ПЖ и у других верхних видов. 7) Выполнить биоинформатический анализ предсказанных генов: для них получить множественные выравнивания, сопоставить экзон-интронные структуры и данные об экспрессии генов. Во второй год проекта 1) Определить множества видов из надотрядов Laurasiatheria и Afrotheria, имеющих высокую и низкую ПЖ. И аналогично для пар множеств видов, составленных по другим признакам геронтологического успеха. Среди сопоставляемых видов будет присутствовать малая бурая ночница Myotis lucifugus, обладающая относительно высокой ПЖ при малой массе тела. 2) Разработать алгоритм и программу для поиска ВКЭ на суперкомпьютере. Программа будет дополнительно сортировать ВКЭ по их расположению относительно кодирующих областей ДНК. Программа будет находить ВКЭ, состоящие из коротких участков ДНК (менее 30 п.н.), что позволит включить в рассмотрение ВКЭ животных, у которых известно много ультраконсервативных элементов (УКЭ) с большими отклонениями от консенсуса. 3) Для каждой из полученных пар множеств определить гены и паралоги, сохранившиеся у нижних видов и потерянные у верхних видов в далёких таксономических группах из надотрядов Laurasiatheria и Afrotheria. 4) Разделить паралоги у предсказанных в подпункте (3) генов. На биоинформационном уровне описать биохимическую роль паралогов, которые частью потерялись и частью сохранились у видов с высокой ПЖ и у других верхних видов. 5) Выполнить биоинформатический анализ предсказанных генов: получить их множественные выравнивания, сопоставить экзон-интронные структуры и данные об их экспрессии. 6) Разработанным алгоритмом выполнить поиск ВКЭ у млекопитающих и определить те из них, которые связаны с геронтологическим успехом вида, т.е. потеряны или приобретены именно этими видами млекопитающих. В третий год проекта 1) Расширить поиск потерянных и приобретённых генов на виды млекопитающих с доступными геномами. 2) Для этих генов и ВКЭ получить статистически обоснованную зависимость уровня их экспрессии от нахождения в определённой ткани. 3) Чтобы изучить механизмы влияния генов на ПЖ и другие геронтологические показатели, в белках, кодируемых отобранными генами, выполнить поиск доменов и подписей. Для этого применить биоинформатические сервисы Pfam (http://pfam.xfam.org/) и Prosite (https://prosite.expasy.org/). На этой основе предсказать локализации этих белков в клетке, выявить соответствующие потенциальные коферменты, рецепторы, транскрипционные факторы. 4) Определить эволюционный сценарий для всех рассмотренных видов млекопитающих подпункта (1). 5) На биоинформационном уровне описать биохимические роли отобранных генов, значимость их экзон-интронных структур. Особое внимание будет уделено предсказанным генам цитохромов и ферментам синтеза коферментов, участвующих в окислительно-восстановительных реакциях. 6) Сопоставить полученные данные о геронтологическом успехе в рассмотренных надотрядах между собой. Результаты всей работы, включая компьютерные программы и руководства пользователя к ним, объединить в базе данных, доступной на сайте по адресу http://lab6.iitp.ru.
Проведён счёт подобными алгоритмами и программами для двух множеств видов, составленных соответственно из коротко- и долго- (с учётом массы тела) живущих видов. Первое множество состояло из 26 видов, включая грызунов, кролика, приматов с малой продолжительностью жизни (ПЖ), второе – из 9 видов и 10 геномов, включая самца и самку голого землекопа, дамарского пескороя и приматов с высокой видовой ПЖ. В результате счёта на суперкомпьютере Межведомственного суперкомпьютерного центра РАН получен короткий список генов мыши (Mus musculus), который включает несколько групп потерянных генов; отметим одну из полученных групп. Это – Wap (наибольшая экспрессия в молочной железе), Tlr13 (экспрессируется преимущественно в селезенке, особенно в дендритных клетках и макрофагах; Shi et al. 2011), 1700013G24Rik (в семенниках), Sult3a1 (в печени), Olfr356 (в нижнечелюстной дуге эмбриона), Smpd5 (в семенниках), Gm595 (в семенниках), Sult3a2 (в печени). Часть этих генов физиологически связана с репродуктивной функцией организма; их потеря может ослабить превалирование размножения над другими процессами жизнеобеспечения (переход от R-стратегии к K-стратегии), что по (Williams 1957) сопряжено с увеличением продолжительности жизни. Предложенные нами эффективные алгоритмы преобразования и реконструкции хромосомных структур, разделения паралогов и соответствующие программы уже тестированы на искусственных данных и на хромосомных структурах митохондрий инфузорий и споровиков из класса Aconoidasida, на пластидах родофитной ветви, на бактериях рода Rhizobium. Текущая предварительная версия основной программы lossgainRSL вместе с описанием и контрольным примером доступны по адресу http://lab6.iitp.ru/en/lossgainrsl/. Текущая 64-битная реализация алгоритма обеспечивает в среде MPI параллельные вычисления с балансированием нагрузки.
грант РФФИ |
# | Сроки | Название |
1 | 9 октября 2018 г.-9 октября 2019 г. | Этап 1 |
Результаты этапа: | ||
2 | 9 октября 2019 г.-9 октября 2020 г. | Этап 2 |
Результаты этапа: | ||
3 | 9 октября 2020 г.-9 октября 2021 г. | Этап 3 |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".