Описание:Спецкурс «Анализ многомерных данных» предназначен для студентов кафедры биоинженерии Биологического факультета МГУ (24 ак.часов). Он является продолжением и развитием общефакультетского курса «Математические методы в биологии», читаемого для студентов кафедры .Этот курс посвящен статистическим и графическим методам анализа многомерных данных. Усвоению материала, излагаемого в данном курсе, способствует большое число примеров из научных работ, посвященных задачам молекулярной биологии и биоинформатики. Конечная цель курса – освоение студентами теоретических подходов и практических методов анализа многомерных данных, применяемых в научных исследованиях. Овладение методами многомерного статистического анализа дает возможность разработать рациональную методику иссле¬дования, четко организовать и провести его, получить существенные тео¬ретические и практические результаты.
1. Многомерные случайные величины. Основы математической статистики.
Критерии согласия. Непараметрические критерии
2. Классификация методов анализа многомерных данных.
3. Регрессионный и корреляционный анализы Модель регрессионного анализа. Проблемы выбора модели регрессионного анализа и интерпретации параметров регрессии. Проверка выполнения предположений, лежащих в основе регрессионного анализа. Простая и множественная регрессия. Метод наименьших квадратов. Проверка гипотез о неизвестных параметрах регрессии. Проверка адекватности регрессионной модели. Множественный и частный коэффициенты корреляции. Пошаговый регрессионный анализ. Включение и исключение независимых переменных в модели регрессионного анализа. Нелинейный регрессионный анализ. Логистическая регрессия.
4. Дисперсионный анализ Типы моделей в зависимости от математической природы факторов. План эксперимента для задачи дисперсионного анализа. Статистические проблемы дисперсионного анализа. Однофакторный дисперсионный анализ: модель с постоянными уровнями фактора; модель со случайными уровнями фактора. Методы множественного сравнения. Двухфакторный дисперсионный анализ. Смешанные модели дисперсионного анализа: планы со случайными блоками без повторений и с повторениями; планы с группировкой. Непараметрические методы анализа связи между количественной и качественными переменными: критерии Крускала-Уоллиса и Брауна-Муда для однофакторного анализа; критерии Фридмана и Пейджа для двухфакторного анализа. Непараметрические методы множественного сравнения. Многомерный дисперсионный анализ, MANOVA.
5. Кластерный анализ
Агломеративно-иерархический кластерный анализ. Дендрограмма кластерного анализа. Кластеры. Проблема выбора расстояния (меры различия). Правила объединения в кластеры. Кластерный анализ наблюдений. Кластерный анализ переменных.
6 Дискриминантный анализ Дискриминантный анализ как одна из задач распознавания образов.. Байесовское правило. Дискриминантные функции. Линейный дискриминантный анализ. Расстояние Махаланобиса. Пути решения проблем, связанных с нарушением предпосылок дискриминантного анализа. Метод к-ближайших соседей. Пошаговый дискриминантный анализ.
7. Факторный анализ и метод главных компонент
Предположения, лежащие в основе факторного анализа и метода главных компонент. Геометрическая и алгебраическая интерпретация главных компонент. Факторный анализ. Модель факторного анализа. Факторные нагрузки. Оценка общности. Методы выделения факторов. Методы вращения. Поиск скрытых факторов, лежащих в основе наблюдаемых данных.
8. Практические занятия.
Применение различных методов анализа многомерных данных мы покажем и на таких примерах:
1. В работах [2, 3] был предложен и развит метод исследования ДНК, основанный на специфическом расщеплении ДНК под действием ультразвука. Ультразвук расщепляет ДНК в зависимости от ее нуклеотидной последовательности. Получены значения относительной частоты расщепления центральной связи во всех возможных моно-, ди- и тетрануклеотидах фрагментов ДНК с известными нуклеотидными последовательностями. Результаты множественного сравнения показали, что положения центров распределений относительных частот разрывов для динуклеотидов CG, CA и CT значимо отличаются от положения центров остальных динуклеотидов на уровне α=0,05. Это показывает, что разрывы в этих динуклеотидах происходят гораздо чаще, чем в других. Заметим, что центры распределений для CA и CT отличаются друг от друга незначимо.
2. Чтобы выяснить, влияет ли на относительную частоту расщепления не только тип динуклеотида (фактор A), но и какой вклад в общую изменчивость относительной частоты расщепления обусловлен последовательностью анализируемого участка рестриктного фрагмента ДНК (фактор B), будем использовать двухфакторный дисперсионный анализ. Уровни фактора A являются постоянными, а уровни фактора B естественно рассматривать как случайные. В этом случае для анализа результатов эксперимента используется смешанная двухфакторная модель. В качестве плана эксперимента рассмотрим двухфакторный план с группировкой (nested design) для смешанной модели. Такой план позволяет оценить и ошибки наблюдения, и вклад случайного фактора B(A) в общую изменчивость относительной частоты расщепления, и влияние постоянного фактора A на относительную частоту расщепления.
3. Рассматриваются 322 нуклеотидные последовательности промоторной области генов. Каждую последовательность мы описываем следующими физическими характеристиками с 50-ю признаками: T(i,j) – температура плавления j-ого динуклеотида в i-ом промоторе; Ultra(i,j) – значения относительной частоты ультразвукового расщепления; BA(i, j) – значения энергии перехода ДНК из B в A форму, i=1, 2, …, 322; j=1, 2, …, 50.
ЛИТЕРАТУРА
1. Мятлев В.Д., Панченко Л.А., Ризниченко Г.Ю., Терехин А.Т. Теория вероятностей и математическая статистика. Математические модели. 2-е изд., испр. и доп. М.: Издательство «Юрайт», 2017, 321 с.
2. Grokhovsky S.L., Il'icheva I.A., Nechipurenko D.Yu., Golovkin M.V., Panchenko L.A., Polozov R.V., Nechipurenko Yu.D. Sequence-specific ultrasonic cleavage of DNA. Biophys. J. 100, 117-125 (2011).
3. Grokhovsky S.L., Il'icheva I.A., Nechipurenko D.Yu., Golovkin M.V., Panchenko L.A., Polozov R.V., Nechipurenko Yu.D. Mechanochemical Cleavage of DNA by Ultrasound. «Ultrasonics: Theory, Techniques and Practical Applications.», 2013, pp.1-24.
4. С. Л. Гроховский, И. А. Ильичева, Л. А. Панченко, М. В. Головкин, Д.Ю. Нечипуренко, Р.В.Полозов, Ю.Д. Нечипуренко. Ультразвуковое расщепление ДНК в комплексах с катионами Ag(I), Cu(II), Hg(II). Биофизика, т.58, вып. 1, 2013 с. 36-46.
5. M.S. Poptsova, I.A. Il’icheva, D.Yu. Nechipurenko, L.A. Panchenko, M.V. Khodikov, N.Y. Oparina, R.V. Polozov, Yu.D. Nechipurenko & S.L. Grokhovsky. Nonrandom DNA fragmentation in next-generation sequencing. Scientific Reports 31, 2014, pp.4532-4535 DOI.
6. Нечпуренко Ю.Д., Урошлев Л.А., Абдулаев Э.Т., Ходыков М.В., Полозов Р.В., Панченко Л.А., Ильичева И.А. Механохимическое расщепление ДНК и свойства регуляторных участков генома . в сборнике Сборник научных трудов VI Съезда биофизиков России (16.09.2019 - 21.09.2019), место издания ООО Полиграфическое объединение "Плехановец" Краснодар, том 1, тезисы, с. 120-121 DOI