Описание:План курса лекций
«Введение в Химическую информатику»
Лекция 1 ( 2 часа). Вводная.
Роль Хемоинформатики в современных научных исследованиях. Современные направления развития Химической информатики - информатика материалов и наноинформатика. Основные направления, задачи и методы Хемоинформатики: организация хранения, анализа и поиска химической информации; представление химических объектов; моделирование связи между структурой и свойствами химических объектов (SAR/QSAR/QSPR) с целью прогнозирования свойств новых химических соединений и конструирования материалов с заранее заданными свойствами. Общий протокол Хемоинформатики. Химическая информатика как раздел теоретической химии и ее место среди других разделов. Связь Хемоинформатики с хемометрикой и биоинформатикой. Основные научные материалы по Хемоинформатике.
Тема 1. Представление химических объектов в Хемоинформатике.
Лекция 2 ( 2 часа). Основные понятия о химическом объекте. Строение молекул. Типы химических связей и их характеристики (энергии связей, длины связей). Понятие об электроотрицательности, полярность химических связей, парциальные заряды на атомах. Молекулярный электростатический потенциал.
Геометрия молекул. Конфигурация и конформация. Типы изомерии (структурная, хиральность). Поверхность потенциальной энергии (ППЭ) молекулярной системы. Понятие о динамической стереохимии. Строение молекул в рамках метода МО. Супрамолекулярные системы. Кислотные и основные свойства молекул.
Лекция 3 ( 2 часа). Виды и особенности представлений химических структур в Хемоинформатике. Кодирующие представления. Структурная диаграмма. Понятие молекулярных графов. Базовые элементы теории графов. Линейные нотации как представления графов (SMILES, их правила и форматы; нотации SMARTS; SLN). Коды InChI. Векторные представления графов, битовая строка. Структурные ключи, молекулярные отпечатки, хэшированные молекулярные отпечатки.
Лекция 4 ( 2 часа). Виды и особенности представлений химических структур в Хемоинформатике (продолжение). Матричные представления графов, виды матриц. Таблицы связности. Структуры Маркуша. Трехмерные представления молекул. Координатные представления. Виды трехмерных представлений. Стандартные форматы файлов в Хемоинформатике. Основные форматы файлов химических структур (mol, sdf, mol2,). Конвертация между представлениями различного уровня 1D-2D-3D. Основные программы конвертации.
Семинар 1 ( 2 часа). Ввод и редактирование структур молекул с использованием интерактивных графических редакторов. Создание файлов в стандартных форматах, содержащих целевое представление молекул. Работа с программой MarvinSketch из комплекса ChemAxon. Перекодировка представлений молекул с использованием свободно доступного программного обеспечения (программа OpenBabel). Визуализация файлов, содержащих структуры: малых молекул (с помощью программы MarvinView из комплекса ChemAxon), кристаллов низкомолекулярных соединений и неорганических материалов (с помощью программы Mercury).
Тема 2. Базы данных в Химической информатике
Лекция 5 (2 часа). Общие сведения о химических базах данных и их особенностях. Классификация баз данных. Характеристика важнейших баз данных, содержащих информацию о структурах и свойствах соединений, а также информацию о спектрах и кристаллах (CAS/SciFinder, Cambridge Structural Database , PubChem , ZINС, Protein Data Bank, ChemSpider).
Виды поиска в базах данных. Структурный поиск. Подструктурный поиск. Поиск по молекулярному сходству. Поиск по структурам Маркуша. Поиск в базах данных трехмерных структур. Понятие о фармакофорах, поиск по фармакофорам.
Семинар 2 (2 часа). Работа on-line с общедоступными химическими базами (PubChem , ZINС, ChemSpider). Создание базы данных по структурам и свойствам химических соединений с использованием программного комплекса ChemAxon (InstantChem).
Тема 3. Моделирование связи “структура-свойство” (SAR/QSAR/QSPR, structure-activity relationships/quantitative structure-activity/property relationships)
Лекция 6 (2 часа). Методология моделирования связи “структура-свойство”. Задачи. История развития моделирования “структура-свойство”. Области использования моделей “структура-свойство”. Концепция молекулярных дескрипторов. Классификация и характеристики. Топологические(2D) дескрипторы: фрагментные дескрипторы, топологические индексы. Трехмерные (3D) дескрипторы: геометрические, дескрипторы поверхности. Фармакофорные дескрипторы. Физико-химические дескрипторы. Квантово-химические дескрипторы. Дескрипторы молекулярных полей. Дескрипторы молекулярного подобия. Компьютерные программы и ресурсы для расчета дескрипторов.
Лекция 7 (2 часа). Общие принципы построения моделей “структура-свойство”. Предобработка данных: «химическая чистка» и формально-математические преобразования. Основы статистической теории обучения. Функции потерь, эмпирического и ожидаемого риска. Принцип максимального правдоподобия и метод наименьших квадратов. Множественная линейная регрессия. Понятие о переподгонке (переобучении) и принцип оптимальной сложности моделей.
Лекция 8 (2 часа). Принципы отбора дескрипторов. Общие принципы валидации моделей. Понятие о внутреннем и внешнем, перекрестном и скользящем контроле. Количественные показатели качества регрессионных моделей. Количественные показатели качества классификационных моделей. Оценка качества моделей для виртуального скрининга: ROC-кривые. Понятие об области применимости моделей.
Лекция 9 (2 часа). Регрессионные методы машинного обучения, используемые для построения моделей “структура-свойство”. Метод k ближайших соседей для регрессии. Метод частичных наименьших квадратов (PLS). Регуляризация и гребневая регрессия. Многослойные нейронные сети. Нейронные сети с «глубоким обучением».
Лекция 10 (2 часа). Классификационные методы машинного обучения, используемые для построния моделей “структура-свойство”. Деревья решений. Случайный лес. Машина опорных векторов. Понятие о ядрах (kernels). Регрессия на опорных векторах. Метод «наивного» Байеса. Метод k ближайших соседей для классификации.
Семинар 3 (2 часа). Программы моделирования “структура-свойство”. Построение регрессионных и классификационных моделей “структура-свойство” с помощью программных комплексов WEKA и NASAWIN, LibSVM.
Семинар 4 (2 часа). Программы моделирования “структура-свойство”. Построение регрессионных “структура-свойство” с помощью программного комплекса ISIDA.
Лекция 11 (2 часа). Введение в информатику материалов. Особенности построения моделей «структура-свойство» для разных типов материалов. Моделирование свойств низкомолекулярных материалов, кристаллов, наноматериалов, полимеров. Обработка информации о структурах полимеров на компьютерах. Количественное прогнозирование физических свойств аморфных полимеров с помощью методов Аскадского, Ван-Кревелена и Бицерано. Использование моделей QSPR для прогнозирования свойств полимерных материалов.
Тема 4. Дизайн химических соединений и материалов с заданными свойствами
Лекция 12 (2 часа). Химическое пространство. Методы понижения размерности данных и визуализации химического пространства. Метод главных компонент. Самоорганизующиеся карты Кохонена. Метод генеративных топографических карт. Понятие о картографии материалов. Дизайн химических соединений и материалов с помощью карт химического пространства.
Лекция 13 (2 часа). Понятие о виртуальном скрининге. «Воронка» виртуального скрининга. Методы формирования виртуальных библиотек химических соединений и материалов. Примеры дизайна новых химических структур и материалов.
Лекция 14 (2 часа). Понятие о методах 3D-QSAR. Методы пространственного выравнивания. Проблема выбора активной конформации. Использование воображаемой решетки. Методы CoMFA, CoMSIA, GRID/GOLPE. Принципы дизайна химических соединений с использованием методов 3D-QSAR. Комбинирование методов 3D-QSAR с квантово-химическим моделированием.