Описание:План курса лекций
«Введение в Химическую информатику»
Лекция 1 ( 2 часа). Введение.
Химическая информатика как новая научная дисциплина. Основные направления, задачи и методы Хемоинформатики. Место хемоинформатики среди других областей теоретической химии. Моделирование связи между структурой и свойствами химических объектов (SAR/QSAR/QSPR) с целью прогнозирования свойств новых химических соединений и конструирования материалов с заранее заданными свойствами. Понятие о методологии построения статистических моделей “структура-свойство”. Их применение в различных областях исследований для прогнозирования свойств химических соединений и дизайна новых материалов. Организация хранения, анализа и поиска химической информации, представления о химических базах данных. Общий протокол Хемоинформатики. Современные направления развития Химической информатики. Понятие об информатике полимеров, материалов и наноинформатике. Связь Хемоинформатики с хемометрикой и биоинформатикой. Историческая справка. Основные научные материалы по Хемоинформатике.
Тема 1. Представление химических объектов в Хемоинформатике.
Лекция 2 ( 2 часа). Основные понятия о химическом объекте. Типичные представления молекул в химии (структурная формула, химическая формула, тривиальное имя). Элементы структуры химических соединений (атомы, химическая связь, степень окисления, электронная структура и др.). Трехмерная геометрия молекул. Типы изомерии. Основные понятия стереохимии. Конформации молекул. Химические реакции. Химическая структура полимеров и кристаллов. Понятие о структурах биологических макромолекул.
Лекция 3 ( 2 часа). Особенности представления химических объектов в Хемоинформатике. Виды компьютерных представлений химических структур. Кодирование представлений и требования к ним. Типы линейных представлений - имена; линейные нотации SMILES, их правила и форматы; нотации SMARTS; SLN; InChI. Понятие о битовой строке. Битовые представления - Структурные ключи, молекулярные отпечатки пальцев, хэш-коды, хэшированные молекулярные отпечатки.
Лекция 4 ( 2 часа). Структурные диаграммы. Представление молекулярных графов. Базовые элементы теории графов. Матричные представления, виды матриц. Таблицы связности. Структуры Маркуша. Трехмерные представления. Координатные представления. Виды трехмерных представлений. Стандартные форматы файлов в Хемоинформатике. Основные форматы файлов химических структур (mol, sdf, mol2,). Конвертация между представлениями различного уровня 1D-2D-3D. Основные программы конвертации.
Семинар 1 ( 2 часа). Ввод и редактирование структур молекул с использованием интерактивных графических редакторов. Создание файлов в стандартных форматах, содержащих целевое представление молекул. Работа с программой MarvinSketch из комплекса ChemAxon. Перекодировка представлений молекул с использованием свободно доступного программного обеспечения (программа OpenBabel). Визуализация файлов, содержащих структуры: малых молекул (с помощью программы MarvinView из комплекса ChemAxon), кристаллов низкомолекулярных соединений и неорганических материалов (с помощью программы Mercury), а также макромолекул (с помощью программы MarvinSpace из программного комплекса ChemAxon, а также программного комплекса Chimera).
Тема 2. Базы данных в Химической информатике
Лекция 5 (2 часа). Общие сведения о химических базах данных и их особенностях. Классификация баз данных. Характеристика важнейших базы данных, содержащих информацию о структурах и свойствах соединений, а также информацию о спектрах и кристаллах (CAS/SciFinder, Cambridge Structural Database , PubChem , ZINK, Protein Data Bank, ChemSpider).
Виды поиска в базах данных. Структурный поиск. Подструктурный поиск. Поиск по молекулярному сходству. Поиск по структурам Маркуша. Поиск в базах данных трехмерных структур. Понятие о фармакофорах, поиск по фармакофорам.
Семинар 2 (2 часа). Создание баз данных по структурам и свойствам химических соединений и работа с ними с использованием программного комплекса ChemAxon.
Тема 3. Моделирование связи “структура-свойство” (SAR/QSAR/QSPR, structure-activity relationships/quantitative structure-activity/property relationships)
Лекция 6 (2 часа). Методология моделирования связи “структура-свойство”. Задачи. История развития моделирования “структура-свойство”. Области использования моделей “структура-свойство”.
Концепция молекулярных дескрипторов. Классификация и характеристики. Топологические(2D) дескрипторы: фрагментные дескрипторы, топологические индексы. Трехмерные (3D) дескрипторы: геометрические, дескрипторы поверхности. Фармакофорные дескрипторы. Физико-химические дескрипторы. Квантово-химические дескрипторы. Дескрипторы молекулярных полей. Дескрипторы молекулярного подобия. Компьютерные программы и ресурсы для расчета дескрипторов.
Лекция 7 (2 часа). Построение и валидация моделей “структура-свойство”. Предоработка данных. Общие принципы построения моделей “структура-свойство”. Метод наименьших квадратов. Понятие о переобучении и принцип оптимальной сложности моделей. Принципы отбора дескрипторов. Общие принципы валидации моделей. Понятие о внутреннем и внешнем, перекрестном и скользящем контроле. Количественные показатели качества регрессионных моделей. Количественные показатели качества классификационных моделей. Оценка качества моделей для виртуального скрининга: ROC-кривые. Понятие об области применимости моделей.
Лекция 8 (2 часа). Регрессионные методы машинного обучения, используемые для построения моделей “структура-свойство”. Множественная линейная регрессия. Метод частичных наименьших квадратов (PLS). Регрессия на опорных векторах. Многослойные нейронные сети.
Лекция 9 (2 часа). Классификационные методы машинного обучения, используемые для построения моделей “структура-свойство”. Метод ближайших соседей. Машина опорных векторов. Деревья решений. Случайный лес. Метод «наивного» Байеса.
Семинар 3 (2 часа). Программы моделирования “структура-свойство”. Построение регрессионных и классификационных моделей “структура-свойство” с помощью программных комплексов WEKA и NASAWIN.
Лекция 10 (2 часа). Введение в информатику материалов. Обработка информации о структурах полимеров на компьютерах. Количественное прогнозирование физических свойств аморфных полимеров с помощью методов Аскадского, Ван-Кревелена и Бицерано. Использование моделей QSPR для прогнозирования свойств полимерных материалов. Примеры направленного дизайна полимерных материалов, обладающих заданными свойствами, с использованием методов QSPR. Особенности построения моделей «структура-свойство» для разных типов материалов. Моделирование свойств наноматериалов, кристаллов, керамики, сплавов металлов, гетерогенных катализаторов, поверхностно-активных веществ и др.
Тема 4. Дизайн химических соединений и материалов с заданными свойствами
Лекция 11 (2 часа). Химическое пространство. Химические пространства, основанные на графах и векторах дескрипторов. Понятие о сходстве молекул. Индекс Танимото. Квантовое сходство молекул. Принцип молекулярного подобия. Методы визуализации химического пространства. Методы понижения размерности данных. Метод главных компонент, карты Кохонена, генеративные топографические карты и примеры их использования в химической информатике. Навигация по химическому пространству. Понятие о картографии материалов.
Лекция 12 (2 часа). Формирование виртуальных библиотек химических соединений и материалов. Формирование комбинаторных библиотек. Понятие о виртуальном скрининге. Методы виртуального скрининга, основанные на структурах лигандов (низкомолекулярных соединений). Поиск по сходству с использованием 1D, 2D и 3D-представлений молекул. Примеры дизайна новых химических структур и материалов.
Лекция 13 (2 часа). Основные этапы разработки лекарственных препаратов. Понятие о “воронке” виртуального скрининга. Свойства ADMET и основанные на них фильтры. Прогнозирование токсичности. Правило Липинского. Понятие о методах 3D-QSAR. Методы пространственного выравнивания. Проблема выбора активной конформации. Использование воображаемой решетки. Методы CoMFA, CoMSIA, GRID/GOLPE. Методы, основанные на квантовом сходстве. Метод непрерывных полей. Комбинирование методов 3D-QSAR с квантово-химическим моделированием. Факмакофоры и фармакофорный поиск. Виртуальный скрининг, основанный на структурах биологических мишений. Молекулярный докинг. Оценочные функции для взаимодействия «лиганд-белок».