Математическое и программное обеспечение защищенных информационных технологий 2016-2020НИР

Mathematical and software support for secured information technologies. 2016-2020

Источник финансирования НИР

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Математическое и программное обеспечение защищенных информационных технологий 2016-2020
Результаты этапа:
2 1 января 2017 г.-31 декабря 2017 г. Математическое и программное обеспечение защищенных информационных технологий 2016-2020
Результаты этапа: На направлении «Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах» проводились исследования, направленные на анализ существующих и поиск новых эффективных методов применительно к коллекциям данных научного содержания. По результатам исследований апробированы методы извлечения структурированных данных из гипертекстовых документов при наличии онтологического описания информационных объектов. Разработаны подходы к извлечению структурированных данных из коллекций текстовых документов научного содержания при заданных предположениях о возможном тематическом составе извлекаемой информации. Алгоритмы поиска шаблонов разметки текстового документа позволяют определить элементы документа, которые имеют одинаковую визуальную структуру, в частности, списки значений. Методы онтологического анализа применяются для определения соответствия между этими фрагментами текста и элементами модели данных извлекаемого объекта. Данный подход был проверен на задаче извлечения данных о предстоящих научных мероприятиях из сообщений в Интернет, распространяемых через списка рассылки электронной почты. Разработан алгоритм поиска по ключевым словам в коллекции взаимосвязанных объектов, помеченных наборами ключевых слов. Суть алгоритма заключается в следующем. Основой алгоритма вычисления смысловой близости между наборами ключевых слов является следующее наблюдение: уровень похожести слов x и y увеличивается, если существует большое число слов k, входящих в одни наборы и с x, и с y. Общие слова k выступают в роли общего контекста для слов x и y. Вычисления контекстной близости для пары вершин производится по графу ключевых слов. При этом высокие частоты вхождений слов x и y в различные наборы негативно влияют на уровень близости: частотные слова склонны иметь больше общих контекстов. Таким образом возникает естественная идея нормировки близости на частоты встречаемости слов, для которых необходимо вычислить уровень близости. Кроме того, поскольку слова x, y и k могут все входить в один набор, то в таком случае связь слов x и y через слово k будет отражать скорее факт совместной встречаемости x и y в одном наборе, а не контекстную близость этой пары слов. Реализованы алгоритмы подсистемы обработки ключевых слов, которые производят определение семантической близости пары слов, подготовку тезауруса ключевых слов. Код ядра представляет собой модули, процедуры и скрипты на языке Python с использованием открытых математических пакетов (Numpy, Pandas, Scipy), а также пакетов для анализа данных и машинного обучения (Scikit-learn, XGBoost). Разработаны методы и алгоритмы выделения скрытых зависимостей между объектами по заданным наборам свойств. Рассматривалась задача выделения междисциплинарных исследований на основании анализа публикационной активности сотрудников организаций и их подразделений, а также их тематической принадлежности. Тематическая классификация данных, то есть отнесение объекта к той или иной предметной области, может быть выполнена на основе неполной тематической классификации источников информации. Например, если некоторые научные конференции, периодические издания или научные общества отнесены к тем или иным предметным областям, то тематика других информационных объектов может быть с некоторой степенью достоверности определена в результате распространения информации о тематике по сети соавторов. На основе такой классификации производится анализ области научных интересов коллектива или отдельного пользователя. Междисциплинарными исследованиями считаются совместные работы авторов, основные области интересов, которых имеют большое семантическое расстояние. В рамках данной работы был выполнен сбор первичных данных для проведения такого анализа общим объёмом более 500 тысяч записей. Были разработаны алгоритмы выявления междисциплинарных исследований и проведена экспертная оценка результатов автоматического метода определения научных взаимосвязей структурных подразделений Московского университета, которая показала высокую корреляцию между результатами автоматического анализа и значениями экспертной оценки, что свидетельствует о возможности применения данной методики для решения прикладных задач в более широком масштабе. Разработаны в тестовом режиме прошли апробацию модели и алгоритмы, позволяющие извлекать информацию о ключевых словах из гипертекстовых документов. Разработаны методы, способные определять в автоматическом режиме близость объектов наукометрической системы с использованием техник машинного обучения и коллекции наборов ключевых слов. Алгоритм, реализующий этот метод, восстанавливает близость объектов по набору заданных свойств, извлекая при этом скрытые зависимости в этих свойствах, которые позволяют добиться лучшего качества в задаче определения семантической близости объектов наукометрической системы. На направлении «Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ» Разработан учебный курс на английском языке “Software and Programming Languages Theory”, посвящённый математическим методам описания языков программирования (как общего назначения, так и предметно-ориентированных), а также — получению формальных моделей языков программирования и программ на основе таких методов. Курс прочитан в весеннем семестре 2016-17 учебного года на механико-математическом факультете МГУ имени М.В. Ломоносова в качестве курса “по выбору кафедры” вычислительной математики. Учебная программная реализация средства проверки типов исчисления конструкции дополнена правилами редукции для интерпретации типов идентичности аналогично гомотопической теории типов. Отмечено существенное снижение производительности средства проверки типов, вызванное высокой вычислительной сложностью схемы проверки выполнения новых правил. На направлении «Исследования моделей логического разграничения доступа к ресурсам сложно организованных информационных систем» проанализированы существующие и разработаны подходы к реализации модели логического разграничения доступа (ЛРД) к ресурсам больших и сложно организованных информационных систем, данные которых хранятся в реляционной базе. При использовании реляционной модели ЛРД, основной объем вычислений при проверке прав доступа пользователя к объекту выполняется системой управления базой данных и алгоритм проверки зависит от используемой СУБД, что затрудняет теоретическую оценку производительности. При отсутствии в системе правил, явно запрещающих пользователю доступ к объекту, при определенных условиях разумное индексирование базы данных может обеспечить трудоемкость проверки прав доступа, пропорциональное логарифму количества объектов в системе. Однако, трудоемкость операций проверки доступа к объекту в любом случае зависит от различных аспектов, данных, хранящихся в базе, таких как связность социального графа системы. Эксперименты с использованием базы данных ИАС “ИСТИНА” показывают, что использование реляционной модели ЛРД дает от двукратного до шестикратного прироста производительности операций проверки права доступа определенного пользователя к определенному объекту по сравнению с реализацией тех же правил предоставления пользователю доступа к объекту без использования механизмов реляционной модели ЛРД. При проведении эксперимента при загрузке страницы с информацией об объекте и со списком разрешенных для пользователя операций над объектом сначала с использованием реляционной модели ЛРД генерировался список разрешенных операций над целевым объектом, а затем при каждой проверке права доступа к объекту в процессе формирования страницы бралась информация из этого списка. После окончания формирования страницы список очищался. В последние версии реляционной модели ЛРД введены новые понятия, используемые для моделирования изменения отношений между объектами системы при совершении пользователем действия над объектами. Данный объект представляет собой право на совершение комбинированного действия, изменяющего атрибуты нескольких объектов системы и отношений между ними. С учетом изложенного выше тема НИР «Математическое и программное обеспечение защищенных информационных технологий» является актуальной и с позиции поисковых, и в плане прикладных исследований.
3 1 января 2018 г.-31 декабря 2018 г. Математическое и программное обеспечение защищенных информационных технологий 2016-2020
Результаты этапа: На направлении «Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах» проводились исследования, направленные на анализ существующих и поиск новых эффективных методов применительно к коллекциям данных научного содержания. Для случая произвольных рациональных множеств регулярных языков доказаны следующие утверждения. 1) Алгоритмическая неразрешимость задачи проверки равенства рациональных множеств. 2) Неразрешимость проверки K-минимальности заданного представления рационального множества. 3) Разрешимость задачи нахождения Delta-минимального представления в случае, когда множество образует полугруппу. 4) Показана автоматность полугрупп факториальных языков. Разработаны алгоритмы поиска по ключевым словам в коллекции взаимосвязанных объектов, программные реализации протестированы и находятся на этапе внедрения в ИАС «ИСТИНА». Разработаны алгоритмы поиска экспертов по ключевым словам, программные реализации протестированы и находятся на этапе внедрения в ИАС «ИСТИНА». Опубликована статья «Графовые методы определения семантической близости пары ключевых слов и их применения к задаче кластеризации ключевых слов» в журнале «Программная инженерия» (Том 9, № 6, 2018 год). Подготовлена к защите диссертационная работа К.В.Лунева по этой теме. На направлении «Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ» Разработана альтернативная схема проверки типов, которая позволила бы получить учебное средство проверки типов лямбда-исчисления с зависимыми типами. Альтернативная схема основана на сопоставлении термов лямбда-исчисления с образцом в заданном контексте проверки типов. В настоящее время схема реализована для лямбда-исчисления с простыми типами. Разработан набор практических заданий для учебного курса, посвященного математическим методам описания языков программирования и получению формальных моделей языков программирования и программ на основе таких методов. На направлении «Исследования моделей логического разграничения доступа к ресурсам сложно организованных информационных систем» Разработаны программные средства, позволяющие получать полное описание реляционной модели ЛРД на основании значительно более компактного и удобочитаемого описания правил предоставления доступа к объектам системы на языке Python. В настоящее время ведется активная работа над анализом возможностей изменения пользователями прав доступа к объектам системы. Для этого в реляционную модель внесен ряд понятий, используемых в модели Take-Grant. Эта модель является удобной для представления возможностей изменения прав доступа пользователей к объектам систем, представимых в виде графа.
4 1 января 2019 г.-31 января 2019 г. Математическое и программное обеспечение защищенных информационных технологий 2016-2020
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".