ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
# | Сроки | Название |
1 | 1 января 2016 г.-31 декабря 2016 г. | Математическое и программное обеспечение защищенных информационных технологий 2016-2020 |
Результаты этапа: | ||
2 | 1 января 2017 г.-31 декабря 2017 г. | Математическое и программное обеспечение защищенных информационных технологий 2016-2020 |
Результаты этапа: На направлении «Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах» проводились исследования, направленные на анализ существующих и поиск новых эффективных методов применительно к коллекциям данных научного содержания. По результатам исследований апробированы методы извлечения структурированных данных из гипертекстовых документов при наличии онтологического описания информационных объектов. Разработаны подходы к извлечению структурированных данных из коллекций текстовых документов научного содержания при заданных предположениях о возможном тематическом составе извлекаемой информации. Алгоритмы поиска шаблонов разметки текстового документа позволяют определить элементы документа, которые имеют одинаковую визуальную структуру, в частности, списки значений. Методы онтологического анализа применяются для определения соответствия между этими фрагментами текста и элементами модели данных извлекаемого объекта. Данный подход был проверен на задаче извлечения данных о предстоящих научных мероприятиях из сообщений в Интернет, распространяемых через списка рассылки электронной почты. Разработан алгоритм поиска по ключевым словам в коллекции взаимосвязанных объектов, помеченных наборами ключевых слов. Суть алгоритма заключается в следующем. Основой алгоритма вычисления смысловой близости между наборами ключевых слов является следующее наблюдение: уровень похожести слов x и y увеличивается, если существует большое число слов k, входящих в одни наборы и с x, и с y. Общие слова k выступают в роли общего контекста для слов x и y. Вычисления контекстной близости для пары вершин производится по графу ключевых слов. При этом высокие частоты вхождений слов x и y в различные наборы негативно влияют на уровень близости: частотные слова склонны иметь больше общих контекстов. Таким образом возникает естественная идея нормировки близости на частоты встречаемости слов, для которых необходимо вычислить уровень близости. Кроме того, поскольку слова x, y и k могут все входить в один набор, то в таком случае связь слов x и y через слово k будет отражать скорее факт совместной встречаемости x и y в одном наборе, а не контекстную близость этой пары слов. Реализованы алгоритмы подсистемы обработки ключевых слов, которые производят определение семантической близости пары слов, подготовку тезауруса ключевых слов. Код ядра представляет собой модули, процедуры и скрипты на языке Python с использованием открытых математических пакетов (Numpy, Pandas, Scipy), а также пакетов для анализа данных и машинного обучения (Scikit-learn, XGBoost). Разработаны методы и алгоритмы выделения скрытых зависимостей между объектами по заданным наборам свойств. Рассматривалась задача выделения междисциплинарных исследований на основании анализа публикационной активности сотрудников организаций и их подразделений, а также их тематической принадлежности. Тематическая классификация данных, то есть отнесение объекта к той или иной предметной области, может быть выполнена на основе неполной тематической классификации источников информации. Например, если некоторые научные конференции, периодические издания или научные общества отнесены к тем или иным предметным областям, то тематика других информационных объектов может быть с некоторой степенью достоверности определена в результате распространения информации о тематике по сети соавторов. На основе такой классификации производится анализ области научных интересов коллектива или отдельного пользователя. Междисциплинарными исследованиями считаются совместные работы авторов, основные области интересов, которых имеют большое семантическое расстояние. В рамках данной работы был выполнен сбор первичных данных для проведения такого анализа общим объёмом более 500 тысяч записей. Были разработаны алгоритмы выявления междисциплинарных исследований и проведена экспертная оценка результатов автоматического метода определения научных взаимосвязей структурных подразделений Московского университета, которая показала высокую корреляцию между результатами автоматического анализа и значениями экспертной оценки, что свидетельствует о возможности применения данной методики для решения прикладных задач в более широком масштабе. Разработаны в тестовом режиме прошли апробацию модели и алгоритмы, позволяющие извлекать информацию о ключевых словах из гипертекстовых документов. Разработаны методы, способные определять в автоматическом режиме близость объектов наукометрической системы с использованием техник машинного обучения и коллекции наборов ключевых слов. Алгоритм, реализующий этот метод, восстанавливает близость объектов по набору заданных свойств, извлекая при этом скрытые зависимости в этих свойствах, которые позволяют добиться лучшего качества в задаче определения семантической близости объектов наукометрической системы. На направлении «Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ» Разработан учебный курс на английском языке “Software and Programming Languages Theory”, посвящённый математическим методам описания языков программирования (как общего назначения, так и предметно-ориентированных), а также — получению формальных моделей языков программирования и программ на основе таких методов. Курс прочитан в весеннем семестре 2016-17 учебного года на механико-математическом факультете МГУ имени М.В. Ломоносова в качестве курса “по выбору кафедры” вычислительной математики. Учебная программная реализация средства проверки типов исчисления конструкции дополнена правилами редукции для интерпретации типов идентичности аналогично гомотопической теории типов. Отмечено существенное снижение производительности средства проверки типов, вызванное высокой вычислительной сложностью схемы проверки выполнения новых правил. На направлении «Исследования моделей логического разграничения доступа к ресурсам сложно организованных информационных систем» проанализированы существующие и разработаны подходы к реализации модели логического разграничения доступа (ЛРД) к ресурсам больших и сложно организованных информационных систем, данные которых хранятся в реляционной базе. При использовании реляционной модели ЛРД, основной объем вычислений при проверке прав доступа пользователя к объекту выполняется системой управления базой данных и алгоритм проверки зависит от используемой СУБД, что затрудняет теоретическую оценку производительности. При отсутствии в системе правил, явно запрещающих пользователю доступ к объекту, при определенных условиях разумное индексирование базы данных может обеспечить трудоемкость проверки прав доступа, пропорциональное логарифму количества объектов в системе. Однако, трудоемкость операций проверки доступа к объекту в любом случае зависит от различных аспектов, данных, хранящихся в базе, таких как связность социального графа системы. Эксперименты с использованием базы данных ИАС “ИСТИНА” показывают, что использование реляционной модели ЛРД дает от двукратного до шестикратного прироста производительности операций проверки права доступа определенного пользователя к определенному объекту по сравнению с реализацией тех же правил предоставления пользователю доступа к объекту без использования механизмов реляционной модели ЛРД. При проведении эксперимента при загрузке страницы с информацией об объекте и со списком разрешенных для пользователя операций над объектом сначала с использованием реляционной модели ЛРД генерировался список разрешенных операций над целевым объектом, а затем при каждой проверке права доступа к объекту в процессе формирования страницы бралась информация из этого списка. После окончания формирования страницы список очищался. В последние версии реляционной модели ЛРД введены новые понятия, используемые для моделирования изменения отношений между объектами системы при совершении пользователем действия над объектами. Данный объект представляет собой право на совершение комбинированного действия, изменяющего атрибуты нескольких объектов системы и отношений между ними. С учетом изложенного выше тема НИР «Математическое и программное обеспечение защищенных информационных технологий» является актуальной и с позиции поисковых, и в плане прикладных исследований. | ||
3 | 1 января 2018 г.-31 декабря 2018 г. | Математическое и программное обеспечение защищенных информационных технологий 2016-2020 |
Результаты этапа: На направлении «Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах» получены следующие результаты. Для случая произвольных рациональных множеств регулярных языков доказаны следующие утверждения. 1) Алгоритмическая неразрешимость задачи проверки равенства рациональных множеств. 2) Неразрешимость проверки K-минимальности заданного представления рационального множества. 3) Разрешимость задачи нахождения Delta-минимального представления в случае, когда множество образует полугруппу. 4) Показана автоматность полугрупп факториальных языков. -Разработаны алгоритмы поиска по ключевым словам в коллекции взаимосвязанных объектов, программные реализации протестированы и находятся на этапе внедрения в ИАС «ИСТИНА». -Разработаны алгоритмы поиска экспертов по ключевым словам, программные реализации протестированы и находятся на этапе внедрения в ИАС «ИСТИНА». -Опубликована статья «Графовые методы определения семантической близости пары ключевых слов и их применения к задаче кластеризации ключевых слов» в журнале «Программная инженерия» (Том 9, № 6, 2018 год). -Подготовлена к защите диссертационная работа К.В.Лунева по этой теме. На направлении «Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ» - Разработана альтернативная схема проверки типов, которая позволила бы получить учебное средство проверки типов лямбда-исчисления с зависимыми типами. - Разработан набор практических заданий для учебного курса, посвященного математическим методам описания языков программирования и получению формальных моделей языков программирования и программ на основе таких методов. На направлении «Исследования моделей логического разграничения доступа к ресурсам сложно организованных информационных систем» - Разработаны программные средства, позволяющие получать полное описание реляционной модели ЛРД на основании значительно более компактного и удобочитаемого описания правил предоставления доступа к объектам системы на языке Python. | ||
4 | 1 января 2019 г.-31 января 2019 г. | Математическое и программное обеспечение защищенных информационных технологий 2016-2020 |
Результаты этапа: На направлении «Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах» - Разработан алгоритм выбора запроса эксперту в информационной системе, построенной с использованием формальной онтологической модели. - Определено понятие информативности вопроса. - Реализован алгоритм вычисления информативности запроса. Выбор оптимального вопроса производится последовательным просмотром возможных вопросов. На направлении «Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ» - Разработаны модели и реализованы механизмы проверки типов для лямбда-исчисления с зависимыми типами без полиморфизма и конструкторов типов. - Внесены модификации в курсы «Математические модели вычислений» и «Математические модели программ и языков программирования». На направлении «Исследования моделей разграничения доступа к ресурсам сложно организованных - Исследованы системы с использованием графового представления данных. В большинстве случаев графовые модели используются при поиске оптимальных путей отображения больших объёмов, данных и повышения эффективности восприятия этих данных оператором безопасности. - Проведён анализ возможно применимых средств для графового представления модели и выбран оптимальный. Таким образом, использование графового представления позволит без лишних затрат визуализировать модель разграничения доступ. - Были задокументированы основные блоки кода системы с указанием возвращаемых значений и параметров, а также их типов. Блок визуализации также задокументирован. - Поставлена и сформулирована задача автоматического добавления документации при изменении прав доступа посредством графового представления (в разработке). | ||
5 | 1 января 2020 г.-31 декабря 2020 г. | Математическое и программное обеспечение защищенных информационных технологий 2016-2020 |
Результаты этапа: На направлении "Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах" - Рассмотрена задача логического вывода в онтологиях,правила вывода которых задаются помеченными графам с одним выделенным ребром. На направлении "Исследование свойств разновидностей типизированного лямбда-вычисления в приложении к задачам построения формальных моделей программ" - Подготовлены учебные реализации двухсторонней проверки типов для λ-исчисления с простыми типами и для полиморфного λ-исчисления. Учебные реализации выполнены на языках Haskell и Python. Реализация на языке Haskell включена в программу спецкурса и в комплект его материалов, апробирована в 2019-20 учебном году. На направлении "Исследования моделей разграничения доступа к ресурсам сложно организованных информационных систем" -Введены способы разделения пользователей по уровням доверия таким образом, чтобы пользователи более низкого уровня доверия не могли получить права доступа к объектам, определенные для пользователей более высокого уровня. -Введены специальные полномочия для объектов, согласно которым распределяются права доступа к этим объектам. | ||
6 | 1 января 2021 г.-31 декабря 2021 г. | Математическое и программное обеспечение защищенных информационных технологий |
Результаты этапа: На направлении "Методы обработки и анализа слабоструктурированных данных в распределенных информационных системах" получены следующие результаты. - Архитектура модуля была переработана с целью сделать ядро независимым от специфики отдельных типов. - Добавлена возможность задавать правила для учета весовых коэффициентов результатов деятельности. - Добавлена фильтрация по году результата деятельности. Добавлена возможность отключения учета автоматических переводов ключевых слов. - Добавлена возможность поиска по рубрикам классификаторов ГРНТИ и ОЭСР в дополнение к поиску по ключевым словам. - Разработан новый метод оценки масштаба данных. - Разработан новый метод визуальной детекции объектов. - Разработан новый метод детекции объектов в трехмерном пространстве. На направлении "Исследование свойств разновидностей типизированного лямбда-исчисления в приложении к задачам построения формальных моделей программ"получены следующие результаты. - В учебный курс «Математические модели вычислений» интегрированы краткие доказательства основных свойств нетипизированного и типизированного λ-исчисления. На направлении "Исследования моделей разграничения доступа к ресурсам сложно организованных информационных систем" получены следующие результаты. - Разработан компилятор реляционной модели разграничения доступа. - В ходе разработки спроектирована, реализована и протестирована функция обработки примитивных отношений. -Доказана алгоритмическая разрешимость задачи проверки эквивалентности | ||
7 | 1 января 2022 г.-31 декабря 2022 г. | Математическое и программное обеспечение защищенных информационных технологий |
Результаты этапа: На направлении "Методы обработки и анализа слабоструктурированных данных в информационно-аналитических больших системах" Проведено исследование эффективности методов машинного обучения при построении эвристик решения задач комбинаторной оптимизации. Разработан точный алгоритм решения на основе метода ветвей и границ. Построена модель предсказания ожидаемого числа дальнейших ветвлений алгоритма при выборе переменной ветвления на текущем этапе. Получены оценки эффективности разработанных средств кэширования сложных запросов на модельной задаче. Модернизирована архитектура редактора (конструктора) критериев для отбора и фильтрации объектов. Показ результатов выполнения запросов переведён на клиент-серверную архитектуру. Подготовлен предварительный вариант учебного пособия по математическим основам машинного обучения. На направлении "Теоретические вопросы построения формальных моделей программ" Учебный курс «Математические модели вычислений» дополнен материалами статьи «Brown, Palsberg. Breaking Through the Normalization Barrier: A Self-Interpreter for F-omega. ACM POPL ’16, 2016» о самоинтерпретации λ-исчисления второго порядка с конструкторами типов. | ||
8 | 1 января 2023 г.-31 декабря 2023 г. | Математическое и программное обеспечение защищенных информационных технологий |
Результаты этапа: На направлении "Методы обработки и анализа слабоструктурированных данных в информационно-аналитических больших системах" Рассмотрены методы обеспечения конфиденциальности данных на основе гомоморфного шифрования в схеме обучения с ошибками, и методы защищенных многосторонних вычислений. Реализованы методы вычисления коэффициентов логистической регрессии и вывод предсказания сети прямого распространения по конфиденциальным исходным данным. Проведена оценка вычислительной и коммуникационной сложности. Разработаны механизмы кластеризации первичных данных. В этом случае размер графа зависимостей существенно сокращается, что делает инвалидацию кэш-памяти избыточной. Реализованы механизмы поиска следующих объектов наукометрической информационной системы: публикаций, кандидатских и докторских диссертаций, научно-исследовательских работ. На направлении "Теоретические вопросы построения формальных моделей программ" Разработано учебное средство автоматизации построения термов с заданным типом (автоматизации доказательств) для λ-исчисления с простыми типами. | ||
9 | 1 января 2024 г.-31 декабря 2024 г. | Математическое и программное обеспечение защищенных информационных технологий |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".