![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
В наши дни значительная часть циркулирующей в обществе информации перенесена на машинные носители, а глобальные компьютерные сети обеспечивают широкий доступ к этой информации. Часто эта информации представлена в текстовом виде. В этих условиях для эффективного поиска и обработки информации нужны новые лингвистически содержательные методы и технологии работы с большими массивами текстовых данных, новые методы формального описания данных и алгоритмов их обработки, новые теоретически обоснованные методы и средства создания программного обеспечения. Для обработки математических текстов и формул необходимы адекватные алгоритмы и технологии символьных вычислений на основе методов компьютерной алгебры. В ходе реализации научно-исследовательского проекта предполагается получить следующие результаты. Новые подходы к проектированию универсальных языков программирования, основанные на рассмотрении сторонних вычислительных моделей как алгебр объектов, новые методы оптимизации алгоритмов синтаксического анализа формальных языков на основе графовых представлений. Новые технологии, методы, алгоритмы и программы обработки больших массивов текстовой информации, в том числе, для решения задач бизнес-аналитики и веб-аналитики. Новые алгоритмы решения задач компьютерной алгебры.
В области компьютерной алгебры: - разработаны новые эффективные алгоритмы символьного решения q-разностных уравнений и исследования особых точек линейных обыкновенных дифференциальных уравнений с полиномиальными коэффициентами; - доказана алгоритмическая неразрешимость распознавания существования решений в виде формальных лорановых рядов и аналитических функций для дифференциальных уравнений в частных производных, а также алгоритмическая неразрешимость задачи проверки единственности аналитического решения для дифференциальных уравнений в частных производных с полиномиальными коэффициентами и граничными условиями. В области компьютерной лингвистики: - разработаны новые методы, алгоритмы и программы определения личностных характеристик автора текста, извлечения терминов из коллекции текстов, синтаксического анализа неполных предложений, автоматического извлечения оценочной лексики заданной предметной области на основе текстовых коллекций и построения словаря оценочных слов в для задачи анализа мнений, аннотирования новостного кластера на основе тематического представления текстов, выявления ключевых и семантически близких слов в научно-технических текстах; - разработаны технологии и поддерживающие их программные средства для сбора и исследования сочетаемости слов, формирования компьютерных словарей сочетаемости, автоматизированного исправления ошибок сочетаемости слов в текстах, построения прикладных систем многоуровневого анализа текстов на естественном языке (в том числе - систем извлечения информации из текстов); выработаны принципы организации коллекции и унификации форматов хранения текстовой информации; сформирована стартовая коллекция научно-технических текстов на русском языке. В области математической лингвистики и теории программирования: - разработан метод построения генератора синтаксических анализаторов с семантическими действиями на основе графовых представлений языков, создан прототип генератора; - проведена классификация графовых представлений (L-графов) формальных языков, разработаны алгоритмы уменьшения циклической сложности для ряда подклассов L-графов, найден алгоритм построения графа сопряжений для подкласса L-графов, описывающих детерминированные языки; выделен подкласс ограниченных L-графов, найдены подходящие для этого подкласса решения задач распознавания, проверки регулярности и эквивалентности; - созданы диалект языка Плэнер для многостилевого окружения и его библиотечная модель, а также библиотечная модель языка Пролог; усовершенствованы библиотечные реализации вычислительных моделей языков Лисп и Ским; создан прототип библиотечной реализации языка Эрланг; сформулированы основные принципы построения универсального языка программирования, ориентированного на моделировние сторонних вычислительных моделей в качестве алгебр объектов; - разработан метод классификации императивных программ на основе их поведения, описываемого в форме системы переписывания термов.
МГУ имени М.В.Ломоносова | Координатор |
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2011 г.-31 декабря 2011 г. | Алгебраические и лингвистические методы в теории и практике программирования |
Результаты этапа: В области компьютерной алгебры: разработан новый эффективный алгоритм символьного решения q-разностных уравнений. В области компьютерной лингвистики: разработаны новые методы определения личностных характеристик автора текста, реализован программный модуль определения профессии автора; разработаны методы и алгоритмы сбора и анализа статистической информации о лексико-семантической сочетаемости слов и семантических ограничениях для правил синтаксического анализа, а также программный компонент вычисления статистики встречаемости синтаксически связанных пар слов в корпусе текстов. Также построена родо-видовая структура методов прототипирования онтологий. В области математической лингвистики и теории программирования: разработан метод построения генератора синтаксических анализаторов с семантическими действиями на основе графовых представлений языков, создан прототип генератора; разработана библиотечная модель языка Пролог. | ||
2 | 1 января 2012 г.-31 декабря 2012 г. | Алгебраические и лингвистические методы в теории и практике программирования |
Результаты этапа: Разработаны алгоритмы и реализовано семейство сервисов визуализации фрагментов терминологической сети. Предложены новые компьютерно-алгебраические алгоритмы исследования особых точек линейных обыкновенных дифференциальных уравнений с полиномиальными коэффициентами. Предложен метод поиска информации в Music XML файлах, основанный на методе волновых правил. Проведена классификация графовых представлений (L-графов) формальных языков. Выполнена модельная реализация графовых описаний в системе компьютерной алгебры. Созданы диалект языка Плэнер для многостилевого окружения и его библиотечная модель. Разработаны технология автоматизированного формирования компьютерных словарей сочетаемости, их развития и сопровождения, а также поддерживающие эту технологию инструментальные средства Разработаны программные инструменты построения прикладных систем многоуровневого анализа текстов на естественном языке, в том числе - систем извлечения информации из текстов. Разработан метод наполнения базы вероятности биграмм с целью выявления устойчивых сочетаний. | ||
3 | 1 января 2013 г.-31 декабря 2013 г. | Алгебраические и лингвистические методы в теории и практике программирования |
Результаты этапа: В области компьютерной алгебры: Доказана алгоритмическая неразрешимость ряда задач проверки существования решений разных видов для линейных дифференциальных и разностных уравнений с полиномиальными коэффициентами. В области компьютерной лингвистики: Разработаны средства автоматизированного пополнения баз статистики словосочетаний. Разработаны методы и программные средства автоматизированного исправления ошибок сочетаемости слов (в текстах на английском языке, написанных неанглоязычными авторами) на основе построенной базы статистики словосочетаний, а также методы синтаксического анализа неполных предложений. Предложены новые методы автоматического извлечения оценочной лексики заданной предметной области на основе текстовых коллекций, определения тональности извлеченных оценочных слов и построения словаря оценочных слов. Выявлены и описаны закономерности родовидовых отношений в терминологических сетях. Создана система-прототип для исследования методов индексирования файлов формата MusicXML. В области математической лингвистики и теории программирования: Найден алгоритм построения графа сопряжений для подкласса L-графов, описывающих детерминированные языки. Алгоритм позволяет устанавливать эквивалентность графовых описаний из подкласса; созданы библиотечные реализации вычислительных моделей языков Forth и Joy. | ||
4 | 1 января 2014 г.-31 декабря 2014 г. | Алгебраические и лингвистические методы в теории и практике программирования |
Результаты этапа: В области компьютерной алгебры: Доказана алгоритмическая неразрешимость распознавания существования решений в виде формальных лорановых рядов и аналитических функций для дифференциальных уравнений в частных производных. В области компьютерной лингвистики: Разработаны и реализованы: программный комплекс для аннотирования новостного кластера на основе тематического представления текстов кластера; программный инструмент для исследования сочетаемости слов на основе статистических данных, извлекаемых из неразмеченных текстовых коллекций; программные средства для поддержки исследований устойчивости сочетаемости слов русского и английского языков и многофакторная модель извлечения терминов из коллекции текстов. Выработаны принципы организации коллекции и унификации форматов хранения текстовой информации; сформирована стартовая коллекция научно-технических текстов на русском языке. В области математической лингвистики и теории программирования: Разработаны алгоритмы уменьшения циклической сложности для некоторых подклассов L-графов. Проведена адаптация многостилевой библиотеки к работе в условиях многопоточных вычислений. | ||
5 | 1 января 2015 г.-31 декабря 2015 г. | Алгебраические и лингвистические методы в теории и практике программирования |
Результаты этапа: В области компьютерной алгебры: Доказана алгоритмическая неразрешимость задачи распознавания существования бесконечно дифференцируемых решений неоднородных дифференциальных уравнений в частных производных с полиномиальными коэффициентами и граничными условиями. В области компьютерной лингвистики: Расширен новыми средствами формальный язык лексико-синтаксических шаблонов для систем извлечения информации из текстов. Разработана, реализована и включена в программный комплекс поддержки языка утилита для извлечения текстовых конструкций и генерации на их основе новых шаблонов в формате XML.Разработаны принципы и методы выявления ключевых слов в научно-технических текстах на базе векторной модели коллекции документов. Разработана программная система, автоматизирующая обнаружение семантически близких слов, ее эффективность подтверждена попаданием в пятерку лучших систем-участников семинара по оценке семантической близости слов конференции Диалог-2015. Для разрабатываемого синтаксического анализатора русского языка реализованы утилиты обработки неполных предложений с использованием алгоритмов машинного обучения. В области математической лингвистики и теории программирования: Разработан метод классификации императивных программ на основе их поведения, описываемого в форме системы переписывания термов. Выделен подкласс ограниченных L-графов; найдены подходящие для этого подкласса решения задач распознавания, проверки регулярности и эквивалентности. Усовершенствованы объектно-ориентированные модели абстрактных вычислителей языков Лисп, Ским, Плэнер. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".