Аннотация:В магистерской диссертации рассматривается задача построения вопросно-ответной системы по коллекции документов сложной структуры по сложной предметной области. А именно, рассматриваются документы типа «вопрос-ответ» по банковской и финансовой тематике. Требуется по вновь введенному вопросу предложить ответы на похожие ранее заданные вопросы.
Задача является очень актуальной. В крупных кредитных организациях существуют специальные подразделения («колл-центры»), отвечающие на сотни тысяч вопросов в год. Имеется потребность перехода на, хотя бы частичное, снижение нагрузки на операторов путем разработки интеллектуальных «чат-ботов», отвечающих на вопросы пользователей в автоматическом режиме.
Проблема заключается в жанре документов типа «вопрос-ответ». Как вопросы, так и ответы часто затрагивают несколько тем, полезное содержание зашумлено лишней лексикой, противоречивыми подробностями.
Формально задача ставится как улучшение ранжирования поисковой выдачи. В качестве базы данных использовалась поисковая машина, развиваемая лабораторией анализа информационных ресурсов НИВЦ МГУ вместе со своими партнерами.
Критерием является степень соответствия экспертной разметки релевантных документов.
Решены вопросы сбора коллекции документов из реальных источников – сайтов-агрегаторов документов указанного типа (всего было собрано около двухсот тысяч документов).
Был произведен отбор тестовых вопросов, организована оценка релевантных документов с привлечением внешних экспертов.
Проведены исследования по возможности улучшения качества поиска в указанной коллекции при использовании технологии учета дистрибутивного распределения слов word2vec (был предоставлен адаптированный модуль расчета модели word2vec).
Задача является актуальной, так как указанная технология продемонстрировала улучшение при решении задач информационного поиска различных типов.
Исследовались следующие стратегии модификации оценки релевантности документов, применяя word2vec: усреднение векторов, сопоставление максимальных значений, в том числе по части термов. Также использовались фильтры стоп-слов, применялся нечеткий поиск.
Получены интересные теоретические оценки применимости аппарата дистрибутивной семантики для улучшения качества поиска в коллекции документов типа «вопрос-ответ».