ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
В работе представлен подход к задаче анализа ценностного кода человеческих сообществ на основе обработки текстов, доступных в литературе, социальных сетях и других источниках, а также проект, реализующий этот подход на практике. В основе подхода лежит представление о том, что тексты, создаваемые в определённый исторический период в определённом сообществе людей, объединённых по территориальному, этническому, возрастному и другим признакам, отражают их культурный код, во многом представимый как система ценностей. Для работы с ценностным кодом сначала создаётся классификатор ценностных понятий, удовлетворяющих некоторому набору критериев, а также отбирается корпус текстов, в которых авторы выражают явно или неявно свою приверженность различным ценностям, вошедшим в классификатор. Для построения модели автоматического анализа текста строится обучающая выборка на основе разметки, проводимой экспертами в области лингвистики, социологии и других гуманитарных наук; Результат разметки представляется в виде структуры, разработанной в нашей лаборатории и применимой для широкого класса задач обработки естественного языка; Данная структура позволяет представить в формальном виде результаты работы экспертов в области лингвистики по разметке текстов. Формализация достигается путём представления разметки в виде гиперграфа с возможностью проставления меток вершинам и рёбрам, где метки соответствуют ценностям, входящим в уже упомянутый классификатор. В разметке произвольные фрагменты текста и их множества соотносятся с проявлением ценностей автора или группы людей. После набора достаточного количества размеченных текстов происходит обучение модели для автоматического определения ценностей, выраженных в текстах. Модель строится на принципах, использующих модели внимания, которые широко используются в современном анализе текстов на естественных языках. Затем отбирается корпус текстов, написанных в заданный период времени авторами, входящими в исследуемое сообщество людей; Также отбираются тексты, целевой аудиторией которых являются представители данного сообщества. При применении к анализируемому корпусу текстов моделей, обученных на размеченных текстах, получается оценка проявленности в каждом тексте тех или иных ценностей. В дальнейшем множество автоматических разметок может быть подвергнуто обработке с целью выявления статистических закономерностей, из которых делаются выводы о системе ценностей, присущих данному сообществу. Важной частью работы, кроме всего вышеперечисленного, является оценка качества разметки, проводимой как экспертами, так и обученной моделью; Методика оценки качества также была разработана в нашей лаборатории. Для проведения работ по проекту в лаборатории был создан и продолжает развиваться инструмент, позволяющий экспертам производить разметку текстов в соответствии с разработанной структурой, формировать обучающую выборку и проводить последующую обработку результатов с оценкой их качества. Данный инструментарий применяется как для задачи анализа ценностного кода, так и для других задач обработки естественного языка. Важным результатом проекта является возможность с помощью разработанного инструментария совместной работы специалистов из различных областей гуманитарных и точных дисциплин, что приводит к эффективному решению задач на стыке нескольких областей исследования. В докладе представляется как теоретический материал по актуальности проблемы, постановке задачи и методологии её решения, так и проект, реализующий решение проблемы выявления и анализа ценностного кода. Доклад построен из трёх частей. В первой части рассматривается понятие ценности и ценностного кода, актуальность задачи, а также необходимость разработки гуманитарного, математического и программного инструментария. Во второй части вводятся математические определения и постановка задачи, алгоритмические подходы в обработке естественного языка, применимые к решению данной задачи. Третья часть посвящена описанию практического проекта по анализу ценностного кода, разрабатываемого в лаборатории машинного обучения и семантического анализа. Текущие результаты проекта приводятся и анализируются. http://www.econorus.org/con2023/program.phtml?vid=report&eid=4791